תמלול סרטונים באמצעות Gemini multimodal

1. סקירה כללית

בשיעור ה-Lab הזה תלמדו לפתור את הבעיה המורכבת של תמלול סרטונים מרובי-אופנים, באמצעות הנחיה אחת ל-Gemini.

תנתחו סרטונים ותנסו לענות על כל השאלות הבאות בבת אחת:

  • ‫1️⃣ מה נאמר ומתי?
  • ‫2️⃣ מי הדוברים?
  • ‫3️⃣ מי אמר מה?

דוגמה לתוצאה שתתקבל:

7ed458bd4f8c849a.gif

מה תלמדו

  • מתודולוגיה לטיפול בבעיות מורכבות או חדשות שכוללות כמה אופנים
  • טכניקת הנחיה להפרדת נתונים ולשמירה על תשומת הלב: חילוץ טבלאי
  • אסטרטגיות לניצול מקסימלי של ההקשר של מיליון טוקנים ב-Gemini בבקשה אחת
  • דוגמאות מעשיות לתמלילי וידאו מ-multimodal
  • טיפים ואופטימיזציות

מה תצטרכו

  • היכרות עם הפעלת Python ב-notebook (ב-Colab או בכל סביבת Jupyter אחרת)
  • פרויקט ב-Google Cloud‏ (Vertex AI) או מפתח Gemini API‏ (Google AI Studio)
  • ‫20-90 דקות (תלוי אם מריצים במהירות או קוראים ובודקים הכול)

‫ℹ️ העלות הכוללת להרצת שיעור ה-Lab הזה ב-Google Cloud היא פחות מ-5 דולר ארה"ב.

ed255bd97afbedca.png fc7e616a26c8fa40.png c0b9ecec49c859f2.png fc7e616a26c8fa40.png 8f240cd033d2cc65.png

נתחיל?

‫2. לפני שמתחילים

כדי להשתמש ב-Gemini API, יש שתי אפשרויות עיקריות:

  1. באמצעות Vertex AI עם פרויקט ב-Google Cloud
  2. דרך Google AI Studio עם מפתח Gemini API

🛠️ אפשרות 1 – Gemini API דרך Vertex AI

דרישות:

  • פרויקט ב-Google Cloud
  • צריך להפעיל את Vertex AI API בפרויקט הזה

🛠️ אפשרות 2 – Gemini API דרך Google AI Studio

דרישה:

  • מפתח Gemini API

מידע נוסף על קבלת מפתח Gemini API מ-Google AI Studio

3. הפעלת ה-Notebook

בוחרים את הכלי המועדף לפתיחת הפנקס:

🧰 כלי א' – פתיחת ה-notebook ב-Colab

🧰 כלי ב' – פתיחת ה-notebook ב-Colab Enterprise או ב-Vertex AI Workbench

💡 יכול להיות שזו תהיה האפשרות המועדפת אם כבר הגדרתם פרויקט ב-Google Cloud עם מופע של Colab Enterprise או Vertex AI Workbench.

🧰 כלי ג' – קבלת ה-notebook מ-GitHub והרצתו בסביבה שלכם

‫⚠️ תצטרכו להוריד את המחברת מ-GitHub (או לשכפל את המאגר) ולהריץ אותה בסביבת Jupyter שלכם.

‫🗺️ תוכן העניינים של ה-Notebook

כדי לנווט בקלות יותר, כדאי להרחיב את תוכן העניינים ולהשתמש בו. דוגמה:

392ef60165a94bba.png

🏁 הרצת ה-Notebook

הכול מוכן. עכשיו אפשר לעקוב אחרי המחברת ולהריץ אותה. תהנו!...

4. מעולה!

b9a6147d9c7f89bb.gif

כל הכבוד, סיימתם את ה-Codelab!

כדי לפתור את הבעיה המורכבת הזו, השתמשת בטכניקות הבאות:

  • יצירת אב טיפוס באמצעות הנחיות פתוחות כדי לפתח אינטואיציה לגבי נקודות החוזק הטבעיות של Gemini
  • הסבר על האופן שבו פועלים מודלים גדולים של שפה (LLM)
  • יצירת הנחיות ספציפיות יותר ויותר באמצעות אסטרטגיית חילוץ טבלאי
  • יצירת פלט מובנה כדי להתקדם לקוד שמוכן לייצור
  • הוספת המחשה של הנתונים כדי להקל על פירוש התשובות ולשפר את האיטרציות
  • התאמת פרמטרים שמוגדרים כברירת מחדל כדי לשפר את התוצאות
  • עריכת עוד בדיקות, חזרה על התהליך ואפילו העשרה של הנתונים שחולצו

העקרונות האלה רלוונטיים גם לתחומים רבים אחרים של חילוץ נתונים, ויאפשרו לכם לפתור בעיות מורכבות בעצמכם.

מידע נוסף