رونویسی ویدیوی چندوجهی با Gemini

1. بررسی اجمالی

در این آزمایشگاه، با استفاده از یک دستور Gemini، حل مشکل پیچیده رونویسی ویدیوی چندوجهی را خواهید آموخت!

شما فیلم ها را تجزیه و تحلیل خواهید کرد و به دنبال پاسخ دادن به سؤالات زیر به طور همزمان خواهید بود:

  • 1️⃣ چه گفته شد و چه زمانی؟
  • 2️⃣ سخنرانان چه کسانی هستند؟
  • 3️⃣ کی چی گفت؟

در اینجا نمونه ای از آنچه به دست خواهید آورد آورده شده است:

7ed458bd4f8c849a.gif

چیزی که یاد خواهید گرفت

  • روشی برای پرداختن به مسائل چندوجهی جدید یا پیچیده
  • یک تکنیک سریع برای جداسازی داده ها و حفظ توجه: استخراج جدولی
  • استراتژی هایی برای استفاده حداکثری از زمینه 1M-token Gemini در یک درخواست واحد
  • نمونه های عملی از رونویسی های ویدئویی چندوجهی
  • نکات و بهینه سازی ها

آنچه شما نیاز دارید

  • آشنایی با اجرای پایتون در نوت بوک (در Colab یا هر محیط دیگر Jupyter)
  • یک پروژه Google Cloud (Vertex AI) یا یک کلید API Gemini (Google AI Studio)
  • 20-90 دقیقه (بسته به اینکه سریع بدوید یا همه چیز را بخوانید و آزمایش کنید)

95557c237d172e1f.png8173aa8cca5ce8e2.png3a82b6ec76ca4557.png8173aa8cca5ce8e2.png95dfef766eb02938.png

بیایید شروع کنیم ...

2. قبل از شروع

برای استفاده از Gemini API ، دو گزینه اصلی دارید:

  1. از طریق Vertex AI با پروژه Google Cloud
  2. از طریق Google AI Studio با کلید Gemini API

🛠️ گزینه 1 - Gemini API از طریق Vertex AI

الزامات:

  • یک پروژه Google Cloud
  • Vertex AI API باید برای این پروژه فعال باشد

🛠️ گزینه ۲ - Gemini API از طریق Google AI Studio

مورد نیاز:

  • یک کلید Gemini API

درباره دریافت کلید Gemini API از Google AI Studio بیشتر بیاموزید.

3. نوت بوک را اجرا کنید

ابزار مورد نظر خود را برای باز کردن نوت بوک انتخاب کنید:

🧰 ابزار A - نوت بوک را در کولب باز کنید

🧰 ابزار B - نوت بوک را در Colab Enterprise یا Vertex AI Workbench باز کنید

💡 اگر قبلاً یک پروژه Google Cloud دارید که با نمونه Colab Enterprise یا Vertex AI Workbench پیکربندی شده است، ممکن است ترجیح داده شود.

🧰 ابزار C - نوت بوک را از GitHub دریافت کنید و آن را در محیط خود اجرا کنید

⚠️ شما باید نوت بوک را از GitHub دریافت کنید (یا مخزن را شبیه سازی کنید) و آن را در محیط Jupyter خود اجرا کنید.

🗺️ فهرست مطالب دفترچه یادداشت

برای پیمایش آسان تر، حتما فهرست مطالب را گسترش دهید و از آن استفاده کنید. مثال:

d47b1f3032661dab.png

🏁 نوت بوک را اجرا کنید

شما آماده اید. اکنون می توانید نوت بوک را دنبال کرده و اجرا کنید. خوش بگذره!...

4. تبریک!

fd6d669c4cef4c43.gif

شما با استفاده از تکنیک های زیر به این مشکل پیچیده پرداختید:

  • نمونه سازی با اعلان های باز برای ایجاد شهود در مورد نقاط قوت طبیعی Gemini
  • با در نظر گرفتن نحوه عملکرد LLM ها در زیر کاپوت
  • ایجاد اعلان های خاص با استفاده از استراتژی استخراج جدولی
  • تولید خروجی های ساخت یافته برای حرکت به سمت کد آماده تولید
  • افزودن تجسم داده‌ها برای تفسیر آسان‌تر پاسخ‌ها و تکرارهای روان‌تر
  • تطبیق پارامترهای پیش فرض برای بهینه سازی نتایج
  • انجام تست های بیشتر، تکرار و حتی غنی سازی داده های استخراج شده

این اصول باید برای بسیاری دیگر از حوزه های استخراج داده اعمال شود و به شما اجازه می دهد تا مشکلات پیچیده خود را حل کنید.

بیشتر بدانید