1. 總覽
在本實驗室中,您將學會使用單一 Gemini 提示,解決多模態影片轉錄的複雜問題!
您將分析影片,同時尋找下列問題的答案:
- 1️⃣ 說了什麼?何時說的?
- 2️⃣ 演講者是誰?
- 3️⃣ 誰說了什麼?
以下是您將達成的目標範例:
課程內容
- 解決新或複雜多模態問題的方法
- 提示技術:將資料與注意力分離,並保留注意力 - 表格擷取
- 在單一要求中充分運用 Gemini 100 萬權杖情境的策略
- 多模態影片轉錄的實務範例
- 提示與最佳化
軟硬體需求
- 熟悉如何在筆記本中執行 Python (在 Colab 或任何其他 Jupyter 環境中)
- Google Cloud 專案 (Vertex AI) 或 Gemini API 金鑰 (Google AI Studio)
- 20 至 90 分鐘 (視您是否快速執行或讀取及測試所有內容而定)
立即開始...
2. 事前準備
如要使用 Gemini API,主要有兩種方式:
- 透過 Vertex AI 和 Google Cloud 專案
- 透過 Google AI Studio 和 Gemini API 金鑰
🛠️ 選項 1 - 透過 Vertex AI 使用 Gemini API
需求條件:
- Google Cloud 專案
- 必須為這項專案啟用 Vertex AI API
🛠️ 選項 2 - 透過 Google AI Studio 使用 Gemini API
必要條件:
- Gemini API 金鑰
3. 執行筆記本
選擇偏好的工具來開啟筆記本:
🧰 工具 A - 在 Colab 中開啟筆記本
🧰 工具 B - 在 Colab Enterprise 或 Vertex AI Workbench 中開啟筆記本
💡 如果您已設定 Google Cloud 專案,並具備 Colab Enterprise 或 Vertex AI Workbench 執行個體,建議採用這種做法。
🧰 工具 C - 從 GitHub 取得筆記本,並在自己的環境中執行
⚠️ 你需要從 GitHub 取得筆記本 (或複製存放區),並在自己的 Jupyter 環境中執行。
🗺️ 筆記本目錄
如要輕鬆瀏覽,請務必展開並使用目錄。範例:
🏁 執行筆記本
你已準備就緒。您現在可以追蹤及執行筆記本。盡情享受樂趣!
4. 恭喜!
您運用下列技術解決這個複雜問題:
- 使用開放式提示製作原型,培養對 Gemini 自然優勢的直覺
- 考量 LLM 的實際運作方式
- 使用表格擷取策略,製作越來越具體的提示
- 生成結構化輸出內容,逐步產生可用於正式環境的程式碼
- 加入資料視覺化功能,方便解讀回覆內容,並順利完成疊代
- 調整預設參數,盡量提升成效
- 進行更多測試、疊代,甚至豐富擷取的資料
這些原則應適用於許多其他資料擷取領域,協助您解決複雜問題。
瞭解詳情
- 從 Google Cloud 生成式 AI 存放區執行其他 Gemini 筆記本
- 在 Vertex AI 提示庫中探索其他用途
- 如要掌握最新資訊,請參閱 Vertex AI 版本資訊