使用 Gemini 轉錄多模態影片

1. 總覽

在本實驗室中，您將學會使用單一 Gemini 提示，解決多模態影片轉錄的複雜問題！

您將分析影片，同時尋找下列問題的答案：

1️⃣ 說了什麼？何時說的？
2️⃣ 演講者是誰？
3️⃣ 誰說了什麼？

以下是您將達成的目標範例：

課程內容

解決新或複雜多模態問題的方法
提示技術：將資料與注意力分離，並保留注意力：表格擷取
在單一要求中充分運用 Gemini 的 100 萬權杖情境策略
多模態影片轉錄稿的實務範例
提示與最佳化

軟硬體需求

熟悉在筆記本中執行 Python (在 Colab 或任何其他 Jupyter 環境中)
Google Cloud 專案 (Vertex AI) 或 Gemini API 金鑰 (Google AI Studio)
20 至 90 分鐘 (視您是否快速執行或讀取及測試所有內容而定)

ℹ️ 在 Google Cloud 上執行本實驗室的總費用不到 $5 美元。

我們開始吧！

2. 事前準備

如要使用 Gemini API，主要有兩種方式：

透過 Vertex AI 和 Google Cloud 專案
透過 Google AI Studio 搭配 Gemini API 金鑰

🛠️ 選項 1 - 透過 Vertex AI 使用 Gemini API

需求條件：

Google Cloud 專案
必須為這項專案啟用 Vertex AI API

🛠️ 選項 2 - 透過 Google AI Studio 使用 Gemini API

相關規定：

Gemini API 金鑰

進一步瞭解如何從 Google AI Studio 取得 Gemini API 金鑰。

3. 執行筆記本

選擇偏好的工具來開啟筆記本：

🧰 工具 A - 在 Colab 中開啟筆記本

🧰 工具 B - 在 Colab Enterprise 或 Vertex AI Workbench 中開啟筆記本

💡 如果您已設定 Google Cloud 專案，並具備 Colab Enterprise 或 Vertex AI Workbench 執行個體，建議使用這個方法。

🧰 工具 C - 從 GitHub 取得筆記本，並在自己的環境中執行

⚠️ 你必須從 GitHub 取得筆記本 (或複製存放區)，並在自己的 Jupyter 環境中執行。

🗺️ 筆記本目錄

為方便瀏覽，請務必展開並使用目錄。範例：

🏁 執行筆記本

你已經準備就緒。現在可以追蹤及執行筆記本。盡情享受樂趣！

4. 恭喜！

恭喜您完成本程式碼研究室！

您使用下列技術解決這個複雜問題：

使用開放式提示詞製作原型，培養對 Gemini 自然優勢的直覺
考量 LLM 的運作方式
使用表格擷取策略，製作越來越具體的提示
生成結構化輸出內容，逐步產生可直接用於正式環境的程式碼
新增資料視覺化功能，方便解讀回覆內容，並順利完成疊代
調整預設參數，爭取最佳成效
進行更多測試、疊代，甚至豐富擷取的資料

這些原則應適用於許多其他資料擷取領域，協助您解決複雜問題。

瞭解詳情

從 Google Cloud 生成式 AI 存放區執行其他 Gemini 筆記本
在 Vertex AI 提示庫中探索其他用途
如要掌握最新資訊，請參閱 Vertex AI 版本資訊

除非另有註明，否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權，程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。