使用 Gemini 轉錄多模態影片

1. 總覽

在本實驗室中,您將學會使用單一 Gemini 提示,解決多模態影片轉錄的複雜問題!

您將分析影片,同時尋找下列問題的答案:

  • 1️⃣ 說了什麼?何時說的?
  • 2️⃣ 演講者是誰?
  • 3️⃣ 誰說了什麼?

以下是您將達成的目標範例:

7ed458bd4f8c849a.gif

課程內容

  • 解決新或複雜多模態問題的方法
  • 提示技術:將資料與注意力分離,並保留注意力 - 表格擷取
  • 在單一要求中充分運用 Gemini 100 萬權杖情境的策略
  • 多模態影片轉錄的實務範例
  • 提示與最佳化

軟硬體需求

  • 熟悉如何在筆記本中執行 Python (在 Colab 或任何其他 Jupyter 環境中)
  • Google Cloud 專案 (Vertex AI) 或 Gemini API 金鑰 (Google AI Studio)
  • 20 至 90 分鐘 (視您是否快速執行或讀取及測試所有內容而定)

95557c237d172e1f.png 8173aa8cca5ce8e2.png 3a82b6ec76ca4557.png 8173aa8cca5ce8e2.png 95dfef766eb02938.png

立即開始...

2. 事前準備

如要使用 Gemini API,主要有兩種方式:

  1. 透過 Vertex AI 和 Google Cloud 專案
  2. 透過 Google AI Studio 和 Gemini API 金鑰

🛠️ 選項 1 - 透過 Vertex AI 使用 Gemini API

需求條件:

  • Google Cloud 專案
  • 必須為這項專案啟用 Vertex AI API

🛠️ 選項 2 - 透過 Google AI Studio 使用 Gemini API

必要條件:

  • Gemini API 金鑰

進一步瞭解如何從 Google AI Studio 取得 Gemini API 金鑰

3. 執行筆記本

選擇偏好的工具來開啟筆記本:

🧰 工具 A - 在 Colab 中開啟筆記本

🧰 工具 B - 在 Colab Enterprise 或 Vertex AI Workbench 中開啟筆記本

💡 如果您已設定 Google Cloud 專案,並具備 Colab Enterprise 或 Vertex AI Workbench 執行個體,建議採用這種做法。

🧰 工具 C - 從 GitHub 取得筆記本,並在自己的環境中執行

⚠️ 你需要從 GitHub 取得筆記本 (或複製存放區),並在自己的 Jupyter 環境中執行。

🗺️ 筆記本目錄

如要輕鬆瀏覽,請務必展開並使用目錄。範例:

d47b1f3032661dab.png

🏁 執行筆記本

你已準備就緒。您現在可以追蹤及執行筆記本。盡情享受樂趣!

4. 恭喜!

fd6d669c4cef4c43.gif

您運用下列技術解決這個複雜問題:

  • 使用開放式提示製作原型,培養對 Gemini 自然優勢的直覺
  • 考量 LLM 的實際運作方式
  • 使用表格擷取策略,製作越來越具體的提示
  • 生成結構化輸出內容,逐步產生可用於正式環境的程式碼
  • 加入資料視覺化功能,方便解讀回覆內容,並順利完成疊代
  • 調整預設參數,盡量提升成效
  • 進行更多測試、疊代,甚至豐富擷取的資料

這些原則應適用於許多其他資料擷取領域,協助您解決複雜問題。

瞭解詳情