使用 Gemini 轉錄多模態影片

1. 總覽

在本實驗室中,您將學會使用單一 Gemini 提示,解決多模態影片轉錄的複雜問題!

您將分析影片,同時尋找下列問題的答案:

  • 1️⃣ 說了什麼?何時說的?
  • 2️⃣ 演講者是誰?
  • 3️⃣ 誰說了什麼?

以下是您將達成的目標範例:

7ed458bd4f8c849a.gif

課程內容

  • 解決新或複雜多模態問題的方法
  • 提示技術:將資料與注意力分離,並保留注意力:表格擷取
  • 在單一要求中充分運用 Gemini 的 100 萬權杖情境策略
  • 多模態影片轉錄稿的實務範例
  • 提示與最佳化

軟硬體需求

  • 熟悉在筆記本中執行 Python (在 Colab 或任何其他 Jupyter 環境中)
  • Google Cloud 專案 (Vertex AI) 或 Gemini API 金鑰 (Google AI Studio)
  • 20 至 90 分鐘 (視您是否快速執行或讀取及測試所有內容而定)

ℹ️ 在 Google Cloud 上執行本實驗室的總費用不到 $5 美元。

ed255bd97afbedca.png fc7e616a26c8fa40.png c0b9ecec49c859f2.png fc7e616a26c8fa40.png 8f240cd033d2cc65.png

我們開始吧!

2. 事前準備

如要使用 Gemini API,主要有兩種方式:

  1. 透過 Vertex AI 和 Google Cloud 專案
  2. 透過 Google AI Studio 搭配 Gemini API 金鑰

🛠️ 選項 1 - 透過 Vertex AI 使用 Gemini API

需求條件:

  • Google Cloud 專案
  • 必須為這項專案啟用 Vertex AI API

🛠️ 選項 2 - 透過 Google AI Studio 使用 Gemini API

相關規定:

  • Gemini API 金鑰

進一步瞭解如何從 Google AI Studio 取得 Gemini API 金鑰

3. 執行筆記本

選擇偏好的工具來開啟筆記本:

🧰 工具 A - 在 Colab 中開啟筆記本

🧰 工具 B - 在 Colab Enterprise 或 Vertex AI Workbench 中開啟筆記本

💡 如果您已設定 Google Cloud 專案,並具備 Colab Enterprise 或 Vertex AI Workbench 執行個體,建議使用這個方法。

🧰 工具 C - 從 GitHub 取得筆記本,並在自己的環境中執行

⚠️ 你必須從 GitHub 取得筆記本 (或複製存放區),並在自己的 Jupyter 環境中執行。

🗺️ 筆記本目錄

為方便瀏覽,請務必展開並使用目錄。範例:

392ef60165a94bba.png

🏁 執行筆記本

你已經準備就緒。現在可以追蹤及執行筆記本。盡情享受樂趣!

4. 恭喜!

b9a6147d9c7f89bb.gif

恭喜您完成本程式碼研究室!

您使用下列技術解決這個複雜問題:

  • 使用開放式提示詞製作原型,培養對 Gemini 自然優勢的直覺
  • 考量 LLM 的運作方式
  • 使用表格擷取策略,製作越來越具體的提示
  • 生成結構化輸出內容,逐步產生可直接用於正式環境的程式碼
  • 新增資料視覺化功能,方便解讀回覆內容,並順利完成疊代
  • 調整預設參數,爭取最佳成效
  • 進行更多測試、疊代,甚至豐富擷取的資料

這些原則應適用於許多其他資料擷取領域,協助您解決複雜問題。

瞭解詳情