このページは Cloud Translation API によって翻訳されました。

Gemini を使用したマルチモーダル動画の文字起こし

1. 概要

このラボでは、単一の Gemini プロンプトを使用して、マルチモーダル動画の文字起こしという複雑な問題を解決する方法を学びます。

動画を分析して、次の質問に一度に答えます。

1️⃣ 発言の内容と時期
2️⃣ 講演者は誰ですか？
3️⃣ 誰が何を言ったか？

達成できることの例を次に示します。

学習内容

新しい複雑なマルチモーダル問題に対処するための方法論
データと注意を分離するためのプロンプト手法: 表形式の抽出
1 回のリクエストで Gemini の 100 万トークンのコンテキストを最大限に活用するための戦略
マルチモーダル動画の文字起こしの実用的な例
ヒントと最適化

必要なもの

ノートブック（Colab またはその他の Jupyter 環境）で Python を実行した経験がある
Google Cloud プロジェクト（Vertex AI）または Gemini API キー（Google AI Studio）
20 ～ 90 分（クイック実行するか、すべてを読み取ってテストするかによって異なります）

やってみましょう

2. 始める前に

Gemini API を使用するには、次の 2 つの主な方法があります。

Google Cloud プロジェクトで Vertex AI を使用する
Gemini API キーを使用して Google AI Studio 経由

🛠️ オプション 1 - Vertex AI 経由の Gemini API

要件:

Google Cloud プロジェクト
このプロジェクトで Vertex AI API を有効にする必要があります

🛠️ オプション 2 - Google AI Studio 経由の Gemini API

要件:

Gemini API キー

Google AI Studio から Gemini API キーを取得する方法をご覧ください。

3. ノートブックを実行する

ノートブックを開くツールを選択します。

🧰 ツール A - Colab でノートブックを開く

🧰 ツール B - Colab Enterprise または Vertex AI Workbench でノートブックを開く

💡 Colab Enterprise または Vertex AI Workbench インスタンスで構成された Google Cloud プロジェクトがすでに存在する場合は、この方法が適している可能性があります。

🧰 ツール C - GitHub からノートブックを取得して独自の環境で実行する

⚠️ GitHub からノートブックを取得（またはリポジトリのクローンを作成）し、独自の Jupyter 環境で実行する必要があります。

🗺️ ノートブックの目次

目次を開いてご利用いただくと、より簡単に移動できます。例:

🏁 ノートブックを実行する

準備が整いました。これで、ノートブックに沿って実行できるようになりました。楽しんでください。

4. 完了

この複雑な問題には、次の手法を使用して対処しました。

オープンプロンプトを使用してプロトタイプを作成し、Gemini の自然な強みに関する直感を養う
LLM の内部動作を考慮する
表形式の抽出戦略を使用して、より具体的なプロンプトを作成する
構造化された出力を生成して、本番環境に対応したコードに移行する
回答を解釈しやすく、スムーズに反復処理を行えるように、データ可視化を追加
デフォルトのパラメータを調整して結果を最適化する
テストの実施、反復、抽出されたデータの拡充

これらの原則は、他の多くのデータ抽出ドメインにも適用でき、独自の複雑な問題を解決できます。

詳細

Google Cloud 生成 AI リポジトリから他の Gemini ノートブックを実行する
Vertex AI プロンプトギャラリーでその他のユースケースを確認する
Vertex AI リリースノートで最新情報を入手する

特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。