Google Cloud での Gemini 2.5 Pro の概要

1. 概要

はじめに

Gemini 2.5 Pro は、コーディングに対応し、世界中の知識にアクセスできる Google のこれまでで最も高性能なモデルです。

2.5 シリーズでは、Gemini モデルがハイブリッド推論モデルになりました。Gemini 2.5 Pro は、タスク全体にわたって強化された思考能力を適用し、ツールを使用して回答の精度を最大限に高めることができます。

Gemini 2.5 Pro の特徴は次のとおりです。

  • コーディング、推論、マルチモーダルなどの機能で、以前のモデルから大幅に改善されています。
  • 数学と STEM のベンチマークで最先端のパフォーマンスを発揮し、推論において業界をリード。
  • コードに最適なモデルで、特にウェブ開発に優れています。
  • 特に複雑なプロンプトに適しており、LMSys で 1 位を獲得するなど、バランスの取れた性能を維持しています。

学習内容

このチュートリアルでは、Gemini 2.5 Pro モデルで Gemini API と Google Gen AI SDK for Python を使用する方法を学びます。

次のタスクを行います。

  • テキスト プロンプトからテキストを生成する
    • ストリーミング テキストを生成する
    • マルチターン チャットを開始する
    • 非同期メソッドを使用する
  • モデル パラメータを構成する
  • システム指示を設定する
  • 安全フィルタを使用する
  • 生成制御機能を使用する
  • トークンをカウントする
  • マルチモーダル(音声、コード、ドキュメント、画像、動画)データを処理する
  • 自動と手動の関数呼び出しを使用する
  • コードの実行
  • 思考モードの例

2. 始める前に

前提条件

始める前に、有効な請求先アカウントが設定された Google Cloud プロジェクトが必要です。使用する Google Cloud プロジェクトを選択してください。

この Codelab を実行するには、Google Cloud のセキュリティ機能とコンプライアンス機能を備えたコラボレーション指向のマネージド ノートブック環境である Colab Enterprise を使用します。

必要な API を有効にする

次のボタンをクリックして、この Codelab に必要な API(Vertex AI、Dataform、Compute Engine)を Google Cloud プロジェクトで有効にします。

Colab ノートブックを Google Cloud にコピーする

下のボタンをクリックして、Colab Enterprise でチュートリアル ノートブックを開きます。これにより、現在の Google Cloud プロジェクトに Colab ノートブックのコピーが作成され、ノートブックを実行できるようになります。

さっそく始めましょう。

3. 環境を初期化する

Colab ノートブックが作成されたので、ノートブック内で提供されているコードを実行できます。最初の数ステップでは、依存関係をインストールして、必要なライブラリをインポートします。

スタートガイドの手順を実行する

まず、「スタートガイド」セクションのセルを 1 つずつ実行します。

「使ってみる」セクションのコードセル

注: セルを実行するには、実行するコードセルの上にマウスポインタを置いて、セルの実行アイコン [セルを実行] アイコンをクリックします。

セルを実行する

このセクションを終えると、次のことができるようになります。

  • Google Gen AI SDK for Python をインストールする
  • ラボに必要なライブラリをインポートする
  • Vertex AI を使用するように Google Cloud プロジェクトを設定する

Gemini 2.5 Pro を使用してテキストを生成する

4. Gemini を使用してテキストを生成する

このノートブックのセクションでは、Gemini 2.5 Pro を使用してテキスト補完を生成します。

ノートブックの次のセルを実行し、コードを読みながら Google 生成 AI SDK の使用方法を理解してください。

テキスト プロンプトからテキストを生成する

このセクションを終えると、次のことを学習できます。

  • 使用するモデルを指定する方法。
  • 非ストリーミング出力生成とストリーミング出力生成。
  • SDK のマルチターン チャット機能を使用する。
  • SDK を非同期で呼び出す。
  • モデル パラメータを構成する。
  • モデルの動作をカスタマイズするためのシステム指示の設定。
  • コンテンツ安全フィルタを構成する。

次に、Gemini にマルチモーダル プロンプトを送信する方法を見ていきましょう

5. マルチモーダル プロンプト

このノートブックのセクションでは、Gemini 2.5 Pro を使用して画像と動画を処理します。

ノートブックで次のセルを実行します。マルチモーダル プロンプトのコードセル

このセクションを終えると、次のことを学習できます。

  • 画像とテキストで構成されるプロンプトを送信します。
  • URL から動画を処理する

次に、明確に定義された構造化された出力を生成します。

6. 構造化出力

コードでモデルのレスポンスを使用する場合は、モデルから一貫性のある信頼性の高い出力を取得することが重要です。生成制御機能を使用すると、回答のスキーマを定義してモデル出力の構造、フィールド名、各フィールドのデータ型を指定できます。

ノートブックで次のセルを実行します。出力を制御するためのコードセル

次に、モデルの出力をグラウンディングする方法について説明します。

7. グラウンディング

既存のナレッジベースを使用する場合や、モデルにリアルタイム情報を提供する場合は、モデルの出力のグラウンディングを検討する必要があります。

Gemini と Vertex AI を使用すると、Google 検索、関数レスポンスの出力、コード自体で出力をグラウンディングできます。コード実行により、モデルはコードを生成して実行し、結果から学習して最終的な出力を得るために反復処理を行うことができます。

ノートブックで次のセルを実行します。グラウンディングをテストするコードセル

次に、Gemini 2.5 Pro の思考能力を見てみましょう

8. 思考モード

思考モードは、複数回の戦略立案と反復的な解決を必要とする複雑なタスクに特に役立ちます。Gemini 2.5 の各モデルは思考モデルです。回答する前に思考を通じて推論を行うことができるため、パフォーマンスと精度が向上しています。

ノートブックで次のセルを実行します。その際、モデルが実際の出力を提示する前に、思考出力が表示されることに注目してください。思考モードの出力を表示するコードセル

9. おわりに

これで完了です。このラボでは、Google Gen AI SDK for Python を使用して Gemini 2.5 Pro の機能を活用する方法を学びました。テキスト生成、マルチモーダル、グラウンディング、構造化された出力、高度な思考機能について説明しました。これで、SDK を使用して独自の革新的なアプリケーションを構築するための基礎知識が身につきました。Gemini 2.5 Pro は、強力な思考モードと推論モードを備えており、さまざまなユースケースで新しい可能性を開き、イノベーションを促進します。

その他のリファレンス

この Codelab の感想をお聞かせください。

優れている 平均的 改善の余地がある