Gemini と Nano Banana を使用したビジュアル オブジェクトの検出と編集

1. 概要

このラボでは、次のタスクについて学習します。

  • 1️⃣ Gemini を使用して画像内のビジュアル オブジェクトを検出する
  • 2️⃣ Nano Banana でビジュアル オブジェクトを抽出して復元する
  • 3️⃣ Nano Banana で復元したオブジェクトを編集、変換する

以下に、達成できることの例をいくつか示します。

1f2cadc1fd825c64.png

学習内容

  • Gemini の空間認識を使用してオープン ボキャブラリ オブジェクト検出を行う方法
  • 自然言語プロンプトを使用してバウンディング ボックス、キャプション、動的ラベルを抽出する方法
  • 歪んだビジュアル オブジェクトや古いビジュアル オブジェクトを復元、クリーンアップ、修正する方法
  • 画像編集用の命令形と説明形のプロンプトの作成方法
  • ビジュアルをクリエイティブに着色して、まったく新しいスタイルに変換する方法
  • ビジュアルを実写映画の静止画のように「映画化」する方法

必要なもの

  • ノートブック(Colab またはその他の Jupyter 環境)で Python を実行するための知識を備える
  • 課金が有効になっている Google Cloud プロジェクト(Vertex AI)または Gemini API キー(Google AI Studio)

ℹ️ ラボの開始から終了までの実行にかかる合計費用は 2 USD 未満です(1,290 トークンの 1K 画像を 45 枚生成)。

ed255bd97afbedca.png fc7e616a26c8fa40.png c0b9ecec49c859f2.png fc7e616a26c8fa40.png 8f240cd033d2cc65.png

やってみましょう

2. 始める前に

Gemini API を使用するには、次の 2 つの主な方法があります。

  1. Google Cloud プロジェクトで Vertex AI を使用する
  2. Gemini API キーを使用して Google AI Studio 経由

🛠️ オプション 1 - Vertex AI 経由の Gemini API

要件:

  • Google Cloud プロジェクト
  • このプロジェクトで Vertex AI API を有効にする必要があります

🛠️ オプション 2 - Google AI Studio 経由の Gemini API

要件:

  • Gemini API キー

Google AI Studio から Gemini API キーを取得する方法について学習する。

3. ノートブックを実行する

ノートブックを開くツールを選択します。

🧰 ツール A - Colab でノートブックを開く

🧰 ツール B - Colab Enterprise または Vertex AI Workbench でノートブックを開く

💡 Colab Enterprise または Vertex AI Workbench インスタンスで構成された Google Cloud プロジェクトがすでにある場合は、この方法が適している可能性があります。

🧰 ツール C - GitHub からノートブックを取得して独自の環境で実行する

⚠️ ノートブックを GitHub から取得(またはリポジトリのクローンを作成)し、独自の Jupyter 環境で実行する必要があります。

🗺️ ノートブックの目次

目次を開いてご利用いただくと、より簡単にナビゲーションできます。例:

de85f5dcc0fe059e.png

🏁 ノートブックを実行する

準備が整いました。これで、ノートブックに沿って実行できるようになりました。楽しんでください。

4. 完了

e3299284f68f56f4.png

以上で、この Codelab は完了です。

詳細