Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini と Nano Banana を使用したビジュアルオブジェクトの検出と編集

1. 概要

このラボでは、次のタスクについて学習します。

1️⃣ Gemini を使用して画像内のビジュアルオブジェクトを検出する
2️⃣ Nano Banana でビジュアルオブジェクトを抽出して復元する
3️⃣ Nano Banana で復元したオブジェクトを編集、変換する

以下に、達成できることの例をいくつか示します。

学習内容

Gemini の空間認識を使用してオープンボキャブラリオブジェクト検出を行う方法
自然言語プロンプトを使用してバウンディングボックス、キャプション、動的ラベルを抽出する方法
歪んだビジュアルオブジェクトや古いビジュアルオブジェクトを復元、クリーンアップ、修正する方法
画像編集用の命令形と説明形のプロンプトの作成方法
ビジュアルをクリエイティブに着色して、まったく新しいスタイルに変換する方法
ビジュアルを実写映画の静止画のように「映画化」する方法

必要なもの

ノートブック（Colab またはその他の Jupyter 環境）で Python を実行するための知識を備えている
課金が有効になっている Google Cloud プロジェクトまたは Gemini API キー

ℹ️ ラボの開始から終了までの総費用は 2 USD 未満です（45 個の 1K 画像を生成し、それぞれ 1,290 個のトークンを使用）。

やってみましょう

2. 始める前に

Gemini API を使用するには、次の 2 つの主な方法があります。

Google Cloud プロジェクトの Agent Platform（旧称 Vertex AI）経由
Gemini API キーを使用して Google AI Studio 経由

🛠️ オプション 1 - エージェントプラットフォーム経由の Gemini API

要件:

Google Cloud プロジェクト
このプロジェクトで Agent Platform API を有効にする必要があります

🛠️ オプション 2 - Google AI Studio 経由の Gemini API

要件:

Gemini API キー

Google AI Studio から Gemini API キーを取得する方法について学習する。

3. ノートブックを実行する

ノートブックを開くツールを選択します。

🧰 ツール A - Colab でノートブックを開く

🧰 ツール B - Colab Enterprise または Workbench でノートブックを開く

💡 Colab Enterprise または Workbench インスタンスで構成された Google Cloud プロジェクトがすでにある場合は、この方法が適している可能性があります。

🧰 ツール C - GitHub からノートブックを取得して独自の環境で実行する

⚠️ ノートブックを GitHub から取得（またはリポジトリのクローンを作成）し、独自の Jupyter 環境で実行する必要があります。

🗺️ ノートブックの目次

目次を開いてご利用いただくと、より簡単にナビゲーションできます。例:

🏁 ノートブックを実行する

準備が整いました。これで、ノートブックに沿って実行できるようになりました。楽しんでください。

4. 完了

以上で、この Codelab は完了です。

詳細

Gemini Nano Banana を使用して一貫性のある画像を生成するの Codelab を完了します。
より実践的な例については、Nano Banana レシピノートブックをご覧ください。
その他のユースケースについては、Agent Platform プロンプトギャラリーをご覧ください。
Agent Platform リリースノートで最新情報を入手してください。