Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

使用 Gemini 和 Nano Banana 偵測及編輯視覺物件

1. 總覽

在本實驗室中，您將瞭解如何執行下列工作：

1️⃣ 使用 Gemini 偵測圖片中的視覺物件
2️⃣ 使用 Nano Banana 擷取及還原視覺物件
3️⃣ 使用 Nano Banana 編輯及變換復原的物件

以下列舉幾個例子：

課程內容

如何使用 Gemini 的空間理解功能執行開放詞彙物件偵測
如何使用自然語言提示擷取邊界方塊、說明文字和動態標籤
如何還原、清理及修正扭曲或老舊的視覺物件
如何撰寫命令式和描述性提示，編輯圖片
如何以創意方式為圖片上色，並轉換成全新風格
如何將影像「電影化」，變成栩栩如生的真人電影劇照

軟硬體需求

熟悉如何在筆記本中執行 Python (在 Colab 或任何其他 Jupyter 環境中)
已啟用計費功能的 Google Cloud 雲端專案或 Gemini API 金鑰

ℹ️ 從頭到尾執行實驗室的總費用不到 $2 美元 (45 張 1K 圖片，每張 1,290 個權杖)。

我們開始吧！

2. 事前準備

如要使用 Gemini API，主要有兩種方式：

透過 Agent Platform (舊稱 Vertex AI) 和 Google Cloud 雲端專案
透過 Google AI Studio 使用 Gemini API 金鑰

🛠️ 選項 1 - 透過 Agent Platform 使用 Gemini API

需求條件：

具備 Google Cloud 專案
必須為這項專案啟用 Agent Platform API

🛠️ 選項 2 - 透過 Google AI Studio 使用 Gemini API

相關規定：

Gemini API 金鑰

進一步瞭解如何從 Google AI Studio 取得 Gemini API 金鑰。

3. 執行筆記本

選擇偏好的工具來開啟筆記本：

🧰 工具 A - 在 Colab 中開啟筆記本

🧰 工具 B - 在 Colab Enterprise 或 Workbench 中開啟筆記本

💡 如果您已設定 Google Cloud 專案，並搭配 Colab Enterprise 或 Workbench 執行個體，建議使用這個選項。

🧰 工具 C - 從 GitHub 取得筆記本，並在自己的環境中執行

⚠️ 你必須從 GitHub 取得筆記本 (或複製存放區)，並在自己的 Jupyter 環境中運作執行。

🗺️ 筆記本目錄

為方便瀏覽，請務必展開並使用目錄。範例：

🏁 執行筆記本

你已經準備就緒。現在可以追蹤及執行筆記本。盡情享受樂趣！

4. 恭喜！

恭喜您完成本程式碼研究室！

瞭解詳情

完成「使用 Gemini Nano Banana 生成系列圖像」程式碼研究室。
如需更多實用範例，請參閱 Nano Banana 食譜筆記本。
如要瞭解其他用途，請前往 Agent Platform 提示庫。
請隨時留意 Agent Platform 版本資訊。

除非另有註明，否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權，程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。