使用 Gemini 和 Nano Banana 偵測及編輯視覺物件

1. 總覽

在本實驗室中,您將探索下列工作:

  • 1️⃣ 使用 Gemini 偵測圖片中的視覺物件
  • 2️⃣ 使用 Nano Banana 擷取及還原視覺物件
  • 3️⃣ 使用 Nano Banana 編輯及變換復原的物件

以下列舉幾個例子:

1f2cadc1fd825c64.png

課程內容

  • 如何使用 Gemini 的空間理解功能執行開放詞彙物件偵測
  • 如何使用自然語言提示擷取邊界方塊、說明文字和動態標籤
  • 如何還原、清理及修正扭曲或老舊的視覺物件
  • 如何撰寫命令式和描述性提示,編輯圖片
  • 如何以創意方式為圖片上色,並轉換成全新風格
  • 如何將影像「電影化」,變成栩栩如生的真人電影劇照

軟硬體需求

  • 熟悉如何在筆記本中執行 Python (在 Colab 或任何其他 Jupyter 環境中)
  • 已啟用計費功能的 Google Cloud 專案 (Vertex AI) 或 Gemini API 金鑰 (Google AI Studio)

ℹ️ 從頭到尾執行實驗室的總費用不到 $2 美元 (45 張 1K 圖片,每張圖片 1,290 個權杖)。

ed255bd97afbedca.png fc7e616a26c8fa40.png c0b9ecec49c859f2.png fc7e616a26c8fa40.png 8f240cd033d2cc65.png

我們開始吧!

2. 事前準備

如要使用 Gemini API,主要有兩種方式:

  1. 透過 Vertex AI 和 Google Cloud 專案
  2. 透過 Google AI Studio 使用 Gemini API 金鑰

🛠️ 選項 1 - 透過 Vertex AI 使用 Gemini API

需求條件:

  • 具備 Google Cloud 專案
  • 必須為這項專案啟用 Vertex AI API

🛠️ 選項 2 - 透過 Google AI Studio 使用 Gemini API

相關規定:

  • Gemini API 金鑰

進一步瞭解如何從 Google AI Studio 取得 Gemini API 金鑰

3. 執行筆記本

選擇偏好的工具來開啟筆記本:

🧰 工具 A - 在 Colab 中開啟筆記本

🧰 工具 B - 在 Colab Enterprise 或 Vertex AI Workbench 中開啟筆記本

💡 如果您已設定 Google Cloud 專案,並具備 Colab Enterprise 或 Vertex AI Workbench 執行個體,建議使用這個方法。

🧰 工具 C - 從 GitHub 取得筆記本,並在自己的環境中執行

⚠️ 你必須從 GitHub 取得筆記本 (或複製存放區),並在自己的 Jupyter 環境中執行。

🗺️ 筆記本目錄

為方便瀏覽,請務必展開並使用目錄。範例:

de85f5dcc0fe059e.png

🏁 執行筆記本

你已經準備就緒。現在可以追蹤及執行筆記本。盡情享受樂趣!

4. 恭喜!

e3299284f68f56f4.png

恭喜您完成本程式碼研究室!

瞭解詳情