使用 Gemini 和 Nano Banana 检测和编辑视觉对象

1. 概览

在本实验中,您将探索以下任务:

  • 1️⃣ 使用 Gemini 检测图片中的视觉对象
  • 2️⃣ 使用 Nano Banana 提取和恢复视觉对象
  • 3️⃣ 使用 Nano Banana 编辑和转换恢复的对象

以下是您将实现的一些示例:

1f2cadc1fd825c64.png

学习内容

  • 如何使用 Gemini 的空间理解功能执行开放词汇对象检测
  • 如何使用自然语言提示提取边界框、说明和动态标签
  • 如何恢复、清理和拉直扭曲或复古的视觉对象
  • 如何为图片编辑编写命令式和描述性提示
  • 如何创造性地为视觉内容着色并将其转换为全新的样式
  • 如何将视觉内容“电影化”为逼真的真人电影剧照

所需条件

  • 熟悉在笔记本(在 Colab 或任何其他 Jupyter 环境中)中运行 Python
  • 已启用结算功能的 Google Cloud 项目或 Gemini API 密钥

ℹ️ 从头到尾运行该实验的总费用不到 2 美元(45 张生成的 1K 图片,每张图片包含 1,290 个令牌)。

ed255bd97afbedca.png fc7e616a26c8fa40.png c0b9ecec49c859f2.png fc7e616a26c8fa40.png 8f240cd033d2cc65.png

我们开始吧…

2. 准备工作

如需使用 Gemini API,您有两种主要选择:

  1. 通过 Agent Platform (原 Vertex AI)和 Google Cloud 项目
  2. 通过 Google AI Studio 和 Gemini API 密钥

🛠️ 选项 1 - 通过 Agent Platform 使用 Gemini API

要求:

  • Google Cloud 项目
  • 必须为此项目启用 Agent Platform API

🛠️ 选项 2 - 通过 Google AI Studio 使用 Gemini API

要求:

  • Gemini API 密钥

详细了解如何从 Google AI Studio 获取 Gemini API 密钥

3. 运行笔记本

选择您偏好的工具来打开笔记本:

🧰 工具 A - 在 Colab 中打开笔记本

🧰 工具 B - 在 Colab Enterprise 或 Workbench 中打开笔记本

💡 如果您已配置了包含 Colab Enterprise 或 Workbench 实例的 Google Cloud 云项目,则可能更喜欢此选项。

🧰 工具 C - 从 GitHub 获取笔记本并在您自己的环境中高效运转

⚠️ 您需要从 GitHub 获取笔记本(或克隆代码库),并在您自己的 Jupyter 环境中运行它。

🗺️ 笔记本目录

为方便导航,请务必展开并使用目录。示例:

de85f5dcc0fe059e.png

🏁 运行笔记本

您已准备就绪。现在,您可以按照笔记本中的说明运行它。祝您玩得开心!…

4. 恭喜!

e3299284f68f56f4.png

恭喜您完成此 Codelab!

了解详情