Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

使用 Gemini 和 Nano Banana 检测和编辑视觉对象

1. 概览

在本实验中，您将探索以下任务：

1️⃣ 使用 Gemini 检测图片中的视觉对象
2️⃣ 使用 Nano Banana 提取和恢复视觉对象
3️⃣ 使用 Nano Banana 编辑和转换恢复的对象

以下是您将实现的一些示例：

学习内容

如何使用 Gemini 的空间理解功能执行开放词汇对象检测
如何使用自然语言提示提取边界框、说明和动态标签
如何恢复、清理和拉直扭曲或复古的视觉对象
如何为图片编辑编写命令式和描述性提示
如何创造性地为视觉内容着色并将其转换为全新的样式
如何将视觉内容“电影化”为逼真的真人电影剧照

所需条件

熟悉在笔记本（在 Colab 或任何其他 Jupyter 环境中）中运行 Python
已启用结算功能的 Google Cloud 项目或 Gemini API 密钥

ℹ️ 从头到尾运行该实验的总费用不到 2 美元（45 张生成的 1K 图片，每张图片包含 1,290 个令牌）。

我们开始吧…

2. 准备工作

如需使用 Gemini API，您有两种主要选择：

通过 Agent Platform （原 Vertex AI）和 Google Cloud 项目
通过 Google AI Studio 和 Gemini API 密钥

🛠️ 选项 1 - 通过 Agent Platform 使用 Gemini API

要求：

Google Cloud 项目
必须为此项目启用 Agent Platform API

🛠️ 选项 2 - 通过 Google AI Studio 使用 Gemini API

要求：

Gemini API 密钥

详细了解如何从 Google AI Studio 获取 Gemini API 密钥。

3. 运行笔记本

选择您偏好的工具来打开笔记本：

🧰 工具 A - 在 Colab 中打开笔记本

🧰 工具 B - 在 Colab Enterprise 或 Workbench 中打开笔记本

💡 如果您已配置了包含 Colab Enterprise 或 Workbench 实例的 Google Cloud 云项目，则可能更喜欢此选项。

🧰 工具 C - 从 GitHub 获取笔记本并在您自己的环境中高效运转

⚠️ 您需要从 GitHub 获取笔记本（或克隆代码库），并在您自己的 Jupyter 环境中运行它。

🗺️ 笔记本目录

为方便导航，请务必展开并使用目录。示例：

🏁 运行笔记本

您已准备就绪。现在，您可以按照笔记本中的说明运行它。祝您玩得开心！…

4. 恭喜！

恭喜您完成此 Codelab！

了解详情

完成使用 Gemini Nano Banana 生成一致的图像 Codelab。
如需查看更多实用示例，请参阅 Nano Banana 配方笔记本。
在 Agent Platform 提示库中探索其他应用场景。
及时了解 Agent Platform 版本说明。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。