Обнаружение и редактирование визуальных объектов с помощью Gemini и Nano Banana

1. Обзор

В этой лабораторной работе вы изучите следующие задачи:

  • 1️⃣ Обнаружение визуальных объектов на изображениях с помощью Gemini
  • 2️⃣ Извлечение и восстановление визуальных объектов с помощью Nano Banana
  • 3️⃣ Редактируйте и преобразуйте восстановленные объекты с помощью Nano Banana

Вот несколько примеров того, чего вы добьетесь:

1f2cadc1fd825c64.png

Что вы узнаете

  • Как выполнить обнаружение объектов с открытым словарем, используя пространственное понимание Gemini.
  • Как извлечь ограничивающие рамки, подписи и динамические метки с помощью подсказок на естественном языке.
  • Как восстанавливать, чистить и выравнивать деформированные или старинные визуальные объекты.
  • Как писать повелительные и описательные подсказки для редактирования изображений
  • Как творчески раскрасить и преобразовать визуальные образы, придав им совершенно новые стили.
  • Как превратить визуальные образы в фотореалистичные кадры из игрового фильма

Что вам понадобится

  • Умение запускать Python в ноутбуке (в Colab или любой другой среде Jupyter).
  • Проект Google Cloud или ключ API Gemini с включенной функцией выставления счетов.

ℹ️ Общая стоимость запуска лаборатории от начала до конца составляет менее 2 долларов США (45 сгенерированных изображений по 1000 штук, каждое из которых содержит 1290 токенов).

ed255bd97afbedca.pngfc7e616a26c8fa40.pngc0b9ecec49c859f2.pngfc7e616a26c8fa40.png8f240cd033d2cc65.png

Давайте начнём...

2. Прежде чем начать

Для использования API Gemini у вас есть два основных варианта:

  1. Через платформу Agent Platform (ранее Vertex AI) в рамках проекта Google Cloud.
  2. Через Google AI Studio с использованием ключа API Gemini.

🛠️ Вариант 1 - API Gemini через платформу агентов

Требования:

  • Проект Google Cloud
  • Для этого проекта необходимо включить API платформы агентов.

🛠️ Вариант 2 - API Gemini через Google AI Studio

Требование:

  • Ключ API Gemini

Узнайте больше о получении ключа API Gemini из Google AI Studio .

3. Запустите ноутбук.

Выберите удобный для вас инструмент для открытия блокнота:

🧰 Инструмент A - Открыть блокнот в Colab

🧰 Инструмент B - Откройте блокнот в Colab Enterprise или Workbench

💡 Этот вариант может быть предпочтительнее, если у вас уже настроен проект Google Cloud с использованием экземпляра Colab Enterprise или Workbench.

🧰 Инструмент C — Загрузите ноутбук с GitHub и запустите его в своей среде.

⚠️ Вам потребуется загрузить ноутбук с GitHub (или клонировать репозиторий) и запустить его в собственной среде Jupyter.

🗺️ Содержание блокнота

Для более удобной навигации разверните и воспользуйтесь оглавлением. Пример:

de85f5dcc0fe059e.png

🏁 Запустите ноутбук

Вы готовы. Теперь вы можете следовать инструкциям и запускать блокнот. Приятного времяпровождения!...

4. Поздравляем!

e3299284f68f56f4.png

Поздравляем с завершением практического занятия!

Узнать больше