Cómo detectar y editar objetos visuales con Gemini y Nano Banana

1. Descripción general

En este lab, explorarás las siguientes tareas:

  • 1️⃣ Detecta objetos visuales en imágenes con Gemini
  • 2️⃣ Extrae y restablece objetos visuales con Nano Banana
  • 3️⃣ Edita y transforma los objetos restaurados con Nano Banana

Estos son algunos ejemplos de lo que lograrás:

1f2cadc1fd825c64.png

Qué aprenderás

  • Cómo realizar la detección de objetos de vocabulario abierto con la comprensión espacial de Gemini
  • Cómo extraer cuadros delimitadores, subtítulos y etiquetas dinámicas con instrucciones en lenguaje natural
  • Cómo restaurar, limpiar y enderezar objetos visuales deformados o antiguos
  • Cómo escribir instrucciones imperativas y descriptivas para la edición de imágenes
  • Cómo colorear y transformar imágenes de forma creativa en estilos completamente nuevos
  • Cómo "cinematizar" imágenes en fotogramas fotorrealistas de películas de acción real

Requisitos

  • Familiaridad con la ejecución de Python en un notebook (en Colab o cualquier otro entorno de Jupyter)
  • Un proyecto de Google Cloud (Vertex AI) o una clave de la API de Gemini (Google AI Studio) con la facturación habilitada

ℹ️ El costo total para ejecutar el lab de principio a fin es inferior a USD 2 (45 imágenes de 1 K generadas de 1,290 tokens cada una).

ed255bd97afbedca.png fc7e616a26c8fa40.png c0b9ecec49c859f2.png fc7e616a26c8fa40.png 8f240cd033d2cc65.png

Comencemos…

2. Antes de comenzar

Para usar la API de Gemini, tienes dos opciones principales:

  1. A través de Vertex AI con un proyecto de Google Cloud
  2. A través de Google AI Studio con una clave de la API de Gemini

🛠️ Opción 1: API de Gemini a través de Vertex AI

Requisitos:

  • Un proyecto de Google Cloud
  • La API de Vertex AI debe estar habilitada para este proyecto.

🛠️ Opción 2: API de Gemini a través de Google AI Studio

Requisito:

  • Una clave de API de Gemini

Obtén más información para obtener una clave de API de Gemini en Google AI Studio.

3. Ejecuta el notebook

Elige la herramienta que prefieras para abrir el notebook:

🧰 Herramienta A: Abre el notebook en Colab

🧰 Herramienta B: Abre el notebook en Colab Enterprise o Vertex AI Workbench

💡 Esta opción puede ser preferible si ya tienes un proyecto de Google Cloud configurado con una instancia de Colab Enterprise o Vertex AI Workbench.

🧰 Herramienta C: Obtén el notebook de GitHub y ejecútalo en tu propio entorno

⚠️ Deberás obtener el notebook de GitHub (o clonar el repositorio) y ejecutarlo en tu propio entorno de Jupyter.

🗺️ Índice del notebook

Para facilitar la navegación, asegúrate de expandir y usar el índice. Ejemplo:

de85f5dcc0fe059e.png

🏁 Ejecuta el notebook

Todo listo. Ahora puedes seguir y ejecutar el notebook. ¡Que te diviertas!…

4. ¡Felicitaciones!

e3299284f68f56f4.png

¡Felicitaciones por completar el codelab!

Más información