Detectar e editar objetos visuais com o Gemini e o Nano Banana

1. Visão geral

Neste laboratório, você vai aprender a realizar as seguintes tarefas:

  • 1️⃣ Detectar objetos visuais em imagens com o Gemini
  • 2️⃣ Extrair e restaurar objetos visuais com o Nano Banana
  • 3️⃣ Edite e transforme os objetos restaurados com o Nano Banana

Confira alguns exemplos do que você vai conseguir:

1f2cadc1fd825c64.png

O que você vai aprender

  • Como realizar a detecção de objetos de vocabulário aberto usando a compreensão espacial do Gemini
  • Como extrair caixas delimitadoras, legendas e rótulos dinâmicos usando comandos de linguagem natural
  • Instruções: como restaurar, limpar e endireitar objetos visuais deformados ou vintage
  • Como escrever comandos imperativos e descritivos para edição de imagens
  • Como colorir e transformar recursos visuais em estilos totalmente novos de forma criativa
  • Como "cinematizar" visuais em imagens fotorrealistas de filmes live-action

O que é necessário

  • Familiaridade com a execução do Python em um notebook (no Colab ou em qualquer outro ambiente Jupyter)
  • Um projeto do Google Cloud (Vertex AI) ou uma chave de API Gemini (Google AI Studio) com o faturamento ativado

ℹ️ O custo total para executar o laboratório do início ao fim é inferior a US$ 2 (45 imagens de 1K geradas com 1.290 tokens cada).

ed255bd97afbedca.png fc7e616a26c8fa40.png c0b9ecec49c859f2.png fc7e616a26c8fa40.png 8f240cd033d2cc65.png

Vamos começar

2. Antes de começar

Para usar a API Gemini, você tem duas opções principais:

  1. Pela Vertex AI com um projeto na nuvem do Google Cloud
  2. Pelo Google AI Studio com uma chave da API Gemini

🛠️ Opção 1: API Gemini pela Vertex AI

Requisitos:

  • um projeto do Google Cloud;
  • A API Vertex AI precisa estar ativada para esse projeto.

🛠️ Opção 2: API Gemini pelo Google AI Studio

Requisito:

  • Uma chave da API Gemini

Saiba como conseguir uma chave da API Gemini no Google AI Studio.

3. Executar o notebook

Escolha sua ferramenta preferida para abrir o notebook:

🧰 Ferramenta A: abrir o notebook no Colab

🧰 Ferramenta B: abrir o notebook no Colab Enterprise ou no Vertex AI Workbench

💡 Essa opção pode ser preferível se você já tiver um projeto na nuvem do Google Cloud configurado com uma instância do Colab Enterprise ou do Vertex AI Workbench.

🧰 Ferramenta C: extrair o notebook do GitHub e executar no seu próprio ambiente

⚠️ Você vai precisar acessar o notebook no GitHub (ou clonar o repositório) e executá-lo no seu próprio ambiente Jupyter.

🗺️ Sumário do notebook

Para facilitar a navegação, abra e use o sumário. Exemplo:

de85f5dcc0fe059e.png

🏁 Execute o notebook

Tudo pronto. Agora você pode seguir e executar o notebook. Divirta-se!

4. Parabéns!

e3299284f68f56f4.png

Parabéns por concluir o codelab!

Saiba mais