Détecter et modifier des objets visuels avec Gemini et Nano Banana

1. Présentation

Dans cet atelier, vous allez effectuer les tâches suivantes :

  • 1️⃣ Détecter des objets visuels dans des images avec Gemini
  • 2️⃣ Extraire et restaurer des objets visuels avec Nano Banana
  • 3️⃣ Modifiez et transformez les objets restaurés avec Nano Banana

Voici quelques exemples de ce que vous pourrez faire :

1f2cadc1fd825c64.png

Points abordés

  • Effectuer une détection d'objets à vocabulaire ouvert à l'aide de la compréhension spatiale de Gemini
  • Extraire des cadres de sélection, des légendes et des libellés dynamiques à l'aide de requêtes en langage naturel
  • Restaurer, nettoyer et redresser des objets visuels déformés ou anciens
  • Rédiger des requêtes impératives et descriptives pour modifier des images
  • Coloriser et transformer des images de manière créative pour leur donner un tout nouveau style
  • Comment "cinématiser" des visuels pour les transformer en images fixes photoréalistes de films

Prérequis

  • Connaissance de l'exécution de Python dans un notebook (dans Colab ou tout autre environnement Jupyter)
  • Un projet Google Cloud (Vertex AI) ou une clé API Gemini (Google AI Studio) avec la facturation activée

ℹ️ Le coût total d'exécution de l'atelier de bout en bout est inférieur à 2 USD (45 images de 1 000 pixels générées,chacune avec 1 290 jetons).

ed255bd97afbedca.png fc7e616a26c8fa40.png c0b9ecec49c859f2.png fc7e616a26c8fa40.png 8f240cd033d2cc65.png

Premiers pas

2. Avant de commencer

Pour utiliser l'API Gemini, vous avez deux options principales :

  1. Via Vertex AI avec un projet Google Cloud
  2. Via Google AI Studio avec une clé API Gemini

🛠️ Option 1 : API Gemini via Vertex AI

Conditions requises :

  • Un projet Google Cloud
  • L'API Vertex AI doit être activée pour ce projet.

🛠️ Option 2 : API Gemini via Google AI Studio

Condition :

  • Une clé API Gemini

Découvrez comment obtenir une clé API Gemini depuis Google AI Studio.

3. Exécuter le notebook

Choisissez l'outil de votre choix pour ouvrir le notebook :

🧰 Outil A : ouvrir le notebook dans Colab

🧰 Outil B : Ouvrez le notebook dans Colab Enterprise ou Vertex AI Workbench.

💡 Cette option peut être préférable si vous avez déjà configuré un projet Google Cloud avec une instance Colab Enterprise ou Vertex AI Workbench.

🧰 Outil C : Obtenir le notebook depuis GitHub et l'exécuter dans votre propre environnement

⚠️ Vous devrez obtenir le notebook depuis GitHub (ou cloner le dépôt) et l'exécuter dans votre propre environnement Jupyter.

🗺️ Sommaire du notebook

Pour faciliter la navigation, veillez à développer et à utiliser la table des matières. Exemple :

de85f5dcc0fe059e.png

🏁 Exécuter le notebook

Vous êtes prêt. Vous pouvez maintenant suivre et exécuter le notebook. Amusez-vous bien !

4. Félicitations !

e3299284f68f56f4.png

Bravo ! Vous avez terminé cet atelier de programmation.

En savoir plus