Visuelle Objekte mit Gemini und Nano Banana erkennen und bearbeiten

1. Übersicht

In diesem Lab werden die folgenden Aufgaben behandelt:

  • 1️⃣ Visuelle Objekte in Bildern mit Gemini erkennen
  • 2️⃣ Visuelle Objekte mit Nano Banana extrahieren und wiederherstellen
  • 3️⃣ Wiederhergestellte Objekte mit Nano Banana bearbeiten und transformieren

Hier einige Beispiele für das, was Sie erreichen können:

1f2cadc1fd825c64.png

Lerninhalte

  • Objekterkennung mit offenem Vokabular mithilfe des räumlichen Verständnisses von Gemini
  • Begrenzungsrahmen, Bildunterschriften und dynamische Labels mit Prompts in natürlicher Sprache extrahieren
  • Anleitung zum Wiederherstellen, Bereinigen und Begradigen verzerrter oder alter visueller Objekte
  • Imperative und beschreibende Prompts für die Bildbearbeitung schreiben
  • Bilder kreativ kolorieren und in völlig neue Stile transformieren
  • Bilder in fotorealistische Filmstills aus Live-Action-Filmen verwandeln

Voraussetzungen

  • Erfahrung mit dem Ausführen von Python in einem Notebook (in Colab oder einer anderen Jupyter-Umgebung)
  • Ein Google Cloud-Projekt oder ein Gemini API-Schlüssel mit aktivierter Abrechnung

ℹ️ Die Gesamtkosten für die Ausführung des Labs von Anfang bis Ende betragen weniger als 2 US-Dollar (45 generierte 1K-Bilder mit jeweils 1.290 Tokens).

ed255bd97afbedca.png fc7e616a26c8fa40.png c0b9ecec49c859f2.png fc7e616a26c8fa40.png 8f240cd033d2cc65.png

Los gehts…

2. Hinweis

Für die Verwendung der Gemini API haben Sie zwei Hauptoptionen:

  1. Über die Agent Platform (früher Vertex AI) mit einem Google Cloud-Projekt
  2. Über Google AI Studio mit einem Gemini API-Schlüssel

🛠️ Option 1: Gemini API über die Agent Platform

Anforderungen:

  • Ein Google Cloud-Projekt
  • Die Agent Platform API muss für dieses Projekt aktiviert sein.

🛠️ Option 2: Gemini API über Google AI Studio

Voraussetzung:

  • Ein Gemini API-Schlüssel

Weitere Informationen zum Abrufen eines Gemini API-Schlüssels von Google AI Studio.

3. Notebook ausführen

Wählen Sie das gewünschte Tool aus, um das Notebook zu öffnen:

🧰 Tool A: Notebook in Colab öffnen

🧰 Tool B: Notebook in Colab Enterprise oder Workbench öffnen

💡 Diese Option ist möglicherweise besser geeignet, wenn Sie bereits ein Google Cloud-Projekt mit einer Colab Enterprise- oder Workbench-Instanz konfiguriert haben.

🧰 Tool C: Notebook von GitHub abrufen und in Ihrer eigenen Umgebung ausführen

⚠️ Sie müssen das Notebook von GitHub abrufen (oder das Repository klonen) und in Ihrer eigenen Jupyter-Umgebung ausführen.

🗺️ Inhaltsverzeichnis des Notebooks

Erweitern Sie das Inhaltsverzeichnis, um einfacher zu navigieren. Beispiel:

de85f5dcc0fe059e.png

🏁 Notebook ausführen

Sie sind bereit. Sie können jetzt das Notebook ausführen. Viel Spaß!

4. Glückwunsch!

e3299284f68f56f4.png

Herzlichen Glückwunsch zum Abschluss des Codelabs!

Weitere Informationen