1. Übersicht
In diesem Lab lernen Sie, wie Sie das komplexe Problem der multimodalen Videotranskription mit einem einzigen Gemini-Prompt lösen können.
Sie analysieren Videos, um gleichzeitig Antworten auf die folgenden Fragen zu finden:
- 1️⃣ Was wurde gesagt und wann?
- 2️⃣ Wer sind die Referenten?
- 3️⃣ Wer hat was gesagt?
Hier ist ein Beispiel dafür, was Sie erreichen können:
Lerninhalte
- Eine Methodik zur Bewältigung neuer oder komplexer multimodaler Probleme
- Eine Prompt-Technik zum Entkoppeln von Daten und Beibehalten der Aufmerksamkeit: tabellarische Extraktion
- Strategien zur optimalen Nutzung des 1‑Millionen-Token-Kontexts von Gemini in einer einzelnen Anfrage
- Praxisbeispiele für multimodale Videotranskriptionen
- Tipps und Optimierungen
Voraussetzungen
- Sie sind mit der Ausführung von Python in einem Notebook (in Colab oder einer anderen Jupyter-Umgebung) vertraut.
- Ein Google Cloud-Projekt (Vertex AI) oder ein Gemini API-Schlüssel (Google AI Studio)
- 20–90 Minuten (je nachdem, ob Sie einen Schnelltest durchführen oder alles lesen und testen)
Los gehts…
2. Hinweis
Für die Verwendung der Gemini API haben Sie zwei Hauptoptionen:
- Über Vertex AI mit einem Google Cloud-Projekt
- Über Google AI Studio mit einem Gemini API-Schlüssel
🛠️ Option 1: Gemini API über Vertex AI
Anforderungen:
- Ein Google Cloud-Projekt
- Die Vertex AI API muss für dieses Projekt aktiviert sein.
🛠️ Option 2: Gemini API über Google AI Studio
Anforderung:
- Ein Gemini API-Schlüssel
Weitere Informationen zum Abrufen eines Gemini API-Schlüssels aus Google AI Studio
3. Notebook ausführen
Wählen Sie das gewünschte Tool zum Öffnen des Notebooks aus:
🧰 Tool A: Notebook in Colab öffnen
🧰 Tool B: Notebook in Colab Enterprise oder Vertex AI Workbench öffnen
💡 Diese Option ist möglicherweise die beste, wenn Sie bereits ein Google Cloud-Projekt mit einer Colab Enterprise- oder Vertex AI Workbench-Instanz konfiguriert haben.
🧰 Tool C: Notebook von GitHub herunterladen und in der eigenen Umgebung ausführen
⚠️ Sie müssen das Notebook von GitHub herunterladen (oder das Repository klonen) und in Ihrer eigenen Jupyter-Umgebung ausführen.
🗺️ Inhaltsverzeichnis des Notebooks
Um die Navigation zu erleichtern, sollten Sie das Inhaltsverzeichnis aufklappen und verwenden. Beispiel:
🏁 Notebook ausführen
Sie sind bereit. Sie können das Notebook jetzt durchgehen und ausführen. Viel Spaß!
4. Glückwunsch!
Sie haben dieses komplexe Problem mit den folgenden Techniken gelöst:
- Prototyping mit offenen Prompts, um ein Gefühl für die natürlichen Stärken von Gemini zu entwickeln
- Funktionsweise von LLMs
- Immer spezifischere Prompts mit einer tabellarischen Extraktionsstrategie erstellen
- Strukturierte Ausgaben generieren, um produktionsreife Code zu erhalten
- Datenvisualisierung für eine einfachere Interpretation von Antworten und reibungslosere Iterationen
- Standardparameter anpassen, um die Ergebnisse zu optimieren
- Mehr Tests durchführen, iterieren und die extrahierten Daten sogar anreichern
Diese Grundsätze sollten für viele andere Bereiche der Datenextraktion gelten und es Ihnen ermöglichen, Ihre eigenen komplexen Probleme zu lösen.
Weitere Informationen
- Andere Gemini-Notebooks aus dem Repository „Google Cloud Generative AI“ ausführen
- Weitere Anwendungsfälle finden Sie in der Vertex AI Prompt Gallery.
- Versionshinweise zu Vertex AI