Einführung in das ADK Gemini Live API-Toolkit

1. Was ist Bidi-Streaming?

Bidirektionales Streaming (BiDi-Streaming) ermöglicht die gleichzeitige bidirektionale Kommunikation zwischen Ihrer Anwendung und KI-Modellen. Im Gegensatz zu herkömmlichen Anfrage-Antwort-Mustern, bei denen Sie eine vollständige Nachricht senden und auf eine vollständige Antwort warten, ermöglicht Bidi-Streaming Folgendes:

  • Kontinuierliche Eingabe: Audio, Video oder Text streamen, während sie aufgenommen werden
  • Echtzeitausgabe: KI-Antworten werden ausgegeben, sobald sie generiert werden.
  • Natürliche Unterbrechung: Nutzer können die KI während der Antwort unterbrechen, genau wie in einem Gespräch mit einem Menschen.

6e82a81aa114e116.png

Bedeutung:Durch Bidi-Streaming fühlen sich KI-Unterhaltungen natürlich an. Die KI kann antworten, während Sie noch Kontext liefern. Sie können sie unterbrechen, wenn Sie genug gehört haben – genau wie bei einem Gespräch mit einem Menschen.

Was ist das ADK-Toolkit für die Gemini Live API?

Das Agent Development Kit (ADK) bietet eine Abstraktion auf hoher Ebene für die Gemini Live API und übernimmt die komplexe Einrichtung des Echtzeit-Streamings, damit Sie sich auf die Entwicklung Ihrer Anwendung konzentrieren können.

b0066935f4c245d2.png

Das ADK-Toolkit für die Gemini Live API verwaltet:

  • Verbindungslebenszyklus: WebSocket-Verbindungen herstellen, aufrechterhalten und wiederherstellen
  • Nachrichtenrouting: Audio, Text und Bilder an die richtigen Handler weiterleiten
  • Sitzungsstatus: Unterhaltungsverlauf bei erneuten Verbindungen beibehalten
  • Tool-Ausführung: Automatisches Aufrufen und Fortsetzen von Funktionsaufrufen

Warum ADK statt der reinen Live API?

Sie könnten direkt auf der Gemini Live API aufbauen, aber das ADK übernimmt die komplexe Infrastruktur, sodass Sie sich auf Ihre Anwendung konzentrieren können:

61c685c2703e3aac.png

Funktion

Raw Live API

ADK-Toolkit für die Gemini Live API

KI-Agentenframework

Ohne Vorlage erstellen

Einzel-/Multi-Agent mit Tools, Bewertung, Sicherheit

Tool-Ausführung

Manuelle Bearbeitung

Automatische parallele Ausführung

Verbindungsverwaltung

Manuelle Wiederverbindung

Transparente Sitzungswiederaufnahme

Ereignismodell

Benutzerdefinierte Strukturen

Einheitliche, typisierte Event-Objekte

Async-Framework

Manuelle Koordination

LiveRequestQueue + run_live()-Generator

Sitzungspersistenz

Manuelle Implementierung

Integrierte SQL-, Vertex AI- oder In-Memory-Funktionen

Fazit:Mit dem ADK lässt sich die Infrastrukturentwicklung von Monaten auf Tage verkürzen. Sie konzentrieren sich auf die Funktion Ihres Agents und nicht auf die Funktionsweise des Streamings.

Anwendungsfälle aus der Praxis

  • Kundenservice: Ein Kunde zeigt seine defekte Kaffeemaschine über die Telefonkamera und erklärt das Problem. Die KI identifiziert das Modell und den Fehlerpunkt. Der Kunde kann die Unterhaltung unterbrechen, um Details zu korrigieren.
  • E-Commerce: Ein Käufer hält Kleidung vor seine Webcam und fragt: „Finde Schuhe, die zu dieser Hose passen.“ Der Agent analysiert den Stil und führt einen flüssigen Dialog: „Zeig mir etwas Lässigeres“ → „Wie wäre es mit diesen Sneakers?“ → „Füge die blauen in Größe 10 hinzu.“
  • Kundendienst: Ein Techniker mit einer Smartbrille streamt seine Sicht und fragt: „Ich höre ein seltsames Geräusch von diesem Kompressor – kannst du es identifizieren?“ Der Agent gibt Schritt-für-Schritt-Anleitungen, ohne dass Sie das Gerät berühren müssen.
  • Gesundheitswesen: Ein Patient teilt ein Live-Video einer Hauterkrankung. Die KI führt eine vorläufige Analyse durch, stellt klärende Fragen und gibt Hinweise zu den nächsten Schritten.
  • Finanzdienstleistungen: Ein Kunde überprüft sein Portfolio, während der Kundenservicemitarbeiter Diagramme anzeigt und die Auswirkungen von Transaktionen simuliert. Der Kunde kann seinen Bildschirm freigeben, um bestimmte Nachrichtenartikel zu besprechen.

Shopper’s Concierge 2 Demo: Echtzeit-Demo für Agentic RAG für E-Commerce, erstellt mit dem ADK Gemini Live API-Toolkit und Vertex AI Vector Search, Embeddings, Feature Store und Ranking API:

Shopper's Concierge 2 – Demo

Weitere Informationen: Entwicklerleitfaden

Einen umfassenden Überblick finden Sie im Entwicklerleitfaden für das ADK-Toolkit für die Gemini Live API, einer fünfteiligen Reihe, die die Architektur bis zur Produktionsbereitstellung abdeckt:

Teil

Fokus

Lerninhalte

Teil 1

Stiftung

Architektur, Live-API-Plattformen, 4-Phasen-Lebenszyklus

Teil 2

Upstream

Senden von Text, Audio und Video über LiveRequestQueue

Teil 3

Downstream

Ereignisverarbeitung, Tool-Ausführung, Multi-Agent-Workflows

Teil 4

Konfiguration

Sitzungsverwaltung, Kontingente, Produktionskontrollen

Teil 5

Multimodal

Audiospezifikationen, Modellarchitekturen, erweiterte Funktionen

2. Workshop-Übersicht

Umfang

In diesem praxisorientierten Workshop entwickeln Sie eine vollständige bidirektionale Streaming-KI-Anwendung von Grund auf. Am Ende haben Sie eine funktionierende Sprach-KI, die Folgendes kann:

  • Text-, Audio- und Bildeingaben akzeptieren
  • Mit Streaming-Text oder natürlicher Sprache antworten
  • Natürlich auf Unterbrechungen reagieren
  • Tools wie die Google Suche verwenden

Anders als beim Lesen von Dokumentationen untersuchen Sie jede Komponente Schritt für Schritt und verstehen, wie die einzelnen Teile zusammenpassen, während Sie die App inkrementell erstellen.

ADK-Toolkit für die Gemini Live API – Demo

Lernansatz

Wir verfolgen einen inkrementellen Ansatz:

  • Schritt 1: Minimaler WebSocket-Server → „Hello World“-Antwort
  • Schritt 2: KI-Agenten hinzufügen → KI-Verhalten und Tools definieren
  • Schritt 3: Anwendungsinitialisierung → Runner- und Sitzungsdienst
  • Schritt 4: Sitzung initialisieren → RunConfig und LiveRequestQueue
  • Schritt 5: Upstream-Aufgabe → Kommunikation zwischen Client und Warteschlange
  • Schritt 6: Downstream-Aufgabe → Streaming von Ereignissen an den Client
  • Schritt 7: Audio hinzufügen → Spracheingabe und ‑ausgabe
  • Schritt 8: Bildeingabe hinzufügen → Multimodale KI

Jeder Schritt baut auf dem vorherigen auf. Nach jedem Schritt wird ein Test durchgeführt, um den Fortschritt zu überprüfen.

Vorbereitung

  • Google Cloud-Konto mit aktivierter Abrechnung
  • Grundlegende Kenntnisse der Python- und asynchronen Programmierung (async/await)
  • Webbrowser mit Zugriff auf Mikrofon und Webkamera (Chrome wird empfohlen)

Voraussichtlich benötigte Zeit

  • Vollständiger Workshop: ca. 90 Minuten
  • Kurze Version (nur Schritte 1 bis 4): ca. 45 Minuten

3. Workshop

Folgen Sie der Anleitung, um den Workshop zu starten:

https://github.com/kazunori279/adk-streaming-guide/blob/main/workshops/workshop.md

4. Zusammenfassung und wichtige Erkenntnisse

Was Sie erstellt haben

Sie haben eine vollständige bidirektionale Streaming-KI-Anwendung von Grund auf neu entwickelt. Die Anwendung verarbeitet Text-, Sprach- und Bildeingaben mit Streaming-Antworten in Echtzeit – die Grundlage für die Entwicklung produktionsreifer KI für Unterhaltungen.

Komponente

Was bewirkt die Funktion?

Step

Agent

Definiert die KI-Persönlichkeit, Anweisungen und verfügbaren Tools (z.B. Google Suche)

Schritt 2

SessionService

Unterhaltungsverlauf wird bei erneuten Verbindungen beibehalten

Schritt 3

Runner

Orchestriert den Streaming-Lebenszyklus, verbindet den Agenten mit der Live API

Schritt 3

RunConfig

Konfiguriert die Antwortmodalität (TEXT/AUDIO), die Transkription und die Wiederaufnahme der Sitzung.

Schritt 4

LiveRequestQueue

Einheitliche Benutzeroberfläche zum Senden von Text, Audio und Bildern an das Modell

Schritt 5

run_live()

Asynchroner Generator, der Streaming-Ereignisse aus dem Modell ausgibt

Schritt 6

send_realtime()

Sendet Audio-/Bild-Blobs für kontinuierliche Streamingeingabe

Schritt 7–8

Ressourcen

Mit diesen offiziellen Ressourcen können Sie Ihr Wissen weiter vertiefen. Im ADK-Toolkit-Leitfaden für die Gemini Live API finden Sie weitere Informationen zu allen Themen dieses Workshops.

Ressource

URL

ADK-Dokumentation

https://google.github.io/adk-docs/

ADK-Toolkit für die Gemini Live API – Anleitung

https://google.github.io/adk-docs/streaming/dev-guide/

Gemini Live API

https://ai.google.dev/gemini-api/docs/live

Vertex AI Live API

https://cloud.google.com/vertex-ai/generative-ai/docs/live-api

ADK-Beispielrepository

https://github.com/google/adk-samples