Introduzione al toolkit dell'API Gemini Live dell'ADK

1. Che cos'è lo streaming bidirezionale?

Lo streaming bidirezionale (bidi-streaming) consente la comunicazione simultanea a due vie tra l'applicazione e i modelli di AI. A differenza dei pattern di richiesta-risposta tradizionali in cui invii un messaggio completo e aspetti una risposta completa, il bidi-streaming consente di:

  • Input continuo: trasmetti in streaming audio, video o testo man mano che vengono acquisiti
  • Output in tempo reale: ricevi le risposte dell'AI man mano che vengono generate
  • Interruzione naturale: gli utenti possono interrompere l'AI a metà della risposta, proprio come in una conversazione umana

6e82a81aa114e116.png

Perché è importante: il bidi-streaming rende le conversazioni con l'AI naturali. L'AI può rispondere mentre stai ancora fornendo il contesto e puoi interromperla quando hai sentito abbastanza, proprio come se stessi parlando con una persona.

Che cos'è il toolkit API ADK in Gemini Live?

L' Agent Development Kit (ADK) fornisce un'astrazione di alto livello sull' API Gemini Live, gestendo la complessa infrastruttura dello streaming in tempo reale in modo che tu possa concentrarti sulla creazione dell'applicazione.

b0066935f4c245d2.png

Il toolkit API ADK in Gemini Live gestisce:

  • Ciclo di vita della connessione: stabilisce, mantiene e ripristina le connessioni WebSocket
  • Routing dei messaggi: indirizza audio, testo e immagini ai gestori corretti
  • Stato della sessione: mantiene la cronologia delle conversazioni tra le riconnessioni
  • Esecuzione dello strumento: chiama e riprende automaticamente le chiamate di funzione

Perché ADK anziché l'API Live non elaborata?

Potresti creare direttamente l'API Gemini Live, ma ADK gestisce l'infrastruttura complessa in modo che tu possa concentrarti sulla tua applicazione:

61c685c2703e3aac.png

Capacità

API Live non elaborata

Toolkit API ADK in Gemini Live

Framework dell'agente

Crea da zero

Agente singolo/multiplo con strumenti, valutazione, sicurezza

Esecuzione dello strumento

Gestione manuale

Esecuzione parallela automatica

Gestione delle connessioni

Riconnessione manuale

Ripresa della sessione trasparente

Modello evento

Strutture personalizzate

Oggetti Event unificati e tipizzati

Framework asincrono

Coordinamento manuale

Generatore LiveRequestQueue + run_live()

Persistenza della sessione

Implementazione manuale

SQL, Vertex AI o in memoria integrati

In sintesi: ADK riduce i mesi di sviluppo dell'infrastruttura a giorni di sviluppo dell'applicazione. Ti concentri su ciò che fa il tuo agente, non su come funziona lo streaming.

Casi d'uso del mondo reale

  • Assistenza clienti: un cliente mostra la sua macchina da caffè difettosa tramite la fotocamera dello smartphone mentre spiega il problema. L'AI identifica il modello e il punto di guasto e il cliente può interrompere la conversazione per correggere i dettagli.
  • E-commerce: un acquirente mostra un capo di abbigliamento alla webcam chiedendo "Trova scarpe che si abbinino a questi pantaloni". L'agente analizza lo stile e si impegna in un flusso di conversazione: "Mostrami qualcosa di più casual" → "Che ne dici di queste sneakers?" → "Aggiungi quelle blu nella taglia 43".
  • Assistenza sul campo: un tecnico che indossa occhiali smart trasmette in streaming la sua visualizzazione mentre chiede "Sento uno strano rumore provenire da questo compressore. Puoi identificarlo?" L'agente fornisce indicazioni dettagliate passo passo senza l'uso delle mani.
  • Sanità: un paziente condivide un video in diretta di una condizione della pelle. L'AI esegue un'analisi preliminare, pone domande chiarificatrici e guida i passaggi successivi.
  • Servizi finanziari: un cliente esamina il suo portafoglio mentre l'agente mostra grafici e simula gli impatti commerciali. Il cliente può condividere lo schermo per discutere di articoli di notizie specifici.

Shopper's Concierge 2 Demo: demo RAG agentica in tempo reale per l'e-commerce, creata con il toolkit API ADK in Gemini Live e le API Vertex AI Vector Search, Embeddings, Feature Store e Ranking:

Demo 2 di Shopper's Concierge

Scopri di più: Guida per gli sviluppatori

Per un approfondimento completo, consulta la Guida per gli sviluppatori del toolkit API ADK in Gemini Live, una serie in 5 parti che copre l'architettura e il deployment di produzione:

Parte

Messa a fuoco

Obiettivi didattici

Parte 1

Fondazione

Architettura, piattaforme API Live, ciclo di vita in 4 fasi

Parte 2

Upstream

Invio di testo, audio, video tramite LiveRequestQueue

Parte 3

Downstream

Gestione degli eventi, esecuzione degli strumenti, workflow multi-agente

Parte 4

Configurazione

Gestione delle sessioni, quote, controlli di produzione

Parte 5

Multimodale

Specifiche audio, architetture dei modelli, funzionalità avanzate

2. Panoramica del workshop

Cosa creerai

In questo workshop pratico, creerai da zero un'applicazione AI completa per lo streaming bidirezionale. Alla fine, avrai un'AI vocale funzionante in grado di:

  • Accettare input di testo, audio e immagini
  • Rispondere con testo in streaming o voce naturale
  • Gestire le interruzioni in modo naturale
  • Utilizzare strumenti come la Ricerca Google

A differenza della lettura della documentazione, esaminerai ogni componente passo dopo passo, comprendendo come i pezzi si incastrano man mano che crei in modo incrementale.

Demo del toolkit API ADK Gemini Live

Approccio di apprendimento

Seguiamo un approccio di creazione incrementale:

  • Passaggio 1: server WebSocket minimo → "Hello World" risposta
  • Passaggio 2: aggiungi l'agente → definisci il comportamento e gli strumenti dell'AI
  • Passaggio 3: inizializzazione dell'applicazione → runner e servizio di sessione
  • Passaggio 4: inizializzazione della sessione → RunConfig e LiveRequestQueue
  • Passaggio 5: attività upstream → comunicazione dal client alla coda
  • Passaggio 6: attività downstream → eventi per lo streaming client
  • Passaggio 7: aggiungi audio → input e output vocale
  • Passaggio 8: aggiungi input di immagini → AI multimodale

Ogni passaggio si basa sul precedente. Eseguirai un test dopo ogni passaggio per verificare i tuoi progressi.

Prerequisiti

  • Account Google Cloud con fatturazione abilitata
  • Conoscenza di base della programmazione in Python e asincrona (async/await)
  • Browser web con accesso a microfono e webcam (Chrome consigliato)

Stima del tempo

  • Workshop completo: circa 90 minuti
  • Versione rapida (solo passaggi 1-4): circa 45 minuti

3. Officina

Inizia il workshop seguendo le istruzioni riportate qui:

https://github.com/kazunori279/adk-streaming-guide/blob/main/workshops/workshop.md

4. Tempo di wrap up e concetti fondamentali

Cosa hai creato

Hai creato da zero un'applicazione AI completa per lo streaming bidirezionale. L'applicazione gestisce l'input di testo, voce e immagini con risposte di streaming in tempo reale, la base per la creazione di AI conversazionale pronta per la produzione.

Componente

Cosa fa

Passaggio

Agente

Definisce la personalità, le istruzioni e gli strumenti disponibili dell'AI (ad es. Ricerca Google)

Passaggio 2

SessionService

Mantiene la cronologia delle conversazioni tra le riconnessioni

Passaggio 3

Runner

Orchestra il ciclo di vita dello streaming, collega l'agente all'API Live

Passaggio 3

RunConfig

Configura la modalità di risposta (TEXT/AUDIO), la trascrizione, la ripresa della sessione

Passaggio 4

LiveRequestQueue

Interfaccia unificata per l'invio di testo, audio e immagini al modello

Passaggio 5

run_live()

Generatore asincrono che genera eventi di streaming dal modello

Passaggio 6

send_realtime()

Invia blob audio/immagine per l'input di streaming continuo

Passaggio 7-8

Risorse

Continua a imparare con queste risorse ufficiali. La Guida al toolkit API ADK in Gemini Live fornisce una copertura più approfondita di tutto ciò che è incluso in questo workshop.

Risorsa

URL

Documentazione ADK

https://google.github.io/adk-docs/

Guida al toolkit API ADK in Gemini Live

https://google.github.io/adk-docs/streaming/dev-guide/

API Gemini Live

https://ai.google.dev/gemini-api/docs/live

API Vertex AI Live

https://cloud.google.com/vertex-ai/generative-ai/docs/live-api

Repository di esempi ADK

https://github.com/google/adk-samples