Wprowadzenie do zestawu narzędzi ADK Gemini Live API

1. Czym jest strumieniowanie dwukierunkowe?

Strumieniowanie dwukierunkowe (bidi-streaming) umożliwia jednoczesną dwukierunkową komunikację między aplikacją a modelami AI. W odróżnieniu od tradycyjnych wzorców żądanie-odpowiedź, w których wysyłasz pełną wiadomość i czekasz na pełną odpowiedź, dwukierunkowe przesyłanie strumieniowe umożliwia:

  • Ciągłe dane wejściowe: przesyłanie strumieniowe dźwięku, obrazu lub tekstu w miarę ich rejestrowania.
  • Dane wyjściowe w czasie rzeczywistym: otrzymuj odpowiedzi AI w miarę ich generowania.
  • Naturalne przerywanie: użytkownicy mogą przerywać AI w trakcie odpowiedzi, tak jak w rozmowie z człowiekiem.

6e82a81aa114e116.png

Dlaczego to jest ważne: dwukierunkowe przesyłanie strumieniowe sprawia, że rozmowy z AI są naturalne. AI może odpowiadać, gdy nadal podajesz kontekst, a Ty możesz jej przerwać, gdy usłyszysz wystarczająco dużo – tak jak w rozmowie z człowiekiem.

Czym jest pakiet narzędzi ADK Gemini Live API?

Pakiet Agent Development Kit (ADK) zapewnia abstrakcję wysokiego poziomu nad interfejsem Gemini Live API, obsługując złożone aspekty strumieniowania w czasie rzeczywistym, dzięki czemu możesz skupić się na tworzeniu aplikacji.

b0066935f4c245d2.png

Pakiet narzędzi ADK Gemini Live API zarządza:

  • Cykl życia połączenia: nawiązywanie, utrzymywanie i przywracanie połączeń WebSocket
  • Routing wiadomości: kierowanie dźwięku, tekstu i obrazów do odpowiednich modułów obsługi.
  • Stan sesji: zachowywanie historii rozmów podczas ponownych połączeń
  • Wykonywanie narzędzi: automatyczne wywoływanie funkcji i wznawianie działania po wywołaniu funkcji.

Dlaczego warto używać ADK zamiast interfejsu Live API?

Możesz tworzyć aplikacje bezpośrednio w interfejsie Gemini Live API, ale ADK obsługuje złożoną infrastrukturę, dzięki czemu możesz skupić się na swojej aplikacji:

61c685c2703e3aac.png

Możliwość

Raw Live API

Pakiet narzędzi ADK Gemini Live API

Platforma agenta

Utwórz od zera

Pojedynczy lub wieloagentowy z narzędziami, oceną i zabezpieczeniami

Wykonanie narzędzia

Ręczna obsługa

Automatyczne wykonywanie równoległe

Zarządzanie połączeniami

Ręczne ponowne łączenie

Przejrzyste wznawianie sesji

Model zdarzeń

Struktury niestandardowe

Ujednolicone obiekty zdarzeń z określonym typem

Platforma asynchroniczna

Ręczna koordynacja

Generator LiveRequestQueue + run_live()

Trwałość sesji

Implementacja ręczna

Wbudowane SQL, Vertex AI lub w pamięci

Podsumowanie: Pakiet ADK skraca czas tworzenia infrastruktury z miesięcy do dni. Skupiasz się na tym, co robi Twój agent, a nie na tym, jak działa streaming.

Praktyczne zastosowania

  • Obsługa klienta: klient pokazuje wadliwy ekspres do kawy przez kamerę telefonu, wyjaśniając problem. AI rozpoznaje model i punkt awarii, a klient może przerwać rozmowę, aby poprawić szczegóły.
  • Handel elektroniczny: kupujący trzyma ubranie przed kamerą internetową i pyta: „Znajdź buty pasujące do tych spodni”. Agent analizuje styl i prowadzi płynną rozmowę: „Pokaż mi coś bardziej swobodnego” → „A może te sneakersy?” → „Dodaj niebieskie w rozmiarze 10”.
  • Serwis w terenie: technik w okularach inteligentnych przesyła strumieniowo obraz, zadając pytanie: „Słyszę dziwny dźwięk z tej sprężarki – czy możesz go zidentyfikować?”. Agent udziela szczegółowych wskazówek bez użycia rąk.
  • Opieka zdrowotna: pacjent udostępnia transmisję na żywo przedstawiającą stan skóry. AI przeprowadza wstępną analizę, zadaje pytania wyjaśniające i wskazuje kolejne kroki.
  • Usługi finansowe: klient przegląda swoje portfolio, a agent wyświetla wykresy i symuluje wpływ transakcji. Klient może udostępnić ekran, aby omówić konkretne artykuły z wiadomościami.

Wersja demonstracyjna Shopper's Concierge 2: demonstracja w czasie rzeczywistym techniki RAG opartej na agentach dla e-commerce, utworzona za pomocą pakietu narzędzi ADK Gemini Live API oraz interfejsów Vertex AI Vector Search, Embeddings, Feature Store i Ranking API:

Wersja demonstracyjna Shopper's Concierge 2

Więcej informacji: Przewodnik dla programistów

Szczegółowe informacje znajdziesz w Przewodniku dla programistów korzystających z pakietu narzędzi ADK Gemini Live API, który składa się z 5 części i obejmuje tematy od architektury po wdrażanie w środowisku produkcyjnym:

Część

Ostrość

Czego się nauczysz

Część 1

Fundacja

Architektura, platformy Live API, 4-fazowy cykl życia

Część 2

W górę

Wysyłanie tekstu, dźwięku i filmu za pomocą LiveRequestQueue

Część 3

W dół

Obsługa zdarzeń, wykonywanie narzędzi, przepływy pracy z wieloma agentami

Część 4

Konfiguracja

Zarządzanie sesjami, limity, kontrola produkcji

Część 5

Tryb multimodalny

Dane techniczne audio, architektury modeli, funkcje zaawansowane

2. Omówienie warsztatów

Co utworzysz

Podczas tych praktycznych warsztatów od podstaw stworzysz kompletną dwukierunkową aplikację AI do strumieniowania. Po zakończeniu tego procesu będziesz mieć działającą AI głosową, która może:

  • przyjmować dane wejściowe w postaci tekstu, dźwięku i obrazów;
  • Odpowiadanie za pomocą przesyłanego strumieniowo tekstu lub naturalnej mowy
  • Naturalne reagowanie na przerwy
  • korzystać z narzędzi takich jak wyszukiwarka Google,

W przeciwieństwie do czytania dokumentacji będziesz krok po kroku analizować każdy komponent, aby zrozumieć, jak poszczególne elementy łączą się ze sobą w miarę ich dodawania.

Prezentacja pakietu narzędzi ADK Gemini Live API

Podejście do nauki

Stosujemy podejście przyrostowe:

  • Krok 1. Minimalny serwer WebSocket → odpowiedź „Hello World”
  • Krok 2. Dodaj agenta → zdefiniuj zachowanie i narzędzia AI
  • Krok 3. Inicjowanie aplikacji → usługa Runner i sesji
  • Krok 4. Inicjowanie sesji → RunConfig i LiveRequestQueue
  • Krok 5. Zadanie nadrzędne → komunikacja klienta z kolejką
  • Krok 6. Zadanie podrzędne → przesyłanie strumieniowe zdarzeń do klienta
  • Krok 7. Dodaj dźwięk → Głosowe wprowadzanie tekstu i generowanie mowy
  • Krok 8. Dodaj wejście obrazu → AI multimodalna

Każdy krok opiera się na poprzednim. Po każdym kroku sprawdzisz swoje postępy.

Wymagania wstępne

  • konto Google Cloud z włączonymi płatnościami;
  • podstawowa znajomość Pythona i programowania asynchronicznego (async/await),
  • przeglądarka internetowa z dostępem do mikrofonu i kamery internetowej (zalecamy korzystanie z przeglądarki Chrome);

Szacowany czas

  • Pełne warsztaty: ok. 90 minut
  • Wersja skrócona (tylko kroki 1–4): ok. 45 minut

3. Warsztat

Aby rozpocząć warsztaty, postępuj zgodnie z tymi instrukcjami:

https://github.com/kazunori279/adk-streaming-guide/blob/main/workshops/workshop.md

4. Podsumowanie i najważniejsze informacje

Co utworzysz

Udało Ci się od podstaw utworzyć kompletną dwukierunkową aplikację do strumieniowania AI. Aplikacja obsługuje dane wejściowe w postaci tekstu, głosu i obrazu, a odpowiedzi są przesyłane strumieniowo w czasie rzeczywistym. To podstawa do tworzenia konwersacyjnych AI przygotowanych do zastosowań produkcyjnych.

Komponent

Jak działa

Step

Agent

Określa osobowość AI, instrukcje i dostępne narzędzia (np.wyszukiwarkę Google).

Krok 2

SessionService

Zachowuje historię rozmów po ponownym nawiązaniu połączenia

Krok 3

Biegacz

Orkiestruje cykl życia transmisji strumieniowej, łączy agenta z interfejsem Live API

Krok 3

RunConfig

Konfiguruje tryb odpowiedzi (TEXT/AUDIO), transkrypcję i wznawianie sesji.

Krok 4

LiveRequestQueue

Ujednolicony interfejs do wysyłania do modelu tekstu, dźwięku i obrazów

Krok 5

run_live()

Generator asynchroniczny, który zwraca zdarzenia przesyłane strumieniowo z modelu

Krok 6

send_realtime()

Wysyła obiekty blob audio/obrazu jako dane wejściowe do ciągłego strumieniowania.

Krok 7–8

Zasoby

Kontynuuj naukę, korzystając z tych oficjalnych zasobów. Przewodnik po pakiecie narzędzi ADK Gemini Live API zawiera więcej informacji o wszystkim, co zostało omówione na tych warsztatach.

Zasób

Adres URL

Dokumentacja pakietu ADK

https://google.github.io/adk-docs/

Przewodnik po pakiecie narzędzi ADK Gemini Live API

https://google.github.io/adk-docs/streaming/dev-guide/

Gemini Live API

https://ai.google.dev/gemini-api/docs/live

Vertex AI Live API

https://cloud.google.com/vertex-ai/generative-ai/docs/live-api

Repozytorium przykładów pakietu ADK

https://github.com/google/adk-samples