Pengantar ADK Gemini Live API Toolkit

1. Apa itu streaming BiDi?

Streaming dua arah (bidi-streaming) memungkinkan komunikasi dua arah secara bersamaan antara aplikasi dan model AI Anda. Tidak seperti pola permintaan-respons tradisional yang mengharuskan Anda mengirim pesan lengkap dan menunggu balasan lengkap, streaming dua arah memungkinkan:

  • Input berkelanjutan: Streaming audio, video, atau teks saat direkam
  • Output real-time: Menerima respons AI saat respons tersebut dibuat
  • Interupsi alami: Pengguna dapat menginterupsi AI di tengah respons, seperti dalam percakapan manusia

6e82a81aa114e116.png

Mengapa ini penting: Bidi-streaming membuat percakapan AI terasa alami. AI dapat merespons saat Anda masih memberikan konteks, dan Anda dapat menghentikannya saat Anda sudah cukup mendengar—sama seperti berbicara dengan manusia.

Apa itu ADK Gemini Live API Toolkit?

Agent Development Kit (ADK) menyediakan abstraksi tingkat tinggi melalui Gemini Live API, yang menangani kompleksitas streaming real-time sehingga Anda dapat berfokus pada pembuatan aplikasi.

b0066935f4c245d2.png

ADK Gemini Live API Toolkit mengelola:

  • Siklus proses koneksi: Membuat, mempertahankan, dan memulihkan koneksi WebSocket
  • Perutean pesan: Mengarahkan audio, teks, dan gambar ke handler yang tepat
  • Status sesi: Mempertahankan histori percakapan di seluruh koneksi ulang
  • Eksekusi alat: Memanggil dan melanjutkan dari panggilan fungsi secara otomatis

Mengapa ADK lebih baik daripada Live API mentah?

Anda dapat membangun langsung di Gemini Live API, tetapi ADK menangani infrastruktur yang kompleks sehingga Anda dapat berfokus pada aplikasi Anda:

61c685c2703e3aac.png

Kemampuan

Raw Live API

ADK Gemini Live API Toolkit

Framework Agen

Membuat dari awal

Agen tunggal/multi-agen dengan alat, evaluasi, keamanan

Eksekusi Alat

Penanganan manual

Eksekusi paralel otomatis

Pengelolaan Koneksi

Koneksi ulang manual

Pelanjutan sesi yang transparan

Model Acara

Struktur kustom

Objek Peristiwa yang diketik dan terpadu

Framework Asinkron

Koordinasi manual

Generator LiveRequestQueue + run_live()

Persistensi Sesi

Implementasi manual

SQL bawaan, Vertex AI, atau dalam memori

Intinya: ADK mengurangi pengembangan infrastruktur dari hitungan bulan menjadi hitungan hari. Anda berfokus pada tindakan yang dilakukan agen, bukan cara kerja streaming.

Kasus Penggunaan di Dunia Nyata

  • Layanan Pelanggan: Pelanggan menunjukkan mesin kopi yang rusak melalui kamera ponsel sambil menjelaskan masalahnya. AI mengidentifikasi model dan titik kegagalan, dan pelanggan dapat menyela untuk mengoreksi detail di tengah percakapan.
  • E-commerce: Pembeli memegang pakaian di depan webcam dan bertanya "Temukan sepatu yang cocok dengan celana ini". Agen menganalisis gaya dan melakukan percakapan dua arah yang lancar: "Tampilkan sesuatu yang lebih kasual" → "Bagaimana dengan sepatu kets ini?" → "Tambahkan yang biru ukuran 10."
  • Field Service: Seorang teknisi yang memakai kacamata pintar melakukan streaming tampilannya sambil bertanya, "Saya mendengar suara aneh dari kompresor ini—dapatkah Anda mengidentifikasinya?" Agen ini memberikan panduan langkah demi langkah secara handsfree.
  • Layanan kesehatan: Pasien membagikan video langsung kondisi kulit. AI melakukan analisis awal, mengajukan pertanyaan klarifikasi, dan memandu langkah berikutnya.
  • Layanan Keuangan: Klien meninjau portofolionya saat agen menampilkan diagram dan menyimulasikan dampak perdagangan. Klien dapat membagikan layarnya untuk mendiskusikan artikel berita tertentu.

Demo Shopper's Concierge 2: Demo RAG Agentik real-time untuk e-commerce, yang dibangun dengan ADK Gemini Live API Toolkit dan Vertex AI Vector Search, Embeddings, Feature Store, dan Ranking API:

Demo Shopper's Concierge 2

Pelajari Lebih Lanjut: Panduan Developer

Untuk pembahasan mendalam yang komprehensif, lihat Panduan Developer ADK Gemini Live API Toolkit—seri 5 bagian yang mencakup arsitektur hingga deployment produksi:

Bagian

Fokus

Yang Akan Anda Pelajari

Bagian 1

Yayasan

Arsitektur, platform Live API, siklus proses 4 fase

Bagian 2

Upstream

Mengirim teks, audio, video melalui LiveRequestQueue

Bagian 3

Downstream

Penanganan peristiwa, eksekusi alat, alur kerja multi-agen

Bagian 4

Konfigurasi

Pengelolaan sesi, kuota, kontrol produksi

Bagian 5

Multimodal

Spesifikasi audio, arsitektur model, fitur lanjutan

2. Ringkasan Workshop

Yang Akan Anda Buat

Dalam workshop praktik ini, Anda akan membangun aplikasi AI streaming dua arah yang lengkap dari awal. Pada akhirnya, Anda akan memiliki AI suara yang berfungsi dan dapat:

  • Menerima input teks, audio, dan gambar
  • Merespons dengan teks streaming atau ucapan alami
  • Menangani gangguan secara alami
  • Menggunakan alat seperti Google Penelusuran

Tidak seperti membaca dokumentasi, Anda akan memeriksa setiap komponen langkah demi langkah, memahami cara kerja setiap bagian saat Anda membangunnya secara bertahap.

Demo ADK Gemini Live API Toolkit

Pendekatan Pembelajaran

Kami mengikuti pendekatan build inkremental:

  • Langkah 1: Server WebSocket Minimal → Respons "Hello World"
  • Langkah 2: Tambahkan Agen → Tentukan perilaku dan alat AI
  • Langkah 3: Inisialisasi Aplikasi → Layanan runner dan sesi
  • Langkah 4: Inisialisasi Sesi → RunConfig dan LiveRequestQueue
  • Langkah 5: Tugas Hulu → Komunikasi dari klien ke antrean
  • Langkah 6: Tugas Hilir → Streaming peristiwa ke klien
  • Langkah 7: Tambahkan Audio → Input dan output suara
  • Langkah 8: Tambahkan Input Gambar → AI Multimodal

Setiap langkah dibangun berdasarkan langkah sebelumnya. Anda akan melakukan pengujian setelah setiap langkah untuk melihat progres Anda.

Prasyarat

  • Akun Google Cloud dengan penagihan diaktifkan
  • Pengetahuan dasar tentang Python dan pemrograman asinkron (async/await)
  • Browser web dengan akses mikrofon dan kamera web (Chrome direkomendasikan)

Estimasi Waktu

  • Workshop lengkap: ~90 menit
  • Versi cepat (Hanya Langkah 1-4): ~45 menit

3. Workshop

Mulai workshop dengan mengikuti petunjuk di sini:

https://github.com/kazunori279/adk-streaming-guide/blob/main/workshops/workshop.md

4. Penutup & Poin-Poin Penting

Yang Anda Buat

Anda telah membangun aplikasi AI streaming dua arah yang lengkap dari awal. Aplikasi ini menangani input teks, suara, dan gambar dengan respons streaming real-time—dasar untuk membangun AI percakapan yang siap produksi.

Komponen

Fungsinya

Langkah

Agen

Menentukan kepribadian AI, petunjuk, dan alat yang tersedia (misalnya, Google Penelusuran)

Langkah 2

SessionService

Mempertahankan histori percakapan saat terhubung kembali

Langkah 3

Runner

Mengatur siklus proses streaming, menghubungkan agen ke Live API

Langkah 3

RunConfig

Mengonfigurasi modalitas respons (TEXT/AUDIO), transkripsi, kelanjutan sesi

Langkah 4

LiveRequestQueue

Antarmuka terpadu untuk mengirim teks, audio, dan gambar ke model

Langkah 5

run_live()

Generator asinkron yang menghasilkan peristiwa streaming dari model

Langkah 6

send_realtime()

Mengirim blob audio/gambar untuk input streaming berkelanjutan

Langkah 7-8

Resource

Lanjutkan pembelajaran dengan referensi resmi berikut. Panduan ADK Gemini Live API Toolkit memberikan cakupan yang lebih mendalam tentang semua hal dalam workshop ini.

Resource

URL

Dokumentasi ADK

https://google.github.io/adk-docs/

Panduan ADK Gemini Live API Toolkit

https://google.github.io/adk-docs/streaming/dev-guide/

Gemini Live API

https://ai.google.dev/gemini-api/docs/live

Vertex AI Live API

https://cloud.google.com/vertex-ai/generative-ai/docs/live-api

Repositori Contoh ADK

https://github.com/google/adk-samples