Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Pengantar ADK Gemini Live API Toolkit

1. Apa itu streaming BiDi?

Streaming dua arah (bidi-streaming) memungkinkan komunikasi dua arah secara bersamaan antara aplikasi dan model AI Anda. Tidak seperti pola permintaan-respons tradisional yang mengharuskan Anda mengirim pesan lengkap dan menunggu balasan lengkap, streaming dua arah memungkinkan:

Input berkelanjutan: Streaming audio, video, atau teks saat direkam
Output real-time: Menerima respons AI saat respons tersebut dibuat
Interupsi alami: Pengguna dapat menginterupsi AI di tengah respons, seperti dalam percakapan manusia

Mengapa ini penting: Bidi-streaming membuat percakapan AI terasa alami. AI dapat merespons saat Anda masih memberikan konteks, dan Anda dapat menghentikannya saat Anda sudah cukup mendengar—sama seperti berbicara dengan manusia.

Apa itu ADK Gemini Live API Toolkit?

Agent Development Kit (ADK) menyediakan abstraksi tingkat tinggi melalui Gemini Live API, yang menangani kompleksitas streaming real-time sehingga Anda dapat berfokus pada pembuatan aplikasi.

ADK Gemini Live API Toolkit mengelola:

Siklus proses koneksi: Membuat, mempertahankan, dan memulihkan koneksi WebSocket
Perutean pesan: Mengarahkan audio, teks, dan gambar ke handler yang tepat
Status sesi: Mempertahankan histori percakapan di seluruh koneksi ulang
Eksekusi alat: Memanggil dan melanjutkan dari panggilan fungsi secara otomatis

Mengapa ADK lebih baik daripada Live API mentah?

Anda dapat membangun langsung di Gemini Live API, tetapi ADK menangani infrastruktur yang kompleks sehingga Anda dapat berfokus pada aplikasi Anda:

Kemampuan	Raw Live API	ADK Gemini Live API Toolkit
Framework Agen	Membuat dari awal	Agen tunggal/multi-agen dengan alat, evaluasi, keamanan
Eksekusi Alat	Penanganan manual	Eksekusi paralel otomatis
Pengelolaan Koneksi	Koneksi ulang manual	Pelanjutan sesi yang transparan
Model Acara	Struktur kustom	Objek Peristiwa yang diketik dan terpadu
Framework Asinkron	Koordinasi manual	Generator LiveRequestQueue + run_live()
Persistensi Sesi	Implementasi manual	SQL bawaan, Vertex AI, atau dalam memori

Intinya: ADK mengurangi pengembangan infrastruktur dari hitungan bulan menjadi hitungan hari. Anda berfokus pada tindakan yang dilakukan agen, bukan cara kerja streaming.

Kasus Penggunaan di Dunia Nyata

Layanan Pelanggan: Pelanggan menunjukkan mesin kopi yang rusak melalui kamera ponsel sambil menjelaskan masalahnya. AI mengidentifikasi model dan titik kegagalan, dan pelanggan dapat menyela untuk mengoreksi detail di tengah percakapan.
E-commerce: Pembeli memegang pakaian di depan webcam dan bertanya "Temukan sepatu yang cocok dengan celana ini". Agen menganalisis gaya dan melakukan percakapan dua arah yang lancar: "Tampilkan sesuatu yang lebih kasual" → "Bagaimana dengan sepatu kets ini?" → "Tambahkan yang biru ukuran 10."
Field Service: Seorang teknisi yang memakai kacamata pintar melakukan streaming tampilannya sambil bertanya, "Saya mendengar suara aneh dari kompresor ini—dapatkah Anda mengidentifikasinya?" Agen ini memberikan panduan langkah demi langkah secara handsfree.
Layanan kesehatan: Pasien membagikan video langsung kondisi kulit. AI melakukan analisis awal, mengajukan pertanyaan klarifikasi, dan memandu langkah berikutnya.
Layanan Keuangan: Klien meninjau portofolionya saat agen menampilkan diagram dan menyimulasikan dampak perdagangan. Klien dapat membagikan layarnya untuk mendiskusikan artikel berita tertentu.

Demo Shopper's Concierge 2: Demo RAG Agentik real-time untuk e-commerce, yang dibangun dengan ADK Gemini Live API Toolkit dan Vertex AI Vector Search, Embeddings, Feature Store, dan Ranking API:

Demo Shopper's Concierge 2

Pelajari Lebih Lanjut: Panduan Developer

Untuk pembahasan mendalam yang komprehensif, lihat Panduan Developer ADK Gemini Live API Toolkit—seri 5 bagian yang mencakup arsitektur hingga deployment produksi:

Bagian	Fokus	Yang Akan Anda Pelajari
Bagian 1	Yayasan	Arsitektur, platform Live API, siklus proses 4 fase
Bagian 2	Upstream	Mengirim teks, audio, video melalui LiveRequestQueue
Bagian 3	Downstream	Penanganan peristiwa, eksekusi alat, alur kerja multi-agen
Bagian 4	Konfigurasi	Pengelolaan sesi, kuota, kontrol produksi
Bagian 5	Multimodal	Spesifikasi audio, arsitektur model, fitur lanjutan

2. Ringkasan Workshop

Yang Akan Anda Buat

Dalam workshop praktik ini, Anda akan membangun aplikasi AI streaming dua arah yang lengkap dari awal. Pada akhirnya, Anda akan memiliki AI suara yang berfungsi dan dapat:

Menerima input teks, audio, dan gambar
Merespons dengan teks streaming atau ucapan alami
Menangani gangguan secara alami
Menggunakan alat seperti Google Penelusuran

Tidak seperti membaca dokumentasi, Anda akan memeriksa setiap komponen langkah demi langkah, memahami cara kerja setiap bagian saat Anda membangunnya secara bertahap.

Demo ADK Gemini Live API Toolkit

Pendekatan Pembelajaran

Kami mengikuti pendekatan build inkremental:

Langkah 1: Server WebSocket Minimal → Respons "Hello World"
Langkah 2: Tambahkan Agen → Tentukan perilaku dan alat AI
Langkah 3: Inisialisasi Aplikasi → Layanan runner dan sesi
Langkah 4: Inisialisasi Sesi → RunConfig dan LiveRequestQueue
Langkah 5: Tugas Hulu → Komunikasi dari klien ke antrean
Langkah 6: Tugas Hilir → Streaming peristiwa ke klien
Langkah 7: Tambahkan Audio → Input dan output suara
Langkah 8: Tambahkan Input Gambar → AI Multimodal

Setiap langkah dibangun berdasarkan langkah sebelumnya. Anda akan melakukan pengujian setelah setiap langkah untuk melihat progres Anda.

Prasyarat

Akun Google Cloud dengan penagihan diaktifkan
Pengetahuan dasar tentang Python dan pemrograman asinkron (async/await)
Browser web dengan akses mikrofon dan kamera web (Chrome direkomendasikan)

Estimasi Waktu

Workshop lengkap: ~90 menit
Versi cepat (Hanya Langkah 1-4): ~45 menit

3. Workshop

Mulai workshop dengan mengikuti petunjuk di sini:

https://github.com/kazunori279/adk-streaming-guide/blob/main/workshops/workshop.md

4. Penutup & Poin-Poin Penting

Yang Anda Buat

Anda telah membangun aplikasi AI streaming dua arah yang lengkap dari awal. Aplikasi ini menangani input teks, suara, dan gambar dengan respons streaming real-time—dasar untuk membangun AI percakapan yang siap produksi.

Komponen	Fungsinya	Langkah
Agen	Menentukan kepribadian AI, petunjuk, dan alat yang tersedia (misalnya, Google Penelusuran)	Langkah 2
SessionService	Mempertahankan histori percakapan saat terhubung kembali	Langkah 3
Runner	Mengatur siklus proses streaming, menghubungkan agen ke Live API	Langkah 3
RunConfig	Mengonfigurasi modalitas respons (TEXT/AUDIO), transkripsi, kelanjutan sesi	Langkah 4
LiveRequestQueue	Antarmuka terpadu untuk mengirim teks, audio, dan gambar ke model	Langkah 5
run_live()	Generator asinkron yang menghasilkan peristiwa streaming dari model	Langkah 6
send_realtime()	Mengirim blob audio/gambar untuk input streaming berkelanjutan	Langkah 7-8

Resource

Lanjutkan pembelajaran dengan referensi resmi berikut. Panduan ADK Gemini Live API Toolkit memberikan cakupan yang lebih mendalam tentang semua hal dalam workshop ini.

Resource	URL
Dokumentasi ADK	https://google.github.io/adk-docs/
Panduan ADK Gemini Live API Toolkit	https://google.github.io/adk-docs/streaming/dev-guide/
Gemini Live API	https://ai.google.dev/gemini-api/docs/live
Vertex AI Live API	https://cloud.google.com/vertex-ai/generative-ai/docs/live-api
Repositori Contoh ADK	https://github.com/google/adk-samples