1. Что такое биди-стриминг?
Двунаправленная потоковая передача (bidi-streaming) обеспечивает одновременную двустороннюю связь между вашим приложением и моделями искусственного интеллекта. В отличие от традиционных шаблонов «запрос-ответ», где вы отправляете полное сообщение и ждете полного ответа, bidi-streaming позволяет:
- Непрерывный ввод : потоковая передача аудио, видео или текста по мере их захвата.
- Вывод в реальном времени : получайте ответы ИИ по мере их генерации.
- Естественное прерывание : Пользователи могут прерывать ответ ИИ в середине разговора, как и в человеческой беседе.

Почему это важно: двухпотоковая передача звука делает общение с ИИ естественным. ИИ может отвечать, пока вы еще предоставляете контекст, и вы можете прервать его, когда услышите достаточно — точно так же, как при разговоре с человеком.
Что такое ADK Gemini Live API Toolkit?
Комплект разработки агентов (ADK) обеспечивает высокоуровневую абстракцию над API Gemini Live , обрабатывая сложную инфраструктуру потоковой передачи данных в реальном времени, чтобы вы могли сосредоточиться на разработке своего приложения.

ADK Gemini Live API Toolkit управляет:
- Жизненный цикл соединения : установление, поддержание и восстановление соединений WebSocket.
- Маршрутизация сообщений : направление аудио, текста и изображений соответствующим обработчикам.
- Состояние сессии : Сохранение истории переписки при повторных подключениях
- Выполнение инструмента : автоматический вызов и возобновление работы после вызова функций.
Почему ADK лучше, чем чистый Live API?
Вы могли бы создавать приложения непосредственно на основе API Gemini Live, но ADK берет на себя сложную инфраструктуру, позволяя вам сосредоточиться на своем приложении:

Возможности | API в реальном времени | ADK Gemini Live API Toolkit |
Агентская структура | Создать с нуля | Одноагентная/многоагентная система с инструментами, оценкой и обеспечением безопасности. |
Выполнение инструмента | Ручная обработка | Автоматическое параллельное выполнение |
Управление соединениями | Ручное переподключение | Прозрачное возобновление сессии |
Модель событий | Индивидуальные конструкции | Унифицированные типизированные объекты событий |
Асинхронный фреймворк | Ручная координация | LiveRequestQueue + генератор run_live() |
Сохранение сессии | Ручная реализация | Встроенный SQL, Vertex AI или обработка в оперативной памяти. |
В итоге: ADK сокращает месяцы разработки инфраструктуры до дней разработки приложения. Вы сосредотачиваетесь на том, что делает ваш агент, а не на том, как работает потоковая передача данных.
Примеры использования в реальном мире
- Служба поддержки клиентов : Клиент демонстрирует свою неисправную кофемашину с помощью камеры телефона, объясняя проблему. Искусственный интеллект определяет модель и место неисправности, и клиент может прервать разговор, чтобы уточнить детали.
- Электронная коммерция : Покупатель подносит одежду к веб-камере и спрашивает: «Найдите обувь, которая подходит к этим брюкам». Агент анализирует стиль и вступает в динамичный диалог: «Покажите что-нибудь более повседневное» → «Как насчет этих кроссовок?» → «Добавьте синие 10-го размера».
- Выездное обслуживание : Техник в умных очках транслирует изображение, спрашивая: «Я слышу странный шум от этого компрессора — можете ли вы его определить?» Специалист предоставляет пошаговые инструкции без использования рук.
- Здравоохранение : Пациент делится видеозаписью своего кожного заболевания. Искусственный интеллект проводит предварительный анализ, задает уточняющие вопросы и определяет дальнейшие действия.
- Финансовые услуги : Клиент просматривает свой портфель, в то время как агент отображает графики и моделирует влияние сделок. Клиент может поделиться своим экраном, чтобы обсудить конкретные новостные статьи.
Демонстрация Shopper's Concierge 2 : демонстрация Agentic RAG в реальном времени для электронной коммерции, созданная с использованием ADK Gemini Live API Toolkit и Vertex AI Vector Search, Embeddings, Feature Store и Ranking API:

Подробнее: Руководство для разработчиков
Для более подробного ознакомления см. Руководство разработчика ADK Gemini Live API Toolkit — серию из 5 частей, охватывающую все этапы от архитектуры до развертывания в производственной среде:
Часть | Фокус | Что вы узнаете |
Фундамент | Архитектура, платформы Live API, 4-этапный жизненный цикл. | |
Вверх по течению | Отправка текста, аудио и видео через LiveRequestQueue | |
Ниже по течению | Обработка событий, выполнение инструментов, многоагентные рабочие процессы. | |
Конфигурация | Управление сессиями, квоты, контроль производства. | |
Мультимодальный | Технические характеристики аудиосистемы, архитектура моделей, расширенные возможности. |
2. Обзор семинара
Что вы построите
На этом практическом мастер-классе вы с нуля создадите полноценное приложение для двусторонней потоковой передачи данных с использованием искусственного интеллекта. К концу мастер-класса у вас будет работающий голосовой ИИ, способный:
- Принимает текстовый, аудио- и графический ввод.
- Ответьте текстовым сообщением или естественной речью.
- Справляйтесь с перерывами естественным образом.
- Используйте такие инструменты, как поиск Google.
В отличие от чтения документации, вы будете изучать каждый компонент шаг за шагом , понимая, как части соединяются друг с другом по мере поэтапного построения.

Подход к обучению
Мы используем поэтапный подход к сборке:
- Шаг 1: Минимальный WebSocket-сервер → Ответ "Hello World"
- Шаг 2: Добавить агента → Определить поведение и инструменты ИИ
- Шаг 3: Инициализация приложения → Служба запуска и сессий
- Шаг 4: Инициализация сессии → RunConfig и LiveRequestQueue
- Шаг 5: Задача вышестоящего уровня → Взаимодействие клиента с очередью
- Шаг 6: Задача нижестоящего уровня → Передача событий клиенту
- Шаг 7: Добавить аудио → Голосовой ввод и вывод
- Шаг 8: Добавить ввод изображения → Мультимодальный ИИ
Каждый шаг основывается на предыдущем. После каждого шага вы будете проводить тестирование, чтобы отслеживать свой прогресс.
Предварительные требования
- Учетная запись Google Cloud с включенной функцией выставления счетов.
- Базовые знания Python и асинхронного программирования (async/await).
- Веб-браузер с доступом к микрофону и веб-камере (рекомендуется Chrome).
Оценка времени
- Продолжительность мастер-класса : около 90 минут.
- Краткая версия (только шаги 1-4): ~45 минут
3. Мастер-класс
Начните мастер-класс, следуя инструкциям здесь:
https://github.com/kazunori279/adk-streaming-guide/blob/main/workshops/workshop.md
4. Заключение и основные выводы
Что ты построил
Вы с нуля разработали полноценное приложение для двусторонней потоковой передачи данных с использованием искусственного интеллекта. Приложение обрабатывает текстовый, голосовой и графический ввод с ответами в реальном времени — это основа для создания готового к внедрению в производство разговорного ИИ.
Компонент | Что это делает | Шаг |
Агент | Определяет личность ИИ, инструкции и доступные инструменты (например, поиск Google). | Шаг 2 |
SessionService | Сохраняет историю переписки при повторных подключениях. | Шаг 3 |
Бегун | Организует весь цикл потоковой передачи данных, подключает агента к Live API. | Шаг 3 |
RunConfig | Настраивает режим ответа (ТЕКСТ/АУДИО), транскрипцию, возобновление сеанса. | Шаг 4 |
LiveRequestQueue | Единый интерфейс для отправки текста, аудио и изображений в модель. | Шаг 5 |
run_live() | Асинхронный генератор, который генерирует потоковые события из модели. | Шаг 6 |
send_realtime() | Отправляет аудио/изображения в виде непрерывных потоковых данных. | Шаг 7-8 |
Ресурсы
Продолжите обучение, используя эти официальные ресурсы. Руководство по ADK Gemini Live API Toolkit содержит более подробную информацию обо всем, что рассматривается на этом семинаре.
Ресурс | URL |
Документация ADK | |
Руководство по использованию ADK Gemini Live API Toolkit | |
Gemini Live API | |
Vertex AI Live API | https://cloud.google.com/vertex-ai/generative-ai/docs/live-api |
Репозиторий образцов ADK |