Введение в ADK Gemini Live API Toolkit

1. Что такое биди-стриминг?

Двунаправленная потоковая передача (bidi-streaming) обеспечивает одновременную двустороннюю связь между вашим приложением и моделями искусственного интеллекта. В отличие от традиционных шаблонов «запрос-ответ», где вы отправляете полное сообщение и ждете полного ответа, bidi-streaming позволяет:

  • Непрерывный ввод : потоковая передача аудио, видео или текста по мере их захвата.
  • Вывод в реальном времени : получайте ответы ИИ по мере их генерации.
  • Естественное прерывание : Пользователи могут прерывать ответ ИИ в середине разговора, как и в человеческой беседе.

6e82a81aa114e116.png

Почему это важно: двухпотоковая передача звука делает общение с ИИ естественным. ИИ может отвечать, пока вы еще предоставляете контекст, и вы можете прервать его, когда услышите достаточно — точно так же, как при разговоре с человеком.

Что такое ADK Gemini Live API Toolkit?

Комплект разработки агентов (ADK) обеспечивает высокоуровневую абстракцию над API Gemini Live , обрабатывая сложную инфраструктуру потоковой передачи данных в реальном времени, чтобы вы могли сосредоточиться на разработке своего приложения.

b0066935f4c245d2.png

ADK Gemini Live API Toolkit управляет:

  • Жизненный цикл соединения : установление, поддержание и восстановление соединений WebSocket.
  • Маршрутизация сообщений : направление аудио, текста и изображений соответствующим обработчикам.
  • Состояние сессии : Сохранение истории переписки при повторных подключениях
  • Выполнение инструмента : автоматический вызов и возобновление работы после вызова функций.

Почему ADK лучше, чем чистый Live API?

Вы могли бы создавать приложения непосредственно на основе API Gemini Live, но ADK берет на себя сложную инфраструктуру, позволяя вам сосредоточиться на своем приложении:

61c685c2703e3aac.png

Возможности

API в реальном времени

ADK Gemini Live API Toolkit

Агентская структура

Создать с нуля

Одноагентная/многоагентная система с инструментами, оценкой и обеспечением безопасности.

Выполнение инструмента

Ручная обработка

Автоматическое параллельное выполнение

Управление соединениями

Ручное переподключение

Прозрачное возобновление сессии

Модель событий

Индивидуальные конструкции

Унифицированные типизированные объекты событий

Асинхронный фреймворк

Ручная координация

LiveRequestQueue + генератор run_live()

Сохранение сессии

Ручная реализация

Встроенный SQL, Vertex AI или обработка в оперативной памяти.

В итоге: ADK сокращает месяцы разработки инфраструктуры до дней разработки приложения. Вы сосредотачиваетесь на том, что делает ваш агент, а не на том, как работает потоковая передача данных.

Примеры использования в реальном мире

  • Служба поддержки клиентов : Клиент демонстрирует свою неисправную кофемашину с помощью камеры телефона, объясняя проблему. Искусственный интеллект определяет модель и место неисправности, и клиент может прервать разговор, чтобы уточнить детали.
  • Электронная коммерция : Покупатель подносит одежду к веб-камере и спрашивает: «Найдите обувь, которая подходит к этим брюкам». Агент анализирует стиль и вступает в динамичный диалог: «Покажите что-нибудь более повседневное» → «Как насчет этих кроссовок?» → «Добавьте синие 10-го размера».
  • Выездное обслуживание : Техник в умных очках транслирует изображение, спрашивая: «Я слышу странный шум от этого компрессора — можете ли вы его определить?» Специалист предоставляет пошаговые инструкции без использования рук.
  • Здравоохранение : Пациент делится видеозаписью своего кожного заболевания. Искусственный интеллект проводит предварительный анализ, задает уточняющие вопросы и определяет дальнейшие действия.
  • Финансовые услуги : Клиент просматривает свой портфель, в то время как агент отображает графики и моделирует влияние сделок. Клиент может поделиться своим экраном, чтобы обсудить конкретные новостные статьи.

Демонстрация Shopper's Concierge 2 : демонстрация Agentic RAG в реальном времени для электронной коммерции, созданная с использованием ADK Gemini Live API Toolkit и Vertex AI Vector Search, Embeddings, Feature Store и Ranking API:

Демоверсия Shopper's Concierge 2

Подробнее: Руководство для разработчиков

Для более подробного ознакомления см. Руководство разработчика ADK Gemini Live API Toolkit — серию из 5 частей, охватывающую все этапы от архитектуры до развертывания в производственной среде:

Часть

Фокус

Что вы узнаете

Часть 1

Фундамент

Архитектура, платформы Live API, 4-этапный жизненный цикл.

Часть 2

Вверх по течению

Отправка текста, аудио и видео через LiveRequestQueue

Часть 3

Ниже по течению

Обработка событий, выполнение инструментов, многоагентные рабочие процессы.

Часть 4

Конфигурация

Управление сессиями, квоты, контроль производства.

Часть 5

Мультимодальный

Технические характеристики аудиосистемы, архитектура моделей, расширенные возможности.

2. Обзор семинара

Что вы построите

На этом практическом мастер-классе вы с нуля создадите полноценное приложение для двусторонней потоковой передачи данных с использованием искусственного интеллекта. К концу мастер-класса у вас будет работающий голосовой ИИ, способный:

  • Принимает текстовый, аудио- и графический ввод.
  • Ответьте текстовым сообщением или естественной речью.
  • Справляйтесь с перерывами естественным образом.
  • Используйте такие инструменты, как поиск Google.

В отличие от чтения документации, вы будете изучать каждый компонент шаг за шагом , понимая, как части соединяются друг с другом по мере поэтапного построения.

Демонстрация инструментария ADK Gemini Live API

Подход к обучению

Мы используем поэтапный подход к сборке:

  • Шаг 1: Минимальный WebSocket-сервер → Ответ "Hello World"
  • Шаг 2: Добавить агента → Определить поведение и инструменты ИИ
  • Шаг 3: Инициализация приложения → Служба запуска и сессий
  • Шаг 4: Инициализация сессии → RunConfig и LiveRequestQueue
  • Шаг 5: Задача вышестоящего уровня → Взаимодействие клиента с очередью
  • Шаг 6: Задача нижестоящего уровня → Передача событий клиенту
  • Шаг 7: Добавить аудио → Голосовой ввод и вывод
  • Шаг 8: Добавить ввод изображения → Мультимодальный ИИ

Каждый шаг основывается на предыдущем. После каждого шага вы будете проводить тестирование, чтобы отслеживать свой прогресс.

Предварительные требования

Оценка времени

  • Продолжительность мастер-класса : около 90 минут.
  • Краткая версия (только шаги 1-4): ~45 минут

3. Мастер-класс

Начните мастер-класс, следуя инструкциям здесь:

https://github.com/kazunori279/adk-streaming-guide/blob/main/workshops/workshop.md

4. Заключение и основные выводы

Что ты построил

Вы с нуля разработали полноценное приложение для двусторонней потоковой передачи данных с использованием искусственного интеллекта. Приложение обрабатывает текстовый, голосовой и графический ввод с ответами в реальном времени — это основа для создания готового к внедрению в производство разговорного ИИ.

Компонент

Что это делает

Шаг

Агент

Определяет личность ИИ, инструкции и доступные инструменты (например, поиск Google).

Шаг 2

SessionService

Сохраняет историю переписки при повторных подключениях.

Шаг 3

Бегун

Организует весь цикл потоковой передачи данных, подключает агента к Live API.

Шаг 3

RunConfig

Настраивает режим ответа (ТЕКСТ/АУДИО), транскрипцию, возобновление сеанса.

Шаг 4

LiveRequestQueue

Единый интерфейс для отправки текста, аудио и изображений в модель.

Шаг 5

run_live()

Асинхронный генератор, который генерирует потоковые события из модели.

Шаг 6

send_realtime()

Отправляет аудио/изображения в виде непрерывных потоковых данных.

Шаг 7-8

Ресурсы

Продолжите обучение, используя эти официальные ресурсы. Руководство по ADK Gemini Live API Toolkit содержит более подробную информацию обо всем, что рассматривается на этом семинаре.

Ресурс

URL

Документация ADK

https://google.github.io/adk-docs/

Руководство по использованию ADK Gemini Live API Toolkit

https://google.github.io/adk-docs/streaming/dev-guide/

Gemini Live API

https://ai.google.dev/gemini-api/docs/live

Vertex AI Live API

https://cloud.google.com/vertex-ai/generative-ai/docs/live-api

Репозиторий образцов ADK

https://github.com/google/adk-samples