Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Introdução ao kit de ferramentas da API Gemini Live do ADK

1. O que é streaming Bidi?

O streaming bidirecional (bidi-streaming) permite a comunicação simultânea de duas vias entre seu aplicativo e os modelos de IA. Ao contrário dos padrões tradicionais de solicitação-resposta, em que você envia uma mensagem completa e espera uma resposta completa, o streaming bidirecional permite:

Entrada contínua: transmita áudio, vídeo ou texto conforme eles são capturados.
Saída em tempo real: receba respostas de IA à medida que elas são geradas
Interrupção natural: os usuários podem interromper a IA no meio da resposta, assim como em uma conversa humana.

Por que isso é importante:o streaming bidirecional faz com que as conversas com IA pareçam naturais. A IA pode responder enquanto você ainda está fornecendo contexto, e você pode interrompê-la quando já tiver ouvido o suficiente — exatamente como se estivesse conversando com um humano.

O que é o kit de ferramentas da API Gemini Live do ADK?

O Kit de Desenvolvimento de Agente (ADK) oferece uma abstração de alto nível da API Gemini Live, processando a complexa infraestrutura de streaming em tempo real para que você possa se concentrar na criação do aplicativo.

O kit de ferramentas da API Gemini Live do ADK gerencia:

Ciclo de vida da conexão: como estabelecer, manter e recuperar conexões WebSocket
Roteamento de mensagens: direcionamento de áudio, texto e imagens para os manipuladores certos
Estado da sessão: persistência do histórico de conversas em reconexões
Execução de ferramentas: chamando e retomando automaticamente das chamadas de função

Por que o ADK em vez da API Live bruta?

Você pode criar diretamente na API Gemini Live, mas o ADK lida com a infraestrutura complexa para que você possa se concentrar no aplicativo:

Capacidade	API Raw Live	Kit de ferramentas da API Gemini Live do ADK
Framework do agente	Criar do zero	Agente único/múltiplo com ferramentas, avaliação e segurança
Execução da ferramenta	Manuseio manual	Execução paralela automática
Gerenciamento de conexões	Reconexão manual	Retomada transparente da sessão
Modelo de evento	Estruturas personalizadas	Objetos de evento unificados e tipados
Framework assíncrono	Coordenação manual	LiveRequestQueue + gerador run_live()
Persistência da sessão	Implementação manual	SQL, Vertex AI ou na memória integrados

Em resumo:o ADK reduz meses de desenvolvimento de infraestrutura para dias de desenvolvimento de aplicativos. Você se concentra no que o agente faz, não em como o streaming funciona.

Casos de uso reais

Atendimento ao cliente: um cliente mostra a máquina de café com defeito pela câmera do smartphone enquanto explica o problema. A IA identifica o modelo e o ponto de falha, e o cliente pode interromper para corrigir detalhes no meio da conversa.
E-commerce: um comprador mostra uma roupa para a webcam e pede: "Encontre sapatos que combinem com essas calças". O agente analisa o estilo e interage de forma fluida: "Mostre algo mais casual" → "Que tal estes tênis?" → "Adicione os azuis no tamanho 10."
Field Service: um técnico usando óculos inteligentes transmite a visão dele enquanto pergunta: "Estou ouvindo um ruído estranho desse compressor. Você pode identificar o que é?" O agente oferece orientação detalhada usando viva-voz.
Saúde: um paciente compartilha um vídeo ao vivo de uma condição de pele. A IA faz uma análise preliminar, faz perguntas para esclarecer e orienta as próximas etapas.
Serviços financeiros: um cliente analisa o portfólio enquanto o agente mostra gráficos e simula impactos de negociação. O cliente pode compartilhar a tela para discutir artigos de notícias específicos.

Demonstração do Shopper's Concierge 2: demonstração de RAG de agente em tempo real para e-commerce, criada com o ADK Gemini Live API Toolkit e a pesquisa de vetor, embeddings, Feature Store e API Ranking da Vertex AI:

Demonstração do Shopper's Concierge 2

Saiba mais: guia para desenvolvedores

Para uma análise detalhada, consulte o Guia do desenvolvedor do kit de ferramentas da API Gemini Live do ADK, uma série de cinco partes que aborda desde a arquitetura até a implantação em produção:

Parte	Foco	O que você aprenderá
Parte 1	Base	Arquitetura, plataformas de API ativa, ciclo de vida de quatro fases
Parte 2	Upstream	Envio de texto, áudio e vídeo usando LiveRequestQueue
Parte 3	Downstream	Processamento de eventos, execução de ferramentas, fluxos de trabalho multiagentes
Parte 4	Configuração	Gerenciamento de sessões, cotas, controles de produção
Parte 5	Multimodal	Especificações de áudio, arquiteturas de modelo, recursos avançados

2. Visão geral do workshop

O que você criará

Neste workshop prático, você vai criar um aplicativo de IA de streaming bidirecional completo do zero. Ao final, você terá uma IA de voz funcional que pode:

Aceitar entradas de texto, áudio e imagem
Responder com texto de streaming ou fala natural
Lidar com interrupções naturalmente
Usar ferramentas como a Pesquisa Google

Ao contrário da leitura de documentação, você examina cada componente etapa por etapa, entendendo como as peças se encaixam à medida que você cria incrementalmente.

Demonstração do kit de ferramentas da API Gemini Live do ADK

Abordagem de aprendizado

Seguimos uma abordagem de build incremental:

Etapa 1: servidor WebSocket mínimo → resposta "Hello World"
Etapa 2: adicionar o agente → Definir o comportamento e as ferramentas de IA
Etapa 3: inicialização do aplicativo → serviço de execução e sessão
Etapa 4: inicialização da sessão → RunConfig e LiveRequestQueue
Etapa 5: tarefa upstream → comunicação do cliente com a fila
Etapa 6: tarefa downstream → eventos para transmissão de cliente
Etapa 7: adicionar áudio → Entrada e saída de voz
Etapa 8: adicionar entrada de imagem → IA multimodal

Cada etapa se baseia na anterior. Você vai fazer um teste depois de cada etapa para acompanhar seu progresso.

Pré-requisitos

Conta do Google Cloud com o faturamento ativado
Conhecimento básico de Python e programação assíncrona (async/await)
Navegador da Web com acesso a microfone e webcam (recomendamos o Chrome)

Tempo estimado

Workshop completo: ~90 minutos
Versão rápida (somente etapas 1 a 4): ~45 minutos

3. Workshop

Comece o workshop seguindo as instruções aqui:

https://github.com/kazunori279/adk-streaming-guide/blob/main/workshops/workshop.md

4. Finalização e principais conclusões

O que você criou

Você criou um aplicativo de IA de streaming bidirecional completo do zero. O aplicativo processa entradas de texto, voz e imagem com respostas de streaming em tempo real, a base para criar IA de conversação pronta para produção.

Componente	O que ele faz	Etapa
Agente	Define a personalidade, as instruções e as ferramentas disponíveis da IA (por exemplo, a Pesquisa Google).	Etapa 2
SessionService	Mantém o histórico de conversas em reconexões	Etapa 3
Executor	Orchestra o ciclo de vida do streaming e conecta o agente à API Live.	Etapa 3
RunConfig	Configura a modalidade de resposta (TEXT/AUDIO), a transcrição e a retomada da sessão.	Etapa 4
LiveRequestQueue	Interface unificada para enviar texto, áudio e imagens ao modelo	Etapa 5
run_live()	Gerador assíncrono que gera eventos de streaming do modelo.	Etapa 6
send_realtime()	Envia blobs de áudio/imagem para entrada de streaming contínuo.	Etapas 7 e 8

Recursos

Continue aprendendo com estes recursos oficiais. O guia do kit de ferramentas da API Gemini Live do ADK oferece uma cobertura mais detalhada de tudo neste workshop.

Recurso	URL
Documentação do ADK	https://google.github.io/adk-docs/
Guia do kit de ferramentas da API Gemini Live do ADK	https://google.github.io/adk-docs/streaming/dev-guide/
API Gemini Live	https://ai.google.dev/gemini-api/docs/live
API Vertex AI Live	https://cloud.google.com/vertex-ai/generative-ai/docs/live-api
Repositório de amostras do ADK	https://github.com/google/adk-samples