1. Visão geral
Neste laboratório, você vai aprender a resolver o problema complexo da transcrição de vídeo multimodal usando um único comando do Gemini.
Você vai analisar vídeos para responder às seguintes perguntas de uma só vez:
- 1️⃣ O que foi dito e quando?
- 2️⃣ Quem são os palestrantes?
- 3️⃣ Quem disse o quê?
Confira um exemplo do que você vai conseguir:
O que você vai aprender
- Uma metodologia para resolver problemas multimodais novos ou complexos
- Uma técnica de comando para desacoplar dados e preservar a atenção: extração tabular
- Estratégias para aproveitar ao máximo o contexto de 1 milhão de tokens do Gemini em uma única solicitação
- Exemplos práticos de transcrições de vídeo multimodais
- Dicas e otimizações
O que é necessário
- Familiaridade com a execução de Python em um notebook (no Colab ou em qualquer outro ambiente Jupyter)
- Um projeto do Google Cloud (Vertex AI) ou uma chave da API Gemini (Google AI Studio)
- 20 a 90 minutos (dependendo se você faz uma execução rápida ou lê e testa tudo)
Vamos começar
2. Antes de começar
Para usar a API Gemini, você tem duas opções principais:
- Pela Vertex AI com um projeto do Google Cloud
- Pelo Google AI Studio com uma chave da API Gemini
🛠️ Opção 1: API Gemini pela Vertex AI
Requisitos:
- um projeto do Google Cloud;
- A API Vertex AI precisa estar ativada para esse projeto.
🛠️ Opção 2: API Gemini pelo Google AI Studio
Requisito:
- Uma chave da API Gemini
Saiba como conseguir uma chave da API Gemini no Google AI Studio.
3. Executar o notebook
Escolha sua ferramenta preferida para abrir o notebook:
🧰 Ferramenta A: abrir o notebook no Colab
🧰 Ferramenta B: abrir o notebook no Colab Enterprise ou no Vertex AI Workbench
💡 Essa opção é recomendada se você já tiver um projeto do Google Cloud configurado com uma instância do Colab Enterprise ou do Vertex AI Workbench.
🧰 Ferramenta C: extrair o notebook do GitHub e executá-lo no seu ambiente
⚠️ Você vai precisar acessar o notebook no GitHub (ou clonar o repositório) e executá-lo no seu próprio ambiente Jupyter.
🗺️ Sumário do notebook
Para facilitar a navegação, abra e use o índice. Exemplo:
🏁 Execute o notebook
Tudo pronto. Agora você pode seguir e executar o notebook. Divirta-se!...
4. Parabéns!
Você resolveu esse problema complexo usando as seguintes técnicas:
- Prototipagem com comandos abertos para desenvolver intuição sobre os pontos fortes naturais do Gemini
- Considerando como os LLMs funcionam
- Criar comandos cada vez mais específicos usando uma estratégia de extração tabular
- Gerar saídas estruturadas para avançar em direção a um código pronto para produção
- Adição de visualização de dados para facilitar a interpretação das respostas e tornar as iterações mais fluidas
- Adaptar parâmetros padrão para otimizar os resultados
- Realizar mais testes, fazer iterações e até mesmo enriquecer os dados extraídos
Esses princípios devem ser aplicados a muitos outros domínios de extração de dados e permitir que você resolva seus próprios problemas complexos.
Saiba mais
- Execute outros notebooks do Gemini no repositório da IA generativa do Google Cloud.
- Confira outros casos de uso na Galeria de comandos da Vertex AI.
- Para ficar por dentro das novidades, siga as notas da versão da Vertex AI.