Transcrição de vídeo multimodal com o Gemini

1. Visão geral

Neste laboratório, você vai aprender a resolver o problema complexo da transcrição de vídeo multimodal usando um único comando do Gemini.

Você vai analisar vídeos para responder às seguintes perguntas de uma só vez:

  • 1️⃣ O que foi dito e quando?
  • 2️⃣ Quem são os palestrantes?
  • 3️⃣ Quem disse o quê?

Confira um exemplo do que você vai conseguir:

7ed458bd4f8c849a.gif

O que você vai aprender

  • Uma metodologia para resolver problemas multimodais novos ou complexos
  • Uma técnica de comando para desacoplar dados e preservar a atenção: extração tabular
  • Estratégias para aproveitar ao máximo o contexto de 1 milhão de tokens do Gemini em uma única solicitação
  • Exemplos práticos de transcrições de vídeo multimodais
  • Dicas e otimizações

O que é necessário

  • Familiaridade com a execução de Python em um notebook (no Colab ou em qualquer outro ambiente Jupyter)
  • Um projeto do Google Cloud (Vertex AI) ou uma chave da API Gemini (Google AI Studio)
  • 20 a 90 minutos (dependendo se você faz uma execução rápida ou lê e testa tudo)

95557c237d172e1f.png 8173aa8cca5ce8e2.png 3a82b6ec76ca4557.png 8173aa8cca5ce8e2.png 95dfef766eb02938.png

Vamos começar

2. Antes de começar

Para usar a API Gemini, você tem duas opções principais:

  1. Pela Vertex AI com um projeto do Google Cloud
  2. Pelo Google AI Studio com uma chave da API Gemini

🛠️ Opção 1: API Gemini pela Vertex AI

Requisitos:

  • um projeto do Google Cloud;
  • A API Vertex AI precisa estar ativada para esse projeto.

🛠️ Opção 2: API Gemini pelo Google AI Studio

Requisito:

  • Uma chave da API Gemini

Saiba como conseguir uma chave da API Gemini no Google AI Studio.

3. Executar o notebook

Escolha sua ferramenta preferida para abrir o notebook:

🧰 Ferramenta A: abrir o notebook no Colab

🧰 Ferramenta B: abrir o notebook no Colab Enterprise ou no Vertex AI Workbench

💡 Essa opção é recomendada se você já tiver um projeto do Google Cloud configurado com uma instância do Colab Enterprise ou do Vertex AI Workbench.

🧰 Ferramenta C: extrair o notebook do GitHub e executá-lo no seu ambiente

⚠️ Você vai precisar acessar o notebook no GitHub (ou clonar o repositório) e executá-lo no seu próprio ambiente Jupyter.

🗺️ Sumário do notebook

Para facilitar a navegação, abra e use o índice. Exemplo:

d47b1f3032661dab.png

🏁 Execute o notebook

Tudo pronto. Agora você pode seguir e executar o notebook. Divirta-se!...

4. Parabéns!

fd6d669c4cef4c43.gif

Você resolveu esse problema complexo usando as seguintes técnicas:

  • Prototipagem com comandos abertos para desenvolver intuição sobre os pontos fortes naturais do Gemini
  • Considerando como os LLMs funcionam
  • Criar comandos cada vez mais específicos usando uma estratégia de extração tabular
  • Gerar saídas estruturadas para avançar em direção a um código pronto para produção
  • Adição de visualização de dados para facilitar a interpretação das respostas e tornar as iterações mais fluidas
  • Adaptar parâmetros padrão para otimizar os resultados
  • Realizar mais testes, fazer iterações e até mesmo enriquecer os dados extraídos

Esses princípios devem ser aplicados a muitos outros domínios de extração de dados e permitir que você resolva seus próprios problemas complexos.

Saiba mais