Transcripción de video multimodal con Gemini

1. Descripción general

En este lab, aprenderás a resolver el problema complejo de la transcripción de video multimodal con una sola instrucción de Gemini.

Analizarás videos y buscarás responder las siguientes preguntas a la vez:

  • 1️⃣ ¿Qué se dijo y cuándo?
  • 2️⃣ ¿Quiénes son los oradores?
  • 3️⃣ ¿Quién dijo qué?

Este es un ejemplo de lo que lograrás:

7ed458bd4f8c849a.gif

Qué aprenderás

  • Una metodología para abordar problemas multimodales nuevos o complejos
  • Una técnica de instrucciones para desacoplar los datos y preservar la atención: extracción tabular
  • Estrategias para aprovechar al máximo el contexto de 1 millón de tokens de Gemini en una sola solicitud
  • Ejemplos prácticos de transcripciones de video multimodales
  • Sugerencias y optimizaciones

Requisitos

  • Conocimiento de la ejecución de Python en un notebook (en Colab o cualquier otro entorno de Jupyter)
  • Un proyecto de Google Cloud (Vertex AI) o una clave de la API de Gemini (Google AI Studio)
  • De 20 a 90 minutos (según si haces una ejecución rápida o lees y pruebas todo)

95557c237d172e1f.png 8173aa8cca5ce8e2.png 3a82b6ec76ca4557.png 8173aa8cca5ce8e2.png 95dfef766eb02938.png

Comencemos…

2. Antes de comenzar

Para usar la API de Gemini, tienes dos opciones principales:

  1. A través de Vertex AI con un proyecto de Google Cloud
  2. A través de Google AI Studio con una clave de la API de Gemini

🛠️ Opción 1: API de Gemini a través de Vertex AI

Requisitos:

  • Un proyecto de Google Cloud
  • La API de Vertex AI debe estar habilitada para este proyecto.

🛠️ Opción 2: API de Gemini a través de Google AI Studio

Requisito:

  • Una clave de API de Gemini

Obtén más información para obtener una clave de API de Gemini en Google AI Studio.

3. Ejecuta el notebook

Elige la herramienta que prefieras para abrir el notebook:

🧰 Herramienta A: Abre el notebook en Colab

🧰 Herramienta B: Abre el notebook en Colab Enterprise o Vertex AI Workbench

💡 Esta opción puede ser preferible si ya tienes un proyecto de Google Cloud configurado con una instancia de Colab Enterprise o Vertex AI Workbench.

🧰 Herramienta C: Obtén el notebook de GitHub y ejecútalo en tu propio entorno

⚠️ Deberás obtener el notebook de GitHub (o clonar el repositorio) y ejecutarlo en tu propio entorno de Jupyter.

🗺️ Índice del notebook

Para facilitar la navegación, asegúrate de expandir y usar el índice. Ejemplo:

d47b1f3032661dab.png

🏁 Ejecuta el notebook

Estás listo. Ahora puedes seguir y ejecutar el notebook. ¡Que te diviertas!…

4. ¡Felicitaciones!

fd6d669c4cef4c43.gif

Abordaste este problema complejo con las siguientes técnicas:

  • Creación de prototipos con instrucciones abiertas para desarrollar la intuición sobre las fortalezas naturales de Gemini
  • Tener en cuenta cómo funcionan los LLM de forma interna
  • Elaboración de instrucciones cada vez más específicas con una estrategia de extracción tabular
  • Genera resultados estructurados para avanzar hacia un código listo para producción
  • Se agregó la visualización de datos para facilitar la interpretación de las respuestas y lograr iteraciones más fluidas.
  • Adaptar los parámetros predeterminados para optimizar los resultados
  • Realizar más pruebas, iterar e incluso enriquecer los datos extraídos

Estos principios deberían aplicarse a muchos otros dominios de extracción de datos y permitirte resolver tus propios problemas complejos.

Más información