1. Descripción general
En este lab, aprenderás a resolver el problema complejo de la transcripción de video multimodal con una sola instrucción de Gemini.
Analizarás videos y buscarás responder las siguientes preguntas a la vez:
- 1️⃣ ¿Qué se dijo y cuándo?
- 2️⃣ ¿Quiénes son los oradores?
- 3️⃣ ¿Quién dijo qué?
Este es un ejemplo de lo que lograrás:
Qué aprenderás
- Una metodología para abordar problemas multimodales nuevos o complejos
- Una técnica de instrucciones para desacoplar los datos y preservar la atención: extracción tabular
- Estrategias para aprovechar al máximo el contexto de 1 millón de tokens de Gemini en una sola solicitud
- Ejemplos prácticos de transcripciones de video multimodales
- Sugerencias y optimizaciones
Requisitos
- Conocimiento de la ejecución de Python en un notebook (en Colab o cualquier otro entorno de Jupyter)
- Un proyecto de Google Cloud (Vertex AI) o una clave de la API de Gemini (Google AI Studio)
- De 20 a 90 minutos (según si haces una ejecución rápida o lees y pruebas todo)
Comencemos…
2. Antes de comenzar
Para usar la API de Gemini, tienes dos opciones principales:
- A través de Vertex AI con un proyecto de Google Cloud
- A través de Google AI Studio con una clave de la API de Gemini
🛠️ Opción 1: API de Gemini a través de Vertex AI
Requisitos:
- Un proyecto de Google Cloud
- La API de Vertex AI debe estar habilitada para este proyecto.
🛠️ Opción 2: API de Gemini a través de Google AI Studio
Requisito:
- Una clave de API de Gemini
Obtén más información para obtener una clave de API de Gemini en Google AI Studio.
3. Ejecuta el notebook
Elige la herramienta que prefieras para abrir el notebook:
🧰 Herramienta A: Abre el notebook en Colab
🧰 Herramienta B: Abre el notebook en Colab Enterprise o Vertex AI Workbench
💡 Esta opción puede ser preferible si ya tienes un proyecto de Google Cloud configurado con una instancia de Colab Enterprise o Vertex AI Workbench.
🧰 Herramienta C: Obtén el notebook de GitHub y ejecútalo en tu propio entorno
⚠️ Deberás obtener el notebook de GitHub (o clonar el repositorio) y ejecutarlo en tu propio entorno de Jupyter.
🗺️ Índice del notebook
Para facilitar la navegación, asegúrate de expandir y usar el índice. Ejemplo:
🏁 Ejecuta el notebook
Estás listo. Ahora puedes seguir y ejecutar el notebook. ¡Que te diviertas!…
4. ¡Felicitaciones!
Abordaste este problema complejo con las siguientes técnicas:
- Creación de prototipos con instrucciones abiertas para desarrollar la intuición sobre las fortalezas naturales de Gemini
- Tener en cuenta cómo funcionan los LLM de forma interna
- Elaboración de instrucciones cada vez más específicas con una estrategia de extracción tabular
- Genera resultados estructurados para avanzar hacia un código listo para producción
- Se agregó la visualización de datos para facilitar la interpretación de las respuestas y lograr iteraciones más fluidas.
- Adaptar los parámetros predeterminados para optimizar los resultados
- Realizar más pruebas, iterar e incluso enriquecer los datos extraídos
Estos principios deberían aplicarse a muchos otros dominios de extracción de datos y permitirte resolver tus propios problemas complejos.
Más información
- Ejecuta otros notebooks de Gemini desde el repositorio de IA generativa de Google Cloud
- Explora casos de uso adicionales en la Galería de instrucciones de Vertex AI
- Para mantenerte al tanto de las novedades, consulta las Notas de la versión de Vertex AI.