1. Présentation
Dans cet atelier, vous allez apprendre à résoudre le problème complexe de la transcription multimodale de vidéos à l'aide d'une seule requête Gemini.
Vous analyserez des vidéos pour répondre simultanément aux questions suivantes :
- 1️⃣ Qu'a-t-il été dit et quand ?
- 2️⃣ Qui sont les locuteurs ?
- 3️⃣ Qui a dit quoi ?
Voici un exemple de ce que vous allez accomplir :
Points abordés
- Une méthodologie pour résoudre les problèmes multimodaux nouveaux ou complexes
- Technique d'invite pour dissocier les données et préserver l'attention : extraction tabulaire
- Stratégies pour exploiter tout le potentiel du contexte de 1 million de jetons de Gemini dans une seule requête
- Exemples concrets de transcriptions vidéo multimodales
- Conseils et optimisations
Prérequis
- Connaissance de l'exécution de Python dans un notebook (dans Colab ou tout autre environnement Jupyter)
- Un projet Google Cloud (Vertex AI) ou une clé API Gemini (Google AI Studio)
- 20 à 90 minutes (selon que vous exécutez rapidement ou que vous lisez et testez tout)
Premières étapes
2. Avant de commencer
Pour utiliser l'API Gemini, vous avez deux options principales :
- Via Vertex AI avec un projet Google Cloud
- Via Google AI Studio avec une clé API Gemini
🛠️ Option 1 : API Gemini via Vertex AI
Conditions requises :
- Un projet Google Cloud
- L'API Vertex AI doit être activée pour ce projet.
🛠️ Option 2 : API Gemini via Google AI Studio
Condition :
- Une clé API Gemini
Découvrez comment obtenir une clé API Gemini depuis Google AI Studio.
3. Exécuter le notebook
Choisissez l'outil de votre choix pour ouvrir le notebook :
🧰 Outil A : ouvrir le notebook dans Colab
🧰 Outil B : Ouvrez le notebook dans Colab Enterprise ou Vertex AI Workbench.
💡 Cette option peut être préférable si vous avez déjà configuré un projet Google Cloud avec une instance Colab Enterprise ou Vertex AI Workbench.
🧰 Outil C : Obtenir le notebook depuis GitHub et l'exécuter dans votre propre environnement
⚠️ Vous devrez obtenir le notebook depuis GitHub (ou cloner le dépôt) et l'exécuter dans votre propre environnement Jupyter.
🗺️ Sommaire du notebook
Pour faciliter la navigation, veillez à développer et à utiliser la table des matières. Exemple :
🏁 Exécuter le notebook
Vous êtes prêt. Vous pouvez maintenant suivre et exécuter le notebook. Amusez-vous bien !
4. Félicitations !
Vous avez résolu ce problème complexe à l'aide des techniques suivantes :
- Prototyper avec des requêtes ouvertes pour développer une intuition sur les points forts naturels de Gemini
- Compte tenu du fonctionnement des LLM en arrière-plan
- Élaborer des requêtes de plus en plus spécifiques à l'aide d'une stratégie d'extraction tabulaire
- Générer des sorties structurées pour obtenir un code prêt pour la production
- Ajout de la visualisation des données pour faciliter l'interprétation des réponses et les itérations
- Adapter les paramètres par défaut pour optimiser les résultats
- Effectuer plus de tests, itérer et même enrichir les données extraites
Ces principes devraient s'appliquer à de nombreux autres domaines d'extraction de données et vous permettre de résoudre vos propres problèmes complexes.
En savoir plus
- Exécuter d'autres notebooks Gemini à partir du dépôt Google Cloud pour l'IA générative
- Découvrez d'autres cas d'utilisation dans la galerie de requêtes Vertex AI.
- Pour rester informé, consultez les notes de version de Vertex AI.