1. Panoramica
In questo lab imparerai a risolvere il complesso problema della trascrizione video multimodale utilizzando un unico prompt Gemini.
Analizzerai i video per rispondere contemporaneamente alle seguenti domande:
- 1️⃣ Che cosa è stato detto e quando?
- 2️⃣ Chi sono gli oratori?
- 3️⃣ Chi ha detto cosa?
Ecco un esempio di ciò che otterrai:
Cosa imparerai a fare
- Una metodologia per affrontare problemi multimodali nuovi o complessi
- Una tecnica di prompt per separare i dati e preservare l'attenzione: l'estrazione tabellare
- Strategie per sfruttare al meglio il contesto di 1 milione di token di Gemini in una singola richiesta
- Esempi pratici di trascrizioni video multimodali
- Suggerimenti e ottimizzazioni
Che cosa ti serve
- Familiarità con l'esecuzione di Python in un notebook (in Colab o in qualsiasi altro ambiente Jupyter)
- Un progetto Google Cloud (Vertex AI) o una chiave API Gemini (Google AI Studio)
- 20-90 minuti (a seconda che tu esegua un test rapido o che tu legga e testi tutto)
Iniziamo…
2. Prima di iniziare
Per utilizzare l'API Gemini, hai due opzioni principali:
- Tramite Vertex AI con un progetto Google Cloud
- Tramite Google AI Studio con una chiave API Gemini
🛠️ Opzione 1: API Gemini tramite Vertex AI
Requisiti:
- Un progetto Google Cloud
- L'API Vertex AI deve essere abilitata per questo progetto
🛠️ Opzione 2: API Gemini tramite Google AI Studio
Requisito:
- Una chiave API Gemini
Scopri di più su come ottenere una chiave API Gemini da Google AI Studio.
3. Esegui il notebook
Scegli lo strumento che preferisci per aprire il notebook:
🧰 Strumento A: apri il notebook in Colab
🧰 Strumento B: apri il notebook in Colab Enterprise o Vertex AI Workbench
💡 Questa opzione potrebbe essere preferibile se hai già configurato un progetto Google Cloud con un'istanza Colab Enterprise o Vertex AI Workbench.
🧰 Strumento C: scarica il notebook da GitHub ed eseguilo nel tuo ambiente
⚠️ Dovrai scaricare il notebook da GitHub (o clonare il repository) ed eseguirlo nel tuo ambiente Jupyter.
🗺️ Sommario del notebook
Per una navigazione più semplice, assicurati di espandere e utilizzare il sommario. Esempio:
🏁 Esegui il notebook
Sei pronto. Ora puoi seguire ed eseguire il notebook. Buon divertimento!
4. Complimenti!
Hai risolto questo problema complesso utilizzando le seguenti tecniche:
- Prototipazione con prompt aperti per sviluppare l'intuizione sui punti di forza naturali di Gemini
- Tenendo conto di come funzionano gli LLM
- Creazione di prompt sempre più specifici utilizzando una strategia di estrazione tabellare
- Generazione di output strutturati per passare a un codice pronto per la produzione
- Aggiunta della visualizzazione dei dati per facilitare l'interpretazione delle risposte e rendere più fluide le iterazioni
- Adattare i parametri predefiniti per ottimizzare i risultati
- Eseguire più test, iterazioni e persino arricchire i dati estratti
Questi principi dovrebbero essere applicati a molti altri domini di estrazione dei dati e consentirti di risolvere i tuoi problemi complessi.
Scopri di più
- Esegui altri notebook Gemini dal repository dell'AI generativa di Google Cloud
- Esplora altri casi d'uso nella galleria dei prompt di Vertex AI.
- Per rimanere aggiornato, consulta le note di rilascio di Vertex AI.