1. Przegląd
Z tego modułu dowiesz się, jak rozwiązać złożony problem transkrypcji multimodalnego filmu za pomocą jednego promptu Gemini.
Będziesz analizować filmy, aby jednocześnie odpowiedzieć na te pytania:
- 1️⃣ Co zostało powiedziane i kiedy?
- 2️⃣ Kim są prelegenci?
- 3️⃣ Kto co powiedział?
Oto przykład tego, co możesz osiągnąć:
Czego się nauczysz
- Metodologia rozwiązywania nowych lub złożonych problemów multimodalnych
- Technika promptowania do oddzielania danych i zachowywania uwagi: wyodrębnianie tabelaryczne
- Strategie wykorzystywania w jednym żądaniu kontekstu o wielkości 1 mln tokenów w Gemini
- Praktyczne przykłady transkrypcji multimodalnych filmów
- Wskazówki i optymalizacje
Czego potrzebujesz
- umiejętność uruchamiania kodu w języku Python w notatniku (w Colab lub w dowolnym innym środowisku Jupyter);
- Projekt Google Cloud (Vertex AI) lub klucz interfejsu Gemini API (Google AI Studio)
- 20–90 minut (w zależności od tego, czy wykonasz szybki test, czy przeczytasz i przetestujesz wszystko)
Zaczynamy...
2. Zanim zaczniesz
Aby korzystać z interfejsu Gemini API, masz 2 główne możliwości:
- Za pomocą Vertex AI w projekcie Google Cloud
- Za pomocą Google AI Studio z kluczem interfejsu Gemini API
🛠️ Opcja 1. Gemini API w Vertex AI
Wymagania:
- projekt Google Cloud,
- Interfejs Vertex AI API musi być włączony w tym projekcie.
🛠️ Opcja 2. Interfejs Gemini API w Google AI Studio
Wymaganie:
- klucz interfejsu Gemini API,
Dowiedz się więcej o uzyskiwaniu klucza interfejsu Gemini API z Google AI Studio.
3. Uruchamianie notatnika
Wybierz preferowane narzędzie do otwierania notatnika:
🧰 Narzędzie A – otwórz notatnik w Colab
🧰 Narzędzie B – otwórz notatnik w Colab Enterprise lub Vertex AI Workbench
💡 Może to być preferowane rozwiązanie, jeśli masz już projekt Google Cloud skonfigurowany z instancją Colab Enterprise lub Vertex AI Workbench.
🧰 Narzędzie C – pobierz notatnik z GitHub i uruchom go w swoim środowisku
⚠️ Notatnik musisz pobrać z GitHub (lub sklonować repozytorium) i uruchomić we własnym środowisku Jupyter.
🗺️ Spis treści notatnika
Aby ułatwić sobie nawigację, rozwiń spis treści i z niego korzystaj. Przykład:
🏁 Uruchom notatnik
Wszystko gotowe. Możesz teraz obserwować i uruchamiać notatnik. Baw się dobrze…
4. Gratulacje!
Ten złożony problem został rozwiązany za pomocą tych technik:
- Tworzenie prototypów z użyciem otwartych promptów, aby wyrobić sobie intuicję co do naturalnych zalet Gemini
- Biorąc pod uwagę, jak działają duże modele językowe
- Tworzenie coraz bardziej szczegółowych promptów za pomocą strategii ekstrakcji tabelarycznej
- Generowanie ustrukturyzowanych danych wyjściowych w celu uzyskania kodu gotowego do wdrożenia
- Dodanie wizualizacji danych, aby ułatwić interpretację odpowiedzi i usprawnić iteracje
- Dostosowywanie parametrów domyślnych w celu optymalizacji wyników
- przeprowadzanie większej liczby testów, iteracji, a nawet wzbogacanie wyodrębnionych danych;
Te zasady powinny mieć zastosowanie w wielu innych obszarach wyodrębniania danych i umożliwiać rozwiązywanie złożonych problemów.
Więcej informacji
- Uruchom inne notatniki Gemini z repozytorium dotyczącego generatywnej AI w Google Cloud.
- Więcej przypadków użycia znajdziesz w Galerii promptów Vertex AI
- Bądź na bieżąco, śledząc informacje o wersji Vertex AI.