Multimodalna transkrypcja wideo z Gemini

1. Przegląd

Z tego modułu dowiesz się, jak rozwiązać złożony problem transkrypcji multimodalnego filmu za pomocą jednego promptu Gemini.

Będziesz analizować filmy, aby jednocześnie odpowiedzieć na te pytania:

  • 1️⃣ Co zostało powiedziane i kiedy?
  • 2️⃣ Kim są prelegenci?
  • 3️⃣ Kto co powiedział?

Oto przykład tego, co możesz osiągnąć:

7ed458bd4f8c849a.gif

Czego się nauczysz

  • Metodologia rozwiązywania nowych lub złożonych problemów multimodalnych
  • Technika promptowania do oddzielania danych i zachowywania uwagi: wyodrębnianie tabelaryczne
  • Strategie wykorzystywania w jednym żądaniu kontekstu o wielkości 1 mln tokenów w Gemini
  • Praktyczne przykłady transkrypcji multimodalnych filmów
  • Wskazówki i optymalizacje

Czego potrzebujesz

  • umiejętność uruchamiania kodu w języku Python w notatniku (w Colab lub w dowolnym innym środowisku Jupyter);
  • Projekt Google Cloud (Vertex AI) lub klucz interfejsu Gemini API (Google AI Studio)
  • 20–90 minut (w zależności od tego, czy wykonasz szybki test, czy przeczytasz i przetestujesz wszystko)

95557c237d172e1f.png 8173aa8cca5ce8e2.png 3a82b6ec76ca4557.png 8173aa8cca5ce8e2.png 95dfef766eb02938.png

Zaczynamy...

2. Zanim zaczniesz

Aby korzystać z interfejsu Gemini API, masz 2 główne możliwości:

  1. Za pomocą Vertex AI w projekcie Google Cloud
  2. Za pomocą Google AI Studio z kluczem interfejsu Gemini API

🛠️ Opcja 1. Gemini API w Vertex AI

Wymagania:

  • projekt Google Cloud,
  • Interfejs Vertex AI API musi być włączony w tym projekcie.

🛠️ Opcja 2. Interfejs Gemini API w Google AI Studio

Wymaganie:

  • klucz interfejsu Gemini API,

Dowiedz się więcej o uzyskiwaniu klucza interfejsu Gemini API z Google AI Studio.

3. Uruchamianie notatnika

Wybierz preferowane narzędzie do otwierania notatnika:

🧰 Narzędzie A – otwórz notatnik w Colab

🧰 Narzędzie B – otwórz notatnik w Colab Enterprise lub Vertex AI Workbench

💡 Może to być preferowane rozwiązanie, jeśli masz już projekt Google Cloud skonfigurowany z instancją Colab Enterprise lub Vertex AI Workbench.

🧰 Narzędzie C – pobierz notatnik z GitHub i uruchom go w swoim środowisku

⚠️ Notatnik musisz pobrać z GitHub (lub sklonować repozytorium) i uruchomić we własnym środowisku Jupyter.

🗺️ Spis treści notatnika

Aby ułatwić sobie nawigację, rozwiń spis treści i z niego korzystaj. Przykład:

d47b1f3032661dab.png

🏁 Uruchom notatnik

Wszystko gotowe. Możesz teraz obserwować i uruchamiać notatnik. Baw się dobrze…

4. Gratulacje!

fd6d669c4cef4c43.gif

Ten złożony problem został rozwiązany za pomocą tych technik:

  • Tworzenie prototypów z użyciem otwartych promptów, aby wyrobić sobie intuicję co do naturalnych zalet Gemini
  • Biorąc pod uwagę, jak działają duże modele językowe
  • Tworzenie coraz bardziej szczegółowych promptów za pomocą strategii ekstrakcji tabelarycznej
  • Generowanie ustrukturyzowanych danych wyjściowych w celu uzyskania kodu gotowego do wdrożenia
  • Dodanie wizualizacji danych, aby ułatwić interpretację odpowiedzi i usprawnić iteracje
  • Dostosowywanie parametrów domyślnych w celu optymalizacji wyników
  • przeprowadzanie większej liczby testów, iteracji, a nawet wzbogacanie wyodrębnionych danych;

Te zasady powinny mieć zastosowanie w wielu innych obszarach wyodrębniania danych i umożliwiać rozwiązywanie złożonych problemów.

Więcej informacji