Transkripsi Video Multimodal dengan Gemini

1. Ringkasan

Di lab ini, Anda akan mempelajari cara menyelesaikan masalah kompleks transkripsi video multimodal, menggunakan satu perintah Gemini.

Anda akan menganalisis video, mencari jawaban atas pertanyaan berikut sekaligus:

  • 1️⃣ Apa yang dikatakan dan kapan?
  • 2️⃣ Siapa pembicaranya?
  • 3️⃣ Siapa yang mengatakan apa?

Berikut adalah contoh hasil yang akan Anda dapatkan:

7ed458bd4f8c849a.gif

Yang akan Anda pelajari

  • Metodologi untuk menangani masalah multimodal baru atau kompleks
  • Teknik perintah untuk memisahkan data dan mempertahankan perhatian: ekstraksi tabular
  • Strategi untuk mengoptimalkan konteks 1 juta token Gemini dalam satu permintaan
  • Contoh praktis transkripsi video multimodal
  • Tips & pengoptimalan

Yang Anda butuhkan

  • Memahami cara menjalankan Python di notebook (di Colab atau lingkungan Jupyter lainnya)
  • Project Google Cloud (Vertex AI) atau kunci Gemini API (Google AI Studio)
  • 20-90 menit (bergantung pada apakah Anda menjalankan cepat atau membaca & menguji semuanya)

95557c237d172e1f.png 8173aa8cca5ce8e2.png 3a82b6ec76ca4557.png 8173aa8cca5ce8e2.png 95dfef766eb02938.png

Mari kita mulai...

2. Sebelum memulai

Untuk menggunakan Gemini API, Anda memiliki dua opsi utama:

  1. Melalui Vertex AI dengan project Google Cloud
  2. Melalui Google AI Studio dengan kunci Gemini API

🛠️ Opsi 1 - Gemini API melalui Vertex AI

Persyaratan:

  • Project Google Cloud
  • Vertex AI API harus diaktifkan untuk project ini

🛠️ Opsi 2 - Gemini API melalui Google AI Studio

Persyaratan:

  • Kunci Gemini API

Pelajari lebih lanjut cara mendapatkan kunci Gemini API dari Google AI Studio.

3. Menjalankan notebook

Pilih alat pilihan Anda untuk membuka notebook:

🧰 Alat A - Buka notebook di Colab

🧰 Alat B - Buka notebook di Colab Enterprise atau Vertex AI Workbench

💡 Opsi ini mungkin lebih disukai jika Anda telah mengonfigurasi project Google Cloud dengan instance Colab Enterprise atau Vertex AI Workbench.

🧰 Alat C - Dapatkan notebook dari GitHub dan jalankan di lingkungan Anda sendiri

⚠️ Anda harus mendapatkan notebook dari GitHub (atau meng-clone repositori) dan menjalankannya di lingkungan Jupyter Anda sendiri.

🗺️ Daftar isi notebook

Untuk navigasi yang lebih mudah, pastikan untuk meluaskan dan menggunakan daftar isi. Contoh:

d47b1f3032661dab.png

🏁 Jalankan notebook

Anda sudah siap. Sekarang Anda dapat mengikuti dan menjalankan notebook. Selamat bersenang-senang!...

4. Selamat!

fd6d669c4cef4c43.gif

Anda mengatasi masalah kompleks ini menggunakan teknik berikut:

  • Membuat prototipe dengan perintah terbuka untuk mengembangkan intuisi tentang kekuatan alami Gemini
  • Mempertimbangkan cara kerja LLM di balik layar
  • Membuat perintah yang makin spesifik menggunakan strategi ekstraksi tabular
  • Membuat output terstruktur untuk beralih ke kode siap produksi
  • Menambahkan visualisasi data untuk mempermudah penafsiran respons dan iterasi yang lebih lancar
  • Menyesuaikan parameter default untuk mengoptimalkan hasil
  • Melakukan lebih banyak pengujian, melakukan iterasi, dan bahkan memperkaya data yang diekstrak

Prinsip-prinsip ini harus berlaku untuk banyak domain ekstraksi data lainnya dan memungkinkan Anda memecahkan masalah kompleks Anda sendiri.

Pelajari lebih lanjut