Transkripsi Video Multimodal dengan Gemini

1. Ringkasan

Di lab ini, Anda akan mempelajari cara menyelesaikan masalah kompleks transkripsi video multimodal, menggunakan satu perintah Gemini.

Anda akan menganalisis video, mencari jawaban atas pertanyaan berikut sekaligus:

Berikut adalah contoh hasil yang akan Anda dapatkan:

Metodologi untuk menangani masalah multimodal baru atau kompleks
Teknik perintah untuk memisahkan data dan mempertahankan perhatian: ekstraksi tabular
Strategi untuk mengoptimalkan konteks 1 juta token Gemini dalam satu permintaan
Contoh praktis transkripsi video multimodal
Tips & pengoptimalan

Memahami cara menjalankan Python di notebook (di Colab atau lingkungan Jupyter lainnya)
Project Google Cloud (Vertex AI) atau kunci Gemini API (Google AI Studio)
20-90 menit (bergantung pada apakah Anda menjalankan cepat atau membaca & menguji semuanya)

ℹ️ Total biaya untuk menjalankan lab ini di Google Cloud kurang dari 5 USD.

Mari kita mulai...

Untuk menggunakan Gemini API, Anda memiliki dua opsi utama:

Persyaratan:

Persyaratan:

Pelajari lebih lanjut cara mendapatkan kunci Gemini API dari Google AI Studio.

Pilih alat pilihan Anda untuk membuka notebook:

💡 Opsi ini mungkin lebih disukai jika Anda telah mengonfigurasi project Google Cloud dengan instance Colab Enterprise atau Vertex AI Workbench.

⚠️ Anda harus mendapatkan notebook dari GitHub (atau meng-clone repositori) dan menjalankannya di lingkungan Jupyter Anda sendiri.

Untuk navigasi yang lebih mudah, pastikan untuk meluaskan dan menggunakan daftar isi. Contoh:

Anda sudah siap. Sekarang Anda dapat mengikuti dan menjalankan notebook. Selamat bersenang-senang!...

Selamat, Anda telah menyelesaikan codelab.

Anda mengatasi masalah kompleks ini menggunakan teknik berikut:

Membuat prototipe dengan perintah terbuka untuk mengembangkan intuisi tentang kemampuan alami Gemini
Mempertimbangkan cara kerja LLM di balik layar
Membuat perintah yang makin spesifik menggunakan strategi ekstraksi tabular
Membuat output terstruktur untuk beralih ke kode siap produksi
Menambahkan visualisasi data untuk mempermudah interpretasi respons dan iterasi yang lebih lancar
Menyesuaikan parameter default untuk mengoptimalkan hasil
Melakukan lebih banyak pengujian, melakukan iterasi, dan bahkan memperkaya data yang diekstrak

Prinsip-prinsip ini harus diterapkan pada banyak domain ekstraksi data lainnya dan memungkinkan Anda memecahkan masalah kompleks Anda sendiri.