1. Ringkasan
Di lab ini, Anda akan mempelajari cara menyelesaikan masalah kompleks transkripsi video multimodal, menggunakan satu perintah Gemini.
Anda akan menganalisis video, mencari jawaban atas pertanyaan berikut sekaligus:
- 1️⃣ Apa yang dikatakan dan kapan?
- 2️⃣ Siapa pembicaranya?
- 3️⃣ Siapa yang mengatakan apa?
Berikut adalah contoh hasil yang akan Anda dapatkan:
Yang akan Anda pelajari
- Metodologi untuk menangani masalah multimodal baru atau kompleks
- Teknik perintah untuk memisahkan data dan mempertahankan perhatian: ekstraksi tabular
- Strategi untuk mengoptimalkan konteks 1 juta token Gemini dalam satu permintaan
- Contoh praktis transkripsi video multimodal
- Tips & pengoptimalan
Yang Anda butuhkan
- Memahami cara menjalankan Python di notebook (di Colab atau lingkungan Jupyter lainnya)
- Project Google Cloud (Vertex AI) atau kunci Gemini API (Google AI Studio)
- 20-90 menit (bergantung pada apakah Anda menjalankan cepat atau membaca & menguji semuanya)
Mari kita mulai...
2. Sebelum memulai
Untuk menggunakan Gemini API, Anda memiliki dua opsi utama:
- Melalui Vertex AI dengan project Google Cloud
- Melalui Google AI Studio dengan kunci Gemini API
🛠️ Opsi 1 - Gemini API melalui Vertex AI
Persyaratan:
- Project Google Cloud
- Vertex AI API harus diaktifkan untuk project ini
🛠️ Opsi 2 - Gemini API melalui Google AI Studio
Persyaratan:
- Kunci Gemini API
Pelajari lebih lanjut cara mendapatkan kunci Gemini API dari Google AI Studio.
3. Menjalankan notebook
Pilih alat pilihan Anda untuk membuka notebook:
🧰 Alat A - Buka notebook di Colab
🧰 Alat B - Buka notebook di Colab Enterprise atau Vertex AI Workbench
💡 Opsi ini mungkin lebih disukai jika Anda telah mengonfigurasi project Google Cloud dengan instance Colab Enterprise atau Vertex AI Workbench.
🧰 Alat C - Dapatkan notebook dari GitHub dan jalankan di lingkungan Anda sendiri
⚠️ Anda harus mendapatkan notebook dari GitHub (atau meng-clone repositori) dan menjalankannya di lingkungan Jupyter Anda sendiri.
🗺️ Daftar isi notebook
Untuk navigasi yang lebih mudah, pastikan untuk meluaskan dan menggunakan daftar isi. Contoh:
🏁 Jalankan notebook
Anda sudah siap. Sekarang Anda dapat mengikuti dan menjalankan notebook. Selamat bersenang-senang!...
4. Selamat!
Anda mengatasi masalah kompleks ini menggunakan teknik berikut:
- Membuat prototipe dengan perintah terbuka untuk mengembangkan intuisi tentang kekuatan alami Gemini
- Mempertimbangkan cara kerja LLM di balik layar
- Membuat perintah yang makin spesifik menggunakan strategi ekstraksi tabular
- Membuat output terstruktur untuk beralih ke kode siap produksi
- Menambahkan visualisasi data untuk mempermudah penafsiran respons dan iterasi yang lebih lancar
- Menyesuaikan parameter default untuk mengoptimalkan hasil
- Melakukan lebih banyak pengujian, melakukan iterasi, dan bahkan memperkaya data yang diekstrak
Prinsip-prinsip ini harus berlaku untuk banyak domain ekstraksi data lainnya dan memungkinkan Anda memecahkan masalah kompleks Anda sendiri.
Pelajari lebih lanjut
- Jalankan notebook Gemini lainnya dari repositori AI Generatif Google Cloud
- Pelajari kasus penggunaan tambahan di Galeri Prompt Vertex AI
- Tetap dapatkan info terbaru dengan membaca Catatan Rilis Vertex AI