การถอดเสียงวิดีโอแบบมัลติโมดัลด้วย Gemini

1. ภาพรวม

ในแล็บนี้ คุณจะได้เรียนรู้วิธีแก้ปัญหาที่ซับซ้อนของการถอดเสียงวิดีโอแบบมัลติโมดัลโดยใช้พรอมต์ Gemini เพียงรายการเดียว

คุณจะวิเคราะห์วิดีโอเพื่อตอบคำถามต่อไปนี้พร้อมกัน

1️⃣ มีการพูดอะไรและเมื่อใด
2️⃣ ใครเป็นผู้พูด
3️⃣ ใครพูดอะไร

ตัวอย่างสิ่งที่คุณจะได้รับมีดังนี้

สิ่งที่คุณจะได้เรียนรู้

ระเบียบวิธีในการแก้ปัญหาใหม่หรือปัญหาที่ซับซ้อนแบบมัลติโมดัล
เทคนิคพรอมต์สำหรับการแยกข้อมูลและการรักษาความสนใจ: การแยกข้อมูลแบบตาราง
กลยุทธ์ในการใช้บริบท 1 ล้านโทเค็นของ Gemini ในคำขอเดียวให้เกิดประโยชน์สูงสุด
ตัวอย่างการถอดเสียงวิดีโอแบบมัลติโมดัลในทางปฏิบัติ
เคล็ดลับและการเพิ่มประสิทธิภาพ

สิ่งที่คุณต้องมี

คุ้นเคยกับการเรียกใช้ Python ในสมุดบันทึก (ใน Colab หรือสภาพแวดล้อม Jupyter อื่นๆ)
โปรเจ็กต์ Google Cloud (Vertex AI) หรือคีย์ Gemini API (Google AI Studio)
20-90 นาที (ขึ้นอยู่กับว่าคุณจะเรียกใช้ด่วนหรืออ่านและทดสอบทุกอย่าง)

ℹ️ ต้นทุนทั้งหมดในการเรียกใช้ Lab นี้ใน Google Cloud น้อยกว่า 5 USD

มาเริ่มกันเลย...

2. ก่อนเริ่มต้น

หากต้องการใช้ Gemini API คุณมี 2 ตัวเลือกหลัก ดังนี้

ผ่าน Vertex AI ด้วยโปรเจ็กต์ Google Cloud
ผ่าน Google AI Studio ด้วยคีย์ Gemini API

🛠️ ตัวเลือกที่ 1 - Gemini API ผ่าน Vertex AI

ข้อกำหนด

โปรเจ็กต์ Google Cloud
ต้องเปิดใช้ Vertex AI API สำหรับโปรเจ็กต์นี้

🛠️ ตัวเลือกที่ 2 - Gemini API ผ่าน Google AI Studio

ข้อกำหนด

คีย์ Gemini API

ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีรับคีย์ Gemini API จาก Google AI Studio

3. เรียกใช้ Notebook

เลือกเครื่องมือที่ต้องการเพื่อเปิดสมุดบันทึก

🧰 เครื่องมือ ก - เปิด Notebook ใน Colab

🧰 เครื่องมือ B - เปิด Notebook ใน Colab Enterprise หรือ Vertex AI Workbench

💡 วิธีนี้อาจเป็นวิธีที่ต้องการหากคุณได้กำหนดค่าโปรเจ็กต์ Google Cloud ด้วยอินสแตนซ์ Colab Enterprise หรือ Vertex AI Workbench ไว้แล้ว

🧰 เครื่องมือ C - รับสมุดบันทึกจาก GitHub และเรียกใช้ในสภาพแวดล้อมของคุณเอง

⚠️ คุณจะต้องดาวน์โหลด Notebook จาก GitHub (หรือโคลนที่เก็บ) และเรียกใช้ในสภาพแวดล้อม Jupyter ของคุณเอง

🗺️ สารบัญของ Notebook

โปรดขยายและใช้สารบัญเพื่อให้ไปยังส่วนต่างๆ ได้ง่ายขึ้น ตัวอย่าง

🏁 เรียกใช้ Notebook

คุณพร้อมแล้ว ตอนนี้คุณติดตามและเรียกใช้ Notebook ได้แล้ว ขอให้สนุกนะ...

4. ยินดีด้วย

ขอแสดงความยินดีที่ทำ Codelab นี้เสร็จสมบูรณ์

คุณแก้ปัญหานี้ซึ่งมีความซับซ้อนโดยใช้เทคนิคต่อไปนี้

การสร้างต้นแบบด้วยพรอมต์แบบเปิดเพื่อพัฒนาสัญชาตญาณเกี่ยวกับจุดแข็งตามธรรมชาติของ Gemini
พิจารณาถึงวิธีการทำงานของ LLM เบื้องหลัง
การสร้างพรอมต์ที่เฉพาะเจาะจงมากขึ้นโดยใช้กลยุทธ์การแยกข้อมูลแบบตาราง
สร้างเอาต์พุตที่มีโครงสร้างเพื่อเปลี่ยนไปใช้โค้ดที่พร้อมใช้งานจริง
เพิ่มการแสดงข้อมูลด้วยภาพเพื่อให้ตีความคำตอบได้ง่ายขึ้นและทำซ้ำได้อย่างราบรื่น
การปรับพารามิเตอร์เริ่มต้นเพื่อเพิ่มประสิทธิภาพผลลัพธ์
ทำการทดสอบเพิ่มเติม ทำซ้ำ และแม้แต่เพิ่มคุณค่าให้กับข้อมูลที่ดึงออกมา

หลักการเหล่านี้ควรใช้กับโดเมนการแยกข้อมูลอื่นๆ อีกมากมาย และช่วยให้คุณแก้ปัญหาที่ซับซ้อนด้วยตนเองได้

ดูข้อมูลเพิ่มเติม

เรียกใช้ Notebook อื่นๆ ของ Gemini จากที่เก็บ Generative AI ของ Google Cloud
ดูกรณีการใช้งานเพิ่มเติมในแกลเลอรีพรอมต์ของ Vertex AI
ติดตามข่าวสารล่าสุดได้โดยดูบันทึกประจำรุ่นของ Vertex AI