1. ภาพรวม
ในแล็บนี้ คุณจะได้เรียนรู้วิธีแก้ปัญหาที่ซับซ้อนของการถอดเสียงวิดีโอแบบมัลติโมดัลโดยใช้พรอมต์ Gemini เพียงรายการเดียว
คุณจะวิเคราะห์วิดีโอเพื่อตอบคำถามต่อไปนี้พร้อมกัน
- 1️⃣ มีการพูดอะไรและเมื่อใด
- 2️⃣ ใครเป็นผู้พูด
- 3️⃣ ใครพูดอะไร
ตัวอย่างสิ่งที่คุณจะได้รับมีดังนี้
สิ่งที่คุณจะได้เรียนรู้
- ระเบียบวิธีในการแก้ปัญหาแบบมัลติโมดัลใหม่หรือซับซ้อน
- เทคนิคพรอมต์สำหรับการแยกข้อมูลและการรักษาความสนใจ: การแยกข้อมูลแบบตาราง
- กลยุทธ์ในการใช้บริบท 1 ล้านโทเค็นของ Gemini ในคำขอเดียวให้เกิดประโยชน์สูงสุด
- ตัวอย่างการถอดเสียงวิดีโอแบบมัลติโมดัลในทางปฏิบัติ
- เคล็ดลับและการเพิ่มประสิทธิภาพ
สิ่งที่คุณต้องมี
- คุ้นเคยกับการเรียกใช้ Python ในสมุดบันทึก (ใน Colab หรือสภาพแวดล้อม Jupyter อื่นๆ)
- โปรเจ็กต์ Google Cloud (Vertex AI) หรือคีย์ Gemini API (Google AI Studio)
- 20-90 นาที (ขึ้นอยู่กับว่าคุณจะเรียกใช้ด่วนหรืออ่านและทดสอบทุกอย่าง)
มาเริ่มกันเลย...
2. ก่อนเริ่มต้น
หากต้องการใช้ Gemini API คุณมีตัวเลือกหลัก 2 อย่าง ดังนี้
- ผ่าน Vertex AI ด้วยโปรเจ็กต์ Google Cloud
- ผ่าน Google AI Studio ด้วยคีย์ Gemini API
🛠️ ตัวเลือกที่ 1 - Gemini API ผ่าน Vertex AI
ข้อกำหนด
- โปรเจ็กต์ Google Cloud
- ต้องเปิดใช้ Vertex AI API สำหรับโปรเจ็กต์นี้
🛠️ ตัวเลือกที่ 2 - Gemini API ผ่าน Google AI Studio
ข้อกำหนด
- คีย์ Gemini API
ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีรับคีย์ Gemini API จาก Google AI Studio
3. เรียกใช้ Notebook
เลือกเครื่องมือที่ต้องการเพื่อเปิดสมุดบันทึก
🧰 เครื่องมือ ก - เปิด Notebook ใน Colab
🧰 เครื่องมือ B - เปิด Notebook ใน Colab Enterprise หรือ Vertex AI Workbench
💡 วิธีนี้อาจเป็นวิธีที่ต้องการหากคุณได้กำหนดค่าโปรเจ็กต์ Google Cloud ด้วยอินสแตนซ์ Colab Enterprise หรือ Vertex AI Workbench ไว้แล้ว
🧰 เครื่องมือ C - รับสมุดบันทึกจาก GitHub และเรียกใช้ในสภาพแวดล้อมของคุณเอง
⚠️ คุณจะต้องดาวน์โหลด Notebook จาก GitHub (หรือโคลนที่เก็บ) และเรียกใช้ในสภาพแวดล้อม Jupyter ของคุณเอง
🗺️ สารบัญของ Notebook
โปรดขยายและใช้สารบัญเพื่อให้ไปยังส่วนต่างๆ ได้ง่ายขึ้น ตัวอย่าง
🏁 เรียกใช้ Notebook
คุณพร้อมแล้ว ตอนนี้คุณติดตามและเรียกใช้ Notebook ได้แล้ว ขอให้สนุกนะ...
4. ยินดีด้วย
คุณแก้ปัญหานี้ซึ่งมีความซับซ้อนโดยใช้เทคนิคต่อไปนี้
- การสร้างต้นแบบด้วยพรอมต์แบบเปิดเพื่อพัฒนาสัญชาตญาณเกี่ยวกับจุดแข็งตามธรรมชาติของ Gemini
- พิจารณาถึงวิธีการทำงานของ LLM เบื้องหลัง
- การสร้างพรอมต์ที่เฉพาะเจาะจงมากขึ้นโดยใช้กลยุทธ์การแยกข้อมูลแบบตาราง
- สร้างเอาต์พุตที่มีโครงสร้างเพื่อเปลี่ยนไปใช้โค้ดที่พร้อมใช้งานจริง
- เพิ่มการแสดงข้อมูลด้วยภาพเพื่อให้ตีความคำตอบได้ง่ายขึ้นและทำซ้ำได้อย่างราบรื่น
- การปรับพารามิเตอร์เริ่มต้นเพื่อเพิ่มประสิทธิภาพผลลัพธ์
- ทำการทดสอบเพิ่มเติม ทำซ้ำ และแม้แต่เพิ่มคุณค่าให้กับข้อมูลที่ดึงออกมา
หลักการเหล่านี้ควรใช้กับโดเมนการแยกข้อมูลอื่นๆ อีกมากมาย และช่วยให้คุณแก้ปัญหาที่ซับซ้อนด้วยตนเองได้
ดูข้อมูลเพิ่มเติม
- เรียกใช้ Notebook ของ Gemini อื่นๆ จากที่เก็บ Generative AI ของ Google Cloud
- สํารวจกรณีการใช้งานเพิ่มเติมในแกลเลอรีพรอมต์ของ Vertex AI
- ติดตามข้อมูลอัปเดตได้โดยดูบันทึกประจำรุ่นของ Vertex AI