การถอดเสียงวิดีโอแบบมัลติโมดัลด้วย Gemini

1. ภาพรวม

ในแล็บนี้ คุณจะได้เรียนรู้วิธีแก้ปัญหาที่ซับซ้อนของการถอดเสียงวิดีโอแบบมัลติโมดัลโดยใช้พรอมต์ Gemini เพียงรายการเดียว

คุณจะวิเคราะห์วิดีโอเพื่อตอบคำถามต่อไปนี้พร้อมกัน

  • 1️⃣ มีการพูดอะไรและเมื่อใด
  • 2️⃣ ใครเป็นผู้พูด
  • 3️⃣ ใครพูดอะไร

ตัวอย่างสิ่งที่คุณจะได้รับมีดังนี้

7ed458bd4f8c849a.gif

สิ่งที่คุณจะได้เรียนรู้

  • ระเบียบวิธีในการแก้ปัญหาแบบมัลติโมดัลใหม่หรือซับซ้อน
  • เทคนิคพรอมต์สำหรับการแยกข้อมูลและการรักษาความสนใจ: การแยกข้อมูลแบบตาราง
  • กลยุทธ์ในการใช้บริบท 1 ล้านโทเค็นของ Gemini ในคำขอเดียวให้เกิดประโยชน์สูงสุด
  • ตัวอย่างการถอดเสียงวิดีโอแบบมัลติโมดัลในทางปฏิบัติ
  • เคล็ดลับและการเพิ่มประสิทธิภาพ

สิ่งที่คุณต้องมี

  • คุ้นเคยกับการเรียกใช้ Python ในสมุดบันทึก (ใน Colab หรือสภาพแวดล้อม Jupyter อื่นๆ)
  • โปรเจ็กต์ Google Cloud (Vertex AI) หรือคีย์ Gemini API (Google AI Studio)
  • 20-90 นาที (ขึ้นอยู่กับว่าคุณจะเรียกใช้ด่วนหรืออ่านและทดสอบทุกอย่าง)

95557c237d172e1f.png 8173aa8cca5ce8e2.png 3a82b6ec76ca4557.png 8173aa8cca5ce8e2.png 95dfef766eb02938.png

มาเริ่มกันเลย...

2. ก่อนเริ่มต้น

หากต้องการใช้ Gemini API คุณมีตัวเลือกหลัก 2 อย่าง ดังนี้

  1. ผ่าน Vertex AI ด้วยโปรเจ็กต์ Google Cloud
  2. ผ่าน Google AI Studio ด้วยคีย์ Gemini API

🛠️ ตัวเลือกที่ 1 - Gemini API ผ่าน Vertex AI

ข้อกำหนด

  • โปรเจ็กต์ Google Cloud
  • ต้องเปิดใช้ Vertex AI API สำหรับโปรเจ็กต์นี้

🛠️ ตัวเลือกที่ 2 - Gemini API ผ่าน Google AI Studio

ข้อกำหนด

  • คีย์ Gemini API

ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีรับคีย์ Gemini API จาก Google AI Studio

3. เรียกใช้ Notebook

เลือกเครื่องมือที่ต้องการเพื่อเปิดสมุดบันทึก

🧰 เครื่องมือ ก - เปิด Notebook ใน Colab

🧰 เครื่องมือ B - เปิด Notebook ใน Colab Enterprise หรือ Vertex AI Workbench

💡 วิธีนี้อาจเป็นวิธีที่ต้องการหากคุณได้กำหนดค่าโปรเจ็กต์ Google Cloud ด้วยอินสแตนซ์ Colab Enterprise หรือ Vertex AI Workbench ไว้แล้ว

🧰 เครื่องมือ C - รับสมุดบันทึกจาก GitHub และเรียกใช้ในสภาพแวดล้อมของคุณเอง

⚠️ คุณจะต้องดาวน์โหลด Notebook จาก GitHub (หรือโคลนที่เก็บ) และเรียกใช้ในสภาพแวดล้อม Jupyter ของคุณเอง

🗺️ สารบัญของ Notebook

โปรดขยายและใช้สารบัญเพื่อให้ไปยังส่วนต่างๆ ได้ง่ายขึ้น ตัวอย่าง

d47b1f3032661dab.png

🏁 เรียกใช้ Notebook

คุณพร้อมแล้ว ตอนนี้คุณติดตามและเรียกใช้ Notebook ได้แล้ว ขอให้สนุกนะ...

4. ยินดีด้วย

fd6d669c4cef4c43.gif

คุณแก้ปัญหานี้ซึ่งมีความซับซ้อนโดยใช้เทคนิคต่อไปนี้

  • การสร้างต้นแบบด้วยพรอมต์แบบเปิดเพื่อพัฒนาสัญชาตญาณเกี่ยวกับจุดแข็งตามธรรมชาติของ Gemini
  • พิจารณาถึงวิธีการทำงานของ LLM เบื้องหลัง
  • การสร้างพรอมต์ที่เฉพาะเจาะจงมากขึ้นโดยใช้กลยุทธ์การแยกข้อมูลแบบตาราง
  • สร้างเอาต์พุตที่มีโครงสร้างเพื่อเปลี่ยนไปใช้โค้ดที่พร้อมใช้งานจริง
  • เพิ่มการแสดงข้อมูลด้วยภาพเพื่อให้ตีความคำตอบได้ง่ายขึ้นและทำซ้ำได้อย่างราบรื่น
  • การปรับพารามิเตอร์เริ่มต้นเพื่อเพิ่มประสิทธิภาพผลลัพธ์
  • ทำการทดสอบเพิ่มเติม ทำซ้ำ และแม้แต่เพิ่มคุณค่าให้กับข้อมูลที่ดึงออกมา

หลักการเหล่านี้ควรใช้กับโดเมนการแยกข้อมูลอื่นๆ อีกมากมาย และช่วยให้คุณแก้ปัญหาที่ซับซ้อนด้วยตนเองได้

ดูข้อมูลเพิ่มเติม