Tính năng chép lời video đa phương thức bằng Gemini

1. Tổng quan

Trong phòng thí nghiệm này, bạn sẽ học cách giải quyết vấn đề phức tạp về việc chép lời video đa phương thức bằng một câu lệnh duy nhất cho Gemini!

Bạn sẽ phân tích video để trả lời tất cả các câu hỏi sau đây cùng một lúc:

  • 1️⃣ Nội dung đã nói và thời điểm nói?
  • 2️⃣ Ai là diễn giả?
  • 3️⃣ Ai đã nói gì?

Sau đây là ví dụ về những gì bạn sẽ đạt được:

7ed458bd4f8c849a.gif

Kiến thức bạn sẽ học được

  • Một phương pháp giải quyết các vấn đề phức tạp hoặc mới xuất hiện liên quan đến nhiều phương thức
  • Một kỹ thuật tạo câu lệnh để tách dữ liệu và duy trì sự chú ý: trích xuất dạng bảng
  • Các chiến lược khai thác tối đa ngữ cảnh 1 triệu token của Gemini trong một yêu cầu
  • Ví dụ thực tế về bản chép lời video đa phương thức
  • Mẹo và cách tối ưu hoá

Bạn cần có

  • Có kinh nghiệm chạy Python trong sổ tay (trong Colab hoặc bất kỳ môi trường Jupyter nào khác)
  • Một dự án Google Cloud (Vertex AI) hoặc một khoá Gemini API (Google AI Studio)
  • 20 – 90 phút (tuỳ thuộc vào việc bạn chạy nhanh hay đọc và kiểm thử mọi thứ)

95557c237d172e1f.png 8173aa8cca5ce8e2.png 3a82b6ec76ca4557.png 8173aa8cca5ce8e2.png 95dfef766eb02938.png

Hãy bắt đầu nào...

2. Trước khi bắt đầu

Để sử dụng Gemini API, bạn có 2 lựa chọn chính:

  1. Thông qua Vertex AI bằng một dự án Google Cloud
  2. Thông qua Google AI Studio bằng khoá Gemini API

🛠️ Lựa chọn 1 – Gemini API thông qua Vertex AI

Yêu cầu:

  • Một dự án trên Google Cloud
  • Bạn phải bật Vertex AI API cho dự án này

🛠️ Lựa chọn 2 – Gemini API thông qua Google AI Studio

Yêu cầu:

  • Khoá Gemini API

Tìm hiểu thêm về cách lấy khoá Gemini API từ Google AI Studio.

3. Chạy sổ tay

Chọn công cụ bạn muốn dùng để mở sổ tay:

🧰 Công cụ A – Mở sổ tay trong Colab

🧰 Công cụ B – Mở sổ tay trong Colab Enterprise hoặc Vertex AI Workbench

💡 Bạn nên chọn cách này nếu đã thiết lập một dự án trên Google Cloud bằng một phiên bản Colab Enterprise hoặc Vertex AI Workbench.

🧰 Công cụ C – Lấy sổ tay từ GitHub và chạy trong môi trường của riêng bạn

⚠️ Bạn sẽ cần lấy sổ tay từ GitHub (hoặc sao chép kho lưu trữ) và chạy sổ tay đó trong môi trường Jupyter của riêng mình.

🗺️ Mục lục sổ tay

Để dễ dàng di chuyển, hãy nhớ mở rộng và sử dụng mục lục. Ví dụ:

d47b1f3032661dab.png

🏁 Chạy sổ tay

Bạn đã sẵn sàng. Giờ đây, bạn có thể theo dõi và chạy sổ tay. Chúc bạn vui vẻ!

4. Xin chúc mừng!

fd6d669c4cef4c43.gif

Bạn đã giải quyết vấn đề phức tạp này bằng các kỹ thuật sau:

  • Tạo mẫu bằng câu lệnh mở để phát triển trực giác về những điểm mạnh tự nhiên của Gemini
  • Xem xét cách LLM hoạt động
  • Tạo câu lệnh ngày càng cụ thể bằng chiến lược trích xuất dạng bảng
  • Tạo đầu ra có cấu trúc để chuyển sang mã sẵn sàng cho sản xuất
  • Thêm tính năng trực quan hoá dữ liệu để dễ dàng diễn giải câu trả lời và có các lần lặp lại mượt mà hơn
  • Điều chỉnh các thông số mặc định để tối ưu hoá kết quả
  • Tiến hành thêm các thử nghiệm, lặp lại và thậm chí làm phong phú thêm dữ liệu được trích xuất

Những nguyên tắc này sẽ áp dụng cho nhiều miền trích xuất dữ liệu khác và cho phép bạn giải quyết các vấn đề phức tạp của riêng mình.

Tìm hiểu thêm