使用 Gemini 进行多模态视频转写

1. 概览

在本实验中,您将学习如何使用单个 Gemini 提示解决多模态视频转写这一复杂问题!

您将分析视频,同时寻找以下问题的答案:

  • 1️⃣ 说了什么以及何时说的?
  • 2️⃣ 演讲者是谁?
  • 3️⃣ 谁说了什么?

以下是您将实现的效果示例:

7ed458bd4f8c849a.gif

学习内容

  • 一种用于解决新的或复杂的多模态问题的方法
  • 一种用于分离数据和保留注意力的新提示技术:表格提取
  • 在单个请求中充分利用 Gemini 100 万个词元的上下文的策略
  • 多模态视频转写的实际示例
  • 提示和优化

所需条件

  • 熟悉如何在笔记本(在 Colab 或任何其他 Jupyter 环境中)中运行 Python
  • Google Cloud 项目 (Vertex AI) 或 Gemini API 密钥 (Google AI Studio)
  • 20-90 分钟(取决于您是快速运行还是阅读并测试所有内容)

95557c237d172e1f.png 8173aa8cca5ce8e2.png 3a82b6ec76ca4557.png 8173aa8cca5ce8e2.png 95dfef766eb02938.png

我们开始吧...

2. 准备工作

如需使用 Gemini API,您有以下两种主要选择:

  1. 通过 Google Cloud 项目使用 Vertex AI
  2. 通过 Google AI Studio 使用 Gemini API 密钥

🛠️ 选项 1 - 通过 Vertex AI 使用 Gemini API

要求:

  • Google Cloud 项目
  • 必须为此项目启用 Vertex AI API

🛠️ 选项 2 - 通过 Google AI Studio 使用 Gemini API

要求:

  • Gemini API 密钥

详细了解如何从 Google AI Studio 获取 Gemini API 密钥

3. 运行笔记本

选择您偏好的工具来打开笔记本:

🧰 工具 A - 在 Colab 中打开笔记本

🧰 工具 B - 在 Colab Enterprise 或 Vertex AI Workbench 中打开笔记本

💡 如果您已配置包含 Colab Enterprise 或 Vertex AI Workbench 实例的 Google Cloud 项目,则可能更适合使用此方法。

🧰 工具 C - 从 GitHub 获取笔记本并在您自己的环境中运行

⚠️ 您需要从 GitHub 获取笔记本(或克隆代码库),然后在自己的 Jupyter 环境中运行它。

🗺️ 笔记本目录

为方便浏览,请务必展开并使用目录。示例:

d47b1f3032661dab.png

🏁 运行笔记本

您已准备就绪。您现在可以按照笔记本中的步骤运行代码了。祝您玩得开心!

4. 恭喜!

fd6d669c4cef4c43.gif

您使用以下技术解决了这一复杂问题:

  • 通过开放式提示制作原型,培养对 Gemini 天然优势的直觉
  • 考虑到 LLM 在幕后如何运作
  • 使用表格提取策略制作越来越具体的提示
  • 生成结构化输出,以实现可用于生产用途的代码
  • 添加数据可视化图表,以便更轻松地解读回答和更顺畅地进行迭代
  • 调整默认参数以优化结果
  • 进行更多测试、迭代,甚至丰富提取的数据

这些原则应适用于许多其他数据提取领域,并让您能够解决自己的复杂问题。

了解详情