使用 Gemini 进行多模态视频转写

1. 概览

在本实验中,您将学习如何使用单个 Gemini 提示解决多模态视频转写这一复杂问题!

您将分析视频,同时寻找以下问题的答案:

  • 1️⃣ 说了什么以及何时说的?
  • 2️⃣ 演讲者是谁?
  • 3️⃣ 谁说了什么?

以下是您将实现的效果示例:

7ed458bd4f8c849a.gif

学习内容

  • 一种用于解决新的或复杂的多模态问题的方法
  • 一种用于分离数据和保持注意力的高效提示技术:表格提取
  • 在单个请求中充分利用 Gemini 100 万个词元的上下文的策略
  • 多模态视频转写的实际示例
  • 提示和优化建议

所需条件

  • 熟悉如何在笔记本(在 Colab 或任何其他 Jupyter 环境中)中运行 Python
  • Google Cloud 项目 (Vertex AI) 或 Gemini API 密钥 (Google AI Studio)
  • 20-90 分钟(取决于您是快速运行还是阅读并测试所有内容)

ℹ️ 在 Google Cloud 上运行此实验的总费用不到 5 美元。

ed255bd97afbedca.png fc7e616a26c8fa40.png c0b9ecec49c859f2.png fc7e616a26c8fa40.png 8f240cd033d2cc65.png

我们开始吧...

2. 准备工作

如需使用 Gemini API,您有以下两种主要选择:

  1. 通过 Google Cloud 项目使用 Vertex AI
  2. 通过 Google AI Studio 使用 Gemini API 密钥

🛠️ 选项 1 - 通过 Vertex AI 使用 Gemini API

要求:

  • Google Cloud 项目
  • 必须为此项目启用 Vertex AI API

🛠️ 选项 2 - 通过 Google AI Studio 使用 Gemini API

要求:

  • Gemini API 密钥

详细了解如何从 Google AI Studio 获取 Gemini API 密钥

3. 运行笔记本

选择您偏好的工具来打开笔记本:

🧰 工具 A - 在 Colab 中打开笔记本

🧰 工具 B - 在 Colab Enterprise 或 Vertex AI Workbench 中打开笔记本

💡 如果您已配置包含 Colab Enterprise 或 Vertex AI Workbench 实例的 Google Cloud 项目,则可能更适合使用此方法。

🧰 工具 C - 从 GitHub 获取笔记本并在您自己的环境中运行

⚠️ 您需要从 GitHub 获取笔记本(或克隆代码库),然后在自己的 Jupyter 环境中运行它。

🗺️ 笔记本目录

为方便浏览,请务必展开并使用目录。示例:

392ef60165a94bba.png

🏁 运行笔记本

您已准备就绪。您现在可以按照笔记本中的说明运行代码了。祝您玩得开心!

4. 恭喜!

b9a6147d9c7f89bb.gif

恭喜您完成此 Codelab!

您使用以下技巧解决了这个复杂的问题:

  • 通过开放式提示制作原型,培养对 Gemini 天然优势的直觉
  • 考虑到 LLM 的底层运作方式
  • 使用表格提取策略制作越来越具体的提示
  • 生成结构化输出,以实现可用于生产用途的代码
  • 添加数据可视化图表,以便更轻松地解读回答和更顺畅地进行迭代
  • 调整默认参数以优化结果
  • 进行更多测试、迭代,甚至丰富提取的数据

这些原则应适用于许多其他数据提取领域,并让您能够解决自己的复杂问题。

了解详情