使用 Gemini 进行多模态视频转写

1. 概览

在本实验中，您将学习如何使用单个 Gemini 提示解决多模态视频转写这一复杂问题！

您将分析视频，同时寻找以下问题的答案：

1️⃣ 说了什么以及何时说的？
2️⃣ 演讲者是谁？
3️⃣ 谁说了什么？

以下是您将实现的效果示例：

学习内容

一种用于解决新的或复杂的多模态问题的方法
一种用于分离数据和保持注意力的高效提示技术：表格提取
在单个请求中充分利用 Gemini 100 万个词元的上下文的策略
多模态视频转写的实际示例
提示和优化建议

所需条件

熟悉如何在笔记本（在 Colab 或任何其他 Jupyter 环境中）中运行 Python
Google Cloud 项目 (Vertex AI) 或 Gemini API 密钥 (Google AI Studio)
20-90 分钟（取决于您是快速运行还是阅读并测试所有内容）

ℹ️ 在 Google Cloud 上运行此实验的总费用不到 5 美元。

我们开始吧...

2. 准备工作

如需使用 Gemini API，您有以下两种主要选择：

通过 Google Cloud 项目使用 Vertex AI
通过 Google AI Studio 使用 Gemini API 密钥

🛠️ 选项 1 - 通过 Vertex AI 使用 Gemini API

要求：

Google Cloud 项目
必须为此项目启用 Vertex AI API

🛠️ 选项 2 - 通过 Google AI Studio 使用 Gemini API

要求：

Gemini API 密钥

详细了解如何从 Google AI Studio 获取 Gemini API 密钥。

3. 运行笔记本

选择您偏好的工具来打开笔记本：

🧰 工具 A - 在 Colab 中打开笔记本

🧰 工具 B - 在 Colab Enterprise 或 Vertex AI Workbench 中打开笔记本

💡 如果您已配置包含 Colab Enterprise 或 Vertex AI Workbench 实例的 Google Cloud 项目，则可能更适合使用此方法。

🧰 工具 C - 从 GitHub 获取笔记本并在您自己的环境中运行

⚠️ 您需要从 GitHub 获取笔记本（或克隆代码库），然后在自己的 Jupyter 环境中运行它。

🗺️ 笔记本目录

为方便浏览，请务必展开并使用目录。示例：

🏁 运行笔记本

您已准备就绪。您现在可以按照笔记本中的说明运行代码了。祝您玩得开心！

4. 恭喜！

恭喜您完成此 Codelab！

您使用以下技巧解决了这个复杂的问题：

通过开放式提示制作原型，培养对 Gemini 天然优势的直觉
考虑到 LLM 的底层运作方式
使用表格提取策略制作越来越具体的提示
生成结构化输出，以实现可用于生产用途的代码
添加数据可视化图表，以便更轻松地解读回答和更顺畅地进行迭代
调整默认参数以优化结果
进行更多测试、迭代，甚至丰富提取的数据

这些原则应适用于许多其他数据提取领域，并让您能够解决自己的复杂问题。

了解详情

运行 Google Cloud 生成式 AI 仓库中的其他 Gemini 笔记本
在 Vertex AI 提示库中探索更多使用场景
如需了解最新动态，请参阅 Vertex AI 版本说明

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。