1. 概览
在本实验中,您将学习如何使用单个 Gemini 提示解决多模态视频转写这一复杂问题!
您将分析视频,同时寻找以下问题的答案:
- 1️⃣ 说了什么以及何时说的?
- 2️⃣ 演讲者是谁?
- 3️⃣ 谁说了什么?
以下是您将实现的效果示例:
学习内容
- 一种用于解决新的或复杂的多模态问题的方法
- 一种用于分离数据和保留注意力的新提示技术:表格提取
- 在单个请求中充分利用 Gemini 100 万个词元的上下文的策略
- 多模态视频转写的实际示例
- 提示和优化
所需条件
- 熟悉如何在笔记本(在 Colab 或任何其他 Jupyter 环境中)中运行 Python
- Google Cloud 项目 (Vertex AI) 或 Gemini API 密钥 (Google AI Studio)
- 20-90 分钟(取决于您是快速运行还是阅读并测试所有内容)
我们开始吧...
2. 准备工作
如需使用 Gemini API,您有以下两种主要选择:
- 通过 Google Cloud 项目使用 Vertex AI
- 通过 Google AI Studio 使用 Gemini API 密钥
🛠️ 选项 1 - 通过 Vertex AI 使用 Gemini API
要求:
- Google Cloud 项目
- 必须为此项目启用 Vertex AI API
🛠️ 选项 2 - 通过 Google AI Studio 使用 Gemini API
要求:
- Gemini API 密钥
3. 运行笔记本
选择您偏好的工具来打开笔记本:
🧰 工具 A - 在 Colab 中打开笔记本
🧰 工具 B - 在 Colab Enterprise 或 Vertex AI Workbench 中打开笔记本
💡 如果您已配置包含 Colab Enterprise 或 Vertex AI Workbench 实例的 Google Cloud 项目,则可能更适合使用此方法。
🧰 工具 C - 从 GitHub 获取笔记本并在您自己的环境中运行
⚠️ 您需要从 GitHub 获取笔记本(或克隆代码库),然后在自己的 Jupyter 环境中运行它。
🗺️ 笔记本目录
为方便浏览,请务必展开并使用目录。示例:
🏁 运行笔记本
您已准备就绪。您现在可以按照笔记本中的步骤运行代码了。祝您玩得开心!
4. 恭喜!
您使用以下技术解决了这一复杂问题:
- 通过开放式提示制作原型,培养对 Gemini 天然优势的直觉
- 考虑到 LLM 在幕后如何运作
- 使用表格提取策略制作越来越具体的提示
- 生成结构化输出,以实现可用于生产用途的代码
- 添加数据可视化图表,以便更轻松地解读回答和更顺畅地进行迭代
- 调整默认参数以优化结果
- 进行更多测试、迭代,甚至丰富提取的数据
这些原则应适用于许多其他数据提取领域,并让您能够解决自己的复杂问题。
了解详情
- 运行 Google Cloud 生成式 AI 仓库中的其他 Gemini 笔记本
- 在 Vertex AI 提示库中探索更多使用场景
- 如需了解最新动态,请参阅 Vertex AI 版本说明