1. Обзор
В этой лабораторной работе вы научитесь решать сложную задачу транскрипции мультимодальных видеофайлов, используя всего одну подсказку Gemini!
Вам предстоит анализировать видеозаписи, стремясь одновременно ответить на следующие вопросы:
- 1️⃣ Что было сказано и когда?
- 2️⃣ Кто выступает?
- 3️⃣ Кто что сказал?
Вот пример того, чего вы добьетесь:

Что вы узнаете
- Методология для решения новых или сложных мультимодальных проблем
- Метод быстрого извлечения информации для разделения данных и сохранения внимания: табличное извлечение.
- Стратегии для максимального использования контекста Gemini, включающего 1 миллион токенов, в рамках одного запроса.
- Практические примеры транскрипции мультимодальных видеоматериалов.
- Советы и оптимизации
Что вам понадобится
- Умение запускать Python в ноутбуке (в Colab или любой другой среде Jupyter).
- Проект Google Cloud (Vertex AI) или ключ API Gemini (Google AI Studio)
- 20-90 минут (в зависимости от того, будете ли вы быстро пробегать время или читать и тестировать все материалы).
ℹ️ Общая стоимость запуска этой лаборатории в Google Cloud составляет менее 5 долларов США.





Давайте начнём...
2. Прежде чем начать
Для использования API Gemini у вас есть два основных варианта:
- Проект Via Vertex AI в Google Cloud
- Через Google AI Studio с использованием ключа API Gemini.
🛠️ Вариант 1 - API Gemini через Vertex AI
Требования:
- Проект Google Cloud
- Для этого проекта необходимо включить API Vertex AI.
🛠️ Вариант 2 - API Gemini через Google AI Studio
Требование:
- Ключ API Gemini
Узнайте больше о получении ключа API Gemini из Google AI Studio .
3. Запустите ноутбук.
Выберите удобный для вас инструмент для открытия блокнота:
🧰 Инструмент A - Открыть блокнот в Colab
🧰 Инструмент B - Откройте блокнот в Colab Enterprise или Vertex AI Workbench
💡 Этот вариант может быть предпочтительнее, если у вас уже настроен проект Google Cloud с использованием экземпляра Colab Enterprise или Vertex AI Workbench.
🧰 Инструмент C — Загрузите ноутбук с GitHub и запустите его в своей среде.
⚠️ Вам потребуется загрузить ноутбук с GitHub (или клонировать репозиторий) и запустить его в собственной среде Jupyter.
🗺️ Содержание блокнота
Для более удобной навигации разверните и воспользуйтесь оглавлением. Пример:

🏁 Запустите ноутбук
Вы готовы. Теперь вы можете следовать инструкциям и запускать блокнот. Приятного времяпровождения!...
4. Поздравляем!

Поздравляем с завершением практического занятия!
Вы решили эту сложную проблему, используя следующие методы:
- Прототипирование с использованием открытых вопросов для развития интуиции относительно природных сильных сторон Близнецов.
- Учитывая, как работают программы магистратуры в области права (LLM) изнутри.
- Разработка все более конкретных запросов с использованием стратегии табличного извлечения информации.
- Создание структурированных выходных данных для перехода к коду, готовому к использованию в производственной среде.
- Добавление визуализации данных для упрощения интерпретации ответов и более плавной итерации.
- Адаптация параметров по умолчанию для оптимизации результатов.
- Проведение дополнительных тестов, итерации и даже обогащение извлеченных данных.
Эти принципы применимы ко многим другим областям извлечения данных и позволят вам решать собственные сложные задачи.
Узнать больше
- Запускайте другие блокноты Gemini из репозитория Google Cloud Generative AI.
- Изучите дополнительные варианты использования в галерее подсказок Vertex AI.
- Будьте в курсе последних новостей, следя за примечаниями к выпуску Vertex AI.