1. Обзор
В этой лабораторной работе вы научитесь решать сложную задачу транскрипции мультимодального видео, используя одну подсказку Gemini!
Вы будете анализировать видео, пытаясь одновременно ответить на следующие вопросы:
- 1️⃣ Что и когда было сказано?
- 2️⃣ Кто будет выступать?
- 3️⃣ Кто что сказал?
Вот пример того, чего вы достигнете:
Чему вы научитесь
- Методология решения новых или сложных мультимодальных проблем
- Быстрый метод разделения данных и сохранения внимания: табличное извлечение
- Стратегии максимально эффективного использования контекста 1M-токенов Gemini в одном запросе
- Практические примеры мультимодальных видеотрансляций
- Советы и оптимизации
Что вам понадобится
- Умение запускать Python в блокноте (в Colab или любой другой среде Jupyter)
- Проект Google Cloud (Vertex AI) или ключ API Gemini (Google AI Studio)
- 20–90 минут (в зависимости от того, бегаете ли вы быстро или читаете и тестируете все)
Давайте начнем...
2. Прежде чем начать
Чтобы использовать API Gemini , у вас есть два основных варианта:
- Через проект Vertex AI в Google Cloud
- Через Google AI Studio с ключом API Gemini
🛠️ Вариант 1 — API Gemini через Vertex AI
Требования:
- Проект Google Cloud
- Для этого проекта необходимо включить API Vertex AI.
🛠️ Вариант 2 — API Gemini через Google AI Studio
Требование:
- API-ключ Gemini
Узнайте больше о получении ключа API Gemini от Google AI Studio .
3. Запустите блокнот.
Выберите предпочитаемый вами инструмент для открытия блокнота:
🧰 Инструмент A — Открыть блокнот в Colab
🧰 Инструмент B — Откройте блокнот в Colab Enterprise или Vertex AI Workbench
💡 Это может быть предпочтительным вариантом, если у вас уже есть проект Google Cloud, настроенный с использованием экземпляра Colab Enterprise или Vertex AI Workbench.
🧰 Инструмент C — получите блокнот с GitHub и запустите его в своей среде.
⚠️ Вам нужно будет получить блокнот с GitHub (или клонировать репозиторий) и запустить его в собственной среде Jupyter.
🗺️ Содержание блокнота
Для удобства навигации обязательно разверните и используйте оглавление. Пример:
🏁 Запустить блокнот
Всё готово. Теперь можно следить за блокнотом и управлять им. Развлекайтесь!...
4. Поздравляем!
Вы решили эту сложную проблему, используя следующие методы:
- Прототипирование с открытыми подсказками для развития интуиции относительно природных сильных сторон Близнецов
- Принимая во внимание, как работают LLM внутри
- Создание все более конкретных подсказок с использованием стратегии табличного извлечения
- Создание структурированных результатов для перехода к готовому к использованию коду
- Добавление визуализации данных для более легкой интерпретации ответов и более плавных итераций
- Адаптация параметров по умолчанию для оптимизации результатов
- Проведение дополнительных тестов, итераций и даже обогащение извлеченных данных
Эти принципы должны применяться во многих других областях извлечения данных и позволят вам решать собственные сложные проблемы.
Узнать больше
- Запускайте другие блокноты Gemini из репозитория Google Cloud Generative AI.
- Изучите дополнительные варианты использования в галерее подсказок Vertex AI.
- Будьте в курсе событий, следя за заметками о выпуске Vertex AI.