1. Обзор
Введение
Gemini 2.5 Pro — самая мощная модель Google для программирования и познания мира.
С серией 2.5 модели Gemini теперь являются гибридными моделями рассуждений! Gemini 2.5 Pro может применять расширенный объем мышления в задачах и использовать инструменты для максимальной точности ответа.
Gemini 2.5 Pro — это:
- Значительное улучшение по сравнению с предыдущими моделями по таким возможностям, как кодирование, рассуждение и мультимодальность.
- Лидер в отрасли в области рассуждений и передовых показателей производительности в тестах по математике и STEM.
- Удивительная модель для кода, особенно сильная для веб-разработки.
- Особенно хорош для сложных подсказок, но при этом всесторонне развит и занимает первое место в рейтинге LMSys.
Чему вы научитесь
В этом руководстве вы узнаете, как использовать API Gemini и Google Gen AI SDK для Python с моделью Gemini 2.5 Pro.
Вам предстоит выполнить следующие задачи:
- Генерация текста из текстовых подсказок
- Генерация потокового текста
- Запуск многопоточных чатов
- Используйте асинхронные методы
- Настроить параметры модели
- Установить системные инструкции
- Используйте фильтры безопасности
- Использовать контролируемую генерацию
- Подсчет жетонов
- Обработка мультимодальных (аудио, код, документы, изображения, видео) данных
- Использовать автоматический и ручной вызов функций
- Выполнение кода
- Примеры режимов мышления
2. Прежде чем начать
Предпосылки
Прежде чем начать, вам понадобится проект Google Cloud с действительным платежным аккаунтом. Выберите проект Google Cloud, который вы хотите использовать.
Для запуска лабораторной работы мы будем использовать Colab Enterprise — совместную управляемую среду для работы с блокнотами с возможностями безопасности и соответствия требованиям Google Cloud.
Включите необходимые API
Нажмите кнопку ниже, чтобы включить необходимые API для этой кодовой лаборатории в вашем проекте Google Cloud: Vertex AI, Dataform и Compute Engine.
Скопируйте блокнот Colab в Google Cloud
Нажмите кнопку ниже, чтобы открыть учебник в Colab Enterprise. Это создаст копию Colab Notebook в вашем текущем проекте Google Cloud, что позволит вам запустить блокнот.
Давайте начнем!
3. Инициализируйте среду
Теперь, когда у нас есть созданный блокнот Colab, мы можем выполнить код, предоставленный в блокноте. Первые несколько шагов установят зависимости и импортируют необходимые библиотеки.
Выполните шаги, описанные в разделе «Начало работы».
Сначала последовательно запустите ячейки из раздела «Начало работы».
Примечание: Вы можете запустить ячейку, удерживая указатель мыши над ячейкой кода, которую вы хотите запустить, а затем щелкните Значок ячейки «Выполнить».
К концу этого раздела вы сделаете следующее.
- Установить Google Gen AI SDK для Python
- Импортируйте необходимые библиотеки для лаборатории.
- Настройте проект Google Cloud для использования Vertex AI
Теперь давайте воспользуемся Gemini 2.5 Pro для генерации текста.
4. Сгенерируйте текст с помощью Gemini
В этом разделе блокнота вы будете использовать Gemini 2.5 Pro для создания текстовых автодополнений.
Продолжайте и выполните следующий набор ячеек в блокноте, уделив время чтению кода и пониманию того, как использовать Google GenAI SDK.
К концу этого раздела вы узнаете следующее.
- Как указать модель для использования.
- Генерация потокового и непотокового вывода.
- Использование возможности многооконного чата SDK.
- Асинхронный вызов SDK.
- Настройка параметров модели.
- Настройка системных инструкций для настройки поведения модели.
- Настройка фильтров безопасности контента.
Далее мы рассмотрим, как отправлять мультимодальные подсказки в Gemini.
5. Мультимодальные подсказки
В этом разделе блокнота вы будете использовать Gemini 2.5 Pro для обработки изображений и видео.
Продолжайте и выполните следующие ячейки в блокноте.
К концу этого раздела вы узнаете следующее.
- Отправьте подсказку, состоящую из изображения и текста.
- Обработать видео с URL-адреса
Далее мы сгенерируем четко определенные и структурированные результаты.
6. Структурированные результаты
При использовании ответа моделей в коде важно, чтобы мы получали согласованные и надежные выходные данные от модели. Управляемая генерация позволяет определить схему ответа, чтобы указать структуру выходных данных модели, имена полей и ожидаемый тип данных для каждого поля.
Продолжайте и выполните следующие ячейки в блокноте.
Далее мы рассмотрим, как заземлить выходы моделей.
7. Заземление
Если вы хотите использовать существующие базы знаний или предоставлять модели информацию в режиме реального времени, то вам следует рассмотреть обоснование выходных данных модели.
С Gemini и Vertex AI вы можете заземлить вывод в Google Search, на выводе ответов функций и, наконец, в самом коде. Выполнение кода позволяет модели генерировать код и запускать его, тем самым обучаясь на результатах и выполняя итерации для получения окончательного вывода.
Продолжайте и выполните следующие ячейки в блокноте.
Далее мы рассмотрим мыслительные возможности Gemini 2.5 Pro.
8. Мышление
Режим мышления особенно полезен для сложных задач, требующих многократных раундов разработки стратегии и итеративного решения. Модели Gemini 2.5 — это модели мышления, способные обдумывать свои мысли перед ответом, что приводит к повышению производительности и точности.
Продолжайте и выполните следующие ячейки в блокноте. Когда вы это сделаете, обратите внимание на вывод мыслей до того, как модель представит свой фактический вывод.
9. Заключение
Поздравляем! Вы узнали, как использовать мощь Gemini 2.5 Pro с помощью Google Gen AI SDK для Python, охватывающего генерацию текста, мультимодальность, заземление, структурированные выводы и его расширенные возможности мышления. Теперь у вас есть базовые знания, чтобы начать создавать собственные инновационные приложения с помощью SDK. Gemini 2.5 Pro с его мощным режимом мышления и рассуждений открывает новые возможности и поддается инновациям в различных вариантах использования.
Дополнительные ссылки
- См. справочную документацию Google Gen AI SDK .
- Изучите другие блокноты в репозитории Google Cloud Generative AI GitHub .
- Изучите модели ИИ в Model Garden .