Знакомство с Gemini 2.5 Pro в Google Cloud

1. Обзор

Введение

Gemini 2.5 Pro — это самая мощная модель Google для программирования и обмена знаниями о мире.

В серии 2.5 модели Gemini теперь представляют собой гибридные модели для логического мышления! Gemini 2.5 Pro способен применять расширенный объем мыслительных процессов в различных задачах и использовать инструменты для максимальной точности ответов.

Gemini 2.5 Pro — это:

  • Значительное улучшение по сравнению с предыдущими моделями по таким параметрам, как кодирование, логическое мышление и мультимодальность.
  • Лидирующие в отрасли решения с передовыми показателями в математических и STEM-тестах.
  • Замечательная модель для программирования, особенно с сильными позициями в веб-разработке.
  • Особенно хорошо подходит для сложных запросов, при этом оставаясь универсальным инструментом, в том числе занимает первое место в рейтинге LMSys.

Что вы узнаете

В этом руководстве вы узнаете, как использовать API Gemini и SDK Google Gen AI для Python с моделью Gemini 2.5 Pro.

Вам предстоит выполнить следующие задания:

  • Генерация текста на основе текстовых подсказок
    • Генерировать потоковый текст
    • Начать многоходовые чаты
    • Используйте асинхронные методы
  • Настройка параметров модели
  • Настройка системных инструкций
  • Используйте защитные фильтры.
  • Использование контролируемого производства
  • Подсчет токенов
  • Обработка мультимодальных данных (аудио, код, документы, изображения, видео).
  • Используйте автоматический и ручной вызов функций.
  • Выполнение кода
  • Примеры режима мышления

2. Прежде чем начать

Предварительные требования

Прежде чем начать, вам потребуется проект Google Cloud с действующим платежным аккаунтом. Пожалуйста, выберите проект Google Cloud, который вы хотите использовать.

Для проведения практического занятия мы будем использовать Colab Enterprise — управляемую среду для совместной работы с блокнотами, обладающую возможностями обеспечения безопасности и соответствия нормативным требованиям Google Cloud.

Включите необходимые API.

Нажмите кнопку ниже, чтобы включить необходимые API для этого практического занятия в вашем проекте Google Cloud: Vertex AI, Dataform и Compute Engine.

Скопируйте блокнот Colab в Google Cloud.

Нажмите кнопку ниже, чтобы открыть обучающий блокнот в Colab Enterprise. Это создаст копию блокнота Colab в вашем текущем проекте Google Cloud, что позволит вам запустить блокнот.

Давайте начнём!

3. Инициализация среды

Теперь, когда у нас создан блокнот Colab, мы можем выполнить код, который в нём содержится. Первые несколько шагов установят зависимости и импортируют необходимые библиотеки.

Выполните действия, описанные в разделе «Начало работы».

Сначала выполните действия в ячейках, описанных в разделе «Начало работы», одно за другим.

Код ячеек в разделе «Начало работы»

Примечание: Чтобы запустить код в ячейке, наведите указатель мыши на нужную ячейку и щелкните по ней. Значок запуска ячейки Значок запуска ячейки.

Запустите ячейку

К концу этого раздела вы выполните следующие действия.

  • Установите Google Gen AI SDK для Python.
  • Импортируйте необходимые библиотеки для лабораторной работы.
  • Настройте проект в Google Cloud для использования Vertex AI.

Теперь воспользуемся Gemini 2.5 Pro для генерации текста.

4. Сгенерируйте текст с помощью Gemini

В этом разделе блокнота вы будете использовать Gemini 2.5 Pro для генерации вариантов автозавершения текста.

Приступайте к выполнению следующего набора ячеек в блокноте, уделив время изучению кода и пониманию того, как использовать SDK Google GenAI.

Генерация текста на основе текстовых подсказок

К концу этого раздела вы узнаете следующее.

  • Как указать используемую модель.
  • Генерация выходных данных без потоковой передачи и с потоковой передачей.
  • Использование многоходового чата, доступного в SDK.
  • Асинхронный вызов SDK.
  • Настройка параметров модели.
  • Настройка системных инструкций для персонализации поведения модели.
  • Настройка фильтров безопасности контента.

Далее мы рассмотрим, как отправлять многомодальные подсказки в Gemini.

5. Мультимодальные подсказки

В этом разделе блокнота вы будете использовать Gemini 2.5 Pro для обработки изображений и видео.

Выполните следующие действия в блокноте. Кодируйте ячейки для мультимодальных подсказок.

К концу этого раздела вы узнаете следующее.

  • Отправьте запрос, состоящий из изображения и текста.
  • Обработка видео по URL-адресу

Далее мы сгенерируем четко определенные и структурированные результаты.

6. Структурированные результаты

При использовании ответов моделей в коде важно получать согласованные и надежные выходные данные от модели. Контролируемая генерация позволяет определить схему ответа, указывающую структуру выходных данных модели, имена полей и ожидаемый тип данных для каждого поля.

Выполните следующие действия в блокноте. Кодируйте ячейки для управления выходным сигналом.

Далее мы рассмотрим, как обосновать выходные данные моделей.

7. Заземление

Если вы хотите использовать существующие базы знаний или предоставлять модели информацию в режиме реального времени, вам следует уделить внимание обоснованию выходных данных модели.

С помощью Gemini и Vertex AI вы можете связать результаты поиска Google, результаты выполнения функций и, наконец, сам код. Функция выполнения кода позволяет модели генерировать и запускать код, обучаясь на полученных результатах и ​​итеративно работая над получением конечного результата.

Выполните следующие действия в блокноте. Кодовые ячейки для проверки заземления

Далее мы рассмотрим мыслительные возможности Gemini 2.5 Pro.

8. Мышление

Режим мышления особенно полезен для сложных задач, требующих многократного стратегического планирования и итеративного решения. Модели Gemini 2.5 — это модели мышления, способные обдумывать свои действия перед тем, как дать ответ, что приводит к повышению производительности и точности.

Выполните следующие ячейки в блокноте. При этом обратите внимание на ход рассуждений модели до того, как она выдаст свой фактический результат. Закодируйте ячейки, чтобы показать результаты мыслительного процесса.

9. Заключение

Поздравляем! Вы освоили возможности Gemini 2.5 Pro с помощью Google Gen AI SDK для Python, изучив генерацию текста, мультимодальность, привязку к контексту, структурированные выходные данные и расширенные аналитические возможности. Теперь у вас есть базовые знания для создания собственных инновационных приложений с использованием SDK. Gemini 2.5 Pro, благодаря мощному режиму мышления и рассуждения, открывает новые возможности и способствует инновациям в самых разных областях применения.

Дополнительные ссылки

Как вам понравилась эта практическая работа?

Большой Средний Можно было бы лучше.