Знакомство с Gemini 2.5 Pro в Google Cloud

1. Обзор

Введение

Gemini 2.5 Pro — самая мощная модель Google для программирования и познания мира.

С серией 2.5 модели Gemini теперь являются гибридными моделями рассуждений! Gemini 2.5 Pro может применять расширенный объем мышления в задачах и использовать инструменты для максимальной точности ответа.

Gemini 2.5 Pro — это:

  • Значительное улучшение по сравнению с предыдущими моделями по таким возможностям, как кодирование, рассуждение и мультимодальность.
  • Лидер в отрасли в области рассуждений и передовых показателей производительности в тестах по математике и STEM.
  • Удивительная модель для кода, особенно сильная для веб-разработки.
  • Особенно хорош для сложных подсказок, но при этом всесторонне развит и занимает первое место в рейтинге LMSys.

Чему вы научитесь

В этом руководстве вы узнаете, как использовать API Gemini и Google Gen AI SDK для Python с моделью Gemini 2.5 Pro.

Вам предстоит выполнить следующие задачи:

  • Генерация текста из текстовых подсказок
    • Генерация потокового текста
    • Запуск многопоточных чатов
    • Используйте асинхронные методы
  • Настроить параметры модели
  • Установить системные инструкции
  • Используйте фильтры безопасности
  • Использовать контролируемую генерацию
  • Подсчет жетонов
  • Обработка мультимодальных (аудио, код, документы, изображения, видео) данных
  • Использовать автоматический и ручной вызов функций
  • Выполнение кода
  • Примеры режимов мышления

2. Прежде чем начать

Предпосылки

Прежде чем начать, вам понадобится проект Google Cloud с действительным платежным аккаунтом. Выберите проект Google Cloud, который вы хотите использовать.

Для запуска лабораторной работы мы будем использовать Colab Enterprise — совместную управляемую среду для работы с блокнотами с возможностями безопасности и соответствия требованиям Google Cloud.

Включите необходимые API

Нажмите кнопку ниже, чтобы включить необходимые API для этой кодовой лаборатории в вашем проекте Google Cloud: Vertex AI, Dataform и Compute Engine.

Скопируйте блокнот Colab в Google Cloud

Нажмите кнопку ниже, чтобы открыть учебник в Colab Enterprise. Это создаст копию Colab Notebook в вашем текущем проекте Google Cloud, что позволит вам запустить блокнот.

Давайте начнем!

3. Инициализируйте среду

Теперь, когда у нас есть созданный блокнот Colab, мы можем выполнить код, предоставленный в блокноте. Первые несколько шагов установят зависимости и импортируют необходимые библиотеки.

Выполните шаги, описанные в разделе «Начало работы».

Сначала последовательно запустите ячейки из раздела «Начало работы».

Код ячеек в разделе «Начало работы»

Примечание: Вы можете запустить ячейку, удерживая указатель мыши над ячейкой кода, которую вы хотите запустить, а затем щелкните Значок ячейки «Выполнить» Значок ячейки «Выполнить».

Запустите ячейку

К концу этого раздела вы сделаете следующее.

  • Установить Google Gen AI SDK для Python
  • Импортируйте необходимые библиотеки для лаборатории.
  • Настройте проект Google Cloud для использования Vertex AI

Теперь давайте воспользуемся Gemini 2.5 Pro для генерации текста.

4. Сгенерируйте текст с помощью Gemini

В этом разделе блокнота вы будете использовать Gemini 2.5 Pro для создания текстовых автодополнений.

Продолжайте и выполните следующий набор ячеек в блокноте, уделив время чтению кода и пониманию того, как использовать Google GenAI SDK.

Генерация текста из текстовых подсказок

К концу этого раздела вы узнаете следующее.

  • Как указать модель для использования.
  • Генерация потокового и непотокового вывода.
  • Использование возможности многооконного чата SDK.
  • Асинхронный вызов SDK.
  • Настройка параметров модели.
  • Настройка системных инструкций для настройки поведения модели.
  • Настройка фильтров безопасности контента.

Далее мы рассмотрим, как отправлять мультимодальные подсказки в Gemini.

5. Мультимодальные подсказки

В этом разделе блокнота вы будете использовать Gemini 2.5 Pro для обработки изображений и видео.

Продолжайте и выполните следующие ячейки в блокноте. Кодовые ячейки для мультимодальных подсказок

К концу этого раздела вы узнаете следующее.

  • Отправьте подсказку, состоящую из изображения и текста.
  • Обработать видео с URL-адреса

Далее мы сгенерируем четко определенные и структурированные результаты.

6. Структурированные результаты

При использовании ответа моделей в коде важно, чтобы мы получали согласованные и надежные выходные данные от модели. Управляемая генерация позволяет определить схему ответа, чтобы указать структуру выходных данных модели, имена полей и ожидаемый тип данных для каждого поля.

Продолжайте и выполните следующие ячейки в блокноте. Кодовые ячейки для контролируемого вывода

Далее мы рассмотрим, как заземлить выходы моделей.

7. Заземление

Если вы хотите использовать существующие базы знаний или предоставлять модели информацию в режиме реального времени, то вам следует рассмотреть обоснование выходных данных модели.

С Gemini и Vertex AI вы можете заземлить вывод в Google Search, на выводе ответов функций и, наконец, в самом коде. Выполнение кода позволяет модели генерировать код и запускать его, тем самым обучаясь на результатах и ​​выполняя итерации для получения окончательного вывода.

Продолжайте и выполните следующие ячейки в блокноте. Кодовые ячейки для проверки заземления

Далее мы рассмотрим мыслительные возможности Gemini 2.5 Pro.

8. Мышление

Режим мышления особенно полезен для сложных задач, требующих многократных раундов разработки стратегии и итеративного решения. Модели Gemini 2.5 — это модели мышления, способные обдумывать свои мысли перед ответом, что приводит к повышению производительности и точности.

Продолжайте и выполните следующие ячейки в блокноте. Когда вы это сделаете, обратите внимание на вывод мыслей до того, как модель представит свой фактический вывод. Код ячеек для отображения результатов мышления

9. Заключение

Поздравляем! Вы узнали, как использовать мощь Gemini 2.5 Pro с помощью Google Gen AI SDK для Python, охватывающего генерацию текста, мультимодальность, заземление, структурированные выводы и его расширенные возможности мышления. Теперь у вас есть базовые знания, чтобы начать создавать собственные инновационные приложения с помощью SDK. Gemini 2.5 Pro с его мощным режимом мышления и рассуждений открывает новые возможности и поддается инновациям в различных вариантах использования.

Дополнительные ссылки

Как вам эта лабораторная работа?

Большой Средний Могло быть лучше