Эта страница переведена с помощью Cloud Translation API.

Gemini для разработчиков

1. Введение 👋

В этом практическом занятии вы узнаете все, что нужно знать разработчику об экосистеме Gemini. В частности, вы познакомитесь с различными моделями Gemini, инструментами, работающими на базе Gemini, и SDK Google Gen AI для интеграции с Gemini. Вы также изучите различные функции Gemini, такие как длительный контекст, режим мышления, пространственное понимание, Live API, собственный вывод изображений и звука и многое другое.

По завершении этого практического занятия у вас должно быть четкое понимание экосистемы Gemini!

💡Что вы узнаете

Различные модели Gemini.
Инструменты, работающие на основе моделей Gemini.
Как интегрироваться с Gemini, используя Google Gen AI SDK.
Длительное контекстное окно Близнецов.
Образ мышления Близнецов.
Различные встроенные инструменты, такие как Google Поиск, Google Карты.
Как взаимодействовать с исследовательскими агентами с помощью API взаимодействий.
Генерация изображений и текста в речь.
Пространственное понимание знака Близнецов.
API в реальном времени для голосового и видеовзаимодействия.

⚠️ Что вам понадобится

Ключ API для доступа к примерам Google AI Studio.
Проект Google Cloud с включенной функцией оплаты за использование образцов Vertex AI.
Ваша локальная среда разработки или редактор Cloud Shell в Google Cloud.

2. Семья Близнецов 🫂

Gemini — это модель искусственного интеллекта от Google, которая воплощает в жизнь любую идею. Это отличная модель для многомодального понимания, а также для агентного и атмосферного программирования — всё это построено на основе передовых методов логического мышления. Для краткого обзора модели Gemini вы можете посмотреть это видео:

Gemini — это не просто модель. Это также зонтичный бренд, используемый в продуктах Google.

продукты, использующие модель Gemini. Существует широкий спектр продуктов Gemini: от ориентированных на потребителей приложений Gemini и NotebookLM до ориентированной на разработчиков AI Studio и ориентированной на корпоративных клиентов Vertex AI от Google Cloud. Также есть инструменты для разработчиков, такие как Gemini CLI и Google Antigravity, работающие на платформе Gemini.

3. Инструменты Gemini Powered Tools 🧰

Давайте кратко рассмотрим инструменты, предоставляемые Gemini.

Приложение Gemini 💬

Приложение Gemini ( gemini.google.com ) — это чат-приложение для пользователей. Это самый простой способ взаимодействия с Gemini. Оно включает инструменты для углубленного исследования, обработки изображений, видео, создания музыки и многого другого. Также доступны различные версии последней модели Gemini (Fast, Thinking, Pro). Приложение Gemini идеально подходит для повседневного использования.

NotebookLM 📓

NotebookLM ( notebooklm.google.com ) — это партнер по исследованиям, использующий искусственный интеллект. Загружайте PDF-файлы, веб-сайты, видео с YouTube, аудиофайлы, документы Google Docs, презентации Google Slides и многое другое, и NotebookLM обобщит их и установит интересные связи между темами, используя возможности мультимодального анализа Gemini последней версии. Он также генерирует интересные и увлекательные аудиообзоры, видеообзоры, инфографику и многое другое на основе загруженных вами источников.

Студия искусственного интеллекта Google 🎨

Google AI Studio ( ai.dev ) — это самый быстрый способ начать разработку с использованием Gemini. Панель Playground в Google AI Studio позволяет экспериментировать с различными моделями для генерации текста, изображений, видео, а также пробовать обработку голоса и видео в реальном времени с помощью Gemini Live API. Панель Build в Google AI Studio позволяет создавать веб-приложения с помощью Vibe Code, развертывать их в Cloud Run на Google Cloud и отправлять код в GitHub.

Vertex AI Studio ☁️

Vertex AI — это полностью управляемая, унифицированная платформа для разработки ИИ, предназначенная для создания и использования генеративного ИИ в Google Cloud. Vertex AI Studio ( console.cloud.google.com/vertex-ai/studio ) помогает тестировать, настраивать и развертывать готовые к использованию в корпоративной среде приложения генеративного ИИ.

Gemini CLI ⚙️

Gemini CLI ( geminicli.com ) — это агент искусственного интеллекта с открытым исходным кодом, который переносит возможности Gemini непосредственно в ваш терминал. Он разработан как мощный инструмент, ориентированный на терминал, расширяемый и предназначенный для разработчиков, инженеров, SRE-специалистов и других. Gemini CLI интегрируется с вашей локальной средой. Он может читать и редактировать файлы, выполнять команды оболочки и осуществлять поиск в Интернете, сохраняя при этом контекст вашего проекта.

Google Антигравитация 🚀

Google Antigravity ( antigravity.google ) — это платформа для разработки с использованием агентов, которая переводит IDE в эпоху, ориентированную на агентов. Antigravity позволяет разработчикам работать на более высоком, ориентированном на задачи уровне, управляя агентами в разных рабочих пространствах, сохраняя при этом привычный интерфейс IDE для ИИ в своей основе.

Антигравитация интегрирует агентов в их собственную поверхность и предоставляет им инструменты, необходимые для автономной работы в редакторе, терминале и браузере, уделяя особое внимание проверке и высокоуровневой коммуникации посредством задач и артефактов. Эта возможность позволяет агентам планировать и выполнять более сложные, сквозные задачи разработки программного обеспечения, повышая все аспекты разработки, от создания функций и итераций пользовательского интерфейса до исправления ошибок, исследований и создания отчетов.

Вы можете смело скачивать и экспериментировать с этими инструментами. Вот несколько общих рекомендаций о том, какой инструмент использовать в каком случае:

Если вы только начинаете, вы, вероятно, будете использовать приложение Gemini, чтобы задавать вопросы или генерировать базовый код.
Если вы разрабатываете веб-приложение с помощью Vibe Code, то Google AI Studio, вероятно, станет для вас наиболее подходящим инструментом.
Если вам нужно создать сложное приложение, используя контекст вашей локальной среды разработки, то вам подойдут Gemini CLI или Google Antigravity.
Если вы хотите развернуть Google Cloud или уже используете его, и вам необходима поддержка и функциональные возможности корпоративного уровня, то Vertex AI и его студия — это то, что вам нужно.

Конечно, вы можете комбинировать эти инструменты. Например, начните с написания кода в Vibe в AI Studio, чтобы отправить его на GitHub, а затем используйте Antigravity для продолжения написания кода и развертывания в Google Cloud.

4. Модели-близнецы 🧠

Модели Gemini постоянно улучшаются, новые версии выходят каждые несколько месяцев. На сегодняшний день (февраль 2026 года) на платформе Vertex AI в Google Cloud представлены следующие модели:

Существует множество других общедоступных моделей Gemini , моделей Gemini для предварительного просмотра , открытых моделей Gemma , моделей Embedding , моделей Imagegen , моделей Veo и многое другое.

Посетите страницу документации Google Models , чтобы ознакомиться с основными моделями, доступными в Vertex AI для различных сценариев использования.

5. Google Gen AI SDK 📦

Для интеграции Gemini с вашим приложением вы можете использовать Google Gen AI SDK .

Как мы уже обсуждали ранее, доступ к моделям Gemini можно получить через Google AI Studio или Vertex AI Studio . Google Gen AI SDK предоставляет единый интерфейс для работы с моделями Gemini как через Google AI API, так и через Google Cloud API. За некоторыми исключениями, код, работающий на одной платформе, будет работать на обеих.

В настоящее время Google Gen AI SDK поддерживает Python , Go , Node , Java и C# .

Например, вот как вы бы общались с Gemini в Google AI на языке Python:

client = genai.Client(
  api_key=your-gemini-api-key)

response = client.models.generate_content(
  model="gemini-3-flash-preview",
  contents="Why is the sky blue?")

Чтобы проделать то же самое с Gemini в Vertex AI, вам нужно всего лишь изменить инициализацию клиента, а остальное останется тем же:

client = genai.Client(
  vertexai=True,
  project=your-google-cloud-project,
  location="us-central1")

response = client.models.generate_content(
  model="gemini-3-flash-preview",
  contents="Why is the sky blue?")

Чтобы запустить эти примеры самостоятельно, вы можете запустить main.py по адресу github.com/meteatamel/genai-samples/tree/main/vertexai/gemini2/hello-world .

6. API для взаимодействия 🔄

API взаимодействия (бета-версия) — это новый унифицированный интерфейс для взаимодействия с моделями и агентами Gemini. Являясь улучшенной альтернативой API generateContent , он упрощает управление состоянием, оркестровку инструментов и выполнение длительных задач.

Вот как можно взаимодействовать с новым API на базовом уровне:

interaction =  client.interactions.create(
    model="gemini-3-flash-preview",
    input="Tell me a short joke."
)
print(interaction.outputs[-1].text)

Для сохранения состояния диалога можно передать идентификатор взаимодействия из предыдущего взаимодействия:

interaction1 = client.interactions.create(
    model="gemini-3-flash-preview",
    input="Hi, my name is Phil."
)
print(f"Model: {interaction1.outputs[-1].text}")

interaction2 = client.interactions.create(
    model="gemini-3-flash-preview",
    input="What is my name?",
    previous_interaction_id=interaction1.id
)
print(f"Model: {interaction2.outputs[-1].text}")

API для взаимодействия предназначен для создания агентов и взаимодействия с ними, и включает поддержку вызова функций, встроенных инструментов, структурированных выходных данных и протокола контекста модели (MCP). Чтобы узнать, как его можно использовать с агентом Deep Research, см. шаг «Агенты 🤖» ниже.

Чтобы запустить эти примеры самостоятельно, вы можете запустить main.py в репозитории github.com/meteatamel/genai-samples/blob/main/vertexai/interactions-api .

7. Длинное контекстное окно 🪟

Многие модели Gemini поставляются с большими контекстными окнами, содержащими 1 миллион и более токенов. Исторически сложилось так, что большие языковые модели (LLM) были значительно ограничены количеством текста (или токенов), которые могли быть переданы модели за один раз. Длинное контекстное окно Gemini открывает множество новых вариантов использования и парадигм для разработчиков.

Чтобы увидеть в действии окно с подсказками, перейдите в галерею подсказок Vertex AI Studio и выберите подсказку « Extract Video Chapters . Эта подсказка группирует видеоконтент по главам и предоставляет краткое описание каждой главы.

После запуска программы с предоставленным видеофайлом вы должны получить результат, похожий на следующий:

[
  {
    "timecode": "00:00",
    "chapterSummary": "The video opens with scenic views of Rio de Janeiro, introducing the \"Marvelous City\" and its famous beaches like Ipanema and Copacabana, before pivoting to the existence of the favelas."
  },
  {
    "timecode": "00:20",
    "chapterSummary": "The narrator describes the favelas, home to one in five Rio residents, highlighting that while often associated with crime and poverty, this is only a small part of their story."
  },
  {
    "timecode": "00:36",
    "chapterSummary": "Google introduces its project to map the favelas, emphasizing that providing addresses to these uncharted areas is a crucial step in giving residents an identity."
  },
  {
    "timecode": "00:43",
    "chapterSummary": "The video concludes by focusing on the people of the favelas, inviting viewers to go beyond the map and explore their world through a 360-degree experience."
  }
]

Это стало возможным только благодаря длительному контекстному окну Близнецов!

8. Режим размышления 🧠

Модели Gemini используют внутренний мыслительный процесс, который значительно улучшает их способность к рассуждению при решении сложных задач. Уровни мышления (Gemini 3) и бюджеты (Gemini 2.5) управляют мыслительным поведением. Вы также можете включить флаг include_thoughts , чтобы увидеть исходные мысли модели.

Чтобы увидеть работу режима мышления в действии, откроем Google AI Studio ( ai.dev ) и начнем новый чат. На правой боковой панели можно установить уровень мышления:

Если вы нажмете на кнопку Get code в правом верхнем углу, вы также сможете увидеть, как можно установить уровень сложности кода, примерно так:

response = client.models.generate_content(
    model="gemini-3-pro-preview",
    contents="How does AI work?",
    config=types.GenerateContentConfig(
        thinking_config=types.ThinkingConfig(
          thinking_level="low",
          include_thoughts=True
        )
    ),
)

Поэкспериментируйте с различными подсказками и уровнями сложности мышления, чтобы увидеть поведение модели.

9. Инструменты 🧰

Gemini поставляется с рядом встроенных инструментов, таких как поиск Google, Google Maps, выполнение кода, использование компьютера, поиск файлов и многое другое. Вы также можете определить свои собственные инструменты с помощью вызова функций. Давайте кратко рассмотрим, как ими пользоваться.

Поиск Google 🔎

Вы можете сопоставить ответы модели с результатами поиска Google для получения более точных, актуальных и релевантных ответов.

В Vertex AI Studio ( console.cloud.google.com/vertex-ai/studio ) или Google AI Studio ( ai.dev ) вы можете начать новый чат и убедиться, что связь с поиском Google отключена:

Затем вы можете задать вопрос о погоде на сегодня в вашем регионе. Например:

How's the weather in London today?

Обычно вы получаете ответ за день, прошедший с начала года, потому что модель не имеет доступа к самой актуальной информации. Например:

In London today (Friday, May 24, 2025), the weather is a bit of a mixed bag, typical for late May.

Теперь включите функцию поиска Google по данным о погоде и задайте тот же вопрос. Вы должны получить актуальную информацию о погоде со ссылками на соответствующие источники:

In London today (Wednesday, February 11, 2026), the weather is cool and mostly cloudy with a chance of light rain.

Вот как можно заземлить поиск Google в вашем коде. Вы также можете нажать кнопку «Код» в Vertex AI Studio, чтобы получить пример заземления:

google_search_tool = Tool(google_search=GoogleSearch())
response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents="How's the weather like today in London?",
    config=GenerateContentConfig(tools=[google_search_tool])
)

Google Maps 🗺️

Также вы можете использовать данные, полученные с помощью моделей местности, в Google Maps, который располагает информацией о более чем 250 миллионах мест.

Чтобы увидеть это в действии, вы можете выбрать Google Maps вместо Google Search в разделе «Основание» настроек модели в Vertex AI Studio и задать вопрос, для которого требуются данные из карт, например:

Can you show me some Greek restaurants and their map coordinates near me?

Код выглядит примерно так:

google_maps_tool = Tool(google_maps=GoogleMaps())
response = client.models.generate_content(
    model="gemini-3-flash-preview",
    contents=""What are the best restaurants near here?",
    config=GenerateContentConfig(tools=[google_maps_tool]),
       # Optional: Provide location context (this is in Los Angeles)
        tool_config=ToolConfig(
          retrieval_config=types.RetrievalConfig(
            lat_lng=types.LatLng(
                latitude=34.050481, longitude=-118.248526))),
)

Выполнение кода 🧑‍💻

Gemini может генерировать и запускать код Python с использованием списка поддерживаемых библиотек (pandas, numpy, PyPDF2 и т. д.). Это полезно для приложений, которые выигрывают от логического вывода на основе кода (например, решение уравнений).

Чтобы это проверить, переключитесь на Google AI Studio, начните новый чат и убедитесь, что включена опция Code execution . Затем задайте вопрос, для решения которого может пригодиться инструмент выполнения кода. Например:

What is the sum of the first 50 prime numbers?

Gemini должен сгенерировать некоторый код на Python и запустить его. В итоге правильный ответ — 5117.

Вы можете запустить инструмент выполнения кода непосредственно из самого кода следующим образом:

code_execution_tool = Tool(code_execution=ToolCodeExecution())
response = client.models.generate_content(
  model="gemini-3-flash-preview",
  contents="What is the sum of the first 50 prime numbers?",
  config=GenerateContentConfig(
    tools=[code_execution_tool],
    temperature=0))

Использование компьютера 🖥️

Модель использования компьютеров Gemini (предварительная версия) позволяет создавать агенты управления браузером для автоматизации задач. Она работает в следующем цикле:

Чтобы увидеть это в действии, вы можете запустить main.py в репозитории github.com/google-gemini/computer-use-preview .

Например, вы можете получить свой API-ключ в Google AI Studio и попросить Gemini найти для вас авиабилеты:

export GEMINI_API_KEY=your-api-key

python main.py --query "Find me top 5 fights sorted by price with the following constraints:

Flight site to use: www.google.com/travel/flights
From: London
To: Larnaca
One-way or roundtrip: One way
Date to leave: Sometime next week
Date to return: N/A
Travel preferences:
-Direct flights
-No flights before 10am
-Carry-on luggage"

Вы увидите, как Gemini откроет браузер в режиме инкогнито и начнет поиск авиабилетов для вас!

Поиск файлов 📁

Инструмент поиска файлов обеспечивает легкое создание расширенных шаблонов поиска (Retrieval Augmented Generation, RAG). Просто загрузите свои файлы, и он выполнит все необходимые действия по созданию RAG-шаблонов, встраиванию и поиску.

Чтобы увидеть это в действии, вы можете запустить main.py в репозитории github.com/meteatamel/genai-beyond-basics/blob/main/samples/grounding/file-search-tool .

Получите свой API-ключ в Google AI Studio и создайте хранилище для поиска файлов:

export GEMINI_API_KEY=your-gemini-api-key

python main.py create_store my-file-search-store

Загрузите PDF-файл в магазин:

python main.py upload_to_store fileSearchStores/myfilesearchstore-5a9x71ifjge9 cymbal-starlight-2024.pdf

Задайте вопрос о PDF-файле, указывающем на магазин:

python main.py generate_content "What's the cargo capacity of Cymbal Starlight?" fileSearchStores/myfilesearchstore-5a9x71ifjge9

Вы должны получить ответ, подкрепленный PDF-файлом:

Generating content with file search store: fileSearchStores/myfilesearchstore-5a9x71ifjge9
Response: The Cymbal Starlight 2024 has a cargo capacity of 13.5 cubic feet, which is located in the trunk of the vehicle. It is important to distribute the weight evenly and not overload the trunk, as this could impact the vehicle's handling and stability. The vehicle can also accommodate up to two suitcases in the trunk, and it is recommended to use soft-sided luggage to maximize space and cargo straps to secure it while driving.
Grounding sources:  cymbal-starlight-2024.pdf

Вызов функции 📲

Если встроенных инструментов недостаточно, вы также можете определить свои собственные инструменты (функции) в Gemini. Вы просто отправляете функцию Python в качестве инструмента (вместо того, чтобы отправлять подробную спецификацию функции в формате OpenAPI). Она автоматически используется моделью и SDK в качестве инструмента.

Например, вы можете создать функцию, которая будет возвращать широту и долготу местоположения:

def location_to_lat_long(location: str):
    """Given a location, returns the latitude and longitude

    Args:
        location: The location for which to get the weather.

    Returns:
        The latitude and longitude information in JSON.
    """
    logger.info(f"Calling location_to_lat_long({location})")
    url = f"https://geocoding-api.open-meteo.com/v1/search?name={location}&count=1"
    return api_request(url)

Также можно добавить функцию, которая будет возвращать информацию о погоде на основе заданных широты и долготы:

def lat_long_to_weather(latitude: str, longitude: str):
    """Given a latitude and longitude, returns the weather information

    Args:
        latitude: The latitude of a location
        longitude: The longitude of a location

    Returns:
        The weather information for the location in JSON.
    """
    logger.info(f"Calling lat_long_to_weather({latitude}, {longitude})")
    url = (f"https://api.open-meteo.com/v1/forecast?latitude={latitude}&longitude={longitude}&current=temperature_2m,"
           f"relative_humidity_2m,surface_pressure,wind_speed_10m,wind_direction_10m&forecast_days=1")
    return api_request(url)

Теперь вы можете передать эти две функции в Gemini в качестве инструментов и позволить ему использовать их для получения информации о погоде для определенного местоположения:

def generate_content_with_function_calls():
    client = genai.Client(
        vertexai=True,
        project=PROJECT_ID,
        location=LOCATION)

    response = client.models.generate_content(
        model=MODEL_ID,
        contents=PROMPT,
        config=GenerateContentConfig(
            system_instruction=[
                "You are a helpful weather assistant.",
                "Your mission is to provide weather information for different cities."
                "Make sure your responses are in plain text format (no markdown) and include all the cities asked.",
            ],
            tools=[location_to_lat_long, lat_long_to_weather],
            temperature=0),
    )

    print(response.text)
    #print(response.automatic_function_calling_history)

Чтобы увидеть это в действии, вы можете запустить main_genaisdk.py в репозитории github.com/meteatamel/genai-beyond-basics/blob/main/samples/function-calling/weather .

10. Агенты 🤖

API взаимодействия Gemini предназначен для создания агентов и взаимодействия с ними. Вы можете использовать специализированных агентов, таких как Gemini Deep Research Agent. Gemini Deep Research Agent автономно планирует, выполняет и синтезирует многоэтапные исследовательские задачи. Он ориентируется в сложных информационных ландшафтах, используя веб-поиск и ваши собственные данные, для создания подробных отчетов, на которые ведут ссылки.

Вот как можно использовать агента Deep Research с API взаимодействия:

interaction = client.interactions.create(
    input="Research the history of the Google TPUs.",
    agent="deep-research-pro-preview-12-2025",
    background=True
)

while True:
    if interaction.status == "completed":
        print("\nFinal Report:\n",
interaction.outputs[-1].text)
        break

Чтобы запустить этот пример самостоятельно, вы можете запустить main.py в репозитории github.com/meteatamel/genai-samples/blob/main/vertexai/interactions-api .

export GOOGLE_API_KEY=your-api-key
python main.py agent

Результаты исследования вы увидите спустя некоторое время:

User: Research the history of the Google TPUs with a focus on 2025 and 2026

Status: in_progress
Status: in_progress
Status: in_progress
...
Model Final Report:
 # Architectural Convergence and Commercial Expansion: The History of Google TPUs (2015–2026)

## Key Findings
*   **Strategic Pivot (2025):** Google transitioned the Tensor Processing Unit (TPU) from a primarily internal differentiator to a commercial merchant-silicon competitor, epitomized by the massive "Ironwood" (TPU v7) deployment and external sales strategy.
*   **Technological Leap:** The introduction of TPU v7 "Ironwood" in 2025 marked a paradigm shift, utilizing 3nm process technology to deliver 42.5 exaFLOPS per pod, directly challenging NVIDIA's Blackwell architecture in the high-performance computing (HPC) sector.
...

11. Создание изображений 📷

Nano Banana 🍌 — это название встроенных возможностей Gemini по генерации изображений. Gemini может генерировать и обрабатывать изображения в диалоговом режиме с текстом, изображениями или их комбинацией. Это позволяет создавать, редактировать и дорабатывать визуальные материалы с беспрецедентным контролем.

Nano Banana — это название двух различных моделей, доступных в API Gemini:

Nano Banana : Модель Gemini 2.5 Flash Image ( gemini-2.5-flash-image ). Эта модель разработана для обеспечения скорости и эффективности, оптимизирована для задач с большим объемом данных и низкой задержкой.
Nano Banana Pro : Модель предварительного просмотра изображений Gemini 3 Pro ( gemini-3-pro-image-preview ). Эта модель разработана для профессионального создания графических ресурсов, используя сложные алгоритмы для выполнения сложных инструкций и рендеринга высококачественного текста.

Вот фрагмент кода, в который вы можете передать существующее изображение и попросить Nano Banana отредактировать его:

from google import genai
from google.genai import types
from PIL import Image

client = genai.Client()

prompt = (
    "Create a picture of my cat eating a nano-banana in a "
    "fancy restaurant under the Gemini constellation",
)

image = Image.open("/path/to/cat_image.png")

response = client.models.generate_content(
    model="gemini-2.5-flash-image",
    contents=[prompt, image],
)

for part in response.parts:
    if part.text is not None:
        print(part.text)
    elif part.inline_data is not None:
        image = part.as_image()
        image.save("generated_image.png")

Nano Banana доступен в приложениях Gemini App, AI Studio или Vertex AI Studio. Проще всего попробовать его в приложении Gemini App. В приложении Gemini App ( gemini.google.com ) выберите 🍌 Create images в разделе Tools . Затем загрузите изображение и попробуйте что-нибудь интересное. Например, вы можете сказать:

Can you transform this picture of mine to a nice beach on a tropical island?

12. Генерация речи из текста 🎶

Gemini может преобразовывать текстовый ввод в аудиоформат с участием одного или нескольких говорящих, используя возможности генерации речи (TTS) Gemini. Генерация TTS управляема, то есть вы можете использовать естественный язык для структурирования взаимодействия и управления стилем, акцентом, темпом и тоном аудио.

Существует 2 модели, поддерживающие синтез речи:

Функция преобразования текста в речь (TTS) отличается от генерации речи, предоставляемой через Live API, которая предназначена для интерактивного, неструктурированного аудио и многомодальных входных и выходных данных. В то время как Live API превосходно подходит для динамических разговорных контекстов, TTS через Gemini API разработана для сценариев, требующих точного воспроизведения текста с тонкой настройкой стиля и звучания, таких как создание подкастов или аудиокниг.

Вот фрагмент кода для синтеза речи одного говорящего:

from google import genai
from google.genai import types
import wave

# Set up the wave file to save the output:
def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
   with wave.open(filename, "wb") as wf:
      wf.setnchannels(channels)
      wf.setsampwidth(sample_width)
      wf.setframerate(rate)
      wf.writeframes(pcm)

client = genai.Client()

response = client.models.generate_content(
   model="gemini-2.5-flash-preview-tts",
   contents="Say cheerfully: Have a wonderful day!",
   config=types.GenerateContentConfig(
      response_modalities=["AUDIO"],
      speech_config=types.SpeechConfig(
         voice_config=types.VoiceConfig(
            prebuilt_voice_config=types.PrebuiltVoiceConfig(
               voice_name='Kore',
            )
         )
      ),
   )
)

data = response.candidates[0].content.parts[0].inline_data.data

file_name='out.wav'
wave_file(file_name, data) # Saves the file to current directory

Больше примеров вы можете найти в документации по генерации речи (TTS) .

Вы также можете попробовать сгенерировать речь в Google AI Studio Playground. Поэкспериментируйте с различными подсказками в приложении generate-speech :

13. Пространственное понимание 🌐

Gemini обладает развитой системой обнаружения объектов и пространственного восприятия.

Проще всего это понять, увидев в действии. Перейдите в приложение Spatial Understanding Starter в AI Studio. Выберите несколько изображений и попробуйте обнаружить на них какие-либо объекты с помощью Gemini.

Например, на разных изображениях можно обнаружить «тени» или «фрукты»:

Поэкспериментируйте с разными изображениями и посмотрите, насколько хорошо Gemini распознает и маркирует различные объекты.

14. API в реальном времени 🎤

API Live обеспечивает голосовое и видеовзаимодействие с Gemini в режиме реального времени с низкой задержкой. Он обрабатывает непрерывные потоки аудио, видео или текста, предоставляя мгновенные, похожие на человеческие, голосовые ответы, создавая естественный диалог для ваших пользователей.

Попробуйте Live API в Google AI Studio или Live API в Vertex AI Studio . В обоих приложениях вы можете делиться своим голосом, видео и экраном и вести диалог в режиме реального времени с Gemini.

Смело начинайте демонстрировать свое видео или экран и задавайте Близнецам общие вопросы голосом. Например:

Can you describe what you see on the screen?

Вы будете поражены тем, насколько естественно будут звучать ответы Близнецов.

15. Заключение

В этом практическом занятии мы рассмотрели экосистему Gemini, начиная с семейства продуктов Gemini и изучая, как интегрировать модели в наши приложения с помощью унифицированного SDK Google Gen AI. Мы изучили передовые функции Gemini, включая окно длинного контекста, режим мышления, встроенные инструменты для анализа контекста, Live API и пространственное понимание. Мы рекомендуем вам углубиться в справочную документацию и продолжить экспериментировать с полным потенциалом Gemini.