Introdução ao Gemini 2.5 Pro no Google Cloud

1. Visão geral

Introdução

O Gemini 2.5 Pro é o modelo mais avançado do Google para programação e conhecimento geral.

Com a série 2.5, os modelos Gemini agora são modelos de raciocínio híbrido. O Gemini 2.5 Pro pode aplicar uma quantidade maior de raciocínio em tarefas e usar ferramentas para maximizar a acurácia das respostas.

O Gemini 2.5 Pro é:

  • Uma melhoria significativa em relação aos modelos anteriores em recursos como programação, raciocínio e multimodalidade.
  • Líder do setor em raciocínio com desempenho de ponta em benchmarks de matemática e STEM.
  • Um modelo incrível para código, com desenvolvimento da Web particularmente forte.
  • Especialmente bom para comandos complexos, mas ainda bem equilibrado, incluindo o número 1 no LMSys.

O que você vai aprender

Neste tutorial, você vai aprender a usar a API Gemini e o SDK de IA Generativa do Google para Python com o modelo Gemini 2.5 Pro.

Tarefas do laboratório:

  • Gerar texto com base em comandos de texto
    • gerar texto de streaming
    • iniciar chats multiturno
    • usar métodos assíncronos
  • Configurar parâmetros do modelo
  • Definir instruções do sistema
  • Usar filtros de segurança
  • Usar geração controlada
  • Contar tokens
  • Processar dados multimodais (áudio, código, documentos, imagens, vídeo)
  • Usar a chamada de função automática e manual
  • Execução de código
  • Exemplos de modo de pensamento

2. Antes de começar

Pré-requisitos

Antes de começar, você precisa de um projeto do Google Cloud com uma conta de faturamento válida. Selecione o projeto na nuvem do Google que você quer usar.

Para executar o codelab, vamos usar o Colab Enterprise, que é um ambiente de notebook gerenciado e colaborativo com os recursos de segurança e conformidade do Google Cloud.

Ative as APIs necessárias

Clique no botão abaixo para ativar as APIs necessárias para este codelab no seu projeto na nuvem do Google Cloud: Vertex AI, Dataform e Compute Engine.

Copiar o notebook do Colab para o Google Cloud

Clique no botão abaixo para abrir o notebook do tutorial no Colab Enterprise. Isso vai criar uma cópia do notebook do Colab no seu projeto atual do Google Cloud, que vai permitir que você execute o notebook.

Vamos começar!

3. Inicializar o ambiente

Agora que criamos o notebook do Colab, podemos executar o código fornecido nele. As primeiras etapas vão instalar as dependências e importar as bibliotecas necessárias.

Executar as etapas em "Introdução"

Primeiro, execute as células na seção "Introdução" uma após a outra.

Células de código na seção "Começar"

Observação:para executar uma célula, mantenha o ponteiro do mouse sobre a célula de código que você quer executar e clique no ícone Ícone "Executar célula" "Executar célula".

Executar a célula

Ao final desta seção, você terá feito o seguinte.

  • Instalar o SDK de IA Generativa do Google para Python
  • Importar as bibliotecas necessárias para o laboratório
  • Configurar um projeto na nuvem do Google para usar a Vertex AI

Agora vamos usar o Gemini 2.5 Pro para gerar texto

4. Gerar texto com Gemini

Nesta seção do notebook, você usará o Gemini 2.5 Pro para gerar conclusões de texto.

Execute o próximo conjunto de células no notebook, lendo o código e entendendo como usar o SDK da IA generativa do Google.

Gerar texto com base em comandos de texto

Ao final desta seção, você terá aprendido o seguinte.

  • Como especificar o modelo a ser usado.
  • Geração de saída de streaming e não streaming.
  • Como usar o recurso de conversa multiturno do SDK.
  • Como chamar o SDK de forma assíncrona.
  • Como configurar os parâmetros do modelo.
  • Como definir instruções do sistema para personalizar o comportamento do modelo.
  • Como configurar filtros de segurança de conteúdo.

Em seguida, vamos mostrar como enviar comandos multimodais para o Gemini

5. Prompts multimodais

Nesta seção do notebook, você vai usar o Gemini 2.5 Pro para processar imagens e vídeos.

Execute as seguintes células no notebook. Células de código para comandos multimodais

Ao final desta seção, você terá aprendido o seguinte.

  • Enviar um prompt que consiste em uma imagem e texto.
  • Processar um vídeo de um URL

Em seguida, vamos gerar saídas bem definidas e estruturadas

6. Respostas estruturadas

Ao usar a resposta de modelos no código, é importante receber saídas consistentes e confiáveis do modelo. A geração controlada permite definir um esquema de resposta para especificar a estrutura da saída de um modelo, os nomes dos campos e o tipo de dados esperado para cada campo.

Execute as seguintes células no notebook. Células de código para saída controlada

Em seguida, vamos mostrar como fundamentar as saídas dos modelos

7. Embasamento

Se você quiser usar bases de conhecimento atuais ou fornecer informações em tempo real ao modelo, consulte a fundamentação das saídas do modelo.

Com o Gemini e a Vertex AI, é possível fundamentar a saída na Pesquisa Google, na saída de respostas de funções e, por fim, no próprio código. A execução de código permite que o modelo gere código e o execute, aprendendo com os resultados e iterando para receber a saída final.

Execute as seguintes células no notebook. Células de código para testar o embasamento

Em seguida, vamos conferir os recursos de pensamento do Gemini 2.5 Pro

8. Raciocínio

O modo de raciocínio é especialmente útil para tarefas complexas que exigem várias rodadas de estratégia e solução iterativa. Os modelos Gemini 2.5 conseguem raciocinar antes de responder. Por isso, o desempenho e a acurácia deles aumentou muito.

Execute as seguintes células no notebook. Ao fazer isso, observe a saída de pensamento antes que o modelo apresente a saída real. Células de código para mostrar a saída do Thinking

9. Conclusão

Parabéns! Você aprendeu a aproveitar o poder do Gemini 2.5 Pro usando o SDK de IA Generativa do Google para Python, abrangendo geração de texto, multimodalidade, embasamento, saídas estruturadas e recursos avançados de raciocínio. Agora você tem o conhecimento básico para começar a criar seus próprios aplicativos inovadores usando o SDK. O Gemini 2.5 Pro, com o modo de pensamento e raciocínio avançado, abre novas possibilidades e se presta à inovação em vários casos de uso.

Referências adicionais

O que você achou deste codelab?

Ótimo Média Poderia ser melhor