Sobre este codelab
1. Visão geral
Introdução
O Gemini 2.5 Pro é o modelo mais avançado do Google para programação e conhecimento geral.
Com a série 2.5, os modelos do Gemini agora são modelos de raciocínio híbrido. O Gemini 2.5 Pro pode pensar muito em tarefas e usar ferramentas para maximizar a precisão das respostas.
O Gemini 2.5 Pro:
- Uma melhoria significativa em relação aos modelos anteriores em vários recursos, incluindo programação, raciocínio e multimodalidade.
- Líder do setor em raciocínio com desempenho de ponta em comparações de matemática e STEM.
- Um modelo incrível para código, com desenvolvimento da Web particularmente forte.
- É particularmente bom para comandos complexos, mas bem equilibrados, incluindo o #1 no LMSys.
O que você vai aprender
Neste tutorial, você vai aprender a usar a API Gemini e o SDK da IA generativa do Google para Python com o modelo Gemini 2.5 Pro.
Tarefas do laboratório:
- Gerar texto com base em comandos de texto
- Gerar texto de streaming
- Iniciar chats multiturno
- Usar métodos assíncronos
- configurar parâmetros do modelo
- Definir instruções do sistema
- Usar filtros de segurança
- Usar a geração controlada
- Contar Tokens
- Processar dados multimodais (áudio, código, documentos, imagens, vídeo)
- Usar a chamada de função automática e manual
- Execução de código
- Exemplos de modo de pensamento
2. Antes de começar
Pré-requisitos
Antes de começar, você precisa de um projeto do Google Cloud com uma conta de faturamento válida. Selecione o projeto do Google Cloud que você quer usar.
Para executar o codelab, vamos usar o Colab Enterprise, um ambiente de notebook gerenciado e colaborativo com os recursos de segurança e compliance do Google Cloud.
Ative as APIs necessárias
Clique no botão abaixo para ativar as APIs necessárias para este codelab no seu projeto do Google Cloud: Vertex AI, Dataform e Compute Engine.
Copiar o notebook do Colab para o Google Cloud
Clique no botão abaixo para abrir o notebook do tutorial no Colab Enterprise. Isso vai criar uma cópia do Colab Notebook no seu projeto atual do Google Cloud, o que permitirá que você execute o notebook.
Vamos começar.
3. Inicializar o ambiente
Agora que temos o notebook do Colab criado, podemos executar o código fornecido nele. As primeiras etapas vão instalar as dependências e importar as bibliotecas necessárias.
Siga as etapas em "Primeiros passos"
Primeiro, execute as células na seção "Começar" uma após a outra.
Observação:para executar uma célula, mantenha o cursor do mouse sobre a célula de código que você quer executar e clique no ícone Executar célula.
Ao final desta seção, você terá feito o seguinte.
- Instalar o SDK de IA generativa do Google para Python
- Importar as bibliotecas necessárias para o laboratório
- Configurar um projeto do Google Cloud para usar a Vertex AI
Agora vamos usar o Gemini 2.5 Pro para gerar texto
4. Gerar texto com Gemini
Nesta seção do notebook, você vai usar o Gemini 2.5 Pro para gerar preenchimentos de texto.
Execute o próximo conjunto de células no notebook, lendo o código e entendendo como usar o SDK do Google GenAI.
Ao final desta seção, você vai ter aprendido o seguinte.
- Como especificar o modelo a ser usado.
- Geração de saídas não em streaming x em streaming.
- Usar o recurso de chat multiturno do SDK.
- Chamar o SDK de forma assíncrona.
- Configurar os parâmetros do modelo.
- Definir instruções do sistema para personalizar o comportamento do modelo.
- Configurar filtros de segurança de conteúdo.
Em seguida, vamos ver como enviar comandos multimodais para o Gemini
5. Prompts multimodais
Nesta seção do notebook, você vai usar o Gemini 2.5 Pro para processar imagens e vídeos.
Execute as células a seguir no notebook.
Ao final desta seção, você vai ter aprendido o seguinte.
- Envie uma instrução que consiste em uma imagem e texto.
- Processar um vídeo de um URL
Em seguida, vamos gerar saídas bem definidas e estruturadas
6. Saídas estruturadas
Ao usar a resposta dos modelos no código, é importante que tenhamos saídas consistentes e confiáveis do modelo. A geração controlada permite definir um esquema de resposta para especificar a estrutura da saída de um modelo, os nomes dos campos e o tipo de dados esperado para cada campo.
Execute as células a seguir no notebook.
Em seguida, vamos ver como fundamentar as saídas dos modelos
7. Altitude de referência
Se você quiser usar bases de conhecimento existentes ou fornecer informações em tempo real para o modelo, verifique a fundamentação das saídas do modelo.
Com o Gemini e a Vertex AI, é possível embasamento da saída na Pesquisa Google, na saída das respostas da função e, por fim, no próprio código. A execução de código permite que o modelo gere e execute código, aprendendo com os resultados e iterando para gerar a saída final.
Execute as células a seguir no notebook.
Em seguida, vamos conferir os recursos de pensamento do Gemini 2.5 Pro
8. Pensando
O modo de pensamento é especialmente útil para tarefas complexas que exigem várias rodadas de estratégia e solução iterativa. Os modelos Gemini 2.5 são modelos de pensamento, capazes de raciocinar antes de responder. Por isso, o desempenho e a acurácia deles aumentou muito.
Execute as células a seguir no notebook. Ao fazer isso, observe o resultado do pensamento antes que o modelo apresente o resultado real.
9. Conclusão
Parabéns! Você aprendeu a aproveitar o poder do Gemini 2.5 Pro usando o SDK da IA generativa do Google para Python, cobrindo geração de texto, multimodalidade, grounding, saídas estruturadas e recursos de pensamento avançado. Agora você tem o conhecimento básico para começar a criar seus próprios apps inovadores usando o SDK. O Gemini 2.5 Pro, com o modo de pensamento e raciocínio, abre novas possibilidades e se presta à inovação em vários casos de uso.
Outras referências
- Consulte os documentos de referência do SDK do Google Gen AI.
- Conheça outros notebooks no repositório do GitHub da IA generativa do Google Cloud.
- Conheça os modelos de IA no Model Garden.