Introducción a Gemini 2.5 Pro en Google Cloud

1. Descripción general

Introducción

Gemini 2.5 Pro es el modelo más potente de Google para programación y conocimiento del mundo.

Con la serie 2.5, los modelos de Gemini ahora son modelos de razonamiento híbrido. Gemini 2.5 Pro puede aplicar un mayor nivel de pensamiento en tareas y usar herramientas para maximizar la precisión de las respuestas.

Gemini 2.5 Pro es lo siguiente:

  • Una mejora significativa con respecto a los modelos anteriores en todas las capacidades, incluidas la programación, el razonamiento y la multimodalidad
  • Líder en la industria en razonamiento con un rendimiento de vanguardia en los parámetros de referencia de matemáticas y CTIM
  • Un modelo increíble para el código, con un desarrollo web particularmente sólido
  • Particularmente bueno para instrucciones complejas, pero bien equilibradas, incluido el puesto n.° 1 en LMSys

Qué aprenderás

En este instructivo, aprenderás a usar la API de Gemini y el SDK de IA generativa de Google para Python con el modelo de Gemini 2.5 Pro.

Completarás las siguientes tareas:

  • Generar texto a partir de instrucciones de texto
    • Generar texto de transmisión
    • Iniciar chats de varios turnos
    • Usar métodos asíncronos
  • Configurar los parámetros del modelo
  • Establecer instrucciones del sistema
  • Usar filtros de seguridad
  • Usar la generación controlada
  • Contar tokens
  • Procesar datos multimodales (audio, código, documentos, imágenes y video)
  • Usar llamadas a funciones automáticas y manuales
  • Ejecución de código
  • Ejemplos del modo de pensamiento

2. Antes de comenzar

Requisitos previos

Antes de comenzar, necesitarás un proyecto de Google Cloud con una cuenta de facturación válida. Selecciona el proyecto de Google Cloud que deseas usar.

Para ejecutar el codelab, usaremos Colab Enterprise, que es un entorno de notebook colaborativo y administrado con las capacidades de seguridad y cumplimiento de Google Cloud.

Habilite las API necesarias

Haz clic en el botón que aparece a continuación para habilitar las APIs necesarias para este codelab en tu proyecto de Google Cloud: Vertex AI, Dataform y Compute Engine.

Copia el notebook de Colab en Google Cloud

Haz clic en el botón que aparece a continuación para abrir el notebook del instructivo en Colab Enterprise. Se creará una copia del notebook de Colab en tu proyecto actual de Google Cloud, lo que te permitirá ejecutar el notebook.

¡Comencemos!

3. Inicializa el entorno

Ahora que creamos el notebook de Colab, podemos ejecutar el código que se proporciona en él. En los primeros pasos, se instalarán las dependencias y se importarán las bibliotecas necesarias.

Ejecuta los pasos de la sección Introducción

Primero, ejecuta las celdas de la sección Introducción una tras otra.

Celdas de código en la sección de primeros pasos

Nota: Para ejecutar una celda, mantén el puntero del mouse sobre la celda de código que deseas ejecutar y, luego, haz clic en el ícono Ícono de ejecutar celda Ejecutar celda.

Ejecuta la celda

Al final de esta sección, habrás hecho lo siguiente:

  • Instalar el SDK de IA generativa de Google para Python
  • Importar las bibliotecas necesarias para el lab
  • Configurar un proyecto de Google Cloud para usar Vertex AI

Ahora usemos Gemini 2.5 Pro para generar texto

4. Genera texto con Gemini

En esta sección del notebook, usarás Gemini 2.5 Pro para generar finalizaciones de texto.

Continúa y ejecuta el siguiente conjunto de celdas en el notebook, y tómate el tiempo para leer el código y comprender cómo usar el SDK de IA generativa de Google.

Genera texto a partir de instrucciones de texto

Al final de esta sección, habrás aprendido lo siguiente:

  • Cómo especificar el modelo que se usará
  • Generación de resultados de transmisión frente a no transmisión
  • Uso de la capacidad de chat de varios turnos del SDK
  • Llamar al SDK de forma asíncrona
  • Configurar los parámetros del modelo
  • Establecer instrucciones del sistema para personalizar el comportamiento del modelo
  • Configurar filtros de seguridad de contenido

A continuación, veremos cómo enviar instrucciones multimodales a Gemini

5. Instrucciones multimodales

En esta sección del notebook, usarás Gemini 2.5 Pro para procesar imágenes y videos.

Continúa y ejecuta las siguientes celdas en el notebook. Celdas de código para instrucciones multimodales

Al final de esta sección, habrás aprendido lo siguiente:

  • Enviar una instrucción que consta de una imagen y texto
  • Procesar un video desde una URL

A continuación, generaremos resultados bien definidos y estructurados

6. Resultados estructurados

Cuando se usa la respuesta de los modelos en el código, es importante que obtengamos resultados coherentes y confiables del modelo. La generación controlada te permite definir un esquema de respuesta para especificar la estructura del resultado de un modelo, los nombres de los campos y el tipo de datos esperado para cada campo.

Continúa y ejecuta las siguientes celdas en el notebook. Celdas de código para un resultado controlado

A continuación, veremos cómo fundamentar los resultados de los modelos

7. Fundamentos

Si deseas usar bases de conocimiento existentes o proporcionar información en tiempo real al modelo, debes consultar la fundamentación de los resultados del modelo.

Con Gemini y Vertex AI, puedes fundamentar el resultado en la Búsqueda de Google, en el resultado de las respuestas de las funciones y, por último, en el código en sí. La ejecución de código permite que el modelo genere código y lo ejecute, lo que permite aprender de los resultados y realizar iteraciones para obtener el resultado final.

Continúa y ejecuta las siguientes celdas en el notebook. Celdas de código para probar la fundamentación

A continuación, veremos las capacidades de pensamiento de Gemini 2.5 Pro

8. Pensando

El modo de pensamiento es especialmente útil para tareas complejas que requieren varias rondas de planificación y solución iterativa. Los modelos Gemini 2.5 son modelos de razonamiento capaces de reflexionar antes de responder, lo que contribuye a mejorar el rendimiento y la precisión.

Continúa y ejecuta las siguientes celdas en el notebook. Cuando lo hagas, observa el resultado de pensamiento antes de que el modelo presente su resultado real. Celdas de código para mostrar el resultado de Thinking

9. Conclusión

¡Felicitaciones! Aprendiste a aprovechar la potencia de Gemini 2.5 Pro con el SDK de IA generativa de Google para Python, que abarca la generación de texto, la multimodalidad, la fundamentación, los resultados estructurados y sus capacidades de pensamiento avanzadas. Ahora tienes el conocimiento fundamental para comenzar a compilar tus propias aplicaciones innovadoras con el SDK. Gemini 2.5 Pro, con su potente modo de pensamiento y razonamiento, abre nuevas posibilidades y se presta a la innovación en varios casos de uso.

Referencias adicionales

¿Qué te pareció este codelab?

Great Average Could be better