1. Introducción
Uno de los componentes principales de Apache Spark es Spark ML, una biblioteca para compilar modelos y canalizaciones de aprendizaje automático basados en el motor de Apache Spark. En el sitio web, contiene herramientas como las siguientes:
- Algoritmos de AA: Algoritmos de aprendizaje comunes, como clasificación, regresión, agrupamiento en clústeres y filtrado colaborativo
- Featurization: Extracción, transformación, reducción de dimensiones y selección de atributos
- Canalizaciones: Herramientas para construir, evaluar y ajustar canalizaciones de AA
- Persistencia: Guardar y cargar algoritmos, modelos y canalizaciones
- Utilidades: Álgebra lineal, estadísticas, manejo de datos, etcétera
En este codelab, aprenderás a crear un modelo de Spark ML con un notebook.
2. Habilita las APIs
Para este codelab, debes habilitar las siguientes APIs:
Haz clic en este vínculo para habilitar estas APIs en tu proyecto. Cuando se te solicite, confirma que las APIs se habilitarán en el proyecto correcto.
3. Crea una instancia de Gemini Enterprise Agent Engine Workbench y conéctate a ella
En esta sección, crearás una instancia de Gemini Enterprise Agent Engine Workbench. Luego, te conectarás a ella, clonarás un repositorio de GitHub y ejecutarás un notebook.
Para crear la instancia de Gemini Enterprise Agent Engine Workbench, puedes seguir las instrucciones o lo que se indica a continuación.
- Ve a la página de la consola de Notebooks administrados.
- Haz clic en NOTEBOOK NUEVO.
- Proporciona un nombre y elige una región, como us-central1 (Iowa). Lo ideal es que coincida con la región seleccionada anteriormente en el codelab, aunque no es obligatorio.
- En Permiso , selecciona Solo un usuario.
- Abre el menú desplegable Configuración avanzada.
- En Seguridad , selecciona Habilitar nbconvert y Habilitar terminal.
- Haz clic en CREAR.
La instancia debería aprovisionarse en unos cinco minutos. Verás una marca de verificación verde junto al Nombre del notebook cuando la instancia esté lista.
Cuando la instancia esté lista, haz clic en ABRIR JUPYTERLAB. Autentícate cuando se te solicite y habilita todos los permisos.
4. Compila modelos con Spark ML desde un notebook
Después de que se cargue la instancia de JupyterLab, estarás en la pestaña Launcher. En esta pestaña, en Other , haz clic en Terminal para abrir una terminal nueva.
En la terminal, clona el repositorio de muestras de Gemini Enterprise Agent Engine.
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
En la pestaña File Browser, navega a vertex-ai-samples/notebooks/official/workbench/spark. Haz doble clic en el notebook spark_ml.ipynb para abrirlo. Cuando se te solicite seleccionar un kernel, selecciona Python (local).
Sigue los pasos del notebook ejecutando cada celda a medida que avanzas. Sigue las instrucciones de las celdas.
5. Limpia los recursos
Para evitar que se generen cargos innecesarios en tu cuenta de GCP después de completar este codelab, haz lo siguiente:
- Borra tu instancia de Workbench. En la consola, marca la casilla junto a tu instancia y haz clic en BORRAR.
Si creaste un proyecto solo para este codelab, también puedes borrarlo de forma opcional:
- En GCP Console, ve a la página Proyectos.
- En la lista de proyectos, elige el proyecto que deseas borrar y haz clic en Borrar.
- En el cuadro, escribe el ID del proyecto y haz clic en Cerrar para borrar el proyecto.