1. Introducción
Uno de los componentes principales de Apache Spark es Spark ML, una biblioteca para compilar modelos y canalizaciones de aprendizaje automático basados en el motor de Apache Spark. Desde el sitio web, contiene herramientas como las siguientes:
- Algoritmos de AA: Algoritmos de aprendizaje comunes, como clasificación, regresión, agrupamiento en clústeres y filtrado colaborativo
- Featurización: Extracción, transformación, reducción de dimensiones y selección de atributos
- Canalizaciones: Herramientas para construir, evaluar y ajustar canalizaciones de AA
- Persistencia: cómo guardar y cargar algoritmos, modelos y canalizaciones
- Utilidades: álgebra lineal, estadísticas, procesamiento de datos, etcétera
En este codelab, aprenderás a crear un modelo de AA de Spark con un notebook.
2. Habilita las APIs
Para este codelab, debes habilitar las siguientes APIs:
Haz clic en este vínculo para habilitar estas APIs en tu proyecto. Cuando se te solicite, confirma que las APIs se habilitarán en el proyecto correcto.
3. Crea una instancia de Vertex AI Workbench y conéctate a ella
En esta sección, crearás una instancia de Vertex AI Workbench. Luego, te conectarás a él, clonarás un repositorio de GitHub y ejecutarás un notebook.
Para crear la instancia de Vertex AI Workbench, puedes seguir las instrucciones o los pasos que se indican a continuación.
- Ve a la página de la consola de Notebooks administrados.
- Haz clic en NUEVO NOTEBOOK.
- Proporciona un nombre y elige una región, como us-central1 (Iowa). Lo ideal es que coincida con la región que seleccionaste anteriormente en el codelab, aunque no es obligatorio.
- En Permiso, selecciona Solo usuario único.
- Abre el menú desplegable Configuración avanzada.
- En Seguridad, selecciona Habilitar nbconvert y Habilitar terminal.
- Haga clic en CREAR.
La instancia debería aprovisionarse en unos cinco minutos. Verás una marca de verificación verde junto al nombre del notebook cuando la instancia esté lista.
Cuando la instancia esté lista, haz clic en ABRIR JUPYTERLAB. Autentícate cuando se te solicite y habilita todos los permisos.
4. Compila modelos con Spark ML desde un notebook
Después de que se cargue la instancia de JupyterLab, estarás en la pestaña Launcher. En esta pestaña, en Other, haz clic en Terminal para abrir una terminal nueva.
En la terminal, clona el repositorio de Vertex AI Samples.
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
En la pestaña File Browser, navega a vertex-ai-samples/notebooks/official/workbench/spark. Haz doble clic en el notebook spark_ml.ipynb para abrirlo. Cuando se te solicite que selecciones un kernel, elige Python (local).
Ejecuta cada celda a medida que avanzas por los pasos del notebook. Sigue las instrucciones que se indican en las celdas.
5. Limpia los recursos
Para evitar que se generen cargos innecesarios en tu cuenta de GCP después de completar este codelab, haz lo siguiente:
- Borra tu instancia de Workbench. En la consola, marca la casilla junto a tu instancia y haz clic en BORRAR.
Si creaste un proyecto solo para este codelab, también puedes borrarlo de forma opcional:
- En GCP Console, ve a la página Proyectos.
- En la lista de proyectos, selecciona el que deseas borrar y haz clic en Borrar.
- En el cuadro, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrarlo.