Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

De notebooks a canalizaciones de Kubeflow con MiniKF y Kale

1. Introducción

Kubeflow es un kit de herramientas de aprendizaje automático para Kubernetes. El objetivo de este proyecto es que las implementaciones de flujos de trabajo de aprendizaje automático (AA) en Kubernetes sean simples, portátiles y escalables. El objetivo es proporcionar una forma directa de implementar sistemas de código abierto de primer nivel para AA en diversas infraestructuras.

¿Cómo se ve una implementación de Kubeflow?

Una implementación de Kubeflow tiene las siguientes características:

Portátil: Funciona en cualquier clúster de Kubernetes, ya sea que resida en Google Cloud Platform (GCP), de manera local o entre distintos proveedores.
Escalable: Puede utilizar recursos que fluctúan y se ve limitada solo por la cantidad de recursos asignados al clúster de Kubernetes.
Acoplable: Mejorada con service workers para funcionar sin conexión o en redes de baja calidad.

Es una forma de organizar microservicios vinculados de manera flexible como una sola unidad y, además, implementarlos en distintas ubicaciones, ya sea en una laptop o en la nube.

En este codelab, aprenderás a crear tu propia implementación de Kubeflow con MiniKF y a ejecutar un flujo de trabajo de Kubeflow Pipelines desde un notebook de Jupyter.

Qué compilarás

En este codelab, compilarás una canalización de ciencia de datos compleja con Kubeflow Pipelines, sin usar ningún comando de CLI ni SDK. No necesitas tener conocimientos sobre Kubernetes ni Docker. Cuando termine, su infraestructura contendrá lo siguiente:

Una VM de MiniKF (Mini Kubeflow) que se instala automáticamente:
Kubernetes (con Minikube)
Kubeflow
Kale, una herramienta para convertir notebooks de Jupyter de uso general en flujos de trabajo de Kubeflow Pipelines ( GitHub)
Arrikto Rok para el control de versiones y la reproducibilidad de los datos

Qué aprenderás

Cómo instalar Kubeflow con MiniKF
Cómo convertir tus notebooks de Jupyter a Kubeflow Pipelines sin usar comandos de la CLI ni SDKs
Cómo ejecutar Kubeflow Pipelines desde un notebook con un solo clic
Cómo versionar automáticamente tus datos en un notebook y en cada paso de la canalización

Requisitos

Un proyecto de GCP activo para el que tienes permisos de propietario

Este es un codelab avanzado que se enfoca en Kubeflow. Para obtener más información y una introducción a la plataforma, consulta la documentación de Introducción a Kubeflow. Los conceptos y los bloques de código no relevantes se pasan por alto y se proporcionan para que simplemente los copies y pegues.

2. Configura el entorno

Configura el ID del proyecto de GCP y el nombre del clúster

Para encontrar el ID de tu proyecto, visita el panel principal de GCP Console, que se encuentra en el menú de hamburguesa en la parte superior izquierda. Si la pantalla está vacía, haz clic en Sí en el mensaje para crear un panel.

Abre GCP Console.

Si el proyecto aún no está seleccionado, haz clic en Seleccionar un proyecto:

Selecciona tu proyecto. Solo debes tener uno:

3. Instala MiniKF

Crea una instancia de Compute

En GCP Marketplace, busca "MiniKF".

Selecciona la máquina virtual MiniKF de Arrikto.

Haz clic en el botón Iniciar en Compute Engine y selecciona tu proyecto.

En la ventana Configure & Deploy, elige un nombre para tu instancia de MiniKF y deja las opciones predeterminadas. Luego, haz clic en el botón Implementar.

Espera a que se inicie la instancia de procesamiento de MiniKF.

Accede a MiniKF

Cuando la VM de MiniKF esté en funcionamiento, haz clic en el botón SSH para conectarte y acceder. Sigue las instrucciones en pantalla para ejecutar el comando minikf, que iniciará la implementación de Minikube, Kubeflow y Rok. Este proceso tardará unos minutos en completarse.

Accede a Kubeflow

Una vez que se complete la instalación y todos los Pods estén listos, visita el panel de MiniKF. Accede a Kubeflow con el nombre de usuario y la contraseña de MiniKF.

Los usuarios de Chrome verán esta pantalla:

Los usuarios de Firefox verán esta pantalla:

Los usuarios de Safari verán esta pantalla:

Accede a Rok

Después de acceder a Kubeflow, haz clic en el ícono de hamburguesa para abrir el menú de la izquierda. Navega a Snapshot Store y accede a Rok con el nombre de usuario y la contraseña de MiniKF.

¡Felicitaciones! Implementaste correctamente MiniKF en GCP. Ahora puedes crear notebooks, escribir tu código de AA y ejecutar Kubeflow Pipelines. Usa Rok para el control de versiones y la reproducibilidad de los datos.

4. Ejecuta una canalización desde tu notebook

En esta sección, ejecutarás el ejemplo del Titanic, una competencia de Kaggle que predice qué pasajeros sobrevivieron al naufragio del Titanic.

Crea un servidor de Notebook

Navega al vínculo Notebook Servers en el panel central de Kubeflow.

Haz clic en New Server.

Especifica un nombre para tu servidor de Notebook.

Asegúrate de haber seleccionado esta imagen:

gcr.io/arrikto-public/tensorflow-1.14.0-notebook-cpu:kubecon-workshop

Agrega un volumen de datos nuevo y vacío de 5 GB y asígnale el nombre data.

Haz clic en Launch para crear el servidor de notebooks.

Cuando el servidor de notebook esté disponible, haz clic en Conectar para conectarte a él.

Descarga los datos y el notebook

Se abrirá una nueva pestaña con la página de destino de JupyterLab. Crea una nueva terminal en JupyterLab.

En la ventana de la terminal, ejecuta estos comandos para navegar a la carpeta data y descargar el notebook y los datos que usarás durante el resto del lab.

cd data/
git clone -b kubecon-workshop https://github.com/kubeflow-kale/examples

Este repositorio contiene una serie de ejemplos seleccionados con datos y notebooks anotados. Navega a la carpeta data/examples/titanic-ml-dataset/ en la barra lateral y abre el notebook titanic_dataset_ml.ipynb.

Explora el código de AA del desafío del Titanic

Ejecuta el notebook paso a paso. Ten en cuenta que el código falla porque falta una biblioteca.

Regresa a la terminal y, luego, instala la biblioteca faltante.

pip3 install --user seaborn

Haz clic en el ícono de Actualizar para reiniciar el kernel del notebook.

Vuelve a ejecutar la celda con las bibliotecas correctas instaladas y observa cómo se ejecuta correctamente.

Cómo convertir tu notebook en una canalización de Kubeflow

Para habilitar Kale, haz clic en el ícono de Kubeflow en el panel izquierdo.

Explora las dependencias por celda. Observa cómo varias celdas pueden formar parte de un solo paso de la canalización y cómo un paso de la canalización puede depender de pasos anteriores.

Haz clic en el botón Compile and Run.

Observa el progreso de la instantánea.

Observa el progreso de la ejecución de la canalización.

Haz clic en el vínculo para ir a la IU de Kubeflow Pipelines y ver la ejecución.

Espera a que se complete.

¡Felicitaciones! Acabas de ejecutar una canalización de Kubeflow de extremo a extremo desde tu notebook.

5. Reproducibilidad con instantáneas de volumen

Examina los resultados

Consulta los registros del penúltimo paso de la canalización Results. Observa que todos los predictores muestran una puntuación del 100%. Un científico de datos experimentado sospecharía de inmediato. Esto es un buen indicador de que nuestros modelos no se generalizan y, en cambio, se sobreajustan al conjunto de datos de entrenamiento. Es probable que esto se deba a un problema con los datos que consumen los modelos.

Cómo reproducir el estado anterior

Afortunadamente, Rok se encarga del control de versiones de los datos y de reproducir todo el entorno tal como estaba en el momento en que hiciste clic en el botón Compile and Run. De esta manera, tendrás una máquina del tiempo para tus datos y tu código. Por lo tanto, reanudemos el estado de la canalización antes de entrenar uno de los modelos y veamos qué sucede. Echa un vistazo al paso randomforest y, luego, haz clic en Artifacts.

Sigue los pasos en Markdown, es decir, haz clic en el vínculo correspondiente para ver la instantánea en la IU de Rok.

Copia la URL de Rok.

Navega al vínculo Notebook Servers.

Haz clic en New Server.

Pega la URL de Rok que copiaste anteriormente y haz clic en el botón Autocompletar.

Especifica un nombre para tu notebook.

Asegúrate de haber seleccionado esta imagen:

gcr.io/arrikto-public/tensorflow-1.14.0-notebook-cpu:kubecon-workshop

Haz clic en Launch para crear el servidor de notebooks.

Cuando el servidor de notebook esté disponible, haz clic en Conectar para conectarte a él.

Ten en cuenta que el notebook se abre en la celda exacta del paso de la canalización que generaste.

En segundo plano, Kale reanudó el estado del notebook importando todas las bibliotecas y cargando las variables de los pasos anteriores.

Depura el estado anterior

Agrega un comando de impresión a esta celda:

print(acc_random_forest)

Presiona Mayúsculas + Intro para ejecutar la celda activa, volver a entrenar el bosque aleatorio y, luego, imprimir la puntuación. Es 100.

Ahora es momento de ver si hay algo extraño en los datos de entrenamiento. Para explorar y solucionar este problema, agrega una celda sobre el lenguaje de Markdown de Random Forest. Para ello, selecciona la celda anterior y haz clic en el ícono de signo más (+).

Agrega el siguiente texto y ejecuta la celda para imprimir el conjunto de entrenamiento.

train_df

¡Uy! La columna con etiquetas de entrenamiento ("Sobrevivió") se incluyó por error como atributos de entrada. El modelo aprendió a enfocarse en el atributo "Sobrevivió" y a ignorar el resto, lo que contamina la entrada. Esta columna coincide exactamente con el objetivo del modelo y no está presente durante la predicción, por lo que debe quitarse del conjunto de datos de entrenamiento para que el modelo pueda aprender de los otros atributos.

Cómo agregar una corrección de errores

Para quitar esta columna, edita la celda para agregar este comando:

train_df.drop('Survived', axis=1, inplace=True)
train_df

Habilita Kale y asegúrate de que la celda que quita las etiquetas Survived forme parte del paso de la canalización featureengineering (debe tener el mismo color de contorno).

Vuelve a ejecutar la canalización haciendo clic en el botón Compile and Run.