Créer des modèles Spark ML avec Google Dataproc

1. Introduction

Spark ML est l'un des composants principaux d'Apache Spark. Il s'agit d'une bibliothèque permettant de créer des modèles et des pipelines de machine learning à partir du moteur Apache Spark. À partir du site Web, il contient des outils tels que:

  • Algorithmes de ML: algorithmes d'apprentissage courants, tels que la classification, la régression, le clustering et le filtrage collaboratif
  • Featurization: extraction de caractéristiques, transformation, réduction de la dimensionnalité et sélection
  • Pipelines: outils de construction, d'évaluation et de réglage des pipelines de ML
  • Persistance: enregistrement et chargement des algorithmes, des modèles et des pipelines
  • Utilitaires: algèbre linéaire, statistiques, traitement des données, etc.

Dans cet atelier de programmation, vous allez apprendre à créer un modèle Spark ML à l'aide d'un notebook.

2. Activer les API

Pour cet atelier de programmation, vous devez activer les API suivantes:

Cliquez sur ce lien pour activer ces API dans votre projet. Lorsque vous y êtes invité, vérifiez que les API seront activées dans le bon projet.

3. Créer une instance Vertex AI Workbench et s'y connecter

Dans cette section, vous allez créer une instance Vertex AI Workbench. Vous vous connecterez ensuite à celui-ci, clonerez un dépôt GitHub et exécuterez un notebook.

Pour créer l'instance Vertex AI Workbench, vous pouvez suivre les instructions ou les étapes ci-dessous.

  1. Accédez à la page des notebooks gérés de la console.
  2. Cliquez sur NOUVEAU NOTEBOOK.
  3. Indiquez un nom et choisissez une région, telle que us-central1 (Iowa). Dans l'idéal, elle doit correspondre à la région sélectionnée plus tôt dans l'atelier de programmation, bien que ce ne soit pas obligatoire.
  4. Sous Autorisation, sélectionnez Un seul utilisateur.
  5. Ouvrez le menu déroulant Paramètres avancés.
  6. Sous Sécurité, sélectionnez Activer nbconvert et Activer le terminal.
  7. Cliquez sur CRÉER.

L'instance doit être provisionnée en cinq minutes environ. Une coche verte apparaît à côté de Nom du notebook lorsque l'instance est prête.

Lorsque l'instance est prête, cliquez sur OUVRIR JUPYTERLAB. Authentifiez-vous lorsque vous y êtes invité(e) et activez toutes les autorisations.

4. Créer des modèles avec Spark ML à partir d'un notebook

Une fois l'instance JupyterLab chargée, l'onglet Launcher (Lanceur d'applications) s'affiche. Dans cet onglet, sous Autre, cliquez sur Terminal pour ouvrir un nouveau terminal.

Dans le terminal, clonez le dépôt d'exemples Vertex AI.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

Dans l'onglet File Browser (Navigateur de fichiers), accédez à vertex-ai-samples/notebooks/Official/workbench/spark. Ouvrez le notebook spark_ml.ipynb en double-cliquant dessus. Lorsque vous êtes invité à sélectionner un noyau, choisissez Python (local).

Suivez les étapes du notebook en exécutant chaque cellule au fur et à mesure. Suivez les instructions qui figurent dans les cellules.

5. Effectuer un nettoyage des ressources

Pour éviter que des frais inutiles ne soient facturés sur votre compte GCP à la fin de cet atelier de programmation:

  1. Supprimez votre instance Workbench. Dans la console, cochez la case située à côté de votre instance, puis cliquez sur SUPPRIMER.

Si vous avez créé un projet uniquement pour cet atelier de programmation, vous pouvez également le supprimer si vous le souhaitez:

  1. Dans la console GCP, accédez à la page Projets.
  2. Dans la liste des projets, sélectionnez celui que vous souhaitez supprimer, puis cliquez sur "Supprimer".
  3. Dans la zone prévue à cet effet, saisissez l'ID du projet, puis cliquez sur "Arrêter" pour supprimer le projet.