Créer des modèles Spark ML avec Google Dataproc

1. Introduction

Spark ML est l'un des composants essentiels d'Apache Spark. Il s'agit d'une bibliothèque permettant de créer des modèles et des pipelines de machine learning basés sur le moteur Apache Spark. Sur le site Web, vous trouverez des outils tels que :

  • Algorithmes de ML : algorithmes d'apprentissage courants tels que la classification, la régression, le clustering et le filtrage collaboratif
  • Caractérisation : extraction, transformation, réduction et sélection de caractéristiques
  • Pipelines : outils permettant de construire, d'évaluer et d'ajuster les pipelines de ML
  • Persistance : enregistrer et charger des algorithmes, des modèles et des pipelines
  • Utilitaires : algèbre linéaire, statistiques, gestion des données, etc.

Dans cet atelier de programmation, vous allez apprendre à créer un modèle Spark ML à l'aide d'un notebook.

2. Activer les API

Pour cet atelier de programmation, vous devez activer les API suivantes :

Cliquez sur ce lien pour activer ces API dans votre projet. Lorsque vous y êtes invité, confirmez que les API seront activées dans le bon projet.

3. Créer une instance Vertex AI Workbench et s'y connecter

Dans cette section, vous allez créer une instance Vertex AI Workbench. Vous vous y connecterez ensuite, clonerez un dépôt GitHub et exécuterez un notebook.

Pour créer l'instance Vertex AI Workbench, vous pouvez suivre les instructions ou les étapes ci-dessous.

  1. Accédez à la page de la console "Notebooks gérés".
  2. Cliquez sur NOUVEAU NOTEBOOK.
  3. Donnez-lui un nom et choisissez une région, par exemple us-central1 (Iowa). Idéalement, elle doit correspondre à la région sélectionnée précédemment dans l'atelier de programmation, mais ce n'est pas obligatoire.
  4. Sous Autorisation, sélectionnez Un seul utilisateur.
  5. Ouvrez le menu déroulant Paramètres avancés.
  6. Sous Sécurité, sélectionnez Activer nbconvert et Activer le terminal.
  7. Cliquez sur CRÉER.

L'instance devrait être provisionnée en cinq minutes environ. Une coche verte s'affiche à côté du nom du notebook lorsque l'instance est prête.

Lorsque l'instance est prête, cliquez sur OUVRIR JUPYTERLAB. Authentifiez-vous lorsque vous y êtes invité et activez toutes les autorisations.

4. Créer des modèles avec Spark ML à partir d'un notebook

Une fois l'instance JupyterLab chargée, vous vous trouvez dans l'onglet Launcher (Lanceur d'applications). Dans cet onglet, sous Other (Autre), cliquez sur Terminal pour ouvrir un nouveau terminal.

Dans le terminal, clonez le dépôt Exemples Vertex AI.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

Dans l'onglet Explorateur de fichiers, accédez à vertex-ai-samples/notebooks/official/workbench/spark. Ouvrez le notebook spark_ml.ipynb en double-cliquant dessus. Lorsque vous êtes invité à sélectionner un kernel, sélectionnez Python (local).

Parcourez les étapes du notebook en exécutant chaque cellule au fur et à mesure. Suivez les instructions des cellules.

5. Effectuer un nettoyage des ressources

Pour éviter que des frais inutiles ne soient facturés sur votre compte GCP une fois cet atelier de programmation terminé :

  1. Supprimez votre instance Workbench. Dans la console, cochez la case à côté de votre instance, puis cliquez sur SUPPRIMER.

Si vous avez créé un projet spécifiquement pour cet atelier de programmation, vous pouvez également le supprimer :

  1. Dans la console GCP, accédez à la page Projets.
  2. Dans la liste des projets, sélectionnez celui que vous souhaitez supprimer, puis cliquez sur "Supprimer".
  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur "Arrêter" pour supprimer le projet.