Creazione di modelli Spark ML con Google Dataproc

1. Introduzione

Uno dei componenti principali di Apache Spark è Spark ML, una libreria per la creazione di modelli e pipeline di machine learning basati sul motore Apache Spark. Dal sito web, contiene strumenti come:

  • Algoritmi ML: algoritmi di apprendimento comuni come classificazione, regressione, clustering e filtro collaborativo
  • Featurizzazione: estrazione, trasformazione, riduzione della dimensionalità e selezione delle caratteristiche
  • Pipeline: strumenti per costruire, valutare e ottimizzare le pipeline ML
  • Persistenza: salvataggio e caricamento di algoritmi, modelli e pipeline
  • Utilità: algebra lineare, statistica, gestione dei dati e così via.

In questo codelab imparerai a creare un modello Spark ML utilizzando un notebook.

2. Abilita API

Per questo codelab, devi abilitare le seguenti API:

Fai clic su questo link per abilitare queste API nel tuo progetto. Quando richiesto, conferma che le API verranno abilitate nel progetto corretto.

3. Crea e connettiti a un'istanza di Vertex AI Workbench

In questa sezione creerai un'istanza di Vertex AI Workbench. A questo punto, ti connetterai, clonerai un repository GitHub ed eseguirai un notebook.

Per creare l'istanza Vertex AI Workbench, puoi seguire le istruzioni o quelle riportate di seguito.

  1. Vai alla pagina della console Notebook gestiti.
  2. Fai clic su NUOVO BLOCCO NOTE.
  3. Fornisci un nome e scegli una regione, ad esempio us-central1 (Iowa). Idealmente, dovrebbe corrispondere alla regione selezionata in precedenza nel codelab, anche se non è obbligatorio.
  4. In Autorizzazione seleziona Solo singolo utente.
  5. Apri il menu a discesa Impostazioni avanzate.
  6. Nella sezione Sicurezza, seleziona Abilita nbconvert e Abilita terminale.
  7. Fai clic su CREA.

Il provisioning dell'istanza dovrebbe essere eseguito entro circa cinque minuti. Quando l'istanza è pronta, vedrai un segno di spunta verde accanto al nome del notebook.

Quando l'istanza è pronta, fai clic su APRI JUPYTERLAB. Esegui l'autenticazione quando ti viene richiesto e attiva tutte le autorizzazioni.

4. Crea modelli con Spark ML da un notebook

Dopo il caricamento dell'istanza JupyterLab, ti trovi nella scheda Avvio app. In questa scheda, fai clic su Terminale in Altro per aprire un nuovo terminale.

Nel terminale, clona il repository Vertex AI Samples.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

Nella scheda Browser di file, vai a vertex-ai-samples/notebooks/official/workbench/spark. Apri il blocco note spark_ml.ipynb facendo doppio clic. Quando ti viene chiesto di selezionare un kernel, scegli Python (locale).

Segui i passaggi del notebook eseguendo ogni cella man mano. Segui le istruzioni nelle celle.

5. Esegui la pulizia delle risorse

Per evitare che al tuo account GCP vengano addebitati costi inutili dopo il completamento di questo codelab:

  1. Elimina l'istanza Workbench. Dalla console, seleziona la casella accanto all'istanza e fai clic su ELIMINA.

Se hai creato un progetto solo per questo codelab, puoi anche eliminarlo facoltativamente:

  1. Nella console di GCP, vai alla pagina Progetti.
  2. Nell'elenco dei progetti, seleziona quello da eliminare e fai clic su Elimina.
  3. Nella casella, digita l'ID progetto, quindi fai clic su Chiudi per eliminare il progetto.