Creazione di modelli Spark ML con Google Dataproc

1. Introduzione

Uno dei componenti principali di Apache Spark è Spark ML, una libreria per la creazione di pipeline e modelli di machine learning basati sul motore Apache Spark. Il sito web contiene strumenti come:

  • Algoritmi ML: algoritmi di apprendimento comuni, come classificazione, regressione, clustering e filtro collaborativo
  • Funzionalità: estrazione delle caratteristiche, trasformazione, riduzione della dimensionalità e selezione
  • Pipeline: strumenti per costruire, valutare e ottimizzare le pipeline ML
  • Persistenza: salvataggio e caricamento di algoritmi, modelli e pipeline
  • Utilità: algebra lineare, statistica, gestione dati e così via.

In questo codelab imparerai a creare un modello Spark ML utilizzando un blocco note.

2. Abilita API

Per questo codelab, devi abilitare le seguenti API:

Fai clic su questo link per abilitare queste API nel tuo progetto. Quando richiesto, conferma che le API saranno abilitate nel progetto corretto.

3. Crea e connettiti a un'istanza di Vertex AI Workbench

In questa sezione creerai un'istanza di Vertex AI Workbench. Poi ti connetterai al progetto, clonerai un repository GitHub ed eseguirai un blocco note.

Per creare l'istanza di Vertex AI Workbench, segui le istruzioni o segui le istruzioni riportate di seguito.

  1. Vai alla pagina della console Blocchi note gestiti.
  2. Fai clic su NUOVO Blocco note.
  3. Fornisci un nome e scegli un'area geografica, ad esempio us-central1 (Iowa). Idealmente, dovrebbe corrispondere alla regione selezionata in precedenza nel codelab, anche se non è obbligatorio.
  4. In Autorizzazione seleziona Solo utente.
  5. Apri il menu a discesa Impostazioni avanzate.
  6. In Sicurezza, seleziona Attiva nbconvert e Attiva terminale.
  7. Fai clic su CREA.

Il provisioning dell'istanza dovrebbe essere eseguito entro circa cinque minuti. Quando l'istanza sarà pronta, vedrai un segno di spunta verde accanto a Nome blocco note.

Quando l'istanza è pronta, fai clic su APRI JUPYTERLAB. Esegui l'autenticazione quando richiesto e abilita tutte le autorizzazioni.

4. Creare modelli con Spark ML da un blocco note

Dopo il caricamento dell'istanza JupyterLab, ti troverai nella scheda Avvio app. In questa scheda, sotto Altro, fai clic su Terminale per aprire un nuovo terminale.

Nel terminale, clona il repository Vertex AI Samples.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

Nella scheda Browser file, vai a vertex-ai-samples/notebooks/Official/workbench/spark. Fai doppio clic sul blocco note spark_ml.ipynb per aprirlo. Quando ti viene chiesto di selezionare un kernel, seleziona Python (locale).

Segui i passaggi del blocco note eseguendo ogni cella man mano che procedi. Segui le istruzioni nelle celle.

5. Esegui la pulizia delle risorse

Per evitare che al tuo account Google Cloud vengano addebitati inutilmente addebiti dopo il completamento di questo codelab:

  1. Elimina l'istanza Workbench. Nella console, seleziona la casella accanto all'istanza e fai clic su ELIMINA.

Se hai creato un progetto solo per questo codelab, puoi anche eliminarlo:

  1. Nella console Google Cloud, vai alla pagina Progetti.
  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare e fai clic su Elimina.
  3. Nella casella, digita l'ID progetto, quindi fai clic su Chiudi per eliminare il progetto.