Spark-ML-Modelle mit Google Dataproc erstellen

1. Einführung

Eine der Kernkomponenten von Apache Spark ist Spark ML, eine Bibliothek zum Erstellen von Modellen und Pipelines für maschinelles Lernen, die auf der Apache Spark-Engine aufbauen. Auf der Website finden Sie unter anderem folgende Tools:

  • ML-Algorithmen: gängige Lernalgorithmen wie Klassifizierung, Regression, Clustering und kollaboratives Filtern
  • Featurisierung: Feature-Extraktion, ‑Transformation, ‑Reduzierung und ‑Auswahl
  • Pipelines: Tools zum Erstellen, Bewerten und Optimieren von ML-Pipelines
  • Persistenz: Algorithmen, Modelle und Pipelines speichern und laden
  • Dienstprogramme: lineare Algebra, Statistik, Datenverarbeitung usw.

In diesem Codelab erfahren Sie, wie Sie ein Spark ML-Modell mit einem Notebook erstellen.

2. APIs aktivieren

Für dieses Codelab müssen Sie die folgenden APIs aktivieren:

Klicken Sie auf diesen Link, um diese APIs in Ihrem Projekt zu aktivieren. Bestätigen Sie bei Aufforderung, dass die APIs im richtigen Projekt aktiviert werden.

3. Vertex AI Workbench-Instanz erstellen und eine Verbindung herstellen

In diesem Abschnitt erstellen Sie eine Vertex AI Workbench-Instanz. Anschließend stellen Sie eine Verbindung her, klonen ein GitHub-Repository und führen ein Notebook aus.

Sie können die Vertex AI Workbench-Instanz anhand der Anleitung oder der folgenden Schritte erstellen.

  1. Rufen Sie die Konsolenseite „Verwaltete Notebooks“ auf.
  2. Klicken Sie auf NEUES NOTEBOOK.
  3. Geben Sie einen Namen ein und wählen Sie eine Region wie us-central1 (Iowa) aus. Diese sollte idealerweise mit der Region übereinstimmen, die Sie zuvor im Codelab ausgewählt haben. Das ist jedoch nicht zwingend erforderlich.
  4. Wählen Sie unter Berechtigung die Option Nur einzelner Nutzer aus.
  5. Öffnen Sie das Drop-down-Menü Erweiterte Einstellungen.
  6. Wählen Sie unter Sicherheit die Optionen nbconvert aktivieren und Terminal aktivieren aus.
  7. Klicken Sie auf ERSTELLEN.

Die Instanz sollte innerhalb von etwa fünf Minuten bereitgestellt werden. Wenn die Instanz bereit ist, wird neben dem Notebook-Namen ein grünes Häkchen angezeigt.

Wenn die Instanz bereit ist, klicken Sie auf JUPYTERLAB ÖFFNEN. Authentifizieren Sie sich, wenn Sie dazu aufgefordert werden, und aktivieren Sie alle Berechtigungen.

4. Modelle mit Spark ML aus einem Notebook erstellen

Nachdem die JupyterLab-Instanz geladen wurde, befinden Sie sich auf dem Tab Launcher. Klicken Sie auf diesem Tab unter Other (Andere) auf Terminal, um ein neues Terminal zu öffnen.

Klonen Sie im Terminal das Repository Vertex AI Samples.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

Rufen Sie auf dem Tab Dateibrowser vertex-ai-samples/notebooks/official/workbench/spark auf. Öffnen Sie das Notebook spark_ml.ipynb per Doppelklick. Wenn Sie aufgefordert werden, einen Kernel auszuwählen, wählen Sie Python (lokal) aus.

Führen Sie die einzelnen Zellen des Notebooks nacheinander aus. Folgen Sie dabei der Anleitung in den Zellen.

5. Ressourcen bereinigen

So vermeiden Sie unnötige Gebühren für Ihr GCP-Konto nach Abschluss dieses Codelabs:

  1. Löschen Sie Ihre Workbench-Instanz. Klicken Sie in der Konsole auf das Kästchen neben Ihrer Instanz und dann auf LÖSCHEN.

Wenn Sie ein Projekt nur für dieses Codelab erstellt haben, können Sie es optional auch löschen:

  1. Rufen Sie in der GCP Console die Seite Projekte auf.
  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie auf „Löschen“.
  3. Geben Sie im Feld die Projekt-ID ein und klicken Sie auf „Beenden“, um das Projekt zu löschen.