Spark-ML-Modelle mit Google Dataproc erstellen

1. Einführung

Eine der Kernkomponenten von Apache Spark ist Spark ML, eine Bibliothek zum Erstellen von Modellen und Pipelines für maschinelles Lernen, die auf der Apache Spark-Engine basiert. Auf der Website sind folgende Tools verfügbar:

  • ML-Algorithmen: gängige Lernalgorithmen wie Klassifizierung, Regression, Clustering und kollaboratives Filtern
  • Featurization: Feature-Extraktion, -Transformation, Dimensionsreduktion und -Auswahl
  • Pipelines: Tools zum Erstellen, Bewerten und Optimieren von ML-Pipelines
  • Persistenz: Algorithmen, Modelle und Pipelines speichern und laden
  • Dienstprogramme: lineare Algebra, Statistik, Datenverarbeitung usw.

In diesem Codelab erfahren Sie, wie Sie ein Spark ML-Modell mit einem Notebook erstellen.

2. APIs aktivieren

Für dieses Codelab müssen Sie die folgenden APIs aktivieren:

Klicken Sie auf diesen Link, um diese APIs in Ihrem Projekt zu aktivieren. Bestätigen Sie bei entsprechender Aufforderung, dass die APIs im richtigen Projekt aktiviert werden.

3. Vertex AI Workbench-Instanz erstellen und verbinden

In diesem Abschnitt erstellen Sie eine Vertex AI Workbench-Instanz. Anschließend verbinden Sie sich damit, klonen ein GitHub-Repository und führen ein Notebook aus.

Sie können die Vertex AI Workbench-Instanz erstellen, indem Sie der Anleitung folgen oder die Schritte unten ausführen.

  1. Rufen Sie die Seite „Verwaltete Notebooks“ in der Console auf.
  2. Klicken Sie auf NEUES NOTEBOOK.
  3. Geben Sie einen Namen an und wählen Sie eine Region wie us-central1 (Iowa) aus. Diese Region sollte idealerweise mit der Region übereinstimmen, die Sie zuvor im Codelab ausgewählt haben. Das ist aber nicht zwingend erforderlich.
  4. Wählen Sie unter Berechtigung die Option Nur ein Nutzer aus.
  5. Öffnen Sie das Drop-down-Menü Erweiterte Einstellungen.
  6. Wählen Sie unter Sicherheit die Optionen nbconvert aktivieren und Terminal aktivieren aus.
  7. Klicken Sie auf ERSTELLEN.

Die Instanz sollte innerhalb von etwa fünf Minuten bereitgestellt werden. Wenn die Instanz bereit ist, wird neben dem Notebook-Namen ein grünes Häkchen angezeigt.

Klicken Sie auf JUPYTERLAB ÖFFNEN. Authentifizieren Sie sich bei entsprechender Aufforderung und aktivieren Sie alle Berechtigungen.

4. Modelle mit Spark ML aus einem Notebook erstellen

Nachdem die JupyterLab-Instanz geladen wurde, befinden Sie sich auf dem Tab Launcher. Klicken Sie auf diesem Tab unter Sonstiges auf Terminal, um ein neues Terminal zu öffnen.

Klonen Sie im Terminal das Vertex AI-Beispiel-Repository.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

Rufen Sie auf dem Tab Dateibrowser die Seite vertex-ai-samples/notebooks/official/workbench/spark auf. Öffnen Sie das Notebook spark_ml.ipynb per Doppelklick. Wählen Sie bei entsprechender Aufforderung den Kernel Python (lokal) aus.

Führen Sie die Schritte im Notebook aus, indem Sie jede Zelle ausführen. Folgen Sie dabei der Anleitung in den Zellen.

5. Ressourcen bereinigen

So vermeiden Sie unnötige Kosten für Ihr GCP-Konto nach Abschluss dieses Codelabs:

  1. Löschen Sie Ihre Workbench-Instanz. Aktivieren Sie in der Console das Kästchen neben der Instanz und klicken Sie auf LÖSCHEN.

Wenn Sie ein Projekt nur für dieses Codelab erstellt haben, können Sie es optional auch löschen:

  1. Rufen Sie in der GCP Console die Seite Projekte auf.
  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie auf „Löschen“.
  3. Geben Sie im Feld die Projekt-ID ein und klicken Sie auf „Herunterfahren“, um das Projekt zu löschen.