1. Einführung
Eine der Kernkomponenten von Apache Spark ist Spark ML, eine Bibliothek zum Erstellen von Modellen und Pipelines für maschinelles Lernen, die auf der Apache Spark-Engine basieren. Auf der Website finden Sie unter anderem folgende Tools:
- ML-Algorithmen: gängige Lernalgorithmen wie Klassifizierung, Regression, Clustering und kollaboratives Filtern
- Featurisierung: Feature-Extraktion, ‑Transformation, ‑Reduzierung und ‑Auswahl
- Pipelines: Tools zum Erstellen, Bewerten und Optimieren von ML-Pipelines
- Persistenz: Algorithmen, Modelle und Pipelines speichern und laden
- Dienstprogramme: lineare Algebra, Statistik, Datenverarbeitung usw.
In diesem Codelab erfahren Sie, wie Sie ein Spark ML-Modell mit einem Notebook erstellen.
2. APIs aktivieren
Für dieses Codelab müssen Sie die folgenden APIs aktivieren:
Klicken Sie auf diesen Link, um diese APIs in Ihrem Projekt zu aktivieren. Bestätigen Sie bei Aufforderung, dass die APIs im richtigen Projekt aktiviert werden.
3. Gemini Enterprise Agent Engine Workbench-Instanz erstellen und Verbindung zu dieser herstellen
In diesem Abschnitt erstellen Sie eine Gemini Enterprise Agent Engine Workbench-Instanz. Anschließend stellen Sie eine Verbindung her, klonen ein GitHub-Repository und führen ein Notebook aus.
Folgen Sie der Anleitung oder der Anleitung unten, um die Gemini Enterprise Agent Engine Workbench-Instanz zu erstellen.
- Zur Konsolenseite „Verwaltete Notebooks“
- Klicken Sie auf NEUES NOTEBOOK.
- Geben Sie einen Namen ein und wählen Sie eine Region wie us-central1 (Iowa) aus. Diese sollte idealerweise mit der Region übereinstimmen, die Sie zuvor im Codelab ausgewählt haben. Das ist jedoch nicht zwingend erforderlich.
- Wählen Sie unter Berechtigung die Option Nur einzelner Nutzer aus.
- Öffnen Sie das Drop-down-Menü Erweiterte Einstellungen.
- Wählen Sie unter Sicherheit die Optionen nbconvert aktivieren und Terminal aktivieren aus.
- Klicken Sie auf ERSTELLEN.
Die Instanz sollte innerhalb von etwa fünf Minuten bereitgestellt werden. Wenn die Instanz bereit ist, wird neben dem Notebook-Namen ein grünes Häkchen angezeigt.
Wenn die Instanz bereit ist, klicken Sie auf JUPYTERLAB ÖFFNEN. Authentifizieren Sie sich, wenn Sie dazu aufgefordert werden, und aktivieren Sie alle Berechtigungen.
4. Modelle mit Spark ML über ein Notebook erstellen
Nachdem die JupyterLab-Instanz geladen wurde, befinden Sie sich auf dem Tab Launcher. Klicken Sie auf diesem Tab unter Other (Andere) auf Terminal, um ein neues Terminal zu öffnen.
Klonen Sie im Terminal das Repository Gemini Enterprise Agent Engine Samples.
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
Rufen Sie auf dem Tab Dateibrowser vertex-ai-samples/notebooks/official/workbench/spark auf. Öffnen Sie das Notebook spark_ml.ipynb per Doppelklick. Wenn Sie aufgefordert werden, einen Kernel auszuwählen, wählen Sie Python (lokal) aus.
Führen Sie die einzelnen Zellen des Notebooks nacheinander aus. Folgen Sie dabei der Anleitung in den Zellen.
5. Ressourcen bereinigen
So vermeiden Sie unnötige Gebühren für Ihr GCP-Konto nach Abschluss dieses Codelabs:
- Löschen Sie Ihre Workbench-Instanz. Klicken Sie in der Konsole auf das Kästchen neben Ihrer Instanz und dann auf LÖSCHEN.
Wenn Sie ein Projekt nur für dieses Codelab erstellt haben, können Sie es optional auch löschen:
- Rufen Sie in der GCP Console die Seite Projekte auf.
- Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie auf „Löschen“.
- Geben Sie im Feld die Projekt-ID ein und klicken Sie auf „Herunterfahren“, um das Projekt zu löschen.