Tworzenie modeli Spark ML w Google Dataproc

1. Wprowadzenie

Jednym z podstawowych komponentów Apache Spark jest Spark ML – biblioteka do tworzenia modeli systemów uczących się i potoków opartych na silniku Apache Spark. Zawiera ona takie narzędzia jak:

  • Algorytmy ML: popularne algorytmy uczenia się takie jak klasyfikacja, regresja, grupowanie i filtrowanie oparte na współpracy
  • Featuryzacja: wyodrębnianie cech, przekształcanie, redukcja wymiarów i wybór.
  • Potoki: narzędzia do tworzenia, oceniania i dostrajania ML Pipelines
  • Trwałość: zapisywanie i wczytywanie algorytmów, modeli oraz potoków
  • Narzędzia: algebra liniowa, statystyki, obsługa danych itp.

Z tego ćwiczenia w Codelabs dowiesz się, jak utworzyć model Spark ML za pomocą notatnika.

2. Włącz interfejsy API

W ramach tego ćwiczenia w Codelabs musisz włączyć te interfejsy API:

Kliknij ten link, aby włączyć te interfejsy API w swoim projekcie. Gdy pojawi się prośba, sprawdź, czy interfejsy API zostaną włączone w odpowiednim projekcie.

3. Tworzenie instancji Vertex AI Workbench i łączenie się z nią

W tej sekcji utworzysz instancję Vertex AI Workbench. Następnie połączysz się z nim, sklonujesz repozytorium GitHub i uruchomisz notatnik.

Aby utworzyć instancję Vertex AI Workbench, możesz wykonać instrukcje lub opisane poniżej.

  1. Otwórz stronę konsoli zarządzanych notatników.
  2. Kliknij NOWY NOTATNIK.
  3. Podaj nazwę i wybierz region, np. us-central1 (Iowa). Powinny one pasować do regionu wybranego wcześniej w ćwiczeniach z programowania, ale nie jest to obowiązkowe.
  4. W sekcji Uprawnienia wybierz Tylko pojedynczy użytkownik.
  5. Otwórz menu Ustawienia zaawansowane.
  6. W sekcji Zabezpieczenia wybierz Włącz nbconvert i Włącz terminal.
  7. Kliknij UTWÓRZ.

Instancja powinna zostać udostępniona w ciągu około 5 minut. Gdy instancja będzie gotowa, obok nazwy notatnika pojawi się zielony znacznik wyboru.

Gdy instancja będzie gotowa, kliknij OTWÓRZ JUPYTERLAB. Uwierzytelnij się, gdy pojawi się prośba o wykonanie i włączenie wszystkich uprawnień.

4. Tworzenie modeli za pomocą Spark ML z poziomu notatnika

Po wczytaniu instancji JupyterLab przejdziesz na kartę Menu z aplikacjami. Na tej karcie w sekcji Inne kliknij Terminal, aby otworzyć nowy terminal.

W terminalu skopiuj repozytorium Vertex AI Samples.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

Na karcie Przeglądarka plików otwórz vertex-ai-samples/notebooks/Official/workbench/spark. Otwórz notatnik spark_ml.ipynb, klikając go dwukrotnie. Gdy pojawi się prośba o wybranie jądra, wybierz Python (lokalny).

Przejdź przez kolejne etapy notatnika, wykonując poszczególne komórki. Postępuj zgodnie z instrukcjami w komórkach.

5. Czyszczenie zasobów

Aby po ukończeniu tego ćwiczenia z programowania uniknąć niepotrzebnych opłat na koncie GCP:

  1. usunąć instancję Workbench. W konsoli zaznacz pole obok swojej instancji i kliknij USUŃ.

Jeśli Twój projekt został utworzony tylko na potrzeby tego ćwiczenia z programowania, możesz go też opcjonalnie usunąć:

  1. W konsoli GCP otwórz stronę Projekty.
  2. Na liście projektów wybierz projekt do usunięcia, a następnie kliknij Usuń.
  3. W polu wpisz identyfikator projektu i kliknij Wyłącz, aby usunąć projekt.