Tworzenie modeli Spark ML w Google Dataproc

1. Wprowadzenie

Jednym z głównych komponentów Apache Spark jest Spark ML, czyli biblioteka do tworzenia modeli i potoków uczenia maszynowego oparta na silniku Apache Spark. Na stronie internetowej znajdziesz narzędzia takie jak:

  • Algorytmy ML: popularne algorytmy uczenia się, takie jak klasyfikacja, regresja, grupowanie i filtrowanie oparte na współpracy.
  • Ekstrakcja cech: wyodrębnianie, przekształcanie, redukcja wymiarów i selekcja cech
  • Potoki: narzędzia do tworzenia, oceniania i dostrajania potoków ML
  • Trwałość: zapisywanie i wczytywanie algorytmów, modeli i potoków
  • Narzędzia: algebra liniowa, statystyka, obsługa danych itp.

Z tego ćwiczenia w Codelabs dowiesz się, jak utworzyć model Spark ML przy użyciu notatnika.

2. Włącz interfejsy API

W tym samouczku musisz włączyć te interfejsy API:

Kliknij ten link, aby włączyć te interfejsy API w projekcie. Gdy pojawi się odpowiedni komunikat, potwierdź, że interfejsy API zostaną włączone w odpowiednim projekcie.

3. Tworzenie instancji Vertex AI Workbench i łączenie się z nią

W tej sekcji utworzysz instancję Vertex AI Workbench. Następnie nawiążesz z nim połączenie, sklonujesz repozytorium GitHub i uruchomisz notatnik.

Aby utworzyć instancję Vertex AI Workbench, możesz postępować zgodnie z instrukcjami lub wykonać czynności opisane poniżej.

  1. Otwórz stronę konsoli Zarządzane notatniki.
  2. Kliknij NOWY NOTATNIK.
  3. Podaj nazwę i wybierz region, np. us-central1 (Iowa). Powinien on być zgodny z regionem wybranym wcześniej w tym przewodniku, ale nie jest to obowiązkowe.
  4. W sekcji Uprawnienia wybierz Tylko jeden użytkownik.
  5. Otwórz menu Ustawienia zaawansowane.
  6. W sekcji Zabezpieczenia wybierz Włącz nbconvert i Włącz terminal.
  7. Kliknij UTWÓRZ.

Instancja powinna zostać udostępniona w ciągu około 5 minut. Gdy instancja będzie gotowa, obok nazwy notatnika pojawi się zielony znacznik wyboru.

Gdy instancja będzie gotowa, kliknij OTWÓRZ JUPYTERLAB. Gdy pojawi się prośba o uwierzytelnienie, wykonaj je i włącz wszystkie uprawnienia.

4. Tworzenie modeli Spark ML w notatniku

Po wczytaniu instancji JupyterLab otworzy się karta Launcher (Uruchamianie). Na tej karcie w sekcji Inne kliknij Terminal, aby otworzyć nowy terminal.

W terminalu sklonuj repozytorium Vertex AI Samples.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

Na karcie Przeglądarka plików przejdź do vertex-ai-samples/notebooks/official/workbench/spark. Otwórz notatnik spark_ml.ipynb, klikając go dwukrotnie. Gdy pojawi się prośba o wybranie jądra, kliknij Python (lokalnie).

Wykonaj wszystkie czynności w notatniku, uruchamiając po kolei każdą komórkę. Postępuj zgodnie z instrukcjami w komórkach.

5. Zwalnianie miejsca

Aby uniknąć niepotrzebnych opłat na koncie Google Cloud Platform po ukończeniu tego ćwiczenia:

  1. Usuń instancję Workbench. W konsoli zaznacz pole obok instancji i kliknij USUŃ.

Jeśli projekt został utworzony specjalnie na potrzeby tego ćwiczenia, możesz go też usunąć:

  1. W konsoli GCP otwórz stronę Projekty.
  2. Z listy projektów wybierz projekt, który chcesz usunąć, i kliknij Usuń.
  3. W polu wpisz identyfikator projektu i kliknij Wyłącz, aby usunąć projekt.