Tworzenie modeli Spark ML za pomocą usługi zarządzanej dla Apache Spark

1. Wprowadzenie

Jednym z podstawowych komponentów Apache Spark jest Spark ML, czyli biblioteka do tworzenia modeli i potoków uczenia maszynowego opartych na silniku Apache Spark. Na stronie internetowej znajdziesz takie narzędzia jak:

  • algorytmy ML: popularne algorytmy uczenia, takie jak klasyfikacja, regresja, grupowanie i filtrowanie kolaboratywne;
  • featurizacja: wyodrębnianie, przekształcanie, redukcja wymiarowości i wybór cech;
  • potoki: narzędzia do tworzenia, oceniania i dostrajania potoków ML;
  • trwałość: zapisywanie i wczytywanie algorytmów, modeli i potoków;
  • narzędzia: algebra liniowa, statystyka, obsługa danych itp.

Z tego ćwiczenia w Codelabs dowiesz się, jak utworzyć model Spark ML za pomocą notatnika.

2. Włącz interfejsy API

Na potrzeby tego ćwiczenia w Codelabs musisz włączyć te interfejsy API:

Kliknij ten link, aby włączyć te interfejsy API w projekcie. Gdy pojawi się prośba, potwierdź, że interfejsy API zostaną włączone w odpowiednim projekcie.

3. Tworzenie instancji Workbench Agent Engine Gemini Enterprise i łączenie się z nią

W tej sekcji utworzysz instancję Workbench Agent Engine Gemini Enterprise. Następnie połączysz się z nią, sklonujesz repozytorium GitHub i uruchomisz notatnik.

Aby utworzyć instancję Workbench Agent Engine Gemini Enterprise, możesz postępować zgodnie z instrukcjami lub wykonać te czynności:

  1. Otwórz stronę konsoli Zarządzane notatniki.
  2. Kliknij NOWE NOTATKI.
  3. Podaj nazwę i wybierz region, np. us-central1 (Iowa). Najlepiej, aby był to ten sam region, który został wybrany wcześniej w tym ćwiczeniu w Codelabs, ale nie jest to obowiązkowe.
  4. W sekcji Uprawnienia wybierz Tylko jeden użytkownik.
  5. Otwórz menu Ustawienia zaawansowane.
  6. W sekcji Zabezpieczenia wybierz Włącz nbconvert i Włącz terminal.
  7. Kliknij UTWÓRZ.

Aprowizacja instancji powinna potrwać około 5 minut. Gdy instancja będzie gotowa, obok nazwy notatnika pojawi się zielony znacznik wyboru.

Gdy instancja będzie gotowa, kliknij OTWÓRZ JUPYTERLAB. Gdy pojawi się prośba, uwierzytelnij się i włącz wszystkie uprawnienia.

4. Tworzenie modeli za pomocą Spark ML z notatnika

Po wczytaniu instancji JupyterLab otworzy się karta Launcher. Na tej karcie w sekcji Inne kliknij Terminal, aby otworzyć nowy terminal.

W terminalu sklonuj repozytorium próbek Agent Engine Gemini Enterprise.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

Na karcie Przeglądarka plików otwórz vertex-ai-samples/notebooks/official/workbench/spark. Otwórz notatnik spark_ml.ipynb , klikając go dwukrotnie. Gdy pojawi się prośba o wybranie jądra, wybierz Python (lokalne).

Wykonaj kolejne kroki w notatniku, uruchamiając każdą komórkę. Postępuj zgodnie z instrukcjami w komórkach.

5. Zwalnianie miejsca

Aby uniknąć niepotrzebnych opłat na koncie Google Cloud Platform po ukończeniu tego ćwiczenia w Codelabs:

  1. Usuń instancję Workbench. W konsoli zaznacz pole obok instancji i kliknij USUŃ.

Jeśli projekt został utworzony tylko na potrzeby tego ćwiczenia w Codelabs, możesz go też usunąć:

  1. W konsoli Google Cloud otwórz stronę Projekty.
  2. Na liście projektów wybierz projekt, który chcesz usunąć, i kliknij Usuń.
  3. W polu wpisz identyfikator projektu i kliknij Wyłącz, aby usunąć projekt.