1. Wprowadzenie
Jednym z podstawowych komponentów Apache Spark jest Spark ML, czyli biblioteka do tworzenia modeli i potoków uczenia maszynowego opartych na silniku Apache Spark. Na stronie internetowej znajdziesz takie narzędzia jak:
- algorytmy ML: popularne algorytmy uczenia, takie jak klasyfikacja, regresja, grupowanie i filtrowanie kolaboratywne;
- featurizacja: wyodrębnianie, przekształcanie, redukcja wymiarowości i wybór cech;
- potoki: narzędzia do tworzenia, oceniania i dostrajania potoków ML;
- trwałość: zapisywanie i wczytywanie algorytmów, modeli i potoków;
- narzędzia: algebra liniowa, statystyka, obsługa danych itp.
Z tego ćwiczenia w Codelabs dowiesz się, jak utworzyć model Spark ML za pomocą notatnika.
2. Włącz interfejsy API
Na potrzeby tego ćwiczenia w Codelabs musisz włączyć te interfejsy API:
Kliknij ten link, aby włączyć te interfejsy API w projekcie. Gdy pojawi się prośba, potwierdź, że interfejsy API zostaną włączone w odpowiednim projekcie.
3. Tworzenie instancji Workbench Agent Engine Gemini Enterprise i łączenie się z nią
W tej sekcji utworzysz instancję Workbench Agent Engine Gemini Enterprise. Następnie połączysz się z nią, sklonujesz repozytorium GitHub i uruchomisz notatnik.
Aby utworzyć instancję Workbench Agent Engine Gemini Enterprise, możesz postępować zgodnie z instrukcjami lub wykonać te czynności:
- Otwórz stronę konsoli Zarządzane notatniki.
- Kliknij NOWE NOTATKI.
- Podaj nazwę i wybierz region, np. us-central1 (Iowa). Najlepiej, aby był to ten sam region, który został wybrany wcześniej w tym ćwiczeniu w Codelabs, ale nie jest to obowiązkowe.
- W sekcji Uprawnienia wybierz Tylko jeden użytkownik.
- Otwórz menu Ustawienia zaawansowane.
- W sekcji Zabezpieczenia wybierz Włącz nbconvert i Włącz terminal.
- Kliknij UTWÓRZ.
Aprowizacja instancji powinna potrwać około 5 minut. Gdy instancja będzie gotowa, obok nazwy notatnika pojawi się zielony znacznik wyboru.
Gdy instancja będzie gotowa, kliknij OTWÓRZ JUPYTERLAB. Gdy pojawi się prośba, uwierzytelnij się i włącz wszystkie uprawnienia.
4. Tworzenie modeli za pomocą Spark ML z notatnika
Po wczytaniu instancji JupyterLab otworzy się karta Launcher. Na tej karcie w sekcji Inne kliknij Terminal, aby otworzyć nowy terminal.
W terminalu sklonuj repozytorium próbek Agent Engine Gemini Enterprise.
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
Na karcie Przeglądarka plików otwórz vertex-ai-samples/notebooks/official/workbench/spark. Otwórz notatnik spark_ml.ipynb , klikając go dwukrotnie. Gdy pojawi się prośba o wybranie jądra, wybierz Python (lokalne).
Wykonaj kolejne kroki w notatniku, uruchamiając każdą komórkę. Postępuj zgodnie z instrukcjami w komórkach.
5. Zwalnianie miejsca
Aby uniknąć niepotrzebnych opłat na koncie Google Cloud Platform po ukończeniu tego ćwiczenia w Codelabs:
- Usuń instancję Workbench. W konsoli zaznacz pole obok instancji i kliknij USUŃ.
Jeśli projekt został utworzony tylko na potrzeby tego ćwiczenia w Codelabs, możesz go też usunąć:
- W konsoli Google Cloud otwórz stronę Projekty.
- Na liście projektów wybierz projekt, który chcesz usunąć, i kliknij Usuń.
- W polu wpisz identyfikator projektu i kliknij Wyłącz, aby usunąć projekt.