1. Wprowadzenie
Jednym z głównych komponentów Apache Spark jest Spark ML, czyli biblioteka do tworzenia modeli i potoków uczenia maszynowego oparta na silniku Apache Spark. Na stronie internetowej znajdziesz narzędzia takie jak:
- Algorytmy ML: popularne algorytmy uczenia się, takie jak klasyfikacja, regresja, grupowanie i filtrowanie oparte na współpracy.
- Ekstrakcja cech: wyodrębnianie, przekształcanie, redukcja wymiarów i selekcja cech
- Potoki: narzędzia do tworzenia, oceniania i dostrajania potoków ML
- Trwałość: zapisywanie i wczytywanie algorytmów, modeli i potoków
- Narzędzia: algebra liniowa, statystyka, obsługa danych itp.
Z tego ćwiczenia w Codelabs dowiesz się, jak utworzyć model Spark ML przy użyciu notatnika.
2. Włącz interfejsy API
W tym samouczku musisz włączyć te interfejsy API:
Kliknij ten link, aby włączyć te interfejsy API w projekcie. Gdy pojawi się odpowiedni komunikat, potwierdź, że interfejsy API zostaną włączone w odpowiednim projekcie.
3. Tworzenie instancji Vertex AI Workbench i łączenie się z nią
W tej sekcji utworzysz instancję Vertex AI Workbench. Następnie nawiążesz z nim połączenie, sklonujesz repozytorium GitHub i uruchomisz notatnik.
Aby utworzyć instancję Vertex AI Workbench, możesz postępować zgodnie z instrukcjami lub wykonać czynności opisane poniżej.
- Otwórz stronę konsoli Zarządzane notatniki.
- Kliknij NOWY NOTATNIK.
- Podaj nazwę i wybierz region, np. us-central1 (Iowa). Powinien on być zgodny z regionem wybranym wcześniej w tym przewodniku, ale nie jest to obowiązkowe.
- W sekcji Uprawnienia wybierz Tylko jeden użytkownik.
- Otwórz menu Ustawienia zaawansowane.
- W sekcji Zabezpieczenia wybierz Włącz nbconvert i Włącz terminal.
- Kliknij UTWÓRZ.
Instancja powinna zostać udostępniona w ciągu około 5 minut. Gdy instancja będzie gotowa, obok nazwy notatnika pojawi się zielony znacznik wyboru.
Gdy instancja będzie gotowa, kliknij OTWÓRZ JUPYTERLAB. Gdy pojawi się prośba o uwierzytelnienie, wykonaj je i włącz wszystkie uprawnienia.
4. Tworzenie modeli Spark ML w notatniku
Po wczytaniu instancji JupyterLab otworzy się karta Launcher (Uruchamianie). Na tej karcie w sekcji Inne kliknij Terminal, aby otworzyć nowy terminal.
W terminalu sklonuj repozytorium Vertex AI Samples.
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
Na karcie Przeglądarka plików przejdź do vertex-ai-samples/notebooks/official/workbench/spark. Otwórz notatnik spark_ml.ipynb, klikając go dwukrotnie. Gdy pojawi się prośba o wybranie jądra, kliknij Python (lokalnie).
Wykonaj wszystkie czynności w notatniku, uruchamiając po kolei każdą komórkę. Postępuj zgodnie z instrukcjami w komórkach.
5. Zwalnianie miejsca
Aby uniknąć niepotrzebnych opłat na koncie Google Cloud Platform po ukończeniu tego ćwiczenia:
- Usuń instancję Workbench. W konsoli zaznacz pole obok instancji i kliknij USUŃ.
Jeśli projekt został utworzony specjalnie na potrzeby tego ćwiczenia, możesz go też usunąć:
- W konsoli GCP otwórz stronę Projekty.
- Z listy projektów wybierz projekt, który chcesz usunąć, i kliknij Usuń.
- W polu wpisz identyfikator projektu i kliknij Wyłącz, aby usunąć projekt.