Membuat model Spark ML dengan Managed Service untuk Apache Spark

1. Pengantar

Salah satu komponen inti Apache Spark adalah Spark ML, library untuk membangun model dan pipeline machine learning yang dibangun di atas mesin Apache Spark. Dari situs ini, berisi alat seperti:

  • Algoritma ML: algoritma pembelajaran umum seperti klasifikasi, regresi, pengelompokan, dan penyaringan kolaboratif
  • Featurization: ekstraksi fitur, transformasi, pengurangan dimensi, dan pemilihan
  • Pipeline: alat untuk membuat, mengevaluasi, dan menyesuaikan Pipeline ML
  • Persistensi: menyimpan dan memuat algoritma, model, dan Pipeline
  • Utilitas: aljabar linear, statistik, penanganan data, dll.

Dalam codelab ini, Anda akan mempelajari cara membuat model Spark ML menggunakan notebook.

2. Mengaktifkan API

Untuk codelab ini, Anda harus mengaktifkan API berikut:

Klik link ini untuk mengaktifkan API ini di project Anda. Saat diminta, konfirmasi bahwa API akan diaktifkan di project yang benar.

3. Membuat dan terhubung ke instance Gemini Enterprise Agent Engine Workbench

Di bagian ini, Anda akan membuat instance Gemini Enterprise Agent Engine Workbench. Kemudian, Anda akan terhubung ke instance tersebut, meng-clone repositori GitHub, dan menjalankan notebook.

Untuk membuat instance Gemini Enterprise Agent Engine Workbench, Anda dapat mengikuti petunjuk instruksi atau mengikuti petunjuk di bawah.

  1. Buka halaman konsol Managed Notebooks.
  2. Klik NEW NOTEBOOK.
  3. Berikan nama dan pilih region seperti us-central1 (Iowa). Idealnya, region ini harus cocok dengan region yang dipilih sebelumnya di codelab, meskipun tidak wajib.
  4. Di bagian Permission , pilih Single user only.
  5. Buka dropdown Advanced Settings.
  6. Di bagian Security , pilih Enable nbconvert dan Enable terminal.
  7. Klik CREATE.

Instance akan disediakan dalam waktu sekitar lima menit. Anda akan melihat tanda centang hijau di samping Notebook name saat instance siap.

Saat instance siap, klik OPEN JUPYTERLAB. Lakukan autentikasi saat diminta dan aktifkan semua izin.

4. Membuat model dengan Spark ML dari notebook

Setelah instance JupyterLab dimuat, Anda akan berada di tab Launcher. Di tab ini, di bagian Other , klik Terminal untuk membuka Terminal baru.

Di terminal, clone repositori Gemini Enterprise Agent Engine Samples.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

Di tab File Browser, buka vertex-ai-samples/notebooks/official/workbench/spark. Buka notebook spark_ml.ipynb dengan mengkliknya dua kali. Saat diminta untuk memilih kernel, pilih Python (local).

Ikuti langkah-langkah notebook dengan menjalankan setiap sel saat Anda melanjutkan. Ikuti petunjuk di dalam sel.

5. Membersihkan resource

Untuk menghindari biaya yang tidak perlu pada akun GCP Anda setelah menyelesaikan codelab ini:

  1. Hapus instance Workbench Anda. Dari konsol, centang kotak di samping instance Anda, lalu klik DELETE.

Jika membuat project hanya untuk codelab ini, Anda juga dapat menghapus project tersebut secara opsional:

  1. Di Konsol GCP, buka halaman Project.
  2. Dalam daftar project, pilih project yang ingin dihapus, lalu klik Delete.
  3. Di kotak, ketik project ID, lalu klik Matikan untuk menghapus project.