Membuat model Spark ML dengan Google Dataproc

1. Pengantar

Salah satu komponen inti Apache Spark adalah Spark ML, yakni library untuk membuat model machine learning dan pipeline yang dibangun di atas mesin Apache Spark. Dari situs web, terdapat alat-alat seperti:

  • Algoritma ML: algoritma pembelajaran umum seperti klasifikasi, regresi, pengelompokan, dan penyaringan kolaboratif
  • Fitur: ekstraksi fitur, transformasi, pengurangan dimensi, dan seleksi
  • Pipeline: alat untuk membangun, mengevaluasi, dan menyesuaikan Pipeline ML
  • Persistensi: menyimpan dan memuat algoritma, model, dan Pipeline
  • Utilitas: aljabar linear, statistik, penanganan data, dll.

Dalam codelab ini, Anda akan mempelajari cara membuat model Spark ML menggunakan notebook.

2. Mengaktifkan API

Untuk codelab ini, Anda harus mengaktifkan API berikut:

Klik link ini untuk mengaktifkan API di project Anda. Saat diminta, konfirmasi bahwa API akan diaktifkan dalam project yang benar.

3. Membuat dan terhubung ke instance Vertex AI Workbench

Di bagian ini, Anda akan membuat instance Vertex AI Workbench. Anda kemudian akan menghubungkannya, meng-clone repositori GitHub, dan menjalankan notebook.

Untuk membuat instance Vertex AI Workbench, Anda dapat mengikuti petunjuk atau mengikuti petunjuk di bawah ini.

  1. Buka halaman konsol Managed Notebooks.
  2. Klik NEW NOTEBOOK.
  3. Berikan nama dan pilih region, seperti us-central1 (Iowa). Idealnya, region ini harus cocok dengan region yang dipilih sebelumnya di codelab meskipun tidak wajib.
  4. Di bagian Permission, pilih Single user only.
  5. Buka dropdown Setelan Lanjutan.
  6. Di bagian Security pilih Enable nbconvert dan Enable terminal.
  7. Klik BUAT.

Instance akan disediakan dalam waktu sekitar lima menit. Anda akan melihat tanda centang hijau di samping Nama notebook jika instance sudah siap.

Saat instance sudah siap, klik BUKA JUPYTERLAB. Lakukan autentikasi saat diminta untuk melakukan dan mengaktifkan semua izin.

4. Membangun model dengan Spark ML dari notebook

Setelah instance JupyterLab dimuat, Anda berada di tab Peluncur. Di tab ini, di bagian Lainnya, klik Terminal untuk membuka Terminal baru.

Di terminal, clone repositori Vertex AI Samples.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

Di tab File Browser, buka vertex-ai-samples/notebooks/Official/workbench/spark. Buka notebook spark_ml.ipynb dengan mengkliknya dua kali. Saat diminta untuk memilih kernel, pilih Python (local).

Telusuri langkah-langkah di notebook dengan mengeksekusi setiap sel saat Anda menjalankannya. Ikuti petunjuk dalam sel.

5. Membersihkan resource

Agar tidak menimbulkan tagihan yang tidak perlu pada akun GCP Anda setelah menyelesaikan codelab ini:

  1. Hapus instance Workbench Anda. Dari konsol, centang kotak di samping instance, lalu klik HAPUS.

Jika membuat project hanya untuk codelab ini, Anda juga dapat menghapus project tersebut secara opsional:

  1. Di GCP Console, buka halaman Project.
  2. Dalam daftar project, pilih project yang ingin Anda hapus, lalu klik Delete.
  3. Pada kotak, ketik project ID, lalu klik Shut Down untuk menghapus project.