1. Pengantar
Salah satu komponen inti Apache Spark adalah Spark ML, library untuk membangun model dan pipeline machine learning yang dibuat di atas mesin Apache Spark. Dari situs, terdapat alat seperti:
- Algoritma ML: algoritma pembelajaran umum seperti klasifikasi, regresi, pengelompokan, dan pemfilteran kolaboratif
- Featurisasi: ekstraksi fitur, transformasi, pengurangan dimensi, dan pemilihan
- Pipeline: alat untuk membuat, mengevaluasi, dan menyesuaikan Pipeline ML
- Persistensi: menyimpan dan memuat algoritma, model, dan Pipeline
- Utilitas: aljabar linier, statistik, penanganan data, dll.
Dalam codelab ini, Anda akan mempelajari cara membuat model ML Spark menggunakan notebook.
2. Mengaktifkan API
Untuk codelab ini, Anda harus mengaktifkan API berikut:
Klik link ini untuk mengaktifkan API ini di project Anda. Saat diminta, konfirmasi bahwa API akan diaktifkan di project yang benar.
3. Membuat dan menghubungkan ke instance Vertex AI Workbench
Di bagian ini, Anda akan membuat instance Vertex AI Workbench. Kemudian, Anda akan terhubung ke instance tersebut, meng-clone repositori GitHub, dan menjalankan notebook.
Untuk membuat instance Vertex AI Workbench, Anda dapat mengikuti petunjuk atau mengikuti langkah-langkah di bawah.
- Buka halaman konsol Managed Notebooks.
- Klik NOTEBOOK BARU.
- Berikan nama dan pilih region seperti us-central1 (Iowa). Idealnya, region ini harus cocok dengan region yang dipilih sebelumnya dalam codelab, meskipun tidak wajib.
- Di bagian Izin, pilih Hanya satu pengguna.
- Buka dropdown Setelan Lanjutan.
- Di bagian Security, pilih Enable nbconvert dan Enable terminal.
- Klik BUAT.
Instance akan disediakan dalam waktu sekitar lima menit. Anda akan melihat tanda centang hijau di samping Nama notebook saat instance siap.
Saat instance siap, klik OPEN JUPYTERLAB. Lakukan autentikasi saat diminta dan aktifkan semua izin.
4. Membangun model dengan Spark ML dari notebook
Setelah instance JupyterLab dimuat, Anda akan berada di tab Launcher. Di tab ini, di bagian Other, klik Terminal untuk membuka Terminal baru.
Di terminal, clone repositori Vertex AI Samples.
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
Di tab File Browser, buka vertex-ai-samples/notebooks/official/workbench/spark. Buka notebook spark_ml.ipynb dengan mengkliknya dua kali. Saat diminta untuk memilih kernel, pilih Python (local).
Pelajari langkah-langkah notebook dengan menjalankan setiap sel saat Anda melakukannya. Ikuti petunjuk dalam sel.
5. Membersihkan resource
Agar tidak menimbulkan biaya yang tidak perlu pada akun GCP Anda setelah menyelesaikan codelab ini:
- Hapus instance Workbench Anda. Dari konsol, centang kotak di samping instance Anda, lalu klik HAPUS.
Jika membuat project hanya untuk codelab ini, Anda juga dapat menghapus project tersebut jika mau:
- Di Konsol GCP, buka halaman Project.
- Dalam daftar project, pilih project yang ingin Anda hapus, lalu klik Hapus.
- Di kotak, ketik project ID, lalu klik Shut down untuk menghapus project.