Google Dataproc ile Spark ML modelleri oluşturma

1. Giriş

Apache Spark'ın temel bileşenlerinden biri, Apache Spark motoru üzerine inşa edilmiş makine öğrenimi modelleri ve işlem hatları oluşturmaya yönelik bir kitaplık olan Spark ML'dir. Web sitesinde aşağıdaki gibi araçlar bulunur:

  • Makine öğrenimi algoritmaları: sınıflandırma, regresyon, kümeleme ve ortak filtreleme gibi yaygın öğrenme algoritmaları
  • Özellik oluşturma: özellik çıkarma, dönüştürme, boyut azaltma ve seçim
  • Ardışık düzenler: Makine öğrenimi ardışık düzenlerini oluşturma, değerlendirme ve ayarlama araçları
  • Kalıcılık: Algoritmaları, modelleri ve ardışık düzenleri kaydetme ve yükleme
  • Yardımcı programlar: lineer cebir, istatistik, veri işleme vb.

Bu codelab'de, not defteri kullanarak Spark ML modeli oluşturmayı öğreneceksiniz.

2. API'leri etkinleştir

Bu codelab için aşağıdaki API'leri etkinleştirmeniz gerekir:

Projenizde bu API'leri etkinleştirmek için bu bağlantıyı tıklayın. İstendiğinde API'lerin doğru projede etkinleştirileceğini onaylayın.

3. Vertex AI Workbench örneği oluşturma ve bağlanma

Bu bölümde bir Vertex AI Workbench örneği oluşturacaksınız. Ardından, bu instance'a bağlanacak, bir GitHub deposunu klonlayacak ve bir not defteri çalıştıracaksınız.

Vertex AI Workbench örneğini oluşturmak için talimatları veya aşağıdaki adımları uygulayabilirsiniz.

  1. Yönetilen not defterleri konsol sayfasına gidin.
  2. YENİ NOT DEFTERİ'ni tıklayın.
  3. Bir ad girin ve us-central1 (Iowa) gibi bir bölge seçin. Bu, codelab'de daha önce seçilen bölgeyle eşleşmelidir (zorunlu olmasa da).
  4. İzin bölümünde Yalnızca tek kullanıcı'yı seçin.
  5. Gelişmiş Ayarlar açılır listesini açın.
  6. Güvenlik bölümünde nbconvert'ü etkinleştir ve Terminali etkinleştir'i seçin.
  7. OLUŞTUR'u tıklayın.

Örnek yaklaşık beş dakika içinde sağlanmalıdır. Örnek hazır olduğunda Not defteri adı'nın yanında yeşil bir onay işareti görürsünüz.

Örnek hazır olduğunda OPEN JUPYTERLAB'i (JupyterLab'i aç) tıklayın. İstendiğinde kimliğinizi doğrulayın ve tüm izinleri etkinleştirin.

4. Not defterinden Spark ML ile modeller oluşturma

JupyterLab örneği yüklendikten sonra Başlatıcı sekmesinde olursunuz. Bu sekmede, Diğer bölümünde Terminal'i tıklayarak yeni bir terminal açın.

Terminalde Vertex AI Samples deposunu klonlayın.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

Dosya Tarayıcı sekmesinde vertex-ai-samples/notebooks/official/workbench/spark'a gidin. Üzerine çift tıklayarak spark_ml.ipynb not defterini açın. Çekirdek seçmeniz istendiğinde Python (local) seçeneğini belirleyin.

Her hücreyi çalıştırarak not defterindeki adımları uygulayın. Hücrelerdeki talimatları izleyin.

5. Kaynakları temizleme

Bu codelab tamamlandıktan sonra GCP hesabınızın gereksiz yere ücretlendirilmesini önlemek için:

  1. Workbench örneğinizi silin. Konsolda örneğinizin yanındaki kutuyu işaretleyin ve SİL'i tıklayın.

Bu codelab için özel olarak bir proje oluşturduysanız isteğe bağlı olarak projeyi de silebilirsiniz:

  1. GCP Console'da Projeler sayfasına gidin.
  2. Proje listesinde, silmek istediğiniz projeyi seçin ve Sil'i tıklayın.
  3. Kutuda proje kimliğini yazın ve ardından projeyi silmek için Kapat'ı tıklayın.