مدل های Spark ML را با Google Dataproc ایجاد کنید

1. مقدمه

یکی از اجزای اصلی Apache Spark Spark ML است، کتابخانه ای برای ساخت مدل های یادگیری ماشین و خطوط لوله که بر روی موتور Apache Spark ساخته شده است. از وب سایت، شامل ابزارهایی مانند:

  • الگوریتم‌های ML: الگوریتم‌های یادگیری رایج مانند طبقه‌بندی، رگرسیون، خوشه‌بندی و فیلتر کردن مشارکتی
  • ویژگی: استخراج ویژگی، تبدیل، کاهش ابعاد و انتخاب
  • خطوط لوله: ابزارهایی برای ساخت، ارزیابی و تنظیم خطوط لوله ML
  • پایداری: ذخیره و بارگذاری الگوریتم‌ها، مدل‌ها و خطوط لوله
  • ابزارهای کاربردی: جبر خطی، آمار، پردازش داده ها و غیره.

در این کدلب با نحوه ایجاد مدل Spark ML با استفاده از نوت بوک آشنا می شوید.

2. API ها را فعال کنید

برای این کد لبه، باید API های زیر را فعال کنید:

برای فعال کردن این APIها در پروژه خود، روی این پیوند کلیک کنید. هنگامی که از شما خواسته شد، تأیید کنید که APIها در پروژه صحیح فعال می شوند.

3. یک نمونه Vertex AI Workbench ایجاد کرده و به آن متصل شوید

در این بخش شما یک نمونه Vertex AI Workbench ایجاد خواهید کرد. سپس به آن متصل می شوید، یک مخزن Github را شبیه سازی می کنید و یک نوت بوک را اجرا می کنید.

برای ایجاد نمونه Vertex AI Workbench، می‌توانید دستورالعمل‌ها را دنبال کنید یا در زیر دنبال کنید.

  1. به صفحه کنسول نوت بوک مدیریت شده بروید .
  2. روی NEW NOTEBOOK کلیک کنید.
  3. یک نام وارد کنید و منطقه ای مانند us-central1 (آیووا) را انتخاب کنید. این به طور ایده آل باید با منطقه ای که قبلاً در Codelab انتخاب شده بود مطابقت داشته باشد اگرچه اجباری نیست.
  4. در قسمت Permission تنها کاربر تک را انتخاب کنید.
  5. منوی Advanced Settings را باز کنید.
  6. در قسمت Security Enable nbconvert و Enable terminal را انتخاب کنید.
  7. روی CREATE کلیک کنید.

نمونه باید ظرف حدود پنج دقیقه ارائه شود. وقتی نمونه آماده شد، یک علامت تیک سبز رنگ در کنار نام Notebook خواهید دید.

وقتی نمونه آماده شد، روی OPEN JUPYTERLAB کلیک کنید. وقتی از شما خواسته شد احراز هویت کنید و همه مجوزها را فعال کنید.

4. با Spark ML از یک نوت بوک مدل بسازید

پس از بارگیری نمونه JupyterLab، در تب Launcher هستید. در این برگه، در قسمت Other روی ترمینال کلیک کنید تا ترمینال جدیدی باز شود.

در ترمینال، مخزن Vertex AI Samples را شبیه سازی کنید.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

در برگه مرورگر فایل ، به vertex-ai-samples/notebooks/official/workbench/spark بروید. نوت بوک spark_ml.ipynb را با دوبار کلیک کردن روی آن باز کنید. هنگامی که از شما خواسته شد یک هسته را انتخاب کنید، Python (محلی) را انتخاب کنید.

در حین حرکت با اجرای هر سلول، مراحل دفترچه یادداشت را طی کنید. دستورالعمل های موجود در سلول ها را دنبال کنید.

5. منابع را پاکسازی کنید

برای جلوگیری از تحمیل هزینه‌های غیر ضروری به حساب GCP خود پس از تکمیل این آزمایشگاه کد:

  1. نمونه Workbench خود را حذف کنید. از کنسول ، کادر کنار نمونه خود را علامت بزنید و روی DELETE کلیک کنید.

اگر پروژه ای را فقط برای این کد لبه ایجاد کرده اید، می توانید به صورت اختیاری پروژه را نیز حذف کنید:

  1. در کنسول GCP، به صفحه پروژه ها بروید.
  2. در لیست پروژه، پروژه ای را که می خواهید حذف کنید انتخاب کنید و روی Delete کلیک کنید.
  3. در کادر، ID پروژه را تایپ کنید و سپس بر روی Shut down کلیک کنید تا پروژه حذف شود.