مدل های Spark ML را با Google Dataproc ایجاد کنید

۱. مقدمه

یکی از اجزای اصلی آپاچی اسپارک، Spark ML است، کتابخانه‌ای برای ساخت مدل‌های یادگیری ماشین و خطوط لوله ساخته شده بر روی موتور آپاچی اسپارک. طبق وب‌سایت، این کتابخانه شامل ابزارهایی مانند موارد زیر است:

  • الگوریتم‌های یادگیری ماشین: الگوریتم‌های یادگیری رایج مانند طبقه‌بندی، رگرسیون، خوشه‌بندی و فیلتر مشارکتی
  • ویژگی‌سازی: استخراج ویژگی، تبدیل، کاهش ابعاد و انتخاب
  • خطوط لوله: ابزارهایی برای ساخت، ارزیابی و تنظیم خطوط لوله یادگیری ماشین
  • پایداری: ذخیره و بارگذاری الگوریتم‌ها، مدل‌ها و خطوط لوله
  • کاربردها: جبر خطی، آمار، پردازش داده‌ها و غیره

در این آزمایشگاه کد، یاد خواهید گرفت که چگونه با استفاده از یک دفترچه یادداشت، یک مدل Spark ML ایجاد کنید.

۲. فعال کردن APIها

برای این codelab، باید API های زیر را فعال کنید:

برای فعال کردن این APIها در پروژه خود، روی این لینک کلیک کنید. در صورت درخواست، تأیید کنید که APIها در پروژه صحیح فعال خواهند شد.

۳. یک نمونه Vertex AI Workbench ایجاد کنید و به آن متصل شوید

در این بخش شما یک نمونه از Vertex AI Workbench ایجاد خواهید کرد. سپس به آن متصل می‌شوید، یک مخزن Github را کپی می‌کنید و یک نوت‌بوک را اجرا می‌کنید.

برای ایجاد نمونه Vertex AI Workbench، می‌توانید دستورالعمل‌ها را دنبال کنید یا مراحل زیر را دنبال کنید.

  1. به صفحه کنسول دفترچه‌های مدیریت‌شده بروید .
  2. روی دفترچه یادداشت جدید کلیک کنید.
  3. یک نام وارد کنید و منطقه‌ای مانند us-central1 (آیووا) را انتخاب کنید. در حالت ایده‌آل، این باید با منطقه‌ای که قبلاً در codelab انتخاب شده است، مطابقت داشته باشد، هرچند اجباری نیست.
  4. در قسمت مجوزها، گزینه Single user only را انتخاب کنید.
  5. منوی کشویی تنظیمات پیشرفته را باز کنید.
  6. در قسمت امنیت، گزینه‌ی فعال کردن nbconvert و فعال کردن ترمینال را انتخاب کنید.
  7. روی ایجاد کلیک کنید.

این نمونه باید ظرف حدود پنج دقیقه آماده شود. وقتی نمونه آماده شد، یک علامت تیک سبز در کنار نام نوت‌بوک مشاهده خواهید کرد.

وقتی نمونه آماده شد، روی «باز کردن JUPYTERLAB» کلیک کنید. وقتی از شما خواسته شد، احراز هویت کنید و همه مجوزها را فعال کنید.

۴. ساخت مدل‌ها با Spark ML از طریق نوت‌بوک

پس از بارگذاری نمونه JupyterLab، شما در برگه Launcher هستید. در این برگه، در قسمت Other روی Terminal کلیک کنید تا یک ترمینال جدید باز شود.

در ترمینال، مخزن Vertex AI Samples را کلون کنید.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

در تب مرورگر فایل ، به vertex-ai-samples/notebooks/official/workbench/spark بروید. فایل spark_ml.ipynb نوت‌بوک را با دوبار کلیک کردن روی آن باز کنید. وقتی از شما خواسته شد هسته (kernel) را انتخاب کنید، Python (local) را انتخاب کنید.

با اجرای هر سلول، مراحل دفترچه یادداشت را طی کنید. دستورالعمل‌های داخل سلول‌ها را دنبال کنید.

۵. منابع را پاکسازی کنید

برای جلوگیری از تحمیل هزینه‌های غیرضروری به حساب GCP خود پس از تکمیل این آزمایشگاه کد:

  1. نمونه Workbench خود را حذف کنید. از کنسول ، کادر کنار نمونه خود را علامت بزنید و روی DELETE کلیک کنید.

اگر فقط برای این codelab پروژه‌ای ایجاد کرده‌اید، می‌توانید به صورت اختیاری پروژه را حذف کنید:

  1. در کنسول GCP، به صفحه پروژه‌ها بروید.
  2. در لیست پروژه‌ها، پروژه‌ای را که می‌خواهید حذف کنید انتخاب کرده و روی حذف کلیک کنید.
  3. در کادر، شناسه پروژه را تایپ کنید و سپس برای حذف پروژه، روی خاموش کردن کلیک کنید.