۱. مقدمه
یکی از اجزای اصلی آپاچی اسپارک، Spark ML است، کتابخانهای برای ساخت مدلهای یادگیری ماشین و خطوط لوله ساخته شده بر روی موتور آپاچی اسپارک. طبق وبسایت، این کتابخانه شامل ابزارهایی مانند موارد زیر است:
- الگوریتمهای یادگیری ماشین: الگوریتمهای یادگیری رایج مانند طبقهبندی، رگرسیون، خوشهبندی و فیلتر مشارکتی
- ویژگیسازی: استخراج ویژگی، تبدیل، کاهش ابعاد و انتخاب
- خطوط لوله: ابزارهایی برای ساخت، ارزیابی و تنظیم خطوط لوله یادگیری ماشین
- پایداری: ذخیره و بارگذاری الگوریتمها، مدلها و خطوط لوله
- کاربردها: جبر خطی، آمار، پردازش دادهها و غیره
در این آزمایشگاه کد، یاد خواهید گرفت که چگونه با استفاده از یک دفترچه یادداشت، یک مدل Spark ML ایجاد کنید.
۲. فعال کردن APIها
برای این codelab، باید API های زیر را فعال کنید:
برای فعال کردن این APIها در پروژه خود، روی این لینک کلیک کنید. در صورت درخواست، تأیید کنید که APIها در پروژه صحیح فعال خواهند شد.
۳. یک نمونه Vertex AI Workbench ایجاد کنید و به آن متصل شوید
در این بخش شما یک نمونه از Vertex AI Workbench ایجاد خواهید کرد. سپس به آن متصل میشوید، یک مخزن Github را کپی میکنید و یک نوتبوک را اجرا میکنید.
برای ایجاد نمونه Vertex AI Workbench، میتوانید دستورالعملها را دنبال کنید یا مراحل زیر را دنبال کنید.
- به صفحه کنسول دفترچههای مدیریتشده بروید .
- روی دفترچه یادداشت جدید کلیک کنید.
- یک نام وارد کنید و منطقهای مانند us-central1 (آیووا) را انتخاب کنید. در حالت ایدهآل، این باید با منطقهای که قبلاً در codelab انتخاب شده است، مطابقت داشته باشد، هرچند اجباری نیست.
- در قسمت مجوزها، گزینه Single user only را انتخاب کنید.
- منوی کشویی تنظیمات پیشرفته را باز کنید.
- در قسمت امنیت، گزینهی فعال کردن nbconvert و فعال کردن ترمینال را انتخاب کنید.
- روی ایجاد کلیک کنید.
این نمونه باید ظرف حدود پنج دقیقه آماده شود. وقتی نمونه آماده شد، یک علامت تیک سبز در کنار نام نوتبوک مشاهده خواهید کرد.
وقتی نمونه آماده شد، روی «باز کردن JUPYTERLAB» کلیک کنید. وقتی از شما خواسته شد، احراز هویت کنید و همه مجوزها را فعال کنید.
۴. ساخت مدلها با Spark ML از طریق نوتبوک
پس از بارگذاری نمونه JupyterLab، شما در برگه Launcher هستید. در این برگه، در قسمت Other روی Terminal کلیک کنید تا یک ترمینال جدید باز شود.
در ترمینال، مخزن Vertex AI Samples را کلون کنید.
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
در تب مرورگر فایل ، به vertex-ai-samples/notebooks/official/workbench/spark بروید. فایل spark_ml.ipynb نوتبوک را با دوبار کلیک کردن روی آن باز کنید. وقتی از شما خواسته شد هسته (kernel) را انتخاب کنید، Python (local) را انتخاب کنید.
با اجرای هر سلول، مراحل دفترچه یادداشت را طی کنید. دستورالعملهای داخل سلولها را دنبال کنید.
۵. منابع را پاکسازی کنید
برای جلوگیری از تحمیل هزینههای غیرضروری به حساب GCP خود پس از تکمیل این آزمایشگاه کد:
- نمونه Workbench خود را حذف کنید. از کنسول ، کادر کنار نمونه خود را علامت بزنید و روی DELETE کلیک کنید.
اگر فقط برای این codelab پروژهای ایجاد کردهاید، میتوانید به صورت اختیاری پروژه را حذف کنید:
- در کنسول GCP، به صفحه پروژهها بروید.
- در لیست پروژهها، پروژهای را که میخواهید حذف کنید انتخاب کرده و روی حذف کلیک کنید.
- در کادر، شناسه پروژه را تایپ کنید و سپس برای حذف پروژه، روی خاموش کردن کلیک کنید.