יצירת מודלים של למידת מכונה ב-Spark באמצעות Google Dataproc

1. מבוא

אחד רכיבי הליבה של Apache Spark הוא Spark ML, ספרייה לפיתוח מודלים וצינורות של למידת מכונה שמבוססת על מנוע Apache Spark. האתר מכיל כלים כמו:

  • אלגוריתמים של למידת מכונה: אלגוריתמים של למידה נפוצים כמו סיווג, רגרסיה, קיבוץ לאשכולות וסינון שיתופי
  • איחוד נתונים: חילוץ, טרנספורמציה, צמצום מידות ובחירה
  • צינורות עיבוד נתונים: כלים לבנייה, הערכה וכוונון של צינורות עיבוד נתונים של למידת מכונה
  • התמדה: שמירה וטעינה של אלגוריתמים, מודלים וצינורות עיבוד נתונים
  • כלים לתחזוקת המחשב: אלגברה לינארית, סטטיסטיקה, טיפול בנתונים וכו'.

ב-Codelab הזה תלמדו איך ליצור מודל Spark ML באמצעות notebook.

2. הפעלת ממשקי API

כדי להשתמש ב-Codelab הזה, צריך להפעיל את ממשקי ה-API הבאים:

יש ללחוץ על הקישור הזה כדי להפעיל את ממשקי ה-API האלה בפרויקט. כשתתבקשו, תצטרכו לוודא שממשקי ה-API יופעלו בפרויקט הנכון.

3. יצירה והתחברות למכונה של Vertex AI Workbench

בקטע הזה תיצרו מכונה של Vertex AI Workbench. לאחר מכן תוכלו להתחבר אליו, לשכפל מאגר של GitHub ולהריץ notebook.

כדי ליצור מכונה של Vertex AI Workbench, תוכלו לפעול לפי ההוראות או לפעול לפי השלבים הבאים.

  1. נכנסים לדף מנוהל של notebooks במסוף.
  2. לוחצים על פנקס רשימות חדש.
  3. נותנים שם ובוחרים אזור כמו us-central1 (איווה). הערך הזה אמור להתאים לאזור שנבחר קודם ב-Codelab, אבל לא חובה.
  4. בקטע הרשאה, בוחרים באפשרות משתמש יחיד בלבד.
  5. פותחים את התפריט הנפתח הגדרות מתקדמות.
  6. בקטע אבטחה, בוחרים באפשרות הפעלת nbconvert והפעלת הטרמינל.
  7. לוחצים על יצירה.

ההקצאה של המכונה אמורה להתבצע תוך כחמש דקות. כשהמופע יהיה מוכן, יופיע סימן וי ירוק לצד Notebook name (שם המחבר).

כשהמכונה מוכנה, לוחצים על Open JUPYTERLAB. לאמת כשמתבקשים לעשות ולהפעיל את כל ההרשאות.

4. פיתוח מודלים באמצעות Spark ML מ-notebook

אחרי שמכונת JupyterLab נטענת, עוברים לכרטיסייה Launcher. בכרטיסייה הזו, בקטע אחר לוחצים על טרמינל כדי לפתוח טרמינל חדש.

בטרמינל, משכפלים את המאגר Vertex AI Samples.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

בכרטיסייה דפדפן קבצים, עוברים אל vertex-ai-samples/notebooks/Official/workbench/spark. לוחצים לחיצה כפולה על הקובץ spark_ml.ipynb כדי לפתוח אותו. כשמופיעה בקשה לבחור ליבה, בוחרים באפשרות Python (local).

עוברים על השלבים ב-notebook על ידי הרצת כל תא בנפרד. פועלים לפי ההוראות בתאים.

5. מחיקת משאבים

כדי להימנע מחיובים מיותרים בחשבון GCP לאחר השלמת ה-Codelab הזה:

  1. מוחקים את המכונה של Workbench. במסוף, מסמנים את התיבה שליד המכונה ולוחצים על מחיקה.

אם יצרתם פרויקט רק בשביל ה-Codelab הזה, אפשר גם למחוק את הפרויקט:

  1. נכנסים לדף Projects במסוף GCP.
  2. ברשימת הפרויקטים, בוחרים את הפרויקט שרוצים למחוק ולוחצים על 'מחיקה'.
  3. כדי למחוק את הפרויקט, כותבים את מזהה הפרויקט בתיבה ולוחצים על Shut down.