1. מבוא
אחד מרכיבי הליבה של Apache Spark הוא Spark ML, ספרייה לבניית מודלים וצינורות עיבוד נתונים של למידת מכונה שמבוססת על מנוע Apache Spark. האתר כולל כלים כמו:
- אלגוריתמים של ML: אלגוריתמים נפוצים של למידה, כמו סיווג, רגרסיה, קיבוץ לאשכולות וסינון שיתופי
- הפיכת נתונים לתכונות: חילוץ תכונות, טרנספורמציה, הורדת ממד ובחירה
- צינורות עיבוד נתונים: כלים לבנייה, להערכה ולכוונון של צינורות עיבוד נתונים של למידת מכונה
- התמדה: שמירה וטעינה של אלגוריתמים, מודלים וצינורות
- כלים לתחזוקת המחשב: אלגברה לינארית, סטטיסטיקה, טיפול בנתונים וכו'.
ב-codelab הזה תלמדו איך ליצור מודל Spark ML באמצעות מחברת.
2. הפעלת ממשקי ה-API
כדי לבצע את ה-Codelab הזה, צריך להפעיל את ממשקי ה-API הבאים:
כדי להפעיל את ממשקי ה-API האלה בפרויקט, לוחצים על הקישור. כשמופיעה בקשה, מאשרים שממשקי ה-API יופעלו בפרויקט הנכון.
3. יצירה של מכונה ב-Vertex AI Workbench וחיבור אליה
בקטע הזה יוצרים מכונה של Vertex AI Workbench. אחר כך מתחברים אליו, משכפלים מאגר GitHub ומריצים מחברת.
כדי ליצור את מופע Vertex AI Workbench, אפשר לפעול לפי ההוראות או לפי השלבים הבאים.
- עוברים לדף Managed Notebooks במסוף.
- לוחצים על מחברת חדשה.
- מזינים שם ובוחרים אזור, כמו us-central1 (Iowa). רצוי שהאזור הזה יהיה זהה לאזור שנבחר קודם ב-codelab, אבל זה לא חובה.
- בקטע הרשאה, בוחרים באפשרות משתמש יחיד בלבד.
- פותחים את התפריט הנפתח הגדרות מתקדמות.
- בקטע אבטחה, בוחרים באפשרות הפעלת nbconvert ובאפשרות הפעלת הטרמינל.
- לוחצים על יצירה.
הקצאת המכונה אמורה להימשך כחמש דקות. כשמופע מוכן, יופיע סימן וי ירוק לצד שם ה-Notebook.
כשהמופע מוכן, לוחצים על פתיחת JUPYTERLAB. מאמתים את החשבון כשמוצגת בקשה לכך ומפעילים את כל ההרשאות.
4. בניית מודלים באמצעות Spark ML מתוך מחברת
אחרי שהמכונה של JupyterLab נטענת, אתם נמצאים בכרטיסייה Launcher. בכרטיסייה הזו, בקטע Other (אחר), לוחצים על Terminal (טרמינל) כדי לפתוח טרמינל חדש.
בטרמינל, משכפלים את מאגר הדוגמאות ל-Vertex AI.
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
בכרטיסייה File Browser (דפדפן הקבצים), עוברים אל vertex-ai-samples/notebooks/official/workbench/spark. פותחים את המחברת spark_ml.ipynb באמצעות לחיצה כפולה עליה. כשמופיעה בקשה לבחירת ליבה, בוחרים באפשרות Python (local).
פועלים לפי השלבים ב-notebook ומריצים כל תא בדרך. פועלים לפי ההוראות בתאים.
5. פינוי משאבים
כדי להימנע מחיובים מיותרים בחשבון GCP אחרי שתסיימו את ה-codelab הזה:
- מחיקת מכונת Workbench. במסוף, מסמנים את התיבה לצד המופע ולוחצים על מחיקה.
אם יצרתם פרויקט רק בשביל ה-Codelab הזה, אתם יכולים גם למחוק אותו:
- במסוף GCP, נכנסים לדף Projects.
- ברשימת הפרויקטים, בוחרים את הפרויקט שרוצים למחוק ולוחצים על סמל המחיקה.
- בתיבה, כותבים את מזהה הפרויקט ולוחצים על Shut down כדי למחוק את הפרויקט.