1. מבוא
אחד מרכיבי הליבה של Apache Spark הוא Spark ML, ספרייה ליצירת מודלים וצינורות עיבוד נתונים של למידת מכונה שמבוססים על מנוע Apache Spark. באתר יש כלים כמו:
- אלגוריתמים של ML: אלגוריתמים נפוצים של למידה, כמו סיווג, רגרסיה, קיבוץ לאשכולות וסינון שיתופי
- הפיכת נתונים לתכונות: חילוץ תכונות, טרנספורמציה, הורדת ממד ובחירה
- פייפליינים: כלים ליצירה, להערכה ולשיפור של פייפליינים של ML
- התמדה: שמירה וטעינה של אלגוריתמים, מודלים וצינורות
- כלי עזר: אלגברה לינארית, סטטיסטיקה, טיפול בנתונים וכו'.
ב-Codelab הזה נלמד איך ליצור מודל Spark ML באמצעות מחברת.
2. הפעלת ממשקי ה-API
כדי לבצע את ה-codelab הזה, צריך להפעיל את ממשקי ה-API הבאים:
כדי להפעיל את ממשקי ה-API האלה בפרויקט, לוחצים על הקישור. כשמוצגת בקשה, מאשרים שממשקי ה-API יופעלו בפרויקט הנכון.
3. יצירה של מופע של Gemini Enterprise Agent Engine Workbench וחיבור אליו
בקטע הזה תיצרו מכונה וירטואלית של Agent Engine Workbench ב-Gemini Enterprise. לאחר מכן תתחברו אליה, תשכפלו מאגר GitHub ותריצו מחברת.
כדי ליצור את המופע של Gemini Enterprise Agent Engine Workbench, אפשר לפעול לפי ההוראות או לפי השלבים שבהמשך.
- נכנסים לדף Managed Notebooks במסוף.
- לוחצים על מחברת חדשה.
- מזינים שם ובוחרים אזור, כמו us-central1 (Iowa). מומלץ שהאזור הזה יהיה זהה לאזור שנבחר קודם ב-Codelab, אבל זה לא חובה.
- בקטע הרשאה, בוחרים באפשרות משתמש יחיד בלבד.
- פותחים את התפריט הנפתח הגדרות מתקדמות.
- בקטע אבטחה, בוחרים באפשרות הפעלת nbconvert ובאפשרות הפעלת הטרמינל.
- לוחצים על יצירה.
הקצאת המכונה אמורה להימשך כחמש דקות. כשמופע מוכן, מופיע סימן וי ירוק ליד שם ה-Notebook.
כשהמופע מוכן, לוחצים על OPEN JUPYTERLAB (פתיחת JupyterLab). מאמתים את החשבון כשמוצגת בקשה לכך ומפעילים את כל ההרשאות.
4. יצירת מודלים באמצעות Spark ML מתוך מחברת
אחרי שהמכונה של JupyterLab נטענת, אתם נמצאים בכרטיסייה Launcher. בכרטיסייה הזו, בקטע Other (אחר), לוחצים על Terminal (טרמינל) כדי לפתוח טרמינל חדש.
במסוף, משכפלים את מאגר הדוגמאות של סוכן Gemini Enterprise.
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
בכרטיסייה File Browser (דפדפן הקבצים), עוברים אל vertex-ai-samples/notebooks/official/workbench/spark. פותחים את הנוטבוק spark_ml.ipynb באמצעות לחיצה כפולה עליו. כשמופיעה בקשה לבחור ליבה, בוחרים באפשרות Python (local).
פועלים לפי השלבים ב-notebook ומריצים כל תא בדרך. פועלים לפי ההוראות בתאים.
5. פינוי משאבים
כדי להימנע מחיובים מיותרים בחשבון GCP אחרי שתסיימו את ה-codelab הזה:
- מחיקת מכונת Workbench. במסוף, מסמנים את התיבה לצד המופע ולוחצים על מחיקה.
אם יצרתם פרויקט רק בשביל ה-Codelab הזה, אתם יכולים גם למחוק אותו:
- במסוף GCP, נכנסים לדף Projects.
- ברשימת הפרויקטים, בוחרים את הפרויקט שרוצים למחוק ולוחצים על סמל המחיקה.
- בתיבה, כותבים את מזהה הפרויקט ולוחצים על Shut down (השבתה) כדי למחוק את הפרויקט.