1. מבוא
BigQuery הוא מסד נתונים מנוהל של Google לניתוח נתונים, בעלות נמוכה. באמצעות BigQuery, אתם יכולים לשלוח שאילתות על כמויות טרה-בייט של נתונים בלי שתצטרכו לנהל את מסד הנתונים או תשתית כלשהי. ב-BigQuery נעשה שימוש ב-SQL מוכר ובמודל חיוב לפי שימוש בלבד. ב-BigQuery אפשר להתמקד בניתוח נתונים כדי לקבל תובנות משמעותיות.
ב-Codelab הזה תלמדו איך לשלוח שאילתות על מערך הנתונים הציבורי של GitHub, אחד ממערכי הנתונים הציבוריים הרבים שזמינים ב-BigQuery.
מה תלמדו
- איך משתמשים ב-BigQuery
- איך לכתוב שאילתה כדי לקבל תובנות לגבי מערך נתונים גדול
מה צריך להכין
2. להגדרה
הפעלת BigQuery
אם אין לכם עדיין חשבון Google (Gmail או Google Apps), עליכם ליצור חשבון.
- נכנסים למסוף Google Cloud Platform ( console.cloud.google.com) ועוברים אל BigQuery. אפשר גם לפתוח ישירות את ממשק המשתמש של BigQuery באינטרנט על ידי הזנת כתובת ה-URL הבאה בדפדפן.
https://console.cloud.google.com/bigquery
- מאשרים את התנאים וההגבלות.
- כדי להשתמש ב-BigQuery צריך ליצור פרויקט. יוצרים את הפרויקט החדש לפי ההנחיות.
בוחרים שם לפרויקט ורושמים את מזהה הפרויקט.
מזהה הפרויקט הוא שם ייחודי בכל הפרויקטים ב-Google Cloud. בהמשך ב-Codelab הזה, היא תיקרא PROJECT_ID
.
ה-Codelab הזה משתמש במשאבי BigQuery שעומדים במגבלות של ה-Sandbox של BigQuery. לא נדרש חשבון לחיוב. אם בהמשך תרצו להסיר את המגבלות של Sandbox, תוכלו להוסיף חשבון לחיוב על ידי הרשמה לתקופת הניסיון בחינם ב-Google Cloud Platform.
3. תצוגה מקדימה של נתוני GitHub
פותחים את מערך הנתונים מ-GitHub בממשק המשתמש של BigQuery באינטרנט.
תצוגה מקדימה מהירה של איך הנתונים נראים.
4. שליחת שאילתות לנתוני GitHub
פותחים את עורך השאילתות.
מזינים את השאילתה הבאה כדי למצוא את הודעות השמירה הנפוצות ביותר במערך הנתונים הציבורי של GitHub:
SELECT subject AS subject,
COUNT(*) AS num_duplicates
FROM `bigquery-public-data.github_repos.sample_commits`
GROUP BY subject
ORDER BY num_duplicates DESC
LIMIT 100
מכיוון שמערך הנתונים ב-GitHub גדול, כדאי להשתמש במערך נתונים קטן יותר לדוגמה כדי לערוך ניסויים כדי לחסוך בעלויות. כדי להעריך את עלות השאילתה, משתמשים בבייטים שעובדו מתחת לעורך.
לוחצים על הלחצן Run.
תוך כמה שניות התוצאה תופיע בחלק התחתון של הדף, והיא תציג כמה נתונים עובדו וכמה זמן זה לקח.
למרות שהטבלה sample_commits היא בגודל 2.49GB, השאילתה עברה עיבוד רק ב-35.8MB. מערכת BigQuery מעבדת רק את הבייטים מהעמודות שבהן נעשה שימוש בשאילתה, כך שהסכום הכולל של הנתונים שיעובד יכול להיות קטן משמעותית מגודל הטבלה. באמצעות אשכולות וחלוקה למחיצות (partitioning) אפשר להפחית עוד יותר את כמות הנתונים שמעובדים.
5. עוד נתונים ציבוריים
עכשיו נסו להריץ שאילתות במערך נתונים אחר, כמו אחד ממערכי הנתונים הציבוריים האחרים.
לדוגמה, השאילתה הבאה מוצאת פרויקטים פופולריים שהוצאו משימוש או לא מנוהלים במערך הנתונים הציבורי של Libraries.io שעדיין משמשים כתלות בפרויקטים אחרים:
SELECT
name,
dependent_projects_count,
language,
status
FROM
`bigquery-public-data.libraries_io.projects_with_repository_fields`
WHERE status IN ('Deprecated', 'Unmaintained')
ORDER BY dependent_projects_count DESC
LIMIT 100
גם ארגונים אחרים הפכו את הנתונים שלהם לזמינים לציבור ב-BigQuery. לדוגמה, אפשר להשתמש במערך הנתונים של GH Archived של GitHub כדי לנתח אירועים ציבוריים ב-GitHub, כמו בקשות משיכה, כוכבי מאגרים ובעיות פתוחות. אפשר להשתמש במערך הנתונים PyPI של Python Software Foundation כדי לנתח בקשות להורדה של חבילות Python.
6. מעולה!
השתמשתם ב-BigQuery וב-SQL כדי לשלוח שאילתות על מערך הנתונים הציבורי של GitHub. יש לכם אפשרות להריץ שאילתות על מערכי נתונים בקנה מידה של פטה-בייט!
מה נכלל?
- שימוש בתחביר SQL כדי לשלוח שאילתות לגבי רשומות שמירה של GitHub
- כתיבת שאילתה כדי לקבל תובנות לגבי מערך נתונים גדול
מידע נוסף
- לומדים SQL בעזרת המבוא של Kaggle ל-SQL.
- מידע נוסף על מסמכי התיעוד של BigQuery
- בפוסט הזה בבלוג אנחנו מסבירים איך אנשים אחרים משתמשים במערך הנתונים של GitHub.
- נתוני מזג אוויר, נתוני פשע ועוד ב-TIL באמצעות BigQuery.
- איך לטעון נתונים ל-BigQuery באמצעות כלי שורת הפקודה של BigQuery
- אתם מוזמנים לעבור אל המשנה של BigQuery כדי ללמוד איך אנשים אחרים משתמשים ב-BigQuery היום.