הטמעת נתוני CSV ב-BigQuery באמצעות Cloud Data Fusion – הטמעת נתונים באצווה

1. מבוא

12fb66cc134b50ef.png

העדכון האחרון: 28 בפברואר 2020

ב-codelab הזה מוצג דפוס של הטמעת נתונים להטמעה של נתונים בתחום הבריאות בפורמט CSV ב-BigQuery בכמות גדולה. בשיעור ה-Lab הזה נשתמש בפייפליין נתונים באצווה של Cloud Data Fusion. נתוני בדיקה ריאליסטיים של שירותי בריאות נוצרו והועמדו לרשותכם בקטגוריה של Cloud Storage‏ (gs://hcls_testing_data_fhir_10_patients/csv/).

בשיעור ה-Lab הזה תלמדו:

  • איך להטמיע נתוני CSV (טעינה מתוזמנת באצווה) מ-GCS ל-BigQuery באמצעות Cloud Data Fusion.
  • איך ליצור באופן ויזואלי צינור לשילוב נתונים ב-Cloud Data Fusion כדי לטעון, לשנות ולהסתיר נתונים רפואיים בכמות גדולה.

מה צריך כדי להריץ את ה-Codelab הזה?

  • צריכה להיות לכם גישה לפרויקט GCP.
  • צריכה להיות לכם הרשאת 'בעלים' בפרויקט GCP.
  • נתוני בריאות בפורמט CSV, כולל הכותרת.

אם אין לכם פרויקט GCP, אתם יכולים לפעול לפי השלבים האלה כדי ליצור פרויקט GCP חדש.

נתוני בריאות בפורמט CSV נטענו מראש לקטגוריית GCS בכתובת gs://hcls_testing_data_fhir_10_patients/csv/. לכל קובץ CSV של משאב יש מבנה סכמה ייחודי. לדוגמה, ל-Patients.csv יש סכימה שונה מזו של Providers.csv. אפשר למצוא קובצי סכימה שנטענו מראש בכתובת gs://hcls_testing_data_fhir_10_patients/csv_schemas.

אם אתם צריכים מערך נתונים חדש, תמיד תוכלו ליצור אותו באמצעות SyntheaTM. לאחר מכן, מעלים אותו ל-GCS במקום להעתיק אותו מהמאגר בשלב 'העתקת נתוני קלט'.

2. הגדרת פרויקט GCP

מאתחלים משתני מעטפת עבור הסביבה.

כדי למצוא את PROJECT_ID, אפשר לעיין במאמר בנושא זיהוי פרויקטים.

<!-- CODELAB: Initialize shell variables ->
<!-- Your current GCP Project ID ->
export PROJECT_ID=<PROJECT_ID>
<!-- A new GCS Bucket in your current Project  - INPUT ->
export BUCKET_NAME=<BUCKET_NAME>
<!-- A new BQ Dataset ID - OUTPUT ->
export DATASET_ID=<DATASET_ID>

יוצרים קטגוריה ב-GCS לאחסון נתוני הקלט ויומני השגיאות באמצעות הכלי gsutil.

gsutil mb -l us gs://$BUCKET_NAME

קבלת גישה למערך הנתונים הסינתטי

  1. מכתובת האימייל שבה אתם משתמשים כדי להיכנס למסוף Cloud, שולחים אימייל אל hcls-solutions-external+subscribe@google.com ומבקשים להצטרף.
  2. תקבלו אימייל עם הוראות לאישור הפעולה. 525a0fa752e0acae.png
  3. משתמשים באפשרות להשיב לאימייל כדי להצטרף לקבוצה. אל תלחצו על הלחצן.
  4. אחרי שתקבלו את אישור ההרשמה באימייל, תוכלו להמשיך לשלב הבא ב-codelab.

העתקת נתוני הקלט.

gsutil -m cp -r gs://hcls_testing_data_fhir_10_patients/csv gs://$BUCKET_NAME

יוצרים מערך נתונים ב-BigQuery.

bq mk --location=us --dataset $PROJECT_ID:$DATASET_ID

3. הגדרת סביבת Cloud Data Fusion

כדי להפעיל את Cloud Data Fusion API ולהעניק את ההרשאות הנדרשות:

מפעילים את ממשקי ה-API.

  1. עוברים אל GCP Console API Library.
  2. ברשימת הפרויקטים, בוחרים את הפרויקט הרצוי.
  3. ב-API Library, בוחרים את ה-API שרוצים להפעיל. אם אתם צריכים עזרה באיתור ה-API, אתם יכולים להשתמש בשדה החיפוש או במסננים.
  4. בדף ה-API, לוחצים על ENABLE (הפעלה).

יוצרים מכונת Cloud Data Fusion.

  1. ב-GCP Console, בוחרים את ProjectID.
  2. בוחרים באפשרות Data Fusion מהתפריט הימני, ואז לוחצים על הלחצן CREATE AN INSTANCE (יצירת מופע) באמצע הדף (יצירה ראשונה), או לוחצים על הלחצן CREATE INSTANCE (יצירת מופע) בתפריט העליון (יצירה נוספת).

a828690ff3bf3c46.png

8372c944c94737ea.png

  1. מזינים את שם המכונה. בוחרים באפשרות Enterprise.

5af91e46917260ff.png

  1. לוחצים על הלחצן CREATE (יצירה).

הגדרת הרשאות למופע.

אחרי שיוצרים מופע, מבצעים את השלבים הבאים כדי לתת לחשבון השירות שמשויך למופע הרשאות בפרויקט:

  1. כדי לעבור לדף הפרטים של המכונה, לוחצים על שם המכונה.

76ad691f795e1ab3.png

  1. מעתיקים את חשבון השירות.

6c91836afb72209d.png

  1. עוברים לדף IAM של הפרויקט.
  2. בדף ההרשאות של IAM, מוסיפים את חשבון השירות כחבר חדש ומעניקים לו את התפקיד Cloud Data Fusion API Service Agent. לוחצים על הלחצן Add, מדביקים את 'חשבון השירות' בשדה New members ובוחרים באפשרות Service Management -> Cloud Data Fusion API Server Agent role.
  3. ea68b28d917a24b1.png
  4. לוחצים על שמירה.

אחרי שמבצעים את השלבים האלה, אפשר להתחיל להשתמש ב-Cloud Data Fusion. לשם כך, לוחצים על הקישור View Instance (הצגת המכונה) בדף המכונות של Cloud Data Fusion או בדף הפרטים של מכונה.

מגדירים את הכלל בחומת האש.

  1. עוברים אל מסוף GCP -> VPC Network -> Firewall rules כדי לבדוק אם הכלל default-allow-ssh קיים או לא.

102adef44bbe3a45.png

  1. אם לא, מוסיפים כלל חומת אש שמאפשר את כל תעבורת הנתונים הנכנסת של SSH לרשת שמוגדרת כברירת מחדל.

באמצעות שורת הפקודה:

gcloud beta compute --project={PROJECT_ID} firewall-rules create default-allow-ssh --direction=INGRESS --priority=1000 --network=default --action=ALLOW --rules=tcp:22 --source-ranges=0.0.0.0/0 --enable-logging

באמצעות ממשק המשתמש: לוחצים על Create Firewall Rule (יצירת כלל של חומת אש) וממלאים את הפרטים:

d9c69ac10496b3d9.png

2dc4971594b82a1f.png

4. יצירת סכימה לטרנספורמציה

עכשיו, אחרי שיש לנו את סביבת Cloud Fusion ב-GCP, נבנה סכימה. אנחנו צריכים את הסכימה הזו כדי לבצע טרנספורמציה של נתוני ה-CSV.

  1. בחלון Cloud Data Fusion, לוחצים על הקישור 'הצגת המופע' בעמודה 'פעולה'. המערכת תפנה אתכם לדף אחר. לוחצים על כתובת ה-URL שמופיעה כדי לפתוח את המכונה של Cloud Data Fusion. הבחירה שלכם אם ללחוץ על הלחצן 'התחלת סיור' או על הלחצן 'לא, תודה' בחלון הקופץ של הודעת הפתיחה.
  2. מרחיבים את תפריט ההמבורגר, בוחרים באפשרות Pipeline (צינור) -> Studio (סטודיו).

6561b13f30e36c3a.png

  1. בקטע Transform (טרנספורמציה) בפלטת התוספים בצד ימין, לוחצים פעמיים על הצומת Wrangler שיופיע בממשק המשתמש של Data Pipelines.

aa44a4db5fe6623a.png

  1. מציבים את הסמן מעל צומת ה-Wrangler ולוחצים על Properties (מאפיינים). לוחצים על הלחצן Wrangle ואז בוחרים קובץ מקור מסוג ‎.csv (לדוגמה, patients.csv). בקובץ הזה צריכים להיות כל שדות הנתונים כדי ליצור את הסכימה הרצויה.
  2. לוחצים על החץ למטה (המרות של עמודות) לצד כל שם עמודה (לדוגמה, body). 802edca8a97da18.png
  3. כברירת מחדל, הייבוא הראשוני יניח שיש רק עמודה אחת בקובץ הנתונים. כדי לנתח אותו כקובץ CSV, בוחרים באפשרות ניתוחCSV, ואז בוחרים את התו להפרדה ומסמנים את התיבה 'הגדרת השורה הראשונה ככותרת' לפי הצורך. לוחצים על הלחצן 'אישור'.
  4. לוחצים על החץ למטה לצד השדה 'גוף' ובוחרים באפשרות 'מחיקת העמודה' כדי להסיר את השדה 'גוף'. בנוסף, אפשר לנסות טרנספורמציות אחרות, כמו הסרת עמודות, שינוי סוג הנתונים של חלק מהעמודות (ברירת המחדל היא סוג 'מחרוזת'), פיצול עמודות, הגדרת שמות עמודות וכו'.

e6d2cda51ff298e7.png

  1. בכרטיסיות 'עמודות' ו'שלבי טרנספורמציה' מוצגים סכימת הפלט והמתכון של Wrangler. לוחצים על אישור בפינה השמאלית העליונה. לוחצים על הלחצן 'אימות'. ההודעה הירוקה 'לא נמצאו שגיאות' מציינת שהפעולה הצליחה.

1add853c43f2abee.png

  1. ב-Wrangler Properties, לוחצים על התפריט הנפתח Actions כדי Export את הסכימה הרצויה לאחסון המקומי לשימוש עתידי בImport אם צריך.
  2. שומרים את המתכון של Wrangler לשימוש עתידי.
parse-as-csv :body ',' true
drop body
  1. כדי לסגור את החלון Wrangler Properties (מאפייני Wrangler), לוחצים על הלחצן X.

5. פיתוח צמתים לצינור עיבוד הנתונים

בקטע הזה ניצור את רכיבי צינור העיבוד.

  1. בממשק המשתמש של Data Pipelines, בפינה הימנית העליונה, אמורה להופיע האפשרות Data Pipeline - Batch (צינור נתונים – אצווה) כסוג צינור הנתונים שנבחר.

af67c42ce3d98529.png

  1. בחלונית הימנית יש קטעים שונים כמו Filter (מסנן), Source (מקור), Transform (שינוי), Analytics (ניתוח), Sink (יעד), Conditions and Actions (תנאים ופעולות), Error Handlers (טיפול בשגיאות) ו-Alerts (התראות), שבהם אפשר לבחור צומת או צמתים לצינור.

c4438f7682f8b19b.png

צומת מקור

  1. בוחרים את צומת המקור.
  2. בקטע Source (מקור) בלוח התוספים שמימין, לוחצים לחיצה כפולה על הצומת Google Cloud Storage שמופיע בממשק המשתמש של Data Pipelines.
  3. מעבירים את העכבר מעל צומת המקור של GCS ולוחצים על מאפיינים.

87e51a3e8dae8b3f.png

  1. מזינים את הפרטים בשדות הדרושים. מגדירים את השדות הבאים:
  • Label = {any text}
  • שם הפניה = {כל טקסט}
  • Project ID = זיהוי אוטומטי
  • Path = כתובת GCS URL לדלי בפרויקט הנוכחי. לדוגמה, gs://$BUCKET_NAME/csv/
  • Format = text
  • Path Field = filename
  • Path Filename Only = true
  • Read Files Recursively = true
  1. מוסיפים את השדה filename (שם הקובץ) לסכימת הפלט של GCS על ידי לחיצה על הלחצן +.
  2. לחיצה על Documentation תציג הסבר מפורט. לוחצים על הלחצן 'אימות'. ההודעה הירוקה 'לא נמצאו שגיאות' מציינת שהפעולה הצליחה.
  3. כדי לסגור את המאפיינים של GCS, לוחצים על הלחצן X.

צומת של טרנספורמציה

  1. בוחרים את צומת הטרנספורמציה.
  2. בקטע Transform (טרנספורמציה) בפלטת התוספים בצד ימין, לוחצים פעמיים על הצומת Wrangler שמופיע בממשק המשתמש של Data Pipelines (צינורות נתונים). מחברים את צומת המקור GCS לצומת ההמרה Wrangler.
  3. מציבים את הסמן מעל צומת ה-Wrangler ולוחצים על Properties (מאפיינים).
  4. לוחצים על התפריט הנפתח פעולות ובוחרים באפשרות ייבוא כדי לייבא סכימה שמורה (לדוגמה: gs://hcls_testing_data_fhir_10_patients/csv_schemas/ schema (Patients).json), ומדביקים את המתכון השמור מהקטע הקודם.
  5. אפשר גם להשתמש מחדש בצומת Wrangler מהקטע יצירת סכימה לטרנספורמציה.
  6. מזינים את הפרטים בשדות הדרושים. מגדירים את השדות הבאים:
  • Label = {any text}
  • שם השדה להזנת קלט = {*}
  • Precondition = {filename != "patients.csv"} כדי להבחין בין כל קובץ קלט (לדוגמה, patients.csv,‏ providers.csv,‏ allergies.csv וכו') לבין צומת המקור.

2426f8f0a6c4c670.png

  1. מוסיפים צומת JavaScript כדי להריץ את ה-JavaScript שהמשתמש סיפק, שמשנה עוד יותר את הרשומות. ב-codelab הזה, אנחנו משתמשים בצומת JavaScript כדי לקבל חותמת זמן לכל עדכון של רשומה. מחברים את צומת ההמרה של Wrangler לצומת ההמרה של JavaScript. פותחים את Properties (מאפיינים) של JavaScript ומוסיפים את הפונקציה הבאה:

75212f9ad98265a8.png

function transform(input, emitter, context) {
  input.TIMESTAMP = (new Date()).getTime()*1000;
  emitter.emit(input);
}
  1. לוחצים על הסמל + כדי להוסיף את השדה TIMESTAMP לסכימת הפלט (אם הוא לא קיים). בוחרים את חותמת הזמן כסוג הנתונים.

4227389b57661135.png

  1. לקבלת הסבר מפורט, לוחצים על Documentation (מסמכים). לוחצים על הלחצן 'אימות' כדי לאמת את כל פרטי הקלט. ההודעה הירוקה 'לא נמצאו שגיאות' מציינת שהפעולה הצליחה.
  2. כדי לסגור את החלון 'מאפייני שינוי הצורה', לוחצים על הלחצן X.

אנונימיזציה והסרת פרטי הזיהוי מהנתונים

  1. אפשר לבחור עמודות נתונים ספציפיות על ידי לחיצה על החץ למטה בעמודה והחלת כללי מיסוך בהתאם לדרישות (לדוגמה, עמודת מספר הביטוח הלאומי).

bb1eb067dd6e0946.png

  1. אפשר להוסיף עוד הוראות בחלון Recipe של הצומת Wrangler. לדוגמה, כדי להסיר את הפרטים המזהים, משתמשים בהנחיית הגיבוב עם אלגוריתם הגיבוב לפי התחביר הבא:
hash <column> <algorithm> <encode>

<column>: name of the column
<algorithm>: Hashing algorithm (i.e. MD5, SHA-1, etc.)
<encode>: default is true (hashed digest is encoded as hex with left-padding zeros). To disable hex encoding, set <encode> to false.

cbcc9a0932f53197.png

צומת יעד

  1. בוחרים את צומת היעד.
  2. בקטע Sink בפלטת התוספים בצד ימין, לוחצים פעמיים על הצומת BigQuery שיופיע בממשק המשתמש של Data Pipeline.
  3. מציבים את הסמן מעל צומת היעד של BigQuery ולוחצים על Properties (מאפיינים).

1be711152c92c692.png

  1. ממלאים את שדות החובה. מגדירים את השדות הבאים:
  • Label = {any text}
  • שם הפניה = {כל טקסט}
  • Project ID = זיהוי אוטומטי
  • Dataset = מערך נתונים ב-BigQuery שמשמש בפרויקט הנוכחי (כלומר, DATASET_ID)
  • Table = {table name}
  1. לקבלת הסבר מפורט, לוחצים על Documentation (מסמכים). לוחצים על הלחצן 'אימות' כדי לאמת את כל פרטי הקלט. ההודעה הירוקה 'לא נמצאו שגיאות' מציינת שהפעולה הצליחה.

c5585747da2ef341.png

  1. כדי לסגור את BigQuery Properties, לוחצים על הלחצן X.

6. פיתוח פייפליין נתונים באצווה

חיבור כל הצמתים בצינור

  1. גוררים חץ של חיבור > מהקצה הימני של צומת המקור ומשחררים אותו בקצה השמאלי של צומת היעד.
  2. לצינור יכולים להיות כמה ענפים שמקבלים קובצי קלט מאותו צומת מקור GCS.

67510ab46bd44d36.png

  1. נותנים שם לצינור.

זה הכול. יצרתם עכשיו את פייפליין הנתונים הראשון שלכם לעיבוד באצווה, ואתם יכולים לפרוס ולהפעיל אותו.

שליחת התראות על צינורות עיבוד נתונים באימייל (אופציונלי)

כדי להשתמש בתכונה Pipeline Alert SendEmail, צריך להגדיר שרת דואר לשליחת דואר ממופע של מכונה וירטואלית. מידע נוסף זמין בקישור הבא:

שליחת אימייל ממכונה | מאמרי העזרה של Compute Engine

ב-Codelab הזה נגדיר שרת ממסר דואר דרך Mailgun לפי השלבים הבאים:

  1. כדי להגדיר חשבון ב-Mailgun ולהגדיר את שירות ממסר האימייל, פועלים לפי ההוראות במאמר שליחת אימייל באמצעות Mailgun | חומרי עזר של Compute Engine. בהמשך מפורטים שינויים נוספים.
  2. מוסיפים את כל כתובות האימייל של הנמענים לרשימת ההרשאות של Mailgun. הרשימה הזו נמצאת באפשרות Mailgun>Sending>Overview בחלונית הימנית.

7e6224cced3fa4e0.png fa78739f1ddf2dc2.png

אחרי שהנמענים ילחצו על 'אני מסכים/ה' באימייל שנשלח מכתובת support@mailgun.net, כתובות האימייל שלהם יישמרו ברשימה המורשית לקבלת התראות על צינורות.

72847c97fd5fce0f.png

  1. שלב 3 בקטע 'לפני שמתחילים' – יצירת כלל לחומת האש באופן הבא:

75b063c165091912.png

  1. שלב 3 מתוך 'הגדרת Mailgun כממסר דואר עם Postfix'. בוחרים באפשרות אתר אינטרנט או אינטרנט עם שרת חכם במקום באפשרות רק מקומי, כמו שמופיע בהוראות.

8fd8474a4ef18f16.png

  1. שלב 4 מתוך 'הגדרת Mailgun כשרת ממסר דואר באמצעות Postfix'. עורכים את vi /etc/postfix/main.cf כדי להוסיף את 10.128.0.0/9 בסוף mynetworks.

249fbf3edeff1ce8.png

  1. עורכים את vi /etc/postfix/master.cf כדי לשנות את ברירת המחדל של smtp ‏ (25) ליציאה 587.

86c82cf48c687e72.png

  1. בפינה השמאלית העליונה של סטודיו Data Fusion, לוחצים על Configure (הגדרה). לוחצים על Pipeline alert (התראה על צינור) ואז על לחצן + כדי לפתוח את החלון Alerts (התראות). בוחרים באפשרות SendEmail.

dc079a91f1b0da68.png

  1. ממלאים את טופס ההגדרה של אימייל. בתפריט הנפתח Run Condition בוחרים באפשרות completion, success או failure לכל סוג התראה. אם Include Workflow Token = false, יישלח רק המידע מהשדה Message. אם Include Workflow Token = true, המידע מהשדה Message ופרטים על Workflow Token נשלחים. חובה להשתמש באותיות קטנות בשדה פרוטוקול. אל תשתמשו בכתובת אימייל פיקטיבית בשדה שולח, אלא בכתובת האימייל של החברה שלכם.

1fa619b6ce28f5e5.png

7. הגדרה, פריסה, הפעלה או תזמון של צינור עיבוד נתונים

db612e62a1c7ab7e.png

  1. בפינה השמאלית העליונה של סטודיו Data Fusion, לוחצים על Configure (הגדרה). בוחרים באפשרות Spark for Engine Config (הגדרת מנוע). לוחצים על Save (שמירה) בחלון Configure (הגדרה).

8ecf7c243c125882.png

  1. לוחצים על תצוגה מקדימה כדי לראות תצוגה מקדימה של הנתונים**,** ולוחצים שוב על **תצוגה מקדימה** כדי לחזור לחלון הקודם. אפשר גם **להפעיל** את צינור הנתונים במצב תצוגה מקדימה.

b3c891e5e1aa20ae.png

  1. לוחצים על יומנים כדי לראות את היומנים.
  2. לוחצים על שמירה כדי לשמור את כל השינויים.
  3. לוחצים על ייבוא כדי לייבא הגדרת צינור עיבוד נתונים שנשמרה כשיוצרים צינור עיבוד נתונים חדש.
  4. לוחצים על ייצוא כדי לייצא הגדרה של צינור עיבוד נתונים.
  5. לוחצים על Deploy (פריסה) כדי לפרוס את צינור עיבוד הנתונים.
  6. אחרי הפריסה, לוחצים על Run ומחכים עד שהצינור יפעל עד הסוף.

bb06001d46a293db.png

  1. כדי לשכפל את צינור המכירות, לוחצים על הכפתור פעולות ובוחרים באפשרות 'שכפול'.
  2. כדי לייצא את הגדרות צינור עיבוד הנתונים, לוחצים על פעולות ואז על ייצוא.
  3. אם רוצים להגדיר טריגרים של צינורות, לוחצים על Inbound triggers (טריגרים נכנסים) או על Outbound triggers (טריגרים יוצאים) בקצה השמאלי או הימני של חלון Studio.
  4. לוחצים על תזמון כדי לתזמן את הפעלת צינור הנתונים וטעינת הנתונים באופן תקופתי.

4167fa67550a49d5.png

  1. בכרטיסייה סיכום מוצגים תרשימים של היסטוריית ההרצה, רשומות, יומני שגיאות ואזהרות.

8. אימות

  1. הצינור Validate הופעל בהצלחה.

7dee6e662c323f14.png

  1. מוודאים שלמערך הנתונים ב-BigQuery יש את כל הטבלאות.
bq ls $PROJECT_ID:$DATASET_ID
     tableId       Type    Labels   Time Partitioning
----------------- ------- -------- -------------------
 Allergies         TABLE
 Careplans         TABLE
 Conditions        TABLE
 Encounters        TABLE
 Imaging_Studies   TABLE
 Immunizations     TABLE
 Medications       TABLE
 Observations      TABLE
 Organizations     TABLE
 Patients          TABLE
 Procedures        TABLE
 Providers         TABLE
  1. קבלת התראות באימייל (אם הוגדרו).

איך רואים את התוצאות

כדי לראות את התוצאות אחרי הפעלת הצינור:

  1. מריצים שאילתה על הטבלה בממשק המשתמש של BigQuery. מעבר לממשק המשתמש של BigQuery
  2. מעדכנים את השאילתה שלמטה לשם הפרויקט, מערך הנתונים והטבלה שלכם.

e32bfd5d965a117f.png

9. סידור וארגון

כדי להימנע מחיובים בחשבון Google Cloud Platform בגלל השימוש במשאבים שנעשה במסגרת המדריך הזה:

בסיום המדריך, חשוב למחוק את המשאבים שיצרתם ב-GCP כדי שלא יתפסו חלק מהמכסה שלכם ולא תחויבו עליהם בעתיד. בסעיפים הבאים מוסבר איך למחוק או להשבית את המשאבים האלו.

מחיקת מערך הנתונים ב-BigQuery

כדי למחוק את מערך הנתונים ב-BigQuery שיצרתם במסגרת המדריך הזה, פועלים לפי ההוראות האלה.

מחיקת קטגוריית GCS

כדי למחוק את קטגוריית ה-GCS שיצרתם כחלק מההדרכה הזו, פועלים לפי ההוראות הבאות.

מחיקת מכונת Cloud Data Fusion

פועלים לפי ההוראות כדי למחוק את מופע Cloud Data Fusion.

מחיקת הפרויקט

הדרך הקלה ביותר לבטל את החיוב היא למחוק את הפרויקט שיצרתם בשביל המדריך.

כדי למחוק את הפרויקט:

  1. במסוף GCP, נכנסים לדף Projects. כניסה לדף Projects
  2. ברשימת הפרויקטים, בוחרים את הפרויקט שרוצים למחוק ולוחצים על מחיקה.
  3. כדי למחוק את הפרויקט, כותבים את מזהה הפרויקט בתיבת הדו-שיח ולוחצים על Shut down.

10. מזל טוב

סיימתם בהצלחה את סדנת הקוד להטמעת נתונים בתחום הבריאות ב-BigQuery באמצעות Cloud Data Fusion.

ייבאתם נתוני CSV מ-Google Cloud Storage ל-BigQuery.

יצרתם באופן ויזואלי את צינור עיבוד הנתונים לשילוב נתונים כדי לטעון, לשנות ולהסתיר נתונים של שירותי בריאות בכמות גדולה.

עכשיו אתם יודעים מהם השלבים העיקריים שצריך לבצע כדי להתחיל את התהליך של ניתוח נתונים בתחום הבריאות באמצעות BigQuery ב-Google Cloud Platform.