داده‌های CSV را با استفاده از Cloud Data Fusion - انتقال دسته‌ای به BigQuery وارد کنید

۱. مقدمه

12fb66cc134b50ef.png

آخرین به‌روزرسانی: 2020-02-28

این آزمایشگاه کد، الگوی دریافت داده را برای دریافت داده‌های مراقبت‌های بهداشتی با فرمت CSV به صورت انبوه در BigQuery نشان می‌دهد. ما برای این آزمایشگاه از خط لوله داده ترکیبی ابری (Cloud Data fusion Batch Data pipeline) استفاده خواهیم کرد. داده‌های آزمایشی مراقبت‌های بهداشتی واقع‌گرایانه تولید شده و در سطل ذخیره‌سازی ابری گوگل ( gs://hcls_testing_data_fhir_10_patients/csv/ ) برای شما در دسترس قرار گرفته است.

در این آزمایشگاه کد شما یاد خواهید گرفت:

  • نحوه دریافت داده‌های CSV (بارگذاری دسته‌ای زمان‌بندی‌شده) از GCS به BigQuery با استفاده از Cloud Data Fusion .
  • نحوه ساخت بصری یک خط لوله ادغام داده‌ها در Cloud Data Fusion برای بارگیری، تبدیل و پوشش داده‌های مراقبت‌های بهداشتی به صورت انبوه .

برای اجرای این codelab به چه چیزهایی نیاز دارید؟

  • شما نیاز به دسترسی به یک پروژه GCP دارید.
  • شما باید نقش مالک (Owner) را برای پروژه GCP داشته باشید.
  • داده‌های مراقبت‌های بهداشتی در قالب CSV، شامل سربرگ.

اگر پروژه GCP ندارید، برای ایجاد یک پروژه GCP جدید، این مراحل را دنبال کنید.

داده‌های مراقبت‌های بهداشتی در قالب CSV از قبل در باکت GCS در آدرس gs://hcls_testing_data_fhir_10_patients/csv/ بارگذاری شده‌اند. هر فایل CSV منبع، ساختار طرحواره منحصر به فرد خود را دارد. به عنوان مثال، Patients.csv طرحواره متفاوتی نسبت به Providers.csv دارد. فایل‌های طرحواره از پیش بارگذاری شده را می‌توانید در آدرس gs://hcls_testing_data_fhir_10_patients/csv_schemas بیابید.

اگر به یک مجموعه داده جدید نیاز دارید، همیشه می‌توانید آن را با استفاده از Synthea™ تولید کنید. سپس، به جای کپی کردن آن از سطل در مرحله کپی کردن داده‌های ورودی، آن را در GCS آپلود کنید.

۲. راه‌اندازی پروژه GCP

متغیرهای پوسته را برای محیط خود مقداردهی اولیه کنید.

برای یافتن PROJECT_ID ، به شناسایی پروژه‌ها مراجعه کنید.

<!-- CODELAB: Initialize shell variables ->
<!-- Your current GCP Project ID ->
export PROJECT_ID=<PROJECT_ID>
<!-- A new GCS Bucket in your current Project  - INPUT ->
export BUCKET_NAME=<BUCKET_NAME>
<!-- A new BQ Dataset ID - OUTPUT ->
export DATASET_ID=<DATASET_ID>

با استفاده از ابزار gsutil، یک سطل GCS برای ذخیره داده‌های ورودی و گزارش‌های خطا ایجاد کنید .

gsutil mb -l us gs://$BUCKET_NAME

به مجموعه داده‌های مصنوعی دسترسی پیدا کنید.

  1. از آدرس ایمیلی که برای ورود به Cloud Console استفاده می‌کنید، یک ایمیل به hcls-solutions-external+subscribe@google.com ارسال کنید و درخواست عضویت دهید.
  2. شما یک ایمیل با دستورالعمل‌هایی در مورد نحوه تأیید اقدام دریافت خواهید کرد. 525a0fa752e0acae.png
  3. برای عضویت در گروه، از گزینه پاسخ به ایمیل استفاده کنید. روی دکمه کلیک نکنید.
  4. پس از دریافت ایمیل تأیید، می‌توانید به مرحله بعدی در codelab بروید.

کپی کردن داده‌های ورودی

gsutil -m cp -r gs://hcls_testing_data_fhir_10_patients/csv gs://$BUCKET_NAME

یک مجموعه داده BigQuery ایجاد کنید.

bq mk --location=us --dataset $PROJECT_ID:$DATASET_ID

۳. تنظیمات محیط ادغام داده‌های ابری

برای فعال کردن API ادغام داده‌های ابری و اعطای مجوزهای لازم، این مراحل را دنبال کنید:

فعال کردن API ها

  1. به کتابخانه API کنسول GCP بروید.
  2. از لیست پروژه‌ها، پروژه خود را انتخاب کنید.
  3. در کتابخانه API، API مورد نظر برای فعال‌سازی را انتخاب کنید. اگر برای یافتن API به کمک نیاز دارید، از فیلد جستجو و/یا فیلترها استفاده کنید.
  4. در صفحه API، روی فعال کردن (ENABLE) کلیک کنید.

یک نمونه Cloud Data Fusion ایجاد کنید .

  1. در کنسول GCP، ProjectID خود را انتخاب کنید.
  2. از منوی سمت چپ، Data Fusion را انتخاب کنید، سپس روی دکمه CREATE AN INSTANCE در وسط صفحه (اولین ایجاد) کلیک کنید، یا روی دکمه CREATE INSTANCE در منوی بالا (ایجاد اضافی) کلیک کنید.

a828690ff3bf3c46.png

8372c944c94737ea.png

  1. نام نمونه را وارد کنید. Enterprise را انتخاب کنید.

5af91e46917260ff.png

  1. روی دکمه‌ی CREATE کلیک کنید.

مجوزهای نمونه را تنظیم کنید.

پس از ایجاد یک نمونه، از مراحل زیر برای اعطای مجوزهای مربوط به حساب سرویس در پروژه خود استفاده کنید:

  1. با کلیک روی نام نمونه، به صفحه جزئیات نمونه بروید.

76ad691f795e1ab3.png

  1. حساب سرویس را کپی کنید.

6c91836afb72209d.png

  1. به صفحه IAM پروژه خود بروید.
  2. در صفحه مجوزهای IAM، اکنون حساب سرویس را به عنوان یک عضو جدید اضافه می‌کنیم و نقش Cloud Data Fusion API Service Agent را به آن اعطا می‌کنیم. روی دکمه Add کلیک کنید، سپس "حساب سرویس" را در فیلد New members جایگذاری کنید و Service Management -> Cloud Data Fusion API Server Agent role را انتخاب کنید.
  3. ea68b28d917a24b1.png
  4. روی ذخیره کلیک کنید.

پس از انجام این مراحل، می‌توانید با کلیک روی پیوند مشاهده نمونه در صفحه نمونه‌های Cloud Data Fusion یا صفحه جزئیات یک نمونه، استفاده از Cloud Data Fusion را شروع کنید.

قانون فایروال را تنظیم کنید.

  1. برای بررسی وجود یا عدم وجود قانون default-allow-ssh، به کنسول GCP -> شبکه VPC -> قوانین فایروال بروید.

102adef44bbe3a45.png

  1. اگر اینطور نیست، یک قانون فایروال اضافه کنید که به همه ترافیک SSH ورودی به شبکه پیش‌فرض اجازه عبور دهد.

با استفاده از خط فرمان:

gcloud beta compute --project={PROJECT_ID} firewall-rules create default-allow-ssh --direction=INGRESS --priority=1000 --network=default --action=ALLOW --rules=tcp:22 --source-ranges=0.0.0.0/0 --enable-logging

استفاده از رابط کاربری: روی ایجاد قانون فایروال کلیک کنید و اطلاعات را پر کنید:

d9c69ac10496b3d9.png

2dc4971594b82a1f.png

۴. یک طرحواره برای تحول بسازید

حالا که محیط Cloud Fusion را در GCP داریم، بیایید یک طرحواره بسازیم. ما برای تبدیل داده‌های CSV به این طرحواره نیاز داریم.

  1. در پنجره Cloud Data Fusion، روی لینک View Instance در ستون Action کلیک کنید. به صفحه دیگری هدایت خواهید شد. برای باز کردن نمونه Cloud Data Fusion، روی آدرس اینترنتی ارائه شده کلیک کنید. در پنجره خوشامدگویی، می‌توانید روی دکمه "شروع تور" یا "خیر، متشکرم" کلیک کنید.
  2. منوی «همبرگر» را باز کنید، Pipeline -> Studio را انتخاب کنید.

6561b13f30e36c3a.png

  1. در بخش Transform در پالت Plugin در سمت چپ، روی گره Wrangler دوبار کلیک کنید، که در رابط کاربری Data Pipelines ظاهر می‌شود.

aa44a4db5fe6623a.png

  1. به گره Wrangler اشاره کنید و روی Properties کلیک کنید. روی دکمه Wrangle کلیک کنید، سپس یک فایل منبع .csv (برای مثال، patients.csv) انتخاب کنید، که باید تمام فیلدهای داده را برای ساخت طرحواره مورد نظر داشته باشد.
  2. روی فلش رو به پایین (Column Transformations) کنار نام هر ستون (مثلاً body) کلیک کنید. 802edca8a97da18.png
  3. به طور پیش‌فرض، وارد کردن اولیه فرض می‌کند که فقط یک ستون در فایل داده شما وجود دارد. برای تجزیه آن به عنوان CSV، ParseCSV را انتخاب کنید، سپس جداکننده را انتخاب کرده و کادر "Set first row as header" را در صورت لزوم علامت بزنید. روی دکمه Apply کلیک کنید.
  4. روی فلش رو به پایین کنار فیلد بدنه کلیک کنید، گزینه حذف ستون (Delete Column) را برای حذف فیلد بدنه انتخاب کنید. علاوه بر این، می‌توانید تبدیل‌های دیگری مانند حذف ستون‌ها، تغییر نوع داده برای برخی ستون‌ها (پیش‌فرض نوع "رشته" است)، تقسیم ستون‌ها، تنظیم نام ستون‌ها و غیره را امتحان کنید.

e6d2cda51ff298e7.png

  1. زبانه‌های «ستون‌ها» و «مراحل تبدیل» طرحواره خروجی و دستور غذای Wrangler را نشان می‌دهند. روی «اعمال» در گوشه بالا سمت راست کلیک کنید. روی دکمه اعتبارسنجی کلیک کنید. علامت سبز «هیچ خطایی یافت نشد» نشان دهنده موفقیت است.

1add853c43f2abee.png

  1. در Wrangler Properties، روی منوی کشویی Actions کلیک کنید تا طرحواره مورد نظر را در حافظه محلی خود صادر کنید تا در صورت نیاز در آینده بتوانید آن را وارد کنید .
  2. دستور پخت رنگلر را برای استفاده‌های بعدی ذخیره کنید.
parse-as-csv :body ',' true
drop body
  1. برای بستن پنجره‌ی Wrangler Properties، روی دکمه‌ی X کلیک کنید.

۵. گره‌هایی برای خط لوله بسازید

در این بخش اجزای خط لوله را خواهیم ساخت.

  1. در رابط کاربری Data Pipelines، در بالا سمت چپ، باید ببینید که Data Pipeline - Batch به عنوان نوع خط لوله انتخاب شده است.

af67c42ce3d98529.png

  1. بخش‌های مختلفی در پنل سمت چپ مانند فیلتر، منبع، تبدیل، تجزیه و تحلیل، چاهک، شرایط و اقدامات، کنترل‌کننده‌های خطا و هشدارها وجود دارد که می‌توانید یک یا چند گره را برای خط لوله انتخاب کنید.

c4438f7682f8b19b.png

گره منبع

  1. گره منبع (Source) را انتخاب کنید.
  2. در قسمت Source در پنل Plugin در سمت چپ، روی گره Google Cloud Storage که در رابط کاربری Data Pipelines ظاهر می‌شود، دوبار کلیک کنید.
  3. به گره منبع GCS اشاره کنید و روی Properties کلیک کنید.

87e51a3e8dae8b3f.png

  1. فیلدهای مورد نیاز را پر کنید. فیلدهای زیر را تنظیم کنید:
  • برچسب = {هر متنی}
  • نام مرجع = {هر متنی}
  • شناسه پروژه = تشخیص خودکار
  • مسیر = آدرس اینترنتی GCS برای باکت در پروژه فعلی شما. برای مثال، gs://$BUCKET_NAME/csv/
  • قالب = متن
  • فیلد مسیر = نام فایل
  • فقط نام فایل مسیر = درست
  • خواندن فایل‌ها به صورت بازگشتی = true
  1. با کلیک روی دکمه فیلد «filename» را به GCS Output Schema اضافه کنید.
  2. برای توضیحات بیشتر روی مستندات کلیک کنید. روی دکمه اعتبارسنجی کلیک کنید. علامت سبز رنگ "هیچ خطایی یافت نشد" نشان دهنده موفقیت است.
  3. برای بستن پنجره‌ی GCS Properties، روی دکمه‌ی X کلیک کنید.

گره تبدیل

  1. گره Transform را انتخاب کنید.
  2. در قسمت Transform در پالت Plugin در سمت چپ، روی گره Wrangler که در رابط کاربری Data Pipelines ظاهر می‌شود، دوبار کلیک کنید. گره منبع GCS را به گره تبدیل Wrangler متصل کنید.
  3. به گره Wrangler اشاره کنید و روی Properties کلیک کنید.
  4. روی منوی کشویی Actions کلیک کنید و Import را انتخاب کنید تا یک طرحواره ذخیره شده (برای مثال: gs://hcls_testing_data_fhir_10_patients/csv_schemas/ schema (Patients).json ) را وارد کنید و دستور العمل ذخیره شده از بخش قبل را جایگذاری کنید .
  5. یا، از گره Wrangler از بخش « ساخت یک طرحواره برای تبدیل» دوباره استفاده کنید.
  6. فیلدهای مورد نیاز را پر کنید. فیلدهای زیر را تنظیم کنید:
  • برچسب = {هر متنی}
  • نام فیلد ورودی = {*}
  • پیش‌شرط = {filename != "patients.csv"} برای تمایز هر فایل ورودی ( برای مثال، patients.csv، providers.csv، allergens.csv و غیره ) از گره منبع.

۲۴۲۶f۸f۰a۶c۴c۶۷۰.png

  1. یک گره جاوا اسکریپت اضافه کنید تا جاوا اسکریپت ارائه شده توسط کاربر را اجرا کند که رکوردها را بیشتر تبدیل می‌کند. در این آزمایشگاه کد، ما از گره جاوا اسکریپت برای دریافت یک مهر زمانی برای هر به‌روزرسانی رکورد استفاده می‌کنیم. گره تبدیل Wrangler را به گره تبدیل جاوا اسکریپت متصل کنید. ویژگی‌های جاوا اسکریپت را باز کنید و تابع زیر را اضافه کنید:

75212f9ad98265a8.png

function transform(input, emitter, context) {
  input.TIMESTAMP = (new Date()).getTime()*1000;
  emitter.emit(input);
}
  1. فیلدی با نام TIMESTAMP را با کلیک روی علامت + به طرحواره خروجی (در صورت عدم وجود) اضافه کنید. نوع داده را timestamp انتخاب کنید.

4227389b57661135.png

  1. برای توضیحات بیشتر روی مستندات کلیک کنید. برای تأیید تمام اطلاعات ورودی، روی دکمه اعتبارسنجی کلیک کنید. رنگ سبز "هیچ خطایی یافت نشد" نشان دهنده موفقیت است.
  2. برای بستن پنجره Transform Properties، روی دکمه X کلیک کنید.

پنهان‌سازی داده‌ها و عدم شناسایی

  1. شما می‌توانید ستون‌های داده‌ای جداگانه را با کلیک روی فلش رو به پایین در ستون و اعمال قوانین پوشش در زیر انتخاب داده‌های ماسک مطابق با نیازهای خود (به عنوان مثال، ستون SSN) انتخاب کنید.

bb1eb067dd6e0946.png

  1. شما می‌توانید دستورالعمل‌های بیشتری را در پنجره دستور پخت گره Wrangler اضافه کنید. برای مثال، استفاده از دستورالعمل هش با الگوریتم هشینگ زیر برای اهداف شناسایی:
hash <column> <algorithm> <encode>

<column>: name of the column
<algorithm>: Hashing algorithm (i.e. MD5, SHA-1, etc.)
<encode>: default is true (hashed digest is encoded as hex with left-padding zeros). To disable hex encoding, set <encode> to false.

cbcc9a0932f53197.png

گره سینک

  1. گره سینک را انتخاب کنید.
  2. در قسمت Sink در پنل Plugin در سمت چپ، روی گره BigQuery دوبار کلیک کنید، که در رابط کاربری Data Pipeline ظاهر می‌شود.
  3. به گره سینک BigQuery اشاره کنید و روی Properties کلیک کنید.

1be711152c92c692.png

  1. فیلدهای مورد نیاز را پر کنید. فیلدهای زیر را تنظیم کنید:
  • برچسب = {هر متنی}
  • نام مرجع = {هر متنی}
  • شناسه پروژه = تشخیص خودکار
  • مجموعه داده = مجموعه داده BigQuery که در پروژه فعلی استفاده شده است (یعنی DATASET_ID)
  • جدول = {نام جدول}
  1. برای توضیحات بیشتر روی مستندات کلیک کنید. برای تأیید تمام اطلاعات ورودی، روی دکمه اعتبارسنجی کلیک کنید. رنگ سبز "هیچ خطایی یافت نشد" نشان دهنده موفقیت است.

c5585747da2ef341.png

  1. برای بستن BigQuery Properties، روی دکمه X کلیک کنید.

۶. ساخت خط لوله داده دسته‌ای

اتصال همه گره‌ها در یک خط لوله

  1. یک فلش اتصال > را در لبه سمت راست گره منبع بکشید و در لبه سمت چپ گره مقصد رها کنید.
  2. یک خط لوله می‌تواند چندین شاخه داشته باشد که فایل‌های ورودی را از یک گره منبع GCS دریافت می‌کنند.

67510ab46bd44d36.png

  1. خط لوله را نام ببرید.

همین. شما اولین خط لوله داده دسته‌ای خود را ایجاد کرده‌اید و می‌توانید خط لوله را مستقر و اجرا کنید.

ارسال هشدارهای خط لوله از طریق ایمیل (اختیاری)

برای استفاده از ویژگی Pipeline Alert SendEmail، پیکربندی نیاز به راه‌اندازی یک سرور ایمیل برای ارسال ایمیل از یک نمونه ماشین مجازی دارد. برای اطلاعات بیشتر به لینک مرجع زیر مراجعه کنید:

ارسال ایمیل از یک نمونه | مستندات موتور محاسبه

در این آزمایشگاه کد، ما با استفاده از مراحل زیر، یک سرویس رله ایمیل را از طریق Mailgun راه‌اندازی می‌کنیم:

  1. برای ایجاد حساب کاربری با Mailgun و پیکربندی سرویس رله ایمیل، دستورالعمل‌های موجود در بخش ارسال ایمیل با Mailgun | مستندات موتور محاسبات را دنبال کنید. تغییرات اضافی در زیر آمده است.
  2. آدرس‌های ایمیل همه گیرندگان را به لیست مجاز Mailgun اضافه کنید. این لیست را می‌توانید در گزینه Mailgun>Sending>Overview در پنل سمت چپ پیدا کنید.

7e6224cced3fa4e0.pngfa78739f1ddf2dc2.png

به محض اینکه گیرندگان روی دکمه «موافقم» در ایمیل ارسال شده از support@mailgun.net کلیک کنند، آدرس‌های ایمیل آنها در لیست مجاز برای دریافت ایمیل‌های هشدار خط لوله ذخیره می‌شوند.

72847c97fd5fce0f.png

  1. مرحله ۳ از بخش «قبل از شروع» - یک قانون فایروال به شرح زیر ایجاد کنید:

75b063c165091912.png

  1. مرحله ۳ از «پیکربندی Mailgun به عنوان رله ایمیل با Postfix». همانطور که در دستورالعمل‌ها ذکر شده است، به جای Local Only ، گزینه Internet Site یا Internet with smarthost را انتخاب کنید.

8fd8474a4ef18f16.png

  1. مرحله ۴ از «پیکربندی Mailgun به عنوان رله ایمیل با Postfix». فایل vi /etc/postfix/main.cf را ​​ویرایش کنید تا 10.128.0.0/9 را به انتهای mynetworks اضافه کنید.

۲۴۹fbf3edeff1ce8.png

  1. برای تغییر پورت پیش‌فرض smtp (25) به 587، فایل vi /etc/postfix/master.cf را ​​ویرایش کنید.

86c82cf48c687e72.png

  1. در گوشه سمت راست بالای Data Fusion studio، روی Configure کلیک کنید. روی Pipeline alert کلیک کنید و دکمه + را بزنید تا پنجره Alerts باز شود. SendEmail را انتخاب کنید.

dc079a91f1b0da68.png

  1. فرم پیکربندی ایمیل را پر کنید. برای هر نوع هشدار، از منوی کشویی Run Condition یکی از گزینه‌های تکمیل، موفقیت یا شکست را انتخاب کنید. اگر Include Workflow Token = false باشد ، فقط اطلاعات فیلد Message ارسال می‌شود. اگر Include Workflow Token = true باشد ، اطلاعات فیلد Message و اطلاعات دقیق Workflow Token ارسال می‌شود. برای Protocol باید از حروف کوچک استفاده کنید. برای Sender از هر ایمیل " جعلی " غیر از آدرس ایمیل شرکت خود استفاده کنید.

۱fa619b6ce28f5e5.png

۷. پیکربندی، استقرار، اجرا/زمان‌بندی خط لوله

db612e62a1c7ab7e.png

  1. در گوشه بالا سمت راست Data Fusion studio، روی Configure کلیک کنید. Spark را برای Engine Config انتخاب کنید. در پنجره Configure روی Save کلیک کنید.

8ecf7c243c125882.png

  1. برای پیش‌نمایش داده‌ها، روی «پیش‌نمایش» کلیک کنید و برای بازگشت به پنجره قبلی، دوباره روی «پیش‌نمایش» کلیک کنید. همچنین می‌توانید خط لوله را در حالت پیش‌نمایش **اجرا** کنید.

b3c891e5e1aa20ae.png

  1. برای مشاهده گزارش‌ها، روی گزارش‌ها کلیک کنید.
  2. برای ذخیره همه تغییرات، روی ذخیره کلیک کنید.
  3. برای وارد کردن پیکربندی خط لوله ذخیره شده هنگام ساخت خط لوله جدید، روی «وارد کردن» کلیک کنید.
  4. برای خروجی گرفتن از پیکربندی خط لوله، روی Export کلیک کنید.
  5. برای استقرار خط لوله، روی «استقرار» کلیک کنید.
  6. پس از استقرار، روی Run کلیک کنید و منتظر بمانید تا خط لوله به طور کامل اجرا شود.

bb06001d46a293db.png

  1. شما می‌توانید با انتخاب گزینه‌ی «تکثیر» در زیر دکمه‌ی «اقدامات» ، خط لوله را کپی کنید.
  2. شما می‌توانید با انتخاب گزینه‌ی «صادرات» در زیر دکمه‌ی «اقدامات» ، پیکربندی خط لوله را صادر کنید.
  3. در صورت تمایل، برای تنظیم محرک‌های خط لوله، روی Inbound triggers یا Outbound triggers در لبه چپ یا راست پنجره Studio کلیک کنید.
  4. برای زمان‌بندی اجرای خط لوله و بارگذاری داده‌ها به صورت دوره‌ای، روی «زمان‌بندی» کلیک کنید.

4167fa67550a49d5.png

  1. خلاصه نمودارهایی از تاریخچه اجرا، رکوردها، گزارش‌های خطا و هشدارها را نشان می‌دهد.

۸. اعتبارسنجی

  1. خط لوله اعتبارسنجی با موفقیت اجرا شد.

7dee6e662c323f14.png

  1. اعتبارسنجی کنید که آیا BigQuery Dataset همه جداول را دارد یا خیر.
bq ls $PROJECT_ID:$DATASET_ID
     tableId       Type    Labels   Time Partitioning
----------------- ------- -------- -------------------
 Allergies         TABLE
 Careplans         TABLE
 Conditions        TABLE
 Encounters        TABLE
 Imaging_Studies   TABLE
 Immunizations     TABLE
 Medications       TABLE
 Observations      TABLE
 Organizations     TABLE
 Patients          TABLE
 Procedures        TABLE
 Providers         TABLE
  1. دریافت ایمیل‌های هشدار (در صورت پیکربندی).

مشاهده نتایج

برای مشاهده نتایج پس از اجرای pipeline:

  1. جدول را در رابط کاربری BigQuery جستجو کنید. به رابط کاربری BigQuery بروید
  2. کوئری زیر را با نام پروژه، مجموعه داده و جدول خودتان به‌روزرسانی کنید.

e32bfd5d965a117f.png

۹. تمیز کردن

برای جلوگیری از تحمیل هزینه به حساب پلتفرم گوگل کلود خود برای منابع استفاده شده در این آموزش:

بعد از اتمام آموزش، می‌توانید منابعی را که در GCP ایجاد کرده‌اید، پاک کنید تا سهمیه شما را اشغال نکنند و در آینده برای آنها هزینه‌ای از شما دریافت نشود. بخش‌های بعدی نحوه حذف یا غیرفعال کردن این منابع را شرح می‌دهند.

حذف مجموعه داده BigQuery

برای حذف مجموعه داده BigQuery که به عنوان بخشی از این آموزش ایجاد کرده‌اید، این دستورالعمل‌ها را دنبال کنید.

حذف سطل GCS

برای حذف سطل GCS که به عنوان بخشی از این آموزش ایجاد کرده‌اید، این دستورالعمل‌ها را دنبال کنید.

حذف نمونه Cloud Data Fusion

برای حذف نمونه Cloud Data Fusion خود، این دستورالعمل‌ها را دنبال کنید.

حذف پروژه

ساده‌ترین راه برای حذف هزینه‌ها، حذف پروژه‌ای است که برای آموزش ایجاد کرده‌اید.

برای حذف پروژه:

  1. در کنسول GCP، به صفحه پروژه‌ها بروید. به صفحه پروژه‌ها بروید
  2. در لیست پروژه‌ها، پروژه‌ای را که می‌خواهید حذف کنید انتخاب کنید و روی «حذف» کلیک کنید.
  3. در کادر محاوره‌ای، شناسه پروژه را تایپ کنید و سپس برای حذف پروژه، روی خاموش کردن کلیک کنید.

۱۰. تبریک

تبریک می‌گویم، شما با موفقیت آزمایشگاه کد برای دریافت داده‌های مراقبت‌های بهداشتی در BigQuery با استفاده از Cloud Data Fusion را به پایان رساندید.

شما داده‌های CSV را از فضای ذخیره‌سازی ابری گوگل به BigQuery وارد کرده‌اید.

شما به صورت بصری خط لوله یکپارچه‌سازی داده‌ها را برای بارگیری، تبدیل و پوشش‌دهی داده‌های مراقبت‌های بهداشتی به صورت انبوه ساختید.

اکنون مراحل کلیدی مورد نیاز برای شروع سفر تجزیه و تحلیل داده‌های مراقبت‌های بهداشتی خود با BigQuery در پلتفرم Google Cloud را می‌دانید.