۱. مقدمه

آخرین بهروزرسانی: 2020-02-28
این آزمایشگاه کد، الگوی دریافت داده را برای دریافت دادههای مراقبتهای بهداشتی با فرمت CSV در BigQuery به صورت بلادرنگ نشان میدهد. ما برای این آزمایشگاه از Cloud Data fusion Real time Data pipeline استفاده خواهیم کرد. دادههای تست مراقبتهای بهداشتی واقعگرایانه تولید شده و در مخزن ذخیرهسازی ابری گوگل (gs://hcls_testing_data_fhir_10_patients/csv/) برای شما در دسترس قرار گرفته است.
در این آزمایشگاه کد شما یاد خواهید گرفت:
- نحوه دریافت دادههای CSV (بارگذاری بلادرنگ) از Pub/Sub به BigQuery با استفاده از Cloud Data Fusion .
- نحوه ساخت بصری یک خط لوله ادغام دادهها در Cloud Data Fusion برای بارگیری، تبدیل و پوشش دادههای مراقبتهای بهداشتی به صورت بلادرنگ .
برای اجرای این دمو به چه چیزهایی نیاز دارید؟
- شما نیاز به دسترسی به یک پروژه GCP دارید.
- شما باید نقش مالک (Owner) را در پروژه GCP داشته باشید.
- دادههای مراقبتهای بهداشتی در قالب CSV، شامل سربرگ.
اگر پروژه GCP ندارید، برای ایجاد یک پروژه GCP جدید، این مراحل را دنبال کنید.
دادههای مراقبتهای بهداشتی در قالب CSV از قبل در مخزن GCS در آدرس gs://hcls_testing_data_fhir_10_patients/csv/ بارگذاری شدهاند. هر فایل منبع CSV ساختار طرحواره منحصر به فردی دارد. به عنوان مثال، Patients.csv طرحوارهای متفاوت از Providers.csv دارد. فایلهای طرحواره از پیش بارگذاری شده را میتوانید در آدرس gs://hcls_testing_data_fhir_10_patients/csv_schemas بیابید.
اگر به یک مجموعه داده جدید نیاز دارید، همیشه میتوانید آن را با استفاده از Synthea™ تولید کنید. سپس، به جای کپی کردن آن از سطل داده در مرحله کپی کردن دادههای ورودی، آن را در GCS آپلود کنید.
۲. راهاندازی پروژه GCP
متغیرهای پوسته را برای محیط خود مقداردهی اولیه کنید.
برای یافتن PROJECT_ID ، به شناسایی پروژهها مراجعه کنید.
<!-- CODELAB: Initialize shell variables -> <!-- Your current GCP Project ID -> export PROJECT_ID=<PROJECT_ID> <!-- A new GCS Bucket in your current Project - INPUT -> export BUCKET_NAME=<BUCKET_NAME> <!-- A new BQ Dataset ID - OUTPUT -> export DATASET_ID=<DATASET_ID>
با استفاده از ابزار gsutil، یک سطل GCS برای ذخیره دادههای ورودی و گزارشهای خطا ایجاد کنید .
gsutil mb -l us gs://$BUCKET_NAME
به مجموعه دادههای مصنوعی دسترسی پیدا کنید.
- از آدرس ایمیلی که برای ورود به Cloud Console استفاده میکنید، یک ایمیل به hcls-solutions-external+subscribe@google.com ارسال کنید و درخواست عضویت دهید.
- شما یک ایمیل با دستورالعملهایی در مورد نحوه تأیید اقدام دریافت خواهید کرد.
- برای پیوستن به گروه، از گزینه پاسخ به ایمیل استفاده کنید. روی دکمه کلیک نکنید.
دکمه - پس از دریافت ایمیل تأیید، میتوانید به مرحله بعدی در codelab بروید.
کپی کردن دادههای ورودی
gsutil -m cp -r gs://hcls_testing_data_fhir_10_patients/csv gs://$BUCKET_NAME
یک مجموعه داده BigQuery ایجاد کنید.
bq mk --location=us --dataset $PROJECT_ID:$DATASET_ID
Google Cloud SDK را نصب و راهاندازی کنید و Pub یا Subtopic و Subscriptions ایجاد کنید.
gcloud init gcloud pubsub topics create your-topic gcloud pubsub subscriptions create --topic your-topic your-sub
۳. تنظیمات محیط ادغام دادههای ابری
برای فعال کردن API ادغام دادههای ابری و اعطای مجوزهای لازم، این مراحل را دنبال کنید:
فعال کردن APIها
- به کتابخانه API کنسول GCP بروید.
- از لیست پروژهها، پروژه خود را انتخاب کنید.
- در کتابخانه API، API مورد نظر برای فعالسازی را انتخاب کنید ( Cloud Data Fusion API، Cloud Pub/Sub API). اگر برای یافتن API به کمک نیاز دارید، از فیلد جستجو و فیلترها استفاده کنید.
- در صفحه API، روی فعال کردن (ENABLE) کلیک کنید.
یک نمونه Cloud Data Fusion ایجاد کنید .
- در کنسول GCP، شناسه پروژه خود را انتخاب کنید.
- از منوی سمت چپ، Data Fusion را انتخاب کنید، سپس روی دکمه CREATE AN INSTANCE در وسط صفحه (اولین ایجاد) کلیک کنید، یا روی دکمه CREATE INSTANCE در منوی بالا (ایجاد اضافی) کلیک کنید.


- نام نمونه را وارد کنید. Enterprise را انتخاب کنید.

- روی دکمهی CREATE کلیک کنید.
مجوزهای نمونه را تنظیم کنید.
پس از ایجاد یک نمونه، از مراحل زیر برای اعطای مجوزهای مربوط به حساب سرویس در پروژه خود استفاده کنید:
- با کلیک روی نام نمونه، به صفحه جزئیات نمونه بروید.

- حساب سرویس را کپی کنید.

- به صفحه IAM پروژه خود بروید.
- در صفحه مجوزهای IAM، با کلیک بر روی دکمه افزودن، به حساب سرویس، نقش Cloud Data Fusion API Service Agent را اعطا کنید. عبارت "service account" را در فیلد اعضای جدید جایگذاری کنید و Service Management -> Cloud Data Fusion API Server Agent role را انتخاب کنید.

- برای افزودن نقش مشترک Pub/Sub، روی + افزودن یک نقش دیگر (یا ویرایش عامل سرویس API ادغام دادههای ابری) کلیک کنید.

- روی ذخیره کلیک کنید.
پس از انجام این مراحل، میتوانید با کلیک روی پیوند مشاهده نمونه در صفحه نمونههای Cloud Data Fusion یا صفحه جزئیات یک نمونه، استفاده از Cloud Data Fusion را شروع کنید.
قانون فایروال را تنظیم کنید.
- برای بررسی وجود یا عدم وجود قانون default-allow-ssh، به کنسول GCP -> شبکه VPC -> قوانین فایروال بروید.

- اگر اینطور نیست، یک قانون فایروال اضافه کنید که به همه ترافیک SSH ورودی به شبکه پیشفرض اجازه عبور دهد.
با استفاده از خط فرمان:
gcloud beta compute --project={PROJECT_ID} firewall-rules create default-allow-ssh --direction=INGRESS --priority=1000 --network=default --action=ALLOW --rules=tcp:22 --source-ranges=0.0.0.0/0 --enable-logging
استفاده از رابط کاربری: روی ایجاد قانون فایروال کلیک کنید و اطلاعات را پر کنید:


۴. گرههایی برای خط لوله بسازید
اکنون که محیط Cloud Data Fusion را در GCP داریم، بیایید با استفاده از مراحل زیر، ساخت خطوط لوله داده در Cloud Data Fusion را شروع کنیم:
- در پنجره Cloud Data Fusion، روی لینک View Instance در ستون Action کلیک کنید. به صفحه دیگری هدایت خواهید شد. برای باز کردن نمونه Cloud Data Fusion، روی آدرس اینترنتی ارائه شده کلیک کنید. در پنجره خوشامدگویی، میتوانید روی دکمه "شروع تور" یا "خیر، متشکرم" کلیک کنید.
- منوی «همبرگر» را باز کنید، گزینهی Pipeline -> List را انتخاب کنید.

- روی دکمه سبز + در گوشه بالا سمت راست کلیک کنید، سپس گزینه ایجاد خط لوله را انتخاب کنید. یا روی «ایجاد» یک لینک خط لوله کلیک کنید.


- وقتی pipeline studio ظاهر شد، در بالا سمت چپ، از منوی کشویی Data Pipeline - Realtime را انتخاب کنید.

- در رابط کاربری Data Pipelines، بخشهای مختلفی را در پنل سمت چپ مانند Filter، Source، Transform، Analytics، Sink، Error Handlers و Alerts مشاهده خواهید کرد که میتوانید در آنها یک یا چند گره را برای pipeline انتخاب کنید.

یک گره منبع انتخاب کنید .
- در قسمت Source در پنل Plugin در سمت چپ، روی گره Google Cloud PubSub که در رابط کاربری Data Pipelines ظاهر میشود، دوبار کلیک کنید.
- به گره منبع PubSub اشاره کنید و روی Properties کلیک کنید.

- فیلدهای مورد نیاز را پر کنید. فیلدهای زیر را تنظیم کنید:
- برچسب = {هر متنی}
- نام مرجع = {هر متنی}
- شناسه پروژه = تشخیص خودکار
- Subscription = اشتراکی که در بخش ایجاد Pub/Sub Topic ایجاد شده است (برای مثال، your-sub )
- موضوع = موضوع ایجاد شده در بخش ایجاد میخانه/زیرموضوع (برای مثال، موضوع شما )
- برای توضیحات بیشتر روی مستندات کلیک کنید. برای تأیید تمام اطلاعات ورودی، روی دکمه اعتبارسنجی کلیک کنید. رنگ سبز "هیچ خطایی یافت نشد" نشان دهنده موفقیت است.

- برای بستن ویژگیهای Pub/Sub، روی دکمه X کلیک کنید.
گره Transform را انتخاب کنید .
- در قسمت Transform در پنل Plugin در سمت چپ، روی گره Projection که در رابط کاربری Data Pipelines ظاهر میشود، دوبار کلیک کنید. گره Pub/Sub source را به گره Transform Projection متصل کنید.
- به گره Projection اشاره کنید و روی Properties کلیک کنید.

- فیلدهای مورد نیاز را پر کنید. فیلدهای زیر را تنظیم کنید:
- تبدیل = تبدیل پیام از نوع بایت به نوع رشته.
- فیلدهایی که باید حذف شوند = {هر فیلدی}
- فیلدهایی که باید نگه داشته شوند = { پیام ، مهر زمان و ویژگیها } ( برای مثال، ویژگیها: key='filename':value='patients' sent from Pub/Sub)
- فیلدهایی که باید تغییر نام داده شوند = { message , timestamp }
- برای توضیحات بیشتر روی مستندات کلیک کنید. برای تأیید تمام اطلاعات ورودی، روی دکمه اعتبارسنجی کلیک کنید. رنگ سبز "هیچ خطایی یافت نشد" نشان دهنده موفقیت است.

- در قسمت Transform در پالت Plugin در سمت چپ، روی گره Wrangler که در رابط کاربری Data Pipelines ظاهر میشود، دوبار کلیک کنید. گره تبدیل Projection را به گره تبدیل Wrangler متصل کنید. به گره Wrangler اشاره کنید و روی Properties کلیک کنید.

- روی منوی کشویی Actions کلیک کنید و برای وارد کردن یک طرحواره ذخیره شده، Import را انتخاب کنید (برای مثال: gs://hcls_testing_data_fhir_10_patients/csv_schemas/ schema (Patients).json ).
- فیلد TIMESTAMP را در Output Schema (اگر وجود ندارد) با کلیک روی دکمه + در کنار آخرین فیلد اضافه کنید و کادر «Null» را علامت بزنید.
- فیلدهای مورد نیاز را پر کنید. فیلدهای زیر را تنظیم کنید:
- برچسب = {هر متنی}
- نام فیلد ورودی = {*}
- پیششرط = { attributes.get("filename") != "patients" } برای تشخیص هر نوع رکورد یا پیام ( به عنوان مثال، بیماران، ارائه دهندگان خدمات، آلرژیها و غیره ) ارسال شده از گره منبع PubSub.
- برای توضیحات بیشتر روی مستندات کلیک کنید. برای تأیید تمام اطلاعات ورودی، روی دکمه اعتبارسنجی کلیک کنید. رنگ سبز "هیچ خطایی یافت نشد" نشان دهنده موفقیت است.

- نام ستونها را به ترتیب دلخواه تنظیم کنید و فیلدهایی را که نیازی ندارید حذف کنید. قطعه کد زیر را کپی کرده و در کادر دستور پخت قرار دهید.
drop attributes parse-as-csv :body ',' false drop body set columns TIMESTAMP,Id,BIRTHDATE,DEATHDATE,SSN,DRIVERS,PASSPORT,PREFIX,FIRST,LAST,SUFFIX,MAIDEN,MARITAL,RACE,ETHNICITY,GENDER,BIRTHPLACE,ADDRESS,CITY,STATE,ZIP mask-number SSN xxxxxxx####

- برای پوشش دادهها و حذف هویت، به Batch-Codelab - CSV to BigQuery از طریق CDF مراجعه کنید. یا این قطعه کد mask-number SSN xxxxxxx#### را در کادر Recipe اضافه کنید.
- برای بستن پنجره Transform Properties، روی دکمه X کلیک کنید.
گره Sink را انتخاب کنید.
- در قسمت Sink در پنل Plugin در سمت چپ، روی گره BigQuery که در رابط کاربری Data Pipeline ظاهر میشود، دوبار کلیک کنید. گره تبدیل Wrangler را به گره sink BigQuery متصل کنید.
- به گره سینک BigQuery اشاره کنید و روی Properties کلیک کنید.

- فیلدهای مورد نیاز را پر کنید:
- برچسب = {هر متنی}
- نام مرجع = {هر متنی}
- شناسه پروژه = تشخیص خودکار
- مجموعه داده = مجموعه داده BigQuery که در پروژه فعلی استفاده شده است (برای مثال، DATASET_ID)
- جدول = {نام جدول}
- برای توضیحات بیشتر روی مستندات کلیک کنید. برای تأیید تمام اطلاعات ورودی، روی دکمه اعتبارسنجی کلیک کنید. رنگ سبز "هیچ خطایی یافت نشد" نشان دهنده موفقیت است.

- برای بستن BigQuery Properties، روی دکمه X کلیک کنید.
۵. ساخت خط لوله داده بلادرنگ
در بخش قبلی، گرههایی را ایجاد کردیم که برای ساخت یک خط لوله داده در Cloud Data Fusion مورد نیاز بودند. در این بخش، گرهها را برای ساخت خط لوله واقعی به هم متصل میکنیم.
اتصال همه گرهها در یک خط لوله
- یک فلش اتصال > را در لبه سمت راست گره منبع بکشید و در لبه سمت چپ گره مقصد رها کنید.
- یک خط لوله میتواند چندین شاخه داشته باشد که پیامهای منتشر شده را از یک گره PubSub Source دریافت میکنند.

- خط لوله را نام ببرید.
همین. شما اولین خط لوله داده بلادرنگ خود را برای استقرار و اجرا ایجاد کردهاید.
ارسال پیام از طریق Cloud Pub/Sub
استفاده از رابط کاربری Pub/Sub :
- به کنسول GCP -> Pub/Sub -> Topics بروید، موضوع خود را انتخاب کنید، سپس روی انتشار پیام در منوی بالا کلیک کنید.

- فقط یک ردیف رکورد را در هر زمان در فیلد پیام قرار دهید. روی دکمه +ADD AN ATTRIBUTE کلیک کنید. Key = filename , Value = < type of record > ( برای مثال، بیماران، ارائه دهندگان خدمات، آلرژیها و غیره ) را وارد کنید.
- برای ارسال پیام، روی دکمه انتشار کلیک کنید.
با استفاده از دستور gcloud :
- پیام را به صورت دستی ارائه دهید.
gcloud pubsub topics publish <your-topic> --attribute <key>=<value> --message \ "paste one record row here"
- با استفاده از دستورات یونیکس cat و sed ، پیام را به صورت نیمه خودکار ارائه دهید. این دستور میتواند بارها و بارها با پارامترهای مختلف اجرا شود.
gcloud pubsub topics publish <your-topic> --attribute <key>=<value> --message \ "$(gsutil cat gs://$BUCKET_NAME/csv/<value>.csv | sed -n '#p')"
۶. پیکربندی، استقرار و اجرای پایپلاین
اکنون که خط لوله داده را توسعه دادهایم، میتوانیم آن را در Cloud Data Fusion مستقر و اجرا کنیم.

- تنظیمات پیشفرض Configure را حفظ کنید.
- برای پیشنمایش دادهها، روی پیشنمایش کلیک کنید**.** برای بازگشت به پنجره قبلی، دوباره روی **پیشنمایش** کلیک کنید. همچنین میتوانید با کلیک روی **اجرا**، خط لوله را در حالت پیشنمایش اجرا کنید.

- برای مشاهده گزارشها، روی گزارشها کلیک کنید.
- برای ذخیره همه تغییرات، روی ذخیره کلیک کنید.
- برای وارد کردن پیکربندی خط لوله ذخیره شده هنگام ساخت خط لوله جدید، روی «وارد کردن» کلیک کنید.
- برای خروجی گرفتن از پیکربندی خط لوله، روی Export کلیک کنید.
- برای استقرار خط لوله، روی «استقرار» کلیک کنید.
- پس از استقرار، روی Run کلیک کنید و منتظر بمانید تا خط لوله به طور کامل اجرا شود.

- برای متوقف کردن اجرای خط لوله در هر زمان، روی توقف کلیک کنید.
- میتوانید با انتخاب گزینهی «تکثیر» در زیر دکمهی «اقدامات» ، خط لوله را کپی کنید.
- شما میتوانید با انتخاب گزینهی «صادرات» در زیر دکمهی «اقدامات» ، پیکربندی خط لوله را صادر کنید.

- برای نمایش نمودارهای تاریخچه اجرا، رکوردها، گزارشهای خطا و هشدارها، روی خلاصه کلیک کنید.
۷. اعتبارسنجی
در این بخش، اجرای خط لوله داده را اعتبارسنجی میکنیم.
- تأیید کنید که خط لوله با موفقیت اجرا شده و به طور مداوم در حال اجرا است.

- اعتبارسنجی کنید که جداول BigQuery با رکوردهای بهروزرسانیشده بر اساس TIMESTAMP بارگذاری شوند. در این مثال، دو رکورد یا پیام بیمار و یک رکورد یا پیام آلرژی در تاریخ 2019-06-25 در موضوع Pub/Sub منتشر شدهاند.
bq query --nouse_legacy_sql 'select (select count(*) from \ '$PROJECT_ID.$DATASET_ID.Patients' where TIMESTAMP > "2019-06-25 \ 01:29:00.0000 UTC" ) as Patients, (select count(*) from \ '$PROJECT_ID.$DATASET_ID.Allergies' where TIMESTAMP > "2019-06-25 \ 01:29:00.0000 UTC") as Allergies;'
Waiting on bqjob_r14c8b94c1c0fe06a_0000016b960df4e1_1 ... (0s) Current status: DONE
+----------+-----------+
| Patients | Allergies |
+----------+-----------+
| 2 | 1 |
+----------+-----------+
- تأیید کنید که پیامهای منتشر شده در <your-topic> توسط مشترک <your-sub> دریافت شدهاند.
gcloud pubsub subscriptions pull --auto-ack <your-sub>

مشاهده نتایج
برای مشاهده نتایج پس از انتشار پیامها در تاپیک Pub/Sub در حالی که خط لوله Realtime در حال اجرا است:
- جدول را در رابط کاربری BigQuery جستجو کنید. به رابط کاربری BigQuery بروید
- کوئری زیر را با نام پروژه، مجموعه داده و جدول خودتان بهروزرسانی کنید.

۸. تمیز کردن
برای جلوگیری از تحمیل هزینه به حساب پلتفرم گوگل کلود خود برای منابع استفاده شده در این آموزش:
بعد از اتمام آموزش، میتوانید منابعی را که در GCP ایجاد کردهاید، پاک کنید تا سهمیهای را اشغال نکنند و در آینده برای آنها هزینهای از شما دریافت نشود. بخشهای بعدی نحوه حذف یا غیرفعال کردن این منابع را شرح میدهند.
حذف مجموعه داده BigQuery
برای حذف مجموعه داده BigQuery که به عنوان بخشی از این آموزش ایجاد کردهاید، این دستورالعملها را دنبال کنید.
حذف سطل GCS
برای حذف سطل GCS که به عنوان بخشی از این آموزش ایجاد کردهاید، این دستورالعملها را دنبال کنید.
حذف نمونه Cloud Data Fusion
برای حذف نمونه Cloud Data Fusion خود، این دستورالعملها را دنبال کنید.
حذف پروژه
سادهترین راه برای حذف هزینهها، حذف پروژهای است که برای آموزش ایجاد کردهاید.
برای حذف پروژه:
- در کنسول GCP، به صفحه پروژهها بروید. به صفحه پروژهها بروید
- در لیست پروژهها، پروژهای را که میخواهید حذف کنید انتخاب کنید و روی «حذف» کلیک کنید.
- در کادر محاورهای، شناسه پروژه را تایپ کنید و سپس برای حذف پروژه، روی خاموش کردن کلیک کنید.
۹. تبریک
تبریک میگویم، شما با موفقیت آزمایشگاه کد برای دریافت دادههای مراقبتهای بهداشتی در BigQuery با استفاده از Cloud Data Fusion را به پایان رساندید.
شما دادههای CSV را در Pub/Sub topic منتشر کردید و سپس آنها را در BigQuery بارگذاری کردید.
شما به صورت بصری یک خط لوله یکپارچهسازی دادهها برای بارگیری، تبدیل و پوشش دادههای مراقبتهای بهداشتی به صورت بلادرنگ ایجاد کردید.
اکنون مراحل کلیدی مورد نیاز برای شروع سفر تجزیه و تحلیل دادههای مراقبتهای بهداشتی خود با BigQuery در پلتفرم Google Cloud را میدانید.