นำเข้าข้อมูล CSV (ค่าที่คั่นด้วยคอมมา) ไปยัง BigQuery โดยใช้ Cloud Data Fusion - การส่งผ่านข้อมูลแบบเรียลไทม์

1. บทนำ

509db33558ae025.png

อัปเดตล่าสุด: 2020-02-28

Codelab นี้แสดงรูปแบบการนำเข้าข้อมูลเพื่อนำเข้าข้อมูลด้านการดูแลสุขภาพในรูปแบบ CSV ไปยัง BigQuery แบบเรียลไทม์ เราจะใช้ไปป์ไลน์ข้อมูลแบบเรียลไทม์ของ Cloud Data Fusion สำหรับแล็บนี้ ระบบได้สร้างข้อมูลทดสอบด้านการดูแลสุขภาพที่สมจริงและพร้อมใช้งานใน Bucket ของ Google Cloud Storage (gs://hcls_testing_data_fhir_10_patients/csv/) สำหรับคุณ

ในโค้ดแล็บนี้ คุณจะได้เรียนรู้สิ่งต่อไปนี้

  • วิธีนำเข้าข้อมูล CSV (การโหลดแบบเรียลไทม์) จาก Pub/Sub ไปยัง BigQuery โดยใช้ Cloud Data Fusion
  • วิธีสร้างไปป์ไลน์การผสานรวมข้อมูลใน Cloud Data Fusion ด้วยภาพเพื่อโหลด เปลี่ยนรูปแบบ และมาสก์ข้อมูลด้านการดูแลสุขภาพแบบเรียลไทม์

คุณต้องมีอะไรบ้างในการเรียกใช้การสาธิตนี้

  • คุณต้องมีสิทธิ์เข้าถึงโปรเจ็กต์ GCP
  • คุณต้องได้รับมอบหมายบทบาทเจ้าของโปรเจ็กต์ GCP
  • ข้อมูลด้านการดูแลสุขภาพในรูปแบบ CSV รวมถึงส่วนหัว

หากไม่มีโปรเจ็กต์ GCP ให้ทำตามขั้นตอนเหล่านี้เพื่อสร้างโปรเจ็กต์ GCP ใหม่

ระบบได้โหลดข้อมูลด้านการดูแลสุขภาพในรูปแบบ CSV ลงในที่เก็บข้อมูล GCS ที่ gs://hcls_testing_data_fhir_10_patients/csv/ ไว้ล่วงหน้าแล้ว ไฟล์ทรัพยากร CSV แต่ละไฟล์มีโครงสร้างสคีมาที่ไม่ซ้ำกัน เช่น Patients.csv มีสคีมาแตกต่างจาก Providers.csv ดูไฟล์สคีมาที่โหลดไว้ล่วงหน้าได้ที่ gs://hcls_testing_data_fhir_10_patients/csv_schemas

หากต้องการชุดข้อมูลใหม่ คุณสร้างชุดข้อมูลได้ทุกเมื่อโดยใช้ SyntheaTM จากนั้นให้อัปโหลดไปยัง GCS แทนการคัดลอกจาก Bucket ในขั้นตอนการคัดลอกข้อมูลอินพุต

2. การตั้งค่าโปรเจ็กต์ GCP

เริ่มต้นตัวแปรเชลล์สำหรับสภาพแวดล้อม

หากต้องการค้นหา PROJECT_ID โปรดดูการระบุโปรเจ็กต์

<!-- CODELAB: Initialize shell variables ->
<!-- Your current GCP Project ID ->
export PROJECT_ID=<PROJECT_ID>
<!-- A new GCS Bucket in your current Project  - INPUT ->
export BUCKET_NAME=<BUCKET_NAME>
<!-- A new BQ Dataset ID - OUTPUT ->
export DATASET_ID=<DATASET_ID>

สร้างที่เก็บข้อมูล GCS เพื่อจัดเก็บข้อมูลอินพุตและบันทึกข้อผิดพลาดโดยใช้เครื่องมือ gsutil

gsutil mb -l us gs://$BUCKET_NAME

รับสิทธิ์เข้าถึงชุดข้อมูลสังเคราะห์

  1. จากอีเมลที่คุณใช้เพื่อเข้าสู่ระบบ Cloud Console ให้ส่งอีเมลไปที่ hcls-solutions-external+subscribe@google.com เพื่อขอเข้าร่วม
  2. คุณจะได้รับอีเมลพร้อมวิธีการยืนยันการดำเนินการ
  3. ใช้ตัวเลือกเพื่อตอบกลับอีเมลเพื่อเข้าร่วมกลุ่ม อย่าคลิกปุ่ม 525a0fa752e0acae.png
  4. เมื่อได้รับอีเมลยืนยันแล้ว คุณจะไปยังขั้นตอนถัดไปใน Codelab ได้

คัดลอกข้อมูลที่ป้อน

gsutil -m cp -r gs://hcls_testing_data_fhir_10_patients/csv gs://$BUCKET_NAME

สร้างชุดข้อมูล BigQuery

bq mk --location=us --dataset $PROJECT_ID:$DATASET_ID

ติดตั้งและเริ่มต้นใช้ Google Cloud SDK รวมถึงสร้างหัวข้อ Pub หรือ Sub และการสมัครใช้บริการ

gcloud init
gcloud pubsub topics create your-topic
gcloud pubsub subscriptions create --topic your-topic your-sub

3. การตั้งค่าสภาพแวดล้อม Cloud Data Fusion

ทำตามขั้นตอนต่อไปนี้เพื่อเปิดใช้ Cloud Data Fusion API และให้สิทธิ์ที่จำเป็น

เปิดใช้ API

  1. ไปที่คลัง API ของคอนโซล GCP
  2. เลือกโปรเจ็กต์จากรายการโปรเจ็กต์
  3. ในคลัง API ให้เลือก API ที่ต้องการเปิดใช้ ( Cloud Data Fusion API, Cloud Pub/Sub API) หากต้องการความช่วยเหลือในการค้นหา API ให้ใช้ช่องค้นหาและตัวกรอง
  4. คลิกเปิดใช้ในหน้า API

สร้างอินสแตนซ์ Cloud Data Fusion

  1. เลือก ProjectID ใน GCP Console
  2. เลือก Data Fusion จากเมนูด้านซ้าย แล้วคลิกปุ่มสร้างอินสแตนซ์ตรงกลางหน้า (การสร้างครั้งแรก) หรือคลิกปุ่มสร้างอินสแตนซ์ในเมนูด้านบน (การสร้างเพิ่มเติม)

a828690ff3bf3c46.png

e8ffacaba8e61be5.png

  1. ระบุชื่ออินสแตนซ์ เลือกองค์กร

5af91e46917260ff.png

  1. คลิกปุ่มสร้าง

ตั้งค่าสิทธิ์ของอินสแตนซ์

หลังจากสร้างอินสแตนซ์แล้ว ให้ทำตามขั้นตอนต่อไปนี้เพื่อให้สิทธิ์บัญชีบริการที่เชื่อมโยงกับอินสแตนซ์ในโปรเจ็กต์

  1. ไปที่หน้ารายละเอียดอินสแตนซ์โดยคลิกชื่ออินสแตนซ์

76ad691f795e1ab3.png

  1. คัดลอกบัญชีบริการ

6c91836afb72209d.png

  1. ไปที่หน้า IAM ของโปรเจ็กต์
  2. ในหน้าสิทธิ์ IAM ให้มอบบทบาทตัวแทนบริการ Cloud Data Fusion API ให้กับบัญชีบริการโดยคลิกปุ่มเพิ่ม วาง "บัญชีบริการ" ในช่องสมาชิกใหม่ แล้วเลือก Service Management -> Cloud Data Fusion API Server Agent role

36f03d11c2a4ce0.png

  1. คลิก + เพิ่มบทบาทอื่น (หรือแก้ไขตัวแทนบริการ API ของ Cloud Data Fusion) เพื่อเพิ่มบทบาทผู้ใช้บริการ Pub/Sub

b4bf5500b8cbe5f9.png

  1. คลิกบันทึก

เมื่อทำตามขั้นตอนเหล่านี้แล้ว คุณจะเริ่มใช้ Cloud Data Fusion ได้โดยคลิกลิงก์ดูอินสแตนซ์ในหน้าอินสแตนซ์ Cloud Data Fusion หรือหน้ารายละเอียดของอินสแตนซ์

ตั้งค่ากฎไฟร์วอลล์

  1. ไปที่ GCP Console -> เครือข่าย VPC -> กฎไฟร์วอลล์เพื่อตรวจสอบว่ามีกฎ default-allow-ssh หรือไม่

102adef44bbe3a45.png

  1. หากไม่ได้เพิ่ม ให้เพิ่มกฎไฟร์วอลล์ที่อนุญาตการรับส่งข้อมูล SSH ขาเข้าทั้งหมดไปยังเครือข่ายเริ่มต้น

โดยใช้บรรทัดคำสั่ง ให้ทำดังนี้

gcloud beta compute --project={PROJECT_ID} firewall-rules create default-allow-ssh --direction=INGRESS --priority=1000 --network=default --action=ALLOW --rules=tcp:22 --source-ranges=0.0.0.0/0 --enable-logging

การใช้ UI: คลิกสร้างกฎไฟร์วอลล์ แล้วกรอกข้อมูลต่อไปนี้

d9c69ac10496b3d9.png

2dc4971594b82a1f.png

4. สร้างโหนดสำหรับไปป์ไลน์

ตอนนี้เรามีสภาพแวดล้อม Cloud Data Fusion ใน GCP แล้ว มาเริ่มสร้างไปป์ไลน์ข้อมูลใน Cloud Data Fusion โดยใช้ขั้นตอนต่อไปนี้กัน

  1. ในหน้าต่าง Cloud Data Fusion ให้คลิกลิงก์ดูอินสแตนซ์ในคอลัมน์การดำเนินการ ระบบจะเปลี่ยนเส้นทางคุณไปยังอีกหน้าหนึ่ง คลิก URL ที่ระบุเพื่อเปิดอินสแตนซ์ Cloud Data Fusion คุณเลือกคลิกปุ่ม "เริ่มทัวร์" หรือ "ไม่เป็นไร" ในป๊อปอัปต้อนรับ
  2. ขยายเมนู "แฮมเบอร์เกอร์" เลือกไปป์ไลน์ -> รายการ

317820def934a00a.png

  1. คลิกปุ่ม + สีเขียวที่มุมขวาบน แล้วเลือกสร้างไปป์ไลน์ หรือคลิก "สร้าง" ลิงก์ไปป์ไลน์

711975bb2c2416d7.png

3ec0a71409657fb8.png

  1. เมื่อสตูดิโอไปป์ไลน์ปรากฏขึ้น ให้เลือกไปป์ไลน์ข้อมูล - แบบเรียลไทม์จากเมนูแบบเลื่อนลงที่ด้านซ้ายบน

372a889a81da5e66.png

  1. ใน UI ของ Data Pipelines คุณจะเห็นส่วนต่างๆ ในแผงด้านซ้ายเป็นตัวกรอง แหล่งที่มา แปลง Analytics ปลายทาง ตัวจัดการข้อผิดพลาด และการแจ้งเตือน ซึ่งคุณสามารถเลือกโหนดหรือโหนดต่างๆ สำหรับไปป์ไลน์ได้

c63de071d4580f2f.png

เลือกโหนด แหล่งที่มา

  1. ในส่วนแหล่งที่มาในจานสีปลั๊กอินทางด้านซ้าย ให้ดับเบิลคลิกโหนด Google Cloud PubSub ซึ่งจะปรากฏใน UI ของ Data Pipelines
  2. ชี้ไปที่โหนดแหล่งที่มาของ PubSub แล้วคลิกพร็อพเพอร์ตี้

ed857a5134148d7b.png

  1. กรอกข้อมูลลงในช่องที่ต้องกรอก ตั้งค่าฟิลด์ต่อไปนี้
  • ป้ายกำกับ = {ข้อความใดก็ได้}
  • ชื่ออ้างอิง = {ข้อความใดก็ได้}
  • รหัสโปรเจ็กต์ = ตรวจหาอัตโนมัติ
  • การสมัครใช้บริการ = การสมัครใช้บริการที่สร้างในส่วนสร้างหัวข้อ Pub/Sub (เช่น your-sub)
  • หัวข้อ = หัวข้อที่สร้างในส่วนสร้างหัวข้อ Pub/Sub (เช่น your-topic)
  1. คลิกเอกสารประกอบเพื่อดูคำอธิบายโดยละเอียด คลิกปุ่มตรวจสอบเพื่อตรวจสอบข้อมูลที่ป้อนทั้งหมด สีเขียว "ไม่พบข้อผิดพลาด" แสดงว่าสำเร็จ

5c2774338b66bebe.png

  1. หากต้องการปิดคุณสมบัติ Pub/Sub ให้คลิกปุ่ม X

เลือกโหนด เปลี่ยนรูปแบบ

  1. ในส่วน "เปลี่ยนรูปแบบ" ในจานสีปลั๊กอินทางด้านซ้าย ให้ดับเบิลคลิกโหนดการฉายภาพซึ่งจะปรากฏใน UI ของ Data Pipelines เชื่อมต่อโหนดแหล่งที่มาของ Pub/Sub กับโหนดการแปลงการฉายภาพ
  2. ชี้ไปที่โหนดการฉายภาพ แล้วคลิกพร็อพเพอร์ตี้

b3a9a3878879bfd7.png

  1. กรอกข้อมูลลงในช่องที่ต้องกรอก ตั้งค่าฟิลด์ต่อไปนี้
  • Convert = แปลง message จากประเภทไบต์เป็นประเภทสตริง
  • ฟิลด์ที่จะทิ้ง = {any field}
  • ฟิลด์ที่จะเก็บไว้ = {ข้อความ, การประทับเวลา และแอตทริบิวต์} (เช่น แอตทริบิวต์: key=‘filename':value=‘patients' ที่ส่งจาก Pub/Sub)
  • ฟิลด์ที่จะเปลี่ยนชื่อ = {ข้อความ, การประทับเวลา}
  1. คลิกเอกสารประกอบเพื่อดูคำอธิบายโดยละเอียด คลิกปุ่มตรวจสอบเพื่อตรวจสอบข้อมูลที่ป้อนทั้งหมด สีเขียว "ไม่พบข้อผิดพลาด" แสดงว่าสำเร็จ

b8c2f8efe18234ff.png

  1. ในส่วน "เปลี่ยนรูปแบบ" ในจานสีปลั๊กอินทางด้านซ้าย ให้ดับเบิลคลิกโหนด Wrangler ซึ่งจะปรากฏใน UI ของ Data Pipelines เชื่อมต่อโหนดการแปลงการฉายภาพกับโหนดการแปลง Wrangler ชี้ไปที่โหนด Wrangler แล้วคลิกพร็อพเพอร์ตี้

aa44a4db5fe6623a.png

  1. คลิกเมนูแบบเลื่อนลงการดำเนินการ แล้วเลือกนำเข้าเพื่อนำเข้าสคีมาที่บันทึกไว้ (เช่น gs://hcls_testing_data_fhir_10_patients/csv_schemas/ schema (Patients).json)
  2. เพิ่มฟิลด์ TIMESTAMP ในสคีมาเอาต์พุต (หากไม่มี) โดยคลิกปุ่ม + ข้างฟิลด์สุดท้าย แล้วเลือกช่อง "Null"
  3. กรอกข้อมูลลงในช่องที่ต้องกรอก ตั้งค่าฟิลด์ต่อไปนี้
  • ป้ายกำกับ = {ข้อความใดก็ได้}
  • ชื่อช่องป้อนข้อมูล = {*}
  • เงื่อนไขเบื้องต้น = {attributes.get("filename") != "patients"} เพื่อแยกความแตกต่างของแต่ละประเภทของระเบียนหรือข้อความ (เช่น ผู้ป่วย ผู้ให้บริการ โรคภูมิแพ้ ฯลฯ) ที่ส่งจากโหนดแหล่งที่มาของ PubSub
  1. คลิกเอกสารประกอบเพื่อดูคำอธิบายโดยละเอียด คลิกปุ่มตรวจสอบเพื่อตรวจสอบข้อมูลที่ป้อนทั้งหมด สีเขียว "ไม่พบข้อผิดพลาด" แสดงว่าสำเร็จ

3b8e552cd2e3442c.png

  1. ตั้งชื่อคอลัมน์ตามลำดับที่ต้องการ แล้ววางฟิลด์ที่ไม่ต้องการ คัดลอกข้อมูลโค้ดต่อไปนี้และวางในช่องสูตร
drop attributes
parse-as-csv :body ',' false
drop body
set columns TIMESTAMP,Id,BIRTHDATE,DEATHDATE,SSN,DRIVERS,PASSPORT,PREFIX,FIRST,LAST,SUFFIX,MAIDEN,MARITAL,RACE,ETHNICITY,GENDER,BIRTHPLACE,ADDRESS,CITY,STATE,ZIP
mask-number SSN xxxxxxx####

b93cb9952ca2de73.png

  1. ดูการมาสก์ข้อมูลและการลบการระบุตัวบุคคลได้ที่ Batch-Codelab - CSV to BigQuery via CDF หรือเพิ่มข้อมูลโค้ด mask-number SSN xxxxxxx#### ในช่องสูตร
  2. หากต้องการปิดหน้าต่างคุณสมบัติการเปลี่ยนรูป ให้คลิกปุ่ม X

เลือกโหนดปลายทาง

  1. ในส่วน Sink ในจานสีปลั๊กอินทางด้านซ้าย ให้ดับเบิลคลิกโหนด BigQuery ซึ่งจะปรากฏใน UI ของ Data Pipeline เชื่อมต่อโหนดการแปลง Wrangler กับโหนดซิงก์ BigQuery
  2. ชี้ไปที่โหนด BigQuery Sink แล้วคลิก Properties

1be711152c92c692.png

  1. กรอกข้อมูลในช่องที่ต้องกรอก
  • ป้ายกำกับ = {ข้อความใดก็ได้}
  • ชื่ออ้างอิง = {ข้อความใดก็ได้}
  • รหัสโปรเจ็กต์ = ตรวจหาอัตโนมัติ
  • ชุดข้อมูล = ชุดข้อมูล BigQuery ที่ใช้ในโปรเจ็กต์ปัจจุบัน (เช่น DATASET_ID)
  • ตาราง = {ชื่อตาราง}
  1. คลิกเอกสารประกอบเพื่อดูคำอธิบายโดยละเอียด คลิกปุ่มตรวจสอบเพื่อตรวจสอบข้อมูลที่ป้อนทั้งหมด สีเขียว "ไม่พบข้อผิดพลาด" แสดงว่าสำเร็จ

bba71de9f31e842a.png

  1. หากต้องการปิดพร็อพเพอร์ตี้ BigQuery ให้คลิกปุ่ม X

5. สร้าง Data Pipeline แบบเรียลไทม์

ในส่วนก่อนหน้า เราได้สร้างโหนดที่จำเป็นสำหรับการสร้างไปป์ไลน์ข้อมูลใน Cloud Data Fusion ในส่วนนี้ เราจะเชื่อมต่อโหนดเพื่อสร้างไปป์ไลน์จริง

การเชื่อมต่อโหนดทั้งหมดในไปป์ไลน์

  1. ลากลูกศรการเชื่อมต่อ > ที่ขอบด้านขวาของโหนดแหล่งที่มา แล้ววางที่ขอบด้านซ้ายของโหนดปลายทาง
  2. ไปป์ไลน์มีหลายกิ่งก้านที่รับข้อความที่เผยแพร่จากโหนดแหล่งที่มาของ PubSub เดียวกันได้

b22908cc35364cdd.png

  1. ตั้งชื่อไปป์ไลน์

เท่านี้เอง คุณเพิ่งสร้างไปป์ไลน์ข้อมูลเรียลไทม์แรกเพื่อนำไปใช้งานและเรียกใช้

ส่งข้อความผ่าน Cloud Pub/Sub

การใช้ UI ของ Pub/Sub

  1. ไปที่คอนโซล GCP -> Pub/Sub -> หัวข้อ เลือก your-topic แล้วคลิกเผยแพร่ข้อความที่เมนูด้านบน

d65b2a6af1668ecd.png

  1. วางแถวระเบียนได้ครั้งละ 1 แถวในช่องข้อความ คลิกปุ่ม +เพิ่มแอตทริบิวต์ ระบุคีย์ = filename, ค่า = <type of record> (for example, patients, providers, allergies, etc.)
  2. คลิกปุ่มเผยแพร่เพื่อส่งข้อความ

การใช้คำสั่ง gcloud

  1. ระบุข้อความด้วยตนเอง
gcloud pubsub topics publish <your-topic> --attribute <key>=<value> --message \
"paste one record row here"
  1. ระบุข้อความกึ่งอัตโนมัติโดยใช้คำสั่ง cat และ sed ของ Unix คุณเรียกใช้คำสั่งนี้ซ้ำๆ โดยใช้พารามิเตอร์ที่แตกต่างกันได้
gcloud pubsub topics publish <your-topic> --attribute <key>=<value> --message \
"$(gsutil cat gs://$BUCKET_NAME/csv/<value>.csv | sed -n '#p')"

6. กำหนดค่า ทำให้ใช้งานได้ และเรียกใช้ไปป์ไลน์

ตอนนี้เราได้พัฒนาไปป์ไลน์ข้อมูลแล้ว จึงสามารถติดตั้งใช้งานและเรียกใช้ใน Cloud Data Fusion ได้

1bb5b0b8e2953ffa.png

  1. คงค่าเริ่มต้นของกำหนดค่าไว้
  2. คลิกแสดงตัวอย่างเพื่อดูตัวอย่างข้อมูล** คลิก **แสดงตัวอย่าง** อีกครั้งเพื่อสลับกลับไปที่หน้าต่างก่อนหน้า นอกจากนี้ คุณยังเรียกใช้ไปป์ไลน์ในโหมดแสดงตัวอย่างได้โดยคลิก **เรียกใช้**

b3c891e5e1aa20ae.png

  1. คลิกบันทึกเพื่อดูบันทึก
  2. คลิกบันทึกเพื่อบันทึกการเปลี่ยนแปลงทั้งหมด
  3. คลิกนำเข้าเพื่อนำเข้าการกำหนดค่าไปป์ไลน์ที่บันทึกไว้เมื่อสร้างไปป์ไลน์ใหม่
  4. คลิกส่งออกเพื่อส่งออกการกำหนดค่าไปป์ไลน์
  5. คลิกทําให้ใช้งานได้เพื่อทําให้ไปป์ไลน์ใช้งานได้
  6. เมื่อติดตั้งใช้งานแล้ว ให้คลิกเรียกใช้ แล้วรอให้ไปป์ไลน์ทำงานจนเสร็จสมบูรณ์

f01ba6b746ba53a.png

  1. คลิกหยุดเพื่อหยุดการเรียกใช้ไปป์ไลน์ได้ทุกเมื่อ
  2. คุณสามารถทำซ้ำไปป์ไลน์ได้โดยเลือกทำซ้ำใต้ปุ่มการดำเนินการ
  3. คุณส่งออกการกำหนดค่าไปป์ไลน์ได้โดยเลือกส่งออกใต้ปุ่มการดำเนินการ

28ea4fc79445fad2.png

  1. คลิกสรุปเพื่อแสดงแผนภูมิของประวัติการวิ่ง บันทึก บันทึกข้อผิดพลาด และคำเตือน

7. การตรวจสอบความถูกต้อง

ในส่วนนี้ เราจะตรวจสอบการดำเนินการของไปป์ไลน์ข้อมูล

  1. ตรวจสอบว่าไปป์ไลน์ทำงานสำเร็จและทำงานอย่างต่อเนื่อง

1644dfac4a2d819d.png

  1. ตรวจสอบว่าระบบโหลดตาราง BigQuery ด้วยระเบียนที่อัปเดตตาม TIMESTAMP ในตัวอย่างนี้ มีการเผยแพร่ระเบียนหรือข้อความของผู้ป่วย 2 รายการ และระเบียนหรือข้อความการแพ้ 1 รายการไปยังหัวข้อ Pub/Sub ในวันที่ 25-06-2019
bq query --nouse_legacy_sql 'select (select count(*) from \
'$PROJECT_ID.$DATASET_ID.Patients'  where TIMESTAMP > "2019-06-25 \
01:29:00.0000 UTC" ) as Patients, (select count(*) from \
'$PROJECT_ID.$DATASET_ID.Allergies' where TIMESTAMP > "2019-06-25 \
01:29:00.0000 UTC") as Allergies;'
Waiting on bqjob_r14c8b94c1c0fe06a_0000016b960df4e1_1 ... (0s) Current status: DONE  
+----------+-----------+
| Patients | Allergies |
+----------+-----------+
|        2 |         1 |
+----------+-----------+
  1. ตรวจสอบว่าผู้ติดตาม <your-sub> ได้รับข้อความที่เผยแพร่ไปยัง <your-topic>
gcloud pubsub subscriptions pull --auto-ack <your-sub>

4cae99a9e4f2ec9f.png

การดูผลลัพธ์

วิธีดูผลลัพธ์หลังจากเผยแพร่ข้อความไปยังหัวข้อ Pub/Sub ขณะที่ไปป์ไลน์แบบเรียลไทม์ทํางานอยู่

  1. สืบค้นตารางใน BigQuery UI ไปที่ UI ของ BigQuery
  2. อัปเดตการค้นหาด้านล่างเป็นชื่อโปรเจ็กต์ ชุดข้อมูล และตารางของคุณเอง

6a1fb85bd868abc9.png

8. การล้างข้อมูล

โปรดดำเนินการดังนี้เพื่อเลี่ยงไม่ให้เกิดการเรียกเก็บเงินกับบัญชี Google Cloud Platform สำหรับทรัพยากรที่ใช้ในบทแนะนำนี้

หลังจากดูบทแนะนำจนจบแล้ว คุณสามารถล้างข้อมูลทรัพยากรที่สร้างไว้ใน GCP เพื่อไม่ให้ใช้โควต้าและไม่ให้ระบบเรียกเก็บเงินจากคุณในอนาคต ส่วนต่อไปนี้จะอธิบายวิธีลบหรือปิดทรัพยากรเหล่านี้

การลบชุดข้อมูล BigQuery

ทำตามวิธีการต่อไปนี้เพื่อลบชุดข้อมูล BigQuery ที่คุณสร้างขึ้นเป็นส่วนหนึ่งของบทแนะนำนี้

การลบ Bucket ของ GCS

ทำตามวิธีการต่อไปนี้เพื่อลบที่เก็บข้อมูล GCS ที่คุณสร้างขึ้นเป็นส่วนหนึ่งของบทแนะนำนี้

การลบอินสแตนซ์ Cloud Data Fusion

ทำตามวิธีการต่อไปนี้เพื่อลบอินสแตนซ์ Cloud Data Fusion

การลบโปรเจ็กต์

วิธีที่ง่ายที่สุดในการยกเลิกการเรียกเก็บเงินคือการลบโปรเจ็กต์ที่คุณสร้างขึ้นสำหรับบทแนะนำ

วิธีลบโปรเจ็กต์

  1. ในคอนโซล GCP ให้ไปที่หน้าโปรเจ็กต์ ไปที่หน้าโปรเจ็กต์
  2. ในรายการโปรเจ็กต์ ให้เลือกโปรเจ็กต์ที่ต้องการลบ แล้วคลิกลบ
  3. ในกล่องโต้ตอบ ให้พิมพ์รหัสโปรเจ็กต์ แล้วคลิกปิดเพื่อลบโปรเจ็กต์

9. ขอแสดงความยินดี

ขอแสดงความยินดี คุณทำโค้ดแล็บเพื่อนำเข้าข้อมูลด้านการดูแลสุขภาพใน BigQuery โดยใช้ Cloud Data Fusion เสร็จสมบูรณ์แล้ว

คุณเผยแพร่ข้อมูล CSV ไปยังหัวข้อ Pub/Sub แล้วโหลดไปยัง BigQuery

คุณสร้างไปป์ไลน์การผสานรวมข้อมูลด้วยภาพเพื่อโหลด แปลง และมาสก์ข้อมูลการดูแลสุขภาพแบบเรียลไทม์

ตอนนี้คุณทราบขั้นตอนสำคัญที่จำเป็นในการเริ่มต้นเส้นทางการวิเคราะห์ข้อมูลด้านการดูแลสุขภาพด้วย BigQuery ใน Google Cloud Platform แล้ว