นำเข้าข้อมูล CSV (ค่าที่คั่นด้วยคอมมา) ไปยัง BigQuery โดยใช้ Cloud Data Fusion - การส่งผ่านข้อมูลแบบเรียลไทม์

1. บทนำ

509db33558ae025.png

อัปเดตล่าสุด 28-02-2020

Codelab นี้แสดงรูปแบบการนำเข้าข้อมูลเพื่อนำเข้าข้อมูลการดูแลสุขอนามัยในรูปแบบ CSV ไปยัง BigQuery แบบเรียลไทม์ เราจะใช้ไปป์ไลน์ข้อมูลแบบเรียลไทม์ของ Cloud Data Fusion สำหรับห้องทดลองนี้ ระบบได้สร้างข้อมูลการทดสอบด้านสุขภาพที่สมจริงและพร้อมใช้งานในที่เก็บข้อมูล Google Cloud Storage (gs://hcls_testing_data_fhir_10_patients/csv/) สำหรับคุณ

ใน Code Lab นี้ คุณจะได้เรียนรู้เกี่ยวกับสิ่งต่อไปนี้

  • วิธีนำเข้าข้อมูล CSV (การโหลดแบบเรียลไทม์) จาก Pub/Sub ไปยัง BigQuery โดยใช้ Cloud Data Fusion
  • วิธีสร้างไปป์ไลน์การผสานรวมข้อมูลใน Cloud Data Fusion แบบเห็นภาพเพื่อโหลด เปลี่ยนรูปแบบ และมาสก์ข้อมูลการดูแลสุขภาพแบบเรียลไทม์

คุณต้องมีอะไรบ้างเพื่อเรียกใช้การสาธิตนี้

  • คุณต้องมีสิทธิ์เข้าถึงโปรเจ็กต์ GCP
  • คุณต้องกำหนดบทบาทเจ้าของให้กับโปรเจ็กต์ GCP
  • ข้อมูลการดูแลสุขอนามัยในรูปแบบ CSV ซึ่งมีส่วนหัว

หากยังไม่มีโปรเจ็กต์ GCP ให้ทำตามขั้นตอนเหล่านี้เพื่อสร้างโปรเจ็กต์ GCP ใหม่

ระบบโหลดข้อมูลการดูแลสุขอนามัยในรูปแบบ CSV ไว้ล่วงหน้าแล้วในที่เก็บข้อมูล GCS ที่ gs://hcls_testing_data_fhir_10_patients/csv/ ไฟล์ทรัพยากร CSV แต่ละไฟล์มีโครงสร้างสคีมาที่ไม่ซ้ำกัน เช่น Patients.csv มีสคีมาที่แตกต่างจาก Providers.csv ดูไฟล์สคีมาที่โหลดไว้ล่วงหน้าได้ที่ gs://hcls_testing_data_fhir_10_patients/csv_schemas

หากต้องการชุดข้อมูลใหม่ คุณสร้างโดยใช้ SyntheaTM ได้เสมอ จากนั้นอัปโหลดไปยัง GCS แทนการคัดลอกจากที่เก็บข้อมูลในขั้นตอนคัดลอกข้อมูลอินพุต

2. การตั้งค่าโปรเจ็กต์ GCP

เริ่มต้นตัวแปร Shell สำหรับสภาพแวดล้อมของคุณ

หากต้องการค้นหา PROJECT_ID โปรดดูการระบุโปรเจ็กต์

<!-- CODELAB: Initialize shell variables ->
<!-- Your current GCP Project ID ->
export PROJECT_ID=<PROJECT_ID>
<!-- A new GCS Bucket in your current Project  - INPUT ->
export BUCKET_NAME=<BUCKET_NAME>
<!-- A new BQ Dataset ID - OUTPUT ->
export DATASET_ID=<DATASET_ID>

สร้างที่เก็บข้อมูล GCS เพื่อจัดเก็บข้อมูลอินพุตและบันทึกข้อผิดพลาดโดยใช้เครื่องมือ gsutil

gsutil mb -l us gs://$BUCKET_NAME

รับสิทธิ์เข้าถึงชุดข้อมูลสังเคราะห์

  1. จากอีเมลที่คุณใช้เข้าสู่ระบบ Cloud Console ให้ส่งอีเมลไปที่ hcls-solutions-external+subscribe@google.com เพื่อขอเข้าร่วม
  2. คุณจะได้รับอีเมลพร้อมวิธียืนยันการดำเนินการ
  3. ใช้ตัวเลือกเพื่อตอบกลับอีเมลเพื่อเข้าร่วมกลุ่ม ห้ามคลิกปุ่ม 525a0fa752e0acae.png
  4. เมื่อได้รับอีเมลยืนยันแล้ว คุณสามารถไปยังขั้นตอนถัดไปใน Codelab ได้

คัดลอกข้อมูลอินพุต

gsutil -m cp -r gs://hcls_testing_data_fhir_10_patients/csv gs://$BUCKET_NAME

สร้างชุดข้อมูล BigQuery

bq mk --location=us --dataset $PROJECT_ID:$DATASET_ID

ติดตั้งและเริ่มต้น Google Cloud SDK แล้วสร้างหัวข้อ Pub หรือหัวข้อย่อยและการสมัครใช้บริการ

gcloud init
gcloud pubsub topics create your-topic
gcloud pubsub subscriptions create --topic your-topic your-sub

3. การตั้งค่าสภาพแวดล้อม Cloud Data Fusion

โปรดทำตามขั้นตอนต่อไปนี้เพื่อเปิดใช้ Cloud Data Fusion API และให้สิทธิ์ที่จำเป็น

เปิดใช้ API

  1. ไปที่ไลบรารี GCP Console API
  2. เลือกโปรเจ็กต์จากรายการโปรเจ็กต์
  3. ในไลบรารี API ให้เลือก API ที่ต้องการเปิดใช้ ( Cloud Data Fusion API, Cloud Pub/Sub API) หากต้องการความช่วยเหลือในการค้นหา API ให้ใช้ช่องค้นหาและตัวกรอง
  4. ในหน้า API ให้คลิกเปิดใช้

สร้างอินสแตนซ์ Cloud Data Fusion

  1. เลือกรหัสโปรเจ็กต์ในคอนโซล GCP
  2. เลือก Data Fusion จากเมนูด้านซ้าย แล้วคลิกปุ่ม "สร้างอินสแตนซ์" ที่อยู่ตรงกลางหน้า (การสร้างครั้งแรก) หรือคลิกปุ่ม "สร้างอินสแตนซ์" ที่เมนูด้านบน (การสร้างเพิ่มเติม)

a828690ff3bf3c46.png

e8ffacaba8e61be5.png

  1. ระบุชื่ออินสแตนซ์ เลือก Enterprise

5af91e46917260ff.png

  1. คลิกปุ่ม "สร้าง"

ตั้งค่าสิทธิ์ของอินสแตนซ์

หลังจากสร้างอินสแตนซ์แล้ว ให้ทำตามขั้นตอนต่อไปนี้เพื่อให้สิทธิ์บัญชีบริการที่เชื่อมโยงกับสิทธิ์ของอินสแตนซ์ในโปรเจ็กต์ของคุณ

  1. ไปที่หน้ารายละเอียดของอินสแตนซ์โดยคลิกชื่ออินสแตนซ์

76ad691f795e1ab3.png

  1. คัดลอกบัญชีบริการ

6c91836afb72209d.png

  1. ไปที่หน้า IAM ของโปรเจ็กต์
  2. ในหน้าสิทธิ์ IAM ให้มอบบทบาทตัวแทนบริการ Cloud Data Fusion API แก่บัญชีบริการโดยคลิกปุ่มเพิ่ม วาง "บัญชีบริการ" ในฟิลด์ สมาชิกใหม่ และเลือก การจัดการบริการ -> บทบาท Agent เซิร์ฟเวอร์ Cloud Data Fusion API

36f03d11c2a4ce0.png

  1. คลิก + เพิ่มบทบาทอื่น (หรือแก้ไข Agent บริการ Cloud Data Fusion API) เพื่อเพิ่มบทบาทผู้สมัครใช้บริการ Pub/Sub

b4bf5500b8cbe5f9.png

  1. คลิกบันทึก

เมื่อทำตามขั้นตอนเหล่านี้แล้ว คุณจะเริ่มใช้ Cloud Data Fusion ได้โดยคลิกลิงก์ดูอินสแตนซ์บนหน้าอินสแตนซ์ Cloud Data Fusion หรือหน้ารายละเอียดของอินสแตนซ์

ตั้งค่ากฎไฟร์วอลล์

  1. ไปที่คอนโซล GCP -> เครือข่าย VPC -> กฎไฟร์วอลล์เพื่อตรวจสอบว่ามีกฎ default-allow-ssh หรือไม่

102adef44bbe3a45.png

  1. หากไม่อนุญาต ให้เพิ่มกฎไฟร์วอลล์ที่อนุญาตการรับส่งข้อมูล SSH ขาเข้าทั้งหมดไปยังเครือข่ายเริ่มต้น

ใช้บรรทัดคำสั่งดังนี้

gcloud beta compute --project={PROJECT_ID} firewall-rules create default-allow-ssh --direction=INGRESS --priority=1000 --network=default --action=ALLOW --rules=tcp:22 --source-ranges=0.0.0.0/0 --enable-logging

ใช้ UI: คลิก "สร้างกฎไฟร์วอลล์" และกรอกข้อมูล:

d9c69ac10496b3d9.png

2dc4971594b82a1f.png

4. สร้างโหนดสำหรับไปป์ไลน์

ตอนนี้เรามีสภาพแวดล้อม Cloud Data Fusion ใน GCP แล้ว เรามาเริ่มสร้างไปป์ไลน์ข้อมูลใน Cloud Data Fusion กันโดยทำตามขั้นตอนต่อไปนี้

  1. ในหน้าต่าง Cloud Data Fusion ให้คลิกลิงก์ ดูอินสแตนซ์ ในคอลัมน์ "การทำงาน" ระบบจะเปลี่ยนเส้นทางคุณไปยังหน้าอื่น คลิก url ที่ระบุเพื่อเปิดอินสแตนซ์ Cloud Data Fusion ตัวเลือกที่คุณต้องการคลิก "เริ่มทัวร์ชม" หรือ "ไม่เป็นไร" ที่ป๊อปอัปต้อนรับ
  2. ขยายข้อความ "แฮมเบอร์เกอร์" เลือกไปป์ไลน์ -> รายการ

317820def934a00a.png

  1. คลิกปุ่ม + สีเขียวที่มุมขวาบน แล้วเลือกสร้างไปป์ไลน์ หรือคลิก "สร้าง" ลิงก์ไปป์ไลน์

711975bb2c2416d7.png

3ec0a71409657fb8.png

  1. เมื่อไปป์ไลน์ Studio ปรากฏขึ้น ให้เลือกไปป์ไลน์ข้อมูล - เรียลไทม์จากเมนูแบบเลื่อนลงที่ด้านซ้ายบน

372a889a81da5e66.png

  1. ใน UI ของไปป์ไลน์ข้อมูล คุณจะเห็นส่วนต่างๆ ในแผงด้านซ้าย เช่น ตัวกรอง แหล่งที่มา การเปลี่ยนรูปแบบ Analytics ซิงก์ ตัวแฮนเดิลข้อผิดพลาด และการแจ้งเตือน ซึ่งคุณจะเลือกโหนดหรือโหนดสำหรับไปป์ไลน์ได้

c63de071d4580f2f.png

เลือกโหนด แหล่งที่มา

  1. ใต้ส่วนแหล่งที่มาในพาเล็ตปลั๊กอินทางด้านซ้าย ให้ดับเบิลคลิกโหนด Google Cloud PubSub ที่ปรากฏใน UI ของไปป์ไลน์ข้อมูล
  2. ชี้ไปที่โหนดแหล่งที่มา PubSub แล้วคลิกพร็อพเพอร์ตี้

ed857a5134148d7b.png

  1. กรอกข้อมูลลงในช่องที่ต้องกรอก ตั้งค่าฟิลด์ต่อไปนี้
  • ป้ายกำกับ = {any text}
  • ชื่อข้อมูลอ้างอิง = {any text}
  • รหัสโปรเจ็กต์ = ตรวจหาอัตโนมัติ
  • การสมัครใช้บริการ = การสมัครใช้บริการที่สร้างขึ้นในส่วนสร้างหัวข้อ Pub/Sub (เช่น your-sub)
  • หัวข้อ = หัวข้อที่สร้างในส่วนสร้างหัวข้อ Pub/Sub (เช่น หัวข้อของคุณ)
  1. คลิกเอกสารประกอบเพื่อดูคำอธิบายอย่างละเอียด คลิกปุ่ม ตรวจสอบ เพื่อตรวจสอบความถูกต้องของข้อมูลอินพุตทั้งหมด "ไม่พบข้อผิดพลาด" สีเขียว บ่งบอกถึงความสำเร็จ

5c2774338b66bebe.png

  1. หากต้องการปิดพร็อพเพอร์ตี้ Pub/Sub ให้คลิกปุ่ม X

เลือกโหนด เปลี่ยนรูปแบบ

  1. ภายใต้ส่วน "การเปลี่ยนรูปแบบ" ในพาเล็ตปลั๊กอินทางด้านซ้าย ให้ดับเบิลคลิกโหนดการฉายภาพที่ปรากฏใน UI ของไปป์ไลน์ข้อมูล เชื่อมต่อโหนดแหล่งที่มา Pub/Sub กับโหนดการเปลี่ยนรูปแบบการฉายภาพ
  2. ชี้ไปที่โหนดการฉายภาพและคลิกคุณสมบัติ

b3a9a3878879bfd7.png

  1. กรอกข้อมูลลงในช่องที่ต้องกรอก ตั้งค่าฟิลด์ต่อไปนี้
  • แปลง = แปลง ข้อความ จากประเภทไบต์เป็นประเภทสตริง
  • ช่องที่จะทิ้ง = {any Field}
  • ช่องที่ควรเก็บไว้ = {message, timestamp and attributes} (ตัวอย่างเช่นแอตทริบิวต์: key=‘filename':value=‘patients' ที่ส่งจาก Pub/Sub)
  • ช่องที่ควรเปลี่ยนชื่อ = {message, timestamp}
  1. คลิกเอกสารประกอบเพื่อดูคำอธิบายอย่างละเอียด คลิกปุ่ม ตรวจสอบ เพื่อตรวจสอบความถูกต้องของข้อมูลอินพุตทั้งหมด "ไม่พบข้อผิดพลาด" สีเขียว บ่งบอกถึงความสำเร็จ

b8c2f8efe18234ff.png

  1. ใต้ส่วน "การเปลี่ยนรูปแบบ" ในพาเล็ตปลั๊กอินทางด้านซ้าย ให้ดับเบิลคลิกโหนด Wrangler ที่ปรากฏใน UI ของ Data Pipelines เชื่อมต่อโหนดการเปลี่ยนรูปแบบการฉายภาพกับโหนดการเปลี่ยนรูปแบบ Wrangler ชี้ไปที่โหนด Wrangler แล้วคลิกคุณสมบัติ

aa44a4db5fe6623a.png

  1. คลิกเมนูแบบเลื่อนลงการดำเนินการ แล้วเลือกนำเข้าเพื่อนำเข้าสคีมาที่บันทึกไว้ (เช่น gs://hcls_testing_data_fhir_10_patients/csv_schemas/ schema (Patients).json)
  2. เพิ่มช่อง TIMESTAMP ในสคีมาเอาต์พุต (หากไม่มี) โดยคลิกปุ่ม + ถัดจากช่องสุดท้าย แล้วเลือก "Null"
  3. กรอกข้อมูลลงในช่องที่ต้องกรอก ตั้งค่าฟิลด์ต่อไปนี้
  • ป้ายกำกับ = {any text}
  • ชื่อช่องที่ป้อน = {*}
  • Precondition = {attributes.get("filename") != "patients"} เพื่อแยกความแตกต่างของบันทึกหรือข้อความแต่ละประเภท (เช่น ผู้ป่วย ผู้ให้บริการ อาการแพ้ ฯลฯ) ที่ส่งจากโหนดแหล่งที่มา PubSub
  1. คลิกเอกสารประกอบเพื่อดูคำอธิบายอย่างละเอียด คลิกปุ่ม ตรวจสอบ เพื่อตรวจสอบความถูกต้องของข้อมูลอินพุตทั้งหมด "ไม่พบข้อผิดพลาด" สีเขียว บ่งบอกถึงความสำเร็จ

3b8e552cd2e3442c.png

  1. ตั้งชื่อคอลัมน์ตามลำดับที่ต้องการ แล้ววางช่องที่ไม่ต้องการ คัดลอกข้อมูลโค้ดต่อไปนี้แล้ววางในช่องสูตรอาหาร
drop attributes
parse-as-csv :body ',' false
drop body
set columns TIMESTAMP,Id,BIRTHDATE,DEATHDATE,SSN,DRIVERS,PASSPORT,PREFIX,FIRST,LAST,SUFFIX,MAIDEN,MARITAL,RACE,ETHNICITY,GENDER,BIRTHPLACE,ADDRESS,CITY,STATE,ZIP
mask-number SSN xxxxxxx####

b93cb9952ca2de73.png

  1. โปรดดู Batch-Codelab - CSV ไปยัง BigQuery ผ่าน CDF สำหรับการมาสก์ข้อมูลและลบการระบุตัวตน หรือเพิ่มข้อมูลโค้ดนี้ mask-number SSN xxxxxxx#### ในช่องสูตรอาหาร
  2. หากต้องการปิดหน้าต่างการแปลงคุณสมบัติ ให้คลิกปุ่ม X

เลือกโหนดซิงก์

  1. ดับเบิลคลิกโหนด BigQuery ที่ปรากฏใน UI ของ Data Pipeline ใต้ส่วนซิงก์ในพาเล็ตปลั๊กอินทางด้านซ้าย เชื่อมต่อโหนดการเปลี่ยนรูปแบบ Wrangler กับโหนดซิงก์ของ BigQuery
  2. ชี้ไปที่โหนดซิงก์ของ BigQuery แล้วคลิก "พร็อพเพอร์ตี้"

1be711152c92c692.png

  1. กรอกข้อมูลในช่องที่ต้องกรอก
  • ป้ายกำกับ = {any text}
  • ชื่อข้อมูลอ้างอิง = {any text}
  • รหัสโปรเจ็กต์ = ตรวจหาอัตโนมัติ
  • ชุดข้อมูล = ชุดข้อมูล BigQuery ที่ใช้ในโปรเจ็กต์ปัจจุบัน (เช่น DATASET_ID)
  • ตาราง = {table name}
  1. คลิกเอกสารประกอบเพื่อดูคำอธิบายอย่างละเอียด คลิกปุ่ม ตรวจสอบ เพื่อตรวจสอบความถูกต้องของข้อมูลอินพุตทั้งหมด "ไม่พบข้อผิดพลาด" สีเขียว บ่งบอกถึงความสำเร็จ

bba71de9f31e842a.png

  1. หากต้องการปิดพร็อพเพอร์ตี้ BigQuery ให้คลิกปุ่ม X

5. สร้างไปป์ไลน์ข้อมูลแบบเรียลไทม์

ในส่วนก่อนหน้านี้ เราได้สร้างโหนดที่จำเป็นสำหรับการสร้างไปป์ไลน์ข้อมูลใน Cloud Data Fusion ในส่วนนี้ เราจะเชื่อมต่อโหนดเพื่อสร้างไปป์ไลน์จริง

การเชื่อมต่อโหนดทั้งหมดในไปป์ไลน์

  1. ลากลูกศรเชื่อมต่อ > ที่ขอบด้านขวาของโหนดต้นทางแล้ววางที่ขอบด้านซ้ายของโหนดปลายทาง
  2. ไปป์ไลน์อาจมีหลายสาขาที่ได้รับข้อความที่เผยแพร่จากโหนดซอร์ส PubSub เดียวกัน

b22908cc35364cdd.png

  1. ตั้งชื่อไปป์ไลน์

เท่านี้เอง คุณเพิ่งสร้างไปป์ไลน์ข้อมูลแบบเรียลไทม์เพื่อติดตั้งใช้งานและเรียกใช้งาน

ส่งข้อความผ่าน Cloud Pub/Sub

ใช้ UI ของ Pub/Sub ดังนี้

  1. ไปที่คอนโซล GCP -> Pub/Sub -> หัวข้อ ให้เลือกหัวข้อของคุณ แล้วคลิกเผยแพร่ข้อความที่เมนูด้านบน

d65b2a6af1668ecd.png

  1. วางแถวระเบียนในช่องข้อความเพียงครั้งละ 1 แถว คลิกปุ่ม +เพิ่มแอตทริบิวต์ ระบุคีย์ = filename, ค่า = <type of record> (เช่น ผู้ป่วย ผู้ให้บริการ อาการแพ้ ฯลฯ)
  2. คลิกปุ่ม "เผยแพร่" เพื่อส่งข้อความ

การใช้คำสั่ง gcloud มีดังนี้

  1. ระบุข้อความด้วยตนเอง
gcloud pubsub topics publish <your-topic> --attribute <key>=<value> --message \
"paste one record row here"
  1. จัดเตรียมข้อความกึ่งอัตโนมัติโดยใช้คำสั่ง Unix cat และ sed คําสั่งนี้สามารถทํางานซ้ำๆ โดยใช้พารามิเตอร์ที่แตกต่างกันได้
gcloud pubsub topics publish <your-topic> --attribute <key>=<value> --message \
"$(gsutil cat gs://$BUCKET_NAME/csv/<value>.csv | sed -n '#p')"

6. กำหนดค่า ทำให้ใช้งานได้ และเรียกใช้ไปป์ไลน์

เมื่อเราพัฒนา Data Pipeline แล้ว เราก็สามารถติดตั้งใช้งานและเรียกใช้งานใน Cloud Data Fusion ได้

1bb5b0b8e2953ffa.png

  1. ใช้ค่าเริ่มต้นกำหนดค่า
  2. คลิกแสดงตัวอย่างเพื่อดูตัวอย่างข้อมูล**** คลิก **แสดงตัวอย่าง** อีกครั้งเพื่อสลับกลับไปยังหน้าต่างก่อนหน้า นอกจากนี้ คุณยังเรียกใช้ไปป์ไลน์ในโหมดแสดงตัวอย่างได้โดยคลิก **เรียกใช้**

b3c891e5e1aa20ae.png

  1. คลิกบันทึกเพื่อดูบันทึก
  2. คลิกบันทึกเพื่อบันทึกการเปลี่ยนแปลงทั้งหมด
  3. คลิกนำเข้าเพื่อนำเข้าการกำหนดค่าไปป์ไลน์ที่บันทึกไว้เมื่อสร้างไปป์ไลน์ใหม่
  4. คลิกส่งออกเพื่อส่งออกการกำหนดค่าไปป์ไลน์
  5. คลิกทำให้ใช้งานได้เพื่อทำให้ไปป์ไลน์ใช้งานได้
  6. เมื่อทำให้ใช้งานได้แล้ว ให้คลิกเรียกใช้ และรอให้ไปป์ไลน์ทำงานเสร็จสมบูรณ์

f01ba6b746ba53a.png

  1. คลิกหยุดเพื่อหยุดการทำงานของไปป์ไลน์ได้ทุกเมื่อ
  2. คุณทำซ้ำไปป์ไลน์ได้โดยเลือก "ทำซ้ำ" ใต้ปุ่มการดำเนินการ
  3. คุณส่งออกการกำหนดค่าไปป์ไลน์ได้โดยเลือก "ส่งออก" ใต้ปุ่มการดำเนินการ

28ea4fc79445fad2.png

  1. คลิกสรุปเพื่อแสดงแผนภูมิของประวัติการเรียกใช้ บันทึก บันทึกข้อผิดพลาด และคำเตือน

7. การตรวจสอบความถูกต้อง

ในส่วนนี้ เราจะตรวจสอบการดำเนินการของไปป์ไลน์ข้อมูล

  1. ตรวจสอบว่าไปป์ไลน์ดำเนินการสำเร็จและทำงานอย่างต่อเนื่อง

1644dfac4a2d819d.png

  1. ตรวจสอบว่าตาราง BigQuery โหลดด้วยระเบียนที่อัปเดตแล้วตามเวลา TIMESTAMP ในตัวอย่างนี้ ระเบียนหรือข้อความของผู้ป่วย 2 รายการ และข้อมูลอาการแพ้ 1 รายการได้รับการเผยแพร่ในหัวข้อ Pub/Sub ในวันที่ 25-06-2019
bq query --nouse_legacy_sql 'select (select count(*) from \
'$PROJECT_ID.$DATASET_ID.Patients'  where TIMESTAMP > "2019-06-25 \
01:29:00.0000 UTC" ) as Patients, (select count(*) from \
'$PROJECT_ID.$DATASET_ID.Allergies' where TIMESTAMP > "2019-06-25 \
01:29:00.0000 UTC") as Allergies;'
Waiting on bqjob_r14c8b94c1c0fe06a_0000016b960df4e1_1 ... (0s) Current status: DONE  
+----------+-----------+
| Patients | Allergies |
+----------+-----------+
|        2 |         1 |
+----------+-----------+
  1. ตรวจสอบว่าข้อความที่เผยแพร่ใน <หัวข้อ> <your-sub> ได้รับข้อความแล้ว สมาชิก
gcloud pubsub subscriptions pull --auto-ack <your-sub>

4cae99a9e4f2ec9f.png

ดูผลลัพธ์

หากต้องการดูผลลัพธ์หลังจากที่เผยแพร่ข้อความไปยังหัวข้อ Pub/Sub ขณะที่ไปป์ไลน์ Realtime ทำงานอยู่ ให้ทำดังนี้

  1. ค้นหาตารางใน BigQuery UI ไปที่ UI ของ BigQuery
  2. อัปเดตการค้นหาด้านล่างเป็นชื่อโปรเจ็กต์ ชุดข้อมูล และตารางของคุณเอง

6a1fb85bd868abc9.png

8. กำลังล้างข้อมูล

โปรดทำดังนี้เพื่อเลี่ยงไม่ให้เกิดการเรียกเก็บเงินกับบัญชี Google Cloud Platform สำหรับทรัพยากรที่ใช้ในบทแนะนำนี้

หลังจากดูบทแนะนำจบแล้ว คุณสามารถล้างทรัพยากรที่สร้างบน GCP เพื่อไม่ให้ใช้โควต้าและระบบจะไม่เรียกเก็บเงินสำหรับทรัพยากรเหล่านั้นในอนาคต ส่วนต่อไปนี้จะอธิบายวิธีลบหรือปิดแหล่งข้อมูลเหล่านี้

การลบชุดข้อมูล BigQuery

ทำตามวิธีการเหล่านี้เพื่อลบชุดข้อมูล BigQuery ที่คุณสร้างไว้ในบทแนะนำนี้

การลบที่เก็บข้อมูล GCS

ทำตามวิธีการเหล่านี้เพื่อลบที่เก็บข้อมูล GCS ที่คุณสร้างไว้ในบทแนะนำนี้

การลบอินสแตนซ์ Cloud Data Fusion

ทำตามวิธีการเหล่านี้เพื่อลบอินสแตนซ์ Cloud Data Fusion

การลบโปรเจ็กต์

วิธีที่ง่ายที่สุดในการยกเลิกการเรียกเก็บเงินคือการลบโปรเจ็กต์ที่คุณสร้างไว้สำหรับบทแนะนำ

วิธีลบโปรเจ็กต์

  1. ในคอนโซล GCP ให้ไปที่หน้าโปรเจ็กต์ ไปที่หน้าโปรเจ็กต์
  2. ในรายการโปรเจ็กต์ ให้เลือกโปรเจ็กต์ที่ต้องการลบ แล้วคลิกลบ
  3. ในกล่องโต้ตอบ ให้พิมพ์รหัสโปรเจ็กต์ แล้วคลิกปิดเครื่องเพื่อลบโปรเจ็กต์

9. ขอแสดงความยินดี

ยินดีด้วย คุณดำเนิน Code Lab เพื่อนำเข้าข้อมูลการดูแลสุขภาพใน BigQuery ด้วย Cloud Data Fusion เสร็จสมบูรณ์แล้ว

คุณเผยแพร่ข้อมูล CSV ไปยังหัวข้อ Pub/Sub แล้วโหลดลงใน BigQuery

คุณได้สร้างไปป์ไลน์การผสานรวมข้อมูลสำหรับการโหลด เปลี่ยนรูปแบบ และมาสก์ข้อมูลการดูแลสุขภาพในแบบเรียลไทม์

ตอนนี้คุณได้ทราบขั้นตอนสำคัญที่จำเป็นต่อการเริ่มต้นเส้นทางการวิเคราะห์ข้อมูลการดูแลสุขอนามัยด้วย BigQuery บน Google Cloud Platform แล้ว