นำเข้าข้อมูล CSV ไปยัง BigQuery โดยใช้ Cloud Data Fusion - การส่งผ่านข้อมูลเป็นกลุ่ม

1. บทนำ

12fb66cc134b50ef.png

อัปเดตล่าสุด 28-02-2020

Codelab นี้แสดงรูปแบบการนำเข้าข้อมูลเพื่อนำเข้าข้อมูลการดูแลสุขอนามัยในรูปแบบ CSV ไปยัง BigQuery จำนวนมาก เราจะใช้ไปป์ไลน์ข้อมูลกลุ่มของข้อมูลฟิวชันของ Cloud Data สำหรับห้องทดลองนี้ ระบบได้สร้างข้อมูลการทดสอบด้านสุขภาพที่สมจริงและพร้อมใช้งานในที่เก็บข้อมูล Google Cloud Storage (gs://hcls_testing_data_fhir_10_patients/csv/) สำหรับคุณ

ใน Code Lab นี้ คุณจะได้เรียนรู้เกี่ยวกับสิ่งต่อไปนี้

  • วิธีนำเข้าข้อมูล CSV (การโหลดที่ตั้งเวลาเป็นกลุ่ม) จาก GCS ไปยัง BigQuery โดยใช้ Cloud Data Fusion
  • วิธีสร้างไปป์ไลน์การผสานรวมข้อมูลใน Cloud Data Fusion แบบเห็นภาพสำหรับการโหลด การเปลี่ยนรูปแบบ และมาสก์ข้อมูลการดูแลสุขภาพจำนวนมาก

คุณต้องมีอะไรบ้างเพื่อเรียกใช้ Codelab นี้

  • คุณต้องมีสิทธิ์เข้าถึงโปรเจ็กต์ GCP
  • คุณต้องได้รับมอบหมายบทบาทเจ้าของสำหรับโปรเจ็กต์ GCP
  • ข้อมูลการดูแลสุขอนามัยในรูปแบบ CSV ซึ่งมีส่วนหัว

หากคุณไม่มีโปรเจ็กต์ GCP ให้ทำตามขั้นตอนเหล่านี้เพื่อสร้างโปรเจ็กต์ GCP ใหม่

ระบบโหลดข้อมูลการดูแลสุขอนามัยในรูปแบบ CSV ไว้ล่วงหน้าแล้วในที่เก็บข้อมูล GCS ที่ gs://hcls_testing_data_fhir_10_patients/csv/ ไฟล์ CSV ของทรัพยากรแต่ละไฟล์มีโครงสร้างสคีมาที่ไม่ซ้ำกัน เช่น Patients.csv มีสคีมาที่แตกต่างจาก Providers.csv ดูไฟล์สคีมาที่โหลดไว้ล่วงหน้าได้ที่ gs://hcls_testing_data_fhir_10_patients/csv_schemas

หากต้องการชุดข้อมูลใหม่ คุณสร้างโดยใช้ SyntheaTM ได้เสมอ จากนั้นอัปโหลดไปยัง GCS แทนการคัดลอกจากที่เก็บข้อมูลในขั้นตอน "คัดลอกข้อมูลอินพุต"

2. การตั้งค่าโปรเจ็กต์ GCP

เริ่มต้นตัวแปร Shell สำหรับสภาพแวดล้อมของคุณ

หากต้องการค้นหา PROJECT_ID โปรดดูการระบุโปรเจ็กต์

<!-- CODELAB: Initialize shell variables ->
<!-- Your current GCP Project ID ->
export PROJECT_ID=<PROJECT_ID>
<!-- A new GCS Bucket in your current Project  - INPUT ->
export BUCKET_NAME=<BUCKET_NAME>
<!-- A new BQ Dataset ID - OUTPUT ->
export DATASET_ID=<DATASET_ID>

สร้างที่เก็บข้อมูล GCS เพื่อจัดเก็บข้อมูลอินพุตและบันทึกข้อผิดพลาดโดยใช้เครื่องมือ gsutil

gsutil mb -l us gs://$BUCKET_NAME

รับสิทธิ์เข้าถึงชุดข้อมูลสังเคราะห์

  1. จากอีเมลที่คุณใช้เข้าสู่ระบบ Cloud Console ให้ส่งอีเมลไปที่ hcls-solutions-external+subscribe@google.com เพื่อขอเข้าร่วม
  2. คุณจะได้รับอีเมลพร้อมวิธียืนยันการดำเนินการ 525a0fa752e0acae.png
  3. ใช้ตัวเลือกเพื่อตอบกลับอีเมลเพื่อเข้าร่วมกลุ่ม ห้ามคลิกปุ่มดังกล่าว
  4. เมื่อได้รับอีเมลยืนยันแล้ว คุณสามารถไปยังขั้นตอนถัดไปใน Codelab ได้

คัดลอกข้อมูลอินพุต

gsutil -m cp -r gs://hcls_testing_data_fhir_10_patients/csv gs://$BUCKET_NAME

สร้างชุดข้อมูล BigQuery

bq mk --location=us --dataset $PROJECT_ID:$DATASET_ID

3. การตั้งค่าสภาพแวดล้อม Cloud Data Fusion

โปรดทำตามขั้นตอนต่อไปนี้เพื่อเปิดใช้ Cloud Data Fusion API และให้สิทธิ์ที่จำเป็น

เปิดใช้ API

  1. ไปที่ไลบรารี GCP Console API
  2. เลือกโปรเจ็กต์จากรายการโปรเจ็กต์
  3. เลือก API ที่ต้องการเปิดใช้ในไลบรารี API หากต้องการความช่วยเหลือในการค้นหา API ให้ใช้ช่องค้นหาและ/หรือตัวกรอง
  4. ในหน้า API ให้คลิกเปิดใช้

สร้างอินสแตนซ์ Cloud Data Fusion

  1. เลือกรหัสโปรเจ็กต์ในคอนโซล GCP
  2. เลือก Data Fusion จากเมนูด้านซ้าย แล้วคลิกปุ่ม "สร้างอินสแตนซ์" ที่อยู่ตรงกลางหน้า (การสร้างครั้งแรก) หรือคลิกปุ่ม "สร้างอินสแตนซ์" ที่เมนูด้านบน (การสร้างเพิ่มเติม)

a828690ff3bf3c46.png

8372c944c94737ea.png

  1. ระบุชื่ออินสแตนซ์ เลือก Enterprise

5af91e46917260ff.png

  1. คลิกปุ่ม "สร้าง"

ตั้งค่าสิทธิ์ของอินสแตนซ์

หลังจากสร้างอินสแตนซ์แล้ว ให้ทำตามขั้นตอนต่อไปนี้เพื่อให้สิทธิ์บัญชีบริการที่เชื่อมโยงกับสิทธิ์ของอินสแตนซ์ในโปรเจ็กต์ของคุณ

  1. ไปที่หน้ารายละเอียดของอินสแตนซ์โดยคลิกชื่ออินสแตนซ์

76ad691f795e1ab3.png

  1. คัดลอกบัญชีบริการ

6c91836afb72209d.png

  1. ไปที่หน้า IAM ของโปรเจ็กต์
  2. ในหน้าสิทธิ์ IAM ตอนนี้เราจะเพิ่มบัญชีบริการเป็นสมาชิกใหม่และมอบบทบาทตัวแทนบริการ Cloud Data Fusion API คลิกปุ่มเพิ่ม แล้ววาง "บัญชีบริการ" ในฟิลด์ สมาชิกใหม่ และเลือก การจัดการบริการ -> บทบาท Agent เซิร์ฟเวอร์ Cloud Data Fusion API
  3. ea68b28d917a24b1.png
  4. คลิกบันทึก

เมื่อทำตามขั้นตอนเหล่านี้แล้ว คุณจะเริ่มใช้ Cloud Data Fusion ได้โดยคลิกลิงก์ดูอินสแตนซ์บนหน้าอินสแตนซ์ Cloud Data Fusion หรือหน้ารายละเอียดของอินสแตนซ์

ตั้งค่ากฎไฟร์วอลล์

  1. ไปที่คอนโซล GCP -> เครือข่าย VPC -> กฎไฟร์วอลล์เพื่อตรวจสอบว่ามีกฎ default-allow-ssh หรือไม่

102adef44bbe3a45.png

  1. หากไม่อนุญาต ให้เพิ่มกฎไฟร์วอลล์ที่อนุญาตการรับส่งข้อมูล SSH ขาเข้าทั้งหมดไปยังเครือข่ายเริ่มต้น

หากใช้บรรทัดคำสั่ง ให้ทำดังนี้

gcloud beta compute --project={PROJECT_ID} firewall-rules create default-allow-ssh --direction=INGRESS --priority=1000 --network=default --action=ALLOW --rules=tcp:22 --source-ranges=0.0.0.0/0 --enable-logging

ใช้ UI: คลิก "สร้างกฎไฟร์วอลล์" และกรอกข้อมูล:

d9c69ac10496b3d9.png

2dc4971594b82a1f.png

4. สร้างสคีมาเพื่อการเปลี่ยนรูปแบบ

ตอนนี้เรามีสภาพแวดล้อม Cloud Fusion ใน GCP แล้ว ลองสร้างสคีมากันเลย เราต้องใช้สคีมานี้สําหรับการเปลี่ยนรูปแบบข้อมูล CSV

  1. ในหน้าต่าง Cloud Data Fusion ให้คลิกลิงก์ ดูอินสแตนซ์ ในคอลัมน์ "การทำงาน" ระบบจะเปลี่ยนเส้นทางคุณไปยังหน้าอื่น คลิก url ที่ระบุเพื่อเปิดอินสแตนซ์ Cloud Data Fusion ตัวเลือกที่คุณต้องการคลิก "เริ่มทัวร์ชม" หรือ "ไม่เป็นไร" ที่ป๊อปอัปต้อนรับ
  2. ขยายข้อความ "แฮมเบอร์เกอร์" เลือกไปป์ไลน์ -> สตูดิโอ

6561b13f30e36c3a.png

  1. ใต้ส่วน "Transform" ใน "เมนูปลั๊กอิน" ทางด้านซ้าย ให้ดับเบิลคลิกที่โหนด Wrangler ซึ่งจะปรากฏใน UI ของ Data Pipelines

aa44a4db5fe6623a.png

  1. ชี้ไปที่โหนด Wrangler แล้วคลิกคุณสมบัติ คลิกปุ่ม Wrangle แล้วเลือกไฟล์ต้นฉบับ .csv (เช่น clients.csv) ซึ่งต้องมีช่องข้อมูลทั้งหมดเพื่อสร้างสคีมาที่ต้องการ
  2. คลิกลูกศรลง (การเปลี่ยนรูปแบบคอลัมน์) ข้างชื่อแต่ละคอลัมน์ (เช่น เนื้อหา) 802edca8a97da18.png
  3. โดยค่าเริ่มต้น การนำเข้าครั้งแรกจะถือว่ามีเพียงคอลัมน์เดียวในไฟล์ข้อมูล หากต้องการแยกวิเคราะห์เป็น CSV ให้เลือกแยกวิเคราะห์CSV จากนั้นเลือกตัวคั่นและเลือก "ตั้งแถวแรกเป็นส่วนหัว" ในช่องตามความเหมาะสม คลิกปุ่ม ใช้
  4. คลิกลูกศรลงถัดจากช่องเนื้อหา เลือก "ลบคอลัมน์" เพื่อนำช่องเนื้อหาออก นอกจากนี้คุณสามารถลองใช้การเปลี่ยนรูปแบบอื่นๆ เช่น การนำคอลัมน์ออก การเปลี่ยนประเภทข้อมูลสำหรับบางคอลัมน์ (ค่าเริ่มต้นคือประเภท "สตริง") การแยกคอลัมน์ การตั้งค่าชื่อคอลัมน์ ฯลฯ

e6d2cda51ff298e7.png

  1. "คอลัมน์" และ "ขั้นตอนการเปลี่ยนแปลง" จะแสดงสคีมาเอาต์พุตและสูตรอาหารของ Wrangler คลิกใช้ที่มุมขวาบน คลิกปุ่ม ตรวจสอบ สัญลักษณ์ "ไม่พบข้อผิดพลาด" สีเขียว บ่งบอกถึงความสำเร็จ

1add853c43f2abee.png

  1. ใน Wrangler Properties ให้คลิกเมนูแบบเลื่อนลงการดำเนินการเพื่อส่งออกสคีมาที่ต้องการไปยังพื้นที่เก็บข้อมูลในเครื่องเพื่อนำเข้าในอนาคตหากจำเป็น
  2. บันทึกสูตร Wrangler ไว้ใช้ในอนาคต
parse-as-csv :body ',' true
drop body
  1. หากต้องการปิดหน้าต่างคุณสมบัติของ Wrangler ให้คลิกปุ่ม X

5. สร้างโหนดสำหรับไปป์ไลน์

ในส่วนนี้ เราจะสร้างคอมโพเนนต์ไปป์ไลน์

  1. ใน UI ของไปป์ไลน์ข้อมูล ที่ด้านซ้ายบน คุณควรเห็นว่ามีการเลือก Data Pipeline - Batch เป็นประเภทไปป์ไลน์

af67c42ce3d98529.png

  1. ที่แผงด้านซ้ายนั้นประกอบด้วยส่วนต่างๆ เช่น ตัวกรอง แหล่งที่มา การเปลี่ยนรูปแบบ Analytics ซิงก์ เงื่อนไขและการดำเนินการ ตัวแฮนเดิลข้อผิดพลาดและการแจ้งเตือน ซึ่งคุณสามารถเลือกโหนดหรือโหนดสำหรับไปป์ไลน์

c4438f7682f8b19b.png

โหนดต้นทาง

  1. เลือกโหนดแหล่งที่มา
  2. ในส่วนแหล่งที่มาในพาเล็ตปลั๊กอินทางด้านซ้าย ให้ดับเบิลคลิกโหนด Google Cloud Storage ที่ปรากฏใน UI ของไปป์ไลน์ข้อมูล
  3. ชี้ไปที่โหนดแหล่งที่มา GCS แล้วคลิก Properties

87e51a3e8dae8b3f.png

  1. กรอกข้อมูลลงในช่องที่ต้องกรอก ตั้งค่าฟิลด์ต่อไปนี้:
  • ป้ายกำกับ = {any text}
  • ชื่อข้อมูลอ้างอิง = {any text}
  • รหัสโปรเจ็กต์ = ตรวจหาอัตโนมัติ
  • เส้นทาง = URL ของ GCS ที่ไปยังที่เก็บข้อมูลในโปรเจ็กต์ปัจจุบัน เช่น gs://$BUCKET_NAME/csv/
  • รูปแบบ = ข้อความ
  • ช่องเส้นทาง = ชื่อไฟล์
  • ชื่อไฟล์เส้นทางเท่านั้น = true
  • อ่านไฟล์ซ้ำๆ = true
  1. เพิ่มช่อง "ชื่อไฟล์" ไปยังสคีมาเอาต์พุต GCS โดยคลิกปุ่ม +
  2. คลิกเอกสารประกอบเพื่อดูคำอธิบายโดยละเอียด คลิกปุ่ม ตรวจสอบ สัญลักษณ์ "ไม่พบข้อผิดพลาด" สีเขียว บ่งบอกถึงความสำเร็จ
  3. หากต้องการปิดพร็อพเพอร์ตี้ GCS ให้คลิกปุ่ม X

เปลี่ยนรูปแบบโหนด

  1. เลือกโหนดการเปลี่ยนรูปแบบ
  2. ใต้ส่วน "การเปลี่ยนรูปแบบ" ในพาเล็ต "ปลั๊กอิน" ทางด้านซ้าย ให้ดับเบิลคลิกโหนด Wrangler ที่ปรากฏใน UI ของ Data Pipelines เชื่อมต่อโหนดแหล่งที่มา GCS กับโหนดการแปลงของ Wrangler
  3. ชี้ไปที่โหนด Wrangler แล้วคลิกคุณสมบัติ
  4. คลิกเมนูแบบเลื่อนลงการดำเนินการ แล้วเลือกนำเข้าเพื่อนำเข้าสคีมาที่บันทึกไว้ (เช่น gs://hcls_testing_data_fhir_10_patients/csv_schemas/ schema (Patients).json) แล้ววางสูตรอาหารที่บันทึกไว้จากส่วนก่อนหน้า
  5. หรือใช้โหนด Wrangler ซ้ำจากส่วน สร้างสคีมาสำหรับการเปลี่ยนรูปแบบ
  6. กรอกข้อมูลลงในช่องที่ต้องกรอก ตั้งค่าฟิลด์ต่อไปนี้:
  • ป้ายกำกับ = {any text}
  • ชื่อช่องที่ป้อน = {*}
  • เงื่อนไขล่วงหน้า = {filename != "patients.csv"} เพื่อแยกไฟล์อินพุตแต่ละรายการ (ตัวอย่างเช่น.grants.csv, provider.csv, allergies.csv ฯลฯ) จากโหนด Source

2426f8f0a6c4c670.png

  1. เพิ่มโหนด JavaScript เพื่อเรียกใช้ JavaScript ที่ได้จากผู้ใช้ ซึ่งจะเปลี่ยนรูปแบบระเบียนเพิ่มเติม ใน Codelab นี้ เราใช้โหนด JavaScript เพื่อรับการประทับเวลาสำหรับการอัปเดตระเบียนแต่ละครั้ง เชื่อมต่อโหนดเปลี่ยนรูปแบบ Wrangler กับโหนดเปลี่ยนรูปแบบ JavaScript เปิดพร็อพเพอร์ตี้ของ JavaScript แล้วเพิ่มฟังก์ชันต่อไปนี้

75212f9ad98265a8.png

function transform(input, emitter, context) {
  input.TIMESTAMP = (new Date()).getTime()*1000;
  emitter.emit(input);
}
  1. เพิ่มช่องชื่อ TIMESTAMP ลงในสคีมาเอาต์พุต (หากไม่มี) โดยคลิกเครื่องหมาย + เลือกประเภทข้อมูลเป็นการประทับเวลา

4227389b57661135.png

  1. คลิกเอกสารประกอบเพื่อดูคำอธิบายอย่างละเอียด คลิกปุ่ม ตรวจสอบ เพื่อตรวจสอบความถูกต้องของข้อมูลอินพุตทั้งหมด "ไม่พบข้อผิดพลาด" สีเขียว บ่งบอกถึงความสำเร็จ
  2. หากต้องการปิดหน้าต่างการแปลงคุณสมบัติ ให้คลิกปุ่ม X

การมาสก์ข้อมูลและการลบการระบุตัวตน

  1. คุณเลือกคอลัมน์ข้อมูลแต่ละคอลัมน์ได้โดยคลิกลูกศรลงในคอลัมน์และใช้กฎการมาสก์ใต้การเลือกข้อมูลมาสก์ตามที่ต้องการ (เช่น คอลัมน์ SSN)

bb1eb067dd6e0946.png

  1. คุณเพิ่มคำสั่งอื่นๆ ในหน้าต่าง Recipe ของโหนด Wrangler ได้ เช่น การใช้คำสั่งแฮชกับอัลกอริทึมการแฮชตามไวยากรณ์นี้เพื่อจุดประสงค์ในการลบการระบุตัวตน
hash <column> <algorithm> <encode>

<column>: name of the column
<algorithm>: Hashing algorithm (i.e. MD5, SHA-1, etc.)
<encode>: default is true (hashed digest is encoded as hex with left-padding zeros). To disable hex encoding, set <encode> to false.

cbcc9a0932f53197.png

โหนดของซิงก์

  1. เลือกโหนดซิงก์
  2. ดับเบิลคลิกโหนด BigQuery ใต้หัวข้อ Sink ในพาเล็ตปลั๊กอินทางด้านซ้าย ซึ่งจะปรากฏขึ้นใน UI ของ Data Pipeline
  3. ชี้ไปที่โหนดซิงก์ของ BigQuery แล้วคลิก "พร็อพเพอร์ตี้"

1be711152c92c692.png

  1. กรอกข้อมูลในช่องที่ต้องกรอก ตั้งค่าฟิลด์ต่อไปนี้:
  • ป้ายกำกับ = {any text}
  • ชื่อข้อมูลอ้างอิง = {any text}
  • รหัสโปรเจ็กต์ = ตรวจหาอัตโนมัติ
  • ชุดข้อมูล = ชุดข้อมูล BigQuery ที่ใช้ในโปรเจ็กต์ปัจจุบัน (เช่น DATASET_ID)
  • ตาราง = {table name}
  1. คลิกเอกสารประกอบเพื่อดูคำอธิบายอย่างละเอียด คลิกปุ่ม ตรวจสอบ เพื่อตรวจสอบความถูกต้องของข้อมูลอินพุตทั้งหมด "ไม่พบข้อผิดพลาด" สีเขียว บ่งบอกถึงความสำเร็จ

c5585747da2ef341.png

  1. หากต้องการปิดพร็อพเพอร์ตี้ BigQuery ให้คลิกปุ่ม X

6. ไปป์ไลน์ข้อมูลของบิลด์เป็นกลุ่ม

การเชื่อมต่อโหนดทั้งหมดในไปป์ไลน์

  1. ลากลูกศรเชื่อมต่อ > ที่ขอบด้านขวาของโหนดต้นทางแล้ววางที่ขอบด้านซ้ายของโหนดปลายทาง
  2. ไปป์ไลน์อาจมีหลายสาขาที่รับไฟล์อินพุตจากโหนดแหล่งที่มา GCS เดียวกัน

67510ab46bd44d36.png

  1. ตั้งชื่อไปป์ไลน์

เท่านี้เอง คุณเพิ่งสร้างไปป์ไลน์ข้อมูลแบบกลุ่มแรก รวมถึงทำให้ไปป์ไลน์ข้อมูลใช้งานได้และเรียกใช้ได้

ส่งการแจ้งเตือนไปป์ไลน์ทางอีเมล (ไม่บังคับ)

หากต้องการใช้ฟีเจอร์ Pipeline Alert SendEmail การกำหนดค่าจะต้องมีการตั้งค่าเซิร์ฟเวอร์อีเมลเพื่อส่งอีเมลจากอินสแตนซ์เครื่องเสมือน ดูลิงก์อ้างอิงด้านล่างเพื่อดูข้อมูลเพิ่มเติม

การส่งอีเมลจากอินสแตนซ์ | เอกสารประกอบของ Compute Engine

ใน Codelab นี้ เราตั้งค่าบริการส่งต่ออีเมลผ่าน Mailgun โดยใช้ขั้นตอนต่อไปนี้

  1. ทำตามวิธีการที่การส่งอีเมลด้วย Mailgun | เอกสารประกอบของ Compute Engine สำหรับการตั้งค่าบัญชีด้วย Mailgun และกำหนดค่าบริการการส่งต่ออีเมล การแก้ไขเพิ่มเติมมีดังนี้
  2. เพิ่มผู้รับทั้งหมด ไปยังรายชื่อที่ได้รับอนุญาตของ Mailgun รายการนี้จะอยู่ใน Mailgun>การส่ง>ตัวเลือกภาพรวมในแผงด้านซ้าย

7e6224cced3fa4e0.png fa78739f1ddf2dc2.png

เมื่อผู้รับคลิก "ฉันยอมรับ" ในอีเมลที่ส่งจาก support@mailgun.net ระบบจะบันทึกอีเมลไว้ในรายชื่อที่ได้รับอนุญาตเพื่อรับอีเมลแจ้งเตือนเรื่องไปป์ไลน์

72847c97fd5fce0f.png

  1. ขั้นตอนที่ 3 ของ "ก่อนเริ่มต้น" ส่วน - สร้างกฎไฟร์วอลล์ดังต่อไปนี้:

75b063c165091912.png

  1. ขั้นตอนที่ 3 ของ "การกำหนดค่า Mailgun เป็นรีเลย์อีเมลด้วย Postfix" เลือกเว็บไซต์อินเทอร์เน็ตหรืออินเทอร์เน็ตที่มีสมาร์ทโฮสต์ แทนในเครื่องเท่านั้น ตามที่ระบุไว้ในวิธีการ

8fd8474a4ef18f16.png

  1. ขั้นตอนที่ 4 ของ "การกำหนดค่า Mailgun เป็นรีเลย์อีเมลด้วย Postfix" แก้ไข vi /etc/postfix/main.cf เพื่อเพิ่ม 10.128.0.0/9 ต่อท้าย mynetworks

249fbf3edeff1ce8.png

  1. แก้ไข vi /etc/postfix/master.cf เพื่อเปลี่ยน smtp (25) เริ่มต้นเป็นพอร์ต 587

86c82cf48c687e72.png

  1. คลิกกำหนดค่าที่มุมขวาบนของ Data Fusion Studio คลิกการแจ้งเตือนไปป์ไลน์ และคลิกปุ่ม + เพื่อเปิดหน้าต่างการแจ้งเตือน เลือก SendEmail

dc079a91f1b0da68.png

  1. กรอกแบบฟอร์มการกำหนดค่าอีเมล เลือกความสมบูรณ์ ความสำเร็จ หรือความล้มเหลวจากเมนูแบบเลื่อนลงเงื่อนไขการเรียกใช้สำหรับการแจ้งเตือนแต่ละประเภท ถ้า Include Workflow Token = false ระบบจะส่งเฉพาะข้อมูลจากช่อง Message เท่านั้น ถ้ารวมโทเค็นเวิร์กโฟลว์ = จริง ระบบจะส่งข้อมูลโดยละเอียดจากช่องข้อความและโทเค็นเวิร์กโฟลว์ คุณต้องใช้ตัวพิมพ์เล็กสำหรับโปรโตคอล ใช้ "ปลอม" ใดก็ได้ อีเมลอื่นนอกเหนือจากที่อยู่อีเมลของบริษัทสำหรับ Sender

1fa619b6ce28f5e5.png

7. กำหนดค่า ทำให้ใช้งานได้ เรียกใช้/กำหนดเวลาไปป์ไลน์

db612e62a1c7ab7e.png

  1. คลิกกำหนดค่าที่มุมขวาบนของ Data Fusion Studio เลือก Spark สำหรับการกำหนดค่าเครื่องมือ คลิก "บันทึก" ในหน้าต่าง "กำหนดค่า"

8ecf7c243c125882.png

  1. คลิกแสดงตัวอย่างเพื่อแสดงตัวอย่างข้อมูล**** และคลิก **แสดงตัวอย่าง** อีกครั้งเพื่อสลับกลับไปยังหน้าต่างก่อนหน้า คุณยัง **เรียกใช้** ไปป์ไลน์ในโหมดแสดงตัวอย่างได้ด้วย

b3c891e5e1aa20ae.png

  1. คลิกบันทึกเพื่อดูบันทึก
  2. คลิกบันทึกเพื่อบันทึกการเปลี่ยนแปลงทั้งหมด
  3. คลิกนำเข้าเพื่อนำเข้าการกำหนดค่าไปป์ไลน์ที่บันทึกไว้เมื่อสร้างไปป์ไลน์ใหม่
  4. คลิกส่งออกเพื่อส่งออกการกำหนดค่าไปป์ไลน์
  5. คลิกทำให้ใช้งานได้เพื่อทำให้ไปป์ไลน์ใช้งานได้
  6. เมื่อทำให้ใช้งานได้แล้ว ให้คลิกเรียกใช้ และรอให้ไปป์ไลน์ทำงานเสร็จสมบูรณ์

bb06001d46a293db.png

  1. คุณทำซ้ำไปป์ไลน์ได้โดยเลือก "ทำซ้ำ" ใต้ปุ่มการดำเนินการ
  2. คุณส่งออกการกำหนดค่าไปป์ไลน์ได้โดยเลือก "ส่งออก" ใต้ปุ่มการดำเนินการ
  3. คลิกทริกเกอร์ขาเข้าหรือทริกเกอร์ขาออกที่ขอบด้านซ้ายหรือขวาของหน้าต่าง Studio เพื่อตั้งค่าทริกเกอร์ไปป์ไลน์ หากต้องการ
  4. คลิกตั้งเวลาเพื่อตั้งเวลาให้ไปป์ไลน์ทำงานและโหลดข้อมูลเป็นระยะๆ

4167fa67550a49d5.png

  1. ข้อมูลสรุปจะแสดงแผนภูมิของประวัติการเรียกใช้ บันทึก บันทึกข้อผิดพลาด และคำเตือน

8. การตรวจสอบความถูกต้อง

  1. ดำเนินการตรวจสอบไปป์ไลน์เรียบร้อยแล้ว

7dee6e662c323f14.png

  1. ตรวจสอบว่าชุดข้อมูล BigQuery มีตารางทั้งหมดหรือไม่
bq ls $PROJECT_ID:$DATASET_ID
     tableId       Type    Labels   Time Partitioning
----------------- ------- -------- -------------------
 Allergies         TABLE
 Careplans         TABLE
 Conditions        TABLE
 Encounters        TABLE
 Imaging_Studies   TABLE
 Immunizations     TABLE
 Medications       TABLE
 Observations      TABLE
 Organizations     TABLE
 Patients          TABLE
 Procedures        TABLE
 Providers         TABLE
  1. รับอีเมลการแจ้งเตือน (หากกำหนดค่าไว้)

ดูผลลัพธ์

วิธีดูผลลัพธ์หลังจากที่เรียกใช้ไปป์ไลน์

  1. ค้นหาตารางใน BigQuery UI ไปที่ UI ของ BigQuery
  2. อัปเดตการค้นหาด้านล่างเป็นชื่อโปรเจ็กต์ ชุดข้อมูล และตารางของคุณเอง

e32bfd5d965a117f.png

9. กำลังล้างข้อมูล

โปรดทำดังนี้เพื่อเลี่ยงไม่ให้เกิดการเรียกเก็บเงินกับบัญชี Google Cloud Platform สำหรับทรัพยากรที่ใช้ในบทแนะนำนี้

หลังจากดูบทแนะนำจบแล้ว คุณสามารถล้างทรัพยากรที่สร้างบน GCP เพื่อไม่ให้ใช้โควต้าของคุณและจะไม่มีการเรียกเก็บเงินสำหรับทรัพยากรเหล่านั้นในอนาคต ส่วนต่อไปนี้จะอธิบายวิธีลบหรือปิดแหล่งข้อมูลเหล่านี้

การลบชุดข้อมูล BigQuery

ทำตามวิธีการเหล่านี้เพื่อลบชุดข้อมูล BigQuery ที่คุณสร้างไว้ในบทแนะนำนี้

การลบที่เก็บข้อมูล GCS

ทำตามวิธีการเหล่านี้เพื่อลบที่เก็บข้อมูล GCS ที่คุณสร้างไว้ในบทแนะนำนี้

การลบอินสแตนซ์ Cloud Data Fusion

ทำตามวิธีการเหล่านี้เพื่อลบอินสแตนซ์ Cloud Data Fusion

การลบโปรเจ็กต์

วิธีที่ง่ายที่สุดในการยกเลิกการเรียกเก็บเงินคือการลบโปรเจ็กต์ที่คุณสร้างไว้สำหรับบทแนะนำ

วิธีลบโปรเจ็กต์

  1. ในคอนโซล GCP ให้ไปที่หน้าโปรเจ็กต์ ไปที่หน้าโปรเจ็กต์
  2. ในรายการโปรเจ็กต์ ให้เลือกโปรเจ็กต์ที่ต้องการลบ แล้วคลิกลบ
  3. ในกล่องโต้ตอบ ให้พิมพ์รหัสโปรเจ็กต์ แล้วคลิกปิดเครื่องเพื่อลบโปรเจ็กต์

10. ขอแสดงความยินดี

ยินดีด้วย คุณดำเนิน Code Lab เพื่อนำเข้าข้อมูลการดูแลสุขภาพใน BigQuery ด้วย Cloud Data Fusion เสร็จสมบูรณ์แล้ว

คุณนำเข้าข้อมูล CSV จาก Google Cloud Storage ไปยัง BigQuery

คุณได้สร้างไปป์ไลน์การผสานรวมข้อมูลสำหรับการโหลด เปลี่ยนรูปแบบ และมาสก์ข้อมูลการดูแลสุขภาพหลายรายการพร้อมกัน

ตอนนี้คุณได้ทราบขั้นตอนสำคัญที่จำเป็นต่อการเริ่มต้นเส้นทางการวิเคราะห์ข้อมูลการดูแลสุขอนามัยด้วย BigQuery บน Google Cloud Platform แล้ว