นำเข้าข้อมูล CSV ไปยัง BigQuery โดยใช้ Cloud Data Fusion - การส่งผ่านข้อมูลเป็นกลุ่ม

1. บทนำ

12fb66cc134b50ef.png

อัปเดตล่าสุด: 2020-02-28

Codelab นี้แสดงรูปแบบการนำเข้าข้อมูลเพื่อนำเข้าข้อมูลด้านการดูแลสุขภาพที่จัดรูปแบบ CSV ไปยัง BigQuery เป็นกลุ่ม เราจะใช้ไปป์ไลน์ข้อมูลแบบกลุ่มของ Cloud Data Fusion สำหรับ Lab นี้ ระบบได้สร้างข้อมูลทดสอบด้านการดูแลสุขภาพที่สมจริงและพร้อมใช้งานใน Bucket ของ Google Cloud Storage (gs://hcls_testing_data_fhir_10_patients/csv/) สำหรับคุณ

ในโค้ดแล็บนี้ คุณจะได้เรียนรู้สิ่งต่อไปนี้

  • วิธีกรอกข้อมูล CSV (การโหลดที่กำหนดเวลาเป็นกลุ่ม) จาก GCS ไปยัง BigQuery โดยใช้ Cloud Data Fusion
  • วิธีสร้างไปป์ไลน์การผสานรวมข้อมูลด้วยภาพใน Cloud Data Fusion เพื่อโหลด เปลี่ยนรูปแบบ และมาสก์ข้อมูลด้านการดูแลสุขภาพจำนวนมาก

คุณต้องมีอะไรบ้างในการเรียกใช้ Codelab นี้

  • คุณต้องมีสิทธิ์เข้าถึงโปรเจ็กต์ GCP
  • คุณต้องได้รับมอบหมายบทบาทเจ้าของสำหรับโปรเจ็กต์ GCP
  • ข้อมูลด้านการดูแลสุขภาพในรูปแบบ CSV รวมถึงส่วนหัว

หากไม่มีโปรเจ็กต์ GCP ให้ทำตามขั้นตอนเหล่านี้เพื่อสร้างโปรเจ็กต์ GCP ใหม่

ระบบได้โหลดข้อมูลด้านการดูแลสุขภาพในรูปแบบ CSV ลงในที่เก็บข้อมูล GCS ที่ gs://hcls_testing_data_fhir_10_patients/csv/ ไว้ล่วงหน้าแล้ว ไฟล์ CSV ของทรัพยากรแต่ละไฟล์มีโครงสร้างสคีมาที่ไม่ซ้ำกัน เช่น Patients.csv มีสคีมาแตกต่างจาก Providers.csv ดูไฟล์สคีมาที่โหลดไว้ล่วงหน้าได้ที่ gs://hcls_testing_data_fhir_10_patients/csv_schemas

หากต้องการชุดข้อมูลใหม่ คุณสร้างชุดข้อมูลได้ทุกเมื่อโดยใช้ SyntheaTM จากนั้นให้อัปโหลดไปยัง GCS แทนการคัดลอกจาก Bucket ในขั้นตอนการคัดลอกข้อมูลอินพุต

2. การตั้งค่าโปรเจ็กต์ GCP

เริ่มต้นตัวแปรเชลล์สำหรับสภาพแวดล้อม

หากต้องการค้นหา PROJECT_ID โปรดดูการระบุโปรเจ็กต์

<!-- CODELAB: Initialize shell variables ->
<!-- Your current GCP Project ID ->
export PROJECT_ID=<PROJECT_ID>
<!-- A new GCS Bucket in your current Project  - INPUT ->
export BUCKET_NAME=<BUCKET_NAME>
<!-- A new BQ Dataset ID - OUTPUT ->
export DATASET_ID=<DATASET_ID>

สร้าง Bucket ของ GCS เพื่อจัดเก็บข้อมูลอินพุตและบันทึกข้อผิดพลาดโดยใช้เครื่องมือ gsutil

gsutil mb -l us gs://$BUCKET_NAME

รับสิทธิ์เข้าถึงชุดข้อมูลสังเคราะห์

  1. จากอีเมลที่คุณใช้เพื่อเข้าสู่ระบบ Cloud Console ให้ส่งอีเมลไปที่ hcls-solutions-external+subscribe@google.com เพื่อขอเข้าร่วม
  2. คุณจะได้รับอีเมลพร้อมวิธีการยืนยันการดำเนินการ 525a0fa752e0acae.png
  3. ใช้ตัวเลือกเพื่อตอบกลับอีเมลเพื่อเข้าร่วมกลุ่ม อย่าคลิกปุ่ม
  4. เมื่อได้รับอีเมลยืนยันแล้ว คุณจะไปยังขั้นตอนถัดไปใน Codelab ได้

คัดลอกข้อมูลที่ป้อน

gsutil -m cp -r gs://hcls_testing_data_fhir_10_patients/csv gs://$BUCKET_NAME

สร้างชุดข้อมูล BigQuery

bq mk --location=us --dataset $PROJECT_ID:$DATASET_ID

3. การตั้งค่าสภาพแวดล้อม Cloud Data Fusion

ทำตามขั้นตอนต่อไปนี้เพื่อเปิดใช้ Cloud Data Fusion API และให้สิทธิ์ที่จำเป็น

เปิดใช้ API

  1. ไปที่คลัง API ของคอนโซล GCP
  2. เลือกโปรเจ็กต์จากรายการโปรเจ็กต์
  3. เลือก API ที่ต้องการเปิดใช้ในไลบรารี API หากต้องการความช่วยเหลือในการค้นหา API ให้ใช้ช่องค้นหาและ/หรือตัวกรอง
  4. คลิกเปิดใช้ในหน้า API

สร้างอินสแตนซ์ Cloud Data Fusion

  1. เลือก ProjectID ในคอนโซล GCP
  2. เลือก Data Fusion จากเมนูด้านซ้าย แล้วคลิกปุ่มสร้างอินสแตนซ์ตรงกลางหน้า (การสร้างครั้งแรก) หรือคลิกปุ่มสร้างอินสแตนซ์ในเมนูด้านบน (การสร้างเพิ่มเติม)

a828690ff3bf3c46.png

8372c944c94737ea.png

  1. ระบุชื่ออินสแตนซ์ เลือกองค์กร

5af91e46917260ff.png

  1. คลิกปุ่มสร้าง

ตั้งค่าสิทธิ์ของอินสแตนซ์

หลังจากสร้างอินสแตนซ์แล้ว ให้ทำตามขั้นตอนต่อไปนี้เพื่อให้สิทธิ์บัญชีบริการที่เชื่อมโยงกับอินสแตนซ์ในโปรเจ็กต์

  1. ไปที่หน้ารายละเอียดอินสแตนซ์โดยคลิกชื่ออินสแตนซ์

76ad691f795e1ab3.png

  1. คัดลอกบัญชีบริการ

6c91836afb72209d.png

  1. ไปที่หน้า IAM ของโปรเจ็กต์
  2. ในหน้าสิทธิ์ IAM ตอนนี้เราจะเพิ่มบัญชีบริการเป็นสมาชิกใหม่และมอบบทบาทตัวแทนบริการ API ของ Cloud Data Fusion ให้ คลิกปุ่มเพิ่ม จากนั้นวาง "บัญชีบริการ" ในช่องสมาชิกใหม่ แล้วเลือก Service Management -> Cloud Data Fusion API Server Agent role
  3. ea68b28d917a24b1.png
  4. คลิกบันทึก

เมื่อทำตามขั้นตอนเหล่านี้แล้ว คุณจะเริ่มใช้ Cloud Data Fusion ได้โดยคลิกลิงก์ดูอินสแตนซ์ในหน้าอินสแตนซ์ Cloud Data Fusion หรือหน้ารายละเอียดของอินสแตนซ์

ตั้งค่ากฎไฟร์วอลล์

  1. ไปที่ GCP Console -> เครือข่าย VPC -> กฎไฟร์วอลล์เพื่อตรวจสอบว่ามีกฎ default-allow-ssh หรือไม่

102adef44bbe3a45.png

  1. หากไม่ได้เพิ่ม ให้เพิ่มกฎไฟร์วอลล์ที่อนุญาตการรับส่งข้อมูล SSH ขาเข้าทั้งหมดไปยังเครือข่ายเริ่มต้น

การใช้บรรทัดคำสั่ง

gcloud beta compute --project={PROJECT_ID} firewall-rules create default-allow-ssh --direction=INGRESS --priority=1000 --network=default --action=ALLOW --rules=tcp:22 --source-ranges=0.0.0.0/0 --enable-logging

การใช้ UI: คลิกสร้างกฎไฟร์วอลล์ แล้วกรอกข้อมูลต่อไปนี้

d9c69ac10496b3d9.png

2dc4971594b82a1f.png

4. สร้างสคีมาสำหรับการเปลี่ยนรูปแบบ

เมื่อมีสภาพแวดล้อม Cloud Fusion ใน GCP แล้ว เรามาสร้างสคีมากัน เราต้องใช้สคีมานี้ในการเปลี่ยนรูปแบบข้อมูล CSV

  1. ในหน้าต่าง Cloud Data Fusion ให้คลิกลิงก์ดูอินสแตนซ์ในคอลัมน์การดำเนินการ ระบบจะเปลี่ยนเส้นทางคุณไปยังอีกหน้าหนึ่ง คลิก URL ที่ระบุเพื่อเปิดอินสแตนซ์ Cloud Data Fusion คุณเลือกคลิกปุ่ม "เริ่มทัวร์" หรือ "ไม่เป็นไร" ในป๊อปอัปต้อนรับ
  2. ขยายเมนู "แฮมเบอร์เกอร์" เลือกไปป์ไลน์ -> Studio

6561b13f30e36c3a.png

  1. ในส่วน "เปลี่ยนรูปแบบ" ในจานสีปลั๊กอินทางด้านซ้าย ให้ดับเบิลคลิกโหนด Wrangler ซึ่งจะปรากฏใน UI ของ Data Pipelines

aa44a4db5fe6623a.png

  1. ชี้ไปที่โหนด Wrangler แล้วคลิกพร็อพเพอร์ตี้ คลิกปุ่มจัดระเบียบ จากนั้นเลือกไฟล์ต้นฉบับ .csv (เช่น patients.csv) ซึ่งต้องมีฟิลด์ข้อมูลทั้งหมดเพื่อสร้างสคีมาที่ต้องการ
  2. คลิกลูกศรลง (การเปลี่ยนรูปแบบคอลัมน์) ข้างชื่อคอลัมน์แต่ละรายการ (เช่น เนื้อหา) 802edca8a97da18.png
  3. โดยค่าเริ่มต้น การนำเข้าครั้งแรกจะถือว่ามีเพียงคอลัมน์เดียวในไฟล์ข้อมูล หากต้องการแยกวิเคราะห์เป็น CSV ให้เลือกแยกวิเคราะห์CSV จากนั้นเลือกตัวคั่นและเลือกช่อง "ตั้งค่าแถวแรกเป็นส่วนหัว" ตามความเหมาะสม คลิกปุ่ม "สมัคร"
  4. คลิกลูกศรลงข้างช่องเนื้อหา แล้วเลือก "ลบคอลัมน์" เพื่อนำช่องเนื้อหาออก นอกจากนี้ คุณยังลองใช้การเปลี่ยนรูปแบบอื่นๆ ได้ด้วย เช่น การนำคอลัมน์ออก การเปลี่ยนประเภทข้อมูลสำหรับคอลัมน์บางรายการ (ค่าเริ่มต้นคือประเภท "สตริง") การแยกคอลัมน์ การตั้งชื่อคอลัมน์ เป็นต้น

e6d2cda51ff298e7.png

  1. แท็บ "คอลัมน์" และ "ขั้นตอนการเปลี่ยนรูปแบบ" จะแสดงสคีมาเอาต์พุตและสูตรของ Wrangler คลิกใช้ที่มุมขวาบน คลิกปุ่ม "ตรวจสอบ" ข้อความสีเขียว "ไม่พบข้อผิดพลาด" แสดงว่าสำเร็จ

1add853c43f2abee.png

  1. ใน Wrangler Properties ให้คลิกเมนูแบบเลื่อนลงการดำเนินการเพื่อส่งออกสคีมาที่ต้องการไปยังที่เก็บข้อมูลในเครื่องสำหรับการนำเข้าในอนาคตหากจำเป็น
  2. บันทึกสูตร Wrangler ไว้ใช้ในอนาคต
parse-as-csv :body ',' true
drop body
  1. หากต้องการปิดหน้าต่างคุณสมบัติของ Wrangler ให้คลิกปุ่ม X

5. สร้างโหนดสำหรับไปป์ไลน์

ในส่วนนี้ เราจะสร้างคอมโพเนนต์ของไปป์ไลน์

  1. ใน UI ของ Data Pipelines ที่ด้านซ้ายบน คุณควรเห็นว่ามีการเลือก Data Pipeline - Batch เป็นประเภทไปป์ไลน์

af67c42ce3d98529.png

  1. แผงด้านซ้ายมีส่วนต่างๆ เช่น ตัวกรอง แหล่งที่มา แปลง Analytics Sink เงื่อนไขและการดำเนินการ ตัวจัดการข้อผิดพลาด และการแจ้งเตือน ซึ่งคุณสามารถเลือกโหนดหรือโหนดต่างๆ สำหรับไปป์ไลน์ได้

c4438f7682f8b19b.png

โหนดต้นทาง

  1. เลือกโหนดแหล่งข้อมูล
  2. ในส่วนแหล่งที่มาในจานสีปลั๊กอินทางด้านซ้าย ให้ดับเบิลคลิกโหนด Google Cloud Storage ซึ่งจะปรากฏใน UI ของ Data Pipelines
  3. ชี้ไปที่โหนดแหล่งที่มาของ GCS แล้วคลิกพร็อพเพอร์ตี้

87e51a3e8dae8b3f.png

  1. กรอกข้อมูลลงในช่องที่ต้องกรอก ตั้งค่าช่องต่อไปนี้
  • ป้ายกำกับ = {ข้อความใดก็ได้}
  • ชื่ออ้างอิง = {ข้อความใดก็ได้}
  • รหัสโปรเจ็กต์ = ตรวจหาอัตโนมัติ
  • เส้นทาง = URL ของ GCS ไปยังที่เก็บข้อมูลในโปรเจ็กต์ปัจจุบัน เช่น gs://$BUCKET_NAME/csv/
  • รูปแบบ = ข้อความ
  • ฟิลด์เส้นทาง = ชื่อไฟล์
  • Path Filename Only = true
  • Read Files Recursively = true
  1. เพิ่มฟิลด์ "filename" ลงในสคีมาเอาต์พุตของ GCS โดยคลิกปุ่ม +
  2. คลิกเอกสารประกอบเพื่อดูคำอธิบายโดยละเอียด คลิกปุ่ม "ตรวจสอบ" ข้อความสีเขียว "ไม่พบข้อผิดพลาด" แสดงว่าสำเร็จ
  3. หากต้องการปิดพร็อพเพอร์ตี้ GCS ให้คลิกปุ่ม X

โหนดเปลี่ยนรูปแบบ

  1. เลือกโหนด Transform
  2. ในส่วน "เปลี่ยนรูปแบบ" ในจานสีปลั๊กอินทางด้านซ้าย ให้ดับเบิลคลิกโหนด Wrangler ซึ่งจะปรากฏใน UI ของ Data Pipelines เชื่อมต่อโหนดแหล่งที่มาของ GCS กับโหนดการแปลง Wrangler
  3. ชี้ไปที่โหนด Wrangler แล้วคลิกพร็อพเพอร์ตี้
  4. คลิกเมนูแบบเลื่อนลงการดำเนินการ แล้วเลือกนำเข้าเพื่อนำเข้าสคีมาที่บันทึกไว้ (เช่น gs://hcls_testing_data_fhir_10_patients/csv_schemas/ schema (Patients).json) จากนั้นวางสูตรที่บันทึกไว้จากส่วนก่อนหน้า
  5. หรือนำโหนด Wrangler จากส่วนสร้างสคีมาสำหรับการเปลี่ยนรูปแบบกลับมาใช้ใหม่
  6. กรอกข้อมูลลงในช่องที่ต้องกรอก ตั้งค่าช่องต่อไปนี้
  • Label = {ข้อความใดก็ได้}
  • ชื่อช่องป้อนข้อมูล = {*}
  • Precondition = {filename != "patients.csv"} เพื่อแยกความแตกต่างของไฟล์อินพุตแต่ละไฟล์ (เช่น patients.csv, providers.csv, allergies.csv เป็นต้น) จากโหนดแหล่งที่มา

2426f8f0a6c4c670.png

  1. เพิ่มโหนด JavaScript เพื่อเรียกใช้ JavaScript ที่ได้จากผู้ใช้ซึ่งจะแปลงระเบียนเพิ่มเติม ใน Codelab นี้ เราจะใช้โหนด JavaScript เพื่อรับการประทับเวลาสำหรับการอัปเดตแต่ละระเบียน เชื่อมต่อโหนดการแปลง Wrangler กับโหนดการแปลง JavaScript เปิดพร็อพเพอร์ตี้ JavaScript แล้วเพิ่มฟังก์ชันต่อไปนี้

75212f9ad98265a8.png

function transform(input, emitter, context) {
  input.TIMESTAMP = (new Date()).getTime()*1000;
  emitter.emit(input);
}
  1. เพิ่มฟิลด์ชื่อ TIMESTAMP ลงในสคีมาเอาต์พุต (หากไม่มี) โดยคลิกเครื่องหมาย + เลือกการประทับเวลาเป็นประเภทข้อมูล

4227389b57661135.png

  1. คลิกเอกสารประกอบเพื่อดูคำอธิบายโดยละเอียด คลิกปุ่มตรวจสอบเพื่อตรวจสอบข้อมูลที่ป้อนทั้งหมด สีเขียว "ไม่พบข้อผิดพลาด" แสดงว่าสำเร็จ
  2. หากต้องการปิดหน้าต่างคุณสมบัติการเปลี่ยนรูป ให้คลิกปุ่ม X

การมาสก์และการลบการระบุตัวตนในข้อมูล

  1. คุณเลือกคอลัมน์ข้อมูลแต่ละรายการได้โดยคลิกลูกศรลงในคอลัมน์ แล้วใช้กฎการมาสก์ภายใต้การเลือกมาสก์ข้อมูลตามข้อกำหนดของคุณ (เช่น คอลัมน์ SSN)

bb1eb067dd6e0946.png

  1. คุณเพิ่มคำสั่งได้อีกในหน้าต่างสูตรของโหนด Wrangler เช่น การใช้คำสั่งแฮชกับอัลกอริทึมการแฮชตามไวยากรณ์นี้เพื่อวัตถุประสงค์ในการลบข้อมูลที่ระบุตัวบุคคลได้
hash <column> <algorithm> <encode>

<column>: name of the column
<algorithm>: Hashing algorithm (i.e. MD5, SHA-1, etc.)
<encode>: default is true (hashed digest is encoded as hex with left-padding zeros). To disable hex encoding, set <encode> to false.

cbcc9a0932f53197.png

โหนดปลายทาง

  1. เลือกโหนดปลายทาง
  2. ในส่วน Sink ในจานสีปลั๊กอินทางด้านซ้าย ให้ดับเบิลคลิกที่โหนด BigQuery ซึ่งจะปรากฏใน UI ของ Data Pipeline
  3. ชี้ไปที่โหนด BigQuery Sink แล้วคลิก Properties

1be711152c92c692.png

  1. โปรดกรอกข้อมูลในช่องที่ต้องกรอก ตั้งค่าช่องต่อไปนี้
  • ป้ายกำกับ = {ข้อความใดก็ได้}
  • ชื่ออ้างอิง = {ข้อความใดก็ได้}
  • รหัสโปรเจ็กต์ = ตรวจหาอัตโนมัติ
  • ชุดข้อมูล = ชุดข้อมูล BigQuery ที่ใช้ในโปรเจ็กต์ปัจจุบัน (เช่น DATASET_ID)
  • ตาราง = {ชื่อตาราง}
  1. คลิกเอกสารประกอบเพื่อดูคำอธิบายโดยละเอียด คลิกปุ่มตรวจสอบเพื่อตรวจสอบข้อมูลที่ป้อนทั้งหมด สีเขียว "ไม่พบข้อผิดพลาด" แสดงว่าสำเร็จ

c5585747da2ef341.png

  1. หากต้องการปิดพร็อพเพอร์ตี้ BigQuery ให้คลิกปุ่ม X

6. สร้าง Data Pipeline แบบเป็นกลุ่ม

การเชื่อมต่อโหนดทั้งหมดในไปป์ไลน์

  1. ลากลูกศรการเชื่อมต่อ > ที่ขอบด้านขวาของโหนดแหล่งที่มา แล้ววางที่ขอบด้านซ้ายของโหนดปลายทาง
  2. ไปป์ไลน์มีหลายกิ่งก้านได้ซึ่งรับไฟล์อินพุตจากโหนดแหล่งที่มาของ GCS เดียวกัน

67510ab46bd44d36.png

  1. ตั้งชื่อไปป์ไลน์

เท่านี้เอง คุณเพิ่งสร้างไปป์ไลน์ข้อมูลแบบกลุ่มแรก และสามารถทำให้ไปป์ไลน์ใช้งานได้และเรียกใช้ไปป์ไลน์ได้

ส่งการแจ้งเตือนไปป์ไลน์ทางอีเมล (ไม่บังคับ)

หากต้องการใช้ฟีเจอร์ SendEmail ของการแจ้งเตือนไปป์ไลน์ การกำหนดค่าต้องตั้งค่าเซิร์ฟเวอร์อีเมลเพื่อส่งอีเมลจากอินสแตนซ์เครื่องเสมือน ดูข้อมูลเพิ่มเติมได้ที่ลิงก์อ้างอิงด้านล่าง

การส่งอีเมลจากอินสแตนซ์ | เอกสารประกอบของ Compute Engine

ใน Codelab นี้ เราจะตั้งค่าบริการส่งต่ออีเมลผ่าน Mailgun โดยใช้ขั้นตอนต่อไปนี้

  1. ทำตามวิธีการที่ Sending email with Mailgun | Compute Engine Documentation เพื่อสร้างบัญชีกับ Mailgun และกำหนดค่าบริการส่งต่ออีเมล ดูการแก้ไขเพิ่มเติมได้ที่ด้านล่าง
  2. เพิ่มอีเมลของผู้รับทั้งหมดลงในรายการที่ได้รับอนุญาตของ Mailgun คุณดูรายการนี้ได้ใน Mailgun>Sending>Overview ที่แผงด้านซ้าย

7e6224cced3fa4e0.png fa78739f1ddf2dc2.png

เมื่อผู้รับคลิก "ฉันยอมรับ" ในอีเมลที่ส่งจาก support@mailgun.net ระบบจะบันทึกอีเมลของผู้รับไว้ในรายการที่ได้รับอนุญาตเพื่อรับอีเมลการแจ้งเตือนไปป์ไลน์

72847c97fd5fce0f.png

  1. ขั้นตอนที่ 3 ของส่วน "ก่อนที่จะเริ่ม" - สร้างกฎไฟร์วอลล์ดังนี้

75b063c165091912.png

  1. ขั้นตอนที่ 3 ของ "การกำหนดค่า Mailgun เป็นการส่งต่ออีเมลด้วย Postfix" เลือกเว็บไซต์อินเทอร์เน็ตหรืออินเทอร์เน็ตที่มีสมาร์ทโฮสต์แทนเฉพาะในพื้นที่ตามที่ระบุไว้ในวิธีการ

8fd8474a4ef18f16.png

  1. ขั้นตอนที่ 4 ของ "การกำหนดค่า Mailgun เป็นการส่งต่ออีเมลด้วย Postfix" แก้ไข vi /etc/postfix/main.cf เพื่อเพิ่ม 10.128.0.0/9 ที่ส่วนท้ายของ mynetworks

249fbf3edeff1ce8.png

  1. แก้ไข vi /etc/postfix/master.cf เพื่อเปลี่ยน smtp เริ่มต้น (25) เป็นพอร์ต 587

86c82cf48c687e72.png

  1. คลิกกำหนดค่าที่มุมขวาบนของ Data Fusion Studio คลิกการแจ้งเตือนเกี่ยวกับไปป์ไลน์ แล้วคลิกปุ่ม + เพื่อเปิดหน้าต่างการแจ้งเตือน เลือก SendEmail

dc079a91f1b0da68.png

  1. กรอกแบบฟอร์มการกำหนดค่าอีเมล เลือกเสร็จสมบูรณ์ สำเร็จ หรือไม่สำเร็จจากเมนูแบบเลื่อนลงเงื่อนไขการเรียกใช้สำหรับประเภทการแจ้งเตือนแต่ละประเภท หาก Include Workflow Token = false ระบบจะส่งเฉพาะข้อมูลจากช่องข้อความ หาก Include Workflow Token = true ระบบจะส่งข้อมูลจากช่องข้อความและข้อมูลโดยละเอียดของ Workflow Token คุณต้องใช้ตัวพิมพ์เล็กสำหรับโปรโตคอล ใช้อีเมล "ปลอม" อื่นๆ ที่ไม่ใช่ของบริษัทสำหรับผู้ส่ง

1fa619b6ce28f5e5.png

7. กำหนดค่า ทำให้ใช้งานได้ เรียกใช้/กำหนดเวลาไปป์ไลน์

db612e62a1c7ab7e.png

  1. คลิกกำหนดค่าที่มุมขวาบนของ Data Fusion Studio เลือก Spark สำหรับการกำหนดค่าเครื่องมือ คลิกบันทึกในหน้าต่างกำหนดค่า

8ecf7c243c125882.png

  1. คลิกแสดงตัวอย่างเพื่อแสดงตัวอย่างข้อมูล** ** และคลิก **แสดงตัวอย่าง** อีกครั้งเพื่อสลับกลับไปที่หน้าต่างก่อนหน้า นอกจากนี้ คุณยัง **เรียกใช้** ไปป์ไลน์ในโหมดแสดงตัวอย่างได้ด้วย

b3c891e5e1aa20ae.png

  1. คลิกบันทึกเพื่อดูบันทึก
  2. คลิกบันทึกเพื่อบันทึกการเปลี่ยนแปลงทั้งหมด
  3. คลิกนำเข้าเพื่อนำเข้าการกำหนดค่าไปป์ไลน์ที่บันทึกไว้เมื่อสร้างไปป์ไลน์ใหม่
  4. คลิกส่งออกเพื่อส่งออกการกำหนดค่าไปป์ไลน์
  5. คลิกทําให้ใช้งานได้เพื่อทําให้ไปป์ไลน์ใช้งานได้
  6. เมื่อติดตั้งใช้งานแล้ว ให้คลิกเรียกใช้ แล้วรอให้ไปป์ไลน์ทำงานจนเสร็จสมบูรณ์

bb06001d46a293db.png

  1. คุณสามารถทำซ้ำไปป์ไลน์ได้โดยเลือกทำซ้ำใต้ปุ่มการดำเนินการ
  2. คุณสามารถส่งออกการกำหนดค่าไปป์ไลน์ได้โดยเลือกส่งออกใต้ปุ่มการดำเนินการ
  3. คลิกทริกเกอร์ขาเข้าหรือทริกเกอร์ขาออกที่ขอบด้านซ้ายหรือขวาของหน้าต่าง Studio เพื่อตั้งค่าทริกเกอร์ของไปป์ไลน์หากต้องการ
  4. คลิกตั้งเวลาเพื่อตั้งเวลาให้ไปป์ไลน์ทํางานและโหลดข้อมูลเป็นระยะๆ

4167fa67550a49d5.png

  1. ข้อมูลสรุปแสดงแผนภูมิประวัติการเรียกใช้ บันทึก บันทึกข้อผิดพลาด และคำเตือน

8. การตรวจสอบความถูกต้อง

  1. ดำเนินการไปป์ไลน์การตรวจสอบเรียบร้อยแล้ว

7dee6e662c323f14.png

  1. ตรวจสอบว่าชุดข้อมูล BigQuery มีตารางทั้งหมดหรือไม่
bq ls $PROJECT_ID:$DATASET_ID
     tableId       Type    Labels   Time Partitioning
----------------- ------- -------- -------------------
 Allergies         TABLE
 Careplans         TABLE
 Conditions        TABLE
 Encounters        TABLE
 Imaging_Studies   TABLE
 Immunizations     TABLE
 Medications       TABLE
 Observations      TABLE
 Organizations     TABLE
 Patients          TABLE
 Procedures        TABLE
 Providers         TABLE
  1. รับอีเมลแจ้งเตือน (หากกำหนดค่าไว้)

การดูผลลัพธ์

วิธีดูผลลัพธ์หลังจากไปป์ไลน์ทำงาน

  1. สืบค้นตารางใน BigQuery UI ไปที่ UI ของ BigQuery
  2. อัปเดตการค้นหาด้านล่างเป็นชื่อโปรเจ็กต์ ชุดข้อมูล และตารางของคุณเอง

e32bfd5d965a117f.png

9. การล้างข้อมูล

โปรดดำเนินการดังนี้เพื่อเลี่ยงไม่ให้เกิดการเรียกเก็บเงินกับบัญชี Google Cloud Platform สำหรับทรัพยากรที่ใช้ในบทแนะนำนี้

หลังจากดูบทแนะนำจนจบแล้ว คุณสามารถล้างข้อมูลทรัพยากรที่สร้างใน GCP เพื่อไม่ให้ใช้โควต้าและไม่ให้ระบบเรียกเก็บเงินจากคุณในอนาคต ส่วนต่อไปนี้จะอธิบายวิธีลบหรือปิดทรัพยากรเหล่านี้

การลบชุดข้อมูล BigQuery

ทำตามวิธีการต่อไปนี้เพื่อลบชุดข้อมูล BigQuery ที่คุณสร้างขึ้นเป็นส่วนหนึ่งของบทแนะนำนี้

การลบ Bucket ของ GCS

ทำตามวิธีการต่อไปนี้เพื่อลบที่เก็บข้อมูล GCS ที่คุณสร้างขึ้นเป็นส่วนหนึ่งของบทแนะนำนี้

การลบอินสแตนซ์ Cloud Data Fusion

ทำตามวิธีการต่อไปนี้เพื่อลบอินสแตนซ์ Cloud Data Fusion

การลบโปรเจ็กต์

วิธีที่ง่ายที่สุดในการยกเลิกการเรียกเก็บเงินคือการลบโปรเจ็กต์ที่คุณสร้างขึ้นสำหรับบทแนะนำ

วิธีลบโปรเจ็กต์

  1. ในคอนโซล GCP ให้ไปที่หน้าโปรเจ็กต์ ไปที่หน้าโปรเจ็กต์
  2. ในรายการโปรเจ็กต์ ให้เลือกโปรเจ็กต์ที่ต้องการลบ แล้วคลิกลบ
  3. ในกล่องโต้ตอบ ให้พิมพ์รหัสโปรเจ็กต์ แล้วคลิกปิดเพื่อลบโปรเจ็กต์

10. ขอแสดงความยินดี

ขอแสดงความยินดี คุณทำโค้ดแล็บเพื่อนำเข้าข้อมูลด้านการดูแลสุขภาพใน BigQuery โดยใช้ Cloud Data Fusion เสร็จสมบูรณ์แล้ว

คุณนำเข้าข้อมูล CSV จาก Google Cloud Storage ไปยัง BigQuery

คุณสร้างไปป์ไลน์การผสานรวมข้อมูลด้วยภาพเพื่อโหลด แปลง และมาสก์ข้อมูลการดูแลสุขภาพแบบเป็นกลุ่ม

ตอนนี้คุณทราบขั้นตอนสำคัญที่จำเป็นในการเริ่มต้นเส้นทางการวิเคราะห์ข้อมูลด้านการดูแลสุขภาพด้วย BigQuery ใน Google Cloud Platform แล้ว