1. บทนำ

อัปเดตล่าสุด: 2020-02-28
Codelab นี้แสดงรูปแบบการนำเข้าข้อมูลเพื่อนำเข้าข้อมูลด้านการดูแลสุขภาพที่จัดรูปแบบ CSV ไปยัง BigQuery เป็นกลุ่ม เราจะใช้ไปป์ไลน์ข้อมูลแบบกลุ่มของ Cloud Data Fusion สำหรับ Lab นี้ ระบบได้สร้างข้อมูลทดสอบด้านการดูแลสุขภาพที่สมจริงและพร้อมใช้งานใน Bucket ของ Google Cloud Storage (gs://hcls_testing_data_fhir_10_patients/csv/) สำหรับคุณ
ในโค้ดแล็บนี้ คุณจะได้เรียนรู้สิ่งต่อไปนี้
- วิธีกรอกข้อมูล CSV (การโหลดที่กำหนดเวลาเป็นกลุ่ม) จาก GCS ไปยัง BigQuery โดยใช้ Cloud Data Fusion
- วิธีสร้างไปป์ไลน์การผสานรวมข้อมูลด้วยภาพใน Cloud Data Fusion เพื่อโหลด เปลี่ยนรูปแบบ และมาสก์ข้อมูลด้านการดูแลสุขภาพจำนวนมาก
คุณต้องมีอะไรบ้างในการเรียกใช้ Codelab นี้
- คุณต้องมีสิทธิ์เข้าถึงโปรเจ็กต์ GCP
- คุณต้องได้รับมอบหมายบทบาทเจ้าของสำหรับโปรเจ็กต์ GCP
- ข้อมูลด้านการดูแลสุขภาพในรูปแบบ CSV รวมถึงส่วนหัว
หากไม่มีโปรเจ็กต์ GCP ให้ทำตามขั้นตอนเหล่านี้เพื่อสร้างโปรเจ็กต์ GCP ใหม่
ระบบได้โหลดข้อมูลด้านการดูแลสุขภาพในรูปแบบ CSV ลงในที่เก็บข้อมูล GCS ที่ gs://hcls_testing_data_fhir_10_patients/csv/ ไว้ล่วงหน้าแล้ว ไฟล์ CSV ของทรัพยากรแต่ละไฟล์มีโครงสร้างสคีมาที่ไม่ซ้ำกัน เช่น Patients.csv มีสคีมาแตกต่างจาก Providers.csv ดูไฟล์สคีมาที่โหลดไว้ล่วงหน้าได้ที่ gs://hcls_testing_data_fhir_10_patients/csv_schemas
หากต้องการชุดข้อมูลใหม่ คุณสร้างชุดข้อมูลได้ทุกเมื่อโดยใช้ SyntheaTM จากนั้นให้อัปโหลดไปยัง GCS แทนการคัดลอกจาก Bucket ในขั้นตอนการคัดลอกข้อมูลอินพุต
2. การตั้งค่าโปรเจ็กต์ GCP
เริ่มต้นตัวแปรเชลล์สำหรับสภาพแวดล้อม
หากต้องการค้นหา PROJECT_ID โปรดดูการระบุโปรเจ็กต์
<!-- CODELAB: Initialize shell variables -> <!-- Your current GCP Project ID -> export PROJECT_ID=<PROJECT_ID> <!-- A new GCS Bucket in your current Project - INPUT -> export BUCKET_NAME=<BUCKET_NAME> <!-- A new BQ Dataset ID - OUTPUT -> export DATASET_ID=<DATASET_ID>
สร้าง Bucket ของ GCS เพื่อจัดเก็บข้อมูลอินพุตและบันทึกข้อผิดพลาดโดยใช้เครื่องมือ gsutil
gsutil mb -l us gs://$BUCKET_NAME
รับสิทธิ์เข้าถึงชุดข้อมูลสังเคราะห์
- จากอีเมลที่คุณใช้เพื่อเข้าสู่ระบบ Cloud Console ให้ส่งอีเมลไปที่ hcls-solutions-external+subscribe@google.com เพื่อขอเข้าร่วม
- คุณจะได้รับอีเมลพร้อมวิธีการยืนยันการดำเนินการ

- ใช้ตัวเลือกเพื่อตอบกลับอีเมลเพื่อเข้าร่วมกลุ่ม อย่าคลิกปุ่ม
- เมื่อได้รับอีเมลยืนยันแล้ว คุณจะไปยังขั้นตอนถัดไปใน Codelab ได้
คัดลอกข้อมูลที่ป้อน
gsutil -m cp -r gs://hcls_testing_data_fhir_10_patients/csv gs://$BUCKET_NAME
สร้างชุดข้อมูล BigQuery
bq mk --location=us --dataset $PROJECT_ID:$DATASET_ID
3. การตั้งค่าสภาพแวดล้อม Cloud Data Fusion
ทำตามขั้นตอนต่อไปนี้เพื่อเปิดใช้ Cloud Data Fusion API และให้สิทธิ์ที่จำเป็น
เปิดใช้ API
- ไปที่คลัง API ของคอนโซล GCP
- เลือกโปรเจ็กต์จากรายการโปรเจ็กต์
- เลือก API ที่ต้องการเปิดใช้ในไลบรารี API หากต้องการความช่วยเหลือในการค้นหา API ให้ใช้ช่องค้นหาและ/หรือตัวกรอง
- คลิกเปิดใช้ในหน้า API
สร้างอินสแตนซ์ Cloud Data Fusion
- เลือก ProjectID ในคอนโซล GCP
- เลือก Data Fusion จากเมนูด้านซ้าย แล้วคลิกปุ่มสร้างอินสแตนซ์ตรงกลางหน้า (การสร้างครั้งแรก) หรือคลิกปุ่มสร้างอินสแตนซ์ในเมนูด้านบน (การสร้างเพิ่มเติม)


- ระบุชื่ออินสแตนซ์ เลือกองค์กร

- คลิกปุ่มสร้าง
ตั้งค่าสิทธิ์ของอินสแตนซ์
หลังจากสร้างอินสแตนซ์แล้ว ให้ทำตามขั้นตอนต่อไปนี้เพื่อให้สิทธิ์บัญชีบริการที่เชื่อมโยงกับอินสแตนซ์ในโปรเจ็กต์
- ไปที่หน้ารายละเอียดอินสแตนซ์โดยคลิกชื่ออินสแตนซ์

- คัดลอกบัญชีบริการ

- ไปที่หน้า IAM ของโปรเจ็กต์
- ในหน้าสิทธิ์ IAM ตอนนี้เราจะเพิ่มบัญชีบริการเป็นสมาชิกใหม่และมอบบทบาทตัวแทนบริการ API ของ Cloud Data Fusion ให้ คลิกปุ่มเพิ่ม จากนั้นวาง "บัญชีบริการ" ในช่องสมาชิกใหม่ แล้วเลือก Service Management -> Cloud Data Fusion API Server Agent role

- คลิกบันทึก
เมื่อทำตามขั้นตอนเหล่านี้แล้ว คุณจะเริ่มใช้ Cloud Data Fusion ได้โดยคลิกลิงก์ดูอินสแตนซ์ในหน้าอินสแตนซ์ Cloud Data Fusion หรือหน้ารายละเอียดของอินสแตนซ์
ตั้งค่ากฎไฟร์วอลล์
- ไปที่ GCP Console -> เครือข่าย VPC -> กฎไฟร์วอลล์เพื่อตรวจสอบว่ามีกฎ default-allow-ssh หรือไม่

- หากไม่ได้เพิ่ม ให้เพิ่มกฎไฟร์วอลล์ที่อนุญาตการรับส่งข้อมูล SSH ขาเข้าทั้งหมดไปยังเครือข่ายเริ่มต้น
การใช้บรรทัดคำสั่ง
gcloud beta compute --project={PROJECT_ID} firewall-rules create default-allow-ssh --direction=INGRESS --priority=1000 --network=default --action=ALLOW --rules=tcp:22 --source-ranges=0.0.0.0/0 --enable-logging
การใช้ UI: คลิกสร้างกฎไฟร์วอลล์ แล้วกรอกข้อมูลต่อไปนี้


4. สร้างสคีมาสำหรับการเปลี่ยนรูปแบบ
เมื่อมีสภาพแวดล้อม Cloud Fusion ใน GCP แล้ว เรามาสร้างสคีมากัน เราต้องใช้สคีมานี้ในการเปลี่ยนรูปแบบข้อมูล CSV
- ในหน้าต่าง Cloud Data Fusion ให้คลิกลิงก์ดูอินสแตนซ์ในคอลัมน์การดำเนินการ ระบบจะเปลี่ยนเส้นทางคุณไปยังอีกหน้าหนึ่ง คลิก URL ที่ระบุเพื่อเปิดอินสแตนซ์ Cloud Data Fusion คุณเลือกคลิกปุ่ม "เริ่มทัวร์" หรือ "ไม่เป็นไร" ในป๊อปอัปต้อนรับ
- ขยายเมนู "แฮมเบอร์เกอร์" เลือกไปป์ไลน์ -> Studio

- ในส่วน "เปลี่ยนรูปแบบ" ในจานสีปลั๊กอินทางด้านซ้าย ให้ดับเบิลคลิกโหนด Wrangler ซึ่งจะปรากฏใน UI ของ Data Pipelines

- ชี้ไปที่โหนด Wrangler แล้วคลิกพร็อพเพอร์ตี้ คลิกปุ่มจัดระเบียบ จากนั้นเลือกไฟล์ต้นฉบับ .csv (เช่น patients.csv) ซึ่งต้องมีฟิลด์ข้อมูลทั้งหมดเพื่อสร้างสคีมาที่ต้องการ
- คลิกลูกศรลง (การเปลี่ยนรูปแบบคอลัมน์) ข้างชื่อคอลัมน์แต่ละรายการ (เช่น เนื้อหา)

- โดยค่าเริ่มต้น การนำเข้าครั้งแรกจะถือว่ามีเพียงคอลัมน์เดียวในไฟล์ข้อมูล หากต้องการแยกวิเคราะห์เป็น CSV ให้เลือกแยกวิเคราะห์ → CSV จากนั้นเลือกตัวคั่นและเลือกช่อง "ตั้งค่าแถวแรกเป็นส่วนหัว" ตามความเหมาะสม คลิกปุ่ม "สมัคร"
- คลิกลูกศรลงข้างช่องเนื้อหา แล้วเลือก "ลบคอลัมน์" เพื่อนำช่องเนื้อหาออก นอกจากนี้ คุณยังลองใช้การเปลี่ยนรูปแบบอื่นๆ ได้ด้วย เช่น การนำคอลัมน์ออก การเปลี่ยนประเภทข้อมูลสำหรับคอลัมน์บางรายการ (ค่าเริ่มต้นคือประเภท "สตริง") การแยกคอลัมน์ การตั้งชื่อคอลัมน์ เป็นต้น

- แท็บ "คอลัมน์" และ "ขั้นตอนการเปลี่ยนรูปแบบ" จะแสดงสคีมาเอาต์พุตและสูตรของ Wrangler คลิกใช้ที่มุมขวาบน คลิกปุ่ม "ตรวจสอบ" ข้อความสีเขียว "ไม่พบข้อผิดพลาด" แสดงว่าสำเร็จ

- ใน Wrangler Properties ให้คลิกเมนูแบบเลื่อนลงการดำเนินการเพื่อส่งออกสคีมาที่ต้องการไปยังที่เก็บข้อมูลในเครื่องสำหรับการนำเข้าในอนาคตหากจำเป็น
- บันทึกสูตร Wrangler ไว้ใช้ในอนาคต
parse-as-csv :body ',' true drop body
- หากต้องการปิดหน้าต่างคุณสมบัติของ Wrangler ให้คลิกปุ่ม X
5. สร้างโหนดสำหรับไปป์ไลน์
ในส่วนนี้ เราจะสร้างคอมโพเนนต์ของไปป์ไลน์
- ใน UI ของ Data Pipelines ที่ด้านซ้ายบน คุณควรเห็นว่ามีการเลือก Data Pipeline - Batch เป็นประเภทไปป์ไลน์

- แผงด้านซ้ายมีส่วนต่างๆ เช่น ตัวกรอง แหล่งที่มา แปลง Analytics Sink เงื่อนไขและการดำเนินการ ตัวจัดการข้อผิดพลาด และการแจ้งเตือน ซึ่งคุณสามารถเลือกโหนดหรือโหนดต่างๆ สำหรับไปป์ไลน์ได้

โหนดต้นทาง
- เลือกโหนดแหล่งข้อมูล
- ในส่วนแหล่งที่มาในจานสีปลั๊กอินทางด้านซ้าย ให้ดับเบิลคลิกโหนด Google Cloud Storage ซึ่งจะปรากฏใน UI ของ Data Pipelines
- ชี้ไปที่โหนดแหล่งที่มาของ GCS แล้วคลิกพร็อพเพอร์ตี้

- กรอกข้อมูลลงในช่องที่ต้องกรอก ตั้งค่าช่องต่อไปนี้
- ป้ายกำกับ = {ข้อความใดก็ได้}
- ชื่ออ้างอิง = {ข้อความใดก็ได้}
- รหัสโปรเจ็กต์ = ตรวจหาอัตโนมัติ
- เส้นทาง = URL ของ GCS ไปยังที่เก็บข้อมูลในโปรเจ็กต์ปัจจุบัน เช่น gs://$BUCKET_NAME/csv/
- รูปแบบ = ข้อความ
- ฟิลด์เส้นทาง = ชื่อไฟล์
- Path Filename Only = true
- Read Files Recursively = true
- เพิ่มฟิลด์ "filename" ลงในสคีมาเอาต์พุตของ GCS โดยคลิกปุ่ม +
- คลิกเอกสารประกอบเพื่อดูคำอธิบายโดยละเอียด คลิกปุ่ม "ตรวจสอบ" ข้อความสีเขียว "ไม่พบข้อผิดพลาด" แสดงว่าสำเร็จ
- หากต้องการปิดพร็อพเพอร์ตี้ GCS ให้คลิกปุ่ม X
โหนดเปลี่ยนรูปแบบ
- เลือกโหนด Transform
- ในส่วน "เปลี่ยนรูปแบบ" ในจานสีปลั๊กอินทางด้านซ้าย ให้ดับเบิลคลิกโหนด Wrangler ซึ่งจะปรากฏใน UI ของ Data Pipelines เชื่อมต่อโหนดแหล่งที่มาของ GCS กับโหนดการแปลง Wrangler
- ชี้ไปที่โหนด Wrangler แล้วคลิกพร็อพเพอร์ตี้
- คลิกเมนูแบบเลื่อนลงการดำเนินการ แล้วเลือกนำเข้าเพื่อนำเข้าสคีมาที่บันทึกไว้ (เช่น gs://hcls_testing_data_fhir_10_patients/csv_schemas/ schema (Patients).json) จากนั้นวางสูตรที่บันทึกไว้จากส่วนก่อนหน้า
- หรือนำโหนด Wrangler จากส่วนสร้างสคีมาสำหรับการเปลี่ยนรูปแบบกลับมาใช้ใหม่
- กรอกข้อมูลลงในช่องที่ต้องกรอก ตั้งค่าช่องต่อไปนี้
- Label = {ข้อความใดก็ได้}
- ชื่อช่องป้อนข้อมูล = {*}
- Precondition = {filename != "patients.csv"} เพื่อแยกความแตกต่างของไฟล์อินพุตแต่ละไฟล์ (เช่น patients.csv, providers.csv, allergies.csv เป็นต้น) จากโหนดแหล่งที่มา

- เพิ่มโหนด JavaScript เพื่อเรียกใช้ JavaScript ที่ได้จากผู้ใช้ซึ่งจะแปลงระเบียนเพิ่มเติม ใน Codelab นี้ เราจะใช้โหนด JavaScript เพื่อรับการประทับเวลาสำหรับการอัปเดตแต่ละระเบียน เชื่อมต่อโหนดการแปลง Wrangler กับโหนดการแปลง JavaScript เปิดพร็อพเพอร์ตี้ JavaScript แล้วเพิ่มฟังก์ชันต่อไปนี้

function transform(input, emitter, context) {
input.TIMESTAMP = (new Date()).getTime()*1000;
emitter.emit(input);
}
- เพิ่มฟิลด์ชื่อ TIMESTAMP ลงในสคีมาเอาต์พุต (หากไม่มี) โดยคลิกเครื่องหมาย + เลือกการประทับเวลาเป็นประเภทข้อมูล

- คลิกเอกสารประกอบเพื่อดูคำอธิบายโดยละเอียด คลิกปุ่มตรวจสอบเพื่อตรวจสอบข้อมูลที่ป้อนทั้งหมด สีเขียว "ไม่พบข้อผิดพลาด" แสดงว่าสำเร็จ
- หากต้องการปิดหน้าต่างคุณสมบัติการเปลี่ยนรูป ให้คลิกปุ่ม X
การมาสก์และการลบการระบุตัวตนในข้อมูล
- คุณเลือกคอลัมน์ข้อมูลแต่ละรายการได้โดยคลิกลูกศรลงในคอลัมน์ แล้วใช้กฎการมาสก์ภายใต้การเลือกมาสก์ข้อมูลตามข้อกำหนดของคุณ (เช่น คอลัมน์ SSN)

- คุณเพิ่มคำสั่งได้อีกในหน้าต่างสูตรของโหนด Wrangler เช่น การใช้คำสั่งแฮชกับอัลกอริทึมการแฮชตามไวยากรณ์นี้เพื่อวัตถุประสงค์ในการลบข้อมูลที่ระบุตัวบุคคลได้
hash <column> <algorithm> <encode> <column>: name of the column <algorithm>: Hashing algorithm (i.e. MD5, SHA-1, etc.) <encode>: default is true (hashed digest is encoded as hex with left-padding zeros). To disable hex encoding, set <encode> to false.

โหนดปลายทาง
- เลือกโหนดปลายทาง
- ในส่วน Sink ในจานสีปลั๊กอินทางด้านซ้าย ให้ดับเบิลคลิกที่โหนด BigQuery ซึ่งจะปรากฏใน UI ของ Data Pipeline
- ชี้ไปที่โหนด BigQuery Sink แล้วคลิก Properties

- โปรดกรอกข้อมูลในช่องที่ต้องกรอก ตั้งค่าช่องต่อไปนี้
- ป้ายกำกับ = {ข้อความใดก็ได้}
- ชื่ออ้างอิง = {ข้อความใดก็ได้}
- รหัสโปรเจ็กต์ = ตรวจหาอัตโนมัติ
- ชุดข้อมูล = ชุดข้อมูล BigQuery ที่ใช้ในโปรเจ็กต์ปัจจุบัน (เช่น DATASET_ID)
- ตาราง = {ชื่อตาราง}
- คลิกเอกสารประกอบเพื่อดูคำอธิบายโดยละเอียด คลิกปุ่มตรวจสอบเพื่อตรวจสอบข้อมูลที่ป้อนทั้งหมด สีเขียว "ไม่พบข้อผิดพลาด" แสดงว่าสำเร็จ

- หากต้องการปิดพร็อพเพอร์ตี้ BigQuery ให้คลิกปุ่ม X
6. สร้าง Data Pipeline แบบเป็นกลุ่ม
การเชื่อมต่อโหนดทั้งหมดในไปป์ไลน์
- ลากลูกศรการเชื่อมต่อ > ที่ขอบด้านขวาของโหนดแหล่งที่มา แล้ววางที่ขอบด้านซ้ายของโหนดปลายทาง
- ไปป์ไลน์มีหลายกิ่งก้านได้ซึ่งรับไฟล์อินพุตจากโหนดแหล่งที่มาของ GCS เดียวกัน

- ตั้งชื่อไปป์ไลน์
เท่านี้เอง คุณเพิ่งสร้างไปป์ไลน์ข้อมูลแบบกลุ่มแรก และสามารถทำให้ไปป์ไลน์ใช้งานได้และเรียกใช้ไปป์ไลน์ได้
ส่งการแจ้งเตือนไปป์ไลน์ทางอีเมล (ไม่บังคับ)
หากต้องการใช้ฟีเจอร์ SendEmail ของการแจ้งเตือนไปป์ไลน์ การกำหนดค่าต้องตั้งค่าเซิร์ฟเวอร์อีเมลเพื่อส่งอีเมลจากอินสแตนซ์เครื่องเสมือน ดูข้อมูลเพิ่มเติมได้ที่ลิงก์อ้างอิงด้านล่าง
การส่งอีเมลจากอินสแตนซ์ | เอกสารประกอบของ Compute Engine
ใน Codelab นี้ เราจะตั้งค่าบริการส่งต่ออีเมลผ่าน Mailgun โดยใช้ขั้นตอนต่อไปนี้
- ทำตามวิธีการที่ Sending email with Mailgun | Compute Engine Documentation เพื่อสร้างบัญชีกับ Mailgun และกำหนดค่าบริการส่งต่ออีเมล ดูการแก้ไขเพิ่มเติมได้ที่ด้านล่าง
- เพิ่มอีเมลของผู้รับทั้งหมดลงในรายการที่ได้รับอนุญาตของ Mailgun คุณดูรายการนี้ได้ใน Mailgun>Sending>Overview ที่แผงด้านซ้าย

เมื่อผู้รับคลิก "ฉันยอมรับ" ในอีเมลที่ส่งจาก support@mailgun.net ระบบจะบันทึกอีเมลของผู้รับไว้ในรายการที่ได้รับอนุญาตเพื่อรับอีเมลการแจ้งเตือนไปป์ไลน์

- ขั้นตอนที่ 3 ของส่วน "ก่อนที่จะเริ่ม" - สร้างกฎไฟร์วอลล์ดังนี้

- ขั้นตอนที่ 3 ของ "การกำหนดค่า Mailgun เป็นการส่งต่ออีเมลด้วย Postfix" เลือกเว็บไซต์อินเทอร์เน็ตหรืออินเทอร์เน็ตที่มีสมาร์ทโฮสต์แทนเฉพาะในพื้นที่ตามที่ระบุไว้ในวิธีการ

- ขั้นตอนที่ 4 ของ "การกำหนดค่า Mailgun เป็นการส่งต่ออีเมลด้วย Postfix" แก้ไข vi /etc/postfix/main.cf เพื่อเพิ่ม 10.128.0.0/9 ที่ส่วนท้ายของ mynetworks

- แก้ไข vi /etc/postfix/master.cf เพื่อเปลี่ยน smtp เริ่มต้น (25) เป็นพอร์ต 587

- คลิกกำหนดค่าที่มุมขวาบนของ Data Fusion Studio คลิกการแจ้งเตือนเกี่ยวกับไปป์ไลน์ แล้วคลิกปุ่ม + เพื่อเปิดหน้าต่างการแจ้งเตือน เลือก SendEmail

- กรอกแบบฟอร์มการกำหนดค่าอีเมล เลือกเสร็จสมบูรณ์ สำเร็จ หรือไม่สำเร็จจากเมนูแบบเลื่อนลงเงื่อนไขการเรียกใช้สำหรับประเภทการแจ้งเตือนแต่ละประเภท หาก Include Workflow Token = false ระบบจะส่งเฉพาะข้อมูลจากช่องข้อความ หาก Include Workflow Token = true ระบบจะส่งข้อมูลจากช่องข้อความและข้อมูลโดยละเอียดของ Workflow Token คุณต้องใช้ตัวพิมพ์เล็กสำหรับโปรโตคอล ใช้อีเมล "ปลอม" อื่นๆ ที่ไม่ใช่ของบริษัทสำหรับผู้ส่ง

7. กำหนดค่า ทำให้ใช้งานได้ เรียกใช้/กำหนดเวลาไปป์ไลน์

- คลิกกำหนดค่าที่มุมขวาบนของ Data Fusion Studio เลือก Spark สำหรับการกำหนดค่าเครื่องมือ คลิกบันทึกในหน้าต่างกำหนดค่า

- คลิกแสดงตัวอย่างเพื่อแสดงตัวอย่างข้อมูล** ** และคลิก **แสดงตัวอย่าง** อีกครั้งเพื่อสลับกลับไปที่หน้าต่างก่อนหน้า นอกจากนี้ คุณยัง **เรียกใช้** ไปป์ไลน์ในโหมดแสดงตัวอย่างได้ด้วย

- คลิกบันทึกเพื่อดูบันทึก
- คลิกบันทึกเพื่อบันทึกการเปลี่ยนแปลงทั้งหมด
- คลิกนำเข้าเพื่อนำเข้าการกำหนดค่าไปป์ไลน์ที่บันทึกไว้เมื่อสร้างไปป์ไลน์ใหม่
- คลิกส่งออกเพื่อส่งออกการกำหนดค่าไปป์ไลน์
- คลิกทําให้ใช้งานได้เพื่อทําให้ไปป์ไลน์ใช้งานได้
- เมื่อติดตั้งใช้งานแล้ว ให้คลิกเรียกใช้ แล้วรอให้ไปป์ไลน์ทำงานจนเสร็จสมบูรณ์

- คุณสามารถทำซ้ำไปป์ไลน์ได้โดยเลือกทำซ้ำใต้ปุ่มการดำเนินการ
- คุณสามารถส่งออกการกำหนดค่าไปป์ไลน์ได้โดยเลือกส่งออกใต้ปุ่มการดำเนินการ
- คลิกทริกเกอร์ขาเข้าหรือทริกเกอร์ขาออกที่ขอบด้านซ้ายหรือขวาของหน้าต่าง Studio เพื่อตั้งค่าทริกเกอร์ของไปป์ไลน์หากต้องการ
- คลิกตั้งเวลาเพื่อตั้งเวลาให้ไปป์ไลน์ทํางานและโหลดข้อมูลเป็นระยะๆ

- ข้อมูลสรุปแสดงแผนภูมิประวัติการเรียกใช้ บันทึก บันทึกข้อผิดพลาด และคำเตือน
8. การตรวจสอบความถูกต้อง
- ดำเนินการไปป์ไลน์การตรวจสอบเรียบร้อยแล้ว

- ตรวจสอบว่าชุดข้อมูล BigQuery มีตารางทั้งหมดหรือไม่
bq ls $PROJECT_ID:$DATASET_ID
tableId Type Labels Time Partitioning
----------------- ------- -------- -------------------
Allergies TABLE
Careplans TABLE
Conditions TABLE
Encounters TABLE
Imaging_Studies TABLE
Immunizations TABLE
Medications TABLE
Observations TABLE
Organizations TABLE
Patients TABLE
Procedures TABLE
Providers TABLE
- รับอีเมลแจ้งเตือน (หากกำหนดค่าไว้)
การดูผลลัพธ์
วิธีดูผลลัพธ์หลังจากไปป์ไลน์ทำงาน
- สืบค้นตารางใน BigQuery UI ไปที่ UI ของ BigQuery
- อัปเดตการค้นหาด้านล่างเป็นชื่อโปรเจ็กต์ ชุดข้อมูล และตารางของคุณเอง

9. การล้างข้อมูล
โปรดดำเนินการดังนี้เพื่อเลี่ยงไม่ให้เกิดการเรียกเก็บเงินกับบัญชี Google Cloud Platform สำหรับทรัพยากรที่ใช้ในบทแนะนำนี้
หลังจากดูบทแนะนำจนจบแล้ว คุณสามารถล้างข้อมูลทรัพยากรที่สร้างใน GCP เพื่อไม่ให้ใช้โควต้าและไม่ให้ระบบเรียกเก็บเงินจากคุณในอนาคต ส่วนต่อไปนี้จะอธิบายวิธีลบหรือปิดทรัพยากรเหล่านี้
การลบชุดข้อมูล BigQuery
ทำตามวิธีการต่อไปนี้เพื่อลบชุดข้อมูล BigQuery ที่คุณสร้างขึ้นเป็นส่วนหนึ่งของบทแนะนำนี้
การลบ Bucket ของ GCS
ทำตามวิธีการต่อไปนี้เพื่อลบที่เก็บข้อมูล GCS ที่คุณสร้างขึ้นเป็นส่วนหนึ่งของบทแนะนำนี้
การลบอินสแตนซ์ Cloud Data Fusion
ทำตามวิธีการต่อไปนี้เพื่อลบอินสแตนซ์ Cloud Data Fusion
การลบโปรเจ็กต์
วิธีที่ง่ายที่สุดในการยกเลิกการเรียกเก็บเงินคือการลบโปรเจ็กต์ที่คุณสร้างขึ้นสำหรับบทแนะนำ
วิธีลบโปรเจ็กต์
- ในคอนโซล GCP ให้ไปที่หน้าโปรเจ็กต์ ไปที่หน้าโปรเจ็กต์
- ในรายการโปรเจ็กต์ ให้เลือกโปรเจ็กต์ที่ต้องการลบ แล้วคลิกลบ
- ในกล่องโต้ตอบ ให้พิมพ์รหัสโปรเจ็กต์ แล้วคลิกปิดเพื่อลบโปรเจ็กต์
10. ขอแสดงความยินดี
ขอแสดงความยินดี คุณทำโค้ดแล็บเพื่อนำเข้าข้อมูลด้านการดูแลสุขภาพใน BigQuery โดยใช้ Cloud Data Fusion เสร็จสมบูรณ์แล้ว
คุณนำเข้าข้อมูล CSV จาก Google Cloud Storage ไปยัง BigQuery
คุณสร้างไปป์ไลน์การผสานรวมข้อมูลด้วยภาพเพื่อโหลด แปลง และมาสก์ข้อมูลการดูแลสุขภาพแบบเป็นกลุ่ม
ตอนนี้คุณทราบขั้นตอนสำคัญที่จำเป็นในการเริ่มต้นเส้นทางการวิเคราะห์ข้อมูลด้านการดูแลสุขภาพด้วย BigQuery ใน Google Cloud Platform แล้ว