1. บทนำ
อัปเดตล่าสุด 28-02-2020
Codelab นี้แสดงรูปแบบการนำเข้าข้อมูลเพื่อนำเข้าข้อมูลการดูแลสุขอนามัยในรูปแบบ CSV ไปยัง BigQuery จำนวนมาก เราจะใช้ไปป์ไลน์ข้อมูลกลุ่มของข้อมูลฟิวชันของ Cloud Data สำหรับห้องทดลองนี้ ระบบได้สร้างข้อมูลการทดสอบด้านสุขภาพที่สมจริงและพร้อมใช้งานในที่เก็บข้อมูล Google Cloud Storage (gs://hcls_testing_data_fhir_10_patients/csv/) สำหรับคุณ
ใน Code Lab นี้ คุณจะได้เรียนรู้เกี่ยวกับสิ่งต่อไปนี้
- วิธีนำเข้าข้อมูล CSV (การโหลดที่ตั้งเวลาเป็นกลุ่ม) จาก GCS ไปยัง BigQuery โดยใช้ Cloud Data Fusion
- วิธีสร้างไปป์ไลน์การผสานรวมข้อมูลใน Cloud Data Fusion แบบเห็นภาพสำหรับการโหลด การเปลี่ยนรูปแบบ และมาสก์ข้อมูลการดูแลสุขภาพจำนวนมาก
คุณต้องมีอะไรบ้างเพื่อเรียกใช้ Codelab นี้
- คุณต้องมีสิทธิ์เข้าถึงโปรเจ็กต์ GCP
- คุณต้องได้รับมอบหมายบทบาทเจ้าของสำหรับโปรเจ็กต์ GCP
- ข้อมูลการดูแลสุขอนามัยในรูปแบบ CSV ซึ่งมีส่วนหัว
หากคุณไม่มีโปรเจ็กต์ GCP ให้ทำตามขั้นตอนเหล่านี้เพื่อสร้างโปรเจ็กต์ GCP ใหม่
ระบบโหลดข้อมูลการดูแลสุขอนามัยในรูปแบบ CSV ไว้ล่วงหน้าแล้วในที่เก็บข้อมูล GCS ที่ gs://hcls_testing_data_fhir_10_patients/csv/ ไฟล์ CSV ของทรัพยากรแต่ละไฟล์มีโครงสร้างสคีมาที่ไม่ซ้ำกัน เช่น Patients.csv มีสคีมาที่แตกต่างจาก Providers.csv ดูไฟล์สคีมาที่โหลดไว้ล่วงหน้าได้ที่ gs://hcls_testing_data_fhir_10_patients/csv_schemas
หากต้องการชุดข้อมูลใหม่ คุณสร้างโดยใช้ SyntheaTM ได้เสมอ จากนั้นอัปโหลดไปยัง GCS แทนการคัดลอกจากที่เก็บข้อมูลในขั้นตอน "คัดลอกข้อมูลอินพุต"
2. การตั้งค่าโปรเจ็กต์ GCP
เริ่มต้นตัวแปร Shell สำหรับสภาพแวดล้อมของคุณ
หากต้องการค้นหา PROJECT_ID โปรดดูการระบุโปรเจ็กต์
<!-- CODELAB: Initialize shell variables -> <!-- Your current GCP Project ID -> export PROJECT_ID=<PROJECT_ID> <!-- A new GCS Bucket in your current Project - INPUT -> export BUCKET_NAME=<BUCKET_NAME> <!-- A new BQ Dataset ID - OUTPUT -> export DATASET_ID=<DATASET_ID>
สร้างที่เก็บข้อมูล GCS เพื่อจัดเก็บข้อมูลอินพุตและบันทึกข้อผิดพลาดโดยใช้เครื่องมือ gsutil
gsutil mb -l us gs://$BUCKET_NAME
รับสิทธิ์เข้าถึงชุดข้อมูลสังเคราะห์
- จากอีเมลที่คุณใช้เข้าสู่ระบบ Cloud Console ให้ส่งอีเมลไปที่ hcls-solutions-external+subscribe@google.com เพื่อขอเข้าร่วม
- คุณจะได้รับอีเมลพร้อมวิธียืนยันการดำเนินการ
- ใช้ตัวเลือกเพื่อตอบกลับอีเมลเพื่อเข้าร่วมกลุ่ม ห้ามคลิกปุ่มดังกล่าว
- เมื่อได้รับอีเมลยืนยันแล้ว คุณสามารถไปยังขั้นตอนถัดไปใน Codelab ได้
คัดลอกข้อมูลอินพุต
gsutil -m cp -r gs://hcls_testing_data_fhir_10_patients/csv gs://$BUCKET_NAME
สร้างชุดข้อมูล BigQuery
bq mk --location=us --dataset $PROJECT_ID:$DATASET_ID
3. การตั้งค่าสภาพแวดล้อม Cloud Data Fusion
โปรดทำตามขั้นตอนต่อไปนี้เพื่อเปิดใช้ Cloud Data Fusion API และให้สิทธิ์ที่จำเป็น
เปิดใช้ API
- ไปที่ไลบรารี GCP Console API
- เลือกโปรเจ็กต์จากรายการโปรเจ็กต์
- เลือก API ที่ต้องการเปิดใช้ในไลบรารี API หากต้องการความช่วยเหลือในการค้นหา API ให้ใช้ช่องค้นหาและ/หรือตัวกรอง
- ในหน้า API ให้คลิกเปิดใช้
สร้างอินสแตนซ์ Cloud Data Fusion
- เลือกรหัสโปรเจ็กต์ในคอนโซล GCP
- เลือก Data Fusion จากเมนูด้านซ้าย แล้วคลิกปุ่ม "สร้างอินสแตนซ์" ที่อยู่ตรงกลางหน้า (การสร้างครั้งแรก) หรือคลิกปุ่ม "สร้างอินสแตนซ์" ที่เมนูด้านบน (การสร้างเพิ่มเติม)
- ระบุชื่ออินสแตนซ์ เลือก Enterprise
- คลิกปุ่ม "สร้าง"
ตั้งค่าสิทธิ์ของอินสแตนซ์
หลังจากสร้างอินสแตนซ์แล้ว ให้ทำตามขั้นตอนต่อไปนี้เพื่อให้สิทธิ์บัญชีบริการที่เชื่อมโยงกับสิทธิ์ของอินสแตนซ์ในโปรเจ็กต์ของคุณ
- ไปที่หน้ารายละเอียดของอินสแตนซ์โดยคลิกชื่ออินสแตนซ์
- คัดลอกบัญชีบริการ
- ไปที่หน้า IAM ของโปรเจ็กต์
- ในหน้าสิทธิ์ IAM ตอนนี้เราจะเพิ่มบัญชีบริการเป็นสมาชิกใหม่และมอบบทบาทตัวแทนบริการ Cloud Data Fusion API คลิกปุ่มเพิ่ม แล้ววาง "บัญชีบริการ" ในฟิลด์ สมาชิกใหม่ และเลือก การจัดการบริการ -> บทบาท Agent เซิร์ฟเวอร์ Cloud Data Fusion API
- คลิกบันทึก
เมื่อทำตามขั้นตอนเหล่านี้แล้ว คุณจะเริ่มใช้ Cloud Data Fusion ได้โดยคลิกลิงก์ดูอินสแตนซ์บนหน้าอินสแตนซ์ Cloud Data Fusion หรือหน้ารายละเอียดของอินสแตนซ์
ตั้งค่ากฎไฟร์วอลล์
- ไปที่คอนโซล GCP -> เครือข่าย VPC -> กฎไฟร์วอลล์เพื่อตรวจสอบว่ามีกฎ default-allow-ssh หรือไม่
- หากไม่อนุญาต ให้เพิ่มกฎไฟร์วอลล์ที่อนุญาตการรับส่งข้อมูล SSH ขาเข้าทั้งหมดไปยังเครือข่ายเริ่มต้น
หากใช้บรรทัดคำสั่ง ให้ทำดังนี้
gcloud beta compute --project={PROJECT_ID} firewall-rules create default-allow-ssh --direction=INGRESS --priority=1000 --network=default --action=ALLOW --rules=tcp:22 --source-ranges=0.0.0.0/0 --enable-logging
ใช้ UI: คลิก "สร้างกฎไฟร์วอลล์" และกรอกข้อมูล:
4. สร้างสคีมาเพื่อการเปลี่ยนรูปแบบ
ตอนนี้เรามีสภาพแวดล้อม Cloud Fusion ใน GCP แล้ว ลองสร้างสคีมากันเลย เราต้องใช้สคีมานี้สําหรับการเปลี่ยนรูปแบบข้อมูล CSV
- ในหน้าต่าง Cloud Data Fusion ให้คลิกลิงก์ ดูอินสแตนซ์ ในคอลัมน์ "การทำงาน" ระบบจะเปลี่ยนเส้นทางคุณไปยังหน้าอื่น คลิก url ที่ระบุเพื่อเปิดอินสแตนซ์ Cloud Data Fusion ตัวเลือกที่คุณต้องการคลิก "เริ่มทัวร์ชม" หรือ "ไม่เป็นไร" ที่ป๊อปอัปต้อนรับ
- ขยายข้อความ "แฮมเบอร์เกอร์" เลือกไปป์ไลน์ -> สตูดิโอ
- ใต้ส่วน "Transform" ใน "เมนูปลั๊กอิน" ทางด้านซ้าย ให้ดับเบิลคลิกที่โหนด Wrangler ซึ่งจะปรากฏใน UI ของ Data Pipelines
- ชี้ไปที่โหนด Wrangler แล้วคลิกคุณสมบัติ คลิกปุ่ม Wrangle แล้วเลือกไฟล์ต้นฉบับ .csv (เช่น clients.csv) ซึ่งต้องมีช่องข้อมูลทั้งหมดเพื่อสร้างสคีมาที่ต้องการ
- คลิกลูกศรลง (การเปลี่ยนรูปแบบคอลัมน์) ข้างชื่อแต่ละคอลัมน์ (เช่น เนื้อหา)
- โดยค่าเริ่มต้น การนำเข้าครั้งแรกจะถือว่ามีเพียงคอลัมน์เดียวในไฟล์ข้อมูล หากต้องการแยกวิเคราะห์เป็น CSV ให้เลือกแยกวิเคราะห์ → CSV จากนั้นเลือกตัวคั่นและเลือก "ตั้งแถวแรกเป็นส่วนหัว" ในช่องตามความเหมาะสม คลิกปุ่ม ใช้
- คลิกลูกศรลงถัดจากช่องเนื้อหา เลือก "ลบคอลัมน์" เพื่อนำช่องเนื้อหาออก นอกจากนี้คุณสามารถลองใช้การเปลี่ยนรูปแบบอื่นๆ เช่น การนำคอลัมน์ออก การเปลี่ยนประเภทข้อมูลสำหรับบางคอลัมน์ (ค่าเริ่มต้นคือประเภท "สตริง") การแยกคอลัมน์ การตั้งค่าชื่อคอลัมน์ ฯลฯ
- "คอลัมน์" และ "ขั้นตอนการเปลี่ยนแปลง" จะแสดงสคีมาเอาต์พุตและสูตรอาหารของ Wrangler คลิกใช้ที่มุมขวาบน คลิกปุ่ม ตรวจสอบ สัญลักษณ์ "ไม่พบข้อผิดพลาด" สีเขียว บ่งบอกถึงความสำเร็จ
- ใน Wrangler Properties ให้คลิกเมนูแบบเลื่อนลงการดำเนินการเพื่อส่งออกสคีมาที่ต้องการไปยังพื้นที่เก็บข้อมูลในเครื่องเพื่อนำเข้าในอนาคตหากจำเป็น
- บันทึกสูตร Wrangler ไว้ใช้ในอนาคต
parse-as-csv :body ',' true drop body
- หากต้องการปิดหน้าต่างคุณสมบัติของ Wrangler ให้คลิกปุ่ม X
5. สร้างโหนดสำหรับไปป์ไลน์
ในส่วนนี้ เราจะสร้างคอมโพเนนต์ไปป์ไลน์
- ใน UI ของไปป์ไลน์ข้อมูล ที่ด้านซ้ายบน คุณควรเห็นว่ามีการเลือก Data Pipeline - Batch เป็นประเภทไปป์ไลน์
- ที่แผงด้านซ้ายนั้นประกอบด้วยส่วนต่างๆ เช่น ตัวกรอง แหล่งที่มา การเปลี่ยนรูปแบบ Analytics ซิงก์ เงื่อนไขและการดำเนินการ ตัวแฮนเดิลข้อผิดพลาดและการแจ้งเตือน ซึ่งคุณสามารถเลือกโหนดหรือโหนดสำหรับไปป์ไลน์
โหนดต้นทาง
- เลือกโหนดแหล่งที่มา
- ในส่วนแหล่งที่มาในพาเล็ตปลั๊กอินทางด้านซ้าย ให้ดับเบิลคลิกโหนด Google Cloud Storage ที่ปรากฏใน UI ของไปป์ไลน์ข้อมูล
- ชี้ไปที่โหนดแหล่งที่มา GCS แล้วคลิก Properties
- กรอกข้อมูลลงในช่องที่ต้องกรอก ตั้งค่าฟิลด์ต่อไปนี้:
- ป้ายกำกับ = {any text}
- ชื่อข้อมูลอ้างอิง = {any text}
- รหัสโปรเจ็กต์ = ตรวจหาอัตโนมัติ
- เส้นทาง = URL ของ GCS ที่ไปยังที่เก็บข้อมูลในโปรเจ็กต์ปัจจุบัน เช่น gs://$BUCKET_NAME/csv/
- รูปแบบ = ข้อความ
- ช่องเส้นทาง = ชื่อไฟล์
- ชื่อไฟล์เส้นทางเท่านั้น = true
- อ่านไฟล์ซ้ำๆ = true
- เพิ่มช่อง "ชื่อไฟล์" ไปยังสคีมาเอาต์พุต GCS โดยคลิกปุ่ม +
- คลิกเอกสารประกอบเพื่อดูคำอธิบายโดยละเอียด คลิกปุ่ม ตรวจสอบ สัญลักษณ์ "ไม่พบข้อผิดพลาด" สีเขียว บ่งบอกถึงความสำเร็จ
- หากต้องการปิดพร็อพเพอร์ตี้ GCS ให้คลิกปุ่ม X
เปลี่ยนรูปแบบโหนด
- เลือกโหนดการเปลี่ยนรูปแบบ
- ใต้ส่วน "การเปลี่ยนรูปแบบ" ในพาเล็ต "ปลั๊กอิน" ทางด้านซ้าย ให้ดับเบิลคลิกโหนด Wrangler ที่ปรากฏใน UI ของ Data Pipelines เชื่อมต่อโหนดแหล่งที่มา GCS กับโหนดการแปลงของ Wrangler
- ชี้ไปที่โหนด Wrangler แล้วคลิกคุณสมบัติ
- คลิกเมนูแบบเลื่อนลงการดำเนินการ แล้วเลือกนำเข้าเพื่อนำเข้าสคีมาที่บันทึกไว้ (เช่น gs://hcls_testing_data_fhir_10_patients/csv_schemas/ schema (Patients).json) แล้ววางสูตรอาหารที่บันทึกไว้จากส่วนก่อนหน้า
- หรือใช้โหนด Wrangler ซ้ำจากส่วน สร้างสคีมาสำหรับการเปลี่ยนรูปแบบ
- กรอกข้อมูลลงในช่องที่ต้องกรอก ตั้งค่าฟิลด์ต่อไปนี้:
- ป้ายกำกับ = {any text}
- ชื่อช่องที่ป้อน = {*}
- เงื่อนไขล่วงหน้า = {filename != "patients.csv"} เพื่อแยกไฟล์อินพุตแต่ละรายการ (ตัวอย่างเช่น.grants.csv, provider.csv, allergies.csv ฯลฯ) จากโหนด Source
- เพิ่มโหนด JavaScript เพื่อเรียกใช้ JavaScript ที่ได้จากผู้ใช้ ซึ่งจะเปลี่ยนรูปแบบระเบียนเพิ่มเติม ใน Codelab นี้ เราใช้โหนด JavaScript เพื่อรับการประทับเวลาสำหรับการอัปเดตระเบียนแต่ละครั้ง เชื่อมต่อโหนดเปลี่ยนรูปแบบ Wrangler กับโหนดเปลี่ยนรูปแบบ JavaScript เปิดพร็อพเพอร์ตี้ของ JavaScript แล้วเพิ่มฟังก์ชันต่อไปนี้
function transform(input, emitter, context) { input.TIMESTAMP = (new Date()).getTime()*1000; emitter.emit(input); }
- เพิ่มช่องชื่อ TIMESTAMP ลงในสคีมาเอาต์พุต (หากไม่มี) โดยคลิกเครื่องหมาย + เลือกประเภทข้อมูลเป็นการประทับเวลา
- คลิกเอกสารประกอบเพื่อดูคำอธิบายอย่างละเอียด คลิกปุ่ม ตรวจสอบ เพื่อตรวจสอบความถูกต้องของข้อมูลอินพุตทั้งหมด "ไม่พบข้อผิดพลาด" สีเขียว บ่งบอกถึงความสำเร็จ
- หากต้องการปิดหน้าต่างการแปลงคุณสมบัติ ให้คลิกปุ่ม X
การมาสก์ข้อมูลและการลบการระบุตัวตน
- คุณเลือกคอลัมน์ข้อมูลแต่ละคอลัมน์ได้โดยคลิกลูกศรลงในคอลัมน์และใช้กฎการมาสก์ใต้การเลือกข้อมูลมาสก์ตามที่ต้องการ (เช่น คอลัมน์ SSN)
- คุณเพิ่มคำสั่งอื่นๆ ในหน้าต่าง Recipe ของโหนด Wrangler ได้ เช่น การใช้คำสั่งแฮชกับอัลกอริทึมการแฮชตามไวยากรณ์นี้เพื่อจุดประสงค์ในการลบการระบุตัวตน
hash <column> <algorithm> <encode> <column>: name of the column <algorithm>: Hashing algorithm (i.e. MD5, SHA-1, etc.) <encode>: default is true (hashed digest is encoded as hex with left-padding zeros). To disable hex encoding, set <encode> to false.
โหนดของซิงก์
- เลือกโหนดซิงก์
- ดับเบิลคลิกโหนด BigQuery ใต้หัวข้อ Sink ในพาเล็ตปลั๊กอินทางด้านซ้าย ซึ่งจะปรากฏขึ้นใน UI ของ Data Pipeline
- ชี้ไปที่โหนดซิงก์ของ BigQuery แล้วคลิก "พร็อพเพอร์ตี้"
- กรอกข้อมูลในช่องที่ต้องกรอก ตั้งค่าฟิลด์ต่อไปนี้:
- ป้ายกำกับ = {any text}
- ชื่อข้อมูลอ้างอิง = {any text}
- รหัสโปรเจ็กต์ = ตรวจหาอัตโนมัติ
- ชุดข้อมูล = ชุดข้อมูล BigQuery ที่ใช้ในโปรเจ็กต์ปัจจุบัน (เช่น DATASET_ID)
- ตาราง = {table name}
- คลิกเอกสารประกอบเพื่อดูคำอธิบายอย่างละเอียด คลิกปุ่ม ตรวจสอบ เพื่อตรวจสอบความถูกต้องของข้อมูลอินพุตทั้งหมด "ไม่พบข้อผิดพลาด" สีเขียว บ่งบอกถึงความสำเร็จ
- หากต้องการปิดพร็อพเพอร์ตี้ BigQuery ให้คลิกปุ่ม X
6. ไปป์ไลน์ข้อมูลของบิลด์เป็นกลุ่ม
การเชื่อมต่อโหนดทั้งหมดในไปป์ไลน์
- ลากลูกศรเชื่อมต่อ > ที่ขอบด้านขวาของโหนดต้นทางแล้ววางที่ขอบด้านซ้ายของโหนดปลายทาง
- ไปป์ไลน์อาจมีหลายสาขาที่รับไฟล์อินพุตจากโหนดแหล่งที่มา GCS เดียวกัน
- ตั้งชื่อไปป์ไลน์
เท่านี้เอง คุณเพิ่งสร้างไปป์ไลน์ข้อมูลแบบกลุ่มแรก รวมถึงทำให้ไปป์ไลน์ข้อมูลใช้งานได้และเรียกใช้ได้
ส่งการแจ้งเตือนไปป์ไลน์ทางอีเมล (ไม่บังคับ)
หากต้องการใช้ฟีเจอร์ Pipeline Alert SendEmail การกำหนดค่าจะต้องมีการตั้งค่าเซิร์ฟเวอร์อีเมลเพื่อส่งอีเมลจากอินสแตนซ์เครื่องเสมือน ดูลิงก์อ้างอิงด้านล่างเพื่อดูข้อมูลเพิ่มเติม
การส่งอีเมลจากอินสแตนซ์ | เอกสารประกอบของ Compute Engine
ใน Codelab นี้ เราตั้งค่าบริการส่งต่ออีเมลผ่าน Mailgun โดยใช้ขั้นตอนต่อไปนี้
- ทำตามวิธีการที่การส่งอีเมลด้วย Mailgun | เอกสารประกอบของ Compute Engine สำหรับการตั้งค่าบัญชีด้วย Mailgun และกำหนดค่าบริการการส่งต่ออีเมล การแก้ไขเพิ่มเติมมีดังนี้
- เพิ่มผู้รับทั้งหมด ไปยังรายชื่อที่ได้รับอนุญาตของ Mailgun รายการนี้จะอยู่ใน Mailgun>การส่ง>ตัวเลือกภาพรวมในแผงด้านซ้าย
เมื่อผู้รับคลิก "ฉันยอมรับ" ในอีเมลที่ส่งจาก support@mailgun.net ระบบจะบันทึกอีเมลไว้ในรายชื่อที่ได้รับอนุญาตเพื่อรับอีเมลแจ้งเตือนเรื่องไปป์ไลน์
- ขั้นตอนที่ 3 ของ "ก่อนเริ่มต้น" ส่วน - สร้างกฎไฟร์วอลล์ดังต่อไปนี้:
- ขั้นตอนที่ 3 ของ "การกำหนดค่า Mailgun เป็นรีเลย์อีเมลด้วย Postfix" เลือกเว็บไซต์อินเทอร์เน็ตหรืออินเทอร์เน็ตที่มีสมาร์ทโฮสต์ แทนในเครื่องเท่านั้น ตามที่ระบุไว้ในวิธีการ
- ขั้นตอนที่ 4 ของ "การกำหนดค่า Mailgun เป็นรีเลย์อีเมลด้วย Postfix" แก้ไข vi /etc/postfix/main.cf เพื่อเพิ่ม 10.128.0.0/9 ต่อท้าย mynetworks
- แก้ไข vi /etc/postfix/master.cf เพื่อเปลี่ยน smtp (25) เริ่มต้นเป็นพอร์ต 587
- คลิกกำหนดค่าที่มุมขวาบนของ Data Fusion Studio คลิกการแจ้งเตือนไปป์ไลน์ และคลิกปุ่ม + เพื่อเปิดหน้าต่างการแจ้งเตือน เลือก SendEmail
- กรอกแบบฟอร์มการกำหนดค่าอีเมล เลือกความสมบูรณ์ ความสำเร็จ หรือความล้มเหลวจากเมนูแบบเลื่อนลงเงื่อนไขการเรียกใช้สำหรับการแจ้งเตือนแต่ละประเภท ถ้า Include Workflow Token = false ระบบจะส่งเฉพาะข้อมูลจากช่อง Message เท่านั้น ถ้ารวมโทเค็นเวิร์กโฟลว์ = จริง ระบบจะส่งข้อมูลโดยละเอียดจากช่องข้อความและโทเค็นเวิร์กโฟลว์ คุณต้องใช้ตัวพิมพ์เล็กสำหรับโปรโตคอล ใช้ "ปลอม" ใดก็ได้ อีเมลอื่นนอกเหนือจากที่อยู่อีเมลของบริษัทสำหรับ Sender
7. กำหนดค่า ทำให้ใช้งานได้ เรียกใช้/กำหนดเวลาไปป์ไลน์
- คลิกกำหนดค่าที่มุมขวาบนของ Data Fusion Studio เลือก Spark สำหรับการกำหนดค่าเครื่องมือ คลิก "บันทึก" ในหน้าต่าง "กำหนดค่า"
- คลิกแสดงตัวอย่างเพื่อแสดงตัวอย่างข้อมูล**** และคลิก **แสดงตัวอย่าง** อีกครั้งเพื่อสลับกลับไปยังหน้าต่างก่อนหน้า คุณยัง **เรียกใช้** ไปป์ไลน์ในโหมดแสดงตัวอย่างได้ด้วย
- คลิกบันทึกเพื่อดูบันทึก
- คลิกบันทึกเพื่อบันทึกการเปลี่ยนแปลงทั้งหมด
- คลิกนำเข้าเพื่อนำเข้าการกำหนดค่าไปป์ไลน์ที่บันทึกไว้เมื่อสร้างไปป์ไลน์ใหม่
- คลิกส่งออกเพื่อส่งออกการกำหนดค่าไปป์ไลน์
- คลิกทำให้ใช้งานได้เพื่อทำให้ไปป์ไลน์ใช้งานได้
- เมื่อทำให้ใช้งานได้แล้ว ให้คลิกเรียกใช้ และรอให้ไปป์ไลน์ทำงานเสร็จสมบูรณ์
- คุณทำซ้ำไปป์ไลน์ได้โดยเลือก "ทำซ้ำ" ใต้ปุ่มการดำเนินการ
- คุณส่งออกการกำหนดค่าไปป์ไลน์ได้โดยเลือก "ส่งออก" ใต้ปุ่มการดำเนินการ
- คลิกทริกเกอร์ขาเข้าหรือทริกเกอร์ขาออกที่ขอบด้านซ้ายหรือขวาของหน้าต่าง Studio เพื่อตั้งค่าทริกเกอร์ไปป์ไลน์ หากต้องการ
- คลิกตั้งเวลาเพื่อตั้งเวลาให้ไปป์ไลน์ทำงานและโหลดข้อมูลเป็นระยะๆ
- ข้อมูลสรุปจะแสดงแผนภูมิของประวัติการเรียกใช้ บันทึก บันทึกข้อผิดพลาด และคำเตือน
8. การตรวจสอบความถูกต้อง
- ดำเนินการตรวจสอบไปป์ไลน์เรียบร้อยแล้ว
- ตรวจสอบว่าชุดข้อมูล BigQuery มีตารางทั้งหมดหรือไม่
bq ls $PROJECT_ID:$DATASET_ID
tableId Type Labels Time Partitioning
----------------- ------- -------- -------------------
Allergies TABLE
Careplans TABLE
Conditions TABLE
Encounters TABLE
Imaging_Studies TABLE
Immunizations TABLE
Medications TABLE
Observations TABLE
Organizations TABLE
Patients TABLE
Procedures TABLE
Providers TABLE
- รับอีเมลการแจ้งเตือน (หากกำหนดค่าไว้)
ดูผลลัพธ์
วิธีดูผลลัพธ์หลังจากที่เรียกใช้ไปป์ไลน์
- ค้นหาตารางใน BigQuery UI ไปที่ UI ของ BigQuery
- อัปเดตการค้นหาด้านล่างเป็นชื่อโปรเจ็กต์ ชุดข้อมูล และตารางของคุณเอง
9. กำลังล้างข้อมูล
โปรดทำดังนี้เพื่อเลี่ยงไม่ให้เกิดการเรียกเก็บเงินกับบัญชี Google Cloud Platform สำหรับทรัพยากรที่ใช้ในบทแนะนำนี้
หลังจากดูบทแนะนำจบแล้ว คุณสามารถล้างทรัพยากรที่สร้างบน GCP เพื่อไม่ให้ใช้โควต้าของคุณและจะไม่มีการเรียกเก็บเงินสำหรับทรัพยากรเหล่านั้นในอนาคต ส่วนต่อไปนี้จะอธิบายวิธีลบหรือปิดแหล่งข้อมูลเหล่านี้
การลบชุดข้อมูล BigQuery
ทำตามวิธีการเหล่านี้เพื่อลบชุดข้อมูล BigQuery ที่คุณสร้างไว้ในบทแนะนำนี้
การลบที่เก็บข้อมูล GCS
ทำตามวิธีการเหล่านี้เพื่อลบที่เก็บข้อมูล GCS ที่คุณสร้างไว้ในบทแนะนำนี้
การลบอินสแตนซ์ Cloud Data Fusion
ทำตามวิธีการเหล่านี้เพื่อลบอินสแตนซ์ Cloud Data Fusion
การลบโปรเจ็กต์
วิธีที่ง่ายที่สุดในการยกเลิกการเรียกเก็บเงินคือการลบโปรเจ็กต์ที่คุณสร้างไว้สำหรับบทแนะนำ
วิธีลบโปรเจ็กต์
- ในคอนโซล GCP ให้ไปที่หน้าโปรเจ็กต์ ไปที่หน้าโปรเจ็กต์
- ในรายการโปรเจ็กต์ ให้เลือกโปรเจ็กต์ที่ต้องการลบ แล้วคลิกลบ
- ในกล่องโต้ตอบ ให้พิมพ์รหัสโปรเจ็กต์ แล้วคลิกปิดเครื่องเพื่อลบโปรเจ็กต์
10. ขอแสดงความยินดี
ยินดีด้วย คุณดำเนิน Code Lab เพื่อนำเข้าข้อมูลการดูแลสุขภาพใน BigQuery ด้วย Cloud Data Fusion เสร็จสมบูรณ์แล้ว
คุณนำเข้าข้อมูล CSV จาก Google Cloud Storage ไปยัง BigQuery
คุณได้สร้างไปป์ไลน์การผสานรวมข้อมูลสำหรับการโหลด เปลี่ยนรูปแบบ และมาสก์ข้อมูลการดูแลสุขภาพหลายรายการพร้อมกัน
ตอนนี้คุณได้ทราบขั้นตอนสำคัญที่จำเป็นต่อการเริ่มต้นเส้นทางการวิเคราะห์ข้อมูลการดูแลสุขอนามัยด้วย BigQuery บน Google Cloud Platform แล้ว