1. परिचय
पिछली बार अपडेट किए जाने की तारीख: 28-02-2020
यह कोडलैब, डेटा डालने का पैटर्न दिखाता है, ताकि CSV फ़ॉर्मैट में स्वास्थ्य सेवा के डेटा को BigQuery में एक साथ डाला जा सके. हम इस लैब के लिए, Cloud Data Fusion Batch Data पाइपलाइन का इस्तेमाल करेंगे. स्वास्थ्य सेवा की असल जांच का डेटा जनरेट किया गया है और उसे आपके लिए Google Cloud Storage बकेट (gs://hcls_testing_data_fhir_10_patients/csv/) में उपलब्ध कराया गया है.
इस कोड लैब में, आपको इनके बारे में जानकारी मिलेगी:
- Cloud Data Fusion का इस्तेमाल करके, GCS (जीसीएस) से BigQuery में CSV डेटा (बैच के ज़रिए लोड होने वाली प्रोसेस) डालने का तरीका.
- एक साथ कई स्वास्थ्य सेवाओं के डेटा को लोड करने, बदलने, और मास्क करने के लिए, Cloud Data Fusion में विज़ुअल तौर पर डेटा इंटिग्रेशन की पाइपलाइन बनाने का तरीका.
इस कोडलैब को चलाने के लिए, आपको क्या करना होगा?
- आपके पास GCP प्रोजेक्ट का ऐक्सेस होना चाहिए.
- आपको GCP प्रोजेक्ट के लिए मालिक की भूमिका असाइन करनी होगी.
- हेडर के साथ CSV फ़ॉर्मैट में स्वास्थ्य सेवा का डेटा.
अगर आपके पास GCP प्रोजेक्ट नहीं है, तो नया GCP प्रोजेक्ट बनाने के लिए यह तरीका अपनाएं.
स्वास्थ्य सेवा का डेटा CSV फ़ॉर्मैट में, GCS बकेट में पहले से लोड हो चुका है. इसके लिए, gs://hcls_testing_data_fhir_10_patients/csv/ पर जाएं. हर संसाधन CSV फ़ाइल का अपना स्कीमा स्ट्रक्चर होता है. उदाहरण के लिए, Patients.csv का स्कीमा, provider.csv से अलग है. पहले से लोड की गई स्कीमा फ़ाइलें gs://hcls_testing_data_fhir_10_patients/csv_schemas पर देखी जा सकती हैं.
अगर आपको कोई नया डेटासेट चाहिए, तो उसे कभी भी SyntheaTM का इस्तेमाल करके जनरेट किया जा सकता है. इसके बाद, 'इनपुट डेटा कॉपी करें' चरण में बकेट से कॉपी करने के बजाय, इसे GCS (जीसीएस) पर अपलोड करें.
2. GCP प्रोजेक्ट का सेटअप
अपने एनवायरमेंट के लिए शेल वैरिएबल शुरू करें.
PROJECT_ID ढूंढने के लिए, प्रोजेक्ट की पहचान करना देखें.
<!-- CODELAB: Initialize shell variables -> <!-- Your current GCP Project ID -> export PROJECT_ID=<PROJECT_ID> <!-- A new GCS Bucket in your current Project - INPUT -> export BUCKET_NAME=<BUCKET_NAME> <!-- A new BQ Dataset ID - OUTPUT -> export DATASET_ID=<DATASET_ID>
gsutil टूल का इस्तेमाल करके, इनपुट डेटा और गड़बड़ी के लॉग स्टोर करने के लिए, GCS बकेट बनाएं.
gsutil mb -l us gs://$BUCKET_NAME
सिंथेटिक डेटासेट का ऐक्सेस पाएं.
- Cloud Console में लॉगिन करने के लिए जिस ईमेल पते का इस्तेमाल किया जा रहा है उससे hcls-solutions-external+subscribe@google.com पर ईमेल भेजकर शामिल होने का अनुरोध करें.
- आपको एक ईमेल मिलेगा, जिसमें कार्रवाई की पुष्टि करने के निर्देश होंगे. अभी तक किसी भी व्यक्ति ने चेक इन नहीं किया है
- ग्रुप में शामिल होने के लिए, ईमेल का जवाब देने के विकल्प का इस्तेमाल करें. बटन पर क्लिक न करें.
- पुष्टि करने वाला ईमेल मिलने के बाद, कोडलैब में अगले चरण पर जाया जा सकता है.
इनपुट डेटा कॉपी करें.
gsutil -m cp -r gs://hcls_testing_data_fhir_10_patients/csv gs://$BUCKET_NAME
BigQuery डेटासेट बनाएं.
bq mk --location=us --dataset $PROJECT_ID:$DATASET_ID
3. Cloud Data Fusion के एनवायरमेंट का सेटअप
Cloud Data Fusion API चालू करने और ज़रूरी अनुमतियां देने के लिए, यह तरीका अपनाएं:
एपीआई चालू करें.
- GCP Console API लाइब्रेरी पर जाएं.
- प्रोजेक्ट की सूची में से, अपना प्रोजेक्ट चुनें.
- एपीआई लाइब्रेरी में जाकर, वह एपीआई चुनें जिसे आपको चालू करना है. अगर आपको एपीआई ढूंढने में मदद चाहिए, तो खोज फ़ील्ड और/या फ़िल्टर का इस्तेमाल करें.
- एपीआई पेज पर, 'चालू करें' पर क्लिक करें.
Cloud Data Fusion इंस्टेंस बनाएं.
- GCP कंसोल में, अपना ProjectID चुनें.
- बाएं मेन्यू से Data Fusion चुनें. इसके बाद, पेज के बीच में मौजूद 'एक इंस्टेंस बनाएं' बटन (पहला क्रिएशन) या सबसे ऊपर मौजूद मेन्यू (अतिरिक्त क्रिएशन) में, 'इंस्टेंस बनाएं' बटन पर क्लिक करें.
- इंस्टेंस को नाम दें. एंटरप्राइज़ चुनें.
- 'बनाएं' बटन पर क्लिक करें.
इंस्टेंस की अनुमतियां सेटअप करना.
इंस्टेंस बनाने के बाद, अपने प्रोजेक्ट पर इंस्टेंस की अनुमतियों से जुड़े सेवा खाते को अनुमति देने के लिए, यह तरीका अपनाएं:
- इंस्टेंस के नाम पर क्लिक करके, इंस्टेंस की ज़्यादा जानकारी वाले पेज पर जाएं.
- सेवा खाते को कॉपी करें.
- अपने प्रोजेक्ट के आईएएम पेज पर जाएं.
- IAM की अनुमतियों वाले पेज पर, अब हम सेवा खाते को नए सदस्य के तौर पर जोड़ेंगे और उसे Cloud Data Fusion API सर्विस एजेंट की भूमिका देंगे. जोड़ें बटन पर क्लिक करें. इसके बाद, "सेवा खाता" चिपकाएं और नए सदस्य फ़ील्ड में सेवा प्रबंधन चुनें -> Cloud Data Fusion API के सर्वर एजेंट की भूमिका.
- सेव करें पर क्लिक करें.
ये चरण पूरे होने के बाद, Cloud Data Fusion के इंस्टेंस पेज पर व्यू इंस्टेंस लिंक या किसी इंस्टेंस की ज़्यादा जानकारी वाले पेज पर क्लिक करके, Cloud Data Fusion का इस्तेमाल शुरू किया जा सकता है.
फ़ायरवॉल का नियम सेट अप करें.
- GCP कंसोल पर जाएं -> VPC नेटवर्क -> फ़ायरवॉल के नियम, ताकि यह पता लगाया जा सके कि डिफ़ॉल्ट-अनुमति दें-एसएसएच नियम मौजूद है या नहीं.
- अगर ऐसा नहीं है, तो फ़ायरवॉल का नियम जोड़ें. यह नियम सभी इन्ग्रेस डेटा ट्रैफ़िक को डिफ़ॉल्ट नेटवर्क पर ले जाने की अनुमति देता है.
कमांड लाइन का इस्तेमाल करना:
gcloud beta compute --project={PROJECT_ID} firewall-rules create default-allow-ssh --direction=INGRESS --priority=1000 --network=default --action=ALLOW --rules=tcp:22 --source-ranges=0.0.0.0/0 --enable-logging
UI का उपयोग करना: फ़ायरवॉल नियम बनाएं पर क्लिक करें और जानकारी भरें:
4. बदलाव के लिए स्कीमा बनाएं
अब GCP में Cloud Fusion का इस्तेमाल करने के बाद, हम स्कीमा बनाते हैं. हमें CSV डेटा में बदलाव करने के लिए इस स्कीमा की ज़रूरत होती है.
- Cloud Data Fusion विंडो के 'कार्रवाई' कॉलम में, व्यू इंस्टेंस लिंक पर क्लिक करें. आपको किसी अन्य पेज पर रीडायरेक्ट कर दिया जाएगा. Cloud Data Fusion इंस्टेंस खोलने के लिए दिए गए url पर क्लिक करें. "सफ़र शुरू करें" पर क्लिक करने के लिए आपका चुना गया विकल्प या "नहीं, रहने दें" बटन पर क्लिक करें.
- "हैमबर्गर" को बड़ा करें मेन्यू, पाइपलाइन चुनें -> Studio
- बाईं ओर प्लगिन पैलेट में बदलाव करें सेक्शन के नीचे, Wrangler नोड पर दो बार क्लिक करें, जो Data Pipelines यूज़र इंटरफ़ेस (यूआई) में दिखेगा.
- रैंगलर नोड की ओर पॉइंट करें और प्रॉपर्टी पर क्लिक करें. रैंगल बटन पर क्लिक करें. इसके बाद, कोई ऐसी .csv सोर्स फ़ाइल चुनें (जैसे, मरीज़ों.csv) चुनें जिसमें मनचाहा स्कीमा बनाने के लिए, सभी डेटा फ़ील्ड होने चाहिए.
- हर कॉलम के नाम (उदाहरण के लिए, बॉडी) के बगल में मौजूद, डाउन ऐरो (कॉलम ट्रांसफ़ॉर्मेशन) पर क्लिक करें.
- डिफ़ॉल्ट रूप से, शुरुआती इंपोर्ट यह मानेगा कि आपकी डेटा फ़ाइल में सिर्फ़ एक कॉलम है. इसे CSV के तौर पर पार्स करने के लिए, पार्स → CSV चुनें. इसके बाद, डीलिमिटर चुनें और "पहली लाइन को हेडर के तौर पर सेट करें" को चुनें बॉक्स पर क्लिक करें. 'लागू करें' बटन पर क्लिक करें.
- बॉडी फ़ील्ड के बगल में डाउन ऐरो पर क्लिक करें, मुख्य भाग फ़ील्ड हटाने के लिए कॉलम मिटाएं चुनें. इसके अलावा, आपके पास कॉलम हटाने, कुछ कॉलम के लिए डेटा टाइप बदलने (डिफ़ॉल्ट तौर पर "स्ट्रिंग" टाइप पर होता है), कॉलम को बांटने, कॉलम के नाम सेट करने वगैरह जैसे अन्य ट्रांसफ़ॉर्मेशन ऐक्शन आज़माए जा सकते हैं.
- "कॉलम" और "बदलाव के चरण" टैब आउटपुट स्कीमा और Wrangler की रेसिपी दिखाते हैं. सबसे ऊपर दाएं कोने में मौजूद, लागू करें पर क्लिक करें. 'पुष्टि करें' बटन पर क्लिक करें. हरे रंग में "कोई गड़बड़ी नहीं मिली" सफलता को दिखाता है.
- अगर ज़रूरी हो, तो आने वाले समय में इंपोर्ट करने के लिए, Wrangler प्रॉपर्टी में, अपनी पसंद के स्कीमा को अपने लोकल स्टोरेज में एक्सपोर्ट करने के लिए, कार्रवाइयां ड्रॉपडाउन पर क्लिक करें.
- रैंगलर रेसिपी को आने वाले समय में इस्तेमाल करने के लिए सेव करें.
parse-as-csv :body ',' true drop body
- Wringler प्रॉपर्टी विंडो को बंद करने के लिए, X बटन पर क्लिक करें.
5. पाइपलाइन के लिए नोड बनाना
इस सेक्शन में, हम पाइपलाइन कॉम्पोनेंट बनाएंगे.
- Data Pipelines यूज़र इंटरफ़ेस (यूआई) में, ऊपर बाईं ओर, आपको दिखेगा कि डेटा पाइपलाइन - बैच को पाइपलाइन टाइप के तौर पर चुना गया है.
- बाएं पैनल में फ़िल्टर, सोर्स, ट्रांसफ़ॉर्म, Analytics, सिंक, शर्तें और कार्रवाइयां, गड़बड़ी हैंडलर और अलर्ट के तौर पर अलग-अलग सेक्शन होते हैं. यहां से पाइपलाइन के लिए किसी नोड या नोड को चुना जा सकता है.
सोर्स नोड
- सोर्स नोड चुनें.
- बाईं ओर प्लगिन पैलेट के सोर्स सेक्शन में जाकर, Data Pipelines यूज़र इंटरफ़ेस (यूआई) में दिखने वाले Google Cloud Storage नोड पर दो बार क्लिक करें.
- GCS (जीसीएस) सोर्स नोड की ओर पॉइंट करें और प्रॉपर्टी पर क्लिक करें.
- ज़रूरी फ़ील्ड में जानकारी भरें. इन फ़ील्ड को सेट करें:
- लेबल = {any text}
- रेफ़रंस का नाम = {any text}
- प्रोजेक्ट आईडी = अपने-आप पता लगाएं
- पाथ = आपके मौजूदा प्रोजेक्ट में बकेट का GCS यूआरएल. उदाहरण के लिए, gs://$BUCKET_NAME/csv/
- फ़ॉर्मैट = टेक्स्ट
- पाथ फ़ील्ड = फ़ाइल नाम
- सिर्फ़ पाथ फ़ाइल का नाम = सही
- फ़ाइलों को बार-बार पढ़ना = सही
- ‘फ़ाइल का नाम' फ़ील्ड जोड़ें + बटन पर क्लिक करके GCS आउटपुट स्कीमा में बदल जाएगा.
- पूरी जानकारी के लिए दस्तावेज़ पर क्लिक करें. 'पुष्टि करें' बटन पर क्लिक करें. हरे रंग में "कोई गड़बड़ी नहीं मिली" सफलता को दिखाता है.
- GCS प्रॉपर्टी बंद करने के लिए, X बटन पर क्लिक करें.
नोड बदलें
- ट्रांसफ़ॉर्म नोड चुनें.
- बाईं ओर प्लगिन पैलेट में बदलाव करें सेक्शन के नीचे, Data Pipelines यूज़र इंटरफ़ेस (यूआई) में दिखने वाले Wrangler नोड पर दो बार क्लिक करें. GCS स्रोत नोड को Wrangler ट्रांसफ़ॉर्म नोड से कनेक्ट करें.
- रैंगलर नोड की ओर पॉइंट करें और प्रॉपर्टी पर क्लिक करें.
- सेव किया गया स्कीमा इंपोर्ट करने के लिए, कार्रवाइयां ड्रॉप-डाउन पर क्लिक करें और इंपोर्ट करें चुनें. उदाहरण के लिए: gs://hcls_testing_data_fhir_10_patients/csv_schemas/ schema (Patients.json) और पिछले सेक्शन में सेव की गई रेसिपी को चिपकाएं.
- इसके अलावा, सेक्शन से Wrangler नोड का फिर से इस्तेमाल करें: Wrangler.
- ज़रूरी फ़ील्ड में जानकारी भरें. इन फ़ील्ड को सेट करें:
- लेबल = {any text}
- इनपुट फ़ील्ड का नाम = {*}
- पहले से तय की गई स्थिति = {filename != "patients.csv"}, ताकि हर इनपुट फ़ाइल को सोर्स नोड से अलग किया जा सके (उदाहरण के लिए, मरीज़.csv, provider.csv, allergies.csv वगैरह.).
- उपयोगकर्ता से मिले JavaScript को लागू करने के लिए JavaScript नोड जोड़ें. यह रिकॉर्ड रिकॉर्ड में बदलाव करता है. इस कोडलैब में, हम हर रिकॉर्ड अपडेट का टाइमस्टैंप पाने के लिए JavaScript नोड का इस्तेमाल करते हैं. Wrangler ट्रांसफ़ॉर्म नोड को JavaScript ट्रांसफ़ॉर्म नोड से कनेक्ट करें. JavaScript Properties खोलें और नीचे दिया गया फ़ंक्शन जोड़ें:
function transform(input, emitter, context) { input.TIMESTAMP = (new Date()).getTime()*1000; emitter.emit(input); }
- + चिह्न पर क्लिक करके आउटपुट स्कीमा में TIMESTAMP नाम का फ़ील्ड (अगर वह मौजूद न हो) जोड़ें. डेटा टाइप के तौर पर टाइमस्टैंप चुनें.
- ज़्यादा जानकारी के लिए, दस्तावेज़ पर क्लिक करें. सभी इनपुट जानकारी की पुष्टि करने के लिए, 'पुष्टि करें' बटन पर क्लिक करें. हरा "कोई गड़बड़ी नहीं मिली" सफलता को दिखाता है.
- 'प्रॉपर्टी को बदलें' विंडो को बंद करने के लिए, X बटन पर क्लिक करें.
डेटा मास्क करना और पहचान से जुड़ी जानकारी हटाना
- अपनी ज़रूरत के हिसाब से, डाउन ऐरो पर क्लिक करके और मास्क करने के नियम लागू करके, अलग-अलग डेटा कॉलम चुने जा सकते हैं. उदाहरण के लिए, SSN कॉलम.
- Rrangler नोड की रेसिपी विंडो में, ज़्यादा निर्देश जोड़े जा सकते हैं. उदाहरण के लिए, पहचान से जुड़ी जानकारी हटाने के लिए, इस सिंटैक्स का इस्तेमाल करके हैशिंग एल्गोरिदम के साथ हैश डायरेक्टिव का इस्तेमाल करना:
hash <column> <algorithm> <encode> <column>: name of the column <algorithm>: Hashing algorithm (i.e. MD5, SHA-1, etc.) <encode>: default is true (hashed digest is encoded as hex with left-padding zeros). To disable hex encoding, set <encode> to false.
सिंक नोड
- सिंक नोड चुनें.
- बाईं ओर प्लगिन पैलेट के सिंक सेक्शन में, BigQuery नोड पर दो बार क्लिक करें. यह डेटा पाइपलाइन के यूज़र इंटरफ़ेस (यूआई) में दिखेगा.
- BigQuery सिंक नोड की ओर पॉइंट करें और प्रॉपर्टी पर क्लिक करें.
- ज़रूरी फ़ील्ड में वैल्यू डालें. इन फ़ील्ड को सेट करें:
- लेबल = {any text}
- रेफ़रंस का नाम = {any text}
- प्रोजेक्ट आईडी = अपने-आप पता लगाएं
- डेटासेट = मौजूदा प्रोजेक्ट में इस्तेमाल किया गया BigQuery डेटासेट (उदाहरण के लिए, DATASET_ID)
- टेबल = {table name}
- ज़्यादा जानकारी के लिए, दस्तावेज़ पर क्लिक करें. सभी इनपुट जानकारी की पुष्टि करने के लिए, 'पुष्टि करें' बटन पर क्लिक करें. हरा "कोई गड़बड़ी नहीं मिली" सफलता को दिखाता है.
- BigQuery प्रॉपर्टी बंद करने के लिए, X बटन पर क्लिक करें.
6. बैच डेटा पाइपलाइन बनाएं
सभी नोड को पाइपलाइन में कनेक्ट करना
- कनेक्शन ऐरो को खींचें और छोड़ें > स्रोत नोड के दाएं किनारे पर और गंतव्य नोड के बाएं किनारे पर छोड़ें.
- किसी पाइपलाइन में कई ब्रांच हो सकती हैं, जिन्हें एक ही GCS सोर्स नोड से इनपुट फ़ाइलें मिलती हैं.
- पाइपलाइन को नाम दें.
हो गया. आपने अभी-अभी अपनी पहली Batch डेटा पाइपलाइन बनाई है और आप पाइपलाइन को डिप्लॉय कर सकते हैं और उसे चला सकते हैं.
ईमेल से पाइपलाइन की सूचनाएं भेजें (ज़रूरी नहीं)
पाइपलाइन अलर्ट SendEmail सुविधा का इस्तेमाल करने के लिए, कॉन्फ़िगरेशन में मेल सर्वर सेट अप करना ज़रूरी है, ताकि वर्चुअल मशीन इंस्टेंस से मेल भेजा जा सके. ज़्यादा जानकारी के लिए, नीचे दिया गया रेफ़रंस लिंक देखें:
किसी इंस्टेंस से ईमेल भेजना | Compute Engine के दस्तावेज़
इस कोडलैब में, हम नीचे दिए गए तरीके का इस्तेमाल करके, Mailgun से मेल रिले सेवा को सेट अप करते हैं:
- Mailgun से ईमेल भेजना | पर दिए गए निर्देशों का पालन करें Compute Engine दस्तावेज़ का इस्तेमाल करके, Mailgun के साथ किसी खाते को सेट अप किया जा सकता है. साथ ही, ईमेल रिले सेवा को कॉन्फ़िगर किया जा सकता है. अतिरिक्त बदलावों के बारे में नीचे बताया गया है.
- ईमेल पाने वाले सभी लोगों को जोड़ें के ईमेल पते भेज सकते हैं. यह सूची, बाएं पैनल में Mailgun>Sending>खास जानकारी वाले विकल्प में देखी जा सकती है.
पाने वाले व्यक्ति ने "मैं सहमत हूं" पर क्लिक करने के बाद support@mailgun.net से भेजे गए ईमेल पते पर, उनके ईमेल पते अनुमति वाली सूची में सेव कर लिए जाते हैं, ताकि पाइपलाइन से जुड़ी चेतावनी वाले ईमेल मिल सकें.
- "शुरू करने से पहले" सेक्शन का तीसरा चरण सेक्शन - फ़ायरवॉल का नियम इस तरह बनाएँ:
- "पोस्टफ़िक्स के साथ मेल रिले के तौर पर मेलगन को कॉन्फ़िगर करना" का तीसरा चरण. निर्देशों में बताए गए के मुताबिक सिर्फ़ लोकल के बजाय इंटरनेट साइट या स्मार्टहोस्ट के साथ इंटरनेट चुनें.
- "पोस्टफ़िक्स के साथ मेल रिले के तौर पर मेलगन को कॉन्फ़िगर करना" का चौथा चरण. mynetworks के आखिर में 10.128.0.0 /9 जोड़ने के लिए, vi/etc/postfix/main.cf में बदलाव करें.
- डिफ़ॉल्ट smtp (25) को पोर्ट 587 में बदलने के लिए, vi /etc/postfix/Master.cf में बदलाव करें.
- Data Fusion Studio के ऊपरी दाएं कोने में, कॉन्फ़िगर करें पर क्लिक करें. पाइपलाइन अलर्ट पर क्लिक करें और अलर्ट विंडो खोलने के लिए + बटन पर क्लिक करें. SendEmail को चुनें.
- ईमेल कॉन्फ़िगरेशन फ़ॉर्म भरें. हर तरह की सूचना के लिए, रन की स्थिति वाले ड्रॉपडाउन में जाकर, पूरा हुआ, पूरा हुआ या फ़ेल चुनें. अगर वर्कफ़्लो टोकन शामिल करें = गलत है, तो सिर्फ़ मैसेज फ़ील्ड से जानकारी भेजी जाती है. अगर Include Workflow Token = true है, तो मैसेज फ़ील्ड और वर्कफ़्लो टोकन की पूरी जानकारी दिखती है. आपको प्रोटोकॉल के लिए, लोअरकेस का इस्तेमाल करना होगा. किसी "नकली" का इस्तेमाल करें भेजने वाले के लिए, आपकी कंपनी के ईमेल पते के अलावा कोई दूसरा ईमेल पता.
7. पाइपलाइन को कॉन्फ़िगर, डिप्लॉय, रन/शेड्यूल करें
- Data Fusion Studio के ऊपरी दाएं कोने में, कॉन्फ़िगर करें पर क्लिक करें. इंजन कॉन्फ़िगरेशन के लिए स्पार्क चुनें. 'कॉन्फ़िगर करें' विंडो में, 'सेव करें' पर क्लिक करें.
- डेटा की झलक देखने के लिए, झलक देखें पर क्लिक करें**. इसके बाद, पिछली विंडो पर टॉगल करने के लिए **झलक देखें** पर फिर से क्लिक करें. झलक मोड में भी पाइपलाइन को **चला** किया जा सकता है.
- लॉग देखने के लिए, लॉग पर क्लिक करें.
- सभी बदलावों को सेव करने के लिए, सेव करें पर क्लिक करें.
- नई पाइपलाइन बनाते समय, सेव किए गए पाइपलाइन कॉन्फ़िगरेशन को इंपोर्ट करने के लिए, इंपोर्ट करें पर क्लिक करें.
- पाइपलाइन कॉन्फ़िगरेशन को एक्सपोर्ट करने के लिए, एक्सपोर्ट करें पर क्लिक करें.
- पाइपलाइन को डिप्लॉय करने के लिए, डिप्लॉय करें पर क्लिक करें.
- डिप्लॉयमेंट के बाद, Run पर क्लिक करें. इसके बाद, पाइपलाइन के पूरा होने का इंतज़ार करें.
- कार्रवाइयां बटन के तहत डुप्लीकेट चुनकर पाइपलाइन की कॉपी बनाई जा सकती है.
- कार्रवाइयां बटन के नीचे 'एक्सपोर्ट करें' चुनकर, पाइपलाइन कॉन्फ़िगरेशन को एक्सपोर्ट किया जा सकता है.
- ज़रूरत पड़ने पर, पाइपलाइन ट्रिगर सेट करने के लिए, Studio विंडो के बाएं या दाएं किनारे पर मौजूद, इनबाउंड ट्रिगर या आउटबाउंड ट्रिगर पर क्लिक करें.
- पाइपलाइन को समय-समय पर चलाने और लोड करने के लिए, शेड्यूल करें पर क्लिक करें.
- खास जानकारी में, दौड़ने के इतिहास, रिकॉर्ड, गड़बड़ी के लॉग, और चेतावनियों के चार्ट दिखते हैं.
8. पुष्टि
- 'पुष्टि' पाइपलाइन चलाई गई.
- पुष्टि करें कि BigQuery डेटासेट में सभी टेबल हैं या नहीं.
bq ls $PROJECT_ID:$DATASET_ID
tableId Type Labels Time Partitioning
----------------- ------- -------- -------------------
Allergies TABLE
Careplans TABLE
Conditions TABLE
Encounters TABLE
Imaging_Studies TABLE
Immunizations TABLE
Medications TABLE
Observations TABLE
Organizations TABLE
Patients TABLE
Procedures TABLE
Providers TABLE
- सूचना वाले ईमेल पाएं (अगर कॉन्फ़िगर किया गया है).
नतीजे देखना
पाइपलाइन के चलने के बाद नतीजे देखने के लिए:
- BigQuery यूज़र इंटरफ़ेस (यूआई) में टेबल पर क्वेरी करें. BIGQUERY के यूज़र इंटरफ़ेस (यूआई) पर जाएं
- नीचे दी गई क्वेरी को अपने प्रोजेक्ट के नाम, डेटासेट, और टेबल में अपडेट करें.
9. साफ़ किया जा रहा है
इस ट्यूटोरियल में इस्तेमाल किए गए संसाधनों के लिए, आपके Google Cloud Platform खाते पर लगने वाले शुल्क से बचने के लिए:
ट्यूटोरियल खत्म करने के बाद, GCP पर बनाए गए संसाधनों को खाली किया जा सकता है. इससे, वे आपका कोटा इस्तेमाल नहीं करेंगे और आने वाले समय में आपको उनके लिए कोई बिल नहीं भेजा जाएगा. इन संसाधनों को मिटाने या बंद करने का तरीका नीचे सेक्शन में बताया गया है.
BigQuery डेटासेट को मिटाना
इस ट्यूटोरियल के हिस्से के तौर पर बनाए गए BigQuery डेटासेट को मिटाने के लिए, इन निर्देशों का पालन करें.
GCS बकेट को मिटाना
इस ट्यूटोरियल के हिस्से के तौर पर बनाए गए GCS बकेट को मिटाने के लिए, इन निर्देशों का पालन करें.
Cloud Data Fusion के इंस्टेंस को मिटाना
अपने Cloud Data Fusion इंस्टेंस को मिटाने के लिए, इन निर्देशों का पालन करें.
प्रोजेक्ट को मिटाना
बिलिंग हटाने का सबसे आसान तरीका, ट्यूटोरियल के लिए बनाए गए प्रोजेक्ट को मिटाना है.
प्रोजेक्ट मिटाने के लिए:
- GCP कंसोल में, प्रोजेक्ट पेज पर जाएं. प्रोजेक्ट पेज पर जाएं
- प्रोजेक्ट की सूची में, वह प्रोजेक्ट चुनें जिसे आपको मिटाना है. इसके बाद, मिटाएं पर क्लिक करें.
- डायलॉग बॉक्स में, प्रोजेक्ट आईडी टाइप करें. इसके बाद, प्रोजेक्ट मिटाने के लिए, शट डाउन करें पर क्लिक करें.
10. बधाई हो
बधाई हो, आपने Cloud Data Fusion का इस्तेमाल करके BigQuery में हेल्थकेयर डेटा डालने के लिए, कोड लैब पूरा कर लिया है.
आपने Google Cloud Storage से BigQuery में CSV डेटा इंपोर्ट किया है.
आपने स्वास्थ्य सेवाओं के डेटा को एक साथ लोड करने, बदलने, और मास्क करने के लिए, डेटा इंटिग्रेशन पाइपलाइन बनाई है.
अब आपको Google Cloud Platform पर, BigQuery के साथ स्वास्थ्य सेवा के डेटा के आंकड़ों को समझने में मदद करने वाले अहम चरणों के बारे में पता है.