Cloud Data Fusion का इस्तेमाल करके BigQuery में CSV डेटा डालें - बैच में डेटा डालना

1. परिचय

12fb66cc134b50ef.png

पिछली बार अपडेट किए जाने की तारीख: 28-02-2020

यह कोडलैब, डेटा डालने का पैटर्न दिखाता है, ताकि CSV फ़ॉर्मैट में स्वास्थ्य सेवा के डेटा को BigQuery में एक साथ डाला जा सके. हम इस लैब के लिए, Cloud Data Fusion Batch Data पाइपलाइन का इस्तेमाल करेंगे. स्वास्थ्य सेवा की असल जांच का डेटा जनरेट किया गया है और उसे आपके लिए Google Cloud Storage बकेट (gs://hcls_testing_data_fhir_10_patients/csv/) में उपलब्ध कराया गया है.

इस कोड लैब में, आपको इनके बारे में जानकारी मिलेगी:

  • Cloud Data Fusion का इस्तेमाल करके, GCS (जीसीएस) से BigQuery में CSV डेटा (बैच के ज़रिए लोड होने वाली प्रोसेस) डालने का तरीका.
  • एक साथ कई स्वास्थ्य सेवाओं के डेटा को लोड करने, बदलने, और मास्क करने के लिए, Cloud Data Fusion में विज़ुअल तौर पर डेटा इंटिग्रेशन की पाइपलाइन बनाने का तरीका.

इस कोडलैब को चलाने के लिए, आपको क्या करना होगा?

  • आपके पास GCP प्रोजेक्ट का ऐक्सेस होना चाहिए.
  • आपको GCP प्रोजेक्ट के लिए मालिक की भूमिका असाइन करनी होगी.
  • हेडर के साथ CSV फ़ॉर्मैट में स्वास्थ्य सेवा का डेटा.

अगर आपके पास GCP प्रोजेक्ट नहीं है, तो नया GCP प्रोजेक्ट बनाने के लिए यह तरीका अपनाएं.

स्वास्थ्य सेवा का डेटा CSV फ़ॉर्मैट में, GCS बकेट में पहले से लोड हो चुका है. इसके लिए, gs://hcls_testing_data_fhir_10_patients/csv/ पर जाएं. हर संसाधन CSV फ़ाइल का अपना स्कीमा स्ट्रक्चर होता है. उदाहरण के लिए, Patients.csv का स्कीमा, provider.csv से अलग है. पहले से लोड की गई स्कीमा फ़ाइलें gs://hcls_testing_data_fhir_10_patients/csv_schemas पर देखी जा सकती हैं.

अगर आपको कोई नया डेटासेट चाहिए, तो उसे कभी भी SyntheaTM का इस्तेमाल करके जनरेट किया जा सकता है. इसके बाद, 'इनपुट डेटा कॉपी करें' चरण में बकेट से कॉपी करने के बजाय, इसे GCS (जीसीएस) पर अपलोड करें.

2. GCP प्रोजेक्ट का सेटअप

अपने एनवायरमेंट के लिए शेल वैरिएबल शुरू करें.

PROJECT_ID ढूंढने के लिए, प्रोजेक्ट की पहचान करना देखें.

<!-- CODELAB: Initialize shell variables ->
<!-- Your current GCP Project ID ->
export PROJECT_ID=<PROJECT_ID>
<!-- A new GCS Bucket in your current Project  - INPUT ->
export BUCKET_NAME=<BUCKET_NAME>
<!-- A new BQ Dataset ID - OUTPUT ->
export DATASET_ID=<DATASET_ID>

gsutil टूल का इस्तेमाल करके, इनपुट डेटा और गड़बड़ी के लॉग स्टोर करने के लिए, GCS बकेट बनाएं.

gsutil mb -l us gs://$BUCKET_NAME

सिंथेटिक डेटासेट का ऐक्सेस पाएं.

  1. Cloud Console में लॉगिन करने के लिए जिस ईमेल पते का इस्तेमाल किया जा रहा है उससे hcls-solutions-external+subscribe@google.com पर ईमेल भेजकर शामिल होने का अनुरोध करें.
  2. आपको एक ईमेल मिलेगा, जिसमें कार्रवाई की पुष्टि करने के निर्देश होंगे. 525a0fa752e0acae.png अभी तक किसी भी व्यक्ति ने चेक इन नहीं किया है
  3. ग्रुप में शामिल होने के लिए, ईमेल का जवाब देने के विकल्प का इस्तेमाल करें. बटन पर क्लिक न करें.
  4. पुष्टि करने वाला ईमेल मिलने के बाद, कोडलैब में अगले चरण पर जाया जा सकता है.

इनपुट डेटा कॉपी करें.

gsutil -m cp -r gs://hcls_testing_data_fhir_10_patients/csv gs://$BUCKET_NAME

BigQuery डेटासेट बनाएं.

bq mk --location=us --dataset $PROJECT_ID:$DATASET_ID

3. Cloud Data Fusion के एनवायरमेंट का सेटअप

Cloud Data Fusion API चालू करने और ज़रूरी अनुमतियां देने के लिए, यह तरीका अपनाएं:

एपीआई चालू करें.

  1. GCP Console API लाइब्रेरी पर जाएं.
  2. प्रोजेक्ट की सूची में से, अपना प्रोजेक्ट चुनें.
  3. एपीआई लाइब्रेरी में जाकर, वह एपीआई चुनें जिसे आपको चालू करना है. अगर आपको एपीआई ढूंढने में मदद चाहिए, तो खोज फ़ील्ड और/या फ़िल्टर का इस्तेमाल करें.
  4. एपीआई पेज पर, 'चालू करें' पर क्लिक करें.

Cloud Data Fusion इंस्टेंस बनाएं.

  1. GCP कंसोल में, अपना ProjectID चुनें.
  2. बाएं मेन्यू से Data Fusion चुनें. इसके बाद, पेज के बीच में मौजूद 'एक इंस्टेंस बनाएं' बटन (पहला क्रिएशन) या सबसे ऊपर मौजूद मेन्यू (अतिरिक्त क्रिएशन) में, 'इंस्टेंस बनाएं' बटन पर क्लिक करें.

a828690ff3bf3c46.png

8372c944c94737ea.png

  1. इंस्टेंस को नाम दें. एंटरप्राइज़ चुनें.

5af91e46917260ff.png

  1. 'बनाएं' बटन पर क्लिक करें.

इंस्टेंस की अनुमतियां सेटअप करना.

इंस्टेंस बनाने के बाद, अपने प्रोजेक्ट पर इंस्टेंस की अनुमतियों से जुड़े सेवा खाते को अनुमति देने के लिए, यह तरीका अपनाएं:

  1. इंस्टेंस के नाम पर क्लिक करके, इंस्टेंस की ज़्यादा जानकारी वाले पेज पर जाएं.

76ad691f795e1ab3.png

  1. सेवा खाते को कॉपी करें.

6c91836afb72209d.png

  1. अपने प्रोजेक्ट के आईएएम पेज पर जाएं.
  2. IAM की अनुमतियों वाले पेज पर, अब हम सेवा खाते को नए सदस्य के तौर पर जोड़ेंगे और उसे Cloud Data Fusion API सर्विस एजेंट की भूमिका देंगे. जोड़ें बटन पर क्लिक करें. इसके बाद, "सेवा खाता" चिपकाएं और नए सदस्य फ़ील्ड में सेवा प्रबंधन चुनें -> Cloud Data Fusion API के सर्वर एजेंट की भूमिका.
  3. ea68b28d917a24b1.png
  4. सेव करें पर क्लिक करें.

ये चरण पूरे होने के बाद, Cloud Data Fusion के इंस्टेंस पेज पर व्यू इंस्टेंस लिंक या किसी इंस्टेंस की ज़्यादा जानकारी वाले पेज पर क्लिक करके, Cloud Data Fusion का इस्तेमाल शुरू किया जा सकता है.

फ़ायरवॉल का नियम सेट अप करें.

  1. GCP कंसोल पर जाएं -> VPC नेटवर्क -> फ़ायरवॉल के नियम, ताकि यह पता लगाया जा सके कि डिफ़ॉल्ट-अनुमति दें-एसएसएच नियम मौजूद है या नहीं.

102adef44bbe3a45.png

  1. अगर ऐसा नहीं है, तो फ़ायरवॉल का नियम जोड़ें. यह नियम सभी इन्ग्रेस डेटा ट्रैफ़िक को डिफ़ॉल्ट नेटवर्क पर ले जाने की अनुमति देता है.

कमांड लाइन का इस्तेमाल करना:

gcloud beta compute --project={PROJECT_ID} firewall-rules create default-allow-ssh --direction=INGRESS --priority=1000 --network=default --action=ALLOW --rules=tcp:22 --source-ranges=0.0.0.0/0 --enable-logging

UI का उपयोग करना: फ़ायरवॉल नियम बनाएं पर क्लिक करें और जानकारी भरें:

d9c69ac10496b3d9.png

2dc4971594b82a1f.png

4. बदलाव के लिए स्कीमा बनाएं

अब GCP में Cloud Fusion का इस्तेमाल करने के बाद, हम स्कीमा बनाते हैं. हमें CSV डेटा में बदलाव करने के लिए इस स्कीमा की ज़रूरत होती है.

  1. Cloud Data Fusion विंडो के 'कार्रवाई' कॉलम में, व्यू इंस्टेंस लिंक पर क्लिक करें. आपको किसी अन्य पेज पर रीडायरेक्ट कर दिया जाएगा. Cloud Data Fusion इंस्टेंस खोलने के लिए दिए गए url पर क्लिक करें. "सफ़र शुरू करें" पर क्लिक करने के लिए आपका चुना गया विकल्प या "नहीं, रहने दें" बटन पर क्लिक करें.
  2. "हैमबर्गर" को बड़ा करें मेन्यू, पाइपलाइन चुनें -> Studio

6561b13f30e36c3a.png

  1. बाईं ओर प्लगिन पैलेट में बदलाव करें सेक्शन के नीचे, Wrangler नोड पर दो बार क्लिक करें, जो Data Pipelines यूज़र इंटरफ़ेस (यूआई) में दिखेगा.

aa44a4db5fe6623a.png

  1. रैंगलर नोड की ओर पॉइंट करें और प्रॉपर्टी पर क्लिक करें. रैंगल बटन पर क्लिक करें. इसके बाद, कोई ऐसी .csv सोर्स फ़ाइल चुनें (जैसे, मरीज़ों.csv) चुनें जिसमें मनचाहा स्कीमा बनाने के लिए, सभी डेटा फ़ील्ड होने चाहिए.
  2. हर कॉलम के नाम (उदाहरण के लिए, बॉडी) के बगल में मौजूद, डाउन ऐरो (कॉलम ट्रांसफ़ॉर्मेशन) पर क्लिक करें. 802edca8a97da18.png
  3. डिफ़ॉल्ट रूप से, शुरुआती इंपोर्ट यह मानेगा कि आपकी डेटा फ़ाइल में सिर्फ़ एक कॉलम है. इसे CSV के तौर पर पार्स करने के लिए, पार्सCSV चुनें. इसके बाद, डीलिमिटर चुनें और "पहली लाइन को हेडर के तौर पर सेट करें" को चुनें बॉक्स पर क्लिक करें. 'लागू करें' बटन पर क्लिक करें.
  4. बॉडी फ़ील्ड के बगल में डाउन ऐरो पर क्लिक करें, मुख्य भाग फ़ील्ड हटाने के लिए कॉलम मिटाएं चुनें. इसके अलावा, आपके पास कॉलम हटाने, कुछ कॉलम के लिए डेटा टाइप बदलने (डिफ़ॉल्ट तौर पर "स्ट्रिंग" टाइप पर होता है), कॉलम को बांटने, कॉलम के नाम सेट करने वगैरह जैसे अन्य ट्रांसफ़ॉर्मेशन ऐक्शन आज़माए जा सकते हैं.

e6d2cda51ff298e7.png

  1. "कॉलम" और "बदलाव के चरण" टैब आउटपुट स्कीमा और Wrangler की रेसिपी दिखाते हैं. सबसे ऊपर दाएं कोने में मौजूद, लागू करें पर क्लिक करें. 'पुष्टि करें' बटन पर क्लिक करें. हरे रंग में "कोई गड़बड़ी नहीं मिली" सफलता को दिखाता है.

1add853c43f2abee.png

  1. अगर ज़रूरी हो, तो आने वाले समय में इंपोर्ट करने के लिए, Wrangler प्रॉपर्टी में, अपनी पसंद के स्कीमा को अपने लोकल स्टोरेज में एक्सपोर्ट करने के लिए, कार्रवाइयां ड्रॉपडाउन पर क्लिक करें.
  2. रैंगलर रेसिपी को आने वाले समय में इस्तेमाल करने के लिए सेव करें.
parse-as-csv :body ',' true
drop body
  1. Wringler प्रॉपर्टी विंडो को बंद करने के लिए, X बटन पर क्लिक करें.

5. पाइपलाइन के लिए नोड बनाना

इस सेक्शन में, हम पाइपलाइन कॉम्पोनेंट बनाएंगे.

  1. Data Pipelines यूज़र इंटरफ़ेस (यूआई) में, ऊपर बाईं ओर, आपको दिखेगा कि डेटा पाइपलाइन - बैच को पाइपलाइन टाइप के तौर पर चुना गया है.

af67c42ce3d98529.png

  1. बाएं पैनल में फ़िल्टर, सोर्स, ट्रांसफ़ॉर्म, Analytics, सिंक, शर्तें और कार्रवाइयां, गड़बड़ी हैंडलर और अलर्ट के तौर पर अलग-अलग सेक्शन होते हैं. यहां से पाइपलाइन के लिए किसी नोड या नोड को चुना जा सकता है.

c4438f7682f8b19b.png

सोर्स नोड

  1. सोर्स नोड चुनें.
  2. बाईं ओर प्लगिन पैलेट के सोर्स सेक्शन में जाकर, Data Pipelines यूज़र इंटरफ़ेस (यूआई) में दिखने वाले Google Cloud Storage नोड पर दो बार क्लिक करें.
  3. GCS (जीसीएस) सोर्स नोड की ओर पॉइंट करें और प्रॉपर्टी पर क्लिक करें.

87e51a3e8dae8b3f.png

  1. ज़रूरी फ़ील्ड में जानकारी भरें. इन फ़ील्ड को सेट करें:
  • लेबल = {any text}
  • रेफ़रंस का नाम = {any text}
  • प्रोजेक्ट आईडी = अपने-आप पता लगाएं
  • पाथ = आपके मौजूदा प्रोजेक्ट में बकेट का GCS यूआरएल. उदाहरण के लिए, gs://$BUCKET_NAME/csv/
  • फ़ॉर्मैट = टेक्स्ट
  • पाथ फ़ील्ड = फ़ाइल नाम
  • सिर्फ़ पाथ फ़ाइल का नाम = सही
  • फ़ाइलों को बार-बार पढ़ना = सही
  1. ‘फ़ाइल का नाम' फ़ील्ड जोड़ें + बटन पर क्लिक करके GCS आउटपुट स्कीमा में बदल जाएगा.
  2. पूरी जानकारी के लिए दस्तावेज़ पर क्लिक करें. 'पुष्टि करें' बटन पर क्लिक करें. हरे रंग में "कोई गड़बड़ी नहीं मिली" सफलता को दिखाता है.
  3. GCS प्रॉपर्टी बंद करने के लिए, X बटन पर क्लिक करें.

नोड बदलें

  1. ट्रांसफ़ॉर्म नोड चुनें.
  2. बाईं ओर प्लगिन पैलेट में बदलाव करें सेक्शन के नीचे, Data Pipelines यूज़र इंटरफ़ेस (यूआई) में दिखने वाले Wrangler नोड पर दो बार क्लिक करें. GCS स्रोत नोड को Wrangler ट्रांसफ़ॉर्म नोड से कनेक्ट करें.
  3. रैंगलर नोड की ओर पॉइंट करें और प्रॉपर्टी पर क्लिक करें.
  4. सेव किया गया स्कीमा इंपोर्ट करने के लिए, कार्रवाइयां ड्रॉप-डाउन पर क्लिक करें और इंपोर्ट करें चुनें. उदाहरण के लिए: gs://hcls_testing_data_fhir_10_patients/csv_schemas/ schema (Patients.json) और पिछले सेक्शन में सेव की गई रेसिपी को चिपकाएं.
  5. इसके अलावा, सेक्शन से Wrangler नोड का फिर से इस्तेमाल करें: Wrangler.
  6. ज़रूरी फ़ील्ड में जानकारी भरें. इन फ़ील्ड को सेट करें:
  • लेबल = {any text}
  • इनपुट फ़ील्ड का नाम = {*}
  • पहले से तय की गई स्थिति = {filename != "patients.csv"}, ताकि हर इनपुट फ़ाइल को सोर्स नोड से अलग किया जा सके (उदाहरण के लिए, मरीज़.csv, provider.csv, allergies.csv वगैरह.).

2426f8f0a6c4c670.png

  1. उपयोगकर्ता से मिले JavaScript को लागू करने के लिए JavaScript नोड जोड़ें. यह रिकॉर्ड रिकॉर्ड में बदलाव करता है. इस कोडलैब में, हम हर रिकॉर्ड अपडेट का टाइमस्टैंप पाने के लिए JavaScript नोड का इस्तेमाल करते हैं. Wrangler ट्रांसफ़ॉर्म नोड को JavaScript ट्रांसफ़ॉर्म नोड से कनेक्ट करें. JavaScript Properties खोलें और नीचे दिया गया फ़ंक्शन जोड़ें:

75212f9ad98265a8.png

function transform(input, emitter, context) {
  input.TIMESTAMP = (new Date()).getTime()*1000;
  emitter.emit(input);
}
  1. + चिह्न पर क्लिक करके आउटपुट स्कीमा में TIMESTAMP नाम का फ़ील्ड (अगर वह मौजूद न हो) जोड़ें. डेटा टाइप के तौर पर टाइमस्टैंप चुनें.

4227389b57661135.png

  1. ज़्यादा जानकारी के लिए, दस्तावेज़ पर क्लिक करें. सभी इनपुट जानकारी की पुष्टि करने के लिए, 'पुष्टि करें' बटन पर क्लिक करें. हरा "कोई गड़बड़ी नहीं मिली" सफलता को दिखाता है.
  2. 'प्रॉपर्टी को बदलें' विंडो को बंद करने के लिए, X बटन पर क्लिक करें.

डेटा मास्क करना और पहचान से जुड़ी जानकारी हटाना

  1. अपनी ज़रूरत के हिसाब से, डाउन ऐरो पर क्लिक करके और मास्क करने के नियम लागू करके, अलग-अलग डेटा कॉलम चुने जा सकते हैं. उदाहरण के लिए, SSN कॉलम.

bb1eb067dd6e0946.png

  1. Rrangler नोड की रेसिपी विंडो में, ज़्यादा निर्देश जोड़े जा सकते हैं. उदाहरण के लिए, पहचान से जुड़ी जानकारी हटाने के लिए, इस सिंटैक्स का इस्तेमाल करके हैशिंग एल्गोरिदम के साथ हैश डायरेक्टिव का इस्तेमाल करना:
hash <column> <algorithm> <encode>

<column>: name of the column
<algorithm>: Hashing algorithm (i.e. MD5, SHA-1, etc.)
<encode>: default is true (hashed digest is encoded as hex with left-padding zeros). To disable hex encoding, set <encode> to false.

cbcc9a0932f53197.png

सिंक नोड

  1. सिंक नोड चुनें.
  2. बाईं ओर प्लगिन पैलेट के सिंक सेक्शन में, BigQuery नोड पर दो बार क्लिक करें. यह डेटा पाइपलाइन के यूज़र इंटरफ़ेस (यूआई) में दिखेगा.
  3. BigQuery सिंक नोड की ओर पॉइंट करें और प्रॉपर्टी पर क्लिक करें.

1be711152c92c692.png

  1. ज़रूरी फ़ील्ड में वैल्यू डालें. इन फ़ील्ड को सेट करें:
  • लेबल = {any text}
  • रेफ़रंस का नाम = {any text}
  • प्रोजेक्ट आईडी = अपने-आप पता लगाएं
  • डेटासेट = मौजूदा प्रोजेक्ट में इस्तेमाल किया गया BigQuery डेटासेट (उदाहरण के लिए, DATASET_ID)
  • टेबल = {table name}
  1. ज़्यादा जानकारी के लिए, दस्तावेज़ पर क्लिक करें. सभी इनपुट जानकारी की पुष्टि करने के लिए, 'पुष्टि करें' बटन पर क्लिक करें. हरा "कोई गड़बड़ी नहीं मिली" सफलता को दिखाता है.

c5585747da2ef341.png

  1. BigQuery प्रॉपर्टी बंद करने के लिए, X बटन पर क्लिक करें.

6. बैच डेटा पाइपलाइन बनाएं

सभी नोड को पाइपलाइन में कनेक्ट करना

  1. कनेक्शन ऐरो को खींचें और छोड़ें > स्रोत नोड के दाएं किनारे पर और गंतव्य नोड के बाएं किनारे पर छोड़ें.
  2. किसी पाइपलाइन में कई ब्रांच हो सकती हैं, जिन्हें एक ही GCS सोर्स नोड से इनपुट फ़ाइलें मिलती हैं.

67510ab46bd44d36.png

  1. पाइपलाइन को नाम दें.

हो गया. आपने अभी-अभी अपनी पहली Batch डेटा पाइपलाइन बनाई है और आप पाइपलाइन को डिप्लॉय कर सकते हैं और उसे चला सकते हैं.

ईमेल से पाइपलाइन की सूचनाएं भेजें (ज़रूरी नहीं)

पाइपलाइन अलर्ट SendEmail सुविधा का इस्तेमाल करने के लिए, कॉन्फ़िगरेशन में मेल सर्वर सेट अप करना ज़रूरी है, ताकि वर्चुअल मशीन इंस्टेंस से मेल भेजा जा सके. ज़्यादा जानकारी के लिए, नीचे दिया गया रेफ़रंस लिंक देखें:

किसी इंस्टेंस से ईमेल भेजना | Compute Engine के दस्तावेज़

इस कोडलैब में, हम नीचे दिए गए तरीके का इस्तेमाल करके, Mailgun से मेल रिले सेवा को सेट अप करते हैं:

  1. Mailgun से ईमेल भेजना | पर दिए गए निर्देशों का पालन करें Compute Engine दस्तावेज़ का इस्तेमाल करके, Mailgun के साथ किसी खाते को सेट अप किया जा सकता है. साथ ही, ईमेल रिले सेवा को कॉन्फ़िगर किया जा सकता है. अतिरिक्त बदलावों के बारे में नीचे बताया गया है.
  2. ईमेल पाने वाले सभी लोगों को जोड़ें के ईमेल पते भेज सकते हैं. यह सूची, बाएं पैनल में Mailgun>Sending>खास जानकारी वाले विकल्प में देखी जा सकती है.

7e6224cced3fa4e0.png fa78739f1ddf2dc2.png

पाने वाले व्यक्ति ने "मैं सहमत हूं" पर क्लिक करने के बाद support@mailgun.net से भेजे गए ईमेल पते पर, उनके ईमेल पते अनुमति वाली सूची में सेव कर लिए जाते हैं, ताकि पाइपलाइन से जुड़ी चेतावनी वाले ईमेल मिल सकें.

72847c97fd5fce0f.png

  1. "शुरू करने से पहले" सेक्शन का तीसरा चरण सेक्शन - फ़ायरवॉल का नियम इस तरह बनाएँ:

75b063c165091912.png

  1. "पोस्टफ़िक्स के साथ मेल रिले के तौर पर मेलगन को कॉन्फ़िगर करना" का तीसरा चरण. निर्देशों में बताए गए के मुताबिक सिर्फ़ लोकल के बजाय इंटरनेट साइट या स्मार्टहोस्ट के साथ इंटरनेट चुनें.

8fd8474a4ef18f16.png

  1. "पोस्टफ़िक्स के साथ मेल रिले के तौर पर मेलगन को कॉन्फ़िगर करना" का चौथा चरण. mynetworks के आखिर में 10.128.0.0 /9 जोड़ने के लिए, vi/etc/postfix/main.cf में बदलाव करें.

249fbf3edeff1ce8.png

  1. डिफ़ॉल्ट smtp (25) को पोर्ट 587 में बदलने के लिए, vi /etc/postfix/Master.cf में बदलाव करें.

86c82cf48c687e72.png

  1. Data Fusion Studio के ऊपरी दाएं कोने में, कॉन्फ़िगर करें पर क्लिक करें. पाइपलाइन अलर्ट पर क्लिक करें और अलर्ट विंडो खोलने के लिए + बटन पर क्लिक करें. SendEmail को चुनें.

dc079a91f1b0da68.png

  1. ईमेल कॉन्फ़िगरेशन फ़ॉर्म भरें. हर तरह की सूचना के लिए, रन की स्थिति वाले ड्रॉपडाउन में जाकर, पूरा हुआ, पूरा हुआ या फ़ेल चुनें. अगर वर्कफ़्लो टोकन शामिल करें = गलत है, तो सिर्फ़ मैसेज फ़ील्ड से जानकारी भेजी जाती है. अगर Include Workflow Token = true है, तो मैसेज फ़ील्ड और वर्कफ़्लो टोकन की पूरी जानकारी दिखती है. आपको प्रोटोकॉल के लिए, लोअरकेस का इस्तेमाल करना होगा. किसी "नकली" का इस्तेमाल करें भेजने वाले के लिए, आपकी कंपनी के ईमेल पते के अलावा कोई दूसरा ईमेल पता.

1fa619b6ce28f5e5.png

7. पाइपलाइन को कॉन्फ़िगर, डिप्लॉय, रन/शेड्यूल करें

db612e62a1c7ab7e.png

  1. Data Fusion Studio के ऊपरी दाएं कोने में, कॉन्फ़िगर करें पर क्लिक करें. इंजन कॉन्फ़िगरेशन के लिए स्पार्क चुनें. 'कॉन्फ़िगर करें' विंडो में, 'सेव करें' पर क्लिक करें.

8ecf7c243c125882.png

  1. डेटा की झलक देखने के लिए, झलक देखें पर क्लिक करें**. इसके बाद, पिछली विंडो पर टॉगल करने के लिए **झलक देखें** पर फिर से क्लिक करें. झलक मोड में भी पाइपलाइन को **चला** किया जा सकता है.

b3c891e5e1aa20ae.png

  1. लॉग देखने के लिए, लॉग पर क्लिक करें.
  2. सभी बदलावों को सेव करने के लिए, सेव करें पर क्लिक करें.
  3. नई पाइपलाइन बनाते समय, सेव किए गए पाइपलाइन कॉन्फ़िगरेशन को इंपोर्ट करने के लिए, इंपोर्ट करें पर क्लिक करें.
  4. पाइपलाइन कॉन्फ़िगरेशन को एक्सपोर्ट करने के लिए, एक्सपोर्ट करें पर क्लिक करें.
  5. पाइपलाइन को डिप्लॉय करने के लिए, डिप्लॉय करें पर क्लिक करें.
  6. डिप्लॉयमेंट के बाद, Run पर क्लिक करें. इसके बाद, पाइपलाइन के पूरा होने का इंतज़ार करें.

bb06001d46a293db.png

  1. कार्रवाइयां बटन के तहत डुप्लीकेट चुनकर पाइपलाइन की कॉपी बनाई जा सकती है.
  2. कार्रवाइयां बटन के नीचे 'एक्सपोर्ट करें' चुनकर, पाइपलाइन कॉन्फ़िगरेशन को एक्सपोर्ट किया जा सकता है.
  3. ज़रूरत पड़ने पर, पाइपलाइन ट्रिगर सेट करने के लिए, Studio विंडो के बाएं या दाएं किनारे पर मौजूद, इनबाउंड ट्रिगर या आउटबाउंड ट्रिगर पर क्लिक करें.
  4. पाइपलाइन को समय-समय पर चलाने और लोड करने के लिए, शेड्यूल करें पर क्लिक करें.

4167fa67550a49d5.png

  1. खास जानकारी में, दौड़ने के इतिहास, रिकॉर्ड, गड़बड़ी के लॉग, और चेतावनियों के चार्ट दिखते हैं.

8. पुष्टि

  1. 'पुष्टि' पाइपलाइन चलाई गई.

7dee6e662c323f14.png

  1. पुष्टि करें कि BigQuery डेटासेट में सभी टेबल हैं या नहीं.
bq ls $PROJECT_ID:$DATASET_ID
     tableId       Type    Labels   Time Partitioning
----------------- ------- -------- -------------------
 Allergies         TABLE
 Careplans         TABLE
 Conditions        TABLE
 Encounters        TABLE
 Imaging_Studies   TABLE
 Immunizations     TABLE
 Medications       TABLE
 Observations      TABLE
 Organizations     TABLE
 Patients          TABLE
 Procedures        TABLE
 Providers         TABLE
  1. सूचना वाले ईमेल पाएं (अगर कॉन्फ़िगर किया गया है).

नतीजे देखना

पाइपलाइन के चलने के बाद नतीजे देखने के लिए:

  1. BigQuery यूज़र इंटरफ़ेस (यूआई) में टेबल पर क्वेरी करें. BIGQUERY के यूज़र इंटरफ़ेस (यूआई) पर जाएं
  2. नीचे दी गई क्वेरी को अपने प्रोजेक्ट के नाम, डेटासेट, और टेबल में अपडेट करें.

e32bfd5d965a117f.png

9. साफ़ किया जा रहा है

इस ट्यूटोरियल में इस्तेमाल किए गए संसाधनों के लिए, आपके Google Cloud Platform खाते पर लगने वाले शुल्क से बचने के लिए:

ट्यूटोरियल खत्म करने के बाद, GCP पर बनाए गए संसाधनों को खाली किया जा सकता है. इससे, वे आपका कोटा इस्तेमाल नहीं करेंगे और आने वाले समय में आपको उनके लिए कोई बिल नहीं भेजा जाएगा. इन संसाधनों को मिटाने या बंद करने का तरीका नीचे सेक्शन में बताया गया है.

BigQuery डेटासेट को मिटाना

इस ट्यूटोरियल के हिस्से के तौर पर बनाए गए BigQuery डेटासेट को मिटाने के लिए, इन निर्देशों का पालन करें.

GCS बकेट को मिटाना

इस ट्यूटोरियल के हिस्से के तौर पर बनाए गए GCS बकेट को मिटाने के लिए, इन निर्देशों का पालन करें.

Cloud Data Fusion के इंस्टेंस को मिटाना

अपने Cloud Data Fusion इंस्टेंस को मिटाने के लिए, इन निर्देशों का पालन करें.

प्रोजेक्ट को मिटाना

बिलिंग हटाने का सबसे आसान तरीका, ट्यूटोरियल के लिए बनाए गए प्रोजेक्ट को मिटाना है.

प्रोजेक्ट मिटाने के लिए:

  1. GCP कंसोल में, प्रोजेक्ट पेज पर जाएं. प्रोजेक्ट पेज पर जाएं
  2. प्रोजेक्ट की सूची में, वह प्रोजेक्ट चुनें जिसे आपको मिटाना है. इसके बाद, मिटाएं पर क्लिक करें.
  3. डायलॉग बॉक्स में, प्रोजेक्ट आईडी टाइप करें. इसके बाद, प्रोजेक्ट मिटाने के लिए, शट डाउन करें पर क्लिक करें.

10. बधाई हो

बधाई हो, आपने Cloud Data Fusion का इस्तेमाल करके BigQuery में हेल्थकेयर डेटा डालने के लिए, कोड लैब पूरा कर लिया है.

आपने Google Cloud Storage से BigQuery में CSV डेटा इंपोर्ट किया है.

आपने स्वास्थ्य सेवाओं के डेटा को एक साथ लोड करने, बदलने, और मास्क करने के लिए, डेटा इंटिग्रेशन पाइपलाइन बनाई है.

अब आपको Google Cloud Platform पर, BigQuery के साथ स्वास्थ्य सेवा के डेटा के आंकड़ों को समझने में मदद करने वाले अहम चरणों के बारे में पता है.