Cloud Data Fusion का इस्तेमाल करके BigQuery में CSV डेटा डालें - बैच में डेटा डालना

1. परिचय

12fb66cc134b50ef.png

Last Updated: 2020-02-28

इस कोडलैब में, CSV फ़ॉर्मैट वाले स्वास्थ्य सेवा से जुड़े डेटा को BigQuery में एक साथ कई फ़ाइलें अपलोड करके इंपोर्ट करने का तरीका बताया गया है. हम इस लैब के लिए, Cloud Data Fusion की बैच डेटा पाइपलाइन का इस्तेमाल करेंगे. आपके लिए, स्वास्थ्य सेवा से जुड़ा टेस्ट डेटा जनरेट किया गया है. इसे Google Cloud Storage बकेट (gs://hcls_testing_data_fhir_10_patients/csv/) में उपलब्ध कराया गया है.

इस कोड लैब में आपको इनके बारे में जानकारी मिलेगी:

  • Cloud Data Fusion का इस्तेमाल करके, GCS से BigQuery में CSV डेटा (बैच-शेड्यूल की गई लोडिंग) को इंपोर्ट करने का तरीका.
  • Cloud Data Fusion में, एक साथ कई हेल्थकेयर डेटा को लोड करने, ट्रांसफ़ॉर्म करने, और मास्क करने के लिए, डेटा इंटिग्रेशन पाइपलाइन को विज़ुअली बनाने का तरीका.

इस कोडलैब को चलाने के लिए, आपको किन चीज़ों की ज़रूरत होगी?

  • आपके पास GCP प्रोजेक्ट का ऐक्सेस होना चाहिए.
  • आपको GCP प्रोजेक्ट के लिए, मालिक की भूमिका असाइन की गई हो.
  • CSV फ़ॉर्मैट में स्वास्थ्य से जुड़ा डेटा. इसमें हेडर भी शामिल है.

अगर आपके पास GCP प्रोजेक्ट नहीं है, तो नया GCP प्रोजेक्ट बनाने के लिए यह तरीका अपनाएं.

CSV फ़ॉर्मैट में मौजूद स्वास्थ्य सेवा से जुड़ा डेटा, GCS बकेट में पहले से लोड किया गया है. यह gs://hcls_testing_data_fhir_10_patients/csv/ पर मौजूद है. हर संसाधन की CSV फ़ाइल का स्कीमा स्ट्रक्चर अलग होता है. उदाहरण के लिए, Patients.csv का स्कीमा, Providers.csv से अलग है. पहले से लोड की गई स्कीमा फ़ाइलें, gs://hcls_testing_data_fhir_10_patients/csv_schemas पर मिल सकती हैं.

अगर आपको नए डेटासेट की ज़रूरत है, तो SyntheaTM का इस्तेमाल करके इसे जनरेट किया जा सकता है. इसके बाद, कॉपी इनपुट डेटा वाले चरण में बकेट से कॉपी करने के बजाय, इसे GCS पर अपलोड करें.

2. GCP प्रोजेक्ट सेट अप करना

अपने एनवायरमेंट के लिए शेल वैरिएबल शुरू करें.

PROJECT_ID ढूंढने के लिए, प्रोजेक्ट की पहचान करना लेख पढ़ें.

<!-- CODELAB: Initialize shell variables ->
<!-- Your current GCP Project ID ->
export PROJECT_ID=<PROJECT_ID>
<!-- A new GCS Bucket in your current Project  - INPUT ->
export BUCKET_NAME=<BUCKET_NAME>
<!-- A new BQ Dataset ID - OUTPUT ->
export DATASET_ID=<DATASET_ID>

इनपुट डेटा और गड़बड़ी के लॉग सेव करने के लिए, gsutil टूल का इस्तेमाल करके GCS बकेट बनाएं.

gsutil mb -l us gs://$BUCKET_NAME

सिंथेटिक डेटासेट का ऐक्सेस पाएं.

  1. Cloud Console में लॉग इन करने के लिए इस्तेमाल किए जा रहे ईमेल पते से, hcls-solutions-external+subscribe@google.com पर शामिल होने का अनुरोध करने वाला ईमेल भेजें.
  2. आपको एक ईमेल मिलेगा, जिसमें कार्रवाई की पुष्टि करने के निर्देश होंगे. 525a0fa752e0acae.png
  3. ग्रुप में शामिल होने के लिए, ईमेल का जवाब देने वाले विकल्प का इस्तेमाल करें. बटन पर क्लिक न करें.
  4. पुष्टि करने वाला ईमेल मिलने के बाद, कोडलैब के अगले चरण पर जाएं.

इनपुट डेटा कॉपी करें.

gsutil -m cp -r gs://hcls_testing_data_fhir_10_patients/csv gs://$BUCKET_NAME

BigQuery डेटासेट बनाएं.

bq mk --location=us --dataset $PROJECT_ID:$DATASET_ID

3. Cloud Data Fusion एनवायरमेंट सेटअप करना

Cloud Data Fusion API चालू करने और ज़रूरी अनुमतियां देने के लिए, यह तरीका अपनाएं:

एपीआई चालू करें.

  1. GCP Console API Library पर जाएं.
  2. प्रोजेक्ट की सूची में से, अपना प्रोजेक्ट चुनें.
  3. एपीआई लाइब्रेरी में जाकर, वह एपीआई चुनें जिसे चालू करना है. अगर आपको एपीआई ढूंढने में मदद चाहिए, तो खोज फ़ील्ड और/या फ़िल्टर का इस्तेमाल करें.
  4. एपीआई पेज पर, चालू करें पर क्लिक करें.

Cloud Data Fusion इंस्टेंस बनाएं.

  1. GCP Console में, अपना ProjectID चुनें.
  2. बाईं ओर मौजूद मेन्यू में से, डेटा फ़्यूज़न चुनें. इसके बाद, पेज के बीच में मौजूद 'एक इंस्टेंस बनाएं' बटन पर क्लिक करें (पहली बार बनाने के लिए) या सबसे ऊपर मौजूद मेन्यू में मौजूद 'इंस्टेंस बनाएं' बटन पर क्लिक करें (अतिरिक्त इंस्टेंस बनाने के लिए).

a828690ff3bf3c46.png

8372c944c94737ea.png

  1. उदाहरण का नाम डालें. Enterprise चुनें.

5af91e46917260ff.png

  1. CREATE बटन पर क्लिक करें.

इंस्टेंस के लिए अनुमतियां सेट अप करें.

कोई इंस्टेंस बनाने के बाद, उससे जुड़े सेवा खाते को अपने प्रोजेक्ट पर अनुमतियां देने के लिए, यह तरीका अपनाएं:

  1. उदाहरण के नाम पर क्लिक करके, उदाहरण की ज़्यादा जानकारी वाले पेज पर जाएं.

76ad691f795e1ab3.png

  1. सेवा खाते को कॉपी करें.

6c91836afb72209d.png

  1. अपने प्रोजेक्ट के IAM पेज पर जाएं.
  2. अब हम आईएएम अनुमतियों वाले पेज पर, सेवा खाते को नए सदस्य के तौर पर जोड़ेंगे. साथ ही, उसे Cloud Data Fusion API सर्विस एजेंट की भूमिका असाइन करेंगे. जोड़ें बटन पर क्लिक करें. इसके बाद, "सेवा खाता" को नए सदस्यों वाले फ़ील्ड में चिपकाएँ और सेवा मैनेजमेंट -> Cloud Data Fusion API सर्वर एजेंट की भूमिका चुनें.
  3. ea68b28d917a24b1.png
  4. सेव करें पर क्लिक करें.

इन चरणों को पूरा करने के बाद, Cloud Data Fusion का इस्तेमाल शुरू किया जा सकता है. इसके लिए, Cloud Data Fusion इंस्टेंस पेज पर मौजूद इंस्टेंस देखें लिंक पर क्लिक करें. इसके अलावा, किसी इंस्टेंस के जानकारी वाले पेज पर जाकर भी Cloud Data Fusion का इस्तेमाल शुरू किया जा सकता है.

फ़ायरवॉल का नियम सेट अप करें.

  1. GCP Console -> वीपीसी नेटवर्क -> फ़ायरवॉल के नियम पर जाएं. इससे यह पता चलेगा कि डिफ़ॉल्ट रूप से एसएसएच की अनुमति देने वाला नियम मौजूद है या नहीं.

102adef44bbe3a45.png

  1. अगर ऐसा नहीं है, तो फ़ायरवॉल का ऐसा नियम जोड़ें जो डिफ़ॉल्ट नेटवर्क पर आने वाले सभी एसएसएच ट्रैफ़िक को अनुमति दे.

कमांड लाइन का इस्तेमाल करके:

gcloud beta compute --project={PROJECT_ID} firewall-rules create default-allow-ssh --direction=INGRESS --priority=1000 --network=default --action=ALLOW --rules=tcp:22 --source-ranges=0.0.0.0/0 --enable-logging

यूज़र इंटरफ़ेस (यूआई) का इस्तेमाल करके: फ़ायरवॉल का नियम बनाएं पर क्लिक करें और यह जानकारी भरें:

d9c69ac10496b3d9.png

2dc4971594b82a1f.png

4. बदलाव के लिए स्कीमा बनाना

अब हमारे पास GCP में Cloud Fusion एनवायरमेंट है. इसलिए, आइए एक स्कीमा बनाते हैं. हमें CSV डेटा को बदलने के लिए, इस स्कीमा की ज़रूरत होती है.

  1. Cloud Data Fusion विंडो में, कार्रवाई कॉलम में मौजूद 'व्यू इंस्टेंस' लिंक पर क्लिक करें. आपको दूसरे पेज पर रीडायरेक्ट कर दिया जाएगा. Cloud Data Fusion इंस्टेंस खोलने के लिए, दिए गए यूआरएल पर क्लिक करें. वेलकम पॉपअप में, "टूर शुरू करें" या "नहीं, धन्यवाद" बटन पर क्लिक करने का विकल्प.
  2. "हैमबर्गर" मेन्यू को बड़ा करें. इसके बाद, Pipeline -> Studio चुनें

6561b13f30e36c3a.png

  1. बाईं ओर मौजूद प्लगिन पैलेट के 'बदलें' सेक्शन में जाकर, Wrangler नोड पर दो बार क्लिक करें. यह नोड, डेटा पाइपलाइन के यूज़र इंटरफ़ेस (यूआई) में दिखेगा.

aa44a4db5fe6623a.png

  1. Wrangler नोड पर कर्सर ले जाएं और Properties पर क्लिक करें. डेटा तैयार करें बटन पर क्लिक करें. इसके बाद, .csv फ़ॉर्मैट वाली कोई सोर्स फ़ाइल चुनें. उदाहरण के लिए, patients.csv. इसमें, मनचाहा स्कीमा बनाने के लिए सभी डेटा फ़ील्ड होने चाहिए.
  2. हर कॉलम के नाम (उदाहरण के लिए, बॉडी) के बगल में मौजूद, डाउन ऐरो (कॉलम ट्रांसफ़ॉर्मेशन) पर क्लिक करें. 802edca8a97da18.png
  3. डिफ़ॉल्ट रूप से, शुरुआती इंपोर्ट में यह मान लिया जाएगा कि आपकी डेटा फ़ाइल में सिर्फ़ एक कॉलम है. इसे CSV के तौर पर पार्स करने के लिए, पार्स करेंCSV चुनें. इसके बाद, डीलिमिटर चुनें और "पहली लाइन को हेडर के तौर पर सेट करें" बॉक्स को ज़रूरत के हिसाब से चुनें. 'लागू करें' बटन पर क्लिक करें.
  4. बॉडी फ़ील्ड के बगल में मौजूद डाउन ऐरो पर क्लिक करें. इसके बाद, बॉडी फ़ील्ड को हटाने के लिए, कॉलम मिटाएं को चुनें. इसके अलावा, कॉलम हटाने, कुछ कॉलम के लिए डेटा टाइप बदलने (डिफ़ॉल्ट रूप से "स्ट्रिंग" टाइप होता है), कॉलम को बांटने, कॉलम के नाम सेट करने जैसे अन्य बदलाव भी किए जा सकते हैं.

e6d2cda51ff298e7.png

  1. "कॉलम" और "ट्रांसफ़ॉर्मेशन के चरण" टैब में, आउटपुट स्कीमा और Wrangler की रेसिपी दिखती है. सबसे ऊपर दाएं कोने में मौजूद, लागू करें पर क्लिक करें. 'पुष्टि करें' बटन पर क्लिक करें. हरे रंग में "कोई गड़बड़ी नहीं मिली" मैसेज का मतलब है कि जांच पूरी हो गई है.

1add853c43f2abee.png

  1. Wrangler Properties में, कार्रवाइयां ड्रॉपडाउन पर क्लिक करें. इसके बाद, ज़रूरत पड़ने पर, आने वाले समय में इंपोर्ट करने के लिए, अपने लोकल स्टोरेज में पसंद के स्कीमा को एक्सपोर्ट करें.
  2. Wrangler Recipe को आगे इस्तेमाल करने के लिए सेव करें.
parse-as-csv :body ',' true
drop body
  1. Wrangler Properties विंडो बंद करने के लिए, X बटन पर क्लिक करें.

5. पाइपलाइन के लिए नोड बनाना

इस सेक्शन में, हम पाइपलाइन कॉम्पोनेंट बनाएंगे.

  1. डेटा पाइपलाइन के यूज़र इंटरफ़ेस (यूआई) में, सबसे ऊपर बाईं ओर आपको दिखेगा कि पाइपलाइन के टाइप के तौर पर डेटा पाइपलाइन - बैच चुना गया है.

af67c42ce3d98529.png

  1. बाएं पैनल में अलग-अलग सेक्शन होते हैं, जैसे कि फ़िल्टर, सोर्स, ट्रांसफ़ॉर्म, Analytics, सिंक, शर्तें और कार्रवाइयां, गड़बड़ी ठीक करने वाले टूल, और सूचनाएं. इनमें से किसी एक सेक्शन में जाकर, पाइपलाइन के लिए एक या उससे ज़्यादा नोड चुने जा सकते हैं.

c4438f7682f8b19b.png

सोर्स नोड

  1. सोर्स नोड चुनें.
  2. बाईं ओर मौजूद प्लगिन पैलेट में, सोर्स सेक्शन में जाकर Google Cloud Storage नोड पर दो बार क्लिक करें. यह नोड, डेटा पाइपलाइन के यूज़र इंटरफ़ेस (यूआई) में दिखता है.
  3. GCS सोर्स नोड पर कर्सर ले जाएं और प्रॉपर्टी पर क्लिक करें.

87e51a3e8dae8b3f.png

  1. ज़रूरी फ़ील्ड में जानकारी भरें. यहां दिए गए फ़ील्ड सेट करें:
  • Label = {any text}
  • रेफ़रंस नाम = {कोई भी टेक्स्ट}
  • प्रोजेक्ट आईडी = अपने-आप पता लगाएं
  • पाथ = आपके मौजूदा प्रोजेक्ट में बकेट का GCS यूआरएल. उदाहरण के लिए, gs://$BUCKET_NAME/csv/
  • Format = text
  • पाथ फ़ील्ड = फ़ाइल का नाम
  • Path Filename Only = true
  • Read Files Recursively = true
  1. + बटन पर क्लिक करके, GCS आउटपुट स्कीमा में ‘filename' फ़ील्ड जोड़ें.
  2. ज़्यादा जानकारी के लिए, दस्तावेज़ पर क्लिक करें. 'पुष्टि करें' बटन पर क्लिक करें. हरे रंग में "कोई गड़बड़ी नहीं मिली" मैसेज का मतलब है कि जांच पूरी हो गई है.
  3. GCS प्रॉपर्टी बंद करने के लिए, X बटन पर क्लिक करें.

नोड में बदलाव करना

  1. ट्रांसफ़ॉर्म नोड चुनें.
  2. बाईं ओर मौजूद प्लगिन पैलेट में, ट्रांसफ़ॉर्म सेक्शन में जाकर, Wrangler नोड पर दो बार क्लिक करें. यह नोड, डेटा पाइपलाइन के यूज़र इंटरफ़ेस (यूआई) में दिखता है. GCS सोर्स नोड को Wrangler ट्रांसफ़ॉर्म नोड से कनेक्ट करें.
  3. Wrangler नोड पर कर्सर ले जाएं और Properties पर क्लिक करें.
  4. सेव किए गए स्कीमा को इंपोर्ट करने के लिए, कार्रवाइयां ड्रॉप-डाउन पर क्लिक करें और इंपोर्ट करें को चुनें. उदाहरण के लिए: gs://hcls_testing_data_fhir_10_patients/csv_schemas/ schema (Patients).json. इसके बाद, पिछले सेक्शन से सेव की गई रेसिपी को चिपकाएं.
  5. इसके अलावा, डेटा ट्रांसफ़ॉर्मेशन के लिए स्कीमा बनाना सेक्शन में मौजूद Wrangler नोड का फिर से इस्तेमाल करें.
  6. ज़रूरी फ़ील्ड में जानकारी भरें. यहां दिए गए फ़ील्ड सेट करें:
  • Label = {any text}
  • Input field name = {*}
  • Precondition = {filename != "patients.csv"} का इस्तेमाल, हर इनपुट फ़ाइल (उदाहरण के लिए, patients.csv, providers.csv, allergies.csv वगैरह) को सोर्स नोड से अलग करने के लिए किया जाता है.

2426f8f0a6c4c670.png

  1. उपयोगकर्ता से मिले JavaScript को लागू करने के लिए, JavaScript नोड जोड़ें. इससे रिकॉर्ड में और बदलाव किया जा सकेगा. इस कोडलैब में, हम हर रिकॉर्ड अपडेट के लिए टाइमस्टैंप पाने के लिए, JavaScript नोड का इस्तेमाल करते हैं. Wrangler ट्रांसफ़ॉर्म नोड को JavaScript ट्रांसफ़ॉर्म नोड से कनेक्ट करें. JavaScript Properties खोलें और यह फ़ंक्शन जोड़ें:

75212f9ad98265a8.png

function transform(input, emitter, context) {
  input.TIMESTAMP = (new Date()).getTime()*1000;
  emitter.emit(input);
}
  1. अगर आउटपुट स्कीमा में TIMESTAMP नाम का फ़ील्ड मौजूद नहीं है, तो + चिह्न पर क्लिक करके उसे जोड़ें. डेटा टाइप के तौर पर टाइमस्टैंप चुनें.

4227389b57661135.png

  1. ज़्यादा जानकारी के लिए, दस्तावेज़ पर क्लिक करें. सभी इनपुट की गई जानकारी की पुष्टि करने के लिए, 'पुष्टि करें' बटन पर क्लिक करें. हरे रंग में "कोई गड़बड़ी नहीं मिली" का मतलब है कि जांच पूरी हो गई है.
  2. 'बदलाव करने की प्रॉपर्टी' विंडो बंद करने के लिए, X बटन पर क्लिक करें.

डेटा मास्क करना और पहचान से जुड़ी जानकारी हटाना

  1. डेटा के अलग-अलग कॉलम चुने जा सकते हैं. इसके लिए, कॉलम में मौजूद डाउन ऐरो पर क्लिक करें. इसके बाद, अपनी ज़रूरत के हिसाब से, 'डेटा को मास्क करने के नियम' सेक्शन में जाकर, डेटा को मास्क करने के नियम लागू करें. उदाहरण के लिए, एसएसएन कॉलम.

bb1eb067dd6e0946.png

  1. Wrangler नोड की रेसिपी विंडो में जाकर, ज़्यादा डायरेक्टिव जोड़े जा सकते हैं. उदाहरण के लिए, पहचान छिपाने के मकसद से, हैशिंग एल्गोरिदम के साथ हैश डायरेक्टिव का इस्तेमाल करना. इसके लिए, इस सिंटैक्स का इस्तेमाल करें:
hash <column> <algorithm> <encode>

<column>: name of the column
<algorithm>: Hashing algorithm (i.e. MD5, SHA-1, etc.)
<encode>: default is true (hashed digest is encoded as hex with left-padding zeros). To disable hex encoding, set <encode> to false.

cbcc9a0932f53197.png

सिंक नोड

  1. सिंक नोड चुनें.
  2. बाईं ओर मौजूद प्लगिन पैलेट में, सिंक सेक्शन में जाकर BigQuery नोड पर दो बार क्लिक करें. यह डेटा पाइपलाइन के यूज़र इंटरफ़ेस (यूआई) में दिखेगा.
  3. BigQuery सिंक नोड पर कर्सर ले जाएं और Properties पर क्लिक करें.

1be711152c92c692.png

  1. ज़रूरी फ़ील्ड में जानकारी भरें. यहां दिए गए फ़ील्ड सेट करें:
  • Label = {any text}
  • रेफ़रंस नाम = {कोई भी टेक्स्ट}
  • प्रोजेक्ट आईडी = अपने-आप पता लगाएं
  • डेटासेट = मौजूदा प्रोजेक्ट में इस्तेमाल किया गया BigQuery डेटासेट (यानी कि DATASET_ID)
  • Table = {table name}
  1. ज़्यादा जानकारी के लिए, दस्तावेज़ पर क्लिक करें. सभी इनपुट की गई जानकारी की पुष्टि करने के लिए, 'पुष्टि करें' बटन पर क्लिक करें. हरे रंग में "कोई गड़बड़ी नहीं मिली" का मतलब है कि जांच पूरी हो गई है.

c5585747da2ef341.png

  1. BigQuery प्रॉपर्टी बंद करने के लिए, X बटन पर क्लिक करें.

6. बैच डेटा पाइपलाइन बनाना

पाइपलाइन में सभी नोड कनेक्ट करना

  1. सोर्स नोड के दाईं ओर मौजूद कनेक्शन ऐरो > को खींचें और डेस्टिनेशन नोड के बाईं ओर छोड़ें.
  2. किसी पाइपलाइन में कई ब्रांच हो सकती हैं. इन ब्रांच को, एक ही GCS सोर्स नोड से इनपुट फ़ाइलें मिलती हैं.

67510ab46bd44d36.png

  1. पाइपलाइन को नाम दें.

हो गया. आपने अभी-अभी अपनी पहली बैच डेटा पाइपलाइन बनाई है. अब इसे डिप्लॉय और चलाया जा सकता है.

पाइपलाइन से जुड़ी सूचनाएं ईमेल से भेजें (ज़रूरी नहीं)

Pipeline Alert SendEmail सुविधा का इस्तेमाल करने के लिए, कॉन्फ़िगरेशन में एक मेल सर्वर सेट अप करना ज़रूरी है. इससे वर्चुअल मशीन इंस्टेंस से ईमेल भेजे जा सकते हैं. ज़्यादा जानकारी के लिए, नीचे दिया गया लिंक देखें:

किसी इंस्टेंस से ईमेल भेजना | Compute Engine का दस्तावेज़

इस कोडलैब में, हमने Mailgun के ज़रिए मेल रिले सेवा सेट अप की है. इसके लिए, हमने यह तरीका अपनाया है:

  1. Mailgun के साथ खाता सेट अप करने और ईमेल रिले सेवा को कॉन्फ़िगर करने के लिए, Mailgun से ईमेल भेजना | Compute Engine के दस्तावेज़ में दिए गए निर्देशों का पालन करें. अन्य बदलावों के बारे में यहां बताया गया है.
  2. ईमेल पाने वाले सभी लोगों के ईमेल पते, Mailgun की अनुमति वाली सूची में जोड़ें. यह सूची, बाएं पैनल में Mailgun>Sending>Overview विकल्प में देखी जा सकती है.

7e6224cced3fa4e0.png fa78739f1ddf2dc2.png

जब ईमेल पाने वाले लोग, support@mailgun.net से भेजे गए ईमेल में "मैं सहमत हूं" पर क्लिक करते हैं, तो उनके ईमेल पते, पाइपलाइन से जुड़ी सूचना वाले ईमेल पाने के लिए, अनुमति वाली सूची में सेव हो जाते हैं.

72847c97fd5fce0f.png

  1. "शुरू करने से पहले" सेक्शन का तीसरा चरण - फ़ायरवॉल का नियम इस तरह बनाएं:

75b063c165091912.png

  1. "Postfix के साथ Mailgun को मेल रिले के तौर पर कॉन्फ़िगर करना" लेख का तीसरा चरण. निर्देशों में बताए गए सिर्फ़ लोकल के बजाय, इंटरनेट साइट या स्मार्टहोस्ट के साथ इंटरनेट चुनें.

8fd8474a4ef18f16.png

  1. "Mailgun को Postfix के साथ मेल रिले के तौर पर कॉन्फ़िगर करना" लेख का चौथा चरण. mynetworks के आखिर में 10.128.0.0 /9 जोड़ने के लिए, vi/etc/postfix/main.cf में बदलाव करें.

249fbf3edeff1ce8.png

  1. डिफ़ॉल्ट एसएमटीपी (25) को पोर्ट 587 में बदलने के लिए, vi /etc/postfix/master.cf में बदलाव करें.

86c82cf48c687e72.png

  1. Data Fusion Studio के सबसे ऊपर दाएं कोने में, कॉन्फ़िगर करें पर क्लिक करें. पाइपलाइन से जुड़ी सूचना पर क्लिक करें. इसके बाद, सूचनाएं विंडो खोलने के लिए, + बटन पर क्लिक करें. SendEmail को चुनें.

dc079a91f1b0da68.png

  1. ईमेल कॉन्फ़िगरेशन फ़ॉर्म भरें. हर तरह की सूचना के लिए, सूचना ट्रिगर करने की शर्त ड्रॉपडाउन से पूरा हो गया, सफल या असफल चुनें. अगर Include Workflow Token = false है, तो सिर्फ़ Message फ़ील्ड से मिली जानकारी भेजी जाती है. अगर वर्कफ़्लो टोकन शामिल करें = सही है, तो मैसेज फ़ील्ड और वर्कफ़्लो टोकन की पूरी जानकारी भेजी जाती है. आपको Protocol के लिए, छोटे अक्षरों का इस्तेमाल करना होगा. भेजने वाले के तौर पर, अपनी कंपनी के ईमेल पते के बजाय किसी "फ़र्ज़ी" ईमेल का इस्तेमाल करें.

1fa619b6ce28f5e5.png

7. पाइपलाइन को कॉन्फ़िगर करना, डिप्लॉय करना, और चलाना/शेड्यूल करना

db612e62a1c7ab7e.png

  1. Data Fusion Studio के सबसे ऊपर दाएं कोने में मौजूद, कॉन्फ़िगर करें पर क्लिक करें. इंजन कॉन्फ़िगरेशन के लिए, Spark चुनें. कॉन्फ़िगर करें विंडो में, सेव करें पर क्लिक करें.

8ecf7c243c125882.png

  1. डेटा की झलक देखने के लिए, झलक देखें पर क्लिक करें**.** पिछली विंडो पर वापस जाने के लिए, **झलक देखें** पर फिर से क्लिक करें. झलक मोड में पाइपलाइन को **चलाया** भी जा सकता है.

b3c891e5e1aa20ae.png

  1. लॉग देखने के लिए, लॉग पर क्लिक करें.
  2. सभी बदलावों को सेव करने के लिए, सेव करें पर क्लिक करें.
  3. नई पाइपलाइन बनाते समय, सेव किए गए पाइपलाइन कॉन्फ़िगरेशन को इंपोर्ट करने के लिए, इंपोर्ट करें पर क्लिक करें.
  4. पाइपलाइन कॉन्फ़िगरेशन एक्सपोर्ट करने के लिए, एक्सपोर्ट करें पर क्लिक करें.
  5. पाइपलाइन को डिप्लॉय करने के लिए, डिप्लॉय करें पर क्लिक करें.
  6. डप्लॉय होने के बाद, चलाएं पर क्लिक करें और पाइपलाइन के पूरा होने तक इंतज़ार करें.

bb06001d46a293db.png

  1. कार्रवाइयां बटन में जाकर, डुप्लीकेट चुनें. इससे पाइपलाइन को डुप्लीकेट किया जा सकता है.
  2. कार्रवाइयां बटन में जाकर, एक्सपोर्ट करें को चुनकर पाइपलाइन कॉन्फ़िगरेशन एक्सपोर्ट किया जा सकता है.
  3. अगर आपको पाइपलाइन ट्रिगर सेट करने हैं, तो Studio विंडो के बाएं या दाएं किनारे पर मौजूद इनबाउंड ट्रिगर या आउटबाउंड ट्रिगर पर क्लिक करें.
  4. पाइपलाइन को समय-समय पर चलाने और डेटा लोड करने के लिए, शेड्यूल करें पर क्लिक करें.

4167fa67550a49d5.png

  1. खास जानकारी में, रन के इतिहास, रिकॉर्ड, गड़बड़ी के लॉग, और चेतावनियों के चार्ट दिखते हैं.

8. पुष्टि

  1. Validate पाइपलाइन को सफलतापूर्वक एक्ज़ीक्यूट किया गया.

7dee6e662c323f14.png

  1. पुष्टि करें कि BigQuery डेटासेट में सभी टेबल मौजूद हैं.
bq ls $PROJECT_ID:$DATASET_ID
     tableId       Type    Labels   Time Partitioning
----------------- ------- -------- -------------------
 Allergies         TABLE
 Careplans         TABLE
 Conditions        TABLE
 Encounters        TABLE
 Imaging_Studies   TABLE
 Immunizations     TABLE
 Medications       TABLE
 Observations      TABLE
 Organizations     TABLE
 Patients          TABLE
 Procedures        TABLE
 Providers         TABLE
  1. सूचना वाले ईमेल पाएं (अगर कॉन्फ़िगर किया गया है).

नतीजे देखना

पाइपलाइन के चलने के बाद नतीजे देखने के लिए:

  1. BigQuery यूज़र इंटरफ़ेस (यूआई) में टेबल को क्वेरी करें. BigQuery के यूज़र इंटरफ़ेस (यूआई) पर जाएं
  2. नीचे दी गई क्वेरी में, अपने प्रोजेक्ट, डेटासेट, और टेबल का नाम डालें.

e32bfd5d965a117f.png

9. स्टोरेज खाली करना

इस ट्यूटोरियल में इस्तेमाल किए गए संसाधनों के लिए, अपने Google Cloud Platform खाते से शुल्क न लिए जाने के लिए:

ट्यूटोरियल पूरा करने के बाद, GCP पर बनाए गए संसाधनों को मिटाया जा सकता है. इससे वे आपके कोटे का इस्तेमाल नहीं करेंगे. साथ ही, आने वाले समय में आपसे उनका शुल्क नहीं लिया जाएगा. इन संसाधनों को मिटाने या बंद करने का तरीका यहां बताया गया है.

BigQuery डेटासेट मिटाना

इस ट्यूटोरियल के हिस्से के तौर पर बनाए गए BigQuery डेटासेट को मिटाने के लिए, इन निर्देशों का पालन करें.

GCS बकेट मिटाना

इस ट्यूटोरियल के हिस्से के तौर पर बनाए गए GCS बकेट को मिटाने के लिए, इन निर्देशों का पालन करें.

Cloud Data Fusion इंस्टेंस मिटाना

Cloud Data Fusion इंस्टेंस मिटाने के लिए, इन निर्देशों का पालन करें.

प्रोजेक्ट मिटाना

बिलिंग को बंद करने का सबसे आसान तरीका यह है कि ट्यूटोरियल के लिए बनाया गया प्रोजेक्ट मिटा दें.

प्रोजेक्ट मिटाने के लिए:

  1. GCP Console में, प्रोजेक्ट पेज पर जाएं. प्रोजेक्ट पेज पर जाएं
  2. प्रोजेक्ट की सूची में, वह प्रोजेक्ट चुनें जिसे आपको मिटाना है. इसके बाद, मिटाएं पर क्लिक करें.
  3. डायलॉग बॉक्स में, प्रोजेक्ट आईडी टाइप करें. इसके बाद, प्रोजेक्ट मिटाने के लिए बंद करें पर क्लिक करें.

10. बधाई हो

बधाई हो! आपने Cloud Data Fusion का इस्तेमाल करके, BigQuery में स्वास्थ्य सेवा से जुड़ा डेटा इंपोर्ट करने के लिए, कोड लैब को पूरा कर लिया है.

आपने Google Cloud Storage से CSV फ़ॉर्मैट में मौजूद डेटा को BigQuery में इंपोर्ट किया हो.

आपने हेल्थकेयर डेटा को एक साथ लोड करने, बदलने, और मास्क करने के लिए, डेटा इंटिग्रेशन पाइपलाइन को विज़ुअल तरीके से बनाया.

अब आपको Google Cloud Platform पर BigQuery के साथ, हेल्थकेयर डेटा के विश्लेषण की यात्रा शुरू करने के लिए ज़रूरी मुख्य चरणों के बारे में पता चल गया है.