Cloud Data Fusion का इस्तेमाल करके BigQuery में CSV (कॉमा लगाकर अलग की गई वैल्यू) डेटा डालें - रीयल-टाइम डेटा डालना

1. परिचय

509db33558ae025.png

Last Updated: 2020-02-28

इस कोडलैब में, CSV फ़ॉर्मैट वाले स्वास्थ्य सेवा से जुड़े डेटा को रीयल टाइम में BigQuery में ले जाने का तरीका बताया गया है. हम इस लैब के लिए, Cloud Data Fusion की रीयल टाइम डेटा पाइपलाइन का इस्तेमाल करेंगे. आपके लिए, स्वास्थ्य सेवा से जुड़ा असली टेस्ट डेटा जनरेट किया गया है. इसे Google Cloud Storage बकेट (gs://hcls_testing_data_fhir_10_patients/csv/) में उपलब्ध कराया गया है.

इस कोड लैब में आपको इनके बारे में जानकारी मिलेगी:

  • Cloud Data Fusion का इस्तेमाल करके, Pub/Sub से BigQuery में CSV डेटा (रीयल टाइम लोडिंग) को कैसे शामिल करें.
  • Cloud Data Fusion में, रीयल टाइम में स्वास्थ्य सेवा से जुड़े डेटा को लोड करने, ट्रांसफ़ॉर्म करने, और मास्क करने के लिए, डेटा इंटिग्रेशन पाइपलाइन को विज़ुअल तरीके से बनाने का तरीका.

इस डेमो को चलाने के लिए, आपको क्या-क्या चाहिए?

  • आपके पास GCP प्रोजेक्ट का ऐक्सेस होना चाहिए.
  • आपको GCP प्रोजेक्ट के लिए, मालिक की भूमिका असाइन की गई हो.
  • CSV फ़ॉर्मैट में स्वास्थ्य से जुड़ा डेटा. इसमें हेडर भी शामिल है.

अगर आपके पास कोई GCP प्रोजेक्ट नहीं है, तो नया GCP प्रोजेक्ट बनाने के लिए यह तरीका अपनाएं.

CSV फ़ॉर्मैट में मौजूद स्वास्थ्य सेवा से जुड़ा डेटा, GCS बकेट में पहले से लोड किया गया है. यह gs://hcls_testing_data_fhir_10_patients/csv/ पर मौजूद है. हर CSV संसाधन फ़ाइल का स्कीमा स्ट्रक्चर अलग होता है. उदाहरण के लिए, Patients.csv का स्कीमा, Providers.csv से अलग है. पहले से लोड की गई स्कीमा फ़ाइलें, gs://hcls_testing_data_fhir_10_patients/csv_schemas पर मिल सकती हैं.

अगर आपको नए डेटासेट की ज़रूरत है, तो SyntheaTM का इस्तेमाल करके इसे जनरेट किया जा सकता है. इसके बाद, कॉपी इनपुट डेटा वाले चरण में बकेट से कॉपी करने के बजाय, इसे GCS पर अपलोड करें.

2. GCP प्रोजेक्ट सेट अप करना

अपने एनवायरमेंट के लिए शेल वैरिएबल शुरू करें.

PROJECT_ID ढूंढने के लिए, प्रोजेक्ट की पहचान करना लेख पढ़ें.

<!-- CODELAB: Initialize shell variables ->
<!-- Your current GCP Project ID ->
export PROJECT_ID=<PROJECT_ID>
<!-- A new GCS Bucket in your current Project  - INPUT ->
export BUCKET_NAME=<BUCKET_NAME>
<!-- A new BQ Dataset ID - OUTPUT ->
export DATASET_ID=<DATASET_ID>

gsutil टूल का इस्तेमाल करके, इनपुट डेटा और गड़बड़ी के लॉग सेव करने के लिए, GCS बकेट बनाएं.

gsutil mb -l us gs://$BUCKET_NAME

सिंथेटिक डेटासेट का ऐक्सेस पाएं.

  1. Cloud Console में लॉग इन करने के लिए इस्तेमाल किए जा रहे ईमेल पते से, hcls-solutions-external+subscribe@google.com पर शामिल होने का अनुरोध करने वाला ईमेल भेजें.
  2. आपको एक ईमेल मिलेगा, जिसमें कार्रवाई की पुष्टि करने के निर्देश होंगे.
  3. ग्रुप में शामिल होने के लिए, ईमेल का जवाब देने वाले विकल्प का इस्तेमाल करें. 525a0fa752e0acae.pngबटन पर क्लिक न करें.
  4. पुष्टि करने वाला ईमेल मिलने के बाद, कोडलैब के अगले चरण पर जाएं.

इनपुट डेटा कॉपी करें.

gsutil -m cp -r gs://hcls_testing_data_fhir_10_patients/csv gs://$BUCKET_NAME

BigQuery डेटासेट बनाएं.

bq mk --location=us --dataset $PROJECT_ID:$DATASET_ID

Google Cloud SDK टूल इंस्टॉल करें और उसे इस्तेमाल करना शुरू करें. साथ ही, Pub या Sub विषय और सदस्यताएं बनाएं.

gcloud init
gcloud pubsub topics create your-topic
gcloud pubsub subscriptions create --topic your-topic your-sub

3. Cloud Data Fusion एनवायरमेंट सेटअप करना

Cloud Data Fusion API चालू करने और ज़रूरी अनुमतियां देने के लिए, यह तरीका अपनाएं:

एपीआई चालू करें.

  1. GCP Console API Library पर जाएं.
  2. प्रोजेक्ट की सूची में से, अपना प्रोजेक्ट चुनें.
  3. एपीआई लाइब्रेरी में, वह एपीआई चुनें जिसे आपको चालू करना है ( Cloud Data Fusion API, Cloud Pub/Sub API). अगर आपको एपीआई ढूंढने में मदद चाहिए, तो खोज फ़ील्ड और फ़िल्टर का इस्तेमाल करें.
  4. एपीआई पेज पर, चालू करें पर क्लिक करें.

Cloud Data Fusion इंस्टेंस बनाएं.

  1. GCP Console में, अपना ProjectID चुनें.
  2. बाईं ओर मौजूद मेन्यू में से, डेटा फ़्यूज़न चुनें. इसके बाद, पेज के बीच में मौजूद 'एक इंस्टेंस बनाएं' बटन पर क्लिक करें (पहली बार बनाने के लिए) या सबसे ऊपर मौजूद मेन्यू में मौजूद 'इंस्टेंस बनाएं' बटन पर क्लिक करें (अतिरिक्त इंस्टेंस बनाने के लिए).

a828690ff3bf3c46.png

e8ffacaba8e61be5.png

  1. उदाहरण का नाम डालें. Enterprise को चुनें.

5af91e46917260ff.png

  1. CREATE बटन पर क्लिक करें.

इंस्टेंस के लिए अनुमतियां सेट अप करें.

कोई इंस्टेंस बनाने के बाद, उससे जुड़े सेवा खाते को अपने प्रोजेक्ट पर अनुमतियां देने के लिए, यह तरीका अपनाएं:

  1. उदाहरण के नाम पर क्लिक करके, उदाहरण की ज़्यादा जानकारी वाले पेज पर जाएं.

76ad691f795e1ab3.png

  1. सेवा खाते को कॉपी करें.

6c91836afb72209d.png

  1. अपने प्रोजेक्ट के IAM पेज पर जाएं.
  2. आईएएम अनुमतियों वाले पेज पर, जोड़ें बटन पर क्लिक करके, सेवा खाते को Cloud Data Fusion API सर्विस एजेंट की भूमिका असाइन करें. "सेवा खाता" को नए सदस्य फ़ील्ड में चिपकाएं. इसके बाद, सेवा मैनेजमेंट -> Cloud Data Fusion API सर्वर एजेंट की भूमिका चुनें.

36f03d11c2a4ce0.png

  1. Pub/Sub Subscriber की भूमिका जोड़ने के लिए, + दूसरी भूमिका जोड़ें पर क्लिक करें या Cloud Data Fusion API सेवा एजेंट में बदलाव करें.

b4bf5500b8cbe5f9.png

  1. सेव करें पर क्लिक करें.

इन चरणों को पूरा करने के बाद, Cloud Data Fusion का इस्तेमाल शुरू किया जा सकता है. इसके लिए, Cloud Data Fusion इंस्टेंस पेज पर मौजूद इंस्टेंस देखें लिंक पर क्लिक करें. इसके अलावा, किसी इंस्टेंस के जानकारी वाले पेज पर जाकर भी Cloud Data Fusion का इस्तेमाल शुरू किया जा सकता है.

फ़ायरवॉल का नियम सेट अप करें.

  1. GCP Console -> वीपीसी नेटवर्क -> फ़ायरवॉल के नियम पर जाएं. इससे यह पता चलेगा कि डिफ़ॉल्ट रूप से एसएसएच की अनुमति देने वाला नियम मौजूद है या नहीं.

102adef44bbe3a45.png

  1. अगर ऐसा नहीं है, तो फ़ायरवॉल का ऐसा नियम जोड़ें जो डिफ़ॉल्ट नेटवर्क पर आने वाले सभी एसएसएच ट्रैफ़िक को अनुमति दे.

कमांड लाइन का इस्तेमाल करके:

gcloud beta compute --project={PROJECT_ID} firewall-rules create default-allow-ssh --direction=INGRESS --priority=1000 --network=default --action=ALLOW --rules=tcp:22 --source-ranges=0.0.0.0/0 --enable-logging

यूज़र इंटरफ़ेस (यूआई) का इस्तेमाल करके: फ़ायरवॉल का नियम बनाएं पर क्लिक करें और यह जानकारी भरें:

d9c69ac10496b3d9.png

2dc4971594b82a1f.png

4. पाइपलाइन के लिए नोड बनाना

अब हमारे पास GCP में Cloud Data Fusion एनवायरमेंट है. इसलिए, आइए इन चरणों का इस्तेमाल करके Cloud Data Fusion में डेटा पाइपलाइन बनाना शुरू करें:

  1. Cloud Data Fusion विंडो में, कार्रवाई कॉलम में मौजूद 'व्यू इंस्टेंस' लिंक पर क्लिक करें. आपको दूसरे पेज पर रीडायरेक्ट कर दिया जाएगा. Cloud Data Fusion इंस्टेंस खोलने के लिए, दिए गए यूआरएल पर क्लिक करें. वेलकम पॉपअप में, "टूर शुरू करें" या "नहीं, धन्यवाद" बटन पर क्लिक करने का विकल्प.
  2. "हैमबर्गर" मेन्यू को बड़ा करें. इसके बाद, पाइपलाइन -> सूची चुनें

317820def934a00a.png

  1. सबसे ऊपर दाएं कोने में मौजूद, हरे रंग के + बटन पर क्लिक करें. इसके बाद, पाइपलाइन बनाएं चुनें. इसके अलावा, पाइपलाइन का लिंक "बनाएं" पर क्लिक करें.

711975bb2c2416d7.png

3ec0a71409657fb8.png

  1. Pipeline Studio दिखने के बाद, सबसे ऊपर बाईं ओर मौजूद ड्रॉपडाउन से डेटा पाइपलाइन - रीयलटाइम चुनें.

372a889a81da5e66.png

  1. डेटा पाइपलाइन के यूज़र इंटरफ़ेस (यूआई) में, आपको बाईं ओर मौजूद पैनल में अलग-अलग सेक्शन दिखेंगे. जैसे, फ़िल्टर, सोर्स, ट्रांसफ़ॉर्म, Analytics, सिंक, गड़बड़ी ठीक करने वाले टूल, और सूचनाएं. यहां पाइपलाइन के लिए एक या उससे ज़्यादा नोड चुने जा सकते हैं.

c63de071d4580f2f.png

कोई सोर्स नोड चुनें.

  1. बाईं ओर मौजूद प्लगिन पैलेट में, सोर्स सेक्शन में जाकर Google Cloud PubSub नोड पर दो बार क्लिक करें. यह नोड, डेटा पाइपलाइन के यूज़र इंटरफ़ेस (यूआई) में दिखता है.
  2. PubSub सोर्स नोड पर कर्सर ले जाएं और प्रॉपर्टी पर क्लिक करें.

ed857a5134148d7b.png

  1. ज़रूरी फ़ील्ड में जानकारी भरें. इन फ़ील्ड को सेट करें:
  • Label = {any text}
  • रेफ़रंस नाम = {कोई भी टेक्स्ट}
  • प्रोजेक्ट आईडी = अपने-आप पता लगाएं
  • सदस्यता = Pub/Sub विषय बनाएं सेक्शन में बनाई गई सदस्यता (उदाहरण के लिए, your-sub)
  • विषय = Pub/Sub विषय बनाएं सेक्शन में बनाया गया विषय (उदाहरण के लिए, your-topic)
  1. ज़्यादा जानकारी के लिए, दस्तावेज़ पर क्लिक करें. सभी इनपुट की गई जानकारी की पुष्टि करने के लिए, 'पुष्टि करें' बटन पर क्लिक करें. हरे रंग में "कोई गड़बड़ी नहीं मिली" का मतलब है कि जांच पूरी हो गई है.

5c2774338b66bebe.png

  1. Pub/Sub प्रॉपर्टी बंद करने के लिए, X बटन पर क्लिक करें.

Transform नोड चुनें.

  1. बाईं ओर मौजूद प्लगिन पैलेट में, ट्रांसफ़ॉर्म सेक्शन में जाकर, प्रोजेक्शन नोड पर दो बार क्लिक करें. यह नोड, डेटा पाइपलाइन के यूज़र इंटरफ़ेस (यूआई) में दिखता है. Pub/Sub सोर्स नोड को प्रोजेक्शन ट्रांसफ़ॉर्म नोड से कनेक्ट करें.
  2. प्रोजेक्शन नोड पर कर्सर ले जाएं और प्रॉपर्टी पर क्लिक करें.

b3a9a3878879bfd7.png

  1. ज़रूरी फ़ील्ड में जानकारी भरें. इन फ़ील्ड को सेट करें:
  • Convert = message को बाइट टाइप से स्ट्रिंग टाइप में बदलता है.
  • Fields to drop = {any field}
  • बनाए रखने के लिए फ़ील्ड = {message, timestamp, and attributes} (for example, attributes: key=‘filename':value=‘patients' sent from Pub/Sub)
  • नाम बदलने के लिए फ़ील्ड = {message, timestamp}
  1. ज़्यादा जानकारी के लिए, दस्तावेज़ पर क्लिक करें. सभी इनपुट की गई जानकारी की पुष्टि करने के लिए, 'पुष्टि करें' बटन पर क्लिक करें. हरे रंग में "कोई गड़बड़ी नहीं मिली" का मतलब है कि जांच पूरी हो गई है.

b8c2f8efe18234ff.png

  1. बाईं ओर मौजूद प्लगिन पैलेट में, ट्रांसफ़ॉर्म सेक्शन में जाकर, Wrangler नोड पर दो बार क्लिक करें. यह नोड, डेटा पाइपलाइन के यूज़र इंटरफ़ेस (यूआई) में दिखता है. प्रोजेक्शन ट्रांसफ़ॉर्म नोड को Wrangler ट्रांसफ़ॉर्म नोड से कनेक्ट करें. Wrangler नोड पर कर्सर ले जाएं और Properties पर क्लिक करें.

aa44a4db5fe6623a.png

  1. सेव किए गए स्कीमा को इंपोर्ट करने के लिए, कार्रवाइयां ड्रॉप-डाउन पर क्लिक करें और इंपोर्ट करें चुनें. उदाहरण के लिए: gs://hcls_testing_data_fhir_10_patients/csv_schemas/ schema (Patients).json.
  2. अगर आउटपुट स्कीमा में TIMESTAMP फ़ील्ड मौजूद नहीं है, तो उसे जोड़ें. इसके लिए, आखिरी फ़ील्ड के बगल में मौजूद + बटन पर क्लिक करें और ‘Null' बॉक्स पर सही का निशान लगाएं.
  3. ज़रूरी फ़ील्ड में जानकारी भरें. इन फ़ील्ड को सेट करें:
  • Label = {any text}
  • Input field name = {*}
  • PubSub सोर्स नोड से भेजे गए हर तरह के रिकॉर्ड या मैसेज (उदाहरण के लिए, मरीज़, डॉक्टर, एलर्जी वगैरह) में अंतर करने के लिए, प्रीकंडिशन = {attributes.get("filename") != "patients"} का इस्तेमाल करें.
  1. ज़्यादा जानकारी के लिए, दस्तावेज़ पर क्लिक करें. सभी इनपुट की गई जानकारी की पुष्टि करने के लिए, 'पुष्टि करें' बटन पर क्लिक करें. हरे रंग में "कोई गड़बड़ी नहीं मिली" का मतलब है कि जांच पूरी हो गई है.

3b8e552cd2e3442c.png

  1. कॉलम के नामों को अपनी पसंद के क्रम में सेट करें. साथ ही, उन फ़ील्ड को हटा दें जिनकी आपको ज़रूरत नहीं है. यहां दिए गए कोड स्निपेट को कॉपी करें और रेसिपी बॉक्स में चिपकाएं.
drop attributes
parse-as-csv :body ',' false
drop body
set columns TIMESTAMP,Id,BIRTHDATE,DEATHDATE,SSN,DRIVERS,PASSPORT,PREFIX,FIRST,LAST,SUFFIX,MAIDEN,MARITAL,RACE,ETHNICITY,GENDER,BIRTHPLACE,ADDRESS,CITY,STATE,ZIP
mask-number SSN xxxxxxx####

b93cb9952ca2de73.png

  1. डेटा मास्किंग और पहचान छिपाने के लिए, Batch-Codelab - CSV to BigQuery via CDF पर जाएं. इसके अलावा, रेसिपी बॉक्स में यह कोड स्निपेट mask-number SSN xxxxxxx#### जोड़ें
  2. 'बदलाव करने की प्रॉपर्टी' विंडो बंद करने के लिए, X बटन पर क्लिक करें.

सिंक नोड चुनें.

  1. बाईं ओर मौजूद प्लगिन पैलेट में, सिंक सेक्शन में जाकर, BigQuery नोड पर दो बार क्लिक करें. यह नोड, डेटा पाइपलाइन के यूज़र इंटरफ़ेस (यूआई) में दिखता है. Wrangler ट्रांसफ़ॉर्म नोड को BigQuery सिंक नोड से कनेक्ट करें.
  2. BigQuery सिंक नोड पर कर्सर ले जाएं और Properties पर क्लिक करें.

1be711152c92c692.png

  1. ज़रूरी फ़ील्ड में जानकारी भरें:
  • Label = {any text}
  • रेफ़रंस नाम = {कोई भी टेक्स्ट}
  • प्रोजेक्ट आईडी = अपने-आप पता लगाएं
  • डेटासेट = मौजूदा प्रोजेक्ट में इस्तेमाल किया गया BigQuery डेटासेट (उदाहरण के लिए, DATASET_ID)
  • Table = {table name}
  1. ज़्यादा जानकारी के लिए, दस्तावेज़ पर क्लिक करें. सभी इनपुट की गई जानकारी की पुष्टि करने के लिए, 'पुष्टि करें' बटन पर क्लिक करें. हरे रंग में "कोई गड़बड़ी नहीं मिली" का मतलब है कि जांच पूरी हो गई है.

bba71de9f31e842a.png

  1. BigQuery प्रॉपर्टी बंद करने के लिए, X बटन पर क्लिक करें.

5. रीयल टाइम डेटा पाइपलाइन बनाना

पिछले सेक्शन में, हमने ऐसे नोड बनाए थे जिनकी ज़रूरत Cloud Data Fusion में डेटा पाइपलाइन बनाने के लिए होती है. इस सेक्शन में, हम नोड को कनेक्ट करके असल पाइपलाइन बनाते हैं.

पाइपलाइन में सभी नोड कनेक्ट करना

  1. सोर्स नोड के दाईं ओर मौजूद कनेक्शन ऐरो > को खींचें और डेस्टिनेशन नोड के बाईं ओर छोड़ें.
  2. किसी पाइपलाइन में कई ब्रांच हो सकती हैं. इन सभी ब्रांच को, एक ही PubSub सोर्स नोड से मैसेज मिलते हैं.

b22908cc35364cdd.png

  1. पाइपलाइन को नाम दें.

हो गया. आपने अभी-अभी डिप्लॉय और रन करने के लिए, अपनी पहली रीयल टाइम डेटा पाइपलाइन बनाई है.

Cloud Pub/Sub के ज़रिए मैसेज भेजना

Pub/Sub यूज़र इंटरफ़ेस (यूआई) का इस्तेमाल करके:

  1. GCP Console -> Pub/Sub -> Topics पर जाएं. इसके बाद, your-topic चुनें. इसके बाद, सबसे ऊपर मौजूद मेन्यू में PUBLISH MESSAGE पर क्लिक करें.

d65b2a6af1668ecd.png

  1. मैसेज फ़ील्ड में एक बार में सिर्फ़ एक रिकॉर्ड लाइन डालें. +एट्रिब्यूट जोड़ें बटन पर क्लिक करें. कुंजी = फ़ाइल का नाम और वैल्यू = <रिकॉर्ड का टाइप> (उदाहरण के लिए, मरीज़, सेवा देने वाले, एलर्जी वगैरह) डालें.
  2. मैसेज भेजने के लिए, पब्लिश करें बटन पर क्लिक करें.

gcloud कमांड का इस्तेमाल करके:

  1. मैन्युअल तरीके से मैसेज डालें.
gcloud pubsub topics publish <your-topic> --attribute <key>=<value> --message \
"paste one record row here"
  1. cat और sed यूनिक्स कमांड का इस्तेमाल करके, मैसेज को कुछ हद तक अपने-आप जनरेट करने की सुविधा उपलब्ध कराओ. इस कमांड को अलग-अलग पैरामीटर के साथ बार-बार चलाया जा सकता है.
gcloud pubsub topics publish <your-topic> --attribute <key>=<value> --message \
"$(gsutil cat gs://$BUCKET_NAME/csv/<value>.csv | sed -n '#p')"

6. पाइपलाइन को कॉन्फ़िगर करना, डिप्लॉय करना, और चलाना

डेटा पाइपलाइन तैयार हो जाने के बाद, इसे Cloud Data Fusion में डिप्लॉय और चलाया जा सकता है.

1bb5b0b8e2953ffa.png

  1. कॉन्फ़िगर करें की डिफ़ॉल्ट सेटिंग बनाए रखें.
  2. डेटा की झलक देखने के लिए, झलक देखें पर क्लिक करें**.** पिछली विंडो पर वापस जाने के लिए, **झलक देखें** पर फिर से क्लिक करें. **चलाएं** पर क्लिक करके, पाइपलाइन को झलक मोड में भी चलाया जा सकता है.

b3c891e5e1aa20ae.png

  1. लॉग देखने के लिए, लॉग पर क्लिक करें.
  2. सभी बदलावों को सेव करने के लिए, सेव करें पर क्लिक करें.
  3. नई पाइपलाइन बनाते समय, सेव किए गए पाइपलाइन कॉन्फ़िगरेशन को इंपोर्ट करने के लिए, इंपोर्ट करें पर क्लिक करें.
  4. पाइपलाइन कॉन्फ़िगरेशन एक्सपोर्ट करने के लिए, एक्सपोर्ट करें पर क्लिक करें.
  5. पाइपलाइन को डिप्लॉय करने के लिए, डिप्लॉय करें पर क्लिक करें.
  6. डप्लॉय होने के बाद, चलाएं पर क्लिक करें और पाइपलाइन के पूरा होने तक इंतज़ार करें.

f01ba6b746ba53a.png

  1. पाइपलाइन को किसी भी समय रोकने के लिए, रोकें पर क्लिक करें.
  2. कार्रवाइयां बटन में जाकर, डुप्लीकेट को चुनकर पाइपलाइन को डुप्लीकेट किया जा सकता है.
  3. कार्रवाइयां बटन में जाकर, एक्सपोर्ट करें को चुनकर पाइपलाइन कॉन्फ़िगरेशन एक्सपोर्ट किया जा सकता है.

28ea4fc79445fad2.png

  1. रन के इतिहास, रिकॉर्ड, गड़बड़ी के लॉग, और चेतावनियों के चार्ट दिखाने के लिए, खास जानकारी पर क्लिक करें.

7. पुष्टि

इस सेक्शन में, हम डेटा पाइपलाइन के एक्ज़ीक्यूशन की पुष्टि करते हैं.

  1. पुष्टि करें कि पाइपलाइन को सही तरीके से लागू किया गया है और वह लगातार चल रही है.

1644dfac4a2d819d.png

  1. पुष्टि करें कि BigQuery टेबल में, TIMESTAMP के आधार पर अपडेट किए गए रिकॉर्ड लोड किए गए हैं. इस उदाहरण में, 25-06-2019 को Pub/Sub विषय पर मरीज़ के दो रिकॉर्ड या मैसेज और एलर्जी का एक रिकॉर्ड या मैसेज पब्लिश किया गया था.
bq query --nouse_legacy_sql 'select (select count(*) from \
'$PROJECT_ID.$DATASET_ID.Patients'  where TIMESTAMP > "2019-06-25 \
01:29:00.0000 UTC" ) as Patients, (select count(*) from \
'$PROJECT_ID.$DATASET_ID.Allergies' where TIMESTAMP > "2019-06-25 \
01:29:00.0000 UTC") as Allergies;'
Waiting on bqjob_r14c8b94c1c0fe06a_0000016b960df4e1_1 ... (0s) Current status: DONE  
+----------+-----------+
| Patients | Allergies |
+----------+-----------+
|        2 |         1 |
+----------+-----------+
  1. पुष्टि करें कि <your-topic> पर पब्लिश किए गए मैसेज, <your-sub> के सदस्य को मिले हैं.
gcloud pubsub subscriptions pull --auto-ack <your-sub>

4cae99a9e4f2ec9f.png

नतीजे देखना

रीयलटाइम पाइपलाइन के चालू रहने के दौरान, Pub/Sub विषय पर मैसेज पब्लिश होने के बाद नतीजे देखने के लिए:

  1. BigQuery यूज़र इंटरफ़ेस (यूआई) में टेबल को क्वेरी करें. BigQuery के यूज़र इंटरफ़ेस (यूआई) पर जाएं
  2. नीचे दी गई क्वेरी में, अपने प्रोजेक्ट, डेटासेट, और टेबल का नाम डालें.

6a1fb85bd868abc9.png

8. स्टोरेज खाली करना

इस ट्यूटोरियल में इस्तेमाल किए गए संसाधनों के लिए, अपने Google Cloud Platform खाते से शुल्क न लिए जाने के लिए:

ट्यूटोरियल पूरा करने के बाद, GCP पर बनाए गए संसाधनों को मिटाया जा सकता है. इससे वे कोटा का इस्तेमाल नहीं करेंगे और आने वाले समय में आपसे उनका शुल्क नहीं लिया जाएगा. इन संसाधनों को मिटाने या बंद करने का तरीका यहां बताया गया है.

BigQuery डेटासेट मिटाना

इस ट्यूटोरियल के हिस्से के तौर पर बनाए गए BigQuery डेटासेट को मिटाने के लिए, इन निर्देशों का पालन करें.

GCS बकेट मिटाना

इस ट्यूटोरियल के हिस्से के तौर पर बनाए गए GCS बकेट को मिटाने के लिए, इन निर्देशों का पालन करें.

Cloud Data Fusion इंस्टेंस मिटाना

Cloud Data Fusion इंस्टेंस मिटाने के लिए, इन निर्देशों का पालन करें.

प्रोजेक्ट मिटाना

बिलिंग को बंद करने का सबसे आसान तरीका यह है कि ट्यूटोरियल के लिए बनाया गया प्रोजेक्ट मिटा दें.

प्रोजेक्ट मिटाने के लिए:

  1. GCP Console में, प्रोजेक्ट पेज पर जाएं. प्रोजेक्ट पेज पर जाएं
  2. प्रोजेक्ट की सूची में, वह प्रोजेक्ट चुनें जिसे आपको मिटाना है. इसके बाद, मिटाएं पर क्लिक करें.
  3. डायलॉग बॉक्स में, प्रोजेक्ट आईडी टाइप करें. इसके बाद, प्रोजेक्ट मिटाने के लिए बंद करें पर क्लिक करें.

9. बधाई हो

बधाई हो! आपने Cloud Data Fusion का इस्तेमाल करके, BigQuery में स्वास्थ्य सेवा से जुड़ा डेटा इंपोर्ट करने के लिए, कोड लैब को पूरा कर लिया है.

आपने CSV डेटा को Pub/Sub विषय पर पब्लिश किया और फिर उसे BigQuery में लोड किया.

आपने स्वास्थ्य सेवा से जुड़े डेटा को रीयल टाइम में लोड करने, बदलने, और मास्क करने के लिए, डेटा इंटिग्रेशन पाइपलाइन को विज़ुअली बनाया है.

अब आपको Google Cloud Platform पर BigQuery के साथ, हेल्थकेयर डेटा के विश्लेषण की यात्रा शुरू करने के लिए ज़रूरी मुख्य चरणों के बारे में पता चल गया है.