1. परिचय
पिछली बार अपडेट किए जाने की तारीख: 28-02-2020
यह कोडलैब, डेटा डालने का पैटर्न दिखाता है, ताकि CSV फ़ॉर्मैट में स्वास्थ्य सेवा का डेटा, रीयल टाइम में BigQuery में डाला जा सके. हम इस लैब के लिए, Cloud Data Fusion की रीयल टाइम डेटा पाइपलाइन का इस्तेमाल करेंगे. स्वास्थ्य सेवा की असल जांच का डेटा जनरेट किया गया है और उसे आपके लिए Google Cloud Storage बकेट (gs://hcls_testing_data_fhir_10_patients/csv/) में उपलब्ध कराया गया है.
इस कोड लैब में, आपको इनके बारे में जानकारी मिलेगी:
- Cloud डेटा फ़्यूज़न का इस्तेमाल करके Pub/Sub से BigQuery में CSV डेटा (रीयल टाइम लोडिंग) डालने का तरीका.
- रीयल टाइम में हेल्थकेयर डेटा को लोड करने, बदलने, और मास्क करने के लिए, Cloud Data Fusion में डेटा इंटिग्रेशन की प्रोसेस को विज़ुअल तौर पर कैसे बनाएं.
इस डेमो को चलाने के लिए, आपको क्या करना होगा?
- आपके पास GCP प्रोजेक्ट का ऐक्सेस होना चाहिए.
- आपको GCP प्रोजेक्ट के लिए मालिक की भूमिका असाइन की जानी चाहिए.
- हेडर के साथ CSV फ़ॉर्मैट में स्वास्थ्य सेवा का डेटा.
अगर आपके पास GCP प्रोजेक्ट नहीं है, तो नया GCP प्रोजेक्ट बनाने के लिए यह तरीका अपनाएं.
स्वास्थ्य सेवा का डेटा CSV फ़ॉर्मैट में, GCS बकेट में पहले से लोड हो जाता है. इसके लिए, gs://hcls_testing_data_fhir_10_patients/csv/ पर जाएं. हर CSV संसाधन फ़ाइल का एक यूनीक स्कीमा स्ट्रक्चर होता है. उदाहरण के लिए, Patients.csv का स्कीमा, provider.csv से अलग है. पहले से लोड की गई स्कीमा फ़ाइलें gs://hcls_testing_data_fhir_10_patients/csv_schemas पर देखी जा सकती हैं.
अगर आपको कोई नया डेटासेट चाहिए, तो उसे कभी भी SyntheaTM का इस्तेमाल करके जनरेट किया जा सकता है. इसके बाद, 'इनपुट डेटा कॉपी करें' चरण पर बकेट से कॉपी करने के बजाय, इसे GCS (जीसीएस) पर अपलोड करें.
2. GCP प्रोजेक्ट का सेटअप
अपने एनवायरमेंट के लिए शेल वैरिएबल शुरू करें.
PROJECT_ID ढूंढने के लिए, प्रोजेक्ट की पहचान करना देखें.
<!-- CODELAB: Initialize shell variables -> <!-- Your current GCP Project ID -> export PROJECT_ID=<PROJECT_ID> <!-- A new GCS Bucket in your current Project - INPUT -> export BUCKET_NAME=<BUCKET_NAME> <!-- A new BQ Dataset ID - OUTPUT -> export DATASET_ID=<DATASET_ID>
gsutil टूल का इस्तेमाल करके, इनपुट डेटा और गड़बड़ी के लॉग सेव करने के लिए, GCS बकेट बनाएं.
gsutil mb -l us gs://$BUCKET_NAME
सिंथेटिक डेटासेट का ऐक्सेस पाएं.
- Cloud Console में लॉगिन करने के लिए जिस ईमेल पते का इस्तेमाल किया जा रहा है उससे hcls-solutions-external+subscribe@google.com पर ईमेल भेजकर शामिल होने का अनुरोध करें.
- आपको एक ईमेल मिलेगा, जिसमें कार्रवाई की पुष्टि करने के निर्देश होंगे.
- ग्रुप में शामिल होने के लिए, ईमेल का जवाब देने के विकल्प का इस्तेमाल करें. बटन पर क्लिक न करें.
- पुष्टि करने वाला ईमेल मिलने के बाद, कोडलैब में अगले चरण पर जाया जा सकता है.
इनपुट डेटा कॉपी करें.
gsutil -m cp -r gs://hcls_testing_data_fhir_10_patients/csv gs://$BUCKET_NAME
BigQuery डेटासेट बनाएं.
bq mk --location=us --dataset $PROJECT_ID:$DATASET_ID
Google Cloud SDK टूल इंस्टॉल करके उसे शुरू करें. इसके बाद, पब या सब-टॉपिक और सदस्यताएं बनाएं.
gcloud init gcloud pubsub topics create your-topic gcloud pubsub subscriptions create --topic your-topic your-sub
3. Cloud Data Fusion के एनवायरमेंट का सेटअप
Cloud Data Fusion API चालू करने और ज़रूरी अनुमतियां देने के लिए, यह तरीका अपनाएं:
एपीआई चालू करें.
- GCP Console API लाइब्रेरी पर जाएं.
- प्रोजेक्ट की सूची में से, अपना प्रोजेक्ट चुनें.
- एपीआई लाइब्रेरी में, वह एपीआई चुनें जिसे आपको चालू करना है ( Cloud Data Fusion API,Cloud Pub/Sub एपीआई). अगर आपको एपीआई ढूंढने में मदद चाहिए, तो खोज फ़ील्ड और फ़िल्टर का इस्तेमाल करें.
- एपीआई पेज पर, चालू करें पर क्लिक करें.
Cloud Data Fusion इंस्टेंस बनाएं.
- GCP कंसोल में, अपना ProjectID चुनें.
- बाएं मेन्यू से Data Fusion चुनें. इसके बाद, पेज के बीच में मौजूद 'एक इंस्टेंस बनाएं' बटन (पहला क्रिएशन) या सबसे ऊपर मौजूद मेन्यू (अतिरिक्त क्रिएशन) में, 'इंस्टेंस बनाएं' बटन पर क्लिक करें.
- इंस्टेंस को नाम दें. एंटरप्राइज़ चुनें.
- 'बनाएं' बटन पर क्लिक करें.
इंस्टेंस की अनुमतियां सेट अप करें.
इंस्टेंस बनाने के बाद, अपने प्रोजेक्ट पर इंस्टेंस की अनुमतियों से जुड़े सेवा खाते को अनुमति देने के लिए, यह तरीका अपनाएं:
- इंस्टेंस के नाम पर क्लिक करके, इंस्टेंस की ज़्यादा जानकारी वाले पेज पर जाएं.
- सेवा खाते को कॉपी करें.
- अपने प्रोजेक्ट के आईएएम पेज पर जाएं.
- IAM की अनुमतियों वाले पेज पर, जोड़ें बटन पर क्लिक करके सेवा खाते को Cloud Data Fusion API सेवा एजेंट की भूमिका दें. "सेवा खाता" चिपकाएं और नए सदस्य फ़ील्ड में सेवा प्रबंधन चुनें -> Cloud Data Fusion API के सर्वर एजेंट की भूमिका.
- Pub/Sub सदस्य की भूमिका जोड़ने के लिए, + दूसरी भूमिका जोड़ें या Cloud Data Fusion API सर्विस एजेंट में बदलाव करें पर क्लिक करें.
- सेव करें पर क्लिक करें.
ये चरण पूरे होने के बाद, Cloud Data Fusion के इंस्टेंस पेज पर व्यू इंस्टेंस लिंक या किसी इंस्टेंस की ज़्यादा जानकारी वाले पेज पर क्लिक करके, Cloud Data Fusion का इस्तेमाल शुरू किया जा सकता है.
फ़ायरवॉल का नियम सेट अप करें.
- GCP कंसोल पर जाएं -> VPC नेटवर्क -> फ़ायरवॉल के नियम, ताकि यह पता लगाया जा सके कि डिफ़ॉल्ट-अनुमति दें-एसएसएच नियम मौजूद है या नहीं.
- अगर ऐसा नहीं है, तो फ़ायरवॉल का नियम जोड़ें. यह नियम सभी इन्ग्रेस डेटा ट्रैफ़िक को डिफ़ॉल्ट नेटवर्क पर ले जाने की अनुमति देता है.
कमांड लाइन का इस्तेमाल करना:
gcloud beta compute --project={PROJECT_ID} firewall-rules create default-allow-ssh --direction=INGRESS --priority=1000 --network=default --action=ALLOW --rules=tcp:22 --source-ranges=0.0.0.0/0 --enable-logging
UI का उपयोग करना: फ़ायरवॉल नियम बनाएं पर क्लिक करें और जानकारी भरें:
4. पाइपलाइन के लिए नोड बनाना
अब GCP में Cloud Data Fusion एनवायरमेंट मौजूद है. इसलिए, नीचे दिए गए तरीके का इस्तेमाल करके, Cloud Data Fusion में डेटा पाइपलाइन बनाना शुरू करें:
- Cloud Data Fusion विंडो के 'कार्रवाई' कॉलम में, व्यू इंस्टेंस लिंक पर क्लिक करें. आपको किसी अन्य पेज पर रीडायरेक्ट कर दिया जाएगा. Cloud Data Fusion इंस्टेंस खोलने के लिए दिए गए url पर क्लिक करें. "सफ़र शुरू करें" पर क्लिक करने के लिए आपका चुना गया विकल्प या "नहीं, रहने दें" बटन पर क्लिक करें.
- "हैमबर्गर" को बड़ा करें मेन्यू, पाइपलाइन चुनें -> लिस्ट
- सबसे ऊपर दाएं कोने में मौजूद, हरे रंग के + बटन पर क्लिक करें. इसके बाद, पाइपलाइन बनाएं को चुनें. या "बनाएं" पर क्लिक करें पाइपलाइन लिंक पर क्लिक करें.
- पाइपलाइन स्टूडियो दिखने के बाद, सबसे ऊपर बाईं ओर, ड्रॉपडाउन मेन्यू से डेटा पाइपलाइन - रीयलटाइम चुनें.
- Data Pipelines के यूज़र इंटरफ़ेस (यूआई) में, आपको बाएं पैनल पर फ़िल्टर, सोर्स, ट्रांसफ़ॉर्म, Analytics, सिंक, गड़बड़ी हैंडलर, और अलर्ट के तौर पर अलग-अलग सेक्शन दिखेंगे. यहां पाइपलाइन के लिए कोई नोड या नोड चुना जा सकता है.
कोई सोर्स नोड चुनें.
- बाईं ओर प्लगिन पैलेट के सोर्स सेक्शन में, डेटा पाइपलाइन के यूज़र इंटरफ़ेस (यूआई) में दिखने वाले Google Cloud PubSub नोड पर दो बार क्लिक करें.
- PubSub सोर्स नोड की ओर पॉइंट करें और प्रॉपर्टी पर क्लिक करें.
- ज़रूरी फ़ील्ड में जानकारी भरें. नीचे दिए गए फ़ील्ड सेट करें:
- लेबल = {any text}
- रेफ़रंस का नाम = {any text}
- प्रोजेक्ट आईडी = अपने-आप पता लगाएं
- सदस्यता = Pub/Sub विषय बनाएं सेक्शन में बनाई गई सदस्यता (उदाहरण के लिए, your-sub)
- विषय = Pub/Sub विषय बनाएं सेक्शन में बनाया गया विषय (उदाहरण के लिए, आपका-विषय)
- ज़्यादा जानकारी के लिए, दस्तावेज़ पर क्लिक करें. सभी इनपुट जानकारी की पुष्टि करने के लिए, 'पुष्टि करें' बटन पर क्लिक करें. हरा "कोई गड़बड़ी नहीं मिली" सफलता को दिखाता है.
- Pub/Sub प्रॉपर्टी बंद करने के लिए, X बटन पर क्लिक करें.
नोड बदलें चुनें.
- बाईं ओर प्लगिन पैलेट में बदलाव करें सेक्शन के नीचे, डेटा पाइपलाइन यूज़र इंटरफ़ेस (यूआई) में दिखने वाले प्रक्षेपण नोड पर दो बार क्लिक करें. Pub/Sub सोर्स नोड को प्रोजेक्शन ट्रांसफ़ॉर्म नोड से कनेक्ट करें.
- प्रोजेक्टियन नोड पर कर्सर ले जाएं और प्रॉपर्टी पर क्लिक करें.
- ज़रूरी फ़ील्ड में जानकारी भरें. नीचे दिए गए फ़ील्ड सेट करें:
- Convert = मैसेज को बाइट टाइप से स्ट्रिंग टाइप में बदलें.
- छोड़े जाने वाले फ़ील्ड = {any field}
- बनाए जाने वाले फ़ील्ड = {message, timestamp, और attributes} (उदाहरण के लिए, एट्रिब्यूट: key=‘filename':value=‘रोगियों' को Pub/Sub से भेजा गया)
- नाम बदलने के लिए फ़ील्ड = {message, timestamp}
- ज़्यादा जानकारी के लिए, दस्तावेज़ पर क्लिक करें. सभी इनपुट जानकारी की पुष्टि करने के लिए, 'पुष्टि करें' बटन पर क्लिक करें. हरा "कोई गड़बड़ी नहीं मिली" सफलता को दिखाता है.
- बाईं ओर प्लगिन पैलेट में बदलाव करें सेक्शन के नीचे, Data Pipelines यूज़र इंटरफ़ेस (यूआई) में दिखने वाले Wrangler नोड पर दो बार क्लिक करें. प्रोजेक्शन ट्रांसफ़ॉर्म नोड को Wrangler ट्रांसफ़ॉर्म नोड से कनेक्ट करें. रैंगलर नोड की ओर पॉइंट करें और प्रॉपर्टी पर क्लिक करें.
- सेव किए गए स्कीमा को इंपोर्ट करने के लिए, कार्रवाइयां ड्रॉप-डाउन पर क्लिक करें और इंपोर्ट करें चुनें. उदाहरण के लिए: gs://hcls_testing_data_fhir_10_patients/csv_schemas/ schema (Patients).json.
- अगर आउटपुट स्कीमा में TIMESTAMP फ़ील्ड मौजूद नहीं है, तो आखिरी फ़ील्ड के बगल में मौजूद + बटन पर क्लिक करें और 'शून्य' चुनें बॉक्स.
- ज़रूरी फ़ील्ड में जानकारी भरें. नीचे दिए गए फ़ील्ड सेट करें:
- लेबल = {any text}
- इनपुट फ़ील्ड का नाम = {*}
- पहले से तय की गई शर्त = {attributes.get("filename") != "patients"}, PubSub सोर्स नोड से भेजे गए हर तरह के रिकॉर्ड या मैसेज (उदाहरण के लिए, मरीज़, सेवा देने वाली कंपनियां, एलर्जी वगैरह) को अलग करने के लिए इस्तेमाल किए जाते हैं.
- ज़्यादा जानकारी के लिए, दस्तावेज़ पर क्लिक करें. सभी इनपुट जानकारी की पुष्टि करने के लिए, 'पुष्टि करें' बटन पर क्लिक करें. हरा "कोई गड़बड़ी नहीं मिली" सफलता को दिखाता है.
- कॉलम के नामों को पसंदीदा क्रम में सेट करें और जिन फ़ील्ड की आपको ज़रूरत नहीं है उन्हें छोड़ दें. नीचे दिया गया कोड स्निपेट कॉपी करें और रेसिपी बॉक्स में चिपकाएं.
drop attributes parse-as-csv :body ',' false drop body set columns TIMESTAMP,Id,BIRTHDATE,DEATHDATE,SSN,DRIVERS,PASSPORT,PREFIX,FIRST,LAST,SUFFIX,MAIDEN,MARITAL,RACE,ETHNICITY,GENDER,BIRTHPLACE,ADDRESS,CITY,STATE,ZIP mask-number SSN xxxxxxx####
- डेटा मास्क करने और पहचान से जुड़ी जानकारी हटाने के लिए, बैच-कोडलैब (कोड बनाना सीखना) - CDF के ज़रिए BigQuery को CSV लेख पढ़ें. इसके अलावा, रेसिपी बॉक्स में इस कोड स्निपेट मास्क-नंबर SSN xxxxxxx#### को जोड़ें
- 'प्रॉपर्टी को बदलें' विंडो को बंद करने के लिए, X बटन पर क्लिक करें.
सिंक नोड चुनें.
- बाईं ओर प्लगिन पैलेट के सिंक सेक्शन में, डेटा पाइपलाइन यूज़र इंटरफ़ेस (यूआई) में दिखने वाले BigQuery नोड पर दो बार क्लिक करें. Wrangler ट्रांसफ़ॉर्म नोड को BigQuery सिंक नोड से कनेक्ट करें.
- BigQuery सिंक नोड की ओर पॉइंट करें और प्रॉपर्टी पर क्लिक करें.
- ज़रूरी फ़ील्ड में जानकारी भरें:
- लेबल = {any text}
- रेफ़रंस का नाम = {any text}
- प्रोजेक्ट आईडी = अपने-आप पता लगाएं
- डेटासेट = मौजूदा प्रोजेक्ट में इस्तेमाल किया गया BigQuery डेटासेट (उदाहरण के लिए, DATASET_ID)
- टेबल = {table name}
- ज़्यादा जानकारी के लिए, दस्तावेज़ पर क्लिक करें. सभी इनपुट जानकारी की पुष्टि करने के लिए, 'पुष्टि करें' बटन पर क्लिक करें. हरा "कोई गड़बड़ी नहीं मिली" सफलता को दिखाता है.
- BigQuery प्रॉपर्टी बंद करने के लिए, X बटन पर क्लिक करें.
5. रीयल-टाइम डेटा पाइपलाइन बनाएं
पिछले सेक्शन में, हमने ऐसे नोड बनाए हैं जो Cloud Data Fusion में डेटा पाइपलाइन बनाने के लिए ज़रूरी हैं. इस सेक्शन में, हम असल पाइपलाइन बनाने के लिए नोड जोड़ते हैं.
सभी नोड को पाइपलाइन में कनेक्ट करना
- कनेक्शन ऐरो को खींचें और छोड़ें > स्रोत नोड के दाएं किनारे पर और गंतव्य नोड के बाएं किनारे पर छोड़ें.
- किसी पाइपलाइन में कई ब्रांच हो सकती हैं, जिन्हें एक ही PubSub सोर्स नोड से पब्लिश किए गए मैसेज मिलते हैं.
- पाइपलाइन को नाम दें.
हो गया. आपने अभी-अभी डिप्लॉय और चलाने के लिए, रीयल-टाइम डेटा पाइपलाइन बनाई है.
Cloud Pub/Sub से मैसेज भेजना
Pub/Sub यूज़र इंटरफ़ेस (यूआई) का इस्तेमाल करके:
- GCP कंसोल पर जाएं -> Pub/Sub -> विषय पर क्लिक करें और आपका विषय चुनें. इसके बाद, सबसे ऊपर मौजूद मेन्यू में जाकर मैसेज प्रकाशित करें पर क्लिक करें.
- संदेश फ़ील्ड में एक बार में केवल एक रिकॉर्ड पंक्ति रखें. +कोई विशेषता जोड़ें बटन पर क्लिक करें. कुंजी दें = फ़ाइल नाम, मान = <रिकॉर्ड का प्रकार> (उदाहरण के लिए, मरीज़, सेवा देने वाले लोग, एलर्जी वगैरह).
- मैसेज भेजने के लिए, 'पब्लिश करें' बटन पर क्लिक करें.
gcloud कमांड का इस्तेमाल करके:
- मैन्युअल रूप से मैसेज भेजें.
gcloud pubsub topics publish <your-topic> --attribute <key>=<value> --message \ "paste one record row here"
- cat और sed Unix कमांड का इस्तेमाल करके, मैसेज को सेमी-ऑटोमैटिक तरीके से भरना. इस निर्देश को अलग-अलग पैरामीटर के साथ बार-बार चलाया जा सकता है.
gcloud pubsub topics publish <your-topic> --attribute <key>=<value> --message \ "$(gsutil cat gs://$BUCKET_NAME/csv/<value>.csv | sed -n '#p')"
6. पाइपलाइन को कॉन्फ़िगर करें, डिप्लॉय करें, और चलाएं
अब जब हमने डेटा पाइपलाइन डेवलप कर ली है, तो हम उसे Cloud Data Fusion में डिप्लॉय कर सकते हैं और चला सकते हैं.
- कॉन्फ़िगर करें को डिफ़ॉल्ट सेटिंग बनाए रखें.
- डेटा की झलक देखने के लिए, झलक देखें पर क्लिक करें**.** पिछली विंडो पर वापस टॉगल करने के लिए, फिर से **झलक देखें** पर क्लिक करें. **चलाएं** पर क्लिक करके, झलक मोड में भी पाइपलाइन चलाई जा सकती है.
- लॉग देखने के लिए, लॉग पर क्लिक करें.
- सभी बदलावों को सेव करने के लिए, सेव करें पर क्लिक करें.
- नई पाइपलाइन बनाते समय, सेव किए गए पाइपलाइन कॉन्फ़िगरेशन को इंपोर्ट करने के लिए, इंपोर्ट करें पर क्लिक करें.
- पाइपलाइन कॉन्फ़िगरेशन को एक्सपोर्ट करने के लिए, एक्सपोर्ट करें पर क्लिक करें.
- पाइपलाइन को डिप्लॉय करने के लिए, डिप्लॉय करें पर क्लिक करें.
- डिप्लॉयमेंट के बाद, Run पर क्लिक करें. इसके बाद, पाइपलाइन के पूरा होने का इंतज़ार करें.
- पाइपलाइन को किसी भी समय रोकने के लिए, बंद करें पर क्लिक करें.
- कार्रवाइयां बटन के नीचे 'डुप्लीकेट' चुनकर, पाइपलाइन का डुप्लीकेट बनाया जा सकता है.
- कार्रवाइयां बटन में 'एक्सपोर्ट करें' चुनकर, पाइपलाइन कॉन्फ़िगरेशन को एक्सपोर्ट किया जा सकता है.
- दौड़ने का इतिहास, रिकॉर्ड, गड़बड़ी के लॉग, और चेतावनियों के चार्ट दिखाने के लिए, खास जानकारी पर क्लिक करें.
7. पुष्टि
इस सेक्शन में, हम यह पुष्टि करते हैं कि डेटा पाइपलाइन ठीक से काम कर रही है या नहीं.
- पुष्टि करें कि पाइपलाइन सही तरीके से चल रही है और लगातार चल रही है.
- पुष्टि करें कि BigQuery टेबल को, TIMESTAMP के आधार पर अपडेट किए गए रिकॉर्ड से लोड किया गया है. इस उदाहरण में, 25-06-2019 को Pub/Sub के विषय पर, मरीज़ के दो रिकॉर्ड या मैसेज और एलर्जी से जुड़ा एक रिकॉर्ड या मैसेज पब्लिश किया गया था.
bq query --nouse_legacy_sql 'select (select count(*) from \ '$PROJECT_ID.$DATASET_ID.Patients' where TIMESTAMP > "2019-06-25 \ 01:29:00.0000 UTC" ) as Patients, (select count(*) from \ '$PROJECT_ID.$DATASET_ID.Allergies' where TIMESTAMP > "2019-06-25 \ 01:29:00.0000 UTC") as Allergies;'
Waiting on bqjob_r14c8b94c1c0fe06a_0000016b960df4e1_1 ... (0s) Current status: DONE
+----------+-----------+
| Patients | Allergies |
+----------+-----------+
| 2 | 1 |
+----------+-----------+
- पुष्टि करें कि <your-topic> पर पब्लिश किए गए मैसेज <your-sub> को मिले सदस्य.
gcloud pubsub subscriptions pull --auto-ack <your-sub>
नतीजे देखना
रीयलटाइम पाइपलाइन के चलने के दौरान, Pub/Sub विषय पर मैसेज पब्लिश होने के बाद दिखने वाले नतीजे देखने के लिए:
- BigQuery यूज़र इंटरफ़ेस (यूआई) में टेबल पर क्वेरी करें. BIGQUERY के यूज़र इंटरफ़ेस (यूआई) पर जाएं
- नीचे दी गई क्वेरी को अपने प्रोजेक्ट के नाम, डेटासेट, और टेबल में अपडेट करें.
8. साफ़ किया जा रहा है
इस ट्यूटोरियल में इस्तेमाल किए गए संसाधनों के लिए, आपके Google Cloud Platform खाते पर लगने वाले शुल्क से बचने के लिए:
ट्यूटोरियल खत्म करने के बाद, GCP पर बनाए गए संसाधनों को खाली किया जा सकता है. ऐसा करने से, वे कोटा इस्तेमाल नहीं करेंगे और आने वाले समय में आपको उनके लिए कोई बिल नहीं भेजा जाएगा. इन संसाधनों को मिटाने या बंद करने का तरीका नीचे सेक्शन में बताया गया है.
BigQuery डेटासेट को मिटाना
इस ट्यूटोरियल के हिस्से के तौर पर बनाए गए BigQuery डेटासेट को मिटाने के लिए, इन निर्देशों का पालन करें.
GCS बकेट को मिटाना
इस ट्यूटोरियल के हिस्से के तौर पर बनाए गए GCS बकेट को मिटाने के लिए, इन निर्देशों का पालन करें.
Cloud Data Fusion के इंस्टेंस को मिटाना
अपने Cloud Data Fusion इंस्टेंस को मिटाने के लिए, इन निर्देशों का पालन करें.
प्रोजेक्ट को मिटाना
बिलिंग हटाने का सबसे आसान तरीका, ट्यूटोरियल के लिए बनाए गए प्रोजेक्ट को मिटाना है.
प्रोजेक्ट मिटाने के लिए:
- GCP कंसोल में, प्रोजेक्ट पेज पर जाएं. प्रोजेक्ट पेज पर जाएं
- प्रोजेक्ट की सूची में, वह प्रोजेक्ट चुनें जिसे आपको मिटाना है. इसके बाद, मिटाएं पर क्लिक करें.
- डायलॉग बॉक्स में, प्रोजेक्ट आईडी टाइप करें. इसके बाद, प्रोजेक्ट मिटाने के लिए, शट डाउन करें पर क्लिक करें.
9. बधाई हो
बधाई हो, आपने Cloud Data Fusion का इस्तेमाल करके BigQuery में हेल्थकेयर डेटा डालने के लिए, कोड लैब पूरा कर लिया है.
आपने Pub/Sub विषय में CSV डेटा पब्लिश किया हो और उसे BigQuery में लोड किया हो.
आपने रीयल टाइम में स्वास्थ्य सेवा के डेटा को लोड करने, बदलने, और मास्क करने के लिए, विज़ुअल तौर पर डेटा-इंटिग्रेशन पाइपलाइन बनाई है.
अब आपको Google Cloud Platform पर, BigQuery के साथ स्वास्थ्य सेवा के डेटा के आंकड़ों को समझने में मदद करने वाले अहम चरणों के बारे में पता है.