Workflows के साथ BigQuery जॉब को साथ-साथ चलाना

28 मिनट बाकी हैं

इस कोडलैब (कोड बनाना सीखने के लिए ट्यूटोरियल) के बारे में जानकारी

पिछली बार जून 21, 2022 को अपडेट किया गया

Mete Atamel ने लिखा

1. परिचय

Workflows, पूरी तरह से मैनेज की गई ऑर्कस्ट्रैशन सेवा है, जो Google Cloud या बाहरी सेवाओं को आपके तय किए क्रम में एक्ज़ीक्यूट करती है.

BigQuery पूरी तरह से मैनेज किया गया एंटरप्राइज़ डेटा वेयरहाउस है. इससे टेराबाइट डेटा को मैनेज करने और उसका विश्लेषण करने में मदद मिलती है. इसमें मशीन लर्निंग, जियोस्पेशियल विश्लेषण, और बिज़नेस इंटेलिजेंस जैसी पहले से मौजूद सुविधाएं शामिल हैं.

इस कोडलैब में, सार्वजनिक तौर पर उपलब्ध Wikipedia डेटासेट के लिए BigQuery की कुछ क्वेरी चलाई जा सकती हैं. इसके बाद, वर्कफ़्लो ऑर्केस्ट्रेशन के तहत, आपको BigQuery क्वेरी को एक के बाद एक क्रम में चलाने का तरीका बताया जाएगा. आखिर में, आप वर्कफ़्लो में पांच गुना तक सुधार करने के लिए समानांतर इटरेशन सुविधा का इस्तेमाल करके क्वेरी को साथ-साथ चलाएंगे.

आप इन चीज़ों के बारे में जानेंगे

Wikipedia डेटासेट के लिए BigQuery क्वेरी चलाने का तरीका.
वर्कफ़्लो ऑर्केस्ट्रेशन के हिस्से के तौर पर, एक से ज़्यादा क्वेरी को क्रम से कैसे चलाएं.
वर्कफ़्लो में पांच गुना तक सुधार के लिए, वर्कफ़्लो के पैरलल इटरेशन का इस्तेमाल करके क्वेरी को साथ में कैसे रखें.

2. सेटअप और ज़रूरी शर्तें

अपने हिसाब से एनवायरमेंट सेटअप करें

Google Cloud Console में साइन इन करें और नया प्रोजेक्ट बनाएं या किसी मौजूदा प्रोजेक्ट का फिर से इस्तेमाल करें. अगर आपके पास पहले से Gmail या Google Workspace खाता नहीं है, तो आपको नया खाता बनाना होगा.

प्रोजेक्ट का नाम, इस प्रोजेक्ट में हिस्सा लेने वाले लोगों का डिसप्ले नेम होता है. यह एक वर्ण स्ट्रिंग है, जिसका इस्तेमाल Google API नहीं करता. इसे कभी भी अपडेट किया जा सकता है.
प्रोजेक्ट आईडी, Google Cloud के सभी प्रोजेक्ट के लिए यूनीक होना चाहिए. साथ ही, आईडी को बदला नहीं जा सकता. सेट अप के बाद इसे बदला नहीं जा सकता. Cloud Console, एक यूनीक स्ट्रिंग अपने-आप जनरेट करता है; आम तौर पर, आपको उसके होने की कोई परवाह नहीं होती. ज़्यादातर कोडलैब में, आपको प्रोजेक्ट आईडी का रेफ़रंस देना होगा. आम तौर पर, इसे PROJECT_ID के तौर पर पहचाना जाता है. अगर आपको जनरेट किया गया आईडी पसंद नहीं है, तो किसी भी क्रम में एक और आईडी जनरेट किया जा सकता है. इसके अलावा, खुद भी आज़माया जा सकता है और देखें कि वह उपलब्ध है या नहीं. इस चरण के बाद इसे बदला नहीं जा सकता और प्रोजेक्ट के कुल समय तक बना रहेगा.
आपकी जानकारी के लिए, एक तीसरी वैल्यू यानी प्रोजेक्ट नंबर है. इसका इस्तेमाल कुछ एपीआई करते हैं. दस्तावेज़ में इन तीनों वैल्यू के बारे में ज़्यादा जानें.

इसके बाद, आपको क्लाउड संसाधनों/एपीआई का इस्तेमाल करने के लिए, Cloud Console में बिलिंग चालू करनी होगी. इस कोडलैब का इस्तेमाल करने पर, आपको ज़्यादा पैसे नहीं चुकाने होंगे. इस ट्यूटोरियल के अलावा, संसाधनों को बंद करने के लिए कि आपको बिलिंग न करनी पड़े. इसके लिए, अपने बनाए गए संसाधनों को मिटाएं या पूरा प्रोजेक्ट मिटाएं. Google Cloud के नए उपयोगकर्ता, 300 डॉलर के मुफ़्त ट्रायल वाले प्रोग्राम में हिस्सा ले सकते हैं.

क्लाउड शेल शुरू करें

Google Cloud को आपके लैपटॉप से, कहीं से भी ऑपरेट किया जा सकता है. हालांकि, इस कोडलैब में Google Cloud Shell का इस्तेमाल किया जा रहा है. यह क्लाउड में चलने वाला कमांड लाइन एनवायरमेंट है.

Google Cloud Console में जाकर, सबसे ऊपर दाईं ओर मौजूद टूलबार पर क्लाउड शेल आइकॉन पर क्लिक करें:

प्रावधान करने और एनवायरमेंट से कनेक्ट होने में कुछ ही समय लगेगा. उसके पूरा हो जाने पर, आपको कुछ ऐसा दिखाई देगा:

इस वर्चुअल मशीन में ऐसे सभी डेवलपमेंट टूल मौजूद हैं जिनकी आपको ज़रूरत पड़ेगी. यह पांच जीबी की स्थायी होम डायरेक्ट्री उपलब्ध कराता है और Google Cloud पर चलता है. यह नेटवर्क की परफ़ॉर्मेंस और पुष्टि करने की प्रक्रिया को बेहतर बनाता है. इस कोडलैब (कोड बनाना सीखना) में आपका सारा काम ब्राउज़र में किया जा सकता है. आपको कुछ भी इंस्टॉल करने की ज़रूरत नहीं है.

3. Wikipedia डेटासेट के बारे में ज़्यादा जानें

सबसे पहले, BigQuery में Wikipedia डेटासेट के बारे में जानें.

Google Cloud Console के BigQuery सेक्शन पर जाएं:

bigquery-samples में, आपको कई सार्वजनिक डेटासेट दिखेंगे. इनमें विकिपीडिया से जुड़े कुछ डेटासेट भी शामिल हैं:

wikipedia_pageviews डेटासेट में, अलग-अलग सालों के पेज व्यू के लिए अलग-अलग टेबल देखी जा सकती हैं:

कोई एक टेबल चुनी जा सकती है (उदाहरण के लिए, 201207) और डेटा की झलक देखें:

टेबल से जुड़ी क्वेरी भी चलाई जा सकती हैं. उदाहरण के लिए, यह क्वेरी सबसे ज़्यादा व्यू वाले 100 सबसे लोकप्रिय टाइटल चुनता है:

SELECT TITLE, SUM(views)
FROM bigquery-samples.wikipedia_pageviews.201207h
GROUP BY TITLE
ORDER BY SUM(VIEWS) DESC
LIMIT 100

क्वेरी चलाने के बाद, डेटा लोड होने में करीब 20 सेकंड लगते हैं:

4. एक से ज़्यादा क्वेरी चलाने के लिए एक वर्कफ़्लो तय करें

किसी एक टेबल के लिए क्वेरी चलाना आसान है. हालांकि, एक से ज़्यादा टेबल के हिसाब से कई क्वेरी चलाना और नतीजों को इकट्ठा करना मुश्किल हो सकता है. इसमें मदद करने के लिए, Workflows इसके इटरेशन सिंटैक्स में मदद कर सकता है!

Cloud Shell के अंदर, एक workflow-serial.yaml फ़ाइल बनाएं, ताकि एक से ज़्यादा टेबल के लिए एक से ज़्यादा क्वेरी चलाने के लिए वर्कफ़्लो बनाया जा सके:

touch workflow-serial.yaml

इसके बाद, Cloud Shell में एडिटर की मदद से फ़ाइल में बदलाव किया जा सकता है:

workflow-serial.yaml फ़ाइल के अंदर, पहले init चरण में, एक results मैप बनाएं, ताकि हर गतिविधि को टेबल के नामों से ट्रैक किया जा सके. साथ ही, उन टेबल की सूची के साथ tables कलेक्शन तय करें जिनके लिए आपको क्वेरी चलानी हैं. इस मामले में, हम पांच टेबल चुन रहे हैं:

main:
    steps:
    - init:
        assign:
            - results : {}
            - tables:
                - 201201h
                - 201202h
                - 201203h
                - 201204h
                - 201205h

इसके बाद, एक runQueries चरण तय करें. यह चरण प्रत्येक टेबल के ऊपर दोहराया जाता है और वर्कफ़्लो का उपयोग करता है BigQuery कनेक्टर का इस्तेमाल करके, क्वेरी चलाकर हर टेबल में सबसे ज़्यादा पेज व्यू वाले 100 सबसे ज़्यादा पेज व्यू का पता लगाया जा सकता है. इसके बाद, नतीजों वाले मैप में हर टेबल के टाइटल और व्यू को सेव करता है:

    - runQueries:
        for:
            value: table
            in: ${tables}
            steps:
            - runQuery:
                call: googleapis.bigquery.v2.jobs.query
                args:
                    projectId: ${sys.get_env("GOOGLE_CLOUD_PROJECT_ID")}
                    body:
                        useLegacySql: false
                        useQueryCache: false
                        timeoutMs: 30000
                        # Find the top 100 titles with most views on Wikipedia
                        query: ${
                            "SELECT TITLE, SUM(views)
                            FROM `bigquery-samples.wikipedia_pageviews." + table + "`
                            WHERE LENGTH(TITLE) > 10
                            GROUP BY TITLE
                            ORDER BY SUM(VIEWS) DESC
                            LIMIT 100"
                            }
                result: queryResult
            - returnResult:
                assign:
                    # Return the top title from each table
                    - results[table]: {}
                    - results[table].title: ${queryResult.rows[0].f[0].v}
                    - results[table].views: ${queryResult.rows[0].f[1].v}

आखिरी चरण में, results मैप दिखाएं:

    - returnResults:
        return: ${results}

5. Workflows की मदद से कई क्वेरी चलाएं

वर्कफ़्लो को डिप्लॉय और चलाने से पहले, यह पक्का करें कि Workflows API को चालू किया गया हो. इसे Google Cloud Console से या Cloud Shell में gcloud का इस्तेमाल करके चालू किया जा सकता है:

gcloud services enable workflows.googleapis.com

वर्कफ़्लो के लिए सेवा खाता बनाएं:

SERVICE_ACCOUNT=workflows-bigquery-sa
gcloud iam service-accounts create $SERVICE_ACCOUNT \
  --display-name="Workflows BigQuery service account"

पक्का करें कि सेवा खाते में, BigQuery जॉब को लॉग करने और चलाने के लिए ज़रूरी भूमिकाएं हों:

PROJECT_ID=your-project-id
gcloud projects add-iam-policy-binding $PROJECT_ID \
  --role roles/logging.logWriter \
  --role roles/bigquery.jobUser \
  --member serviceAccount:$SERVICE_ACCOUNT@$PROJECT_ID.iam.gserviceaccount.com

सेवा खाते के साथ वर्कफ़्लो को डिप्लॉय करें:

gcloud workflows deploy bigquery-serial \
    --source=workflow-serial.yaml \
    --service-account=$SERVICE_ACCOUNT@$PROJECT_ID.iam.gserviceaccount.com

आखिर में, आप वर्कफ़्लो चलाने के लिए तैयार हैं.

Cloud Console के वर्कफ़्लो सेक्शन में, bigquery-serial वर्कफ़्लो ढूंढें और Execute बटन दबाएं:

इसके अलावा, Cloud Shell में gcloud के साथ भी वर्कफ़्लो चलाया जा सकता है:

gcloud workflows run bigquery-serial

आपको करीब एक मिनट तक चलने वाला वर्कफ़्लो दिखना चाहिए (पांच टेबल में से हर एक के लिए 20 सेकंड).

आखिर में, आपको हर टेबल का आउटपुट, सबसे ज़्यादा देखे गए टाइटल और व्यू के साथ दिखेगा:

6. साथ-साथ चलने वाले चरणों का इस्तेमाल करके, एक से ज़्यादा क्वेरी को साथ में प्रोसेस करना

पिछले चरण के वर्कफ़्लो में करीब एक मिनट लगा, क्योंकि इसमें पांच क्वेरी चलाई गईं, जिनमें से हर एक क्वेरी में 20 सेकंड का समय लगा. ये इंडिपेंडेंट क्वेरी हैं. इसलिए, Workflows की पैरलल इटरेशन सुविधा का इस्तेमाल करके, इन्हें असल में साथ-साथ चलाया जा सकता है.

workflow-serial.yaml फ़ाइल को एक नई workflow-parallel.yaml फ़ाइल में कॉपी करें. नई फ़ाइल में, सीरियल के चरणों को साथ-साथ चलने वाले चरणों में बदलने के लिए आपको कुछ बदलाव करने होंगे.

workflow-parallel.yaml फ़ाइल में, runQueries चरण बदलें. सबसे पहले, parallel कीवर्ड जोड़ें. इससे लूप की हर इटरेशन को साथ-साथ चलने की अनुमति मिलती है. इसके बाद, results वैरिएबल को shared वैरिएबल के तौर पर बताएं. इससे वैरिएबल को ब्रांच में लिखा जा सकता है. हम हर नतीजे को इस वैरिएबल में जोड़ेंगे.

- runQueries:
    parallel:
        shared: [results]
        for:
            value: table
            in: ${tables}

साथ-साथ चलने वाला वर्कफ़्लो डिप्लॉय करें:

gcloud workflows deploy bigquery-parallel \
    --source=workflow-parallel.yaml \
    --service-account=$SERVICE_ACCOUNT@$PROJECT_ID.iam.gserviceaccount.com

वर्कफ़्लो चलाएं:

gcloud workflows run bigquery-parallel

आपको करीब 20 सेकंड का वर्कफ़्लो दिखेगा. ऐसा साथ-साथ चल रही सभी पांच क्वेरी की वजह से होता है. सिर्फ़ कुछ लाइनों में कोड बदलने से, इंटरनेट की स्पीड में पांच गुना तक सुधार किया जा सकता है!

आखिर में, आपको हर टेबल में सबसे अच्छे टाइटल और व्यू के साथ एक ही तरह का आउटपुट दिखेगा. हालांकि, इसे लागू करने में काफ़ी कम समय लगेगा:

7. बधाई हो

बधाई हो, आपने कोडलैब पूरा कर लिया है! ज़्यादा जानने के लिए, साथ-साथ चलने वाले चरणों से जुड़े वर्कफ़्लो दस्तावेज़ देखें.

हमने इन विषयों के बारे में बताया

Wikipedia डेटासेट के लिए BigQuery क्वेरी चलाने का तरीका.
वर्कफ़्लो ऑर्केस्ट्रेशन के हिस्से के तौर पर, एक से ज़्यादा क्वेरी को क्रम से कैसे चलाएं.
स्पीड में पांच गुना तक सुधार के लिए, वर्कफ़्लो के पैरलल इटरेशन का इस्तेमाल करके क्वेरी को साथ में कैसे रखें.

गलती की शिकायत करें