1. परिचय
BigQuery बिना सर्वर वाला ऐसा डेटा वेयरहाउस है जिसे बड़े पैमाने पर बढ़ाया जा सकता है. साथ ही, यह एक किफ़ायती डेटा वेयरहाउस है. आपको बस अपना डेटा BigQuery में ट्रांसफ़र करना होगा. इसके बाद, हमें मेहनत करने का मौका मिल जाएगा, ताकि आप कारोबार को चलाने के लिए ज़रूरी चीज़ों पर ध्यान दे सकें. अपने कारोबार की ज़रूरतों के मुताबिक, प्रोजेक्ट और डेटा, दोनों के ऐक्सेस को कंट्रोल किया जा सकता है. उदाहरण के लिए, दूसरों को अपना डेटा देखने या उसके बारे में क्वेरी करने की सुविधा देना.
इस लैब में, आपको BigQuery के आंकड़ों के बारे में जानकारी मिलेगी. Google Cloud Storage बकेट से डेटासेट इंपोर्ट करने का तरीका जानें. साथ ही, रीटेल बैंकिंग के डेटासेट के साथ काम करके, BigQuery यूज़र इंटरफ़ेस (यूआई) को बेहतर तरीके से समझें. इसके अलावा, इस लैब में आपको BigQuery की उन अहम सुविधाओं का पता लगाने का तरीका भी पता चलेगा जो आपके रोज़ के आंकड़ों को बहुत आसान बनाती हैं. जैसे- स्प्रेडशीट में क्वेरी के नतीजे एक्सपोर्ट करना, अपनी क्वेरी के इतिहास से क्वेरी देखना और चलाना, क्वेरी की परफ़ॉर्मेंस देखना, और टेबल व्यू बनाना, ताकि दूसरी टीमें और विभाग इनका इस्तेमाल कर सकें.
आपको क्या सीखने को मिलेगा
इस लैब में, आपको इन कामों को करने का तरीका पता चलता है:
- BigQuery में नया डेटा लोड हो रहा है
- BigQuery यूज़र इंटरफ़ेस (यूआई) के बारे में जानना
- BigQuery में क्वेरी चलाना
- क्वेरी की परफ़ॉर्मेंस देखें
- BigQuery में व्यू बनाना
- दूसरों के साथ सुरक्षित तरीके से डेटासेट शेयर करना
2. बुनियादी जानकारी: BigQuery यूज़र इंटरफ़ेस (यूआई) को समझना
इस सेक्शन में, आपको BigQuery यूज़र इंटरफ़ेस (यूआई) को नेविगेट करने, उपलब्ध डेटासेट देखने, और एक आसान क्वेरी चलाने का तरीका बताया जाएगा.
BQ यूज़र इंटरफ़ेस (यूआई) लोड हो रहा है
- "BigQuery" टाइप करें सबसे ऊपर मौजूद है.
- विकल्प सूची से BigQuery चुनें. पक्का करें कि आपने वह विकल्प चुना हो जिसमें BigQuery का लोगो, मैग्नीफ़ाइंग ग्लास है.
डेटासेट देखना और क्वेरी चल रही है
- संसाधन सेक्शन के बाएं पैनल में, अपने BigQuery प्रोजेक्ट पर क्लिक करें.
- उस डेटासेट में मौजूद टेबल देखने के लिए,
bq_demo
पर क्लिक करें - 'खोजने के लिए टाइप करें' बॉक्स में, "card" टाइप करें ऐसी टेबल और डेटासेट की सूची देखने के लिए जिनमें "card" हो नाम में रखा जाएगा.
- "card_transactions" चुनें खोज के नतीजों की सूची से टेबल
- इस टेबल का मेटाडेटा देखने के लिए,
card_transactions
पैनल के नीचे मौजूद 'जानकारी' टैब पर क्लिक करें. - टेबल की झलक देखने के लिए, 'झलक देखें' टैब पर क्लिक करें
[प्रतिस्पर्धी की चर्चा का विषय]: Google डेटा कैटलॉग के साथ इंटिग्रेट करने का मतलब है कि BigQuery मेटाडेटा को दूसरे डेटा सोर्स के साथ मैनेज किया जा सकता है. जैसे, डेटा लेक या ऑपरेशनल डेटा सोर्स. इस उदाहरण में बताया गया है कि Google Cloud, सिर्फ़ रिलेशनल डेटा वेयरहाउस नहीं है, बल्कि आंकड़ों से जुड़ा एक पूरा डेटा वेयरहाउस है.
- "card_transactions" के बारे में क्वेरी करने के लिए मैग्नीफ़ाइंग ग्लास के आइकॉन पर क्लिक करें टेबल. अपने-आप जनरेट होने वाला टेक्स्ट, BigQuery क्वेरी एडिटर में अपने-आप भर जाएगा.
- Card_लेन-देन टेबल से अलग-अलग कारोबारी या कंपनी दिखाने के लिए, नीचे दिया गया कोड डालें
SELECT distinct (merchant) FROM bq_demo.card_transactions LIMIT 1000
- क्वेरी चलाने के लिए, 'रन' बटन पर क्लिक करें.
3. डेटासेट बनाना और व्यू शेयर करना
डेटा और मैनेजमेंट बहुत ज़रूरी है. इसे BQ यूज़र इंटरफ़ेस (यूआई) में आसानी से किया जा सकता है. इस सेक्शन में, आपको नया डेटासेट बनाने, व्यू में जानकारी भरने, और उसे शेयर करने का तरीका बताया जाएगा.
क्वेरी का इतिहास देखना
- "क्वेरी इतिहास" पर क्लिक करें GCP कंसोल के बाएं पैनल में
- क्वेरी इतिहास पैनल में रीफ़्रेश करें पर क्लिक करें
- क्वेरी के नतीजे देखने के लिए, क्वेरी के सबसे दाईं ओर डाउनलोड की गई इमेज/ऐरो पर क्लिक करें.
नया डेटासेट बनाना
- BigQuery यूज़र इंटरफ़ेस (यूआई) के संसाधन पैनल में [अपने प्रोजेक्ट का नाम] चुनें.
- "नया डेटासेट बनाएं" चुनें प्रोजेक्ट की जानकारी वाले पैनल से
- डेटासेट आईडी के लिए:
bq_demo_shared
- अन्य सभी फ़ील्ड को डिफ़ॉल्ट के तौर पर छोड़ें
- "डेटासेट बनाएं" पर क्लिक करें
व्यू बढ़ाना
[प्रतिस्पर्धी टॉकिंग पॉइंट]: BigQuery, एएनएसआई एसक्यूएल का पूरी तरह से अनुपालन करने वाला प्लैटफ़ॉर्म है. यह सरल और जटिल मल्टी-टेबल जॉइन और ज़्यादा बेहतर विश्लेषण वाले फ़ंक्शन, दोनों के साथ काम करता है. हमने माइग्रेशन की प्रोसेस को आसान बनाने के लिए, पारंपरिक डेटा वेयरहाउस में इस्तेमाल किए जाने वाले सामान्य एसक्यूएल डेटा टाइप और फ़ंक्शन के लिए, बेहतर सहायता लगातार जारी की है.
- "नई क्वेरी लिखें" चुनें पर क्लिक करें.
- क्वेरी एडिटर में यह कोड डालें
WITH revenue_by_month AS (
SELECT
card.type AS card_type,
FORMAT_DATE('%Y-%m', trans_date) as revenue_date,
SUM(amount) as revenue
FROM bq_demo.card_transactions
JOIN bq_demo.card ON card_transactions.cc_number = card.card_number
WHERE trans_date DATE_ADD(CURRENT_DATE, INTERVAL -1 YEAR)
GROUP BY card_type, revenue_date
)
SELECT
card_type,
revenue_date,
revenue as monthly_rev,
revenue - LAG(revenue) OVER (ORDER BY card_type, revenue_date ASC) as rev_change
FROM revenue_by_month
ORDER BY card_type, revenue_date ASC;
- "व्यू सेव करें" पर क्लिक करें
- प्रोजेक्ट के नाम के लिए, अपना मौजूदा प्रोजेक्ट चुनें
- नया डेटासेट चुनें:
bq_demo_shared
- टेबल के नाम के लिए:
rev_change_by_card_type
- 'सेव करें' पर क्लिक करें.
व्यू और डेटासेट शेयर करना
- "bq_demo_shared" चुनें डेटासेट को देखने के लिए, BigQuery यूज़र इंटरफ़ेस (यूआई) में बाईं ओर दिए गए संसाधन पैनल में जाएं.
- "डेटासेट शेयर करें" पर क्लिक करें डेटासेट जानकारी पैनल में
- कोई ईमेल पता डालें
- "BigQuery डेटा व्यूअर" चुनें भूमिका ड्रॉपडाउन मेन्यू से
- "जोड़ें" पर क्लिक करें
- 'हो गया' पर क्लिक करें
Sheets में डेटा एक्सप्लोर करना
[प्रतिस्पर्धी टॉकिंग पॉइंट]: BigQuery का एक अन्य फ़ायदा, अपने प्रतिस्पर्धियों के मुकाबले बीआई इंजन है. बीआई इंजन का इस्तेमाल करके, इन-मेमोरी कैश मेमोरी में सेव किए जाने वाले बीआई इंजन की मदद से, एक सेकंड से भी कम समय में बीआई टाइप की खास जानकारी वाली क्वेरी दिखाई जा सकती हैं. फ़िलहाल, यह सुविधा Google Data Studio में काम करती है. हालांकि, जल्द ही यह सुविधा BigQuery में सभी क्वेरी को तेज़ी से लोड करने के लिए उपलब्ध होगी.
उदाहरण के लिए:
Snowflake, डैशबोर्ड और डेटा विज़ुअलाइज़ेशन के लिए तीसरे पक्ष के बीआई टूल का इस्तेमाल करता है, जबकि GCP, कनेक्टेड शीट, Data Studio, और Looker के साथ-साथ कई तरह के इंटिग्रेट किए गए बीआई टूल उपलब्ध कराता है.
- "Rev_change_by_card_type" चुनें BigQuery यूज़र इंटरफ़ेस (यूआई) में, बाएं संसाधन पैनल से देखें.
- व्यू के बारे में क्वेरी करने के लिए, मैग्नीफ़ाइंग ग्लास के आइकॉन पर क्लिक करें
- प्रकार:
चुनें *
bq_demo_shared.Rev_change_by_card_type से
- 'रन' पर क्लिक करें
- "एक्सपोर्ट करें" पर क्लिक करें नतीजों के पैनल का आइकॉन
- "Sheets की मदद से डेटा एक्सप्लोर करें" चुनें
- "विश्लेषण शुरू करें" पर क्लिक करें
- "पिवट टेबल" चुनें
- "नई शीट" चुनें
- "बनाएं" पर क्लिक करें
- "revenue_date" जोड़ें आपको शीट विंडो की दाईं ओर मौजूद पिवट टेबल एडिटर के लाइन सेक्शन में
- "card_type" जोड़ें यह आपको कॉलम सेक्शन में
- "month_Rev" जोड़ें यह आपको कॉलम सेक्शन में
- लागू करें पर क्लिक करें
- Sheets के यूज़र इंटरफ़ेस (यूआई) के टॉप रॉबिन पर जाएं और 'चार्ट शामिल करें' चुनें
4. सेटअप: डेटा इंटिग्रेशन
इस सेक्शन में, आपको Google Cloud के पास मौजूद कई सार्वजनिक डेटासेट में से किसी एक पर, नई टेबल बनाने और 'जॉइन' इस्तेमाल करने का तरीका बताया जाएगा.
[प्रतिस्पर्धी टॉकिंग पॉइंट]:
BigQuery कई सालों से शेयर किए गए डेटा सेट के साथ काम कर रहा है. किसी भी प्रोजेक्ट के ग्राहक, उनके साथ शेयर किए गए दूसरे प्रोजेक्ट में सार्वजनिक डेटा सेट और डेटा सेट, दोनों के लिए क्वेरी कर सकते हैं.
BigQuery, बाहरी टेबल का इस्तेमाल करके, GCS (जीसीएस) में डेटा लेक के साथ काम कर सकता है. BigQuery में बल्क लोडिंग के साथ ही, BigQuery में डेटा को डेटाबेस में स्ट्रीम करने की सुविधा मिलती है. इस डेटा को हर सेकंड में सैकड़ों एमबी से ज़्यादा की दर से इस्तेमाल किया जा सकता है. Snowflake के पास डेटा को स्ट्रीम करने की सुविधा नहीं है.
नई टेबल में डेटा इंपोर्ट करना
- संसाधन पैनल में, bq_demo डेटासेट चुनें
- डेटासेट की जानकारी वाले पैनल में, "टेबल बनाएं" चुनें
- Source के लिए Google Cloud Storage चुनें
- फ़ाइल पाथ टेक्स्ट बॉक्स में:
gs://retail-banking-looker/district
- फ़ाइल फ़ॉर्मैट के लिए CSV चुनें
- "ज़िला" डालें टेबल के नाम के लिए
- अपने-आप पहचान करने वाली स्कीमा का चेकबॉक्स चुनें
- 'टेबल बनाएं' पर क्लिक करें
सार्वजनिक डेटासेट के लिए क्वेरी करना
- क्वेरी एडिटर में, यह क्वेरी डालें:
SELECT
CAST(geo_id as STRING) AS zip_code,
total_pop,
median_age,
households,
income_per_capita,
housing_units,
vacant_housing_units_for_sale,
ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
ROUND(SAFE_DIVIDE(bachelors_degree_or_higher_25_64, pop_25_64),4) AS rate_bachelors_degree_or_higher_25_64
FROM
`bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`;
- 'रन' पर क्लिक करें
- नतीजे देखें
- अब हम इस सार्वजनिक डेटा को किसी दूसरी क्वेरी के साथ जोड़ेंगे. क्वेरी एडिटर में, यह एसक्यूएल कोड डालें:
WITH customer_counts AS (
select regexp_extract(address, "[0-9][0-9][0-9][0-9][0-9]") as zip_code,
count(*) as num_clients
FROM bq_demo.client
GROUP BY zip_code
)
SELECT
CAST(geo_id as STRING) AS zip_code,
total_pop,
median_age,
households,
income_per_capita,
ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
num_clients
FROM
`bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`
JOIN customer_counts on zip_code = geo_id
ORDER BY num_clients DESC
- 'रन' पर क्लिक करें
- नतीजे देखें
5. कपैसिटी मैनेजमेंट
स्लॉट और बुकिंग से जुड़े काम करना
BQ में आपकी ज़रूरतों के हिसाब से, अलग-अलग कीमत तय करने के कई मॉडल उपलब्ध हैं. ज़्यादातर बड़े ग्राहक, पहले से तय की गई कीमत के लिए, पहले से तय की गई कीमत का फ़ायदा लेते हैं. इस बेसलाइन की क्षमता से ज़्यादा काम करने के लिए, BQ में फ़्लेक्सिबल स्लॉट उपलब्ध कराए जाते हैं. इससे तुरंत अतिरिक्त क्षमता हासिल की जा सकती है और क्वेरी अपने-आप कम हो जाती है. BQ में एक बाइट स्कैन मॉडल भी है, जो आपको सिर्फ़ आपकी चलाई गई क्वेरी के लिए पैसे चुकाने की सुविधा देता है.
[प्रतिस्पर्धी की चर्चा: कुछ कंपनियां खास तौर पर, एक तय क्षमता वाले मॉडल पर काम करती हैं, जहां ग्राहकों को अपने संगठन में हर वर्कलोड के लिए एक वर्चुअल वेयरहाउस तय करना होता है. BigQuery का इस्तेमाल करना आसान बनाने वाले हर क्वेरी के लिए कम लागत वाले मॉडल के अलावा, हम एक समान दर वाली क्षमता की कीमत तय करने वाले मॉडल का इस्तेमाल करते हैं. इस मॉडल में, काम न करने की क्षमता को वर्कलोड के सेट के बीच शेयर किया जा सकता है.]
- बुकिंग टैब पर जाएं.
- "स्लॉट खरीदें" पर क्लिक करें
- "Flex" चुनें अवधि के रूप में.
- 500 स्लॉट चुनें.
- खरीदारी की पुष्टि करें.
- स्लॉट की प्रतिबद्धता देखें पर क्लिक करें.
- "बुकिंग बनाएं" पर क्लिक करें
- उपयोगकर्ता "डेमो" आरक्षण के नाम के रूप में
- जगह के तौर पर अमेरिका चुनें
- स्लॉट के लिए टाइप 500 (सभी उपलब्ध हैं)
- असाइनमेंट पर क्लिक करें
- संगठन के प्रोजेक्ट के लिए मौजूदा प्रोजेक्ट चुनें
- "डेमो" चुनें रिज़र्वेशन आईडी के लिए
- 'बनाएं" पर क्लिक करें.