BigQuery में पार्टिशन और क्लस्टरिंग

1. परिचय

BigQuery, आंकड़ों के लिए पूरी तरह से मैनेज किया गया, पेटाबाइट साइज़ का, कम लागत वाला एंटरप्राइज़ डेटा वेयरहाउस है. BigQuery में कोई सर्वर नहीं होता है. आपको क्लस्टर सेट अप और मैनेज करने की ज़रूरत नहीं है.

BigQuery डेटासेट, GCP प्रोजेक्ट में होता है. इसमें एक या उससे ज़्यादा टेबल होती हैं. इन डेटासेट की क्वेरी के लिए, एसक्यूएल का इस्तेमाल किया जा सकता है.

इस कोडलैब में, आपको GCP कंसोल में BigQuery वेब यूज़र इंटरफ़ेस (यूआई) का इस्तेमाल करना होगा. इससे BigQuery में, डेटा को अलग-अलग सेगमेंट में बांटने और उन्हें क्लस्टर में बांटने की सुविधा को समझा जा सकता है. BigQuery की टेबल के पार्टिशन और क्लस्टरिंग की मदद से आपका डेटा व्यवस्थित किया जा सकता है, ताकि डेटा के ऐक्सेस के सामान्य पैटर्न को मैच किया जा सके. किसी खास डेटा रेंज पर क्वेरी करते समय, BigQuery की परफ़ॉर्मेंस और उसकी लागत को पूरी तरह से बढ़ाने के लिए, डेटा को अलग-अलग सेगमेंट में बांटना और क्लस्टर करना ज़रूरी है. इसकी वजह से, हर क्वेरी के लिए कम डेटा स्कैन होता है और क्वेरी के शुरू होने के समय से पहले, काट-छांट की जाती है.

BigQuery के बारे में ज़्यादा जानकारी के लिए, BigQuery दस्तावेज़ देखें.

आप इन चीज़ों के बारे में जानेंगे

  • सेगमेंट में बांटी गई और क्लस्टर की गई टेबल बनाने और उनसे क्वेरी करने का तरीका
  • सेगमेंट में बांटी गई और क्लस्टर की गई टेबल की मदद से क्वेरी की परफ़ॉर्मेंस की तुलना करना

आपको इन चीज़ों की ज़रूरत होगी

इस लैब को पूरा करने के लिए, आपको इनकी ज़रूरत होगी:

  • Google Chrome का सबसे नया वर्शन
  • Google Cloud Platform का बिलिंग खाता

2. सेट अप किया जा रहा है

BigQuery के साथ काम करने के लिए, आपको GCP प्रोजेक्ट बनाना होगा या कोई मौजूदा प्रोजेक्ट चुनना होगा.

प्रोजेक्ट बनाना

नया प्रोजेक्ट बनाने के लिए, यह तरीका अपनाएं:

  1. अगर आपके पास पहले से कोई Google खाता (Gmail या Google Apps) नहीं है, तो एक खाता बनाएं.
  2. Google Cloud Platform कंसोल ( console.cloud.google.com) में साइन इन करें और एक नया प्रोजेक्ट बनाएं.
  3. अगर आपके पास कोई प्रोजेक्ट नहीं है, तो 'प्रोजेक्ट बनाएं' बटन पर क्लिक करें:

870a3cbd6541ee86.png

अगर ऐसा नहीं है, तो प्रोजेक्ट चुनने के मेन्यू से कोई नया प्रोजेक्ट बनाएं:

f6dff3437a20cf2.png

  1. प्रोजेक्ट का नाम डालें और बनाएं चुनें. ध्यान दें कि प्रोजेक्ट आईडी, Google Cloud के सभी प्रोजेक्ट का एक यूनीक नाम होता है.

1884405a64ce5765.png

3. सार्वजनिक डेटासेट के साथ काम करना

BigQuery की मदद से, सार्वजनिक डेटासेट पर काम किया जा सकता है. इनमें BBC News, GitHub रिपो, स्टैक ओवरफ़्लो, और यूएस नैशनल ओशिएनिक ऐंड ऐटमॉस्फ़ेरिक एडमिनिस्ट्रेशन (एनओएए) डेटासेट शामिल हैं. आपको इन डेटासेट को BigQuery में लोड करने की ज़रूरत नहीं है. BigQuery में डेटासेट ब्राउज़ करने और क्वेरी करने के लिए, आपको सिर्फ़ उन्हें खोलना होगा. इस कोडलैब में, आप Stack Overflow के सार्वजनिक डेटासेट के साथ काम करेंगे.

Stack Overflow डेटासेट को ब्राउज़ करें

Stack Overflow डेटासेट में पोस्ट, टैग, बैज, टिप्पणियों, उपयोगकर्ताओं वगैरह के बारे में जानकारी है. BigQuery वेब यूज़र इंटरफ़ेस (यूआई) में Stack Overflow डेटासेट को ब्राउज़ करने के लिए, यह तरीका अपनाएं:

  1. स्टैक ओवरफ़्लो डेटासेट खोलें. BigQuery वेब यूज़र इंटरफ़ेस (यूआई), GCP कंसोल में खुलता है और Stack Overflow डेटासेट के बारे में जानकारी दिखाता है.
  2. नेविगेशन पैनल में , bigquery-public-data चुनें. इसके बाद, मेन्यू बड़ा हो जाता है, ताकि सार्वजनिक डेटासेट की सूची बनाई जा सके. हर डेटासेट में एक या ज़्यादा टेबल होती हैं.
  3. नीचे की ओर स्क्रोल करें और stackoverflow को चुनें. स्टैक ओवरफ़्लो डेटासेट में टेबल की सूची बनाने के लिए मेन्यू बड़ा हो जाता है.
  4. बैज टेबल का स्कीमा देखने के लिए, बैज चुनें. टेबल में फ़ील्ड के नाम नोट करें.
  5. बैज टेबल का सैंपल डेटा देखने के लिए, फ़ील्ड के नाम के ऊपर झलक देखें पर क्लिक करें.

BigQuery में उपलब्ध सभी सार्वजनिक डेटासेट के बारे में ज़्यादा जानकारी के लिए, Google BigQuery सार्वजनिक डेटासेट देखें.

Stack Overflow डेटासेट के बारे में क्वेरी करना

डेटासेट को ब्राउज़ करना, उस डेटा को समझने का एक अच्छा तरीका है जिस पर काम किया जा रहा है. हालांकि, डेटासेट की क्वेरी करना ऐसी सबसे बेहतर जगह है जहां BigQuery सबसे ज़्यादा काम करता है. इस सेक्शन में BigQuery क्वेरी को चलाने का तरीका बताया गया है. अब आपको किसी एसक्यूएल के बारे में जानने की ज़रूरत नहीं है. यहां दी गई क्वेरी को कॉपी करके चिपकाया जा सकता है.

क्वेरी चलाने के लिए, नीचे दिए गए चरणों को पूरा करें:

  1. GCP कंसोल के सबसे ऊपर दाईं ओर, नई क्वेरी लिखें चुनें.
  2. क्वेरी एडिटर टेक्स्ट एरिया में, यहां दी गई SQL क्वेरी कॉपी करें और चिपकाएं. BigQuery, क्वेरी की पुष्टि करता है. साथ ही, वेब यूज़र इंटरफ़ेस (यूआई) के टेक्स्ट एरिया के नीचे हरे रंग का सही का निशान दिखता है. इससे पता चलता है कि सिंटैक्स मान्य है.
SELECT
  EXTRACT(YEAR FROM creation_date) AS creation_year,
  COUNT(*) AS total_posts
FROM `bigquery-public-data.stackoverflow.posts_questions`
GROUP BY creation_year
ORDER BY total_posts DESC
LIMIT 10
  1. Run चुनें. क्वेरी, हर साल पोस्ट किए गए Stack Overflow पोस्ट या सवालों की संख्या दिखाती है.

4. नई टेबल बनाना

पिछले सेक्शन में, आपने उन सार्वजनिक डेटासेट के बारे में क्वेरी की थी जिन्हें BigQuery आपके लिए उपलब्ध कराता है. इस सेक्शन में, मौजूदा टेबल से BigQuery में एक नई टेबल बनाएं. आपको एक नई टेबल बनानी होगी, जिसमें Stack Overflow सार्वजनिक डेटासेट posts_questions टेबल से सैंपल किए गए डेटा का इस्तेमाल किया गया होगा. इसके बाद, टेबल से क्वेरी करें.

नया डेटासेट बनाना

BigQuery में टेबल डेटा बनाने और लोड करने के लिए, सबसे पहले एक BigQuery डेटासेट बनाएं, ताकि डेटा होल्ड किया जा सके. इसके लिए, इन चरणों को पूरा करें:

  1. GCP कंसोल के नेविगेशन पैनल में, सेटअप के हिस्से के तौर पर बनाए गए प्रोजेक्ट का नाम चुनें.
  2. दाईं ओर, जानकारी वाले पैनल में, डेटासेट बनाएं चुनें.

acc6378c49622323.png

  1. डेटासेट बनाएं डायलॉग में, डेटासेट आईडी के लिए, stackoverflow टाइप करें. अन्य सभी डिफ़ॉल्ट सेटिंग को उनकी जगह पर रहने दें और ठीक है पर क्लिक करें.

7a2dfd8bcb8f259a.png

2018 StackOverflow पोस्ट के साथ एक नई टेबल बनाएं

BigQuery डेटासेट बनाने के बाद, अब BigQuery में एक नई टेबल बनाई जा सकती है. किसी मौजूदा टेबल के डेटा वाली टेबल बनाने के लिए, आपको 2018 के Stack Overflow पोस्ट के डेटासेट के बारे में क्वेरी करनी होगी. इसके बाद, नतीजों को एक नई टेबल में लिखना होगा. इसके लिए, आपको यह तरीका अपनाना होगा:

  1. GCP कंसोल के सबसे ऊपर दाईं ओर, नई क्वेरी लिखें चुनें.

9ca55f544e8da8bd.png

  1. नई टेबल बनाने के लिए, क्वेरी एडिटर टेक्स्ट एरिया में, यहां दी गई SQL क्वेरी को कॉपी करके चिपकाएं. यह एक डीडीएल स्टेटमेंट होगा.
CREATE OR REPLACE TABLE `stackoverflow.questions_2018` AS
SELECT id, title, accepted_answer_id, creation_date, answer_count , comment_count , favorite_count, view_count, tags
FROM `bigquery-public-data.stackoverflow.posts_questions`
WHERE creation_date BETWEEN '2018-01-01' AND '2019-01-01';
  1. Run चुनें. यह क्वेरी आपके प्रोजेक्ट के stackoverflow डेटासेट में एक नई टेबल questions_2018 बनाती है. इस टेबल में, BigQuery स्टैक ओवरफ़्लो डेटासेट bigquery-public-data.stackoverflow.posts_questions पर क्वेरी चलाने से मिले डेटा का इस्तेमाल होता है.

2018 स्टैक ओवरफ़्लो पोस्ट की मदद से नई टेबल के बारे में क्वेरी करें

अब आपने BigQuery टेबल बना ली है, तो अब सवालों और टाइटल के साथ-साथ जवाबों की संख्या, टिप्पणियां, व्यू, और पसंदीदा जैसे कुछ अन्य आंकड़ों वाले स्टैक ओवरफ़्लो पोस्ट को लौटाने के लिए एक क्वेरी चलाएं. यहां दिया गया तरीका अपनाएं:

  1. GCP कंसोल के सबसे ऊपर दाईं ओर, नई क्वेरी लिखें चुनें.
  2. क्वेरी एडिटर टेक्स्ट एरिया में, यहां दी गई SQL क्वेरी को कॉपी करें और चिपकाएं
SELECT id, title, accepted_answer_id, creation_date, answer_count , comment_count , favorite_count, view_count 
FROM  `stackoverflow.questions_2018` 
WHERE creation_date BETWEEN '2018-01-01' AND '2018-02-01'
AND tags = 'android';
  1. Run चुनें. क्वेरी से जनवरी 2018 में बनाए गए स्टैक ओवरफ़्लो के सवाल दिखाए जाते हैं, जिन्हें सवाल और कुछ अन्य आंकड़ों के साथ android के तौर पर टैग किया गया है.
  2. डिफ़ॉल्ट रूप से, BigQuery क्वेरी के नतीजों को कैश मेमोरी में सेव करता है. वही क्वेरी चलाएं. इससे BigQuery को नतीजे देने में कम समय लगेगा, क्योंकि वह कैश मेमोरी से नतीजे दिखाता है.
  3. उसी क्वेरी को फिर से चलाएं, लेकिन इस बार BigQuery कैश मेमोरी की सुविधा बंद होने पर. हम बाकी लैब की कैश मेमोरी को बंद कर देंगे, ताकि सेगमेंट में बांटी गई और क्लस्टर की गई टेबल की परफ़ॉर्मेंस की तुलना बेहतर हो सके. ये तुलना अगले सेक्शन में की जाएगी. क्वेरी एडिटर में, ज़्यादा पर क्लिक करें और क्वेरी सेटिंग चुनें. क्वेरी सेटिंग
  4. कैश मेमोरी में सेव होने की सेटिंग में जाकर, कैश मेमोरी में सेव किए गए नतीजों का इस्तेमाल करें से सही का निशान हटाएं. कैश मेमोरी में सेव किए गए नतीजों का विकल्प
  5. क्वेरी के नतीजों में, आपको क्वेरी पूरी होने में लगा समय और प्रोसेस किए गए डेटा की संख्या दिखेगी.

f197b022b4276338.png

5. सेगमेंट में बांटी गई टेबल बनाना और उसके बारे में क्वेरी करना

पिछले सेक्शन में, आपने Stack Overflow के सार्वजनिक डेटासेट का इस्तेमाल करके, posts_questions टेबल के डेटा के साथ BigQuery में एक नई टेबल बनाई थी. हमने कैश मेमोरी की सुविधा बंद करके, इस डेटासेट के बारे में पूछताछ की और क्वेरी की परफ़ॉर्मेंस की जांच की. इस सेक्शन में, Stack Overflow के सार्वजनिक डेटासेट की posts_questions टेबल से एक नई सेगमेंट में बांटी गई टेबल बनाई जाएगी. साथ ही, क्वेरी की परफ़ॉर्मेंस के बारे में पता लगाया जाएगा.

सेगमेंट में बांटी गई टेबल एक खास टेबल होती है, जो सेगमेंट में बंटी होती है. इन्हें सेगमेंट कहा जाता है. इनकी मदद से, डेटा को मैनेज करना और क्वेरी करना आसान हो जाता है. आम तौर पर, बड़ी टेबल को डेटा इकट्ठा करने के समय, TIMESTAMP/DATE कॉलम या इंटीजर कॉलम का इस्तेमाल करके, कई छोटे-छोटे हिस्सों में बांटा जा सकता है. हम DATE में सेगमेंट में बांटी गई टेबल बनाएंगे.

सेगमेंट में बांटी गई टेबल के बारे में यहां ज़्यादा जानें.

2018 StackOverflow पोस्ट के साथ एक नई पार्टीशन टेबल बनाएं

किसी मौजूदा टेबल या क्वेरी के डेटा का इस्तेमाल करके, सेगमेंट में बांटी गई टेबल बनाने के लिए, आपको 2018 Stack Overflow पोस्ट के डेटासेट के बारे में क्वेरी करनी होगी और नई टेबल में नतीजे लिखना होगा. इसके लिए, इन चरणों को पूरा करें:

b9d0ca4df0881f58.png

  1. GCP कंसोल के सबसे ऊपर दाईं ओर, नई क्वेरी लिखें चुनें.

9ca55f544e8da8bd.png

  1. नई टेबल बनाने के लिए, क्वेरी एडिटर टेक्स्ट एरिया में, यहां दी गई SQL क्वेरी को कॉपी करके चिपकाएं. यह एक डीडीएल स्टेटमेंट होगा.
CREATE OR REPLACE TABLE `stackoverflow.questions_2018_partitioned` 
PARTITION BY DATE(creation_date) AS
SELECT id, title, accepted_answer_id, creation_date, answer_count , comment_count , favorite_count, view_count, tags
FROM `bigquery-public-data.stackoverflow.posts_questions`
WHERE creation_date BETWEEN '2018-01-01' AND '2019-01-01';
  1. Run चुनें. यह क्वेरी आपके प्रोजेक्ट के stackoverflow डेटासेट में, BigQuery स्टैक ओवरफ़्लो डेटासेट bigquery-public-data.stackoverflow.posts_questions पर क्वेरी चलाने से मिले डेटा के साथ एक नई टेबल questions_2018_partitioned बनाती है

2018 की स्टैक ओवरफ़्लो पोस्ट की मदद से, सेगमेंट में बांटी गई टेबल के बारे में क्वेरी करना

अब आपने BigQuery में सेगमेंट में बांटी गई टेबल बना ली है, तो चलिए अब इस बार एक ही क्वेरी को विभाजित टेबल पर चलाएं, ताकि सवालों और टाइटल के साथ-साथ जवाबों की संख्या, टिप्पणियों, व्यू, और पसंदीदा जैसे कुछ अन्य आंकड़ों वाली Stack Overflow पोस्ट दिखाई जाएं. यहां दिया गया तरीका अपनाएं:

  1. GCP कंसोल के सबसे ऊपर दाईं ओर, नई क्वेरी लिखें चुनें.
  2. क्वेरी एडिटर टेक्स्ट एरिया में, यहां दी गई SQL क्वेरी को कॉपी करें और चिपकाएं
SELECT id, title, accepted_answer_id, creation_date, answer_count , comment_count , favorite_count, view_count 
FROM  `stackoverflow.questions_2018_partitioned` 
WHERE creation_date BETWEEN '2018-01-01' AND '2018-02-01'
AND tags = 'android';
  1. BigQuery कैश मेमोरी की सुविधा बंद होने पर, चलाएं को चुनें (BigQuery कैश मेमोरी को बंद करने के लिए पिछला सेक्शन देखें). क्वेरी से जनवरी 2018 में बनाए गए स्टैक ओवरफ़्लो के सवाल दिखाए जाते हैं, जिन्हें सवाल और कुछ अन्य आंकड़ों के साथ android के तौर पर टैग किया गया है.
  2. क्वेरी के नतीजों में, आपको क्वेरी पूरी होने में लगा समय और प्रोसेस किए गए डेटा की संख्या दिखेगी.

ef01144374069823.png

यह देखा जा सकता है कि सेगमेंट में बांटी गई टेबल वाली क्वेरी की परफ़ॉर्मेंस, सेगमेंट में बांटी नहीं गई टेबल की तुलना में बेहतर है.ऐसा इसलिए है, क्योंकि BigQuery, सेगमेंट को छोटा कर देता है. इसका मतलब है कि यह क्वेरी, कम डेटा प्रोसेस करने वाले ज़रूरी सेगमेंट को स्कैन करती है और तेज़ी से काम करती है. इससे क्वेरी की लागत और क्वेरी की परफ़ॉर्मेंस ऑप्टिमाइज़ हो जाती है.

6. क्लस्टर की गई टेबल बनाना और उसके बारे में क्वेरी करना

पिछले सेक्शन में, आपने स्टैक ओवरफ़्लो के सार्वजनिक डेटासेट में मौजूद posts_questions टेबल के डेटा की मदद से, BigQuery में सेगमेंट में बांटी गई टेबल बनाई थी. हमने कैश मेमोरी की सुविधा बंद करके इस टेबल के बारे में क्वेरी की. साथ ही, सेगमेंट में बांटी गई और सेगमेंट में बांटी नहीं गई, दोनों टेबल से क्वेरी की परफ़ॉर्मेंस देखी. इस सेक्शन में, Stack Overflow के सार्वजनिक डेटासेट की posts_questions टेबल से एक नई क्लस्टर की गई टेबल बनाई जाएगी. साथ ही, क्वेरी की परफ़ॉर्मेंस के बारे में जाना जा सकता है.

जब किसी टेबल को BigQuery में क्लस्टर में बांटा जाता है, तब टेबल का डेटा, टेबल के स्कीमा में एक या उससे ज़्यादा कॉलम के कॉन्टेंट के आधार पर अपने-आप व्यवस्थित हो जाता है. आपके तय किए गए कॉलम का इस्तेमाल, मिलते-जुलते डेटा को ढूंढने के लिए किया जाता है. जब डेटा को क्लस्टर वाली टेबल में लिखा जाता है, तो BigQuery, क्लस्टरिंग कॉलम की वैल्यू का इस्तेमाल करके डेटा को क्रम में लगाता है. इन वैल्यू का इस्तेमाल, BigQuery स्टोरेज में डेटा को एक से ज़्यादा ब्लॉक में व्यवस्थित करने के लिए किया जाता है. क्लस्टर किए गए कॉलम के क्रम से डेटा का क्रम तय होता है. जब किसी टेबल या किसी पार्टिशन में नया डेटा जोड़ा जाता है, तो BigQuery, बैकग्राउंड में अपने-आप फिर से क्लस्टरिंग की प्रक्रिया करता है. इससे टेबल या पार्टिशन की क्रम से लगाई गई प्रॉपर्टी वापस आ जाती है.

क्लस्टर वाली टेबल के साथ काम करने के बारे में यहां ज़्यादा जानें.

2018 स्टैक ओवरफ़्लो पोस्ट के साथ नई क्लस्टर की गई टेबल बनाएं

इस सेक्शन में, एक नई टेबल बनाई जाएगी. इस टेबल को creation_date के आधार पर बांटा जाएगा और क्वेरी ऐक्सेस पैटर्न के आधार पर, tags कॉलम में ग्रुप किया जाएगा. किसी मौजूदा टेबल या क्वेरी के डेटा वाली क्लस्टर की गई टेबल बनाने के लिए, आपको 2018 की Stack Overflow पोस्ट की टेबल पर क्वेरी करनी होगी और नतीजों को एक नई टेबल में लिखना होगा. इसके लिए, यह तरीका अपनाएं:

e7d9acc0dc3b9d79.png

  1. GCP कंसोल के सबसे ऊपर दाईं ओर, नई क्वेरी लिखें चुनें.

9ca55f544e8da8bd.png

  1. नई टेबल बनाने के लिए, क्वेरी एडिटर टेक्स्ट एरिया में, यहां दी गई SQL क्वेरी को कॉपी करके चिपकाएं. यह एक डीडीएल स्टेटमेंट होगा.
#standardSQL
CREATE OR REPLACE TABLE `stackoverflow.questions_2018_clustered`
PARTITION BY
  DATE(creation_date)
CLUSTER BY
  tags AS
SELECT
  id, title, accepted_answer_id, creation_date, answer_count , comment_count , favorite_count, view_count, tags
FROM
  `bigquery-public-data.stackoverflow.posts_questions`
WHERE
  creation_date BETWEEN '2018-01-01' AND '2019-01-01';
  1. 'चलाएं' को चुनें. क्वेरी आपके प्रोजेक्ट के stackoverflow डेटासेट में एक नई टेबल questions_2018_clustered बनाती है. इस टेबल में, BigQuery स्टैक ओवरफ़्लो टेबलbigquery-public-data.stackoverflow.posts_questions पर क्वेरी चलाने से मिले डेटा का इस्तेमाल होता है. नई टेबल को create_date के हिसाब से सेगमेंट में बांटा जाता है और टैग के कॉलम में ग्रुप किया जाता है.

2018 की स्टैक ओवरफ़्लो पोस्ट की मदद से, क्लस्टर की गई टेबल के बारे में क्वेरी करना

अब BigQuery में, ग्रुप में बांटी गई टेबल बना लेने के बाद, इस बार एक ही क्वेरी को फिर से चलाएं. इसके लिए, सेगमेंट में बांटी गई और क्लस्टर की गई टेबल में, सवालों और टाइटल के साथ-साथ कुछ अन्य आंकड़े, जैसे कि जवाबों की संख्या, टिप्पणियां, व्यू, और पसंदीदा के तौर पर की गई स्टैक ओवरफ़्लो पोस्ट दिखेंगी. यहां दिया गया तरीका अपनाएं:

  1. GCP कंसोल के सबसे ऊपर दाईं ओर, नई क्वेरी लिखें चुनें.
  2. क्वेरी एडिटर टेक्स्ट एरिया में, यहां दी गई SQL क्वेरी को कॉपी करें और चिपकाएं
SELECT id, title, accepted_answer_id, creation_date, answer_count , comment_count , favorite_count, view_count 
FROM  `stackoverflow.questions_2018_clustered` 
WHERE creation_date BETWEEN '2018-01-01' AND '2018-02-01'
AND tags = 'android';
  1. BigQuery कैश मेमोरी की सुविधा बंद होने पर, चलाएं को चुनें (BigQuery कैश मेमोरी को बंद करने के लिए पिछला सेक्शन देखें). क्वेरी से जनवरी 2018 में बनाए गए स्टैक ओवरफ़्लो के सवाल दिखाए जाते हैं, जिन्हें सवाल और कुछ अन्य आंकड़ों के साथ android के तौर पर टैग किया गया है.
  2. क्वेरी के नतीजों में, आपको क्वेरी पूरी होने में लगा समय और प्रोसेस किए गए डेटा की संख्या दिखेगी.

85e3c30d6fb3d547.png

सेगमेंट में बांटी गई और क्लस्टर की गई टेबल की मदद से, क्वेरी ने सेगमेंट में बांटी गई टेबल या सेगमेंट में नहीं बांटी गई टेबल की तुलना में कम डेटा स्कैन किया. पार्टिशन और क्लस्टरिंग के ज़रिए डेटा व्यवस्थित करने का तरीका, स्लॉट वर्कर के स्कैन किए गए डेटा की संख्या को कम करता है. इससे क्वेरी की परफ़ॉर्मेंस बेहतर होती है और लागत ऑप्टिमाइज़ होती है.

7. साफ़ किया जा रहा है

अगर आप अपने स्टैक ओवरफ़्लो डेटासेट के साथ काम करना जारी नहीं रखना चाहें, तो आपको इसे मिटा देना चाहिए और इस कोडलैब के लिए बनाया गया प्रोजेक्ट मिटा देना चाहिए.

BigQuery डेटासेट मिटाना

BigQuery डेटासेट मिटाने के लिए, यह तरीका अपनाएं:

  1. BigQuery में बाईं ओर के नेविगेशन पैनल से, stackoverflow डेटासेट चुनें .
  2. जानकारी वाले पैनल में, डेटासेट मिटाएं को चुनें. 67b0f5cb740cb2ec.png
  3. यह पुष्टि करने के लिए कि आपको डेटासेट मिटाना है, डेटासेट मिटाएं डायलॉग बॉक्स में, stackoverflow डालें और मिटाएं चुनें.

प्रोजेक्ट मिटाना

इस कोडलैब के लिए बनाया गया GCP प्रोजेक्ट मिटाने के लिए, यह तरीका अपनाएं:

  1. GCP नेविगेशन मेन्यू में, IAM और एडमिन.
  2. नेविगेशन पैनल में, सेटिंग चुनें.
  3. जानकारी वाले पैनल में, पुष्टि करें कि आपका मौजूदा प्रोजेक्ट वही प्रोजेक्ट है जिसे आपने इस कोडलैब के लिए बनाया है. इसके बाद, शट डाउन करें को चुनें.
  4. प्रोजेक्ट शट डाउन करें डायलॉग में, अपने प्रोजेक्ट का प्रोजेक्ट आईडी (प्रोजेक्ट का नाम नहीं) डालें. इसके बाद, पुष्टि करने के लिए शट डाउन करें चुनें.

बधाई हो! अब आपने सीखा

  • मौजूदा टेबल से नई टेबल बनाने के लिए, BigQuery वेब यूज़र इंटरफ़ेस (यूआई) इस्तेमाल करने का तरीका
  • सेगमेंट में बांटी गई और क्लस्टर की गई टेबल बनाने और उनसे क्वेरी करने का तरीका
  • डेटा को सेगमेंट में बांटने और उन्हें क्लस्टर में बांटने की सुविधा से, क्वेरी की परफ़ॉर्मेंस और लागत को कैसे ऑप्टिमाइज़ किया जाता है

ध्यान दें कि आपको डेटासेट के साथ काम करने के लिए, क्लस्टर को सेट अप या मैनेज करने की ज़रूरत नहीं है.