GitHub डेटा की क्वेरी करने के लिए BigQuery का इस्तेमाल करना

1. परिचय

BigQuery, Google का पूरी तरह से मैनेज किया गया कम-लागत वाला ऐनलिटिक्स डेटाबेस है. BigQuery की मदद से, टेराबाइट डेटा को क्वेरी किया जा सकता है. इसके लिए, किसी डेटाबेस एडमिन या इन्फ़्रास्ट्रक्चर को मैनेज करने की ज़रूरत नहीं होती. BigQuery, जाने-पहचाने एसक्यूएल और आपके इस्तेमाल के हिसाब से पैसे चुकाने वाले चार्जिंग मॉडल का इस्तेमाल करता है. BigQuery की मदद से काम की इनसाइट पाने के लिए, डेटा का विश्लेषण किया जा सकता है.

इस कोडलैब में, आपको GitHub के सार्वजनिक डेटासेट को क्वेरी करने का तरीका बताया गया है. यह BigQuery में उपलब्ध कई सार्वजनिक डेटासेट में से एक है.

आपको इनके बारे में जानकारी मिलेगी

  • BigQuery का इस्तेमाल कैसे करें
  • किसी बड़े डेटासेट के बारे में अहम जानकारी पाने के लिए, क्वेरी लिखने का तरीका

आपको इन चीज़ों की ज़रूरत होगी

  • Google Cloud प्रोजेक्ट
  • Chrome या Firefox ब्राउज़र जैसा कोई ब्राउज़र

2. सेट अप करें

BigQuery चालू करना

अगर आपके पास पहले से Google खाता (Gmail या Google Apps) नहीं है, तो एक खाता बनाएं.

  • Google Cloud Platform कंसोल ( console.cloud.google.com) में साइन इन करें और BigQuery पर जाएं. आपके पास सीधे अपने ब्राउज़र में यह यूआरएल डालकर भी BigQuery वेब यूज़र इंटरफ़ेस (यूआई) खोलने का विकल्प है.
https://console.cloud.google.com/bigquery
  • सेवा की शर्तें स्वीकार करें.
  • BigQuery का इस्तेमाल करने से पहले, आपको एक प्रोजेक्ट बनाना होगा. अपना नया प्रोजेक्ट बनाने के लिए निर्देशों का पालन करें.

प्रोजेक्ट का कोई नाम चुनें और प्रोजेक्ट आईडी नोट कर लें. 5dHf3myqCTd3rm-fowZ_aU3An-T_NTgNnIZtQILio27us0xB3StjnSNnQraAnllEQCH4N2nMwLU1mnELwbNN85tbwNC_DbIdbxU8ufzJYW1MWpYu0hnbSrAajpAaRNs8UBeWFu68Aw अभी तक किसी भी व्यक्ति ने चेक इन नहीं किया है

प्रोजेक्ट आईडी, Google Cloud के सभी प्रोजेक्ट के लिए एक यूनीक नाम होता है. बाद में, इस कोडलैब को इस कोडलैब में PROJECT_ID के तौर पर दिखाया जाएगा.

यह कोडलैब, BigQuery सैंडबॉक्स की सीमाओं के साथ BigQuery के संसाधनों का इस्तेमाल करता है. बिलिंग खाता होना ज़रूरी नहीं है. अगर आपको बाद में सैंडबॉक्स की सीमाएं हटानी हों, तो Google Cloud Platform के मुफ़्त ट्रायल के लिए साइन अप करके बिलिंग खाता जोड़ा जा सकता है.

3. GitHub डेटा की झलक देखें

BigQuery वेब यूज़र इंटरफ़ेस (यूआई) में GitHub डेटासेट खोलें.

https://console.cloud.google.com/bigquery?p=bigquery-public-data&d=github_repos&t=commits&page=table

देखें कि डेटा कैसा दिखता है.

ed0b9fce5eab1c6b.png

4. GitHub डेटा के लिए क्वेरी करें

क्वेरी एडिटर खोलें.

759423d320075d96.png

GitHub के सार्वजनिक डेटासेट में, अक्सर सबमिट किए जाने वाले मैसेज खोजने के लिए नीचे दी गई क्वेरी डालें:

SELECT subject AS subject,
  COUNT(*) AS num_duplicates
FROM `bigquery-public-data.github_repos.sample_commits`
GROUP BY subject
ORDER BY num_duplicates DESC
LIMIT 100

GitHub डेटासेट बड़ा होने की वजह से, यह लागत कम करने से पहले, छोटे साइज़ के डेटासेट का इस्तेमाल करने में मदद करता है. क्वेरी की लागत का अनुमान लगाने के लिए, एडिटर के नीचे प्रोसेस की गई बाइट का इस्तेमाल करें.

fb66b7e9c6e838c.png

Run बटन पर क्लिक करें.

कुछ ही सेकंड में, नतीजा स्क्रीन पर सबसे नीचे दिखेगा. साथ ही, यह आपको बताएगा कि कितना डेटा प्रोसेस हुआ और उसे बनाने में कितना समय लगा.

3ce1a59763d0dab5.png

नमूना_commits टेबल 2.49 जीबी है, लेकिन क्वेरी सिर्फ़ 35.8 एमबी प्रोसेस की गई. BigQuery सिर्फ़ क्वेरी में इस्तेमाल किए गए कॉलम की बाइट प्रोसेस करता है. इसलिए, प्रोसेस किए गए डेटा की कुल संख्या, टेबल के साइज़ से काफ़ी कम हो सकती है. क्लस्टरिंग और पार्टिशन की मदद से, प्रोसेस किए गए डेटा की मात्रा को और भी कम किया जा सकता है.

5. ज़्यादा सार्वजनिक डेटा

अब किसी दूसरे डेटासेट को क्वेरी करने की कोशिश करें, जैसे कि किसी दूसरे सार्वजनिक डेटासेट से.

उदाहरण के लिए, नीचे दी गई क्वेरी में, Libraries.io सार्वजनिक डेटासेट में ऐसे लोकप्रिय प्रोजेक्ट का पता चलता है जो अब काम नहीं करते या जिन्हें बनाए नहीं रखा गया है. इन प्रोजेक्ट का इस्तेमाल अब भी दूसरे प्रोजेक्ट में डिपेंडेंसी के तौर पर किया जाता है:

SELECT
  name,
  dependent_projects_count,
  language,
  status
FROM
  `bigquery-public-data.libraries_io.projects_with_repository_fields`
WHERE status IN ('Deprecated', 'Unmaintained')
ORDER BY dependent_projects_count DESC
LIMIT 100

अन्य संगठनों ने भी BigQuery में अपना डेटा सार्वजनिक तौर पर उपलब्ध कराया है. उदाहरण के लिए, GitHub के GH संग्रह डेटासेट का इस्तेमाल, GitHub पर सार्वजनिक इवेंट का विश्लेषण करने के लिए किया जा सकता है. जैसे, पुल के अनुरोध, रिपॉज़िटरी स्टार, और खुली समस्याएं. Python Software Foundation के PyPI डेटासेट का इस्तेमाल, Python पैकेज को डाउनलोड करने के अनुरोधों का विश्लेषण करने के लिए किया जा सकता है.

6. बधाई हो!

GitHub के सार्वजनिक डेटासेट की क्वेरी करने के लिए, आपने BigQuery और SQL का इस्तेमाल किया है. आपके पास पेटाबाइट-स्केल डेटासेट की क्वेरी करने की क्षमता है!

आपने क्या कवर किया

  • GitHub कमिट रिकॉर्ड से क्वेरी करने के लिए, SQL सिंटैक्स का इस्तेमाल करना
  • किसी बड़े डेटासेट के बारे में अहम जानकारी पाने के लिए क्वेरी लिखना

ज़्यादा जानें