1. परिचय
BigQuery, Google का पूरी तरह से मैनेज किया गया कम-लागत वाला ऐनलिटिक्स डेटाबेस है. BigQuery की मदद से, टेराबाइट डेटा को क्वेरी किया जा सकता है. इसके लिए, किसी डेटाबेस एडमिन या इन्फ़्रास्ट्रक्चर को मैनेज करने की ज़रूरत नहीं होती. BigQuery, जाने-पहचाने एसक्यूएल और आपके इस्तेमाल के हिसाब से पैसे चुकाने वाले चार्जिंग मॉडल का इस्तेमाल करता है. BigQuery की मदद से काम की इनसाइट पाने के लिए, डेटा का विश्लेषण किया जा सकता है.
इस कोडलैब में, आपको GitHub के सार्वजनिक डेटासेट को क्वेरी करने का तरीका बताया गया है. यह BigQuery में उपलब्ध कई सार्वजनिक डेटासेट में से एक है.
आपको इनके बारे में जानकारी मिलेगी
- BigQuery का इस्तेमाल कैसे करें
- किसी बड़े डेटासेट के बारे में अहम जानकारी पाने के लिए, क्वेरी लिखने का तरीका
आपको इन चीज़ों की ज़रूरत होगी
2. सेट अप करें
BigQuery चालू करना
अगर आपके पास पहले से Google खाता (Gmail या Google Apps) नहीं है, तो एक खाता बनाएं.
- Google Cloud Platform कंसोल ( console.cloud.google.com) में साइन इन करें और BigQuery पर जाएं. आपके पास सीधे अपने ब्राउज़र में यह यूआरएल डालकर भी BigQuery वेब यूज़र इंटरफ़ेस (यूआई) खोलने का विकल्प है.
https://console.cloud.google.com/bigquery
- सेवा की शर्तें स्वीकार करें.
- BigQuery का इस्तेमाल करने से पहले, आपको एक प्रोजेक्ट बनाना होगा. अपना नया प्रोजेक्ट बनाने के लिए निर्देशों का पालन करें.
प्रोजेक्ट का कोई नाम चुनें और प्रोजेक्ट आईडी नोट कर लें. अभी तक किसी भी व्यक्ति ने चेक इन नहीं किया है
प्रोजेक्ट आईडी, Google Cloud के सभी प्रोजेक्ट के लिए एक यूनीक नाम होता है. बाद में, इस कोडलैब को इस कोडलैब में PROJECT_ID
के तौर पर दिखाया जाएगा.
यह कोडलैब, BigQuery सैंडबॉक्स की सीमाओं के साथ BigQuery के संसाधनों का इस्तेमाल करता है. बिलिंग खाता होना ज़रूरी नहीं है. अगर आपको बाद में सैंडबॉक्स की सीमाएं हटानी हों, तो Google Cloud Platform के मुफ़्त ट्रायल के लिए साइन अप करके बिलिंग खाता जोड़ा जा सकता है.
3. GitHub डेटा की झलक देखें
BigQuery वेब यूज़र इंटरफ़ेस (यूआई) में GitHub डेटासेट खोलें.
देखें कि डेटा कैसा दिखता है.
4. GitHub डेटा के लिए क्वेरी करें
क्वेरी एडिटर खोलें.
GitHub के सार्वजनिक डेटासेट में, अक्सर सबमिट किए जाने वाले मैसेज खोजने के लिए नीचे दी गई क्वेरी डालें:
SELECT subject AS subject,
COUNT(*) AS num_duplicates
FROM `bigquery-public-data.github_repos.sample_commits`
GROUP BY subject
ORDER BY num_duplicates DESC
LIMIT 100
GitHub डेटासेट बड़ा होने की वजह से, यह लागत कम करने से पहले, छोटे साइज़ के डेटासेट का इस्तेमाल करने में मदद करता है. क्वेरी की लागत का अनुमान लगाने के लिए, एडिटर के नीचे प्रोसेस की गई बाइट का इस्तेमाल करें.
Run बटन पर क्लिक करें.
कुछ ही सेकंड में, नतीजा स्क्रीन पर सबसे नीचे दिखेगा. साथ ही, यह आपको बताएगा कि कितना डेटा प्रोसेस हुआ और उसे बनाने में कितना समय लगा.
नमूना_commits टेबल 2.49 जीबी है, लेकिन क्वेरी सिर्फ़ 35.8 एमबी प्रोसेस की गई. BigQuery सिर्फ़ क्वेरी में इस्तेमाल किए गए कॉलम की बाइट प्रोसेस करता है. इसलिए, प्रोसेस किए गए डेटा की कुल संख्या, टेबल के साइज़ से काफ़ी कम हो सकती है. क्लस्टरिंग और पार्टिशन की मदद से, प्रोसेस किए गए डेटा की मात्रा को और भी कम किया जा सकता है.
5. ज़्यादा सार्वजनिक डेटा
अब किसी दूसरे डेटासेट को क्वेरी करने की कोशिश करें, जैसे कि किसी दूसरे सार्वजनिक डेटासेट से.
उदाहरण के लिए, नीचे दी गई क्वेरी में, Libraries.io सार्वजनिक डेटासेट में ऐसे लोकप्रिय प्रोजेक्ट का पता चलता है जो अब काम नहीं करते या जिन्हें बनाए नहीं रखा गया है. इन प्रोजेक्ट का इस्तेमाल अब भी दूसरे प्रोजेक्ट में डिपेंडेंसी के तौर पर किया जाता है:
SELECT
name,
dependent_projects_count,
language,
status
FROM
`bigquery-public-data.libraries_io.projects_with_repository_fields`
WHERE status IN ('Deprecated', 'Unmaintained')
ORDER BY dependent_projects_count DESC
LIMIT 100
अन्य संगठनों ने भी BigQuery में अपना डेटा सार्वजनिक तौर पर उपलब्ध कराया है. उदाहरण के लिए, GitHub के GH संग्रह डेटासेट का इस्तेमाल, GitHub पर सार्वजनिक इवेंट का विश्लेषण करने के लिए किया जा सकता है. जैसे, पुल के अनुरोध, रिपॉज़िटरी स्टार, और खुली समस्याएं. Python Software Foundation के PyPI डेटासेट का इस्तेमाल, Python पैकेज को डाउनलोड करने के अनुरोधों का विश्लेषण करने के लिए किया जा सकता है.
6. बधाई हो!
GitHub के सार्वजनिक डेटासेट की क्वेरी करने के लिए, आपने BigQuery और SQL का इस्तेमाल किया है. आपके पास पेटाबाइट-स्केल डेटासेट की क्वेरी करने की क्षमता है!
आपने क्या कवर किया
- GitHub कमिट रिकॉर्ड से क्वेरी करने के लिए, SQL सिंटैक्स का इस्तेमाल करना
- किसी बड़े डेटासेट के बारे में अहम जानकारी पाने के लिए क्वेरी लिखना
ज़्यादा जानें
- Kaggle के एसक्यूएल की जानकारी की मदद से एसक्यूएल के बारे में जानें.
- BigQuery दस्तावेज़ एक्सप्लोर करें.
- इस ब्लॉग पोस्ट में देखें कि दूसरे लोग GitHub डेटासेट का इस्तेमाल कैसे करते हैं.
- BigQuery के साथ TIL में, मौसम का डेटा, अपराध का डेटा वगैरह देखें.
- BigQuery कमांड-लाइन टूल का इस्तेमाल करके, BigQuery में डेटा लोड करने का तरीका जानें.
- दूसरे लोग BigQuery का इस्तेमाल कैसे करते हैं, यह जानने के लिए BigQuery सबरेडिट देखें.