1. ভূমিকা
BigQuery হল Google-এর সম্পূর্ণরূপে পরিচালিত, কম খরচের অ্যানালিটিক্স ডাটাবেস। BigQuery-এর সাহায্যে, আপনি ডাটাবেস অ্যাডমিনিস্ট্রেটর বা পরিচালনার জন্য কোনো পরিকাঠামোর প্রয়োজন ছাড়াই টেরাবাইট ডেটা জিজ্ঞাসা করতে পারেন। BigQuery পরিচিত SQL এবং একটি পে-অনলি-আপনি কি ব্যবহার করেন চার্জিং মডেল ব্যবহার করে। BigQuery আপনাকে অর্থপূর্ণ অন্তর্দৃষ্টি খুঁজতে ডেটা বিশ্লেষণে ফোকাস করতে দেয়।
এই কোডল্যাবে, আপনি দেখতে পাবেন কিভাবে GitHub পাবলিক ডেটাসেটকে প্রশ্ন করতে হয়, BigQuery-এ উপলব্ধ অনেকগুলি পাবলিক ডেটাসেটের মধ্যে একটি।
আপনি কি শিখবেন
- কিভাবে BigQuery ব্যবহার করবেন
- একটি বড় ডেটাসেটের অন্তর্দৃষ্টি পেতে একটি প্রশ্ন কীভাবে লিখতে হয়
আপনি কি প্রয়োজন হবে
- একটি Google ক্লাউড প্রকল্প
- একটি ব্রাউজার, যেমন ক্রোম বা ফায়ারফক্স
2. সেট আপ করুন
BigQuery সক্ষম করুন
আপনার যদি ইতিমধ্যে একটি Google অ্যাকাউন্ট না থাকে (Gmail বা Google Apps), তাহলে আপনাকে অবশ্যই একটি তৈরি করতে হবে।
- Google ক্লাউড প্ল্যাটফর্ম কনসোলে সাইন-ইন করুন ( console.cloud.google.com ) এবং BigQuery-এ নেভিগেট করুন। এছাড়াও আপনি আপনার ব্রাউজারে নিম্নলিখিত URLটি প্রবেশ করে সরাসরি BigQuery ওয়েব UI খুলতে পারেন।
https://console.cloud.google.com/bigquery
- পরিষেবার শর্তাবলী গ্রহণ করুন.
- আপনি BigQuery ব্যবহার করার আগে, আপনাকে অবশ্যই একটি প্রকল্প তৈরি করতে হবে। আপনার নতুন প্রকল্প তৈরি করতে প্রম্পট অনুসরণ করুন.
একটি প্রকল্পের নাম চয়ন করুন এবং প্রকল্প আইডি নোট করুন।
প্রোজেক্ট আইডি সমস্ত Google ক্লাউড প্রোজেক্ট জুড়ে একটি অনন্য নাম। এটি পরে এই কোডল্যাবে PROJECT_ID
হিসাবে উল্লেখ করা হবে।
এই কোডল্যাব BigQuery স্যান্ডবক্স সীমার মধ্যে BigQuery সম্পদ ব্যবহার করে। একটি বিলিং অ্যাকাউন্ট প্রয়োজন হয় না. আপনি যদি পরে স্যান্ডবক্স সীমা সরাতে চান, তাহলে আপনি Google ক্লাউড প্ল্যাটফর্ম বিনামূল্যে ট্রায়ালের জন্য সাইন আপ করে একটি বিলিং অ্যাকাউন্ট যোগ করতে পারেন।
3. GitHub ডেটার পূর্বরূপ দেখুন
BigQuery ওয়েব UI-তে GitHub ডেটাসেট খুলুন।
https://console.cloud.google.com/bigquery?p=bigquery-public-data&d=github_repos&t=commits&page=table
ডেটা কেমন দেখায় তার একটি দ্রুত পূর্বরূপ পান।
4. GitHub ডেটা জিজ্ঞাসা করুন
ক্যোয়ারী এডিটর খুলুন।
GitHub পাবলিক ডেটাসেটে সবচেয়ে সাধারণ কমিট বার্তাগুলি খুঁজে পেতে নিম্নলিখিত ক্যোয়ারীটি লিখুন:
SELECT subject AS subject,
COUNT(*) AS num_duplicates
FROM `bigquery-public-data.github_repos.sample_commits`
GROUP BY subject
ORDER BY num_duplicates DESC
LIMIT 100
প্রদত্ত যে GitHub ডেটাসেটটি বড়, এটি খরচ বাঁচাতে পরীক্ষা করার সময় একটি ছোট নমুনা ডেটাসেট ব্যবহার করতে সহায়তা করে। ক্যোয়ারী খরচ অনুমান করতে সম্পাদকের নীচে প্রক্রিয়া করা বাইট ব্যবহার করুন।
রান বোতামে ক্লিক করুন।
কয়েক সেকেন্ডের মধ্যে, ফলাফলটি নীচে তালিকাভুক্ত হবে এবং এটি আপনাকে বলবে কত ডেটা প্রক্রিয়া করা হয়েছে এবং কত সময় লেগেছে৷
যদিও নমুনা_কমিট টেবিলটি 2.49 GB, ক্যোয়ারীটি শুধুমাত্র 35.8 MB প্রক্রিয়া করা হয়েছে। BigQuery শুধুমাত্র ক্যোয়ারীতে ব্যবহৃত কলামগুলি থেকে বাইটগুলি প্রক্রিয়া করে, তাই প্রক্রিয়াকৃত ডেটার মোট পরিমাণ টেবিলের আকারের থেকে উল্লেখযোগ্যভাবে কম হতে পারে। ক্লাস্টারিং এবং পার্টিশনিংয়ের সাথে, প্রক্রিয়াকৃত ডেটার পরিমাণ আরও কমানো যেতে পারে।
5. আরও পাবলিক ডেটা
এখন অন্য একটি ডেটাসেট অনুসন্ধান করার চেষ্টা করুন, যেমন অন্যান্য পাবলিক ডেটাসেটগুলির একটি৷
উদাহরণস্বরূপ, নিম্নলিখিত ক্যোয়ারীটি Libraries.io পাবলিক ডেটাসেটে জনপ্রিয় অবচয় বা অপরিবর্তিত প্রকল্পগুলি খুঁজে পায় যা এখনও অন্যান্য প্রকল্পে নির্ভরতা হিসাবে ব্যবহৃত হয়:
SELECT
name,
dependent_projects_count,
language,
status
FROM
`bigquery-public-data.libraries_io.projects_with_repository_fields`
WHERE status IN ('Deprecated', 'Unmaintained')
ORDER BY dependent_projects_count DESC
LIMIT 100
অন্যান্য সংস্থাগুলিও তাদের ডেটা সর্বজনীনভাবে BigQuery-এ উপলব্ধ করেছে৷ উদাহরণস্বরূপ, GitHub-এর GH আর্কাইভ ডেটাসেটটি GitHub-এ পাবলিক ইভেন্ট বিশ্লেষণ করতে ব্যবহার করা যেতে পারে, যেমন পুল অনুরোধ, রিপোজিটরি স্টার এবং খোলা সমস্যা। পাইথন সফ্টওয়্যার ফাউন্ডেশনের PyPI ডেটাসেটটি পাইথন প্যাকেজগুলির জন্য ডাউনলোডের অনুরোধগুলি বিশ্লেষণ করতে ব্যবহার করা যেতে পারে।
6. অভিনন্দন!
আপনি GitHub পাবলিক ডেটাসেট জিজ্ঞাসা করতে BigQuery এবং SQL ব্যবহার করেছেন৷ আপনার কাছে পেটাবাইট-স্কেল ডেটাসেটগুলি অনুসন্ধান করার ক্ষমতা আছে!
আপনি কি আচ্ছাদিত
- GitHub কমিট রেকর্ডগুলি জিজ্ঞাসা করতে SQL সিনট্যাক্স ব্যবহার করে
- একটি বৃহৎ ডেটাসেটের অন্তর্দৃষ্টি অর্জনের জন্য একটি প্রশ্ন লেখা
আরও জানুন
- এসকিউএল শিখুন কাগলের এসকিউএল-এর ভূমিকা সহ।
- BigQuery ডকুমেন্টেশন এক্সপ্লোর করুন।
- এই ব্লগ পোস্টে অন্যরা কীভাবে GitHub ডেটাসেট ব্যবহার করে তা দেখুন।
- BigQuery-এর সাথে TIL- এ আবহাওয়ার ডেটা, অপরাধের ডেটা এবং আরও অনেক কিছু দেখুন।
- BigQuery কমান্ড-লাইন টুল ব্যবহার করে BigQuery-এ ডেটা লোড করতে শিখুন।
- আজকে অন্যরা কীভাবে BigQuery ব্যবহার করে তা জানতে BigQuery subreddit দেখুন।