GitHub ডেটা জিজ্ঞাসা করতে BigQuery ব্যবহার করুন

1. ভূমিকা

BigQuery হল Google-এর সম্পূর্ণরূপে পরিচালিত, কম খরচের বিশ্লেষণ ডাটাবেস। BigQuery-এর সাহায্যে, আপনি কোনও ডাটাবেস প্রশাসক বা পরিচালনার জন্য কোনও অবকাঠামোর প্রয়োজন ছাড়াই টেরাবাইট ডেটা অনুসন্ধান করতে পারেন। BigQuery পরিচিত SQL এবং একটি পে-অনলি-ফর-ইউ-ইউ-ইউ-ইউ-ইউ-ইউ-ইউ-ওয়াট চার্জিং মডেল ব্যবহার করে। BigQuery আপনাকে অর্থপূর্ণ অন্তর্দৃষ্টি খুঁজে পেতে ডেটা বিশ্লেষণের উপর মনোযোগ দেওয়ার সুযোগ দেয়।

এই কোডল্যাবে, আপনি দেখতে পাবেন কিভাবে GitHub পাবলিক ডেটাসেটকে কোয়েরি করতে হয়, যা BigQuery-তে উপলব্ধ অনেকগুলি পাবলিক ডেটাসেটের মধ্যে একটি।

তুমি কি শিখবে

  • BigQuery কীভাবে ব্যবহার করবেন
  • একটি বৃহৎ ডেটাসেটের অন্তর্দৃষ্টি পেতে কীভাবে একটি কোয়েরি লিখবেন

তোমার যা লাগবে

2. সেট আপ করুন

BigQuery সক্ষম করুন

যদি আপনার ইতিমধ্যেই একটি Google অ্যাকাউন্ট (Gmail বা Google Apps) না থাকে, তাহলে আপনাকে অবশ্যই একটি তৈরি করতে হবে।

  • গুগল ক্লাউড প্ল্যাটফর্ম কনসোলে ( console.cloud.google.com ) সাইন-ইন করুন এবং BigQuery-তে নেভিগেট করুন। আপনি আপনার ব্রাউজারে নিম্নলিখিত URL টি প্রবেশ করে সরাসরি BigQuery ওয়েব UI খুলতে পারেন।
https://console.cloud.google.com/bigquery
  • পরিষেবার শর্তাবলী গ্রহণ করুন।
  • BigQuery ব্যবহার করার আগে, আপনাকে একটি প্রকল্প তৈরি করতে হবে। আপনার নতুন প্রকল্প তৈরি করতে প্রম্পটগুলি অনুসরণ করুন।

একটি প্রকল্পের নাম নির্বাচন করুন এবং প্রকল্পের আইডিটি নোট করুন। 5dHf3myqCTd3rm-fowZ_aU3An-T_NTgNnIZtQILio27us0xB3StjnSNnQraAnllEQCH4N2nMwLU1mnELwbNN85tbwNC_DbIdbxU8ufzJYW1MWpYu0hnbSrAajpAaRNs8UBeWFu68Aw

সমস্ত Google ক্লাউড প্রোজেক্টে প্রোজেক্ট আইডি একটি অনন্য নাম। এই কোডল্যাবে পরে এটিকে PROJECT_ID হিসেবে উল্লেখ করা হবে।

এই কোডল্যাবটি BigQuery স্যান্ডবক্স সীমার মধ্যে থাকা BigQuery রিসোর্স ব্যবহার করে। একটি বিলিং অ্যাকাউন্টের প্রয়োজন নেই। আপনি যদি পরে স্যান্ডবক্স সীমা অপসারণ করতে চান, তাহলে আপনি Google Cloud Platform বিনামূল্যে ট্রায়ালের জন্য সাইন আপ করে একটি বিলিং অ্যাকাউন্ট যোগ করতে পারেন।

৩. GitHub ডেটার পূর্বরূপ দেখুন

BigQuery ওয়েব UI-তে GitHub ডেটাসেট খুলুন।

https://console.cloud.google.com/bigquery?p=bigquery-public-data&d=github_repos&t=commits&page=table

ডেটা কেমন দেখাচ্ছে তার একটি দ্রুত পূর্বরূপ পান।

অনুসরণ

৪. গিটহাবের ডেটা অনুসন্ধান করুন

কোয়েরি এডিটরটি খুলুন।

৭৫৯৪২৩ডি৩২০০৭৫ডি৯৬.পিএনজি

GitHub পাবলিক ডেটাসেটে সবচেয়ে সাধারণ কমিট বার্তাগুলি খুঁজে পেতে নিম্নলিখিত কোয়েরিটি প্রবেশ করান:

SELECT subject AS subject,
  COUNT(*) AS num_duplicates
FROM `bigquery-public-data.github_repos.sample_commits`
GROUP BY subject
ORDER BY num_duplicates DESC
LIMIT 100

গিটহাব ডেটাসেটটি বড় হওয়ায়, খরচ বাঁচাতে পরীক্ষা-নিরীক্ষার সময় একটি ছোট নমুনা ডেটাসেট ব্যবহার করা সাহায্য করে। কোয়েরির খরচ অনুমান করতে সম্পাদকের নীচে প্রক্রিয়াজাত বাইটগুলি ব্যবহার করুন।

fb66b7e9c6e838c.png সম্পর্কে

রান বোতামে ক্লিক করুন।

কয়েক সেকেন্ডের মধ্যে, ফলাফল নীচে তালিকাভুক্ত হবে এবং এটি আপনাকে জানাবে যে কত ডেটা প্রক্রিয়া করা হয়েছে এবং কত সময় লেগেছে।

3ce1a59763d0dab5.png সম্পর্কে

যদিও sample_commits টেবিলটি 2.49 GB, কোয়েরিটি শুধুমাত্র 35.8 MB প্রক্রিয়া করেছে। BigQuery শুধুমাত্র কোয়েরিতে ব্যবহৃত কলামগুলি থেকে বাইট প্রক্রিয়া করেছে, তাই প্রক্রিয়াকৃত মোট ডেটার পরিমাণ টেবিলের আকারের চেয়ে উল্লেখযোগ্যভাবে কম হতে পারে। ক্লাস্টারিং এবং পার্টিশনিং এর মাধ্যমে, প্রক্রিয়াকৃত ডেটার পরিমাণ আরও কমানো যেতে পারে।

৫. আরও পাবলিক ডেটা

এখন অন্য একটি ডেটাসেট অনুসন্ধান করার চেষ্টা করুন, যেমন অন্য কোনও পাবলিক ডেটাসেট

উদাহরণস্বরূপ, নিম্নলিখিত কোয়েরিটি Libraries.io পাবলিক ডেটাসেটে জনপ্রিয় অবচিত বা অরক্ষিত প্রকল্পগুলি খুঁজে পায় যা এখনও অন্যান্য প্রকল্পে নির্ভরতা হিসাবে ব্যবহৃত হয়:

SELECT
  name,
  dependent_projects_count,
  language,
  status
FROM
  `bigquery-public-data.libraries_io.projects_with_repository_fields`
WHERE status IN ('Deprecated', 'Unmaintained')
ORDER BY dependent_projects_count DESC
LIMIT 100

অন্যান্য প্রতিষ্ঠানগুলিও BigQuery-তে তাদের ডেটা সর্বজনীনভাবে উপলব্ধ করেছে। উদাহরণস্বরূপ, Github-এর GH Archive ডেটাসেট GitHub-এর পাবলিক ইভেন্টগুলি বিশ্লেষণ করতে ব্যবহার করা যেতে পারে, যেমন পুল রিকোয়েস্ট, রিপোজিটরি স্টার এবং ওপেনড ইস্যু। Python Software Foundation-এর PyPI ডেটাসেট Python প্যাকেজগুলির ডাউনলোড অনুরোধ বিশ্লেষণ করতে ব্যবহার করা যেতে পারে।

৬. অভিনন্দন!

আপনি GitHub পাবলিক ডেটাসেট অনুসন্ধান করার জন্য BigQuery এবং SQL ব্যবহার করেছেন। আপনার পেটাবাইট-স্কেল ডেটাসেট অনুসন্ধান করার ক্ষমতা আছে!

তুমি যা কভার করেছো

  • GitHub কমিট রেকর্ড অনুসন্ধানের জন্য SQL সিনট্যাক্স ব্যবহার করা
  • একটি বৃহৎ ডেটাসেটের অন্তর্দৃষ্টি পেতে একটি কোয়েরি লেখা

আরও জানুন