GitHub ডেটা জিজ্ঞাসা করতে BigQuery ব্যবহার করুন

1. ভূমিকা

BigQuery হল Google-এর সম্পূর্ণরূপে পরিচালিত, কম খরচের অ্যানালিটিক্স ডাটাবেস। BigQuery-এর সাহায্যে, আপনি ডাটাবেস অ্যাডমিনিস্ট্রেটর বা পরিচালনার জন্য কোনো পরিকাঠামোর প্রয়োজন ছাড়াই টেরাবাইট ডেটা জিজ্ঞাসা করতে পারেন। BigQuery পরিচিত SQL এবং একটি পে-অনলি-আপনি কি ব্যবহার করেন চার্জিং মডেল ব্যবহার করে। BigQuery আপনাকে অর্থপূর্ণ অন্তর্দৃষ্টি খুঁজতে ডেটা বিশ্লেষণে ফোকাস করতে দেয়।

এই কোডল্যাবে, আপনি দেখতে পাবেন কিভাবে GitHub পাবলিক ডেটাসেটকে প্রশ্ন করতে হয়, BigQuery-এ উপলব্ধ অনেকগুলি পাবলিক ডেটাসেটের মধ্যে একটি।

আপনি কি শিখবেন

  • কিভাবে BigQuery ব্যবহার করবেন
  • একটি বড় ডেটাসেটের অন্তর্দৃষ্টি পেতে একটি প্রশ্ন কীভাবে লিখতে হয়

আপনি কি প্রয়োজন হবে

2. সেট আপ করুন

BigQuery সক্ষম করুন

আপনার যদি ইতিমধ্যে একটি Google অ্যাকাউন্ট না থাকে (Gmail বা Google Apps), তাহলে আপনাকে অবশ্যই একটি তৈরি করতে হবে।

  • Google ক্লাউড প্ল্যাটফর্ম কনসোলে সাইন-ইন করুন ( console.cloud.google.com ) এবং BigQuery-এ নেভিগেট করুন। এছাড়াও আপনি আপনার ব্রাউজারে নিম্নলিখিত URLটি প্রবেশ করে সরাসরি BigQuery ওয়েব UI খুলতে পারেন।
https://console.cloud.google.com/bigquery
  • পরিষেবার শর্তাবলী গ্রহণ করুন.
  • আপনি BigQuery ব্যবহার করার আগে, আপনাকে অবশ্যই একটি প্রকল্প তৈরি করতে হবে। আপনার নতুন প্রকল্প তৈরি করতে প্রম্পট অনুসরণ করুন.

একটি প্রকল্পের নাম চয়ন করুন এবং প্রকল্প আইডি নোট করুন। 5dHf3myqCTd3rm-fowZ_aU3An-T_NTgNnIZtQILio27us0xB3StjnSNnQraAnllEQCH4N2nMwLU1mnELwbNN85tbwNC_DbIdbxU8ufzJYW1MWpYdbxU8ufzJYW1MWpBSWaJu088

প্রোজেক্ট আইডি সমস্ত Google ক্লাউড প্রোজেক্ট জুড়ে একটি অনন্য নাম। এটি পরে এই কোডল্যাবে PROJECT_ID হিসাবে উল্লেখ করা হবে।

এই কোডল্যাব BigQuery স্যান্ডবক্স সীমার মধ্যে BigQuery সম্পদ ব্যবহার করে। একটি বিলিং অ্যাকাউন্ট প্রয়োজন হয় না. আপনি যদি পরে স্যান্ডবক্স সীমা সরাতে চান, তাহলে আপনি Google ক্লাউড প্ল্যাটফর্ম বিনামূল্যে ট্রায়ালের জন্য সাইন আপ করে একটি বিলিং অ্যাকাউন্ট যোগ করতে পারেন।

3. GitHub ডেটার পূর্বরূপ দেখুন

BigQuery ওয়েব UI-তে GitHub ডেটাসেট খুলুন।

https://console.cloud.google.com/bigquery?p=bigquery-public-data&d=github_repos&t=commits&page=table

ডেটা কেমন দেখায় তার একটি দ্রুত পূর্বরূপ পান।

ed0b9fce5eab1c6b.png

4. GitHub ডেটা জিজ্ঞাসা করুন

ক্যোয়ারী এডিটর খুলুন।

759423d320075d96.png

GitHub পাবলিক ডেটাসেটে সবচেয়ে সাধারণ কমিট বার্তাগুলি খুঁজে পেতে নিম্নলিখিত ক্যোয়ারীটি লিখুন:

SELECT subject AS subject,
  COUNT(*) AS num_duplicates
FROM `bigquery-public-data.github_repos.sample_commits`
GROUP BY subject
ORDER BY num_duplicates DESC
LIMIT 100

প্রদত্ত যে GitHub ডেটাসেটটি বড়, এটি খরচ বাঁচাতে পরীক্ষা করার সময় একটি ছোট নমুনা ডেটাসেট ব্যবহার করতে সহায়তা করে। ক্যোয়ারী খরচ অনুমান করতে সম্পাদকের নীচে প্রক্রিয়া করা বাইট ব্যবহার করুন।

fb66b7e9c6e838c.png

রান বোতামে ক্লিক করুন।

কয়েক সেকেন্ডের মধ্যে, ফলাফলটি নীচে তালিকাভুক্ত হবে এবং এটি আপনাকে বলবে কত ডেটা প্রক্রিয়া করা হয়েছে এবং কত সময় লেগেছে৷

3ce1a59763d0dab5.png

যদিও নমুনা_কমিট টেবিলটি 2.49 GB, ক্যোয়ারীটি শুধুমাত্র 35.8 MB প্রক্রিয়া করা হয়েছে। BigQuery শুধুমাত্র ক্যোয়ারীতে ব্যবহৃত কলামগুলি থেকে বাইটগুলি প্রক্রিয়া করে, তাই প্রক্রিয়াকৃত ডেটার মোট পরিমাণ টেবিলের আকারের থেকে উল্লেখযোগ্যভাবে কম হতে পারে। ক্লাস্টারিং এবং পার্টিশনিংয়ের সাথে, প্রক্রিয়াকৃত ডেটার পরিমাণ আরও কমানো যেতে পারে।

5. আরও পাবলিক ডেটা

এখন অন্য একটি ডেটাসেট অনুসন্ধান করার চেষ্টা করুন, যেমন অন্যান্য পাবলিক ডেটাসেটগুলির একটি৷

উদাহরণস্বরূপ, নিম্নলিখিত ক্যোয়ারীটি Libraries.io পাবলিক ডেটাসেটে জনপ্রিয় অবচয় বা অপরিবর্তিত প্রকল্পগুলি খুঁজে পায় যা এখনও অন্যান্য প্রকল্পে নির্ভরতা হিসাবে ব্যবহৃত হয়:

SELECT
  name,
  dependent_projects_count,
  language,
  status
FROM
  `bigquery-public-data.libraries_io.projects_with_repository_fields`
WHERE status IN ('Deprecated', 'Unmaintained')
ORDER BY dependent_projects_count DESC
LIMIT 100

অন্যান্য সংস্থাগুলিও তাদের ডেটা সর্বজনীনভাবে BigQuery-এ উপলব্ধ করেছে৷ উদাহরণস্বরূপ, GitHub-এর GH আর্কাইভ ডেটাসেটটি GitHub-এ পাবলিক ইভেন্ট বিশ্লেষণ করতে ব্যবহার করা যেতে পারে, যেমন পুল অনুরোধ, রিপোজিটরি স্টার এবং খোলা সমস্যা। পাইথন সফ্টওয়্যার ফাউন্ডেশনের PyPI ডেটাসেটটি পাইথন প্যাকেজগুলির জন্য ডাউনলোডের অনুরোধগুলি বিশ্লেষণ করতে ব্যবহার করা যেতে পারে।

6. অভিনন্দন!

আপনি GitHub পাবলিক ডেটাসেট জিজ্ঞাসা করতে BigQuery এবং SQL ব্যবহার করেছেন৷ আপনার কাছে পেটাবাইট-স্কেল ডেটাসেটগুলি অনুসন্ধান করার ক্ষমতা আছে!

আপনি কি আচ্ছাদিত

  • GitHub কমিট রেকর্ডগুলি জিজ্ঞাসা করতে SQL সিনট্যাক্স ব্যবহার করে
  • একটি বৃহৎ ডেটাসেটের অন্তর্দৃষ্টি অর্জনের জন্য একটি প্রশ্ন লেখা

আরও জানুন