1. ওভারভিউ
BigQuery হল Google-এর সম্পূর্ণরূপে পরিচালিত, NoOps, কম খরচের অ্যানালিটিক্স ডেটাবেস৷ BigQuery-এর সাহায্যে, আপনি টেরাবাইট এবং টেরাবাইট ডেটা ম্যানেজ করার জন্য কোনও পরিকাঠামো ছাড়াই জিজ্ঞাসা করতে পারেন এবং কোনও ডাটাবেস অ্যাডমিনিস্ট্রেটরের প্রয়োজন নেই৷ BigQuery পরিচিত SQL ব্যবহার করে এবং এটি একটি পে-অ্যাজ-ইউ-গো মডেলের সুবিধা নিতে পারে। BigQuery আপনাকে অর্থপূর্ণ অন্তর্দৃষ্টি খুঁজতে ডেটা বিশ্লেষণে ফোকাস করতে দেয়।
এই কোডল্যাবে, আপনি BigQuery ব্যবহার করে উইকিপিডিয়া ডেটাসেট অন্বেষণ করেন।
আপনি কি শিখবেন
- কিভাবে BigQuery ব্যবহার করবেন
- BigQuery-এ কীভাবে একটি বাস্তব-বিশ্বের ডেটাসেট লোড করবেন
- একটি বড় ডেটাসেটের অন্তর্দৃষ্টি পেতে একটি প্রশ্ন কীভাবে লিখতে হয়
আপনি কি প্রয়োজন হবে
- একটি Google ক্লাউড প্রকল্প
- একটি ব্রাউজার, যেমন গুগল ক্রোম বা ফায়ারফক্স
সমীক্ষা
আপনি কিভাবে এই টিউটোরিয়াল ব্যবহার করবেন?
Google ক্লাউডের সাথে আপনার অভিজ্ঞতাকে কীভাবে মূল্যায়ন করবে?
2. সেটআপ এবং প্রয়োজনীয়তা
BigQuery সক্ষম করুন
আপনার যদি ইতিমধ্যে একটি Google অ্যাকাউন্ট না থাকে তবে আপনাকে অবশ্যই একটি তৈরি করতে হবে৷
- Google ক্লাউড কনসোলে সাইন ইন করুন এবং BigQuery-এ নেভিগেট করুন। এছাড়াও আপনি আপনার ব্রাউজারে নিম্নলিখিত URLটি প্রবেশ করে সরাসরি BigQuery ওয়েব UI খুলতে পারেন।
https://console.cloud.google.com/bigquery
- পরিষেবার শর্তাবলী গ্রহণ করুন.
- আপনি BigQuery ব্যবহার করার আগে, আপনাকে অবশ্যই একটি প্রকল্প তৈরি করতে হবে। আপনার নতুন প্রকল্প তৈরি করতে প্রম্পট অনুসরণ করুন.
একটি প্রকল্পের নাম চয়ন করুন এবং প্রকল্প আইডি নোট করুন।
প্রোজেক্ট আইডি সমস্ত Google ক্লাউড প্রোজেক্ট জুড়ে একটি অনন্য নাম। এটি পরে এই কোডল্যাবে PROJECT_ID
হিসাবে উল্লেখ করা হবে।
এই কোডল্যাব BigQuery স্যান্ডবক্স সীমার মধ্যে BigQuery সম্পদ ব্যবহার করে। একটি বিলিং অ্যাকাউন্ট প্রয়োজন হয় না. আপনি যদি পরে স্যান্ডবক্স সীমা সরাতে চান, তাহলে আপনি Google ক্লাউড বিনামূল্যে ট্রায়ালের জন্য সাইন আপ করে একটি বিলিং অ্যাকাউন্ট যোগ করতে পারেন।
আপনি পরবর্তী বিভাগে উইকিপিডিয়া ডেটাসেট লোড করুন।
3. একটি ডেটাসেট তৈরি করুন
প্রথমে, প্রকল্পে একটি নতুন ডেটাসেট তৈরি করুন। একটি ডেটাসেট একাধিক টেবিলের সমন্বয়ে গঠিত।
- একটি ডেটাসেট তৈরি করতে, সংস্থান ফলকের অধীনে প্রকল্পের নামটি ক্লিক করুন, তারপরে ডেটাসেট তৈরি করুন ক্লিক করুন:
- ডেটাসেট আইডি হিসাবে
lab
লিখুন:
- একটি খালি ডেটাসেট তৈরি করতে ডেটাসেট তৈরি করুন ক্লিক করুন।
4. bq কমান্ড-লাইন প্রোগ্রামের সাথে ডেটা লোড করুন
ক্লাউড শেল সক্রিয় করুন
- ক্লাউড কনসোল থেকে, ক্লাউড শেল সক্রিয় করুন ক্লিক করুন .
আপনি যদি আগে কখনও ক্লাউড শেল চালু না করে থাকেন, তাহলে আপনাকে একটি মধ্যবর্তী স্ক্রীন (ভাঁজের নীচে) উপস্থাপন করা হবে যা বর্ণনা করে। যদি এটি হয়, তবে চালিয়ে যান ক্লিক করুন (এবং আপনি এটি আর কখনও দেখতে পাবেন না)। এককালীন স্ক্রীনটি দেখতে কেমন তা এখানে রয়েছে:
ক্লাউড শেলের সাথে সংযোগ করতে এবং সংযোগ করতে এটির মাত্র কয়েক মুহূর্ত লাগবে৷
এই ভার্চুয়াল মেশিনটি আপনার প্রয়োজনীয় সমস্ত ডেভেলপমেন্ট টুল দিয়ে লোড করা হয়েছে। এটি একটি ক্রমাগত 5GB হোম ডিরেক্টরি অফার করে এবং Google ক্লাউডে চলে, যা নেটওয়ার্ক কর্মক্ষমতা এবং প্রমাণীকরণকে ব্যাপকভাবে উন্নত করে। এই কোডল্যাবে আপনার অনেক কাজ, যদি সব না হয়, শুধুমাত্র একটি ব্রাউজার বা আপনার Chromebook দিয়ে করা যেতে পারে।
একবার ক্লাউড শেলের সাথে সংযুক্ত হয়ে গেলে, আপনি দেখতে পাবেন যে আপনি ইতিমধ্যেই প্রমাণীকরণ করেছেন এবং প্রকল্পটি ইতিমধ্যে আপনার প্রকল্প আইডিতে সেট করা আছে।
- আপনি প্রমাণীকৃত কিনা তা নিশ্চিত করতে ক্লাউড শেলে নিম্নলিখিত কমান্ডটি চালান:
gcloud auth list
কমান্ড আউটপুট
Credentialed Accounts ACTIVE ACCOUNT * <my_account>@<my_domain.com> To set the active account, run: $ gcloud config set account `ACCOUNT`
- gcloud কমান্ড আপনার প্রকল্প সম্পর্কে জানে তা নিশ্চিত করতে ক্লাউড শেলে নিম্নলিখিত কমান্ডটি চালান:
gcloud config list project
কমান্ড আউটপুট
[core] project = <PROJECT_ID>
যদি এটি না হয়, আপনি এই কমান্ড দিয়ে এটি সেট করতে পারেন:
gcloud config set project <PROJECT_ID>
কমান্ড আউটপুট
Updated property [core/project].
BigQuery-এ ডেটা লোড করুন
আপনার সুবিধার জন্য, উইকিমিডিয়া পেজভিউ ডেটাসেট থেকে 10 এপ্রিল, 2019-এর কিছু ডেটা Google ক্লাউড স্টোরেজে gs://cloud-samples-data/third-party/wikimedia/pageviews/pageviews-20190410-140000.gz
ডেটা ফাইলটি একটি GZip'ed CSV ফাইল। আপনি bq
কমান্ড-লাইন ইউটিলিটি ব্যবহার করে সরাসরি এই ফাইলটি লোড করতে পারেন। লোড কমান্ডের অংশ হিসাবে, আপনি ফাইলের স্কিমাও বর্ণনা করেন।
bq load \
--source_format CSV \
--field_delimiter " " \
--allow_jagged_rows \
--quote "" \
--max_bad_records 3 \
$GOOGLE_CLOUD_PROJECT:lab.pageviews_20190410_140000 \
gs://cloud-samples-data/third-party/wikimedia/pageviews/pageviews-20190410-140000.gz \
wiki,title,requests:integer,zero:integer
আপনি পৃষ্ঠা-দর্শন ফাইল লোড করতে কয়েকটি উন্নত বিকল্প ব্যবহার করেছেন:
- ফাইলটিকে একটি CSV ফাইল হিসাবে পার্স করা উচিত নির্দেশ করতে
--source_format CSV
সেট করুন৷ এই ধাপটি ঐচ্ছিক কারণ CSV হল ডিফল্ট ফর্ম্যাট৷ - ক্ষেত্রগুলিকে সীমাবদ্ধ করতে একটি একক স্থান ব্যবহার করা হয় তা নির্দেশ করতে
--field_delimiter " "
সেট করুন। - কম সংখ্যক কলাম সহ সারি অন্তর্ভুক্ত করতে
--allow_jagged_rows
সেট করুন এবং CSV ফাইল লোড করার সময় ত্রুটিগুলি উপেক্ষা করুন৷ - স্ট্রিংগুলি উদ্ধৃত নয় তা বোঝাতে
--quote ""
সেট করুন। - CSV ফাইল পার্স করার সময় সর্বাধিক 3টি ত্রুটি উপেক্ষা করতে
--max_bad_records 3
সেট করুন৷
আপনি ডকুমেন্টেশনে bq কমান্ড লাইন সম্পর্কে আরও জানতে পারেন।
5. ডেটাসেটের পূর্বরূপ দেখুন
BigQuery কনসোলে, আপনি এইমাত্র লোড করেছেন এমন একটি টেবিল খুলুন।
- প্রকল্প প্রসারিত করুন।
- ডেটাসেট প্রসারিত করুন।
- টেবিল নির্বাচন করুন.
আপনি স্কিমা ট্যাবে টেবিল স্কিমা দেখতে পারেন। 4. বিস্তারিত ট্যাবে নেভিগেট করে টেবিলে কত ডেটা আছে তা খুঁজে বের করুন:
- টেবিল থেকে সারিগুলির একটি নির্বাচন দেখতে পূর্বরূপ ট্যাবটি খুলুন৷
6. একটি প্রশ্ন রচনা করুন
- নতুন ক্যোয়ারী রচনা করুন ক্লিক করুন:
এটি ক্যোয়ারী সম্পাদক নিয়ে আসে:
- এই ক্যোয়ারীটি লিখে 10 এপ্রিল 2019 তারিখে 2 থেকে 3 PM এর মধ্যে মোট উইকিমিডিয়া দর্শনের সংখ্যা খুঁজুন:
SELECT SUM(requests) FROM `lab.pageviews_20190410_140000`
- রান ক্লিক করুন:
কয়েক সেকেন্ডের মধ্যে, ফলাফলটি নীচে তালিকাভুক্ত করা হয়েছে এবং এটি আপনাকে বলে যে কত ডেটা প্রক্রিয়া করা হয়েছিল:
এই ক্যোয়ারীটি 123.9MB প্রক্রিয়া করা হয়েছে, যদিও টেবিলটি 691.4MB। BigQuery শুধুমাত্র কলামের বাইটগুলিকে প্রসেস করে যা ক্যোয়ারীতে ব্যবহার করা হয়, তাই প্রক্রিয়াকৃত ডেটার মোট পরিমাণ টেবিলের আকারের থেকে উল্লেখযোগ্যভাবে কম হতে পারে। ক্লাস্টারিং এবং পার্টিশনিংয়ের সাথে, প্রক্রিয়াকৃত ডেটার পরিমাণ আরও কমানো যেতে পারে।
7. আরও উন্নত প্রশ্ন
উইকিপিডিয়া পেজ ভিউ খুঁজুন
উইকিমিডিয়া ডেটাসেটে সমস্ত উইকিমিডিয়া প্রকল্পের (উইকিপিডিয়া, উইকশনারি, উইকিবুক এবং উইকিকোট সহ) পৃষ্ঠা দর্শন রয়েছে। একটি WHERE
বিবৃতি যোগ করে শুধুমাত্র ইংরেজি উইকিপিডিয়া পৃষ্ঠাগুলিতে প্রশ্নটি সংকীর্ণ করুন:
SELECT SUM(requests), wiki FROM `lab.pageviews_20190410_140000` WHERE wiki = "en" GROUP BY wiki
লক্ষ্য করুন যে, একটি অতিরিক্ত কলাম, wiki
জিজ্ঞাসা করার মাধ্যমে, প্রক্রিয়াকৃত ডেটার পরিমাণ 124MB থেকে 204MB-তে বৃদ্ধি পেয়েছে৷
BigQuery অনেক পরিচিত SQL ক্লজকে সমর্থন করে, যেমন CONTAINS
, GROUP BY,
ORDER BY
, এবং বেশ কিছু একত্রীকরণ ফাংশন। উপরন্তু, আপনি টেক্সট ক্ষেত্র অনুসন্ধান করতে নিয়মিত এক্সপ্রেশন ব্যবহার করতে পারেন! একটি চেষ্টা করুন:
SELECT title, SUM(requests) requests FROM `lab.pageviews_20190410_140000` WHERE wiki = "en" AND REGEXP_CONTAINS(title, 'Red.*t') GROUP BY title ORDER BY requests DESC
একাধিক টেবিল জুড়ে প্রশ্ন
আপনি একটি ওয়াইল্ডকার্ড টেবিল ব্যবহার করে ইউনিয়ন গঠন করতে টেবিলের একটি পরিসর নির্বাচন করতে পারেন।
- প্রথমত, একটি নতুন টেবিলে পরবর্তী ঘন্টার পৃষ্ঠা দর্শন লোড করে প্রশ্ন করার জন্য একটি দ্বিতীয় টেবিল তৈরি করুন:
bq load \
--source_format CSV \
--field_delimiter " " \
--quote "" \
$GOOGLE_CLOUD_PROJECT:lab.pageviews_20190410_150000 \
gs://cloud-samples-data/third-party/wikimedia/pageviews/pageviews-20190410-150000.gz \
wiki,title,requests:integer,zero:integer
- ক্যোয়ারী এডিটরে , একটি উপসর্গ হিসাবে "
pageviews_2019
" এর সাথে ক্যোয়ারী করার মাধ্যমে আপনি লোড করা উভয় টেবিলের উপর ক্যোয়ারী করুন:
SELECT title, SUM(requests) requests FROM `lab.pageviews_2019*` WHERE wiki = "en" AND REGEXP_CONTAINS(title, 'Red.*t') GROUP BY title ORDER BY requests DESC
আপনি _TABLE_SUFFIX ছদ্ম কলাম দিয়ে আরও বেছে বেছে টেবিলগুলি ফিল্টার করতে পারেন। এই ক্যোয়ারীটি 10 এপ্রিলের সাথে সম্পর্কিত টেবিলে সীমাবদ্ধ।
SELECT title, SUM(requests) requests FROM `lab.pageviews_2019*` WHERE _TABLE_SUFFIX BETWEEN '0410' AND '0410_9999999' AND wiki = "en" AND REGEXP_CONTAINS(title, 'Red.*t') GROUP BY title ORDER BY requests DESC
8. পরিষ্কার করা
ঐচ্ছিকভাবে, bq rm
কমান্ড দিয়ে আপনার তৈরি করা ডেটাসেট মুছুন। এটিতে থাকা যেকোনো টেবিল অপসারণ করতে -r
পতাকা ব্যবহার করুন।
bq rm -r lab
9. অভিনন্দন!
আপনি বাস্তব-বিশ্বের উইকিপিডিয়া পৃষ্ঠা-দর্শন ডেটাসেট অনুসন্ধান করতে BigQuery এবং SQL ব্যবহার করেছেন। আপনার কাছে পেটাবাইট-স্কেল ডেটাসেটগুলি অনুসন্ধান করার ক্ষমতা আছে!
আরও জানুন
- আজকে অন্যরা কীভাবে BigQuery ব্যবহার করে তার জন্য BigQuery subreddit দেখুন।
- BigQuery-এ উপলব্ধ সর্বজনীন ডেটাসেট খুঁজুন।
- BigQuery-এ কীভাবে ডেটা লোড করতে হয় তা জানুন।