1. ওভারভিউ
এই ল্যাবে, আপনি Google ক্লাউডে রিয়েল-টাইম জালিয়াতি সনাক্তকরণের জন্য এআই সিস্টেমে এন্ড-টু-এন্ড ডেটা কীভাবে তৈরি করবেন তা শিখবেন। লক্ষ্য হল কীভাবে অশোধিত ডেটা থেকে Google ক্লাউডে চলমান একটি উৎপাদন-প্রস্তুত ML পাইপলাইনে যেতে হয় তা বোঝা। এই ল্যাবটি নিম্নলিখিত Google ক্লাউড পণ্যগুলি ব্যবহার করে:
আপনি কি শিখবেন?
এন্ড-টু-এন্ড ML পাইপলাইন তৈরি করা চ্যালেঞ্জিং হতে পারে। এই ল্যাবে, আপনি BigQuery এবং Vertex AI-এর মতো Google ক্লাউড পরিষেবাগুলি ব্যবহার করে কীভাবে এন্ড-টু-এন্ড ML পাইপলাইন তৈরি এবং স্কেল করবেন তা শিখবেন। আমরা আপনাকে একটি যাত্রায় নিয়ে যাব যে কীভাবে কাঁচা ডেটা থেকে AI উৎপাদনে যেতে হয়। এই ল্যাবের উচ্চ-স্তরের শিক্ষার উদ্দেশ্য হল:
- Google ক্লাউডে AI সিস্টেমে ডেটা তৈরি করার জন্য সর্বোত্তম অনুশীলনগুলি শিখুন৷
- SQL (ব্যাচ প্রক্রিয়াকরণের জন্য) এবং Apache Beam ব্যবহার করে Dataflow (রিয়েল-টাইম প্রসেসিং) ব্যবহার করে BigQuery-এর মাধ্যমে কীভাবে ফিচার ইঞ্জিনিয়ারিং করবেন তা শিখুন এবং Vertex AI ফিচার স্টোর ব্যবহার করুন।
- কিভাবে BigQuery এবং Python লাইব্রেরি যেমন Pandas এবং Plotly ব্যবহার করে ডেটা বিশ্লেষণ করবেন।
- কিভাবে SQL এর মাধ্যমে BigQuery ML এর সাথে একটি ML মডেলকে প্রশিক্ষণ দেওয়া যায়।
- কিভাবে আপনার মডেল সঞ্চয়, স্থাপন এবং নিরীক্ষণ করতে Vertex AI ব্যবহার করবেন।
- এআই ওয়ার্কফ্লোতে আপনার ডেটা আনুষ্ঠানিক করতে ভার্টেক্স এআই পাইপলাইনগুলি কীভাবে ব্যবহার করবেন।
গুরুত্বপূর্ণ : Google ক্লাউডে এই ল্যাবটি চালানোর খরচ প্রায় $100 ৷
2. Vertex AI এবং BigQuery সহ কাঁচা ডেটা থেকে AI পর্যন্ত৷
এই ল্যাবটি Google ক্লাউডে উপলব্ধ সর্বশেষ ডেটা বিশ্লেষণ এবং AI পণ্যগুলি কভার করে যেমন Vertex AI এবং BigQuery ML ৷ Vertex AI এবং BigQuery কাঁচা ডেটা থেকে AI-তে যাওয়া সহজ করে এবং আপনার মডেলগুলিকে উৎপাদনে আনতে আপনাকে আরও বেশি উত্পাদনশীল হতে সাহায্য করার জন্য একটি নিরবচ্ছিন্ন বিকাশ অভিজ্ঞতা অফার করে। আপনি যদি কোন সমর্থন প্রয়োজন, সমর্থন পৃষ্ঠা দেখুন.
ভার্টেক্স এআই এআই ওয়ার্কফ্লোতে এন্ড-টু-এন্ড ডেটা সমর্থন করার জন্য অনেকগুলি বিভিন্ন পণ্য অন্তর্ভুক্ত করে। নীচে আপনি ভার্টেক্স এআই ক্ষমতাগুলির একটি ওভারভিউ পাবেন:
3. FraudFinder কেস এবং ডেটা ব্যবহার করুন
FraudFinder হল নোটবুকের একটি সিরিজ যা Google ক্লাউডে AI যাত্রার ব্যাপক ডেটা শেখায়, রিয়েল-টাইম জালিয়াতি সনাক্তকরণের ক্ষেত্রে ব্যবহারের মাধ্যমে। পুরো নোটবুক জুড়ে, আপনি শিখবেন কীভাবে একটি ডেটা গুদামে সংরক্ষিত ঐতিহাসিক অর্থপ্রদানের লেনদেনের ডেটা পড়তে হয়, নতুন লেনদেনের একটি লাইভ স্ট্রিম থেকে পড়তে হয়, অনুসন্ধানমূলক ডেটা বিশ্লেষণ (EDA), ফিচার ইঞ্জিনিয়ারিং করতে হয়, ফিচার স্টোরে ফিচার ইনজেস্ট করতে হয়, প্রশিক্ষণ দিতে হয়। ফিচার স্টোর ব্যবহার করে মডেল, একটি মডেল রেজিস্ট্রিতে আপনার মডেল নিবন্ধন করুন, আপনার মডেলের মূল্যায়ন করুন, আপনার মডেলকে একটি এন্ডপয়েন্টে স্থাপন করুন, ফিচার স্টোরের মাধ্যমে আপনার মডেলের রিয়েল-টাইম ইনফারেন্স করুন এবং আপনার মডেল নিরীক্ষণ করুন।
জালিয়াতি সনাক্তকরণ শ্রেণীবিভাগ এবং অসঙ্গতি সনাক্তকরণ কভার করে, মেশিন লার্নিং এর মধ্যে তর্কযোগ্যভাবে বিস্তৃত ডোমেন। এটি একটি বাস্তব গল্পের জন্য জালিয়াতি সনাক্তকরণকে একটি ভাল ব্যবহারের ক্ষেত্রে করে তোলে যা বোঝা সহজ এবং Google ক্লাউডে এআই আর্কিটেকচারে এন্ড-টু-এন্ড ডেটা প্রদর্শনের একটি দুর্দান্ত উপায়। এন্ড-টু-এন্ড আর্কিটেকচার বোঝার জন্য আপনাকে জালিয়াতি বিশেষজ্ঞ হতে হবে না। স্থাপত্যের প্যাটার্নটি অন্যান্য ব্যবহারের ক্ষেত্রে প্রয়োগ করা যেতে পারে।
নীচে আপনি ফ্রডফাইন্ডার আর্কিটেকচারের একটি ওভারভিউ পাবেন:
ডেটাসেট
ক্রেডিট কার্ড জালিয়াতি সনাক্তকরণের জন্য মেশিন লার্নিং থেকে কোড ব্যবহার করে ডেটাসেটটি সংশ্লেষিত হয় - কাগলের ব্যবহারিক হ্যান্ডবুক প্রকল্প। রিয়েল-টাইম জালিয়াতি সনাক্তকরণ ব্যাচ-ভিত্তিক জালিয়াতি সনাক্তকরণ থেকে স্থাপত্যগতভাবে আলাদা এবং নিম্নলিখিতগুলি দ্বারা চিহ্নিত করা হয়:
- উচ্চ ফ্রিকোয়েন্সি (যেমন, প্রতি সেকেন্ডে 1000) পূর্বাভাসের অনুরোধ
- ভবিষ্যদ্বাণী অনুরোধের কম বিলম্ব (যেমন < 1 সেকেন্ড) → প্রতিক্রিয়া
- ভবিষ্যদ্বাণী সাধারণত প্রতি পূর্বাভাস অনুরোধ প্রতি 1 নমুনা হয় বা "মাইক্রো-ব্যাচে" হতে পারে (উদাহরণস্বরূপ, 1000টি লেনদেন কাছাকাছি রিয়েল-টাইম অনুমানের জন্য একটি ব্যাচ হিসাবে পাঠানো)
- পরিবেশনের জন্য ফিচার ইঞ্জিনিয়ারিং অবশ্যই প্রাক-গণনা করা বা রিয়েল-টাইমে গণনা করা আবশ্যক
ফ্রডফাইন্ডার ঐতিহাসিক ডেটাসেট
ঐতিহাসিক অর্থপ্রদানের লেনদেন সহ সর্বজনীন BigQuery টেবিল রয়েছে, যা ব্যবহারকারীদের তাদের মডেলকে প্রশিক্ষণ দিতে এবং BigQuery-এ ডেটা ব্যবহার করে বৈশিষ্ট্য প্রকৌশল করতে দেয়।
cymbal-fraudfinder (project)
|-`tx` (dataset)
|-`tx` (table: transactions without labels)
|-`txlabels` (table: transactions with fraud labels (1 or 0))
|-demographics
|-`customers` (table: profiles of customers)
|-`terminals` (table: profiles of terminals)
|-`customersterminals` (table: profiles of customers and terminals within their radius)
কেন বাস্তব সময়?
এই ল্যাবে, আপনি শিখবেন কিভাবে রিয়েল-টাইম ডাটা লিভারেজ করতে হয় এবং রিয়েল-টাইম ফিচার ইঞ্জিনিয়ারিং এবং ইনফারেন্স প্রয়োগ করতে হয়। রিয়েল-টাইম বৈশিষ্ট্যগুলি সিগন্যালগুলি ব্যবহার করে আপনার মডেলকে উন্নত করতে সাহায্য করতে পারে অন্যথায় আপনি অনুমান সময়ের সময় ব্যবহার করতে পারবেন না।
FraudFinder লাইভ, স্ট্রিমিং ডেটা
FraudFinder ল্যাবের অংশ হিসাবে লাইভ স্ট্রিমিং পেমেন্ট লেনদেনের সাথে পাবলিক পাব/সাব বিষয় রয়েছে ব্যবহারকারীরা তাদের মডেলের শেষ পয়েন্ট এবং স্ট্রিম বৈশিষ্ট্যগুলি সহজেই পরীক্ষা করতে পারে। Pub/Sub হল একটি অ্যাসিঙ্ক্রোনাস এবং স্কেলেবল মেসেজিং পরিষেবা। আপনি বৈশিষ্ট্যগুলি স্ট্রিম করতে এবং অনলাইন অনুমান সম্পাদন করতে এই বিষয়গুলি ব্যবহার করবেন৷ ব্যবহারকারীরা মডেল মনিটরিং প্রদর্শন করতে বেসলাইন বনাম উচ্চ জালিয়াতির হার সহ বিষয়গুলির মধ্যে স্যুইচ করতে পারেন। নিম্নলিখিত পাবলিক পাব/সাব বিষয়গুলি উপলব্ধ:
-
ff-tx
-
ff-txlabels
4. আপনার প্রকল্প এবং নোটবুক উদাহরণ সেটআপ করুন
এই ল্যাবটি চালানোর জন্য আপনার একটি Google ক্লাউড প্ল্যাটফর্ম প্রকল্পের প্রয়োজন হবে যাতে বিলিং সক্ষম থাকে৷ একটি প্রকল্প তৈরি করতে, নির্দেশাবলী অনুসরণ করুন।
গুরুত্বপূর্ণ : আমরা আপনাকে একটি নতুন প্রকল্পে এই ল্যাব চালানোর পরামর্শ দিই। এই ল্যাবটি অনেকগুলি বিভিন্ন পণ্যকে কভার করে, এবং আপনি ল্যাবের সাথে সম্পন্ন করার পরে পুরো প্রকল্পটি মুছে ফেললে এটি সবচেয়ে সহজ।
আপনার যখন একটি প্রকল্প থাকে, অনুগ্রহ করে নিম্নলিখিত পদক্ষেপগুলি চালিয়ে যান৷ নিম্নলিখিত ধাপগুলি রেপোতে পাওয়া README.md ফাইলেও পাওয়া যাবে।
ধাপ 1: APIs সক্ষম করুন
প্রথমে, আপনি যে প্রকল্পটি তৈরি করেছেন তাতে যান এবং একটি ক্লাউড শেল খুলুন। এই পদক্ষেপটি কয়েক মিনিট সময় নিতে পারে কারণ এটি একটি নতুন ক্লাউড শেল সরবরাহ করবে যদি আপনি আগে একটি সক্ষম না করে থাকেন৷
এরপরে, কপি এবং পেস্ট করে আপনার ক্লাউড শেলে নিম্নলিখিত কোডটি চালান। স্ক্রিপ্টটি প্রয়োজনীয় API গুলি সক্ষম করবে এবং পাবলিক পাব/সাব বিষয়গুলি থেকে স্ট্রিমিং লেনদেনগুলি পড়তে পাব/সাবস্ক্রিপশন তৈরি করবে৷ সমস্ত কমান্ড চালানোর জন্য কিছু সময় দিন।
gcloud services enable notebooks.googleapis.com
gcloud services enable cloudresourcemanager.googleapis.com
gcloud services enable aiplatform.googleapis.com
gcloud services enable pubsub.googleapis.com
gcloud services enable run.googleapis.com
gcloud services enable cloudbuild.googleapis.com
gcloud services enable dataflow.googleapis.com
gcloud services enable bigquery.googleapis.com
gcloud pubsub subscriptions create "ff-tx-sub" --topic="ff-tx" --topic-project="cymbal-fraudfinder"
gcloud pubsub subscriptions create "ff-txlabels-sub" --topic="ff-txlabels" --topic-project="cymbal-fraudfinder"
# Run the following command to grant the Compute Engine default service account access to read and write pipeline artifacts in Google Cloud Storage.
PROJECT_ID=$(gcloud config get-value project)
PROJECT_NUM=$(gcloud projects list --filter="$PROJECT_ID" --format="value(PROJECT_NUMBER)")
gcloud projects add-iam-policy-binding $PROJECT_ID \
--member="serviceAccount:${PROJECT_NUM}-compute@developer.gserviceaccount.com"\
--role='roles/storage.admin'
ধাপ 2: একটি ভার্টেক্স এআই ওয়ার্কবেঞ্চ উদাহরণ তৈরি করুন
পরবর্তীতে আপনার ক্লাউড কনসোলের ভার্টেক্স এআই বিভাগে নেভিগেট করুন। তারপর ওয়ার্কবেঞ্চে নেভিগেট করুন:
Vertex AI ওয়ার্কবেঞ্চ (নোটবুক API) API সক্ষম করুন যদি এটি সক্ষম না থাকে'।
একবার সক্রিয় হলে, ব্যবহারকারী-পরিচালিত নোটবুক নির্বাচন করুন:
তারপর নতুন নোটবুক নির্বাচন করুন। আপনি Python 3 চয়ন করতে পারেন।
আপনার নোটবুকে একটি নাম দিন, যেমন fraudfinder
, তারপর Advanced Settings-এ ক্লিক করুন।
গুরুত্বপূর্ণ : নিশ্চিত করুন যে আপনি Permissions
অধীনে Service Account
নির্বাচন করেছেন।
গুরুত্বপূর্ণ : নিরাপত্তার অধীনে "টার্মিনাল সক্ষম করুন" নির্বাচন করুন যদি এটি ইতিমধ্যে সক্ষম না থাকে।
আপনি অন্যান্য উন্নত সেটিংসের মতোই ছেড়ে যেতে পারেন।
পরবর্তী, তৈরি করুন ক্লিক করুন। দৃষ্টান্তের ব্যবস্থা করতে কয়েক মিনিট সময় লাগবে।
একবার উদাহরণ তৈরি হয়ে গেলে, JupyterLab খুলুন নির্বাচন করুন।
ধাপ 3: IAM ভূমিকা সেট করুন
সরলতার জন্য, ধরা যাক আপনি Compute Engine ডিফল্ট পরিষেবা অ্যাকাউন্ট ব্যবহার করবেন। এটি উত্পাদন কাজের চাপের জন্য সর্বোত্তম অনুশীলন নয়। সর্বোত্তম অনুশীলন হল প্রতিটি অ্যাপ্লিকেশনের জন্য ডেডিকেটেড পরিষেবা অ্যাকাউন্ট তৈরি করা এবং ডিফল্ট পরিষেবা অ্যাকাউন্ট ব্যবহার করা এড়ানো। আপনি আমাদের ডকুমেন্টেশনে পরিষেবা অ্যাকাউন্টের সর্বোত্তম অনুশীলন সম্পর্কে আরও পড়তে পারেন। ডিফল্ট কম্পিউট সার্ভিস অ্যাকাউন্টটি দেখতে এরকম কিছু দেখাবে: 123456789123-compute@developer.gserviceaccount.com
। আইএএম অ্যাডমিনে যান এবং ADD
এ ক্লিক করুন। ভিউতে, কম্পিউট ইঞ্জিন ডিফল্ট পরিষেবা অ্যাকাউন্ট অনুসন্ধান করুন এবং নির্বাচন করুন এবং তারপরে নিম্নলিখিত ভূমিকাগুলি বরাদ্দ করুন:
-
BigQuery Admin
-
Storage Admin
-
Storage Object Admin
-
Vertex AI Administrator
-
Pub/Sub Admin
এটি নিম্নলিখিত মত কিছু দেখতে হবে. নতুন সেটিংস সংরক্ষণ করতে ভুলবেন না!
ধাপ 4: Github রেপো ক্লোন করুন
একবার আপনি আপনার নোটবুক ইনস্ট্যান্স তৈরি এবং অ্যাক্সেস করার পরে আপনার পরিবেশ সেটআপ করার সময়। প্রথমে একটি টার্মিনাল উইন্ডো খুলুন।
আপনার নোটবুক টার্মিনালে নিম্নলিখিত কমান্ডটি অনুলিপি করুন, পেস্ট করুন এবং চালান:
git clone https://github.com/GoogleCloudPlatform/fraudfinder.git
এই কমান্ডটি চালানোর ফলে আপনার নোটবুকের উদাহরণে FraudFinder সংগ্রহস্থল ক্লোন হবে। git clone
চালানোর পরে, আপনি বাম দিকে আপনার নোটবুকের উদাহরণে প্রতারণাকারী ফোল্ডারটি পাবেন। এখন নেভিগেট করুন: fraudfinder
ফোল্ডার। এখানে আপনি ল্যাবের জন্য প্রয়োজনীয় নোটবুক পাবেন।
পরবর্তী বিভাগ থেকে আপনি নোটবুকের নির্দেশাবলী অনুসরণ করবেন বলে আশা করা হচ্ছে। অনুগ্রহ করে পরিবেশ সেটআপ চালিয়ে যান।
5. পরিবেশ সেটআপ
এই বিভাগটি আপনার প্রকল্পের পরিবেশ সেট আপ করতে সহায়তা করার জন্য ধাপগুলি অতিক্রম করবে। এই বিভাগে, আপনি নিম্নলিখিত শিক্ষার উদ্দেশ্যগুলি কভার করবেন:
- প্যাকেজ সহ আপনার পরিবেশ সেট আপ করুন।
- BigQuery-এ ডেটা লোড করুন।
- পাবলিক পাব/সাব বিষয় থেকে ডেটা পড়ুন।
অনুগ্রহ করে নিম্নলিখিত নোটবুকটি চালিয়ে যান এবং ধাপে ধাপে নির্দেশাবলী অনুসরণ করুন:
-
00_environment_setup.ipynb
6. অনুসন্ধানমূলক ডেটা বিশ্লেষণ
এই বিভাগটি আপনাকে শেখাবে কীভাবে প্রতারণামূলক ডেটা আরও ভালভাবে বোঝার জন্য অনুসন্ধানমূলক ডেটা বিশ্লেষণ সম্পাদন করতে হয়। এই বিভাগে, আপনি নিম্নলিখিত শিক্ষার উদ্দেশ্যগুলি কভার করবেন:
- SQL ব্যবহার করে BigQuery থেকে ডেটা বের করুন এবং অন্বেষণ করুন
- BigQuery এবং Plotly ব্যবহার করে লেনদেনের ডেটা প্লট করুন
- ডেটা একত্রিতকরণ প্রয়োগ করুন এবং একটি স্ক্যাটার প্লট তৈরি করুন
অনুগ্রহ করে পরবর্তী নোটবুকটি চালিয়ে যান এবং ধাপে ধাপে নির্দেশাবলী অনুসরণ করুন:
-
01_exploratory_data_analysis.ipynb
7. ফিচার ইঞ্জিনিয়ারিং ব্যাচ এবং স্ট্রিমিং
এই বিভাগে আপনি কাঁচা ডেটা থেকে মডেল প্রশিক্ষণের জন্য বৈশিষ্ট্য তৈরি করতে ফিচার ইঞ্জিনিয়ারিং-এ কাজ করবেন। আমরা ব্যাচ এবং স্ট্রিমিং ব্যবহার করব। উভয় ব্যবহারের ক্ষেত্রেই জালিয়াতি সনাক্তকরণের জন্য গুরুত্বপূর্ণ। এই বিভাগে, আপনি নিম্নলিখিত শিক্ষার উদ্দেশ্যগুলি কভার করবেন:
- BigQuery এবং SQL ব্যবহার করে কীভাবে বৈশিষ্ট্য তৈরি করবেন
- একটি ভার্টেক্স এআই ফিচার স্টোর তৈরি করুন এবং ডেটা সন্নিবেশ করুন
- কীভাবে স্ট্রিমিং ডেটার সাথে মোকাবিলা করবেন এবং ফিচার স্টোরে এটি ইনজেস্ট করবেন
অনুগ্রহ করে এই ক্রমে নিম্নলিখিত দুটি নোটবুক দিয়ে চালিয়ে যান এবং নোটবুকের নির্দেশাবলী অনুসরণ করুন:
-
02_feature_engineering_batch.ipynb
-
03_feature_engineering_streaming.ipynb
8. মডেল প্রশিক্ষণ, ভবিষ্যদ্বাণী, আনুষ্ঠানিককরণ এবং পর্যবেক্ষণ
এই বিভাগে, আপনি সম্ভাব্য জালিয়াতির ঘটনা শনাক্ত করতে আপনার প্রথম BigQuery মডেল মডেলকে প্রশিক্ষণ দেবেন এবং স্থাপন করবেন। এছাড়াও আপনি আপনার প্রশিক্ষণ এবং স্থাপনার কোড নিতে শিখবেন এবং এটিকে একটি স্বয়ংক্রিয় পাইপলাইনে আনুষ্ঠানিক করতে শিখবেন। আপনি কীভাবে অনলাইন ভবিষ্যদ্বাণী করবেন এবং উত্পাদনে আপনার মডেল নিরীক্ষণ করবেন তাও শিখবেন। এই বিভাগে, আপনি নিম্নলিখিত শিক্ষার উদ্দেশ্যগুলি কভার করবেন:
- কিভাবে একটি BigQuery ML মডেলকে প্রশিক্ষণ দেওয়া যায় এবং Vertex AI মডেল রেজিস্ট্রিতে নিবন্ধন করা যায়
- Vertex AI-তে একটি এন্ডপয়েন্ট হিসেবে মডেলটি স্থাপন করুন
- ভার্টেক্স এআই এসডিকে কীভাবে ব্যবহার করবেন
- কিভাবে আপনি BigQuery ML মডেল নিতে পারেন এবং একটি এন্ড-টু-এন্ড ML পাইপলাইন তৈরি করতে পারেন
- ভার্টেক্স এআই মডেল মনিটরিং কীভাবে ব্যবহার করবেন
অনুগ্রহ করে এই ক্রমে নিম্নলিখিত নোটবুকগুলি চালিয়ে যান এবং নোটবুকের নির্দেশাবলী অনুসরণ করুন৷ নোটবুকগুলো BQML ফোল্ডারে পাওয়া যাবে। ধাপে ধাপে নোটবুক অনুসরণ করুন:
-
04_model_training_and_prediction.ipynb
-
05_model_training_pipeline_formalization.ipynb
-
06_model_monitoring.ipynb
-
07_model_inference.ipynb
🎉 Congratulations! 🎉
আপনি Google ক্লাউডে এআই আর্কিটেকচারে কীভাবে ডেটা তৈরি করতে হয় তা শিখেছেন!
9. পরিচ্ছন্নতা
আমরা আপনাকে একটি নতুন প্রকল্পে এই ল্যাব চালানোর পরামর্শ দিতে চাই। এই ল্যাবটি অনেকগুলি বিভিন্ন পণ্যকে কভার করে, তাই আপনি ল্যাবটি শেষ করার পরে পুরো প্রকল্পটি মুছে ফেললে এটি সবচেয়ে সহজ। আমাদের ডকুমেন্টেশনে আপনি কীভাবে প্রকল্পটি মুছবেন সে সম্পর্কে আরও তথ্য পেতে পারেন।
আপনি যদি পরিবর্তে পরিষেবাগুলি মুছতে চান তবে অনুগ্রহ করে নোটবুকের নির্দেশাবলী অনুসরণ করুন বা তৈরি সংস্থানগুলি মুছুন৷