Google Dataproc দিয়ে Spark ML মডেল তৈরি করুন

১. ভূমিকা

অ্যাপাচি স্পার্কের অন্যতম মূল উপাদান হলো স্পার্ক এমএল (Spark ML) , যা অ্যাপাচি স্পার্ক ইঞ্জিনের উপর ভিত্তি করে মেশিন লার্নিং মডেল এবং পাইপলাইন তৈরির একটি লাইব্রেরি। ওয়েবসাইট অনুসারে, এতে নিম্নলিখিত টুলগুলো রয়েছে:

  • এমএল অ্যালগরিদম: সাধারণ লার্নিং অ্যালগরিদম যেমন ক্লাসিফিকেশন, রিগ্রেশন, ক্লাস্টারিং এবং কোলাবোরেটিভ ফিল্টারিং
  • বৈশিষ্ট্যায়ন: বৈশিষ্ট্য নিষ্কাশন, রূপান্তর, মাত্রা হ্রাস এবং নির্বাচন
  • পাইপলাইন: এমএল পাইপলাইন নির্মাণ, মূল্যায়ন এবং সমন্বয় করার সরঞ্জাম
  • স্থায়িত্ব: অ্যালগরিদম, মডেল এবং পাইপলাইন সংরক্ষণ ও লোড করা
  • ব্যবহারিক বিষয়সমূহ: রৈখিক বীজগণিত, পরিসংখ্যান, ডেটা হ্যান্ডলিং, ইত্যাদি।

এই কোডল্যাবে আপনি শিখবেন, কীভাবে একটি নোটবুক ব্যবহার করে স্পার্ক এমএল মডেল তৈরি করতে হয়।

২. এপিআই সক্রিয় করুন

এই কোডল্যাবের জন্য, আপনাকে নিম্নলিখিত API-গুলি সক্রিয় করতে হবে:

আপনার প্রোজেক্টে এই API-গুলো সক্রিয় করতে এই লিঙ্কে ক্লিক করুন। অনুরোধ করা হলে, নিশ্চিত করুন যে API-গুলো সঠিক প্রোজেক্টেই সক্রিয় করা হবে।

৩. একটি Vertex AI Workbench ইনস্ট্যান্স তৈরি করুন এবং সংযোগ স্থাপন করুন।

এই অংশে আপনি একটি Vertex AI Workbench ইনস্ট্যান্স তৈরি করবেন। এরপর আপনি সেটিতে সংযোগ স্থাপন করবেন, একটি Github রিপোজিটরি ক্লোন করবেন এবং একটি নোটবুক চালাবেন।

Vertex AI Workbench ইনস্ট্যান্সটি তৈরি করতে, আপনি উপরের নির্দেশাবলী অথবা নীচের নির্দেশনা অনুসরণ করতে পারেন।

  1. ম্যানেজড নোটবুক কনসোল পৃষ্ঠায় যান
  2. নতুন নোটবুকে ক্লিক করুন।
  3. একটি নাম দিন এবং একটি অঞ্চল বেছে নিন, যেমন us-central1 (Iowa) । এটি আদর্শগতভাবে কোডল্যাবে আগে নির্বাচিত অঞ্চলের সাথে মিললে ভালো হয়, যদিও তা বাধ্যতামূলক নয়।
  4. অনুমতির অধীনে শুধুমাত্র একক ব্যবহারকারী নির্বাচন করুন।
  5. অ্যাডভান্সড সেটিংস ড্রপডাউনটি খুলুন।
  6. সিকিউরিটির অধীনে nbconvert এবং terminal সক্ষম করুন নির্বাচন করুন।
  7. তৈরি করুন-এ ক্লিক করুন।

ইনস্ট্যান্সটি প্রায় পাঁচ মিনিটের মধ্যে প্রস্তুত হয়ে যাবে। ইনস্ট্যান্সটি প্রস্তুত হয়ে গেলে আপনি নোটবুকের নামের পাশে একটি সবুজ টিক চিহ্ন দেখতে পাবেন।

ইনস্ট্যান্সটি প্রস্তুত হয়ে গেলে, 'ওপেন জুপিটারল্যাব' (OPEN JUPYTERLAB )-এ ক্লিক করুন। অনুরোধ করা হলে প্রমাণীকরণ করুন এবং সমস্ত অনুমতি সক্রিয় করুন।

৪. নোটবুক থেকে Spark ML ব্যবহার করে মডেল তৈরি করুন।

JupyterLab ইনস্ট্যান্সটি লোড হওয়ার পর, আপনি লঞ্চার ট্যাবে থাকবেন। এই ট্যাবে, 'Other'-এর নিচে থাকা 'Terminal'-এ ক্লিক করে একটি নতুন টার্মিনাল খুলুন।

টার্মিনালে Vertex AI Samples রিপোজিটরিটি ক্লোন করুন।

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

ফাইল ব্রাউজার ট্যাবে, vertex-ai-samples/notebooks/official/workbench/spark- এ যান। spark_ml.ipynb নোটবুকটির উপর ডাবল ক্লিক করে এটি খুলুন। যখন কার্নেল নির্বাচন করতে বলা হবে, তখন Python (local) নির্বাচন করুন।

নোটবুকের প্রতিটি সেল পূরণ করার মাধ্যমে ধাপগুলো অনুসরণ করুন। সেলগুলোর ভেতরের নির্দেশাবলী মেনে চলুন।

৫. সম্পদ পরিষ্কার করুন

এই কোডল্যাবটি সম্পন্ন করার পর আপনার GCP অ্যাকাউন্টে অপ্রয়োজনীয় চার্জ এড়ানোর জন্য:

  1. আপনার ওয়ার্কবেঞ্চ ইনস্ট্যান্সটি মুছে ফেলুন। কনসোল থেকে, আপনার ইনস্ট্যান্সের পাশের বক্সে টিক চিহ্ন দিন এবং ডিলিট (DELETE) বোতামে ক্লিক করুন।

আপনি যদি শুধু এই কোডল্যাবের জন্য একটি প্রজেক্ট তৈরি করে থাকেন, তবে আপনি চাইলে প্রজেক্টটি মুছেও ফেলতে পারেন:

  1. GCP কনসোলে, প্রজেক্টস পৃষ্ঠায় যান।
  2. প্রজেক্ট তালিকা থেকে, আপনি যে প্রজেক্টটি মুছতে চান সেটি নির্বাচন করুন এবং ডিলিট-এ ক্লিক করুন।
  3. বক্সে প্রজেক্ট আইডি টাইপ করুন এবং তারপর প্রজেক্টটি মুছে ফেলার জন্য 'শাট ডাউন'-এ ক্লিক করুন।