এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

ডাটাপ্রোকে প্রাকৃতিক ভাষা প্রক্রিয়াকরণের জন্য পাইস্পার্ক

১. সংক্ষিপ্ত বিবরণ

ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (এনএলপি) হলো পাঠ্য তথ্যের ওপর ভিত্তি করে অন্তর্দৃষ্টি লাভ এবং বিশ্লেষণ পরিচালনার বিদ্যা। ইন্টারনেটে লেখার পরিমাণ ক্রমাগত বাড়তে থাকায়, প্রতিষ্ঠানগুলো এখন আগের চেয়ে অনেক বেশি তাদের ব্যবসার জন্য প্রাসঙ্গিক তথ্য পেতে এই লেখাগুলোকে কাজে লাগাতে চাইছে।

ভাষা অনুবাদ থেকে শুরু করে অনুভূতি বিশ্লেষণ, একেবারে নতুন করে বাক্য তৈরি এবং আরও অনেক কিছুর জন্য এনএলপি ব্যবহার করা যেতে পারে। এটি গবেষণার একটি সক্রিয় ক্ষেত্র যা আমাদের টেক্সট নিয়ে কাজ করার পদ্ধতিকে বদলে দিচ্ছে।

আমরা দেখব কিভাবে বিপুল পরিমাণ টেক্সচুয়াল ডেটার উপর বড় পরিসরে এনএলপি (NLP) ব্যবহার করা যায়। এটি নিঃসন্দেহে একটি কঠিন কাজ হতে পারে! সৌভাগ্যবশত, এই কাজটি সহজ করার জন্য আমরা Spark MLlib এবং spark-nlp-এর মতো লাইব্রেরিগুলোর সুবিধা নেব।

২. আমাদের ব্যবহারের ক্ষেত্র

আমাদের (কাল্পনিক) সংস্থা "ফুডকর্প"-এর প্রধান ডেটা বিজ্ঞানী খাদ্য শিল্পের প্রবণতা সম্পর্কে আরও জানতে আগ্রহী। আমাদের কাছে রেডিট সাবরেডিট r/food থেকে সংগৃহীত পোস্টের আকারে একটি টেক্সট ডেটা কর্পাস রয়েছে, যা ব্যবহার করে আমরা দেখব মানুষ কী নিয়ে কথা বলছে।

এটি করার একটি উপায় হলো 'টপিক মডেলিং' নামে পরিচিত একটি এনএলপি পদ্ধতি ব্যবহার করা। টপিক মডেলিং একটি পরিসংখ্যানগত পদ্ধতি যা একদল ডকুমেন্টের শব্দার্থগত প্রবণতা শনাক্ত করতে পারে। অন্য কথায়, আমরা আমাদের রেডিট 'পোস্ট'-এর কর্পাসের উপর একটি টপিক মডেল তৈরি করতে পারি, যা 'টপিক' বা শব্দগুচ্ছের একটি তালিকা তৈরি করবে এবং একটি প্রবণতাকে বর্ণনা করবে।

আমাদের মডেলটি তৈরি করতে, আমরা ল্যাটেন্ট ডিরিচলেট অ্যালোকেশন (LDA) নামক একটি অ্যালগরিদম ব্যবহার করব, যা প্রায়শই টেক্সট ক্লাস্টার করতে ব্যবহৃত হয়। LDA সম্পর্কে একটি চমৎকার পরিচিতি এখানে পাওয়া যাবে।

৩. একটি প্রকল্প তৈরি করা

আপনার যদি আগে থেকে কোনো গুগল অ্যাকাউন্ট (জিমেইল বা গুগল অ্যাপস) না থাকে, তবে আপনাকে অবশ্যই একটি তৈরি করতে হবে। গুগল ক্লাউড প্ল্যাটফর্ম কনসোলে ( console.cloud.google.com ) সাইন-ইন করুন এবং একটি নতুন প্রজেক্ট তৈরি করুন:

2016-02-10 12:45:26.png থেকে স্ক্রিনশট

এরপরে, গুগল ক্লাউড রিসোর্স ব্যবহার করার জন্য আপনাকে ক্লাউড কনসোলে বিলিং চালু করতে হবে।

এই কোডল্যাবটি চালাতে আপনার কয়েক ডলারের বেশি খরচ হওয়ার কথা নয়, কিন্তু আপনি যদি আরও রিসোর্স ব্যবহার করার সিদ্ধান্ত নেন বা সেগুলোকে চালু রাখেন, তাহলে খরচ আরও বেশি হতে পারে। PySpark-BigQuery এবং Spark-NLP কোডল্যাব দুটির প্রতিটির শেষে 'ক্লিন আপ' (Clean Up) ব্যাখ্যা করা হয়েছে।

গুগল ক্লাউড প্ল্যাটফর্মের নতুন ব্যবহারকারীরা ৩০০ ডলারের একটি বিনামূল্যে ট্রায়ালের জন্য যোগ্য।

৪. আমাদের পরিবেশ স্থাপন করা

প্রথমে, আমাদের Dataproc এবং Compute Engine API-গুলো সক্রিয় করতে হবে।

স্ক্রিনের উপরের বাম দিকের মেনু আইকনটিতে ক্লিক করুন।

ড্রপ ডাউন থেকে এপিআই ম্যানেজার নির্বাচন করুন।

এপিআই এবং পরিষেবাগুলি সক্ষম করুন -এ ক্লিক করুন।

সার্চ বক্সে "Compute Engine" লিখে সার্চ করুন। প্রদর্শিত ফলাফলের তালিকা থেকে "Google Compute Engine API"-তে ক্লিক করুন।

Google Compute Engine পেজে Enable-এ ক্লিক করুন।

একবার এটি চালু হয়ে গেলে, ফিরে যাওয়ার জন্য বাম দিকের তীরচিহ্নে ক্লিক করুন।

এখন 'Google Dataproc API' অনুসন্ধান করুন এবং এটিও সক্রিয় করুন।

এরপরে, ক্লাউড কনসোলের উপরের ডানদিকের কোণায় থাকা বোতামটিতে ক্লিক করে ক্লাউড শেল খুলুন:

আমরা কিছু এনভায়রনমেন্ট ভেরিয়েবল সেট করব, যা কোডল্যাবটি করার সময় আমরা রেফারেন্স হিসেবে ব্যবহার করতে পারব। প্রথমে, আমরা যে ডেটাপ্রক ক্লাস্টারটি তৈরি করতে যাচ্ছি তার জন্য একটি নাম বেছে নিন, যেমন "my-cluster", এবং আপনার এনভায়রনমেন্টে সেটি সেট করুন। আপনার পছন্দমতো যেকোনো নাম ব্যবহার করতে পারেন।

CLUSTER_NAME=my-cluster

এরপর, এখানে উপলব্ধ জোনগুলো থেকে একটি জোন বেছে নিন। উদাহরণস্বরূপ us-east1-b.

REGION=us-east1

অবশেষে, আমাদের সেই সোর্স বাকেটটি সেট করতে হবে যেখান থেকে আমাদের জবটি ডেটা রিড করবে। bm_reddit বাকেটে আমাদের কাছে স্যাম্পল ডেটা রয়েছে, কিন্তু আপনি যদি এর আগে 'PySpark for Preprocessing BigQuery Data' কাজটি সম্পন্ন করে থাকেন, তবে সেখান থেকে তৈরি করা ডেটাও নির্দ্বিধায় ব্যবহার করতে পারেন।

BUCKET_NAME=bm_reddit

আমাদের এনভায়রনমেন্ট ভেরিয়েবলগুলো কনফিগার করা হয়ে গেলে, আমাদের ডেটাপ্রক ক্লাস্টার তৈরি করতে নিচের কমান্ডটি চালান:

 gcloud beta dataproc clusters create ${CLUSTER_NAME} \
     --region ${REGION} \
     --metadata 'PIP_PACKAGES=google-cloud-storage spark-nlp==2.7.2' \
     --worker-machine-type n1-standard-8 \
     --num-workers 4 \
     --image-version 1.4-debian10 \
     --initialization-actions gs://dataproc-initialization-actions/python/pip-install.sh \
     --optional-components=JUPYTER,ANACONDA \
     --enable-component-gateway

চলুন এই কমান্ডগুলো একে একে ব্যাখ্যা করা যাক:

gcloud beta dataproc clusters create ${CLUSTER_NAME} : কমান্ডটি আপনার পূর্বে দেওয়া নামে একটি Dataproc ক্লাস্টার তৈরি করা শুরু করবে। আমরা এখানে beta ব্যবহার করেছি Dataproc-এর বিটা ফিচারগুলো, যেমন কম্পোনেন্ট গেটওয়ে (Component Gateway), চালু করার জন্য, যা নিয়ে আমরা নিচে আলোচনা করব।

--zone=${ZONE} : এটি ক্লাস্টারের অবস্থান নির্ধারণ করে।

--worker-machine-type n1-standard-8 : আমাদের কর্মীদের জন্য এই ধরনের মেশিন ব্যবহার করা হবে।

--num-workers 4 : আমাদের ক্লাস্টারে চারটি ওয়ার্কার থাকবে।

--image-version 1.4-debian9 : এটি ডেটাপ্রকের সেই ইমেজ-ভার্সনটিকে নির্দেশ করে যা আমরা ব্যবহার করব।

--initialization-actions ... : ইনিশিয়ালাইজেশন অ্যাকশন হলো কাস্টম স্ক্রিপ্ট যা ক্লাস্টার এবং ওয়ার্কার তৈরি করার সময় এক্সিকিউট করা হয়। এগুলো ব্যবহারকারী দ্বারা তৈরি করে একটি GCS বাকেটে সংরক্ষণ করা যেতে পারে, অথবা পাবলিক বাকেট dataproc-initialization-actions থেকে রেফারেন্স করা যেতে পারে। এখানে অন্তর্ভুক্ত ইনিশিয়ালাইজেশন অ্যাকশনটি --metadata ফ্ল্যাগের মাধ্যমে Pip ব্যবহার করে পাইথন প্যাকেজ ইনস্টল করার সুযোগ দেবে।

--metadata 'PIP_PACKAGES=google-cloud-storage spark-nlp' : এটি Dataproc-এ ইনস্টল করার জন্য প্যাকেজগুলির একটি তালিকা, যা স্পেস দিয়ে আলাদা করা। এক্ষেত্রে, আমরা google-cloud-storage পাইথন ক্লায়েন্ট লাইব্রেরি এবং spark-nlp ইনস্টল করব।

--optional-components=ANACONDA : অপশনাল কম্পোনেন্ট হলো ডেটাপ্রকের সাথে ব্যবহৃত সাধারণ প্যাকেজ, যা ডেটাপ্রক ক্লাস্টার তৈরির সময় স্বয়ংক্রিয়ভাবে ইনস্টল হয়ে যায়। ইনিশিয়ালাইজেশন অ্যাকশনের তুলনায় অপশনাল কম্পোনেন্ট ব্যবহারের সুবিধাগুলোর মধ্যে রয়েছে দ্রুত স্টার্টআপ টাইম এবং নির্দিষ্ট ডেটাপ্রক সংস্করণের জন্য পরীক্ষিত হওয়া। সার্বিকভাবে, এগুলো অধিক নির্ভরযোগ্য।

--enable-component-gateway : এই ফ্ল্যাগটি আমাদেরকে Zeppelin, Jupyter বা Spark History-এর মতো সাধারণ UI দেখার জন্য Dataproc-এর Component Gateway ব্যবহার করার সুযোগ দেয়। দ্রষ্টব্য: এগুলোর কয়েকটির জন্য সংশ্লিষ্ট Optional Component-এর প্রয়োজন হয়।

Dataproc সম্পর্কে আরও বিস্তারিত জানতে, অনুগ্রহ করে এই কোডল্যাবটি দেখুন।

এরপর, স্যাম্পল কোড সহ রিপোটি ক্লোন করতে আপনার ক্লাউড শেলে নিম্নলিখিত কমান্ডগুলি চালান এবং সঠিক ডিরেক্টরিতে যান:

cd
git clone https://github.com/GoogleCloudPlatform/cloud-dataproc
cd cloud-dataproc/codelabs/spark-nlp

৫. স্পার্ক এমএললিব

Spark MLlib হলো Apache Spark-এ লেখা একটি স্কেলেবল মেশিন লার্নিং লাইব্রেরি। একগুচ্ছ উন্নত মেশিন লার্নিং অ্যালগরিদমের সাথে Spark-এর কার্যকারিতাকে কাজে লাগিয়ে, MLlib বিপুল পরিমাণ ডেটা বিশ্লেষণ করতে পারে। Java, Scala, Python এবং R-এ এর API রয়েছে। এই কোডল্যাবে, আমরা বিশেষভাবে Python-এর উপর মনোযোগ দেব।

MLlib-এ প্রচুর পরিমাণে ট্রান্সফরমার এবং এস্টিমেটর রয়েছে। ট্রান্সফরমার হলো এমন একটি টুল যা আপনার ডেটাকে পরিবর্তন বা রূপান্তর করতে পারে, সাধারণত transform() ফাংশনের মাধ্যমে। অন্যদিকে, এস্টিমেটর হলো একটি পূর্ব-নির্মিত অ্যালগরিদম, যার উপর ভিত্তি করে আপনি আপনার ডেটাকে প্রশিক্ষণ দিতে পারেন, সাধারণত fit() ফাংশনের মাধ্যমে।

ট্রান্সফরমারের উদাহরণগুলো হলো:

টোকেনাইজেশন (শব্দের একটি স্ট্রিং থেকে সংখ্যার ভেক্টর তৈরি করা)
ওয়ান-হট এনকোডিং (একটি স্ট্রিং-এ উপস্থিত শব্দগুলোকে প্রতিনিধিত্বকারী সংখ্যার একটি স্পার্স ভেক্টর তৈরি করা)
স্টপওয়ার্ডস রিমুভার (স্ট্রিং-এ অর্থগত মান যোগ করে না এমন শব্দ অপসারণ করা)

এস্টিমেটরের উদাহরণগুলো হলো:

শ্রেণীবিভাগ (এটি কি আপেল নাকি কমলা?)
রিগ্রেশন (এই আপেলটির দাম কত হওয়া উচিত?)
গুচ্ছায়ন (আপেলগুলো একে অপরের সাথে কতটা সাদৃশ্যপূর্ণ?)
সিদ্ধান্ত বৃক্ষ (যদি রঙ কমলা হয়, তবে এটি একটি কমলা। অন্যথায় এটি একটি আপেল)
মাত্রা হ্রাস (আমরা কি আমাদের ডেটাসেট থেকে বৈশিষ্ট্যগুলি সরিয়ে ফেলার পরেও একটি আপেল এবং একটি কমলার মধ্যে পার্থক্য করতে পারি?)।

MLlib-এ মেশিন লার্নিংয়ের অন্যান্য প্রচলিত পদ্ধতি, যেমন হাইপারপ্যারামিটার টিউনিং ও সিলেকশন এবং ক্রস-ভ্যালিডেশনের জন্যেও টুল রয়েছে।

এছাড়াও, MLlib-এ Pipelines API রয়েছে, যা আপনাকে বিভিন্ন ট্রান্সফর্মার ব্যবহার করে ডেটা ট্রান্সফরমেশন পাইপলাইন তৈরি করার সুযোগ দেয়, যেগুলোকে পুনরায় চালানো যায়।

৬. স্পার্ক-এনএলপি

Spark-nlp হলো জন স্নো ল্যাবস দ্বারা নির্মিত একটি লাইব্রেরি, যা স্পার্ক ব্যবহার করে কার্যকর প্রাকৃতিক ভাষা প্রক্রিয়াকরণের কাজ সম্পাদনের জন্য ব্যবহৃত হয়। এতে অ্যানোটেটর নামক বিল্ট-ইন টুল রয়েছে, যা নিম্নলিখিত সাধারণ কাজগুলোর জন্য ব্যবহৃত হয়:

টোকেনাইজেশন (শব্দের একটি স্ট্রিং থেকে সংখ্যার ভেক্টর তৈরি করা)
ওয়ার্ড এমবেডিং তৈরি করা (ভেক্টরের মাধ্যমে শব্দগুলোর মধ্যে সম্পর্ক নির্ধারণ করা)
পদের প্রকারভেদ নির্দেশক ট্যাগ (কোন শব্দগুলো বিশেষ্য? কোনগুলো ক্রিয়া?)

যদিও এই কোডল্যাবের আওতার বাইরে, spark-nlp টেনসরফ্লো-এর সাথেও সুন্দরভাবে সমন্বিত হয়।

সম্ভবত সবচেয়ে গুরুত্বপূর্ণ বিষয় হলো, Spark-NLP এমন সব কম্পোনেন্ট সরবরাহ করার মাধ্যমে Spark MLlib-এর সক্ষমতা বৃদ্ধি করে, যা সহজেই MLlib Pipelines-এ যুক্ত করা যায়।

৭. প্রাকৃতিক ভাষা প্রক্রিয়াকরণের সর্বোত্তম অনুশীলন

আমাদের ডেটা থেকে দরকারি তথ্য বের করার আগে, কিছু প্রাথমিক প্রস্তুতিমূলক কাজ সেরে নিতে হবে। আমরা যে প্রাক-প্রক্রিয়াকরণ ধাপগুলো অনুসরণ করব, সেগুলো হলো নিম্নরূপ:

টোকেনাইজেশন

ঐতিহ্যগতভাবে আমরা প্রথমে যা করতে চাই তা হলো ডেটাকে "টোকেনাইজ" করা। এর জন্য ডেটাকে "টোকেন" বা শব্দের উপর ভিত্তি করে ভাগ করতে হয়। সাধারণত, এই ধাপে আমরা বিরামচিহ্ন বাদ দিই এবং সমস্ত শব্দকে ছোট হাতের অক্ষরে (lowercase) সেট করি। উদাহরণস্বরূপ, ধরা যাক আমাদের কাছে নিম্নলিখিত স্ট্রিংটি আছে: What time is it? টোকেনাইজেশনের পরে, এই বাক্যটিতে চারটি টোকেন থাকবে: " what" , "time", "is", "it". আমরা চাই না যে মডেলটি what " শব্দটিকে দুটি ভিন্ন ক্যাপিটালাইজেশন সহ দুটি ভিন্ন শব্দ হিসাবে বিবেচনা করুক। এছাড়াও, বিরামচিহ্ন সাধারণত শব্দ থেকে আরও ভালোভাবে অনুমান শিখতে আমাদের সাহায্য করে না, তাই আমরা সেটিও বাদ দিই।

স্বাভাবিকীকরণ

আমরা প্রায়শই ডেটা 'নরম্যালাইজ' করতে চাই। এর মাধ্যমে একই অর্থবোধক শব্দগুলোকে একই শব্দ দিয়ে প্রতিস্থাপন করা হয়। উদাহরণস্বরূপ, যদি কোনো টেক্সটে 'fought', 'battled' এবং 'dueled' শব্দগুলো পাওয়া যায়, তাহলে নর্ম্যালাইজেশনের মাধ্যমে 'battled' এবং 'dueled' শব্দ দুটিকে 'fought' শব্দটি দিয়ে প্রতিস্থাপন করা হতে পারে।

স্টেমিং

স্টেমিং প্রক্রিয়ায় শব্দগুলোকে তাদের মূল অর্থে প্রতিস্থাপন করা হয়। উদাহরণস্বরূপ, 'car', 'cars' এবং 'car's' শব্দগুলো সবই 'car' শব্দটি দ্বারা প্রতিস্থাপিত হবে, কারণ এই সব শব্দের মূল অর্থ একই।

স্টপওয়ার্ড অপসারণ

স্টপওয়ার্ড হলো 'এবং' ও 'দ্য'-এর মতো শব্দ, যেগুলো সাধারণত একটি বাক্যের অর্থগত তাৎপর্যে কোনো বাড়তি মাত্রা যোগ করে না। আমাদের টেক্সট ডেটাসেট থেকে অপ্রয়োজনীয় শব্দ কমানোর উপায় হিসেবে আমরা সাধারণত এগুলো বাদ দিতে চাই।

৮. কাজটি পর্যালোচনা করা

চলুন আমরা যে কাজটি চালাবো তা দেখে নিই। কোডটি cloud-dataproc/codelabs/spark-nlp/topic_model.py - এই ঠিকানায় পাওয়া যাবে। কী ঘটছে তা বোঝার জন্য এটি এবং এর সাথে থাকা মন্তব্যগুলো মনোযোগ দিয়ে পড়তে অন্তত কয়েক মিনিট সময় দিন। আমরা নিচে এর কিছু অংশও তুলে ধরব:

# Python imports
import sys

# spark-nlp components. Each one is incorporated into our pipeline.
from sparknlp.annotator import Lemmatizer, Stemmer, Tokenizer, Normalizer
from sparknlp.base import DocumentAssembler, Finisher

# A Spark Session is how we interact with Spark SQL to create Dataframes
from pyspark.sql import SparkSession

# These allow us to create a schema for our data
from pyspark.sql.types import StructField, StructType, StringType, LongType

# Spark Pipelines allow us to sequentially add components such as transformers
from pyspark.ml import Pipeline

# These are components we will incorporate into our pipeline.
from pyspark.ml.feature import StopWordsRemover, CountVectorizer, IDF

# LDA is our model of choice for topic modeling
from pyspark.ml.clustering import LDA

# Some transformers require the usage of other Spark ML functions. We import them here
from pyspark.sql.functions import col, lit, concat

# This will help catch some PySpark errors
from pyspark.sql.utils import AnalysisException

# Assign bucket where the data lives
try:
    bucket = sys.argv[1]
except IndexError:
    print("Please provide a bucket name")
    sys.exit(1)

# Create a SparkSession under the name "reddit". Viewable via the Spark UI
spark = SparkSession.builder.appName("reddit topic model").getOrCreate()

# Create a three column schema consisting of two strings and a long integer
fields = [StructField("title", StringType(), True),
          StructField("body", StringType(), True),
          StructField("created_at", LongType(), True)]
schema = StructType(fields)

# We'll attempt to process every year / month combination below.
years = ['2016', '2017', '2018', '2019']
months = ['01', '02', '03', '04', '05', '06',
          '07', '08', '09', '10', '11', '12']

# This is the subreddit we're working with.
subreddit = "food"

# Create a base dataframe.
reddit_data = spark.createDataFrame([], schema)

# Keep a running list of all files that will be processed
files_read = []

for year in years:
    for month in months:

        # In the form of <project-id>.<dataset>.<table>
        gs_uri = f"gs://{bucket}/reddit_posts/{year}/{month}/{subreddit}.csv.gz"

        # If the table doesn't exist we will simply continue and not
        # log it into our "tables_read" list
        try:
            reddit_data = (
                spark.read.format('csv')
                .options(codec="org.apache.hadoop.io.compress.GzipCodec")
                .load(gs_uri, schema=schema)
                .union(reddit_data)
            )

            files_read.append(gs_uri)

        except AnalysisException:
            continue

if len(files_read) == 0:
    print('No files read')
    sys.exit(1)

# Replacing null values with their respective typed-equivalent is usually
# easier to work with. In this case, we'll replace nulls with empty strings.
# Since some of our data doesn't have a body, we can combine all of the text
# for the titles and bodies so that every row has useful data.

df_train = (
    reddit_data
    # Replace null values with an empty string
    .fillna("")
    .select(
         # Combine columns
        concat(
            # First column to concatenate. col() is used to specify that we're referencing a column
            col("title"),
            # Literal character that will be between the concatenated columns.
            lit(" "),
            # Second column to concatenate.
            col("body")
        # Change the name of the new column
        ).alias("text")
    )
)

# Now, we begin assembling our pipeline. Each component here is used to some transformation to the data.
# The Document Assembler takes the raw text data and convert it into a format that can
# be tokenized. It becomes one of spark-nlp native object types, the "Document".
document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")

# The Tokenizer takes data that is of the "Document" type and tokenizes it.
# While slightly more involved than this, this is effectively taking a string and splitting
# it along ths spaces, so each word is its own string. The data then becomes the
# spark-nlp native type "Token".
tokenizer = Tokenizer().setInputCols(["document"]).setOutputCol("token")

# The Normalizer will group words together based on similar semantic meaning.
normalizer = Normalizer().setInputCols(["token"]).setOutputCol("normalizer")

# The Stemmer takes objects of class "Token" and converts the words into their
# root meaning. For instance, the words "cars", "cars'" and "car's" would all be replaced
# with the word "car".
stemmer = Stemmer().setInputCols(["normalizer"]).setOutputCol("stem")

# The Finisher signals to spark-nlp allows us to access the data outside of spark-nlp
# components. For instance, we can now feed the data into components from Spark MLlib.
finisher = Finisher().setInputCols(["stem"]).setOutputCols(["to_spark"]).setValueSplitSymbol(" ")

# Stopwords are common words that generally don't add much detail to the meaning
# of a body of text. In English, these are mostly "articles" such as the words "the"
# and "of".
stopword_remover = StopWordsRemover(inputCol="to_spark", outputCol="filtered")

# Here we implement TF-IDF as an input to our LDA model. CountVectorizer (TF) keeps track
# of the vocabulary that's being created so we can map our topics back to their
# corresponding words.
# TF (term frequency) creates a matrix that counts how many times each word in the
# vocabulary appears in each body of text. This then gives each word a weight based
# on its frequency.
tf = CountVectorizer(inputCol="filtered", outputCol="raw_features")

# Here we implement the IDF portion. IDF (Inverse document frequency) reduces
# the weights of commonly-appearing words.
idf = IDF(inputCol="raw_features", outputCol="features")

# LDA creates a statistical representation of how frequently words appear
# together in order to create "topics" or groups of commonly appearing words.
lda = LDA(k=10, maxIter=10)

# We add all of the transformers into a Pipeline object. Each transformer
# will execute in the ordered provided to the "stages" parameter
pipeline = Pipeline(
    stages = [
        document_assembler,
        tokenizer,
        normalizer,
        stemmer,
        finisher,
        stopword_remover,
        tf,
        idf,
        lda
    ]
)

# We fit the data to the model.
model = pipeline.fit(df_train)

# Now that we have completed a pipeline, we want to output the topics as human-readable.
# To do this, we need to grab the vocabulary generated from our pipeline, grab the topic
# model and do the appropriate mapping.  The output from each individual component lives
# in the model object. We can access them by referring to them by their position in
# the pipeline via model.stages[<ind>]

# Let's create a reference our vocabulary.
vocab = model.stages[-3].vocabulary

# Next, let's grab the topics generated by our LDA model via describeTopics(). Using collect(),
# we load the output into a Python array.
raw_topics = model.stages[-1].describeTopics().collect()

# Lastly, let's get the indices of the vocabulary terms from our topics
topic_inds = [ind.termIndices for ind in raw_topics]

# The indices we just grab directly map to the term at position <ind> from our vocabulary.
# Using the below code, we can generate the mappings from our topic indices to our vocabulary.
topics = []
for topic in topic_inds:
    _topic = []
    for ind in topic:
        _topic.append(vocab[ind])
    topics.append(_topic)

# Let's see our topics!
for i, topic in enumerate(topics, start=1):
    print(f"topic {i}: {topic}")

কাজটি চালানো

চলুন এবার আমাদের কাজটি শুরু করা যাক। নিচের কমান্ডটি চালান:

gcloud dataproc jobs submit pyspark --cluster ${CLUSTER_NAME}\
    --region ${REGION}\
    --properties=spark.jars.packages=com.johnsnowlabs.nlp:spark-nlp_2.11:2.7.2\
    --driver-log-levels root=FATAL \
    topic_model.py \
    -- ${BUCKET_NAME}

এই কমান্ডটি আমাদেরকে ডেটাপ্রক জবস এপিআই (Dataproc Jobs API) ব্যবহার করার সুযোগ দেয়। pyspark কমান্ডটি অন্তর্ভুক্ত করার মাধ্যমে আমরা ক্লাস্টারকে জানিয়ে দিচ্ছি যে এটি একটি পাইস্পার্ক (PySpark) জব। আমরা ক্লাস্টারের নাম, এখান থেকে উপলব্ধ ঐচ্ছিক প্যারামিটারগুলো এবং জবটি ধারণকারী ফাইলের নাম সরবরাহ করি। আমাদের ক্ষেত্রে, আমরা --properties প্যারামিটারটি দিচ্ছি, যা আমাদেরকে স্পার্ক (Spark), ইয়ার্ন (Yarn), বা ডেটাপ্রক (Dataproc)-এর বিভিন্ন প্রপার্টি পরিবর্তন করার সুযোগ দেয়। আমরা স্পার্কের ` packages প্রপার্টিটি পরিবর্তন করছি, যা আমাদেরকে স্পার্ককে জানাতে সাহায্য করে যে আমরা আমাদের জবের সাথে spark-nlp প্যাকেজ হিসেবে অন্তর্ভুক্ত করতে চাই। এছাড়াও আমরা --driver-log-levels root=FATAL প্যারামিটারটি দিচ্ছি, যা এরর (Errors) ছাড়া পাইস্পার্কের বেশিরভাগ লগ আউটপুট বন্ধ করে দেবে। সাধারণত, স্পার্কের লগগুলো বেশ কোলাহলপূর্ণ হয়ে থাকে।

সবশেষে, -- ${BUCKET} হলো পাইথন স্ক্রিপ্টটির নিজস্ব একটি কমান্ড লাইন আর্গুমেন্ট যা বাকেটের নাম প্রদান করে। -- এবং ${BUCKET} এর মধ্যে একটি স্পেস লক্ষ্য করুন।

কাজটি চালানোর কয়েক মিনিট পর, আমরা আমাদের মডেলগুলো সম্বলিত আউটপুট দেখতে পাব:

চমৎকার!! আপনার মডেলের আউটপুট দেখে কি কোনো প্রবণতা অনুমান করতে পারেন? আমাদেরটা দেখেই বা কী মনে হয়?

উপরোক্ত ফলাফল থেকে, ৮ নং বিষয় থেকে সকালের নাস্তা এবং ৯ নং বিষয় থেকে মিষ্টিজাতীয় খাবারের একটি প্রবণতা অনুমান করা যেতে পারে।

৯. পরিচ্ছন্নতা

এই কুইকস্টার্টটি সম্পন্ন করার পর আপনার GCP অ্যাকাউন্টে অপ্রয়োজনীয় চার্জ হওয়া এড়াতে:

আপনার তৈরি করা এনভায়রনমেন্টের জন্য ক্লাউড স্টোরেজ বাকেটটি মুছে ফেলুন।
Dataproc এনভায়রনমেন্টটি মুছে ফেলুন ।

আপনি যদি শুধু এই কোডল্যাবের জন্য একটি প্রজেক্ট তৈরি করে থাকেন, তবে আপনি চাইলে প্রজেক্টটি মুছেও ফেলতে পারেন:

GCP কনসোলে, প্রজেক্টস পৃষ্ঠায় যান।
প্রজেক্ট তালিকা থেকে, আপনি যে প্রজেক্টটি মুছতে চান সেটি নির্বাচন করুন এবং ডিলিট-এ ক্লিক করুন।
বক্সে প্রজেক্ট আইডি টাইপ করুন এবং তারপর প্রজেক্টটি মুছে ফেলার জন্য 'শাট ডাউন'-এ ক্লিক করুন।

সতর্কতা: একটি প্রজেক্ট মুছে ফেলার নিম্নলিখিত প্রভাব রয়েছে:

প্রজেক্টের সবকিছু মুছে ফেলা হবে। আপনি যদি এই টিউটোরিয়ালের জন্য আগে থেকে থাকা কোনো প্রজেক্ট ব্যবহার করে থাকেন, তবে সেটি ডিলিট করার সাথে সাথে প্রজেক্টটিতে করা আপনার অন্য সব কাজও মুছে যাবে।
কাস্টম প্রজেক্ট আইডি হারিয়ে গেছে। এই প্রজেক্টটি তৈরি করার সময়, আপনি হয়তো একটি কাস্টম প্রজেক্ট আইডি তৈরি করেছিলেন যা আপনি ভবিষ্যতে ব্যবহার করতে চান। প্রজেক্ট আইডি ব্যবহার করে এমন URL-গুলো, যেমন appspot.com URL, সংরক্ষণ করতে, পুরো প্রজেক্টটি মুছে ফেলার পরিবর্তে প্রজেক্টের ভেতর থেকে নির্বাচিত রিসোর্সগুলো মুছে ফেলুন।

লাইসেন্স

এই কাজটি ক্রিয়েটিভ কমন্স অ্যাট্রিবিউশন ৩.০ জেনেরিক লাইসেন্স এবং অ্যাপাচি ২.০ লাইসেন্সের অধীনে লাইসেন্সকৃত।