1. ভূমিকা
ডকুমেন্ট এআই হল একটি নথি বোঝার সমাধান যা অসংগঠিত ডেটা গ্রহণ করে, যেমন নথি, ইমেল এবং আরও অনেক কিছু, এবং ডেটা বোঝা, বিশ্লেষণ এবং ব্যবহার করা সহজ করে তোলে।
ডকুমেন্ট এআই ওয়ার্কবেঞ্চের সাথে, আপনি আপনার নিজস্ব প্রশিক্ষণ ডেটা ব্যবহার করে সম্পূর্ণ কাস্টমাইজড মডেল তৈরি করে উচ্চতর নথি প্রক্রিয়াকরণের নির্ভুলতা অর্জন করতে পারেন।
এই ল্যাবে, আপনি একটি কাস্টম ডকুমেন্ট এক্সট্রাকশন প্রসেসর তৈরি করবেন, একটি ডেটাসেট আমদানি করবেন, নথির উদাহরণ লেবেল করবেন এবং প্রসেসরকে প্রশিক্ষণ দেবেন।
এই ল্যাবে ব্যবহৃত ডকুমেন্ট ডেটাসেটটি একটি CC0: পাবলিক ডোমেন লাইসেন্স সহ Kaggle-এর একটি জাল W-2 (ইউএস ট্যাক্স ফর্ম) ডেটাসেট থেকে।
পূর্বশর্ত
এই কোডল্যাব অন্যান্য ডকুমেন্ট এআই কোডল্যাবে উপস্থাপিত বিষয়বস্তুর উপর ভিত্তি করে তৈরি করে।
এটি সুপারিশ করা হয় যে আপনি এগিয়ে যাওয়ার আগে নিম্নলিখিত কোডল্যাবগুলি সম্পূর্ণ করুন৷
- ডকুমেন্ট এআই (পাইথন) সহ অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR)
- ডকুমেন্ট এআই (পাইথন) সহ ফর্ম পার্সিং
- ডকুমেন্ট এআই (পাইথন) সহ বিশেষায়িত প্রসেসর
- পাইথনের সাথে ডকুমেন্ট এআই প্রসেসর পরিচালনা করা
- নথি এআই: লুপে মানব
- নথি এআই: প্রশিক্ষণ
আপনি কি শিখবেন
- একটি কাস্টম ডকুমেন্ট এক্সট্র্যাক্টর প্রসেসর তৈরি করুন।
- টীকা টুল ব্যবহার করে লেবেল ডকুমেন্ট এআই প্রশিক্ষণ ডেটা।
- একটি নতুন মডেল সংস্করণ প্রশিক্ষণ.
- নতুন মডেল সংস্করণের নির্ভুলতা মূল্যায়ন.
আপনি কি প্রয়োজন হবে
- একটি Google ক্লাউড প্রকল্প
- একটি ব্রাউজার, যেমন ক্রোম বা ফায়ারফক্স
2. সেট আপ করা হচ্ছে
এই কোডল্যাব অনুমান করে যে আপনি Introductory Codelab- এ তালিকাভুক্ত ডকুমেন্ট AI সেটআপ ধাপগুলি সম্পূর্ণ করেছেন৷
এগিয়ে যাওয়ার আগে অনুগ্রহ করে নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
3. একটি প্রসেসর তৈরি করুন
এই ল্যাবের জন্য ব্যবহার করার জন্য আপনাকে প্রথমে একটি কাস্টম ডকুমেন্ট এক্সট্র্যাক্টর প্রসেসর তৈরি করতে হবে।
- কনসোলে, ডকুমেন্ট এআই ওভারভিউ পৃষ্ঠাতে নেভিগেট করুন।
- কাস্টম প্রসেসর তৈরি করুন ক্লিক করুন এবং কাস্টম ডকুমেন্ট এক্সট্র্যাক্টর নির্বাচন করুন।
- এটিকে
codelab-custom-extractor
নাম দিন (অথবা অন্য কিছু যা আপনি মনে রাখবেন) এবং তালিকার নিকটতম অঞ্চলটি নির্বাচন করুন।
- আপনার প্রসেসর তৈরি করতে তৈরি করুন ক্লিক করুন। তারপরে আপনাকে প্রসেসর ওভারভিউ পৃষ্ঠাটি দেখতে হবে।
4. একটি ডেটাসেট তৈরি করুন
আমাদের প্রসেসরকে প্রশিক্ষিত করার জন্য, প্রসেসরকে আমরা যে সত্তাগুলি বের করতে চাই তা সনাক্ত করতে সাহায্য করার জন্য আমাদের প্রশিক্ষণ এবং পরীক্ষার ডেটা সহ একটি ডেটাসেট তৈরি করতে হবে।
- প্রসেসর ওভারভিউ পৃষ্ঠায়, আপনার ডেটাসেট কনফিগার করুন- এ ক্লিক করুন।
- আপনার এখন কনফিগার ডেটাসেট পৃষ্ঠায় থাকা উচিত। আপনি যদি প্রশিক্ষণের নথি এবং লেবেলগুলি সঞ্চয় করার জন্য আপনার নিজের বালতি নির্দিষ্ট করতে চান তবে অ্যাডভান্সড অপশন দেখাতে ক্লিক করুন। অন্যথায়, শুধু Continue এ ক্লিক করুন।
- ডেটাসেট তৈরি হওয়ার জন্য অপেক্ষা করুন, তারপর এটি আপনাকে প্রশিক্ষণ পৃষ্ঠায় নিয়ে যাবে।
5. একটি পরীক্ষা নথি আমদানি করুন৷
এখন, আমাদের ডেটাসেটে একটি নমুনা W2 পিডিএফ আমদানি করা যাক।
- Import Documents এ ক্লিক করুন
- এই ল্যাবে ব্যবহার করার জন্য আমাদের কাছে আপনার জন্য একটি নমুনা PDF আছে। উত্স পথ বাক্সে নিম্নলিখিত লিঙ্কটি অনুলিপি করুন এবং পেস্ট করুন। আপাতত "আনঅ্যাসাইনড" হিসাবে "ডেটা স্প্লিট" ছেড়ে দিন। অন্য সব বাক্সে টিক চিহ্ন ছাড়াই ছেড়ে দিন। আমদানিতে ক্লিক করুন।
cloud-samples-data/documentai/codelabs/custom/extractor/pdfs
- নথিটি আমদানি করার জন্য অপেক্ষা করুন। এটি 1 মিনিটের কম সময় নিতে হবে।
- আমদানি সম্পূর্ণ হলে, আপনার প্রশিক্ষণ পৃষ্ঠায় নথিটি দেখতে হবে।
6. লেবেল তৈরি করুন৷
যেহেতু আমরা একটি নতুন প্রসেসরের ধরন তৈরি করছি, তাই ডকুমেন্ট AI কে আমরা কোন ক্ষেত্রগুলি বের করতে চাই তা জানাতে কাস্টম লেবেল তৈরি করতে হবে৷
- নীচে-বাম কোণে Edit Schema- এ ক্লিক করুন।
- আপনার এখন স্কিমা ম্যানেজমেন্ট কনসোলে থাকা উচিত।
- লেবেল তৈরি করুন বোতামটি ব্যবহার করে নিম্নলিখিত লেবেলগুলি তৈরি করুন।
নাম | ডেটা টাইপ | ঘটনা |
| সংখ্যা | একাধিক প্রয়োজন |
| প্লেইন টেক্সট | একাধিক প্রয়োজন |
| প্লেইন টেক্সট | একাধিক প্রয়োজন |
| ঠিকানা | একাধিক প্রয়োজন |
| টাকা | একাধিক প্রয়োজন |
| টাকা | একাধিক প্রয়োজন |
| টাকা | একাধিক প্রয়োজন |
| টাকা | একাধিক প্রয়োজন |
- সম্পূর্ণ হলে কনসোলটি এইরকম হওয়া উচিত। শেষ হলে Save এ ক্লিক করুন।
- প্রশিক্ষণ পৃষ্ঠায় ফিরে যেতে পিছনের তীরটিতে ক্লিক করুন। লক্ষ্য করুন যে আমরা যে লেবেলগুলি তৈরি করেছি তা নীচের-বাম কোণে দেখা যাচ্ছে।
7. টেস্ট ডকুমেন্ট লেবেল করুন
এর পরে, আমরা যে সত্ত্বাগুলি বের করতে চাই তার জন্য আমরা পাঠ্য উপাদান এবং লেবেলগুলি সনাক্ত করব। এই লেবেলগুলি এই নির্দিষ্ট নথির কাঠামোকে পার্স করতে এবং সঠিক প্রকারগুলি সনাক্ত করতে আমাদের মডেলকে প্রশিক্ষণ দিতে ব্যবহার করা হবে।
- লেবেলিং কনসোলে প্রবেশ করতে আমরা আগে আমদানি করা নথিতে ডাবল-ক্লিক করুন। এটা এই মত কিছু দেখা উচিত.
- "বাউন্ডিং বক্স" টুলে ক্লিক করুন, তারপর "1173038" টেক্সট হাইলাইট করুন এবং
CONTROL_NUMBER
লেবেল বরাদ্দ করুন। আপনি লেবেলের নাম অনুসন্ধান করতে পাঠ্য ফিল্টার ব্যবহার করতে পারেন।
-
CONTROL_NUMBER
এর অন্য দৃষ্টান্তের জন্য সম্পূর্ণ এটি একবার লেবেল করা হলে এটি দেখতে হবে৷
- নিম্নলিখিত পাঠ্য মানগুলির সমস্ত উদাহরণ হাইলাইট করুন এবং উপযুক্ত লেবেলগুলি বরাদ্দ করুন৷
লেবেল নাম | পাঠ্য |
| 24-3188810 |
| 19127.2 |
| 5093.71 |
| 66584.46 |
| 56081.18 |
| 714-32-2105 |
| অ্যাডামস, চেজ এবং গিলবার্ট ইনক 972 গঞ্জালেজ ড্যাম সাউথ ক্যাথরিন এনসি 95869-5178 |
- সম্পূর্ণ হলে লেবেল করা নথিটি দেখতে এইরকম হওয়া উচিত। দ্রষ্টব্য, আপনি নথির বাউন্ডিং বাক্সে বা বাম দিকের মেনুতে লেবেলের নাম/মানে ক্লিক করে এই লেবেলগুলিতে সামঞ্জস্য করতে পারেন। লেবেল করা শেষ হলে লেবেলযুক্ত হিসেবে চিহ্নিত করুন ক্লিক করুন , তারপর ডেটাসেট ম্যানেজমেন্ট কনসোলে ফিরে যান।
8. প্রশিক্ষণ সেটে নথি বরাদ্দ করুন
আপনার এখন ডেটাসেট ম্যানেজমেন্ট কনসোলে ফিরে আসা উচিত। লক্ষ্য করুন যে লেবেলযুক্ত এবং লেবেলবিহীন নথির সংখ্যা এবং লেবেল প্রতি দৃষ্টান্তের সংখ্যা পরিবর্তিত হয়েছে।
- আমাদের এই নথিটিকে "প্রশিক্ষণ" বা "পরীক্ষা" সেটে বরাদ্দ করতে হবে। ডকুমেন্টে ক্লিক করুন, অ্যাসাইন টু সেট-এ ক্লিক করুন, তারপর ট্রেনিং -এ ক্লিক করুন।
- লক্ষ্য করুন ডেটা স্প্লিট নম্বরগুলি পরিবর্তিত হয়েছে।
9. পূর্ব-লেবেলযুক্ত ডেটা আমদানি করুন
ডকুমেন্ট এআই কাস্টম প্রসেসরের প্রতিটি সেটে প্রতিটি লেবেলের 10টি উদাহরণ সহ প্রশিক্ষণ এবং পরীক্ষা উভয় সেটেই ন্যূনতম 10টি নথি প্রয়োজন।
সেরা পারফরম্যান্সের জন্য প্রতিটি লেবেলের 50টি দৃষ্টান্ত সহ প্রতিটি সেটে কমপক্ষে 50টি নথি থাকা বাঞ্ছনীয়৷ আরও প্রশিক্ষণের ডেটা সাধারণত উচ্চ নির্ভুলতার সমান।
সমস্ত দস্তাবেজগুলিকে ম্যানুয়ালি লেবেল করতে অনেক সময় লাগবে, তাই আমাদের কাছে কিছু প্রাক-লেবেলযুক্ত নথি রয়েছে যা আপনি এই ল্যাবের জন্য আমদানি করতে পারেন৷
আপনি Document.json
ফরম্যাটে প্রাক-লেবেলযুক্ত নথি ফাইল আমদানি করতে পারেন। এগুলি একটি প্রসেসরকে কল করার এবং হিউম্যান ইন দ্য লুপ (HITL) ব্যবহার করে নির্ভুলতা যাচাই করার ফলাফল হতে পারে।
একপাশে নেতিবাচক
দ্রষ্টব্য: পূর্ব-লেবেলযুক্ত ডেটা আমদানি করার সময়, একটি মডেল প্রশিক্ষিত হওয়ার আগে ম্যানুয়ালি টীকাগুলি পর্যালোচনা করার জন্য এটি অত্যন্ত সুপারিশ করা হয়৷
- ইমপোর্ট ডকুমেন্টে ক্লিক করুন।
- নিম্নলিখিত ক্লাউড স্টোরেজ পাথটি কপি/পেস্ট করুন এবং এটি প্রশিক্ষণ সেটে বরাদ্দ করুন।
cloud-samples-data/documentai/codelabs/custom/extractor/training
- Add Other Folder এ ক্লিক করুন। তারপরে নিম্নলিখিত ক্লাউড স্টোরেজ পাথটি কপি/পেস্ট করুন এবং এটি পরীক্ষা সেটে বরাদ্দ করুন।
cloud-samples-data/documentai/codelabs/custom/extractor/test
- আমদানি ক্লিক করুন এবং নথি আমদানি করার জন্য অপেক্ষা করুন। এটি গতবারের চেয়ে বেশি সময় নেবে কারণ প্রক্রিয়া করার জন্য আরও নথি রয়েছে৷ এটি প্রায় 6 মিনিট সময় নিতে হবে, আপনি এই পৃষ্ঠাটি ছেড়ে যেতে পারেন এবং পরে ফিরে আসতে পারেন৷
- একবার সম্পূর্ণ হলে, আপনার প্রশিক্ষণ পৃষ্ঠায় নথিগুলি দেখতে হবে।
10. মডেল প্রশিক্ষণ
এখন, আমরা আমাদের কাস্টম ডকুমেন্ট এক্সট্র্যাক্টর প্রশিক্ষণ শুরু করতে প্রস্তুত।
- ট্রেন নতুন সংস্করণ ক্লিক করুন
- আপনার সংস্করণটিকে এমন একটি নাম দিন যা আপনি মনে রাখবেন, যেমন
codelab-custom-1
। "প্রশিক্ষণ পদ্ধতি" এর জন্য, "শুরু থেকে ট্রেন" নির্বাচন করুন।
- (ঐচ্ছিক) আপনি আপনার ডেটাসেটে লেবেল সম্পর্কে মেট্রিক্স দেখতে লেবেল পরিসংখ্যান দেখুন নির্বাচন করতে পারেন।
- ট্রেনিং প্রক্রিয়া শুরু করতে Start Training- এ ক্লিক করুন। আপনাকে ডেটাসেট ব্যবস্থাপনা পৃষ্ঠায় পুনঃনির্দেশিত করা উচিত। আপনি ডান দিকে প্রশিক্ষণ অবস্থা দেখতে পারেন. প্রশিক্ষণ শেষ হতে কয়েক ঘন্টা সময় লাগবে। আপনি এই পৃষ্ঠাটি ছেড়ে যেতে পারেন এবং পরে ফিরে আসতে পারেন।
- আপনি সংস্করণের নামের উপর ক্লিক করলে, আপনাকে সংস্করণ পরিচালনা পৃষ্ঠাতে পরিচালিত করা হবে, যা সংস্করণ আইডি এবং প্রশিক্ষণ কাজের বর্তমান অবস্থা দেখায়।
11. নতুন মডেল সংস্করণ পরীক্ষা করুন
একবার প্রশিক্ষণের কাজটি সম্পূর্ণ হয়ে গেলে (এটি আমার পরীক্ষাগুলিতে প্রায় 1 ঘন্টা লেগেছিল), আপনি এখন নতুন মডেল সংস্করণটি পরীক্ষা করতে পারেন এবং ভবিষ্যদ্বাণীর জন্য এটি ব্যবহার শুরু করতে পারেন।
- ম্যানেজ ভার্সন পেজে যান। এখানে আপনি বর্তমান অবস্থা এবং F1 স্কোর দেখতে পারেন।
- এটি ব্যবহার করার আগে আমাদের এই মডেল সংস্করণটি স্থাপন করতে হবে। ডানদিকে উল্লম্ব বিন্দুতে ক্লিক করুন এবং ডিপ্লয় সংস্করণ নির্বাচন করুন।
- পপ-আপ উইন্ডো থেকে Deploy নির্বাচন করুন, যখন সংস্করণটি স্থাপনের জন্য অপেক্ষা করুন। এটি সম্পূর্ণ হতে কয়েক মিনিট সময় লাগবে। এটি স্থাপন করার পরে, আপনি এই সংস্করণটিকে ডিফল্ট সংস্করণ হিসাবে সেট করতে পারেন৷
- এটি স্থাপন করা শেষ হলে, মূল্যায়ন ট্যাবে যান। এই পৃষ্ঠায়, আপনি সম্পূর্ণ নথির পাশাপাশি পৃথক লেবেলগুলির জন্য F1 স্কোর, যথার্থতা এবং স্মরণ সহ মূল্যায়ন মেট্রিক্স দেখতে পারেন। আপনি AutoML ডকুমেন্টেশনে এই মেট্রিক্স সম্পর্কে আরও পড়তে পারেন।
- নিচে লিঙ্ক করা PDF ফাইলটি ডাউনলোড করুন। এটি একটি নমুনা W2 যা প্রশিক্ষণ বা টেস্ট সেটে অন্তর্ভুক্ত ছিল না।
- আপলোড টেস্ট ডকুমেন্টে ক্লিক করুন এবং পিডিএফ ফাইলটি নির্বাচন করুন।
- নিষ্কাশিত সত্তা এই মত কিছু দেখতে হবে.
12. ঐচ্ছিক: নতুন আমদানি করা নথিগুলিকে অটো-লেবেল করুন৷
একটি প্রশিক্ষিত প্রসেসর সংস্করণ স্থাপন করার পরে, আপনি নতুন নথি আমদানি করার সময় লেবেলিংয়ের সময় বাঁচাতে অটো-লেবেলিং ব্যবহার করতে পারেন।
- ট্রেন পৃষ্ঠায়, ইমপোর্ট ডকুমেন্টে ক্লিক করুন।
- নিম্নলিখিত পথটি কপি এবং পেস্ট করুন৷ এই ডিরেক্টরিতে 5টি লেবেলবিহীন W2 PDF রয়েছে। ডেটা স্প্লিট ড্রপডাউন তালিকা থেকে, প্রশিক্ষণ নির্বাচন করুন।
cloud-samples-data/documentai/Custom/W2/AutoLabel
- অটো-লেবেলিং বিভাগে, অটো-লেবেলিং সহ আমদানি চেকবক্স নির্বাচন করুন।
- ডকুমেন্ট লেবেল করতে একটি বিদ্যমান প্রসেসর সংস্করণ নির্বাচন করুন।
- যেমন:
2af620b2fd4d1fcf
- আমদানি ক্লিক করুন এবং নথি আমদানি করার জন্য অপেক্ষা করুন। আপনি এই পৃষ্ঠাটি ছেড়ে যেতে পারেন এবং পরে ফিরে আসতে পারেন।
- সম্পূর্ণ হলে, নথিগুলি অটো-লেবেলযুক্ত বিভাগে ট্রেন পৃষ্ঠায় উপস্থিত হয়।
- আপনি প্রশিক্ষণ বা পরীক্ষার জন্য অটো-লেবেলযুক্ত নথিগুলিকে লেবেল হিসাবে চিহ্নিত না করে ব্যবহার করতে পারবেন না৷ স্বয়ংক্রিয়-লেবেলযুক্ত নথিগুলি দেখতে অটো-লেবেলযুক্ত বিভাগে যান৷
- লেবেলিং কনসোলে প্রবেশ করতে প্রথম নথিটি নির্বাচন করুন।
- লেবেল, বাউন্ডিং বাক্স এবং মানগুলি সঠিক কিনা তা নিশ্চিত করতে যাচাই করুন। বাদ দেওয়া হয়েছে এমন কোনো মান লেবেল করুন।
- সমাপ্ত হলে লেবেল হিসাবে চিহ্নিত করুন নির্বাচন করুন।
- প্রতিটি স্বয়ংক্রিয়-লেবেলযুক্ত নথির জন্য লেবেল যাচাইকরণের পুনরাবৃত্তি করুন, তারপর প্রশিক্ষণের জন্য ডেটা ব্যবহার করতে ট্রেন পৃষ্ঠায় ফিরে যান।
13. উপসংহার
অভিনন্দন, আপনি সফলভাবে একটি কাস্টম ডকুমেন্ট এক্সট্র্যাক্টর প্রসেসর প্রশিক্ষণের জন্য ডকুমেন্ট এআই ব্যবহার করেছেন। আপনি এখন এই ফরম্যাটে ডকুমেন্ট পার্স করতে এই প্রসেসরটি ব্যবহার করতে পারেন ঠিক যেমন আপনি যেকোনো বিশেষায়িত প্রসেসরের জন্য করেন।
প্রক্রিয়াকরণ প্রতিক্রিয়া কীভাবে পরিচালনা করবেন তা পর্যালোচনা করতে আপনি বিশেষায়িত প্রসেসর কোডল্যাব- এ উল্লেখ করতে পারেন।
ক্লিনআপ
এই টিউটোরিয়ালে ব্যবহৃত সংস্থানগুলির জন্য আপনার Google ক্লাউড অ্যাকাউন্টে চার্জ এড়াতে:
- ক্লাউড কনসোলে, সম্পদ পরিচালনা পৃষ্ঠাতে যান।
- প্রকল্প তালিকায়, আপনার প্রকল্প নির্বাচন করুন তারপর মুছুন ক্লিক করুন.
- ডায়ালগে, প্রকল্প আইডি টাইপ করুন এবং তারপরে প্রকল্পটি মুছে ফেলতে শাট ডাউন ক্লিক করুন।
সম্পদ
- ডকুমেন্ট এআই ওয়ার্কবেঞ্চ ডকুমেন্টেশন
- নথির ভবিষ্যত - YouTube প্লেলিস্ট
- ডকুমেন্ট এআই ডকুমেন্টেশন
- নথি এআই পাইথন ক্লায়েন্ট লাইব্রেরি
- নথি AI নমুনা
লাইসেন্স
এই কাজটি ক্রিয়েটিভ কমন্স অ্যাট্রিবিউশন 2.0 জেনেরিক লাইসেন্সের অধীনে লাইসেন্সপ্রাপ্ত।