ডকুমেন্ট এআই ওয়ার্কবেঞ্চ - কাস্টম ডকুমেন্ট এক্সট্র্যাক্টর

1. ভূমিকা

ডকুমেন্ট এআই হল একটি নথি বোঝার সমাধান যা অসংগঠিত ডেটা গ্রহণ করে, যেমন নথি, ইমেল এবং আরও অনেক কিছু, এবং ডেটা বোঝা, বিশ্লেষণ এবং ব্যবহার করা সহজ করে তোলে।

ডকুমেন্ট এআই ওয়ার্কবেঞ্চের সাথে, আপনি আপনার নিজস্ব প্রশিক্ষণ ডেটা ব্যবহার করে সম্পূর্ণ কাস্টমাইজড মডেল তৈরি করে উচ্চতর নথি প্রক্রিয়াকরণের নির্ভুলতা অর্জন করতে পারেন।

এই ল্যাবে, আপনি একটি কাস্টম ডকুমেন্ট এক্সট্রাকশন প্রসেসর তৈরি করবেন, একটি ডেটাসেট আমদানি করবেন, নথির উদাহরণ লেবেল করবেন এবং প্রসেসরকে প্রশিক্ষণ দেবেন।

এই ল্যাবে ব্যবহৃত ডকুমেন্ট ডেটাসেটটি একটি CC0: পাবলিক ডোমেন লাইসেন্স সহ Kaggle-এর একটি জাল W-2 (ইউএস ট্যাক্স ফর্ম) ডেটাসেট থেকে।

পূর্বশর্ত

এই কোডল্যাব অন্যান্য ডকুমেন্ট এআই কোডল্যাবে উপস্থাপিত বিষয়বস্তুর উপর ভিত্তি করে তৈরি করে।

এটি সুপারিশ করা হয় যে আপনি এগিয়ে যাওয়ার আগে নিম্নলিখিত কোডল্যাবগুলি সম্পূর্ণ করুন৷

আপনি কি শিখবেন

  • একটি কাস্টম ডকুমেন্ট এক্সট্র্যাক্টর প্রসেসর তৈরি করুন।
  • টীকা টুল ব্যবহার করে লেবেল ডকুমেন্ট এআই প্রশিক্ষণ ডেটা।
  • একটি নতুন মডেল সংস্করণ প্রশিক্ষণ.
  • নতুন মডেল সংস্করণের নির্ভুলতা মূল্যায়ন.

আপনি কি প্রয়োজন হবে

2. সেট আপ করা হচ্ছে

এই কোডল্যাব অনুমান করে যে আপনি Introductory Codelab- এ তালিকাভুক্ত ডকুমেন্ট AI সেটআপ ধাপগুলি সম্পূর্ণ করেছেন৷

এগিয়ে যাওয়ার আগে অনুগ্রহ করে নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

3. একটি প্রসেসর তৈরি করুন

এই ল্যাবের জন্য ব্যবহার করার জন্য আপনাকে প্রথমে একটি কাস্টম ডকুমেন্ট এক্সট্র্যাক্টর প্রসেসর তৈরি করতে হবে।

  1. কনসোলে, ডকুমেন্ট এআই ওভারভিউ পৃষ্ঠাতে নেভিগেট করুন।

DocAIOoverviewConsole

  1. কাস্টম প্রসেসর তৈরি করুন ক্লিক করুন এবং কাস্টম ডকুমেন্ট এক্সট্র্যাক্টর নির্বাচন করুন।

docai-custom-codelab-02

  1. এটিকে codelab-custom-extractor নাম দিন (অথবা অন্য কিছু যা আপনি মনে রাখবেন) এবং তালিকার নিকটতম অঞ্চলটি নির্বাচন করুন।

docai-custom-codelab-03

  1. আপনার প্রসেসর তৈরি করতে তৈরি করুন ক্লিক করুন। তারপরে আপনাকে প্রসেসর ওভারভিউ পৃষ্ঠাটি দেখতে হবে।

docai-custom-codelab-04

4. একটি ডেটাসেট তৈরি করুন

আমাদের প্রসেসরকে প্রশিক্ষিত করার জন্য, প্রসেসরকে আমরা যে সত্তাগুলি বের করতে চাই তা সনাক্ত করতে সাহায্য করার জন্য আমাদের প্রশিক্ষণ এবং পরীক্ষার ডেটা সহ একটি ডেটাসেট তৈরি করতে হবে।

  1. প্রসেসর ওভারভিউ পৃষ্ঠায়, আপনার ডেটাসেট কনফিগার করুন- এ ক্লিক করুন।

docai-custom-codelab-04

  1. আপনার এখন কনফিগার ডেটাসেট পৃষ্ঠায় থাকা উচিত। আপনি যদি প্রশিক্ষণের নথি এবং লেবেলগুলি সঞ্চয় করার জন্য আপনার নিজের বালতি নির্দিষ্ট করতে চান তবে অ্যাডভান্সড অপশন দেখাতে ক্লিক করুন। অন্যথায়, শুধু Continue এ ক্লিক করুন।

docai-custom-codelab-05

  1. ডেটাসেট তৈরি হওয়ার জন্য অপেক্ষা করুন, তারপর এটি আপনাকে প্রশিক্ষণ পৃষ্ঠায় নিয়ে যাবে।

docai-custom-codelab-07

5. একটি পরীক্ষা নথি আমদানি করুন৷

এখন, আমাদের ডেটাসেটে একটি নমুনা W2 পিডিএফ আমদানি করা যাক।

  1. Import Documents এ ক্লিক করুন

docai-custom-codelab-08

  1. এই ল্যাবে ব্যবহার করার জন্য আমাদের কাছে আপনার জন্য একটি নমুনা PDF আছে। উত্স পথ বাক্সে নিম্নলিখিত লিঙ্কটি অনুলিপি করুন এবং পেস্ট করুন। আপাতত "আনঅ্যাসাইনড" হিসাবে "ডেটা স্প্লিট" ছেড়ে দিন। অন্য সব বাক্সে টিক চিহ্ন ছাড়াই ছেড়ে দিন। আমদানিতে ক্লিক করুন।
cloud-samples-data/documentai/codelabs/custom/extractor/pdfs

docai-custom-codelab-09

  1. নথিটি আমদানি করার জন্য অপেক্ষা করুন। এটি 1 মিনিটের কম সময় নিতে হবে।
  2. আমদানি সম্পূর্ণ হলে, আপনার প্রশিক্ষণ পৃষ্ঠায় নথিটি দেখতে হবে।

docai-custom-codelab-10

6. লেবেল তৈরি করুন৷

যেহেতু আমরা একটি নতুন প্রসেসরের ধরন তৈরি করছি, তাই ডকুমেন্ট AI কে আমরা কোন ক্ষেত্রগুলি বের করতে চাই তা জানাতে কাস্টম লেবেল তৈরি করতে হবে৷

  1. নীচে-বাম কোণে Edit Schema- এ ক্লিক করুন।

docai-custom-codelab-11

  1. আপনার এখন স্কিমা ম্যানেজমেন্ট কনসোলে থাকা উচিত।

docai-custom-codelab-12

  1. লেবেল তৈরি করুন বোতামটি ব্যবহার করে নিম্নলিখিত লেবেলগুলি তৈরি করুন।

নাম

ডেটা টাইপ

ঘটনা

CONTROL_NUMBER

সংখ্যা

একাধিক প্রয়োজন

EMPL_SSN

প্লেইন টেক্সট

একাধিক প্রয়োজন

EMPLR_ID_NUMBER

প্লেইন টেক্সট

একাধিক প্রয়োজন

EMPLR_NAME_ADDRESS

ঠিকানা

একাধিক প্রয়োজন

FEDERAL_INCOME_TAX_WH

টাকা

একাধিক প্রয়োজন

SS_TAX_WH

টাকা

একাধিক প্রয়োজন

SS_WAGES

টাকা

একাধিক প্রয়োজন

WAGES_TIPS_OTHER_COMP

টাকা

একাধিক প্রয়োজন

  1. সম্পূর্ণ হলে কনসোলটি এইরকম হওয়া উচিত। শেষ হলে Save এ ক্লিক করুন।

docai-custom-codelab-13

  1. প্রশিক্ষণ পৃষ্ঠায় ফিরে যেতে পিছনের তীরটিতে ক্লিক করুন। লক্ষ্য করুন যে আমরা যে লেবেলগুলি তৈরি করেছি তা নীচের-বাম কোণে দেখা যাচ্ছে।

docai-custom-codelab-14

7. টেস্ট ডকুমেন্ট লেবেল করুন

এর পরে, আমরা যে সত্ত্বাগুলি বের করতে চাই তার জন্য আমরা পাঠ্য উপাদান এবং লেবেলগুলি সনাক্ত করব। এই লেবেলগুলি এই নির্দিষ্ট নথির কাঠামোকে পার্স করতে এবং সঠিক প্রকারগুলি সনাক্ত করতে আমাদের মডেলকে প্রশিক্ষণ দিতে ব্যবহার করা হবে।

  1. লেবেলিং কনসোলে প্রবেশ করতে আমরা আগে আমদানি করা নথিতে ডাবল-ক্লিক করুন। এটা এই মত কিছু দেখা উচিত.

docai-custom-codelab-15

  1. "বাউন্ডিং বক্স" টুলে ক্লিক করুন, তারপর "1173038" টেক্সট হাইলাইট করুন এবং CONTROL_NUMBER লেবেল বরাদ্দ করুন। আপনি লেবেলের নাম অনুসন্ধান করতে পাঠ্য ফিল্টার ব্যবহার করতে পারেন।

docai-custom-codelab-16

  1. CONTROL_NUMBER এর অন্য দৃষ্টান্তের জন্য সম্পূর্ণ এটি একবার লেবেল করা হলে এটি দেখতে হবে৷

docai-custom-codelab-17

  1. নিম্নলিখিত পাঠ্য মানগুলির সমস্ত উদাহরণ হাইলাইট করুন এবং উপযুক্ত লেবেলগুলি বরাদ্দ করুন৷

লেবেল নাম

পাঠ্য

EMPLR_ID_NUMBER

24-3188810

FEDERAL_INCOME_TAX_WH

19127.2

SS_TAX_WH

5093.71

SS_WAGES

66584.46

WAGES_TIPS_OTHER_COMP

56081.18

EMPL_SSN

714-32-2105

EMPLR_NAME_ADDRESS

অ্যাডামস, চেজ এবং গিলবার্ট ইনক 972 গঞ্জালেজ ড্যাম সাউথ ক্যাথরিন এনসি 95869-5178

  1. সম্পূর্ণ হলে লেবেল করা নথিটি দেখতে এইরকম হওয়া উচিত। দ্রষ্টব্য, আপনি নথির বাউন্ডিং বাক্সে বা বাম দিকের মেনুতে লেবেলের নাম/মানে ক্লিক করে এই লেবেলগুলিতে সামঞ্জস্য করতে পারেন। লেবেল করা শেষ হলে লেবেলযুক্ত হিসেবে চিহ্নিত করুন ক্লিক করুন , তারপর ডেটাসেট ম্যানেজমেন্ট কনসোলে ফিরে যান।

docai-custom-codelab-20

8. প্রশিক্ষণ সেটে নথি বরাদ্দ করুন

আপনার এখন ডেটাসেট ম্যানেজমেন্ট কনসোলে ফিরে আসা উচিত। লক্ষ্য করুন যে লেবেলযুক্ত এবং লেবেলবিহীন নথির সংখ্যা এবং লেবেল প্রতি দৃষ্টান্তের সংখ্যা পরিবর্তিত হয়েছে।

docai-custom-codelab-21

  1. আমাদের এই নথিটিকে "প্রশিক্ষণ" বা "পরীক্ষা" সেটে বরাদ্দ করতে হবে। ডকুমেন্টে ক্লিক করুন, অ্যাসাইন টু সেট-এ ক্লিক করুন, তারপর ট্রেনিং -এ ক্লিক করুন।

docai-custom-codelab-22

  1. লক্ষ্য করুন ডেটা স্প্লিট নম্বরগুলি পরিবর্তিত হয়েছে।

docai-custom-codelab-23

9. পূর্ব-লেবেলযুক্ত ডেটা আমদানি করুন

ডকুমেন্ট এআই কাস্টম প্রসেসরের প্রতিটি সেটে প্রতিটি লেবেলের 10টি উদাহরণ সহ প্রশিক্ষণ এবং পরীক্ষা উভয় সেটেই ন্যূনতম 10টি নথি প্রয়োজন।

সেরা পারফরম্যান্সের জন্য প্রতিটি লেবেলের 50টি দৃষ্টান্ত সহ প্রতিটি সেটে কমপক্ষে 50টি নথি থাকা বাঞ্ছনীয়৷ আরও প্রশিক্ষণের ডেটা সাধারণত উচ্চ নির্ভুলতার সমান।

সমস্ত দস্তাবেজগুলিকে ম্যানুয়ালি লেবেল করতে অনেক সময় লাগবে, তাই আমাদের কাছে কিছু প্রাক-লেবেলযুক্ত নথি রয়েছে যা আপনি এই ল্যাবের জন্য আমদানি করতে পারেন৷

আপনি Document.json ফরম্যাটে প্রাক-লেবেলযুক্ত নথি ফাইল আমদানি করতে পারেন। এগুলি একটি প্রসেসরকে কল করার এবং হিউম্যান ইন দ্য লুপ (HITL) ব্যবহার করে নির্ভুলতা যাচাই করার ফলাফল হতে পারে।

একপাশে নেতিবাচক

দ্রষ্টব্য: পূর্ব-লেবেলযুক্ত ডেটা আমদানি করার সময়, একটি মডেল প্রশিক্ষিত হওয়ার আগে ম্যানুয়ালি টীকাগুলি পর্যালোচনা করার জন্য এটি অত্যন্ত সুপারিশ করা হয়৷

  1. ইমপোর্ট ডকুমেন্টে ক্লিক করুন।

docai-custom-codelab-24

  1. নিম্নলিখিত ক্লাউড স্টোরেজ পাথটি কপি/পেস্ট করুন এবং এটি প্রশিক্ষণ সেটে বরাদ্দ করুন।
cloud-samples-data/documentai/codelabs/custom/extractor/training
  1. Add Other Folder এ ক্লিক করুন। তারপরে নিম্নলিখিত ক্লাউড স্টোরেজ পাথটি কপি/পেস্ট করুন এবং এটি পরীক্ষা সেটে বরাদ্দ করুন।
cloud-samples-data/documentai/codelabs/custom/extractor/test

docai-custom-codelab-25

  1. আমদানি ক্লিক করুন এবং নথি আমদানি করার জন্য অপেক্ষা করুন। এটি গতবারের চেয়ে বেশি সময় নেবে কারণ প্রক্রিয়া করার জন্য আরও নথি রয়েছে৷ এটি প্রায় 6 মিনিট সময় নিতে হবে, আপনি এই পৃষ্ঠাটি ছেড়ে যেতে পারেন এবং পরে ফিরে আসতে পারেন৷

docai-custom-codelab-26

  1. একবার সম্পূর্ণ হলে, আপনার প্রশিক্ষণ পৃষ্ঠায় নথিগুলি দেখতে হবে।

docai-custom-codelab-27

10. মডেল প্রশিক্ষণ

এখন, আমরা আমাদের কাস্টম ডকুমেন্ট এক্সট্র্যাক্টর প্রশিক্ষণ শুরু করতে প্রস্তুত।

  1. ট্রেন নতুন সংস্করণ ক্লিক করুন

docai-custom-codelab-28

  1. আপনার সংস্করণটিকে এমন একটি নাম দিন যা আপনি মনে রাখবেন, যেমন codelab-custom-1 । "প্রশিক্ষণ পদ্ধতি" এর জন্য, "শুরু থেকে ট্রেন" নির্বাচন করুন।

docai-custom-codelab-29

  1. (ঐচ্ছিক) আপনি আপনার ডেটাসেটে লেবেল সম্পর্কে মেট্রিক্স দেখতে লেবেল পরিসংখ্যান দেখুন নির্বাচন করতে পারেন।

docai-custom-codelab-30

  1. ট্রেনিং প্রক্রিয়া শুরু করতে Start Training- এ ক্লিক করুন। আপনাকে ডেটাসেট ব্যবস্থাপনা পৃষ্ঠায় পুনঃনির্দেশিত করা উচিত। আপনি ডান দিকে প্রশিক্ষণ অবস্থা দেখতে পারেন. প্রশিক্ষণ শেষ হতে কয়েক ঘন্টা সময় লাগবে। আপনি এই পৃষ্ঠাটি ছেড়ে যেতে পারেন এবং পরে ফিরে আসতে পারেন।

docai-custom-codelab-31

  1. আপনি সংস্করণের নামের উপর ক্লিক করলে, আপনাকে সংস্করণ পরিচালনা পৃষ্ঠাতে পরিচালিত করা হবে, যা সংস্করণ আইডি এবং প্রশিক্ষণ কাজের বর্তমান অবস্থা দেখায়।

docai-custom-codelab-32

11. নতুন মডেল সংস্করণ পরীক্ষা করুন

একবার প্রশিক্ষণের কাজটি সম্পূর্ণ হয়ে গেলে (এটি আমার পরীক্ষাগুলিতে প্রায় 1 ঘন্টা লেগেছিল), আপনি এখন নতুন মডেল সংস্করণটি পরীক্ষা করতে পারেন এবং ভবিষ্যদ্বাণীর জন্য এটি ব্যবহার শুরু করতে পারেন।

  1. ম্যানেজ ভার্সন পেজে যান। এখানে আপনি বর্তমান অবস্থা এবং F1 স্কোর দেখতে পারেন।

docai-custom-codelab-33

  1. এটি ব্যবহার করার আগে আমাদের এই মডেল সংস্করণটি স্থাপন করতে হবে। ডানদিকে উল্লম্ব বিন্দুতে ক্লিক করুন এবং ডিপ্লয় সংস্করণ নির্বাচন করুন।

docai-custom-codelab-34

  1. পপ-আপ উইন্ডো থেকে Deploy নির্বাচন করুন, যখন সংস্করণটি স্থাপনের জন্য অপেক্ষা করুন। এটি সম্পূর্ণ হতে কয়েক মিনিট সময় লাগবে। এটি স্থাপন করার পরে, আপনি এই সংস্করণটিকে ডিফল্ট সংস্করণ হিসাবে সেট করতে পারেন৷

docai-custom-codelab-35

  1. এটি স্থাপন করা শেষ হলে, মূল্যায়ন ট্যাবে যান। এই পৃষ্ঠায়, আপনি সম্পূর্ণ নথির পাশাপাশি পৃথক লেবেলগুলির জন্য F1 স্কোর, যথার্থতা এবং স্মরণ সহ মূল্যায়ন মেট্রিক্স দেখতে পারেন। আপনি AutoML ডকুমেন্টেশনে এই মেট্রিক্স সম্পর্কে আরও পড়তে পারেন।

docai-custom-codelab-36

  1. নিচে লিঙ্ক করা PDF ফাইলটি ডাউনলোড করুন। এটি একটি নমুনা W2 যা প্রশিক্ষণ বা টেস্ট সেটে অন্তর্ভুক্ত ছিল না।

  1. আপলোড টেস্ট ডকুমেন্টে ক্লিক করুন এবং পিডিএফ ফাইলটি নির্বাচন করুন।
  2. নিষ্কাশিত সত্তা এই মত কিছু দেখতে হবে.

docai-custom-codelab-37

12. ঐচ্ছিক: নতুন আমদানি করা নথিগুলিকে অটো-লেবেল করুন৷

একটি প্রশিক্ষিত প্রসেসর সংস্করণ স্থাপন করার পরে, আপনি নতুন নথি আমদানি করার সময় লেবেলিংয়ের সময় বাঁচাতে অটো-লেবেলিং ব্যবহার করতে পারেন।

  1. ট্রেন পৃষ্ঠায়, ইমপোর্ট ডকুমেন্টে ক্লিক করুন।
  2. নিম্নলিখিত পথটি কপি এবং পেস্ট করুন৷ এই ডিরেক্টরিতে 5টি লেবেলবিহীন W2 PDF রয়েছে। ডেটা স্প্লিট ড্রপডাউন তালিকা থেকে, প্রশিক্ষণ নির্বাচন করুন।
    cloud-samples-data/documentai/Custom/W2/AutoLabel
    
  3. অটো-লেবেলিং বিভাগে, অটো-লেবেলিং সহ আমদানি চেকবক্স নির্বাচন করুন।
  4. ডকুমেন্ট লেবেল করতে একটি বিদ্যমান প্রসেসর সংস্করণ নির্বাচন করুন।
  • যেমন: 2af620b2fd4d1fcf
  1. আমদানি ক্লিক করুন এবং নথি আমদানি করার জন্য অপেক্ষা করুন। আপনি এই পৃষ্ঠাটি ছেড়ে যেতে পারেন এবং পরে ফিরে আসতে পারেন।
  • সম্পূর্ণ হলে, নথিগুলি অটো-লেবেলযুক্ত বিভাগে ট্রেন পৃষ্ঠায় উপস্থিত হয়।
  1. আপনি প্রশিক্ষণ বা পরীক্ষার জন্য অটো-লেবেলযুক্ত নথিগুলিকে লেবেল হিসাবে চিহ্নিত না করে ব্যবহার করতে পারবেন না৷ স্বয়ংক্রিয়-লেবেলযুক্ত নথিগুলি দেখতে অটো-লেবেলযুক্ত বিভাগে যান৷
  2. লেবেলিং কনসোলে প্রবেশ করতে প্রথম নথিটি নির্বাচন করুন।
  3. লেবেল, বাউন্ডিং বাক্স এবং মানগুলি সঠিক কিনা তা নিশ্চিত করতে যাচাই করুন। বাদ দেওয়া হয়েছে এমন কোনো মান লেবেল করুন।
  4. সমাপ্ত হলে লেবেল হিসাবে চিহ্নিত করুন নির্বাচন করুন।
  5. প্রতিটি স্বয়ংক্রিয়-লেবেলযুক্ত নথির জন্য লেবেল যাচাইকরণের পুনরাবৃত্তি করুন, তারপর প্রশিক্ষণের জন্য ডেটা ব্যবহার করতে ট্রেন পৃষ্ঠায় ফিরে যান।

13. উপসংহার

অভিনন্দন, আপনি সফলভাবে একটি কাস্টম ডকুমেন্ট এক্সট্র্যাক্টর প্রসেসর প্রশিক্ষণের জন্য ডকুমেন্ট এআই ব্যবহার করেছেন। আপনি এখন এই ফরম্যাটে ডকুমেন্ট পার্স করতে এই প্রসেসরটি ব্যবহার করতে পারেন ঠিক যেমন আপনি যেকোনো বিশেষায়িত প্রসেসরের জন্য করেন।

প্রক্রিয়াকরণ প্রতিক্রিয়া কীভাবে পরিচালনা করবেন তা পর্যালোচনা করতে আপনি বিশেষায়িত প্রসেসর কোডল্যাব- এ উল্লেখ করতে পারেন।

ক্লিনআপ

এই টিউটোরিয়ালে ব্যবহৃত সংস্থানগুলির জন্য আপনার Google ক্লাউড অ্যাকাউন্টে চার্জ এড়াতে:

  • ক্লাউড কনসোলে, সম্পদ পরিচালনা পৃষ্ঠাতে যান।
  • প্রকল্প তালিকায়, আপনার প্রকল্প নির্বাচন করুন তারপর মুছুন ক্লিক করুন.
  • ডায়ালগে, প্রকল্প আইডি টাইপ করুন এবং তারপরে প্রকল্পটি মুছে ফেলতে শাট ডাউন ক্লিক করুন।

সম্পদ

লাইসেন্স

এই কাজটি ক্রিয়েটিভ কমন্স অ্যাট্রিবিউশন 2.0 জেনেরিক লাইসেন্সের অধীনে লাইসেন্সপ্রাপ্ত।