1. परिचय
डॉक्यूमेंट एआई एक ऐसा टूल है जिसकी मदद से दस्तावेज़ों को समझने में मदद मिलती है. इसमें दस्तावेज़, ईमेल वगैरह जैसे स्ट्रक्चर्ड डेटा का इस्तेमाल किया जाता है. यह डेटा को समझने, उसका विश्लेषण करने, और उसका इस्तेमाल करने में आसान बनाता है.
दस्तावेज़ एआई वर्कबेंच की मदद से, अतिरिक्त ट्रेनिंग करके, दस्तावेज़ को बेहतर तरीके से प्रोसेस किया जा सकता है. ऐसा करके, खास तरह के दस्तावेज़ों के लिए लेबल किए गए अतिरिक्त उदाहरण जोड़े जा सकते हैं. साथ ही, मॉडल का एक नया वर्शन बनाया जा सकता है.
इस लैब में, इनवॉइस पार्सर प्रोसेसर बनाएं और प्रोसेसर को अपट्रेनिंग के लिए कॉन्फ़िगर करें. साथ ही, दस्तावेज़ों के उदाहरण को लेबल करें और प्रोसेसर को अपडेट करें.
इस लैब में इस्तेमाल किए जाने वाले दस्तावेज़ के डेटासेट में, किसी काल्पनिक पाइपिंग कंपनी के लिए रैंडम तरीके से जनरेट किए गए इनवॉइस शामिल हैं.
ज़रूरी शर्तें
यह कोडलैब, अन्य दस्तावेज़ एआई कोडलैब में मौजूद कॉन्टेंट के आधार पर बनता है.
हमारा सुझाव है कि आगे बढ़ने से पहले, यहां दिए गए कोडलैब (कोड बनाना सीखना) पूरा करें.
- दस्तावेज़ एआई (Python) की मदद से ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) की सुविधा
- दस्तावेज़ एआई (Python) की मदद से फ़ॉर्म पार्स करना
- दस्तावेज़ एआई (Python) वाले खास प्रोसेसर
- Python की मदद से, दस्तावेज़ के एआई प्रोसेसर को मैनेज करना
- दस्तावेज़ एआई: ह्यूमन इन द लूप
आपको इनके बारे में जानकारी मिलेगी
- इनवॉइस पार्सर प्रोसेसर के लिए अपट्रेनिंग कॉन्फ़िगर करें.
- एनोटेशन टूल का इस्तेमाल करके, दस्तावेज़ के लिए एआई ट्रेनिंग के डेटा को लेबल करें.
- नए मॉडल वर्शन को ट्रेनिंग दें.
- आकलन करें कि मॉडल के नए वर्शन कितना सटीक है.
आपको इन चीज़ों की ज़रूरत होगी
2. सेट अप किया जा रहा है
कोडलैब के इस टूल में यह माना जाता है कि आपने कोडलैब के बारे में शुरुआती जानकारी में दिए गए, दस्तावेज़ के एआई को सेटअप करने के सभी चरणों को पूरा कर लिया है.
आगे बढ़ने से पहले, कृपया नीचे दिए गए चरणों को पूरा करें:
3. प्रोसेसर बनाना
इस लैब के लिए इस्तेमाल करने के लिए, सबसे पहले आपको इनवॉइस पार्सर प्रोसेसर बनाना होगा.
- कंसोल में, दस्तावेज़ के एआई से जुड़ी खास जानकारी पेज पर जाएं.
- प्रोसेसर बनाएं पर क्लिक करें, नीचे स्क्रोल करते हुए खास जानकारी पर जाएं (या खोज बार में "इनवॉइस पार्सर" टाइप करें) और इनवॉइस पार्सर चुनें.
- इसे
codelab-invoice-uptraining
नाम दें (या कुछ और जो आपको याद रहेगा) और सूची में अपना सबसे नज़दीकी इलाका चुनें.
- अपना प्रोसेसर बनाने के लिए, बनाएं पर क्लिक करें. इसके बाद, आपको प्रोसेसर की खास जानकारी देने वाला पेज दिखेगा.
4. डेटासेट बनाना
अपने प्रोसेसर को ट्रेनिंग देने के लिए, हमें ट्रेनिंग और टेस्टिंग डेटा के साथ एक डेटासेट बनाना होगा. इससे प्रोसेसर को उन इकाइयों की पहचान करने में मदद मिलेगी जिन्हें हम एक्सट्रैक्ट करना चाहते हैं.
डेटासेट सेव करने के लिए, आपको Cloud Storage में एक नया बकेट बनाना होगा. ध्यान दें: यह वही बकेट नहीं होनी चाहिए जिसमें आपके दस्तावेज़ अभी स्टोर हैं.
- Cloud Shell खोलें और बकेट बनाने के लिए, नीचे दिए गए निर्देशों का पालन करें. इसके अलावा, Cloud Console में एक नया बकेट बनाएं. इस बकेट का नाम सेव करें, आपको बाद में इसकी ज़रूरत पड़ेगी.
export PROJECT_ID=$(gcloud config get-value project)
gsutil mb -p $PROJECT_ID "gs://${PROJECT_ID}-uptraining-codelab"
- डेटासेट टैब पर जाएं और डेटासेट बनाएं पर क्लिक करें
- पहले चरण में बनाई गई बकेट को डेस्टिनेशन पाथ फ़ील्ड में चिपकाएं. (
gs://
को शामिल न करें)
- डेटासेट बनने तक इंतज़ार करें. इसके बाद, आपको डेटासेट मैनेजमेंट पेज पर रीडायरेक्ट कर दिया जाएगा.
5. टेस्ट दस्तावेज़ इंपोर्ट करें
अब हम अपने डेटासेट में, इनवॉइस के PDF का सैंपल इंपोर्ट करते हैं.
- दस्तावेज़ इंपोर्ट करें पर क्लिक करें
- हमारे पास इस लैब में इस्तेमाल करने के लिए एक सैंपल PDF है. नीचे दिए गए लिंक को कॉपी करके सोर्स पाथ बॉक्स में चिपकाएं. "डेटा का बंटवारा" रहने दें "असाइन नहीं किया गया" के तौर पर मार्क करें अभी के लिए. इंपोर्ट करें पर क्लिक करें.
cloud-samples-data/documentai/codelabs/uptraining/pdfs
- दस्तावेज़ इंपोर्ट होने का इंतज़ार करें. जांच करने में एक मिनट से भी कम समय लगा.
- इंपोर्ट पूरा होने के बाद, आपको डेटासेट मैनेजमेंट यूज़र इंटरफ़ेस (यूआई) में दस्तावेज़ दिखेगा. लेबलिंग कंसोल में जाने के लिए उस पर क्लिक करें.
6. टेस्ट दस्तावेज़ को लेबल करें
इसके बाद, हम उन इकाइयों के टेक्स्ट एलिमेंट और लेबल की पहचान करेंगे जिन्हें एक्सट्रैक्ट करना है. इन लेबल का इस्तेमाल, हमारे मॉडल को दस्तावेज़ के इस खास स्ट्रक्चर को पार्स करने और सही टाइप की पहचान करने के लिए किया जाएगा.
- अब आपको लेबलिंग कंसोल में होना चाहिए, जो कुछ ऐसा दिखेगा.
- "टेक्स्ट चुनें" पर क्लिक करें टूल का इस्तेमाल करें, फिर टेक्स्ट "मैकविलियम पाइपिंग इंटरनैशनल पाइपिंग कंपनी" को हाइलाइट करें और
supplier_name
लेबल असाइन करें. लेबल के नाम खोजने के लिए, टेक्स्ट फ़िल्टर का इस्तेमाल किया जा सकता है.
- "14368 Pipeline Ave Chino, CA 91710" टेक्स्ट को हाइलाइट करें और
supplier_address
लेबल असाइन करें.
- "10001" टेक्स्ट को हाइलाइट करें और
invoice_id
लेबल असाइन करें.
- "02-01-2020" टेक्स्ट को हाइलाइट करें और
due_date
लेबल असाइन करें.
- "बाउंडिंग बॉक्स" पर स्विच करें टूल. "नॉकल कपलर" टेक्स्ट को हाइलाइट करें और
line_item/description
लेबल असाइन करें.
- "9" टेक्स्ट को हाइलाइट करें और
line_item/quantity
लेबल असाइन करें.
- "74.43" टेक्स्ट को हाइलाइट करें और
line_item/unit_price
लेबल असाइन करें.
- "669.87" टेक्स्ट को हाइलाइट करें और
line_item/amount
लेबल असाइन करें.
- अगले दो लाइन आइटम के लिए पिछले 4 चरण दोहराएं. पूरा होने पर यह ऐसा दिखना चाहिए.
- "1,419.57" टेक्स्ट को हाइलाइट करें (सबटोटल के आगे) जोड़ें और
net_amount
लेबल असाइन करें.
- "113.57" टेक्स्ट को हाइलाइट करें (टैक्स के बगल में) और
total_tax_amount
लेबल असाइन करें.
- "1,533.14" टेक्स्ट को हाइलाइट करें ('कुल' के बगल में) और
total_amount
लेबल असाइन करें.
- किसी "$" को हाइलाइट करें
currency
लेबल असाइन करें और
- पूरा होने पर, लेबल किया गया दस्तावेज़ कुछ ऐसा दिखना चाहिए. ध्यान दें, दस्तावेज़ में बाउंडिंग बॉक्स या बाईं ओर मौजूद मेन्यू में लेबल के नाम/वैल्यू पर क्लिक करके, इन लेबल में बदलाव किए जा सकते हैं. लेबल करना पूरा करने के बाद सेव करें पर क्लिक करें.
- यहां लेबल और वैल्यू की पूरी सूची दी गई है
लेबल का नाम | टेक्स्ट |
| मैकविलियम पाइपिंग इंटरनैशनल पाइपिंग कंपनी |
| 14368 पाइपलाइन ऐवे चिनो, कैलिफ़ोर्निया 91710 |
| 10001 |
| 2020-01-02 |
| नकल कप्लर |
| 9 |
| 74.43 |
| 669.87 |
| पीवीसी पाइप 12 इंच |
| 7 |
| 15.90 |
| 111.30 |
| कॉपर पाइप |
| 7 |
| 91.20 |
| 638.40 |
| 1,419.57 |
| 113.57 |
| 1,533.14 |
| $ |
7. ट्रेनिंग सेट में दस्तावेज़ असाइन करें
अब आपको डेटासेट मैनेजमेंट कंसोल पर वापस जाना होगा. ध्यान दें कि लेबल किए गए और बिना लेबल वाले दस्तावेज़ों की संख्या के साथ-साथ चालू लेबल की संख्या भी बदल गई है.
- हमें इस दस्तावेज़ को या तो "प्रशिक्षण" को असाइन करना होगा या "जांच करें" सेट. दस्तावेज़ पर क्लिक करें.
- असाइन करने के लिए असाइन करें पर क्लिक करें. इसके बाद, ट्रेनिंग पर क्लिक करें.
- ध्यान दें कि डेटा विभाजन के आंकड़े बदल गए हैं.
8. पहले से लेबल किया गया डेटा इंपोर्ट करें
डॉक्यूमेंट एआई अपट्रेनिंग के लिए, ट्रेनिंग और टेस्ट सेट, दोनों में कम से कम 10 दस्तावेज़ होने चाहिए. साथ ही, हर सेट में हर लेबल के 10 इंस्टेंस होने चाहिए.
हमारा सुझाव है कि हर सेट में कम से कम 50 दस्तावेज़ होने चाहिए. साथ ही, सबसे अच्छी परफ़ॉर्मेंस के लिए, हर लेबल में 50 दस्तावेज़ होने चाहिए. आम तौर पर, ट्रेनिंग से जुड़ा ज़्यादा डेटा मिलने पर ज़्यादा सटीक जानकारी मिलती है.
मैन्युअल रूप से 100 दस्तावेज़ों को लेबल करने में बहुत समय लगेगा. इसलिए, हमारे पास पहले से लेबल किए गए कुछ दस्तावेज़ हैं, जिन्हें इस लैब के लिए इंपोर्ट किया जा सकता है.
पहले से लेबल की गई दस्तावेज़ की फ़ाइलों को Document.json
फ़ॉर्मैट में इंपोर्ट किया जा सकता है. प्रोसेसर को कॉल करने और Human in the Loop (HITL) का इस्तेमाल करके, पुष्टि करने की प्रोसेस के सटीक होने की पुष्टि करने के नतीजे हो सकते हैं.
- दस्तावेज़ इंपोर्ट करें पर क्लिक करें.
- Cloud Storage के नीचे दिए गए पाथ को कॉपी करें/चिपकाएं और उसे ट्रेनिंग सेट को असाइन करें.
cloud-samples-data/documentai/codelabs/uptraining/training
- एक और बकेट जोड़ें पर क्लिक करें. इसके बाद, नीचे दिए गए Cloud Storage पाथ को कॉपी करें/चिपकाएं और उसे टेस्ट के सेट में असाइन करें.
cloud-samples-data/documentai/codelabs/uptraining/test
- इंपोर्ट करें पर क्लिक करें और दस्तावेज़ों के इंपोर्ट होने का इंतज़ार करें. इसमें पिछली बार की तुलना में ज़्यादा समय लगेगा, क्योंकि अभी प्रोसेस करने के लिए काफ़ी दस्तावेज़ हैं. मेरी जांच में, इसमें करीब छह मिनट लगे. इस पेज को छोड़ा जा सकता है और बाद में इस पर वापस आया जा सकता है.
- प्रक्रिया पूरी होने के बाद, आपको डेटासेट मैनेजमेंट पेज पर दस्तावेज़ दिखेंगे.
9. लेबल में बदलाव करें
इस उदाहरण के लिए हम जिन नमूना दस्तावेज़ों का इस्तेमाल कर रहे हैं, उनमें इनवॉइस पार्सर के साथ काम करने वाला हर लेबल शामिल नहीं है. ट्रेनिंग से पहले, हमें उन लेबल को 'बंद है' के तौर पर मार्क करना होगा जिन्हें हम इस्तेमाल नहीं कर रहे हैं. अपट्रेनिंग से पहले कस्टम लेबल जोड़ने के लिए, इसी तरह का तरीका भी अपनाया जा सकता है.
- सबसे नीचे बाएं कोने में, लेबल मैनेज करें पर क्लिक करें.
- अब आप लेबल मैनेजमेंट कंसोल में पहुंच जाएंगे.
- सिर्फ़ नीचे दिए गए लेबल को चालू है के तौर पर मार्क करने के लिए, चेकबॉक्स और बंद करें/चालू करें बटन का इस्तेमाल करें.
currency
due_date
invoice_id
line_item/amount
line_item/description
line_item/quantity
line_item/unit_price
net_amount
supplier_address
supplier_name
total_amount
total_tax_amount
- पूरा होने पर कंसोल ऐसा दिखना चाहिए. काम पूरा हो जाने के बाद सेव करें पर क्लिक करें.
- डेटासेट मैनेजमेंट कंसोल पर वापस जाने के लिए, 'वापस जाएं' ऐरो पर क्लिक करें. ध्यान दें कि जिन लेबल में 0 इंस्टेंस मौजूद है उन्हें 'बंद है' के तौर पर मार्क किया गया है.
10. ज़रूरी नहीं: इंपोर्ट किए गए नए दस्तावेज़ों को अपने-आप लेबल करें
डिप्लॉय किए गए मौजूदा प्रोसेसर वर्शन वाले प्रोसेसर के लिए, बिना लेबल वाले दस्तावेज़ इंपोर्ट करते समय, लेबल करने में लगने वाला समय बचाने के लिए, अपने-आप लेबल होने की सुविधा का इस्तेमाल किया जा सकता है.
- ट्रेन पेज पर, दस्तावेज़ इंपोर्ट करें पर क्लिक करें.
- निम्न पथ को कॉपी करें और चिपकाएं. इस डायरेक्ट्री में पांच बिना लेबल वाले इनवॉइस PDF हैं. डेटा के बंटवारे की ड्रॉपडाउन सूची से ट्रेनिंग चुनें.
cloud-samples-data/documentai/Custom/Invoices/PDF_Unlabeled
- अपने-आप लेबल होना सेक्शन में, अपने-आप लेबल होने की सुविधा के साथ इंपोर्ट करें चेकबॉक्स चुनें.
- दस्तावेज़ों को लेबल करने के लिए, प्रोसेसर का कोई मौजूदा वर्शन चुनें.
- उदाहरण के लिए:
pretrained-invoice-v1.3-2022-07-15
- इंपोर्ट करें पर क्लिक करें और दस्तावेज़ों के इंपोर्ट होने का इंतज़ार करें. इस पेज को छोड़ा जा सकता है और बाद में इस पर वापस आया जा सकता है.
- प्रक्रिया पूरी होने पर, दस्तावेज़ अपने-आप लेबल हुआ सेक्शन में ट्रेन पेज पर दिखते हैं.
- ट्रेनिंग या जांच के लिए, अपने-आप लेबल होने वाले दस्तावेज़ों को लेबल किए गए के तौर पर मार्क किए बिना इस्तेमाल नहीं किया जा सकता. अपने-आप लेबल हुए दस्तावेज़ देखने के लिए, अपने-आप लेबल हुआ सेक्शन पर जाएं.
- लेबलिंग कंसोल में जाने के लिए पहला दस्तावेज़ चुनें.
- लेबल, बाउंडिंग बॉक्स, और वैल्यू की पुष्टि करके पक्का करें कि वे सही हैं. छूटे हुए सभी वैल्यू को लेबल करें.
- काम पूरा हो जाने पर, लेबल के तौर पर मार्क करें को चुनें.
- अपने-आप लेबल होने वाले हर दस्तावेज़ के लिए, लेबल की पुष्टि करें. इसके बाद, ट्रेनिंग के लिए डेटा का इस्तेमाल करने के लिए, ट्रेन पेज पर वापस जाएं.
11. मॉडल को बेहतर बनाएं
अब हम अपने इनवॉइस पार्सर की ट्रेनिंग शुरू करने के लिए तैयार हैं.
- ट्रेन के नए वर्शन को ट्रेनिंग दें पर क्लिक करें
- अपने वर्शन को एक नाम दें जिसे आप याद रखें, जैसे कि
codelab-uptraining-test-1
. बेस वर्शन, मॉडल वर्शन है, जिससे इस नए वर्शन को बनाया जाएगा. अगर नए प्रोसेसर का इस्तेमाल किया जा रहा है, तो सिर्फ़ अपट्रेनिंग के साथ Google Pretrained Next ही विकल्प होना चाहिए
- (ज़रूरी नहीं) अपने डेटासेट में लेबल से जुड़ी मेट्रिक देखने के लिए, लेबल के आंकड़े देखें भी चुना जा सकता है.
- अपट्रेनिंग की प्रोसेस शुरू करने के लिए, ट्रेनिंग शुरू करें पर क्लिक करें. आपको डेटासेट मैनेजमेंट पेज पर रीडायरेक्ट किया जाएगा. दाईं ओर, ट्रेनिंग की स्थिति देखी जा सकती है. ट्रेनिंग पूरी होने में कुछ घंटे लगेंगे. इस पेज को छोड़ा जा सकता है और बाद में इस पर वापस आया जा सकता है.
- वर्शन के नाम पर क्लिक करने पर, आपको वर्शन मैनेज करें पेज पर ले जाया जाएगा. इस पेज पर, वर्शन आईडी और ट्रेनिंग जॉब की मौजूदा स्थिति दिखती है.
12. नए मॉडल वर्शन का परीक्षण करें
ट्रेनिंग जॉब पूरा होने के बाद (मेरे टेस्ट में करीब एक घंटा लगा), अब मॉडल के नए वर्शन को टेस्ट किया जा सकता है. साथ ही, इसका इस्तेमाल अनुमान लगाने के लिए किया जा सकता है.
- वर्शन मैनेज करें पेज पर जाएं. यहां आप मौजूदा स्टेटस और F1 स्कोर देख सकते हैं.
- इस मॉडल वर्शन का इस्तेमाल करने से पहले, हमें इसे डिप्लॉय करना होगा. दाईं ओर मौजूद वर्टिकल बिंदु पर क्लिक करें. इसके बाद, वर्शन डिप्लॉय करें को चुनें.
- वर्शन के डिप्लॉय होने का इंतज़ार करते समय, पॉप-अप विंडो से डिप्लॉय करें चुनें. इस प्रोसेस को पूरा होने में कुछ मिनट लगेंगे. डिप्लॉय किए जाने के बाद, इस वर्शन को डिफ़ॉल्ट वर्शन के तौर पर भी सेट किया जा सकता है.
- डिप्लॉयमेंट पूरा होने के बाद, आकलन करें टैब पर जाएं. फिर वर्शन ड्रॉपडाउन पर क्लिक करें और हमारे नए बनाए गए वर्शन को चुनें.
- इस पेज पर, आकलन की मेट्रिक देखी जा सकती हैं. इसमें, पूरे दस्तावेज़ और अलग-अलग लेबल के लिए, F1 स्कोर, सटीक, और रीकॉल शामिल हैं. AutoML दस्तावेज़ में इन मेट्रिक के बारे में ज़्यादा जानकारी देखी जा सकती है.
- नीचे लिंक की गई PDF फ़ाइल डाउनलोड करें. यह एक सैंपल दस्तावेज़ है. इसे ट्रेनिंग या टेस्ट सेट में शामिल नहीं किया गया था.
- टेस्ट दस्तावेज़ अपलोड करें पर क्लिक करें और PDF फ़ाइल चुनें.
- निकाली गई इकाइयां कुछ ऐसी दिखनी चाहिए.
13. नतीजा
बधाई हो, आपने इनवॉइस पार्सर को अप ट्रेनिंग देने के लिए, दस्तावेज़ एआई (AI) का इस्तेमाल कर लिया है. अब इस प्रोसेसर का इस्तेमाल, इनवॉइस पार्स करने के लिए ठीक वैसे ही किया जा सकता है जैसे किसी खास प्रोसेसर के लिए किया जाता है.
प्रोसेसिंग रिस्पॉन्स को मैनेज करने का तरीका जानने के लिए, खास प्रोसेसर कोडलैब देखें.
मिटाना
इस ट्यूटोरियल में इस्तेमाल किए गए संसाधनों के लिए, आपके Google Cloud खाते पर लगने वाले शुल्क से बचने के लिए:
- Cloud Console में, संसाधन मैनेज करें पेज पर जाएं.
- प्रोजेक्ट की सूची में, अपना प्रोजेक्ट चुनें. इसके बाद, 'मिटाएं' पर क्लिक करें.
- डायलॉग बॉक्स में, प्रोजेक्ट आईडी टाइप करें. इसके बाद, प्रोजेक्ट मिटाने के लिए 'शट डाउन करें' पर क्लिक करें.
संसाधन
- दस्तावेज़ एआई वर्कबेंच के लिए दस्तावेज़
- दस्तावेज़ों का भविष्य - YouTube प्लेलिस्ट
- दस्तावेज़ एआई से जुड़ा दस्तावेज़
- दस्तावेज़ एआई Python क्लाइंट लाइब्रेरी
- दस्तावेज़ के एआई सैंपल
लाइसेंस
इस काम को क्रिएटिव कॉमंस एट्रिब्यूशन 2.0 जेनरिक लाइसेंस के तहत लाइसेंस मिला है.