डॉक्यूमेंट एआई वर्कबेंच - अपट्रेनिंग

1. परिचय

डॉक्यूमेंट एआई एक ऐसा टूल है जिसकी मदद से दस्तावेज़ों को समझने में मदद मिलती है. इसमें दस्तावेज़, ईमेल वगैरह जैसे स्ट्रक्चर्ड डेटा का इस्तेमाल किया जाता है. यह डेटा को समझने, उसका विश्लेषण करने, और उसका इस्तेमाल करने में आसान बनाता है.

दस्तावेज़ एआई वर्कबेंच की मदद से, अतिरिक्त ट्रेनिंग करके, दस्तावेज़ को बेहतर तरीके से प्रोसेस किया जा सकता है. ऐसा करके, खास तरह के दस्तावेज़ों के लिए लेबल किए गए अतिरिक्त उदाहरण जोड़े जा सकते हैं. साथ ही, मॉडल का एक नया वर्शन बनाया जा सकता है.

इस लैब में, इनवॉइस पार्सर प्रोसेसर बनाएं और प्रोसेसर को अपट्रेनिंग के लिए कॉन्फ़िगर करें. साथ ही, दस्तावेज़ों के उदाहरण को लेबल करें और प्रोसेसर को अपडेट करें.

इस लैब में इस्तेमाल किए जाने वाले दस्तावेज़ के डेटासेट में, किसी काल्पनिक पाइपिंग कंपनी के लिए रैंडम तरीके से जनरेट किए गए इनवॉइस शामिल हैं.

ज़रूरी शर्तें

यह कोडलैब, अन्य दस्तावेज़ एआई कोडलैब में मौजूद कॉन्टेंट के आधार पर बनता है.

हमारा सुझाव है कि आगे बढ़ने से पहले, यहां दिए गए कोडलैब (कोड बनाना सीखना) पूरा करें.

आपको इनके बारे में जानकारी मिलेगी

  • इनवॉइस पार्सर प्रोसेसर के लिए अपट्रेनिंग कॉन्फ़िगर करें.
  • एनोटेशन टूल का इस्तेमाल करके, दस्तावेज़ के लिए एआई ट्रेनिंग के डेटा को लेबल करें.
  • नए मॉडल वर्शन को ट्रेनिंग दें.
  • आकलन करें कि मॉडल के नए वर्शन कितना सटीक है.

आपको इन चीज़ों की ज़रूरत होगी

  • Google Cloud प्रोजेक्ट
  • ब्राउज़र, जैसे कि Chrome या Firefox

2. सेट अप किया जा रहा है

कोडलैब के इस टूल में यह माना जाता है कि आपने कोडलैब के बारे में शुरुआती जानकारी में दिए गए, दस्तावेज़ के एआई को सेटअप करने के सभी चरणों को पूरा कर लिया है.

आगे बढ़ने से पहले, कृपया नीचे दिए गए चरणों को पूरा करें:

3. प्रोसेसर बनाना

इस लैब के लिए इस्तेमाल करने के लिए, सबसे पहले आपको इनवॉइस पार्सर प्रोसेसर बनाना होगा.

  1. कंसोल में, दस्तावेज़ के एआई से जुड़ी खास जानकारी पेज पर जाएं.

docai-uptraining-codelab-01

  1. प्रोसेसर बनाएं पर क्लिक करें, नीचे स्क्रोल करते हुए खास जानकारी पर जाएं (या खोज बार में "इनवॉइस पार्सर" टाइप करें) और इनवॉइस पार्सर चुनें.

docai-uptraining-codelab-02

  1. इसे codelab-invoice-uptraining नाम दें (या कुछ और जो आपको याद रहेगा) और सूची में अपना सबसे नज़दीकी इलाका चुनें.

docai-uptraining-codelab-03

  1. अपना प्रोसेसर बनाने के लिए, बनाएं पर क्लिक करें. इसके बाद, आपको प्रोसेसर की खास जानकारी देने वाला पेज दिखेगा.

docai-uptraining-codelab-04

4. डेटासेट बनाना

अपने प्रोसेसर को ट्रेनिंग देने के लिए, हमें ट्रेनिंग और टेस्टिंग डेटा के साथ एक डेटासेट बनाना होगा. इससे प्रोसेसर को उन इकाइयों की पहचान करने में मदद मिलेगी जिन्हें हम एक्सट्रैक्ट करना चाहते हैं.

डेटासेट सेव करने के लिए, आपको Cloud Storage में एक नया बकेट बनाना होगा. ध्यान दें: यह वही बकेट नहीं होनी चाहिए जिसमें आपके दस्तावेज़ अभी स्टोर हैं.

  1. Cloud Shell खोलें और बकेट बनाने के लिए, नीचे दिए गए निर्देशों का पालन करें. इसके अलावा, Cloud Console में एक नया बकेट बनाएं. इस बकेट का नाम सेव करें, आपको बाद में इसकी ज़रूरत पड़ेगी.
export PROJECT_ID=$(gcloud config get-value project)

gsutil mb -p $PROJECT_ID "gs://${PROJECT_ID}-uptraining-codelab"
  1. डेटासेट टैब पर जाएं और डेटासेट बनाएं पर क्लिक करें

docai-uptraining-codelab-05

  1. पहले चरण में बनाई गई बकेट को डेस्टिनेशन पाथ फ़ील्ड में चिपकाएं. (gs:// को शामिल न करें)

docai-uptraining-codelab-06

  1. डेटासेट बनने तक इंतज़ार करें. इसके बाद, आपको डेटासेट मैनेजमेंट पेज पर रीडायरेक्ट कर दिया जाएगा.

docai-uptraining-codelab-07

5. टेस्ट दस्तावेज़ इंपोर्ट करें

अब हम अपने डेटासेट में, इनवॉइस के PDF का सैंपल इंपोर्ट करते हैं.

  1. दस्तावेज़ इंपोर्ट करें पर क्लिक करें

docai-uptraining-codelab-08

  1. हमारे पास इस लैब में इस्तेमाल करने के लिए एक सैंपल PDF है. नीचे दिए गए लिंक को कॉपी करके सोर्स पाथ बॉक्स में चिपकाएं. "डेटा का बंटवारा" रहने दें "असाइन नहीं किया गया" के तौर पर मार्क करें अभी के लिए. इंपोर्ट करें पर क्लिक करें.
cloud-samples-data/documentai/codelabs/uptraining/pdfs

docai-uptraining-codelab-09

  1. दस्तावेज़ इंपोर्ट होने का इंतज़ार करें. जांच करने में एक मिनट से भी कम समय लगा.

docai-uptraining-codelab-10

  1. इंपोर्ट पूरा होने के बाद, आपको डेटासेट मैनेजमेंट यूज़र इंटरफ़ेस (यूआई) में दस्तावेज़ दिखेगा. लेबलिंग कंसोल में जाने के लिए उस पर क्लिक करें.

docai-uptraining-codelab-11

6. टेस्ट दस्तावेज़ को लेबल करें

इसके बाद, हम उन इकाइयों के टेक्स्ट एलिमेंट और लेबल की पहचान करेंगे जिन्हें एक्सट्रैक्ट करना है. इन लेबल का इस्तेमाल, हमारे मॉडल को दस्तावेज़ के इस खास स्ट्रक्चर को पार्स करने और सही टाइप की पहचान करने के लिए किया जाएगा.

  1. अब आपको लेबलिंग कंसोल में होना चाहिए, जो कुछ ऐसा दिखेगा.

docai-uptraining-codelab-12

  1. "टेक्स्ट चुनें" पर क्लिक करें टूल का इस्तेमाल करें, फिर टेक्स्ट "मैकविलियम पाइपिंग इंटरनैशनल पाइपिंग कंपनी" को हाइलाइट करें और supplier_name लेबल असाइन करें. लेबल के नाम खोजने के लिए, टेक्स्ट फ़िल्टर का इस्तेमाल किया जा सकता है.

docai-uptraining-codelab-13

  1. "14368 Pipeline Ave Chino, CA 91710" टेक्स्ट को हाइलाइट करें और supplier_address लेबल असाइन करें.

docai-uptraining-codelab-14

  1. "10001" टेक्स्ट को हाइलाइट करें और invoice_id लेबल असाइन करें.

docai-uptraining-codelab-15

  1. "02-01-2020" टेक्स्ट को हाइलाइट करें और due_date लेबल असाइन करें.

docai-uptraining-codelab-16

  1. "बाउंडिंग बॉक्स" पर स्विच करें टूल. "नॉकल कपलर" टेक्स्ट को हाइलाइट करें और line_item/description लेबल असाइन करें.

docai-uptraining-codelab-17

  1. "9" टेक्स्ट को हाइलाइट करें और line_item/quantity लेबल असाइन करें.

docai-uptraining-codelab-18

  1. "74.43" टेक्स्ट को हाइलाइट करें और line_item/unit_price लेबल असाइन करें.

docai-uptraining-codelab-19

  1. "669.87" टेक्स्ट को हाइलाइट करें और line_item/amount लेबल असाइन करें.

docai-uptraining-codelab-20

  1. अगले दो लाइन आइटम के लिए पिछले 4 चरण दोहराएं. पूरा होने पर यह ऐसा दिखना चाहिए.

docai-uptraining-codelab-21

  1. "1,419.57" टेक्स्ट को हाइलाइट करें (सबटोटल के आगे) जोड़ें और net_amount लेबल असाइन करें.

docai-uptraining-codelab-22

  1. "113.57" टेक्स्ट को हाइलाइट करें (टैक्स के बगल में) और total_tax_amount लेबल असाइन करें.

docai-uptraining-codelab-23

  1. "1,533.14" टेक्स्ट को हाइलाइट करें ('कुल' के बगल में) और total_amount लेबल असाइन करें.

docai-uptraining-codelab-24

  1. किसी "$" को हाइलाइट करें currency लेबल असाइन करें और

docai-uptraining-codelab-25

  1. पूरा होने पर, लेबल किया गया दस्तावेज़ कुछ ऐसा दिखना चाहिए. ध्यान दें, दस्तावेज़ में बाउंडिंग बॉक्स या बाईं ओर मौजूद मेन्यू में लेबल के नाम/वैल्यू पर क्लिक करके, इन लेबल में बदलाव किए जा सकते हैं. लेबल करना पूरा करने के बाद सेव करें पर क्लिक करें.

docai-uptraining-codelab-26

  1. यहां लेबल और वैल्यू की पूरी सूची दी गई है

लेबल का नाम

टेक्स्ट

supplier_name

मैकविलियम पाइपिंग इंटरनैशनल पाइपिंग कंपनी

supplier_address

14368 पाइपलाइन ऐवे चिनो, कैलिफ़ोर्निया 91710

invoice_id

10001

due_date

2020-01-02

line_item/description

नकल कप्लर

line_item/quantity

9

line_item/unit_price

74.43

line_item/amount

669.87

line_item/description

पीवीसी पाइप 12 इंच

line_item/quantity

7

line_item/unit_price

15.90

line_item/amount

111.30

line_item/description

कॉपर पाइप

line_item/quantity

7

line_item/unit_price

91.20

line_item/amount

638.40

net_amount

1,419.57

total_tax_amount

113.57

total_amount

1,533.14

currency

$

7. ट्रेनिंग सेट में दस्तावेज़ असाइन करें

अब आपको डेटासेट मैनेजमेंट कंसोल पर वापस जाना होगा. ध्यान दें कि लेबल किए गए और बिना लेबल वाले दस्तावेज़ों की संख्या के साथ-साथ चालू लेबल की संख्या भी बदल गई है.

docai-uptraining-codelab-27

  1. हमें इस दस्तावेज़ को या तो "प्रशिक्षण" को असाइन करना होगा या "जांच करें" सेट. दस्तावेज़ पर क्लिक करें.

docai-uptraining-codelab-28

  1. असाइन करने के लिए असाइन करें पर क्लिक करें. इसके बाद, ट्रेनिंग पर क्लिक करें.

docai-uptraining-codelab-29

  1. ध्यान दें कि डेटा विभाजन के आंकड़े बदल गए हैं.

docai-uptraining-codelab-30

8. पहले से लेबल किया गया डेटा इंपोर्ट करें

डॉक्यूमेंट एआई अपट्रेनिंग के लिए, ट्रेनिंग और टेस्ट सेट, दोनों में कम से कम 10 दस्तावेज़ होने चाहिए. साथ ही, हर सेट में हर लेबल के 10 इंस्टेंस होने चाहिए.

हमारा सुझाव है कि हर सेट में कम से कम 50 दस्तावेज़ होने चाहिए. साथ ही, सबसे अच्छी परफ़ॉर्मेंस के लिए, हर लेबल में 50 दस्तावेज़ होने चाहिए. आम तौर पर, ट्रेनिंग से जुड़ा ज़्यादा डेटा मिलने पर ज़्यादा सटीक जानकारी मिलती है.

मैन्युअल रूप से 100 दस्तावेज़ों को लेबल करने में बहुत समय लगेगा. इसलिए, हमारे पास पहले से लेबल किए गए कुछ दस्तावेज़ हैं, जिन्हें इस लैब के लिए इंपोर्ट किया जा सकता है.

पहले से लेबल की गई दस्तावेज़ की फ़ाइलों को Document.json फ़ॉर्मैट में इंपोर्ट किया जा सकता है. प्रोसेसर को कॉल करने और Human in the Loop (HITL) का इस्तेमाल करके, पुष्टि करने की प्रोसेस के सटीक होने की पुष्टि करने के नतीजे हो सकते हैं.

  1. दस्तावेज़ इंपोर्ट करें पर क्लिक करें.

docai-uptraining-codelab-30

  1. Cloud Storage के नीचे दिए गए पाथ को कॉपी करें/चिपकाएं और उसे ट्रेनिंग सेट को असाइन करें.
cloud-samples-data/documentai/codelabs/uptraining/training
  1. एक और बकेट जोड़ें पर क्लिक करें. इसके बाद, नीचे दिए गए Cloud Storage पाथ को कॉपी करें/चिपकाएं और उसे टेस्ट के सेट में असाइन करें.
cloud-samples-data/documentai/codelabs/uptraining/test

docai-uptraining-codelab-31

  1. इंपोर्ट करें पर क्लिक करें और दस्तावेज़ों के इंपोर्ट होने का इंतज़ार करें. इसमें पिछली बार की तुलना में ज़्यादा समय लगेगा, क्योंकि अभी प्रोसेस करने के लिए काफ़ी दस्तावेज़ हैं. मेरी जांच में, इसमें करीब छह मिनट लगे. इस पेज को छोड़ा जा सकता है और बाद में इस पर वापस आया जा सकता है.

docai-uptraining-codelab-32

  1. प्रक्रिया पूरी होने के बाद, आपको डेटासेट मैनेजमेंट पेज पर दस्तावेज़ दिखेंगे.

docai-uptraining-codelab-33

9. लेबल में बदलाव करें

इस उदाहरण के लिए हम जिन नमूना दस्तावेज़ों का इस्तेमाल कर रहे हैं, उनमें इनवॉइस पार्सर के साथ काम करने वाला हर लेबल शामिल नहीं है. ट्रेनिंग से पहले, हमें उन लेबल को 'बंद है' के तौर पर मार्क करना होगा जिन्हें हम इस्तेमाल नहीं कर रहे हैं. अपट्रेनिंग से पहले कस्टम लेबल जोड़ने के लिए, इसी तरह का तरीका भी अपनाया जा सकता है.

  1. सबसे नीचे बाएं कोने में, लेबल मैनेज करें पर क्लिक करें.

docai-uptraining-codelab-33

  1. अब आप लेबल मैनेजमेंट कंसोल में पहुंच जाएंगे.

docai-uptraining-codelab-34

  1. सिर्फ़ नीचे दिए गए लेबल को चालू है के तौर पर मार्क करने के लिए, चेकबॉक्स और बंद करें/चालू करें बटन का इस्तेमाल करें.
    • currency
    • due_date
    • invoice_id
    • line_item/amount
    • line_item/description
    • line_item/quantity
    • line_item/unit_price
    • net_amount
    • supplier_address
    • supplier_name
    • total_amount
    • total_tax_amount
  2. पूरा होने पर कंसोल ऐसा दिखना चाहिए. काम पूरा हो जाने के बाद सेव करें पर क्लिक करें.

docai-uptraining-codelab-35

  1. डेटासेट मैनेजमेंट कंसोल पर वापस जाने के लिए, 'वापस जाएं' ऐरो पर क्लिक करें. ध्यान दें कि जिन लेबल में 0 इंस्टेंस मौजूद है उन्हें 'बंद है' के तौर पर मार्क किया गया है.

docai-uptraining-codelab-36

10. ज़रूरी नहीं: इंपोर्ट किए गए नए दस्तावेज़ों को अपने-आप लेबल करें

डिप्लॉय किए गए मौजूदा प्रोसेसर वर्शन वाले प्रोसेसर के लिए, बिना लेबल वाले दस्तावेज़ इंपोर्ट करते समय, लेबल करने में लगने वाला समय बचाने के लिए, अपने-आप लेबल होने की सुविधा का इस्तेमाल किया जा सकता है.

  1. ट्रेन पेज पर, दस्तावेज़ इंपोर्ट करें पर क्लिक करें.
  2. निम्न पथ को कॉपी करें और चिपकाएं. इस डायरेक्ट्री में पांच बिना लेबल वाले इनवॉइस PDF हैं. डेटा के बंटवारे की ड्रॉपडाउन सूची से ट्रेनिंग चुनें.
    cloud-samples-data/documentai/Custom/Invoices/PDF_Unlabeled
    
  3. अपने-आप लेबल होना सेक्शन में, अपने-आप लेबल होने की सुविधा के साथ इंपोर्ट करें चेकबॉक्स चुनें.
  4. दस्तावेज़ों को लेबल करने के लिए, प्रोसेसर का कोई मौजूदा वर्शन चुनें.
  • उदाहरण के लिए: pretrained-invoice-v1.3-2022-07-15
  1. इंपोर्ट करें पर क्लिक करें और दस्तावेज़ों के इंपोर्ट होने का इंतज़ार करें. इस पेज को छोड़ा जा सकता है और बाद में इस पर वापस आया जा सकता है.
  • प्रक्रिया पूरी होने पर, दस्तावेज़ अपने-आप लेबल हुआ सेक्शन में ट्रेन पेज पर दिखते हैं.
  1. ट्रेनिंग या जांच के लिए, अपने-आप लेबल होने वाले दस्तावेज़ों को लेबल किए गए के तौर पर मार्क किए बिना इस्तेमाल नहीं किया जा सकता. अपने-आप लेबल हुए दस्तावेज़ देखने के लिए, अपने-आप लेबल हुआ सेक्शन पर जाएं.
  2. लेबलिंग कंसोल में जाने के लिए पहला दस्तावेज़ चुनें.
  3. लेबल, बाउंडिंग बॉक्स, और वैल्यू की पुष्टि करके पक्का करें कि वे सही हैं. छूटे हुए सभी वैल्यू को लेबल करें.
  4. काम पूरा हो जाने पर, लेबल के तौर पर मार्क करें को चुनें.
  5. अपने-आप लेबल होने वाले हर दस्तावेज़ के लिए, लेबल की पुष्टि करें. इसके बाद, ट्रेनिंग के लिए डेटा का इस्तेमाल करने के लिए, ट्रेन पेज पर वापस जाएं.

11. मॉडल को बेहतर बनाएं

अब हम अपने इनवॉइस पार्सर की ट्रेनिंग शुरू करने के लिए तैयार हैं.

  1. ट्रेन के नए वर्शन को ट्रेनिंग दें पर क्लिक करें

docai-uptraining-codelab-36

  1. अपने वर्शन को एक नाम दें जिसे आप याद रखें, जैसे कि codelab-uptraining-test-1. बेस वर्शन, मॉडल वर्शन है, जिससे इस नए वर्शन को बनाया जाएगा. अगर नए प्रोसेसर का इस्तेमाल किया जा रहा है, तो सिर्फ़ अपट्रेनिंग के साथ Google Pretrained Next ही विकल्प होना चाहिए

docai-uptraining-codelab-37

  1. (ज़रूरी नहीं) अपने डेटासेट में लेबल से जुड़ी मेट्रिक देखने के लिए, लेबल के आंकड़े देखें भी चुना जा सकता है.

docai-uptraining-codelab-38

  1. अपट्रेनिंग की प्रोसेस शुरू करने के लिए, ट्रेनिंग शुरू करें पर क्लिक करें. आपको डेटासेट मैनेजमेंट पेज पर रीडायरेक्ट किया जाएगा. दाईं ओर, ट्रेनिंग की स्थिति देखी जा सकती है. ट्रेनिंग पूरी होने में कुछ घंटे लगेंगे. इस पेज को छोड़ा जा सकता है और बाद में इस पर वापस आया जा सकता है.

docai-uptraining-codelab-39

  1. वर्शन के नाम पर क्लिक करने पर, आपको वर्शन मैनेज करें पेज पर ले जाया जाएगा. इस पेज पर, वर्शन आईडी और ट्रेनिंग जॉब की मौजूदा स्थिति दिखती है.

docai-uptraining-codelab-40

12. नए मॉडल वर्शन का परीक्षण करें

ट्रेनिंग जॉब पूरा होने के बाद (मेरे टेस्ट में करीब एक घंटा लगा), अब मॉडल के नए वर्शन को टेस्ट किया जा सकता है. साथ ही, इसका इस्तेमाल अनुमान लगाने के लिए किया जा सकता है.

  1. वर्शन मैनेज करें पेज पर जाएं. यहां आप मौजूदा स्टेटस और F1 स्कोर देख सकते हैं.

docai-uptraining-codelab-41

  1. इस मॉडल वर्शन का इस्तेमाल करने से पहले, हमें इसे डिप्लॉय करना होगा. दाईं ओर मौजूद वर्टिकल बिंदु पर क्लिक करें. इसके बाद, वर्शन डिप्लॉय करें को चुनें.

docai-uptraining-codelab-42

  1. वर्शन के डिप्लॉय होने का इंतज़ार करते समय, पॉप-अप विंडो से डिप्लॉय करें चुनें. इस प्रोसेस को पूरा होने में कुछ मिनट लगेंगे. डिप्लॉय किए जाने के बाद, इस वर्शन को डिफ़ॉल्ट वर्शन के तौर पर भी सेट किया जा सकता है.

docai-uptraining-codelab-43

  1. डिप्लॉयमेंट पूरा होने के बाद, आकलन करें टैब पर जाएं. फिर वर्शन ड्रॉपडाउन पर क्लिक करें और हमारे नए बनाए गए वर्शन को चुनें.

docai-uptraining-codelab-44

  1. इस पेज पर, आकलन की मेट्रिक देखी जा सकती हैं. इसमें, पूरे दस्तावेज़ और अलग-अलग लेबल के लिए, F1 स्कोर, सटीक, और रीकॉल शामिल हैं. AutoML दस्तावेज़ में इन मेट्रिक के बारे में ज़्यादा जानकारी देखी जा सकती है.
  2. नीचे लिंक की गई PDF फ़ाइल डाउनलोड करें. यह एक सैंपल दस्तावेज़ है. इसे ट्रेनिंग या टेस्ट सेट में शामिल नहीं किया गया था.

  1. टेस्ट दस्तावेज़ अपलोड करें पर क्लिक करें और PDF फ़ाइल चुनें.

docai-uptraining-codelab-45

  1. निकाली गई इकाइयां कुछ ऐसी दिखनी चाहिए.

docai-uptraining-codelab-46

13. नतीजा

बधाई हो, आपने इनवॉइस पार्सर को अप ट्रेनिंग देने के लिए, दस्तावेज़ एआई (AI) का इस्तेमाल कर लिया है. अब इस प्रोसेसर का इस्तेमाल, इनवॉइस पार्स करने के लिए ठीक वैसे ही किया जा सकता है जैसे किसी खास प्रोसेसर के लिए किया जाता है.

प्रोसेसिंग रिस्पॉन्स को मैनेज करने का तरीका जानने के लिए, खास प्रोसेसर कोडलैब देखें.

मिटाना

इस ट्यूटोरियल में इस्तेमाल किए गए संसाधनों के लिए, आपके Google Cloud खाते पर लगने वाले शुल्क से बचने के लिए:

  • Cloud Console में, संसाधन मैनेज करें पेज पर जाएं.
  • प्रोजेक्ट की सूची में, अपना प्रोजेक्ट चुनें. इसके बाद, 'मिटाएं' पर क्लिक करें.
  • डायलॉग बॉक्स में, प्रोजेक्ट आईडी टाइप करें. इसके बाद, प्रोजेक्ट मिटाने के लिए 'शट डाउन करें' पर क्लिक करें.

संसाधन

लाइसेंस

इस काम को क्रिएटिव कॉमंस एट्रिब्यूशन 2.0 जेनरिक लाइसेंस के तहत लाइसेंस मिला है.