दस्तावेज़ों को डालने, प्रोसेस करने, और खोजने के लिए, दस्तावेज़ एआई वेयरहाउस का इस्तेमाल करना

1. खास जानकारी

Document AI Warehouse क्या है?

दस्तावेज़ एआई वेयरहाउस, दस्तावेज़ों और उनके स्ट्रक्चर्ड मेटाडेटा को सेव करने, खोजने, व्यवस्थित करने, और उनका विश्लेषण करने का प्लैटफ़ॉर्म है. दस्तावेज़ों में, फ़ॉर्म और इनवॉइस जैसे स्ट्रक्चर्ड डेटा के साथ-साथ कॉन्ट्रैक्ट और रिसर्च पेपर जैसा बिना स्ट्रक्चर वाला डेटा भी शामिल हो सकता है. दस्तावेज़ एआई (AI) में मौजूद प्रोसेसर की मदद से, दस्तावेज़ों का मेटाडेटा अपने-आप निकाला जा सकता है या फ़ील्ड और टैग की मदद से मैन्युअल तरीके से इनपुट किया जा सकता है.

इस कोडलैब में, आपको Document AI Warehouse के यूज़र इंटरफ़ेस का इस्तेमाल करके, दस्तावेज़ों को डालने, प्रोसेस करने, और खोजने का तरीका बताया जाएगा. इस कोडलैब के लिए, PDF दस्तावेज़ के सैंपल दिए गए हैं. जैसे, लाइसेंस का कानूनी समझौता, क़र्ज़ का फ़ॉर्म, और ऑर्डर का इनवॉइस.

ज़रूरी शर्तें

यह कोडलैब, अन्य डॉक्यूमेंट एआई कोडलैब में मौजूद कॉन्टेंट के आधार पर बनता है. हमारा सुझाव है कि आगे बढ़ने से पहले, नीचे दिए गए दस्तावेज़ और कोडलैब पढ़ें:

आप इन चीज़ों के बारे में जानेंगे

  • Document AI Warehouse API को चालू करने का तरीका
  • Document AI Warehouse में दस्तावेज़ प्रोसेसर कॉन्फ़िगर करने का तरीका
  • अलग-अलग तरह के PDF दस्तावेज़ों में टेक्स्ट अपलोड और पार्स करने का तरीका
  • Document AI Warehouse में दस्तावेज़ और उनके मेटाडेटा को खोजने का तरीका

आपको इनकी ज़रूरत होगी

  • Google Cloud प्रोजेक्ट
  • Chrome या Firefox जैसा ब्राउज़र

2. सैंपल दस्तावेज़ डाउनलोड करें

इस कोडलैब के लिए, PDF दस्तावेज़ के सैंपल दिए गए हैं. जैसे, लाइसेंस का कानूनी समझौता, क़र्ज़ का फ़ॉर्म, और ऑर्डर का इनवॉइस. इस कोडलैब में इस्तेमाल करने के लिए, नीचे दिए गए सैंपल दस्तावेज़ों को डाउनलोड किया जा सकता है.

इसके अलावा, आप gsutil का इस्तेमाल करके हमारे सार्वजनिक Google Cloud Storage बकेट से दस्तावेज़ों के नमूने डाउनलोड कर सकते हैं.

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

बाद के चरण में, आपको इन सैंपल दस्तावेज़ों को अपलोड करना होगा और उन्हें दस्तावेज़ के अलग-अलग प्रोसेसर के साथ पार्स करना होगा. साथ ही, तैयार किए गए दस्तावेज़ों और मेटाडेटा को Document AI Warehouse में सेव करना होगा.

3. Document AI Warehouse API को चालू करना

दस्तावेज़ एआई वेयरहाउस का इस्तेमाल शुरू करने से पहले, आपको एपीआई चालू करना होगा.

Cloud Console का इस्तेमाल करना

  1. अपने ब्राउज़र में Google Cloud Console खोलें.
  2. चालू किए जा सकने वाले एपीआई और सेवाओं को ब्राउज़ करने के लिए, Google Cloud Console में एपीआई लाइब्रेरी पर जाएं.
  3. एपीआई लाइब्रेरी पेज में सबसे ऊपर मौजूद खोज बार का इस्तेमाल करके, Document AI Warehouse खोजें. इसके बाद, उस सेवा पर क्लिक करें जो आपको मिलती है.
  4. अपने Google Cloud प्रोजेक्ट में Document AI Warehouse API को चालू करने के लिए, चालू करें पर क्लिक करें.दस्तावेज़ एआई वेयरहाउस एपीआई

दूसरा तरीका: gcloud सीएलआई का इस्तेमाल करना

इसके अलावा, नीचे दिए गए gcloud निर्देश का इस्तेमाल करके, एपीआई को चालू किया जा सकता है:

gcloud services enable contentwarehouse.googleapis.com

अगर एपीआई चालू हो गया है, तो आपको इस तरह का मैसेज दिखेगा:

Operation "operations/..." finished successfully.

अब आप Document AI Warehouse का इस्तेमाल करने के लिए तैयार हैं!

4. दस्तावेज़ एआई वेयरहाउस कंसोल देखें

अपने ब्राउज़र में, https://documentwarehouse.cloud.google.com पर मौजूद Document AI Warehouse कंसोल पर जाएं. यह कंसोल, Google Cloud Console पर उपलब्ध नहीं है. दस्तावेज़ों को अपलोड करने, प्रोसेस करने, और खोजने के लिए, इस कोडलैब के बाकी चरणों को पूरा करने के लिए, आपको अपने Google Cloud प्रोजेक्ट के साथ दस्तावेज़ एआई वेयरहाउस कंसोल का इस्तेमाल करना होगा.

दस्तावेज़ एआई वेयरहाउस डैशबोर्ड

अगर आपने Document AI Warehouse का पहली बार इस्तेमाल किया है, तो अपनी ज़रूरतों के हिसाब से अपने प्रोजेक्ट और सेटिंग को कॉन्फ़िगर करने के बारे में ज़्यादा जानकारी के लिए, Document AI Warehouse से जुड़े दस्तावेज़ पढ़ें.

5. दस्तावेज़ स्कीमा बनाना

दस्तावेज़ स्कीमा, दस्तावेज़ एआई वेयरहाउस में सेव किए गए दस्तावेज़ों के लिए, दस्तावेज़ का टाइप और फ़ील्ड तय करते हैं. कोई भी नया दस्तावेज़ अपलोड करने से पहले, आपको एक स्कीमा बनाना होगा.

  1. दस्तावेज़ एआई वेयरहाउस कंसोल में, पेज के सबसे ऊपर दाएं कोने में मौजूद, एडमिन बटन पर क्लिक करें.
  2. बाएं नेविगेशन बार में, स्कीमा आइटम पर क्लिक करें. इसके बाद, + नया जोड़ें बटन पर क्लिक करें.
  3. अपने स्कीमा का नाम डालें, जैसे कि Documents and Forms. साथ ही, पक्का करें कि दस्तावेज़ को स्कीमा टाइप के तौर पर चुना गया हो. इसके बाद, जारी रखने के लिए आगे बढ़ें बटन पर क्लिक करें.
  4. आपके पास JSON स्कीमा की डिफ़ॉल्ट परिभाषा को वैसे ही रहने देने का विकल्प है, जो कुछ इस तरह दिखनी चाहिए:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. इसके बाद, दस्तावेज़ स्कीमा बनाने की प्रोसेस पूरी करने के लिए, हो गया बटन पर क्लिक करें.

इन चरणों को पूरा करने के बाद, आपको मैसेज दिखेगा कि आपका दस्तावेज़ स्कीमा बना दिया गया है. स्कीमा की पुष्टि करने के लिए, दस्तावेज़ स्कीमा देखें बटन पर क्लिक करने के बाद, JSON टैब पर क्लिक किया जा सकता है. स्कीमा यहां दिया गया तरीका जैसा दिखना चाहिए:

दस्तावेज़ स्कीमा

6. दस्तावेज़ प्रोसेस करने वाले ऐप्लिकेशन बनाएं

इस चरण में आपको दस्तावेज़ प्रोसेसर बनाने होंगे. इनका इस्तेमाल करके, Document AI Warehouse में अलग-अलग तरह के दस्तावेज़ों पर पूरे टेक्स्ट की खोज की जा सकेगी.

  1. Google Cloud Console में, दस्तावेज़ एआई प्लैटफ़ॉर्म की खास जानकारी देने वाले पेज पर जाएं.
  2. प्रोसेसर एक्सप्लोर करें पर क्लिक करें. इसके बाद, बनाने के लिए प्रोसेसर के टाइप के तौर पर दस्तावेज़ ओसीआर चुनें.
  3. अपने दस्तावेज़ प्रोसेसर का नाम तय करें, जैसे कि ocr और अपना पसंदीदा क्षेत्र. इसके बाद, अपना प्रोसेसर बनाने के लिए, बनाएं पर क्लिक करें.
  4. प्रोसेसर की जानकारी पेज पर जाकर, प्रोसेसर आईडी को कॉपी करें. हम इसका इस्तेमाल, बाद में Document AI Warehouse में प्रोसेसर को कॉन्फ़िगर करने के लिए करेंगे.

इन चरणों को दोहराएं और बनाने के लिए दस्तावेज़ प्रोसेसर के प्रकार के रूप में फ़ॉर्म पार्सर चुनें और प्रोसेसर नाम के रूप में form तय करें.

यह तरीका दोहराएं और दस्तावेज़ प्रोसेस करने वाले के तौर पर इनवॉइस पार्सर को चुनें. इससे, प्रोसेसर का नाम बनाने और invoice को प्रोसेसर का नाम बताने के लिए, इसका इस्तेमाल किया जा सकेगा.

इन चरणों को पूरा करने के बाद, आपको दस्तावेज़ प्रोसेस करने वाली उन कंपनियों की सूची दिखेगी जो इस तरह दिखती हैं:

दस्तावेज़ प्रोसेसर

7. दस्तावेज़ प्रोसेसर कॉन्फ़िगर करें

इस चरण में, आपको दस्तावेज़ एआई वेयरहाउस में दस्तावेज़ प्रोसेसर कॉन्फ़िगर करने होंगे. इसके लिए, आपको पिछले चरण में बनाए गए प्रोसेसर का रेफ़रंस देना होगा.

  1. दस्तावेज़ एआई वेयरहाउस कंसोल में, सबसे ऊपर मौजूद टूलबार पर एडमिन बटन पर क्लिक करें.
  2. बाईं ओर दिए गए नेविगेशन बार में, Doc AI Processors आइटम पर क्लिक करें. इसके बाद, + नया जोड़ें बटन पर क्लिक करें.
  3. + नया प्रोसेसर जोड़ें बटन पर क्लिक करें. इसके बाद, पिछले चरण में दिया गया नाम और प्रोसेसर आईडी डालें.
  4. बदलावों को सेव करने के लिए, सेव करें बटन पर क्लिक करें.

फ़ॉर्म पार्सर और इनवॉइस पार्सर के साथ-साथ + नया प्रोसेसर जोड़ें बटन का इस्तेमाल करके, अन्य दो प्रोसेसर को Document AI Warehouse कॉन्फ़िगरेशन में जोड़ने के लिए यह तरीका दोहराएं. पक्का करें कि आपने + नया जोड़ें बटन का इस्तेमाल करके अतिरिक्त स्कीमा जोड़ने के बजाय, + नया प्रोसेसर जोड़ें बटन का इस्तेमाल करके एक ही दस्तावेज़ स्कीमा आईडी में दो अतिरिक्त प्रोसेसर जोड़े हैं.

इन चरणों को पूरा करने के बाद, आपको कॉन्फ़िगर किए गए दस्तावेज़ प्रोसेसर की सूची दिखेगी. यह सूची कुछ इस तरह दिखती है:

दस्तावेज़ एआई वेयरहाउस में दस्तावेज़ प्रोसेसर

8. सैंपल दस्तावेज़ अपलोड करना और उन्हें प्रोसेस करना

अब आपने अपने दस्तावेज़ों के लिए स्कीमा और कॉन्फ़िगर किए गए प्रोसेसर तय कर लिए हैं. इसलिए, अब Document AI Warehouse में दस्तावेज़ अपलोड किए जा सकते हैं.

  1. Document AI Warehouse कंसोल पर वापस जाएं और बाईं ओर मौजूद नेविगेशन बार में, +नया जोड़ें बटन पर क्लिक करें. इसके बाद, नया दस्तावेज़ अपलोड करें विकल्प चुनें.
  2. license-agreement.pdf दस्तावेज़ को अपनी मशीन से अपलोड विजेट पर खींचें और छोड़ें. इसके अलावा, डाउनलोड किए गए सैंपल दस्तावेज़ों में से किसी एक को ब्राउज़ करके चुनें. इसके बाद, जारी रखने के लिए आगे बढ़ें बटन पर क्लिक करें.
  3. दस्तावेज़ स्कीमा के लिए, उस स्कीमा का नाम चुनें जिसे आपने पहले बनाया था, जैसे कि दस्तावेज़ और फ़ॉर्म. Doc AI प्रोसेसर आईडी के लिए, ओसीआर का वह दस्तावेज़ प्रोसेसर चुनें जिसे आपने पिछले चरण में कॉन्फ़िगर किया था.
  4. डिसप्ले नेम के लिए, डिफ़ॉल्ट नाम (जैसे कि फ़ाइल नाम) का इस्तेमाल किया जा सकता है या अपनी पसंद के मुताबिक दस्तावेज़ का नाम इस्तेमाल किया जा सकता है.
  5. अपने दस्तावेज़ को अपलोड और प्रोसेस करने के लिए, बनाएं बटन पर क्लिक करें.

Document AI Warehouse कंसोल पर वापस जाएं और loan-form.pdf सैंपल दस्तावेज़ के साथ, इन चरणों को दोहराएं. वह form दस्तावेज़ प्रोसेसर चुनें जिसे आपने पहले कॉन्फ़िगर किया था.

Document AI Warehouse कंसोल पर वापस जाएं और invoice-sample.pdf सैंपल दस्तावेज़ के साथ इन चरणों को दोहराएं. वह invoice दस्तावेज़ प्रोसेसर चुनें जिसे आपने पहले कॉन्फ़िगर किया था.

इन चरणों को पूरा करने के बाद, अगर Document AI Warehouse कंसोल पर वापस जाया जाता है, तो आपको प्रोसेस किए गए दस्तावेज़ों की सूची दिखेगी. यह सूची नीचे दी गई जानकारी से मिलती-जुलती है:

दस्तावेज़ एआई वेयरहाउस में प्रोसेस किए गए दस्तावेज़

9. दस्तावेज़ खोजना और उन्हें एक्सप्लोर करना

आपने Document AI Warehouse में एक दस्तावेज़ अपलोड और प्रोसेस कर लिया है, इसलिए अब दस्तावेज़ों पर पूरे टेक्स्ट की खोज की जा सकती है.

Document AI Warehouse कंसोल से, खोज के लिए वह शब्द डालें जो सैंपल दस्तावेज़ों में दिखता है, जैसे कि agreement. इसके बाद, Enter बटन दबाएं. अपलोड किए गए अलग-अलग सैंपल दस्तावेज़ों के नतीजे देखने के लिए, mortgage और monitor जैसी अन्य खोज क्वेरी आज़माएं.

नतीजों में, आपको वे सभी दस्तावेज़ दिखेंगे जिनमें खोज के लिए इस्तेमाल हुआ शब्द शामिल होता है. साथ ही, दस्तावेज़ के टेक्स्ट की खास जानकारी के साथ, खोज के लिए इस्तेमाल किए गए शब्द को हाइलाइट किया जाएगा:

दस्तावेज़ एआई वेयरहाउस में खोज के नतीजे

दस्तावेज़ देखने के लिए उसके नाम पर क्लिक करें.

दस्तावेज़ को, पहचाने गए फ़ील्ड और उनसे जुड़े डेटा के साथ देखने के लिए, एआई व्यू टॉगल पर क्लिक करें:

दस्तावेज़ एआई वेयरहाउस में पूरी जानकारी

10. बधाई हो

आपने Document AI वेयरहाउस की मदद से और दस्तावेज़ एआई में प्रोसेसर का इस्तेमाल करके, दस्तावेज़ों पर पूरे टेक्स्ट को अपलोड, प्रोसेस, और खोज लिया है. हमारा सुझाव है कि आप अन्य दस्तावेज़ों के साथ एक्सपेरिमेंट करें. साथ ही, इस प्लैटफ़ॉर्म पर उपलब्ध अन्य प्रोसेसर को एक्सप्लोर करें.

स्टोरेज खाली करें

इस ट्यूटोरियल में इस्तेमाल किए गए संसाधनों के लिए, Google Cloud खाते में लगने वाले शुल्क से बचने के लिए, क्लीनअप का इस्तेमाल करें:

ज़्यादा जानें

इन अन्य कोडलैब की मदद से, दस्तावेज़ एआई (AI) के बारे में सीखते रहें.

संसाधन

लाइसेंस

इस काम को क्रिएटिव कॉमंस एट्रिब्यूशन 2.0 जेनरिक लाइसेंस के तहत लाइसेंस मिला है.