1. खास जानकारी
Document AI Warehouse क्या है?
Document AI Warehouse एक ऐसा प्लैटफ़ॉर्म है जहां दस्तावेज़ों और उनके स्ट्रक्चर्ड मेटाडेटा को सेव किया जा सकता है. साथ ही, उन्हें खोजा, व्यवस्थित किया, और उनका विश्लेषण किया जा सकता है. दस्तावेज़ों में स्ट्रक्चर्ड डेटा शामिल हो सकता है. जैसे, फ़ॉर्म और इनवॉइस. साथ ही, इनमें अनस्ट्रक्चर्ड डेटा भी शामिल हो सकता है. जैसे, कॉन्ट्रैक्ट और रिसर्च पेपर. Document AI में मौजूद प्रोसेसर का इस्तेमाल करके, दस्तावेज़ों का मेटाडेटा अपने-आप निकाला जा सकता है. इसके अलावा, फ़ील्ड और टैग का इस्तेमाल करके, इसे मैन्युअल तरीके से भी डाला जा सकता है.
इस कोडलैब में, Document AI Warehouse के उपयोगकर्ता इंटरफ़ेस का इस्तेमाल करके, दस्तावेज़ों को शामिल करने, प्रोसेस करने, और खोजने का तरीका जानें. इस कोडलैब के लिए, PDF दस्तावेज़ों के सैंपल दिए गए हैं. इनमें लाइसेंस का कानूनी समझौता, लोन फ़ॉर्म, और ऑर्डर का इनवॉइस शामिल है.
ज़रूरी शर्तें
यह कोडलैब, Document AI के अन्य कोडलैब में दिए गए कॉन्टेंट पर आधारित है. हमारा सुझाव है कि आगे बढ़ने से पहले, यहां दिए गए दस्तावेज़ और कोडलैब पढ़ें:
- क्विकस्टार्ट: Document AI API सेट अप करना
- Google Cloud Console का इस्तेमाल करके दस्तावेज़ों को प्रोसेस करना
- Python की मदद से Document AI प्रोसेसर मैनेज करना
आपको क्या सीखने को मिलेगा
- Document AI Warehouse API को चालू करने का तरीका
- Document AI Warehouse में दस्तावेज़ प्रोसेसर कॉन्फ़िगर करने का तरीका
- अलग-अलग तरह के PDF दस्तावेज़ों में टेक्स्ट को अपलोड और पार्स करने का तरीका
- Document AI Warehouse में दस्तावेज़ों और उनके मेटाडेटा को खोजने का तरीका
आपको किन चीज़ों की ज़रूरत होगी
2. सैंपल दस्तावेज़ डाउनलोड करें
इस कोडलैब के लिए, PDF दस्तावेज़ों के सैंपल दिए गए हैं. इनमें लाइसेंस का कानूनी समझौता, लोन फ़ॉर्म, और ऑर्डर का इनवॉइस शामिल है. इस कोडलैब में इस्तेमाल करने के लिए, यहां दिए गए सैंपल दस्तावेज़ डाउनलोड किए जा सकते हैं.
इसके अलावा, gsutil का इस्तेमाल करके, हमारे सार्वजनिक Google Cloud Storage बकेट से सैंपल दस्तावेज़ डाउनलोड किए जा सकते हैं.
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .
बाद के चरण में, आपको इन सैंपल दस्तावेज़ों को अपलोड करना होगा. इसके बाद, उन्हें अलग-अलग दस्तावेज़ प्रोसेसर की मदद से पार्स करना होगा. इसके बाद, आपको नतीजों के तौर पर मिले दस्तावेज़ों और मेटाडेटा को Document AI Warehouse में सेव करना होगा.
3. Document AI Warehouse API चालू करना
Document AI Warehouse का इस्तेमाल शुरू करने से पहले, आपको एपीआई चालू करना होगा.
Cloud Console का इस्तेमाल करके
- अपने ब्राउज़र में Google Cloud Console खोलें.
- Google Cloud Console में, एपीआई लाइब्रेरी पर जाएं. यहां आपको उन एपीआई और सेवाओं की जानकारी मिलेगी जिन्हें चालू किया जा सकता है.
- एपीआई लाइब्रेरी पेज पर सबसे ऊपर मौजूद खोज बार का इस्तेमाल करके,
Document AI Warehouseखोजें. इसके बाद, खोज के नतीजों में दिखने वाली सेवा पर क्लिक करें. - अपने Google Cloud प्रोजेक्ट में Document AI Warehouse API को चालू करने के लिए, चालू करें बटन पर क्लिक करें.

दूसरा तरीका: gcloud सीएलआई का इस्तेमाल करना
इसके अलावा, एपीआई को चालू करने के लिए, इस gcloud कमांड का इस्तेमाल किया जा सकता है:
gcloud services enable contentwarehouse.googleapis.com
अगर एपीआई चालू हो गया है, तो आपको इस तरह का मैसेज दिखेगा:
Operation "operations/..." finished successfully.
अब Document AI Warehouse का इस्तेमाल किया जा सकता है!
4. Document AI Warehouse कंसोल देखना
अपने ब्राउज़र में, https://documentwarehouse.cloud.google.com पर मौजूद Document AI Warehouse कंसोल पर जाएं. यह Google Cloud console से बाहर है. इस कोडलैब में, दस्तावेज़ अपलोड करने, उन्हें प्रोसेस करने, और खोजने के लिए, आपको Document AI Warehouse कंसोल और Google Cloud प्रोजेक्ट का इस्तेमाल करना होगा.

अगर Document AI Warehouse का पहली बार इस्तेमाल किया जा रहा है, तो अपनी ज़रूरतों के हिसाब से प्रोजेक्ट और सेटिंग कॉन्फ़िगर करने के बारे में ज़्यादा जानने के लिए, Document AI Warehouse का दस्तावेज़ पढ़ें.
5. दस्तावेज़ का स्कीमा बनाना
दस्तावेज़ के स्कीमा से, Document AI Warehouse में सेव किए गए दस्तावेज़ों के टाइप और फ़ील्ड तय किए जाते हैं. नए दस्तावेज़ अपलोड करने से पहले, आपको एक स्कीमा बनाना होगा.
- Document AI Warehouse कंसोल में, पेज पर सबसे ऊपर दाएं कोने में मौजूद एडमिन बटन पर क्लिक करें.
- बाईं ओर मौजूद नेविगेशन बार में, स्कीमा आइटम पर क्लिक करें. इसके बाद, + नया जोड़ें बटन पर क्लिक करें.
- अपने स्कीमा के लिए कोई नाम डालें. जैसे,
Documents and Forms. साथ ही, पक्का करें कि स्कीमा टाइप के तौर पर दस्तावेज़ चुना गया हो. इसके बाद, जारी रखने के लिए आगे बढ़ें बटन पर क्लिक करें. - JSON स्कीमा की डिफ़ॉल्ट परिभाषा को वैसे ही छोड़ा जा सकता है. यह इस तरह दिखनी चाहिए:
{ "display_name": "Documents and Forms", "property_definitions": [], "document_is_folder": false, "description": "" } - इसके बाद, दस्तावेज़ का स्कीमा बनाने की प्रोसेस पूरी करने के लिए, हो गया बटन पर क्लिक करें.
इन चरणों को पूरा करने के बाद, आपको एक मैसेज दिखेगा. इसमें बताया जाएगा कि आपका दस्तावेज़ स्कीमा बन गया है. स्कीमा की पुष्टि करने के लिए, दस्तावेज़ का स्कीमा देखें बटन पर क्लिक करें. इसके बाद, JSON टैब पर क्लिक करें. यह स्कीमा, यहां दिए गए स्कीमा जैसा दिखना चाहिए:

6. दस्तावेज़ प्रोसेस करने वाले टूल बनाना
इस चरण में, आपको ऐसे दस्तावेज़ प्रोसेसर बनाने हैं जिनका इस्तेमाल करके, Document AI Warehouse में अलग-अलग तरह के दस्तावेज़ों में फ़ुल-टेक्स्ट खोज की जा सकती है.
- Google Cloud Console में, Document AI Platform की खास जानकारी वाले पेज पर जाएं.
- प्रोसेसर एक्सप्लोर करें पर क्लिक करें. इसके बाद, बनाने के लिए प्रोसेसर के टाइप के तौर पर दस्तावेज़ का ओसीआर चुनें.
- अपने दस्तावेज़ प्रोसेसर के लिए कोई नाम डालें, जैसे कि
ocr. इसके बाद, अपनी पसंद का क्षेत्र चुनें. इसके बाद, प्रोसेसर बनाने के लिए बनाएं पर क्लिक करें. - प्रोसेसर की जानकारी पेज पर, प्रोसेसर आईडी को कॉपी करें. इसका इस्तेमाल हम बाद में, Document AI Warehouse में प्रोसेसर को कॉन्फ़िगर करने के लिए करेंगे.
इन चरणों को दोहराएं और दस्तावेज़ प्रोसेसर के टाइप के तौर पर फ़ॉर्म पार्सर चुनें. इसके बाद, प्रोसेसर के नाम के तौर पर form डालें.
इन चरणों को दोहराएं और दस्तावेज़ प्रोसेसर के टाइप के तौर पर इनवॉइस पार्सर चुनें. इसके बाद, प्रोसेसर का नाम invoice डालें.
इन चरणों को पूरा करने के बाद, आपको दस्तावेज़ों को प्रोसेस करने वाली कंपनियों की एक सूची दिखेगी. यह सूची कुछ ऐसी दिखेगी:

7. दस्तावेज़ प्रोसेस करने वाले टूल कॉन्फ़िगर करना
इस चरण में, आपको Document AI Warehouse में दस्तावेज़ों को प्रोसेस करने वाले टूल कॉन्फ़िगर करने होंगे. इसके लिए, आपको पिछले चरण में बनाए गए प्रोसेसर का इस्तेमाल करना होगा.
- Document AI Warehouse कंसोल में, सबसे ऊपर मौजूद टूलबार पर, एडमिन बटन पर क्लिक करें.
- बाईं ओर मौजूद नेविगेशन बार में, Doc AI प्रोसेसर पर क्लिक करें. इसके बाद, + नया जोड़ें बटन पर क्लिक करें.
- + नया प्रोसेसर जोड़ें बटन पर क्लिक करें. इसके बाद, पिछले चरण में दिया गया नाम और प्रोसेसर आईडी डालें.
- बदलावों को सेव करने के लिए, सेव करें बटन पर क्लिक करें.
+ नया प्रोसेसर जोड़ें बटन का इस्तेमाल करके, Document AI Warehouse के कॉन्फ़िगरेशन में अन्य दो प्रोसेसर जोड़ने के लिए, यह तरीका दोहराएं. इसमें फ़ॉर्म पार्सर और इनवॉइस पार्सर शामिल हैं. पक्का करें कि आपने + नया प्रोसेसर जोड़ें बटन का इस्तेमाल करके, दस्तावेज़ के स्कीमा आईडी में दो और प्रोसेसर जोड़े हों. इसके बजाय, + नया जोड़ें बटन का इस्तेमाल करके कोई और स्कीमा न जोड़ें.
इन चरणों को पूरा करने के बाद, आपको कॉन्फ़िगर किए गए दस्तावेज़ प्रोसेसर की एक सूची दिखेगी. यह सूची कुछ इस तरह दिखेगी:

8. नमूना दस्तावेज़ अपलोड और प्रोसेस करना
अब जब आपने अपने दस्तावेज़ों के लिए स्कीमा तय कर लिया है और प्रोसेसर कॉन्फ़िगर कर लिए हैं, तो Document AI Warehouse में दस्तावेज़ अपलोड किए जा सकते हैं.
- Document AI Warehouse कंसोल पर वापस जाएं. इसके बाद, बाईं ओर मौजूद नेविगेशन बार में, +नया जोड़ें बटन पर क्लिक करें. इसके बाद, नया दस्तावेज़ अपलोड करें का विकल्प चुनें.
- अपने कंप्यूटर से license-agreement.pdf दस्तावेज़ को खींचकर, अपलोड करने वाले विजेट पर छोड़ें. इसके अलावा, डाउनलोड किए गए सैंपल दस्तावेज़ों में से किसी एक को ब्राउज़ करके चुना जा सकता है. इसके बाद, जारी रखने के लिए आगे बढ़ें बटन पर क्लिक करें.
- दस्तावेज़ का स्कीमा के लिए, उस स्कीमा का नाम चुनें जिसे आपने पहले बनाया था. जैसे, दस्तावेज़ और फ़ॉर्म. Doc AI प्रोसेसर आईडी के लिए, ओसीआर दस्तावेज़ प्रोसेसर चुनें. इसे आपने पिछले चरण में कॉन्फ़िगर किया था.
- डिसप्ले नेम के लिए, डिफ़ॉल्ट नाम (यानी कि फ़ाइल का नाम) का इस्तेमाल किया जा सकता है. इसके अलावा, अपने हिसाब से दस्तावेज़ का नाम भी चुना जा सकता है.
- अपने दस्तावेज़ को अपलोड और प्रोसेस करने के लिए, बनाएं बटन पर क्लिक करें.
Document AI Warehouse कंसोल पर वापस जाएं और loan-form.pdf सैंपल दस्तावेज़ के साथ इन चरणों को दोहराएं. form पहले से कॉन्फ़िगर किया गया दस्तावेज़ प्रोसेसर चुनें.
Document AI Warehouse कंसोल पर वापस जाएं और invoice-sample.pdf सैंपल दस्तावेज़ के साथ यह तरीका दोहराएं. invoice पहले से कॉन्फ़िगर किया गया दस्तावेज़ प्रोसेसर चुनें.
इन चरणों को पूरा करने के बाद, अगर आप Document AI Warehouse कंसोल पर वापस जाते हैं, तो आपको प्रोसेस किए गए दस्तावेज़ों की एक सूची दिखेगी. यह सूची कुछ इस तरह दिखेगी:

9. दस्तावेज़ खोजना और उनके बारे में ज़्यादा जानना
Document AI Warehouse में कोई दस्तावेज़ अपलोड और प्रोसेस करने के बाद, अब दस्तावेज़ों में पूरे टेक्स्ट को खोजा जा सकता है.
Document AI Warehouse कंसोल में, खोज के लिए कोई ऐसा शब्द डालें जो सैंपल दस्तावेज़ों में दिखता हो. जैसे, agreement. इसके बाद, Enter कुंजी दबाएं. अपलोड किए गए अलग-अलग सैंपल दस्तावेज़ों के नतीजे देखने के लिए, mortgage और monitor जैसी अन्य खोज क्वेरी आज़माई जा सकती हैं.
नतीजों में, आपको वे सभी दस्तावेज़ दिखेंगे जिनमें खोज शब्द शामिल है. साथ ही, खोज शब्द को हाइलाइट करके, दस्तावेज़ के टेक्स्ट की खास जानकारी भी दिखेगी:

किसी दस्तावेज़ को देखने के लिए, उसके नाम पर क्लिक करें.
डॉक्यूमेंट, पहचाने गए फ़ील्ड, और उनसे जुड़ा डेटा देखने के लिए, एआई व्यू टॉगल पर क्लिक करें:

10. बधाई हो
आपने Document AI Warehouse और Document AI में मौजूद प्रोसेसर का इस्तेमाल करके, दस्तावेज़ों को अपलोड, प्रोसेस, और उनमें टेक्स्ट खोज लिया है. हमारा सुझाव है कि आप अन्य दस्तावेज़ों का इस्तेमाल करके देखें. साथ ही, प्लैटफ़ॉर्म पर उपलब्ध अन्य प्रोसेसर के बारे में जानें.
क्लीन अप करें
इस ट्यूटोरियल में इस्तेमाल किए गए संसाधनों के लिए, अपने Google Cloud खाते से शुल्क लिए जाने से बचने के लिए, यहां दी गई कार्रवाइयां करें:
- Document Warehouse कंसोल पेज पर जाएं और अपलोड किए गए सभी सैंपल दस्तावेज़ मिटाएं.
- Google Cloud Console में, Document AI प्रोसेसर पेज पर जाएं. इसके बाद, बनाए गए सैंपल प्रोसेसर मिटाएं.
- Google Cloud Console में, एपीआई और सेवाएं पेज पर जाएं. इसके बाद, Document AI Warehouse API को बंद करें.
ज़्यादा जानें
इन अन्य कोडलैब की मदद से, Document AI के बारे में ज़्यादा जानें.
- Document AI की मदद से ऑप्टिकल कैरेक्टर रिकग्निशन की सुविधा
- Document AI की मदद से फ़ॉर्म पार्स करना (Python)
- Document AI (Python) के साथ खास प्रोसेसर
- Python की मदद से Document AI प्रोसेसर मैनेज करना
संसाधन
- Document AI Warehouse के बारे में जानकारी देने वाला दस्तावेज़
- द फ़्यूचर ऑफ़ डॉक्यूमेंट्स - YouTube प्लेलिस्ट
- Document AI के सैंपल की रिपॉज़िटरी
लाइसेंस
इस काम के लिए, Creative Commons एट्रिब्यूशन 2.0 जेनेरिक लाइसेंस के तहत लाइसेंस मिला है.