1. بررسی اجمالی
انبار هوش مصنوعی اسناد چیست؟
Document AI Warehouse پلتفرمی برای ذخیره، جستجو، سازماندهی و تجزیه و تحلیل اسناد و ابرداده های ساختار یافته آنها است. اسناد می توانند شامل داده های ساختاریافته مانند فرم ها و صورتحساب ها و همچنین داده های بدون ساختار مانند قراردادها و مقالات تحقیقاتی باشند. فراداده اسناد را می توان به طور خودکار با استفاده از پردازنده های Document AI استخراج کرد یا به صورت دستی با استفاده از فیلدها و برچسب ها وارد کرد.
در این کد لبه، نحوه جذب، پردازش و جستجوی اسناد را با استفاده از رابط کاربری Document AI Warehouse یاد خواهید گرفت. نمونه اسناد PDF برای این کد لبه ارائه شده است، از جمله قرارداد مجوز، فرم وام و فاکتور سفارش.
پیش نیازها
این کد لبه بر محتوای ارائه شده در سایر کدهای Document AI ساخته شده است. توصیه می شود قبل از ادامه، اسناد و کدهای زیر را مطالعه کنید:
- شروع سریع: Document AI API را تنظیم کنید
- اسناد را با استفاده از کنسول Google Cloud پردازش کنید
- مدیریت پردازشگرهای هوش مصنوعی سند با پایتون
چیزی که یاد خواهید گرفت
- نحوه فعال کردن Document AI Warehouse API
- نحوه پیکربندی پردازنده های سند در انبار هوش مصنوعی اسناد
- نحوه آپلود و تجزیه متن در انواع اسناد PDF
- نحوه جستجوی اسناد و ابرداده آنها در انبار هوش مصنوعی اسناد
آنچه شما نیاز دارید
2. نمونه اسناد را دانلود کنید
نمونه اسناد PDF برای این کد لبه ارائه شده است، از جمله قرارداد مجوز، فرم وام و فاکتور سفارش. می توانید نمونه اسناد زیر را برای استفاده در این کد لبه دانلود کنید.
همچنین، میتوانید اسناد نمونه را از سطل ذخیرهسازی عمومی Google Cloud با استفاده از gsutil
بارگیری کنید.
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .
در مرحله بعد، این اسناد نمونه را آپلود میکنید، آنها را با پردازندههای اسناد مختلف تجزیه میکنید و اسناد و ابردادههای حاصل را در Document AI Warehouse ذخیره میکنید.
3. Document AI Warehouse API را فعال کنید
قبل از شروع استفاده از Document AI Warehouse، باید API را فعال کنید.
با استفاده از Cloud Console
- کنسول Google Cloud را در مرورگر خود باز کنید.
- در کنسول Google Cloud، برای مرور APIها و سرویسهایی که میتوان فعال کرد، به کتابخانه API بروید.
- با استفاده از نوار جستجو در بالای صفحه کتابخانه API،
Document AI Warehouse
را جستجو کنید، سپس روی سرویس به دست آمده کلیک کنید. - روی دکمه Enable کلیک کنید تا Document AI Warehouse API در پروژه Google Cloud شما فعال شود.
جایگزین: استفاده از gcloud CLI
از طرف دیگر، API را می توان با استفاده از دستور gcloud
زیر فعال کرد:
gcloud services enable contentwarehouse.googleapis.com
اگر API با موفقیت فعال شد، باید پیامی شبیه به زیر مشاهده کنید:
Operation "operations/..." finished successfully.
اکنون، شما آماده استفاده از Document AI Warehouse هستید!
4. کنسول Document AI Warehouse را مشاهده کنید
در مرورگر خود، به کنسول Document AI Warehouse واقع در https://documentwarehouse.cloud.google.com (که خارج از کنسول Google Cloud است) بروید. شما از کنسول Document AI Warehouse همراه با پروژه Google Cloud خود برای انجام مراحل باقی مانده در این کد لبه برای آپلود، پردازش و جستجوی اسناد استفاده خواهید کرد.
اگر اولین باری است که از Document AI Warehouse استفاده می کنید، برای اطلاعات بیشتر در مورد پیکربندی پروژه و تنظیمات بسته به نیازتان، به Document AI Warehouse Documentation مراجعه کنید.
5. یک طرحواره سند ایجاد کنید
طرحواره های سند، نوع سند و فیلدهایی را برای اسنادی که در انبار هوش مصنوعی اسناد ذخیره می کنید، تعریف می کنند. قبل از آپلود هر سند جدید، باید یک طرح واره ایجاد کنید.
- از کنسول Document AI Warehouse، روی دکمه Admin در گوشه سمت راست بالای صفحه کلیک کنید.
- روی آیتم Schema در نوار ناوبری سمت چپ کلیک کنید، سپس روی دکمه + افزودن جدید کلیک کنید.
- نامی برای طرح خود وارد کنید، مانند
Documents and Forms
، و مطمئن شوید که Document به عنوان نوع طرحواره انتخاب شده است. سپس برای ادامه روی دکمه Next کلیک کنید. - میتوانید تعریف طرحواره پیشفرض JSON را همانطور که هست بگذارید، که باید به صورت زیر ظاهر شود:
{ "display_name": "Documents and Forms", "property_definitions": [], "document_is_folder": false, "description": "" }
- سپس روی دکمه Done کلیک کنید تا ایجاد طرح سند به پایان برسد.
پس از انجام موفقیت آمیز این مراحل، باید پیامی مبنی بر ایجاد طرحواره سند شما مشاهده کنید. میتوانید روی دکمه View Document Schema کلیک کنید، سپس بر روی زبانه JSON برای تأیید طرح کلیک کنید، که باید مشابه شکل زیر ظاهر شود:
6. پردازشگرهای سند ایجاد کنید
در این مرحله، پردازندههای سند ایجاد میکنید که میتوانید از آنها برای انجام جستجوی متن کامل بر روی انواع مختلف اسناد در Document AI Warehouse استفاده کنید.
- در کنسول Google Cloud، به صفحه نمای کلی پلتفرم هوش مصنوعی سند بروید.
- روی Explore Processors کلیک کنید، Document OCR را به عنوان نوع پردازنده برای ایجاد انتخاب کنید.
- یک نام برای پردازشگر اسناد خود مانند
ocr
و منطقه دلخواه خود تعیین کنید، سپس روی Create کلیک کنید تا پردازنده شما ایجاد شود. - در صفحه جزئیات پردازنده ، شناسه پردازنده را کپی کنید، که بعداً برای پیکربندی پردازنده در انبار هوش مصنوعی اسناد استفاده خواهیم کرد.
این مراحل را تکرار کنید و Form Parser را به عنوان نوع پردازشگر سند انتخاب کنید تا form
به عنوان نام پردازنده ایجاد کرده و مشخص کنید.
این مراحل را تکرار کنید و Invoice Parser را به عنوان نوع پردازشگر سند انتخاب کنید تا invoice
به عنوان نام پردازنده ایجاد و تعیین کنید.
پس از انجام موفقیت آمیز این مراحل، باید لیستی از پردازشگرهای سند را مشاهده کنید که شبیه به موارد زیر است:
7. پردازشگرهای سند را پیکربندی کنید
در این مرحله، با مراجعه به پردازندههایی که در مرحله قبل ایجاد کردهاید، پردازندههای سند را در Document AI Warehouse پیکربندی میکنید.
- از کنسول Document AI Warehouse، روی دکمه Admin در نوار ابزار بالا کلیک کنید.
- روی آیتم Doc AI Processors در نوار ناوبری سمت چپ کلیک کنید، سپس روی دکمه + Add new کلیک کنید.
- روی دکمه + Add New Processor کلیک کنید، سپس نام و شناسه پردازنده را از مرحله قبل مشخص کنید.
- برای ذخیره تغییرات روی دکمه Save کلیک کنید.
این مراحل را تکرار کنید تا دو پردازنده دیگر را با استفاده از دکمه + Add New Processor ، از جمله تجزیه کننده فرم و تجزیه کننده فاکتور، به پیکربندی Document AI Warehouse اضافه کنید. مطمئن شوید که با استفاده از دکمه + Add New Processor ، به جای افزودن یک طرح اضافی با استفاده از دکمه + Add New ، دو پردازنده اضافی را در همان Document Schema ID اضافه کرده اید.
پس از انجام موفقیت آمیز این مراحل، باید لیستی از پردازشگرهای سند پیکربندی شده را مشاهده کنید که شبیه به موارد زیر است:
8. اسناد نمونه را بارگذاری و پردازش کنید
اکنون که طرحی تعریف کرده اید و پردازنده هایی را برای اسناد خود پیکربندی کرده اید، می توانید اسناد را در انبار هوش مصنوعی اسناد آپلود کنید.
- به کنسول Document AI Warehouse برگردید و روی دکمه +Add new در نوار پیمایش سمت چپ کلیک کنید، سپس گزینه Upload a new document را انتخاب کنید.
- سند License-agreement.pdf را از دستگاه خود به ویجت آپلود بکشید یا یکی از نمونه اسنادی را که دانلود کرده اید مرور کرده و انتخاب کنید. سپس برای ادامه روی دکمه Next کلیک کنید.
- برای طرحواره سند ، نام طرحی را که قبلا ایجاد کردهاید، مانند اسناد و فرمها انتخاب کنید. برای شناسه پردازنده Doc AI ، پردازنده سند OCR را که در مرحله قبل پیکربندی کردید انتخاب کنید.
- برای نمایش نام ، میتوانید از نام پیشفرض (یعنی نام فایل)، یا از نام سند سفارشی خود استفاده کنید.
- برای آپلود و پردازش سند خود، روی دکمه ایجاد کلیک کنید.
به کنسول Document AI Warehouse برگردید و این مراحل را با سند نمونه loan-form.pdf تکرار کنید. پردازشگر سند form
را که قبلاً پیکربندی کرده اید انتخاب کنید.
به کنسول Document AI Warehouse برگردید و این مراحل را با سند نمونه invoice-sample.pdf تکرار کنید. پردازشگر سند invoice
را که قبلاً پیکربندی کرده اید انتخاب کنید.
پس از انجام موفقیت آمیز این مراحل، اگر به کنسول Document AI Warehouse برگردید، باید فهرستی از اسناد پردازش شده را مشاهده کنید که شبیه به موارد زیر است:
9. اسناد را جستجو و کاوش کنید
اکنون که سندی را در Document AI Warehouse آپلود و پردازش کرده اید، می توانید یک جستجوی متن کامل روی اسناد انجام دهید.
از کنسول Document AI Warehouse، عبارت جستجویی را وارد کنید که در اسناد نمونه مانند agreement
ظاهر می شود، سپس کلید Enter را فشار دهید. میتوانید جستجوهای دیگر مانند mortgage
و monitor
را امتحان کنید تا نتایج مربوط به اسناد نمونه مختلفی را که آپلود کردهاید ببینید.
در نتایج، همه اسنادی را که حاوی آن عبارت جستجو هستند، به همراه خلاصهای از متن سند را مشاهده میکنید که عبارت جستجو شده برجسته شده است:
برای مشاهده روی نام یک سند کلیک کنید.
برای مشاهده سند به همراه فیلدهای شناسایی شده و داده های مرتبط با آنها، روی دکمه AI View کلیک کنید:
10. تبریک می گویم
با Document AI Warehouse و با استفاده از پردازندهها در Document AI، با موفقیت آپلود، پردازش و جستجوی متن کامل را روی اسناد انجام دادهاید. ما شما را تشویق می کنیم که با اسناد دیگر آزمایش کنید و سایر پردازنده های موجود در پلتفرم را بررسی کنید.
تمیز کردن
برای جلوگیری از تحمیل هزینه به حساب Google Cloud خود برای منابع استفاده شده در این آموزش، می توانید پاکسازی زیر را انجام دهید:
- به صفحه کنسول انبار اسناد بروید و تمام اسناد نمونه ای را که آپلود کرده اید حذف کنید.
- در کنسول Google Cloud، به صفحه پردازندههای Document AI بروید و نمونههای پردازندههایی را که ایجاد کردهاید حذف کنید.
- در کنسول Google Cloud، به صفحه APIs and Services بروید و Document AI Warehouse API را غیرفعال کنید.
بیشتر بدانید
به یادگیری در مورد Document AI با این کدهای دیگر ادامه دهید.
- تشخیص کاراکتر نوری با Document AI
- تجزیه فرم با هوش مصنوعی سند (پایتون)
- پردازنده های تخصصی با Document AI (Python)
- مدیریت پردازشگرهای هوش مصنوعی سند با پایتون
منابع
مجوز
این اثر تحت مجوز Creative Commons Attribution 2.0 Generic مجوز دارد.