۱. مرور کلی
انبار هوش مصنوعی اسناد چیست؟
انبار هوش مصنوعی اسناد (Document AI Warehouse) بستری برای ذخیره، جستجو، سازماندهی و تجزیه و تحلیل اسناد و فرادادههای ساختاریافته آنهاست. اسناد میتوانند شامل دادههای ساختاریافته مانند فرمها و فاکتورها و همچنین دادههای بدون ساختار مانند قراردادها و مقالات تحقیقاتی باشند. فرادادههای اسناد را میتوان به طور خودکار با استفاده از پردازندهها در هوش مصنوعی اسناد استخراج کرد یا با استفاده از فیلدها و برچسبها به صورت دستی وارد کرد.
در این آزمایشگاه کد، شما نحوه دریافت، پردازش و جستجوی اسناد را با استفاده از رابط کاربری Document AI Warehouse خواهید آموخت. نمونه اسناد PDF برای این آزمایشگاه کد ارائه شده است، از جمله توافقنامه مجوز، فرم وام و فاکتور سفارش.
پیشنیازها
این آزمایشگاه کد بر اساس محتوای ارائه شده در سایر آزمایشگاههای کد هوش مصنوعی سند ساخته شده است. توصیه میشود قبل از ادامه، مستندات و آزمایشگاههای کد زیر را مطالعه کنید:
- شروع سریع: تنظیم API هوش مصنوعی اسناد
- اسناد را با استفاده از کنسول Google Cloud پردازش کنید
- مدیریت پردازندههای هوش مصنوعی اسناد با پایتون
آنچه یاد خواهید گرفت
- نحوه فعال کردن API انبار اسناد هوش مصنوعی
- نحوه پیکربندی پردازشگرهای سند در Document AI Warehouse
- نحوه آپلود و تجزیه متن در انواع مختلف اسناد PDF
- نحوه جستجوی اسناد و ابردادههای آنها در Document AI Warehouse
آنچه نیاز دارید
۲. دانلود نمونه اسناد
اسناد PDF نمونه برای این codelab ارائه شده است، از جمله قرارداد مجوز، فرم وام و فاکتور سفارش. میتوانید اسناد نمونه زیر را برای استفاده در این codelab دانلود کنید.
روش دیگر این است که میتوانید اسناد نمونه را با استفاده از gsutil از مخزن ذخیرهسازی ابری عمومی گوگل ما دانلود کنید.
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .
در مرحله بعد، این اسناد نمونه را آپلود میکنید، آنها را با پردازندههای سند مختلف تجزیه میکنید و اسناد و فرادادههای حاصل را در Document AI Warehouse ذخیره میکنید.
۳. فعال کردن API انبار هوش مصنوعی اسناد
قبل از اینکه بتوانید از Document AI Warehouse استفاده کنید، باید API را فعال کنید.
استفاده از کنسول ابری
- کنسول گوگل کلود را در مرورگر خود باز کنید.
- در کنسول گوگل کلود، به کتابخانه API بروید تا APIها و سرویسهایی را که میتوانند فعال شوند، مرور کنید.
- با استفاده از نوار جستجو در بالای صفحه کتابخانه API،
Document AI Warehouseرا جستجو کنید، سپس روی سرویس نمایش داده شده کلیک کنید. - برای فعال کردن API انبار اسناد هوش مصنوعی در پروژه گوگل کلود خود، روی دکمه فعالسازی کلیک کنید.

جایگزین: استفاده از رابط خط فرمان gcloud
به عنوان یک روش جایگزین، API را میتوان با استفاده از دستور gcloud زیر فعال کرد:
gcloud services enable contentwarehouse.googleapis.com
اگر API با موفقیت فعال شده باشد، باید پیامی مشابه پیام زیر را مشاهده کنید:
Operation "operations/..." finished successfully.
اکنون، شما آماده استفاده از Document AI Warehouse هستید!
۴. کنسول Document AI Warehouse را مشاهده کنید
در مرورگر خود، به کنسول Document AI Warehouse واقع در آدرس https://documentwarehouse.cloud.google.com (که خارج از کنسول Google Cloud است) بروید. شما از کنسول Document AI Warehouse به همراه پروژه Google Cloud خود برای انجام مراحل باقیمانده در این آزمایشگاه کد برای آپلود، پردازش و جستجوی اسناد استفاده خواهید کرد.

اگر این اولین بار است که از Document AI Warehouse استفاده میکنید، برای اطلاعات بیشتر در مورد پیکربندی پروژه و تنظیمات بسته به نیاز خود، به مستندات Document AI Warehouse مراجعه کنید.
۵. یک طرحواره سند ایجاد کنید
طرحوارههای سند، نوع سند و فیلدهای اسنادی را که در انبار هوش مصنوعی اسناد ذخیره میکنید، تعریف میکنند. قبل از آپلود هرگونه سند جدید، باید یک طرحواره ایجاد کنید.
- از کنسول Document AI Warehouse، روی دکمه Admin در گوشه سمت راست بالای صفحه کلیک کنید.
- روی آیتم Schema در نوار ناوبری سمت چپ کلیک کنید، سپس روی دکمه + Add new کلیک کنید.
- یک نام برای طرحواره خود، مانند
Documents and Forms، وارد کنید و مطمئن شوید که Document به عنوان نوع طرحواره انتخاب شده است. سپس، برای ادامه روی دکمه Next کلیک کنید. - میتوانید تعریف پیشفرض طرحواره JSON را همانطور که هست رها کنید، که باید به صورت زیر ظاهر شود:
{ "display_name": "Documents and Forms", "property_definitions": [], "document_is_folder": false, "description": "" } - سپس برای اتمام ایجاد طرحواره سند، روی دکمه «انجام شد» کلیک کنید.
پس از اتمام موفقیتآمیز این مراحل، باید پیامی مبنی بر ایجاد طرحواره سند خود مشاهده کنید. میتوانید روی دکمه «مشاهده طرحواره سند» و سپس تب JSON کلیک کنید تا طرحواره تأیید شود که باید مشابه تصویر زیر باشد:

۶. ایجاد پردازشگرهای سند
در این مرحله، شما پردازشگرهای سندی ایجاد خواهید کرد که میتوانید از آنها برای انجام جستجوی متن کامل در انواع مختلف اسناد در Document AI Warehouse استفاده کنید.
- در کنسول گوگل کلود، به صفحه مرور کلی پلتفرم هوش مصنوعی اسناد بروید.
- روی «کاوش پردازندهها» کلیک کنید، و نوع پردازندهای که میخواهید ایجاد کنید را «OCR سند» انتخاب کنید.
- یک نام برای پردازشگر سند خود مانند
ocrو منطقه مورد نظر خود مشخص کنید، سپس برای ایجاد پردازشگر خود روی Create کلیک کنید. - در صفحه جزئیات پردازنده ، شناسه پردازنده را کپی کنید، که بعداً برای پیکربندی پردازنده در Document AI Warehouse از آن استفاده خواهیم کرد.
این مراحل را تکرار کنید و Form Parser را به عنوان نوع پردازشگر سند برای ایجاد انتخاب کنید و form به عنوان نام پردازشگر مشخص کنید.
این مراحل را تکرار کنید و Invoice Parser را به عنوان نوع پردازشگر سند برای ایجاد انتخاب کنید و invoice به عنوان نام پردازشگر مشخص کنید.
پس از اتمام موفقیتآمیز این مراحل، باید لیستی از پردازشگرهای سند را مشاهده کنید که شبیه به موارد زیر است:

۷. پیکربندی پردازشگرهای سند
در این مرحله، با مراجعه به پردازندههایی که در مرحله قبل ایجاد کردهاید، پردازندههای سند را در Document AI Warehouse پیکربندی خواهید کرد.
- از کنسول Document AI Warehouse، روی دکمه Admin در نوار ابزار بالا کلیک کنید.
- روی آیتم Doc AI Processors در نوار ناوبری سمت چپ کلیک کنید، سپس روی دکمه + Add new کلیک کنید.
- روی دکمه + افزودن پردازنده جدید کلیک کنید، سپس یک نام و شناسه پردازنده از مرحله قبل را مشخص کنید.
- برای ذخیره تغییرات خود، روی دکمه ذخیره کلیک کنید.
این مراحل را برای اضافه کردن دو پردازنده دیگر به پیکربندی انبار هوش مصنوعی اسناد با استفاده از دکمه + افزودن پردازنده جدید ، شامل تجزیهگر فرم و تجزیهگر فاکتور، تکرار کنید. مطمئن شوید که دو پردازنده اضافی را تحت همان شناسه طرحواره سند با استفاده از دکمه + افزودن پردازنده جدید اضافه میکنید، نه اینکه یک طرحواره اضافی را با استفاده از دکمه + افزودن جدید اضافه کنید.
پس از اتمام موفقیتآمیز این مراحل، باید لیستی از پردازشگرهای سند پیکربندیشده را مشاهده کنید که مشابه موارد زیر است:

۸. آپلود و پردازش اسناد نمونه
اکنون که یک طرحواره تعریف کرده و پردازندهها را برای اسناد خود پیکربندی کردهاید، میتوانید اسناد را در Document AI Warehouse بارگذاری کنید.
- به کنسول Document AI Warehouse برگردید و روی دکمه +Add new در نوار ناوبری سمت چپ کلیک کنید، سپس گزینه Upload a new document را انتخاب کنید.
- سند license-contract.pdf را از دستگاه خود به ابزارک آپلود بکشید، یا یکی از اسناد نمونهای که دانلود کردهاید را مرور کرده و انتخاب کنید. سپس، برای ادامه روی دکمه Next کلیک کنید.
- برای «طرحواره سند» ، نام طرحی را که قبلاً ایجاد کردهاید، مانند «اسناد» و «فرمها» انتخاب کنید. برای « شناسه پردازنده Doc AI» ، پردازنده سند OCR را که در مرحله قبل پیکربندی کردهاید، انتخاب کنید.
- برای نام نمایشی ، میتوانید از نام پیشفرض (یعنی نام فایل) استفاده کنید، یا از نام سند دلخواه خود استفاده کنید.
- برای آپلود و پردازش سند خود، روی دکمهی «ایجاد» کلیک کنید.
به کنسول Document AI Warehouse برگردید و این مراحل را با سند نمونه loan-form.pdf تکرار کنید. پردازشگر سند form را که قبلاً پیکربندی کردهاید، انتخاب کنید.
به کنسول Document AI Warehouse برگردید و این مراحل را با سند نمونه invoice-sample.pdf تکرار کنید. پردازشگر سند invoice را که قبلاً پیکربندی کردهاید، انتخاب کنید.
پس از اتمام موفقیتآمیز این مراحل، اگر به کنسول Document AI Warehouse برگردید، باید لیستی از اسناد پردازش شده را مشاهده کنید که مشابه موارد زیر است:

۹. جستجو و کاوش اسناد
اکنون که سندی را در Document AI Warehouse بارگذاری و پردازش کردهاید، میتوانید جستجوی متن کامل را روی اسناد انجام دهید.
از کنسول Document AI Warehouse، یک عبارت جستجو که در اسناد نمونه مانند agreement وجود دارد را وارد کنید، سپس کلید Enter را فشار دهید. میتوانید عبارات جستجوی دیگری مانند mortgage و monitor امتحان کنید تا نتایج مربوط به اسناد نمونه مختلفی که آپلود کردهاید را ببینید.
در نتایج، تمام اسنادی که حاوی آن عبارت جستجو هستند را به همراه خلاصهای از متن سند که عبارت جستجو در آن هایلایت شده است، مشاهده خواهید کرد:

برای مشاهده سند، روی نام آن کلیک کنید.
برای مشاهده سند به همراه فیلدهای شناسایی شده و دادههای مرتبط با آنها، روی گزینه AI View کلیک کنید:

۱۰. تبریک
شما با موفقیت اسناد را با Document AI Warehouse و با استفاده از پردازندههای موجود در Document AI آپلود، پردازش و جستجوی متن کامل را روی آنها انجام دادهاید. ما شما را تشویق میکنیم که با اسناد دیگر آزمایش کنید و سایر پردازندههای موجود در پلتفرم را بررسی کنید.
تمیز کردن
برای جلوگیری از تحمیل هزینه به حساب Google Cloud خود برای منابع استفاده شده در این آموزش، میتوانید پاکسازی زیر را انجام دهید:
- به صفحه کنسول انبار اسناد بروید و تمام اسناد نمونهای که آپلود کردهاید را حذف کنید.
- در کنسول گوگل کلود، به صفحه پردازندههای هوش مصنوعی سند بروید و پردازندههای نمونهای که ایجاد کردهاید را حذف کنید.
- در کنسول گوگل کلود، به صفحه APIها و سرویسها بروید و API مربوط به انبار اسناد هوش مصنوعی (Document AI Warehouse API) را غیرفعال کنید.
اطلاعات بیشتر
یادگیری در مورد هوش مصنوعی اسناد را با این آزمایشگاههای کد دیگر ادامه دهید.
- تشخیص نوری کاراکتر با هوش مصنوعی اسناد
- تجزیه فرم با هوش مصنوعی اسناد (پایتون)
- پردازندههای تخصصی با هوش مصنوعی اسناد (پایتون)
- مدیریت پردازندههای هوش مصنوعی اسناد با پایتون
منابع
مجوز
این اثر تحت مجوز عمومی Creative Commons Attribution 2.0 منتشر شده است.