استفاده از Document AI Warehouse برای جذب، پردازش و جستجوی اسناد

1. بررسی اجمالی

انبار هوش مصنوعی اسناد چیست؟

Document AI Warehouse پلتفرمی برای ذخیره، جستجو، سازماندهی و تجزیه و تحلیل اسناد و ابرداده های ساختار یافته آنها است. اسناد می توانند شامل داده های ساختاریافته مانند فرم ها و صورتحساب ها و همچنین داده های بدون ساختار مانند قراردادها و مقالات تحقیقاتی باشند. فراداده اسناد را می توان به طور خودکار با استفاده از پردازنده های Document AI استخراج کرد یا به صورت دستی با استفاده از فیلدها و برچسب ها وارد کرد.

در این کد لبه، نحوه جذب، پردازش و جستجوی اسناد را با استفاده از رابط کاربری Document AI Warehouse یاد خواهید گرفت. نمونه اسناد PDF برای این کد لبه ارائه شده است، از جمله قرارداد مجوز، فرم وام و فاکتور سفارش.

پیش نیازها

این کد لبه بر محتوای ارائه شده در سایر کدهای Document AI ساخته شده است. توصیه می شود قبل از ادامه، اسناد و کدهای زیر را مطالعه کنید:

چیزی که یاد خواهید گرفت

  • نحوه فعال کردن Document AI Warehouse API
  • نحوه پیکربندی پردازنده های سند در انبار هوش مصنوعی اسناد
  • نحوه آپلود و تجزیه متن در انواع اسناد PDF
  • نحوه جستجوی اسناد و ابرداده آنها در انبار هوش مصنوعی اسناد

آنچه شما نیاز دارید

2. نمونه اسناد را دانلود کنید

نمونه اسناد PDF برای این کد لبه ارائه شده است، از جمله قرارداد مجوز، فرم وام و فاکتور سفارش. می توانید نمونه اسناد زیر را برای استفاده در این کد لبه دانلود کنید.

همچنین، می‌توانید اسناد نمونه را از سطل ذخیره‌سازی عمومی Google Cloud با استفاده از gsutil بارگیری کنید.

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

در مرحله بعد، این اسناد نمونه را آپلود می‌کنید، آنها را با پردازنده‌های اسناد مختلف تجزیه می‌کنید و اسناد و ابرداده‌های حاصل را در Document AI Warehouse ذخیره می‌کنید.

3. Document AI Warehouse API را فعال کنید

قبل از شروع استفاده از Document AI Warehouse، باید API را فعال کنید.

با استفاده از Cloud Console

  1. کنسول Google Cloud را در مرورگر خود باز کنید.
  2. در کنسول Google Cloud، برای مرور APIها و سرویس‌هایی که می‌توان فعال کرد، به کتابخانه API بروید.
  3. با استفاده از نوار جستجو در بالای صفحه کتابخانه API، Document AI Warehouse را جستجو کنید، سپس روی سرویس به دست آمده کلیک کنید.
  4. روی دکمه Enable کلیک کنید تا Document AI Warehouse API در پروژه Google Cloud شما فعال شود. Document AI Warehouse API

جایگزین: استفاده از gcloud CLI

از طرف دیگر، API را می توان با استفاده از دستور gcloud زیر فعال کرد:

gcloud services enable contentwarehouse.googleapis.com

اگر API با موفقیت فعال شد، باید پیامی شبیه به زیر مشاهده کنید:

Operation "operations/..." finished successfully.

اکنون، شما آماده استفاده از Document AI Warehouse هستید!

4. کنسول Document AI Warehouse را مشاهده کنید

در مرورگر خود، به کنسول Document AI Warehouse واقع در https://documentwarehouse.cloud.google.com (که خارج از کنسول Google Cloud است) بروید. شما از کنسول Document AI Warehouse همراه با پروژه Google Cloud خود برای انجام مراحل باقی مانده در این کد لبه برای آپلود، پردازش و جستجوی اسناد استفاده خواهید کرد.

داشبورد انبار هوش مصنوعی سند

اگر اولین باری است که از Document AI Warehouse استفاده می کنید، برای اطلاعات بیشتر در مورد پیکربندی پروژه و تنظیمات بسته به نیازتان، به Document AI Warehouse Documentation مراجعه کنید.

5. یک طرحواره سند ایجاد کنید

طرحواره های سند، نوع سند و فیلدهایی را برای اسنادی که در انبار هوش مصنوعی اسناد ذخیره می کنید، تعریف می کنند. قبل از آپلود هر سند جدید، باید یک طرح واره ایجاد کنید.

  1. از کنسول Document AI Warehouse، روی دکمه Admin در گوشه سمت راست بالای صفحه کلیک کنید.
  2. روی آیتم Schema در نوار ناوبری سمت چپ کلیک کنید، سپس روی دکمه + افزودن جدید کلیک کنید.
  3. نامی برای طرح خود وارد کنید، مانند Documents and Forms ، و مطمئن شوید که Document به عنوان نوع طرحواره انتخاب شده است. سپس برای ادامه روی دکمه Next کلیک کنید.
  4. می‌توانید تعریف طرحواره پیش‌فرض JSON را همانطور که هست بگذارید، که باید به صورت زیر ظاهر شود:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. سپس روی دکمه Done کلیک کنید تا ایجاد طرح سند به پایان برسد.

پس از انجام موفقیت آمیز این مراحل، باید پیامی مبنی بر ایجاد طرحواره سند شما مشاهده کنید. می‌توانید روی دکمه View Document Schema کلیک کنید، سپس بر روی زبانه JSON برای تأیید طرح کلیک کنید، که باید مشابه شکل زیر ظاهر شود:

طرحواره سند

6. پردازشگرهای سند ایجاد کنید

در این مرحله، پردازنده‌های سند ایجاد می‌کنید که می‌توانید از آنها برای انجام جستجوی متن کامل بر روی انواع مختلف اسناد در Document AI Warehouse استفاده کنید.

  1. در کنسول Google Cloud، به صفحه نمای کلی پلتفرم هوش مصنوعی سند بروید.
  2. روی Explore Processors کلیک کنید، Document OCR را به عنوان نوع پردازنده برای ایجاد انتخاب کنید.
  3. یک نام برای پردازشگر اسناد خود مانند ocr و منطقه دلخواه خود تعیین کنید، سپس روی Create کلیک کنید تا پردازنده شما ایجاد شود.
  4. در صفحه جزئیات پردازنده ، شناسه پردازنده را کپی کنید، که بعداً برای پیکربندی پردازنده در انبار هوش مصنوعی اسناد استفاده خواهیم کرد.

این مراحل را تکرار کنید و Form Parser را به عنوان نوع پردازشگر سند انتخاب کنید تا form به عنوان نام پردازنده ایجاد کرده و مشخص کنید.

این مراحل را تکرار کنید و Invoice Parser را به عنوان نوع پردازشگر سند انتخاب کنید تا invoice به عنوان نام پردازنده ایجاد و تعیین کنید.

پس از انجام موفقیت آمیز این مراحل، باید لیستی از پردازشگرهای سند را مشاهده کنید که شبیه به موارد زیر است:

پردازشگرهای اسناد

7. پردازشگرهای سند را پیکربندی کنید

در این مرحله، با مراجعه به پردازنده‌هایی که در مرحله قبل ایجاد کرده‌اید، پردازنده‌های سند را در Document AI Warehouse پیکربندی می‌کنید.

  1. از کنسول Document AI Warehouse، روی دکمه Admin در نوار ابزار بالا کلیک کنید.
  2. روی آیتم Doc AI Processors در نوار ناوبری سمت چپ کلیک کنید، سپس روی دکمه + Add new کلیک کنید.
  3. روی دکمه + Add New Processor کلیک کنید، سپس نام و شناسه پردازنده را از مرحله قبل مشخص کنید.
  4. برای ذخیره تغییرات روی دکمه Save کلیک کنید.

این مراحل را تکرار کنید تا دو پردازنده دیگر را با استفاده از دکمه + Add New Processor ، از جمله تجزیه کننده فرم و تجزیه کننده فاکتور، به پیکربندی Document AI Warehouse اضافه کنید. مطمئن شوید که با استفاده از دکمه + Add New Processor ، به جای افزودن یک طرح اضافی با استفاده از دکمه + Add New ، دو پردازنده اضافی را در همان Document Schema ID اضافه کرده اید.

پس از انجام موفقیت آمیز این مراحل، باید لیستی از پردازشگرهای سند پیکربندی شده را مشاهده کنید که شبیه به موارد زیر است:

پردازشگرهای سند در انبار هوش مصنوعی اسناد

8. اسناد نمونه را بارگذاری و پردازش کنید

اکنون که طرحی تعریف کرده اید و پردازنده هایی را برای اسناد خود پیکربندی کرده اید، می توانید اسناد را در انبار هوش مصنوعی اسناد آپلود کنید.

  1. به کنسول Document AI Warehouse برگردید و روی دکمه +Add new در نوار پیمایش سمت چپ کلیک کنید، سپس گزینه Upload a new document را انتخاب کنید.
  2. سند License-agreement.pdf را از دستگاه خود به ویجت آپلود بکشید یا یکی از نمونه اسنادی را که دانلود کرده اید مرور کرده و انتخاب کنید. سپس برای ادامه روی دکمه Next کلیک کنید.
  3. برای طرحواره سند ، نام طرحی را که قبلا ایجاد کرده‌اید، مانند اسناد و فرم‌ها انتخاب کنید. برای شناسه پردازنده Doc AI ، پردازنده سند OCR را که در مرحله قبل پیکربندی کردید انتخاب کنید.
  4. برای نمایش نام ، می‌توانید از نام پیش‌فرض (یعنی نام فایل)، یا از نام سند سفارشی خود استفاده کنید.
  5. برای آپلود و پردازش سند خود، روی دکمه ایجاد کلیک کنید.

به کنسول Document AI Warehouse برگردید و این مراحل را با سند نمونه loan-form.pdf تکرار کنید. پردازشگر سند form را که قبلاً پیکربندی کرده اید انتخاب کنید.

به کنسول Document AI Warehouse برگردید و این مراحل را با سند نمونه invoice-sample.pdf تکرار کنید. پردازشگر سند invoice را که قبلاً پیکربندی کرده اید انتخاب کنید.

پس از انجام موفقیت آمیز این مراحل، اگر به کنسول Document AI Warehouse برگردید، باید فهرستی از اسناد پردازش شده را مشاهده کنید که شبیه به موارد زیر است:

اسناد پردازش شده در انبار هوش مصنوعی اسناد

9. اسناد را جستجو و کاوش کنید

اکنون که سندی را در Document AI Warehouse آپلود و پردازش کرده اید، می توانید یک جستجوی متن کامل روی اسناد انجام دهید.

از کنسول Document AI Warehouse، عبارت جستجویی را وارد کنید که در اسناد نمونه مانند agreement ظاهر می شود، سپس کلید Enter را فشار دهید. می‌توانید جستجوهای دیگر مانند mortgage و monitor را امتحان کنید تا نتایج مربوط به اسناد نمونه مختلفی را که آپلود کرده‌اید ببینید.

در نتایج، همه اسنادی را که حاوی آن عبارت جستجو هستند، به همراه خلاصه‌ای از متن سند را مشاهده می‌کنید که عبارت جستجو شده برجسته شده است:

نتایج جستجو در Document AI Warehouse

برای مشاهده روی نام یک سند کلیک کنید.

برای مشاهده سند به همراه فیلدهای شناسایی شده و داده های مرتبط با آنها، روی دکمه AI View کلیک کنید:

نمای تفصیلی در انبار هوش مصنوعی سند

10. تبریک می گویم

با Document AI Warehouse و با استفاده از پردازنده‌ها در Document AI، با موفقیت آپلود، پردازش و جستجوی متن کامل را روی اسناد انجام داده‌اید. ما شما را تشویق می کنیم که با اسناد دیگر آزمایش کنید و سایر پردازنده های موجود در پلتفرم را بررسی کنید.

تمیز کردن

برای جلوگیری از تحمیل هزینه به حساب Google Cloud خود برای منابع استفاده شده در این آموزش، می توانید پاکسازی زیر را انجام دهید:

  • به صفحه کنسول انبار اسناد بروید و تمام اسناد نمونه ای را که آپلود کرده اید حذف کنید.
  • در کنسول Google Cloud، به صفحه پردازنده‌های Document AI بروید و نمونه‌های پردازنده‌هایی را که ایجاد کرده‌اید حذف کنید.
  • در کنسول Google Cloud، به صفحه APIs and Services بروید و Document AI Warehouse API را غیرفعال کنید.

بیشتر بدانید

به یادگیری در مورد Document AI با این کدهای دیگر ادامه دهید.

منابع

مجوز

این اثر تحت مجوز Creative Commons Attribution 2.0 Generic مجوز دارد.