استفاده از Document AI Warehouse برای جذب، پردازش و جستجوی اسناد

۱. مرور کلی

انبار هوش مصنوعی اسناد چیست؟

انبار هوش مصنوعی اسناد (Document AI Warehouse) بستری برای ذخیره، جستجو، سازماندهی و تجزیه و تحلیل اسناد و فراداده‌های ساختاریافته آنهاست. اسناد می‌توانند شامل داده‌های ساختاریافته مانند فرم‌ها و فاکتورها و همچنین داده‌های بدون ساختار مانند قراردادها و مقالات تحقیقاتی باشند. فراداده‌های اسناد را می‌توان به طور خودکار با استفاده از پردازنده‌ها در هوش مصنوعی اسناد استخراج کرد یا با استفاده از فیلدها و برچسب‌ها به صورت دستی وارد کرد.

در این آزمایشگاه کد، شما نحوه دریافت، پردازش و جستجوی اسناد را با استفاده از رابط کاربری Document AI Warehouse خواهید آموخت. نمونه اسناد PDF برای این آزمایشگاه کد ارائه شده است، از جمله توافقنامه مجوز، فرم وام و فاکتور سفارش.

پیش‌نیازها

این آزمایشگاه کد بر اساس محتوای ارائه شده در سایر آزمایشگاه‌های کد هوش مصنوعی سند ساخته شده است. توصیه می‌شود قبل از ادامه، مستندات و آزمایشگاه‌های کد زیر را مطالعه کنید:

آنچه یاد خواهید گرفت

  • نحوه فعال کردن API انبار اسناد هوش مصنوعی
  • نحوه پیکربندی پردازشگرهای سند در Document AI Warehouse
  • نحوه آپلود و تجزیه متن در انواع مختلف اسناد PDF
  • نحوه جستجوی اسناد و ابرداده‌های آنها در Document AI Warehouse

آنچه نیاز دارید

۲. دانلود نمونه اسناد

اسناد PDF نمونه برای این codelab ارائه شده است، از جمله قرارداد مجوز، فرم وام و فاکتور سفارش. می‌توانید اسناد نمونه زیر را برای استفاده در این codelab دانلود کنید.

روش دیگر این است که می‌توانید اسناد نمونه را با استفاده از gsutil از مخزن ذخیره‌سازی ابری عمومی گوگل ما دانلود کنید.

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

در مرحله بعد، این اسناد نمونه را آپلود می‌کنید، آنها را با پردازنده‌های سند مختلف تجزیه می‌کنید و اسناد و فراداده‌های حاصل را در Document AI Warehouse ذخیره می‌کنید.

۳. فعال کردن API انبار هوش مصنوعی اسناد

قبل از اینکه بتوانید از Document AI Warehouse استفاده کنید، باید API را فعال کنید.

استفاده از کنسول ابری

  1. کنسول گوگل کلود را در مرورگر خود باز کنید.
  2. در کنسول گوگل کلود، به کتابخانه API بروید تا APIها و سرویس‌هایی را که می‌توانند فعال شوند، مرور کنید.
  3. با استفاده از نوار جستجو در بالای صفحه کتابخانه API، Document AI Warehouse را جستجو کنید، سپس روی سرویس نمایش داده شده کلیک کنید.
  4. برای فعال کردن API انبار اسناد هوش مصنوعی در پروژه گوگل کلود خود، روی دکمه فعال‌سازی کلیک کنید. API انبار داده هوش مصنوعی اسناد

جایگزین: استفاده از رابط خط فرمان gcloud

به عنوان یک روش جایگزین، API را می‌توان با استفاده از دستور gcloud زیر فعال کرد:

gcloud services enable contentwarehouse.googleapis.com

اگر API با موفقیت فعال شده باشد، باید پیامی مشابه پیام زیر را مشاهده کنید:

Operation "operations/..." finished successfully.

اکنون، شما آماده استفاده از Document AI Warehouse هستید!

۴. کنسول Document AI Warehouse را مشاهده کنید

در مرورگر خود، به کنسول Document AI Warehouse واقع در آدرس https://documentwarehouse.cloud.google.com (که خارج از کنسول Google Cloud است) بروید. شما از کنسول Document AI Warehouse به همراه پروژه Google Cloud خود برای انجام مراحل باقی‌مانده در این آزمایشگاه کد برای آپلود، پردازش و جستجوی اسناد استفاده خواهید کرد.

داشبورد انبار هوش مصنوعی اسناد

اگر این اولین بار است که از Document AI Warehouse استفاده می‌کنید، برای اطلاعات بیشتر در مورد پیکربندی پروژه و تنظیمات بسته به نیاز خود، به مستندات Document AI Warehouse مراجعه کنید.

۵. یک طرحواره سند ایجاد کنید

طرحواره‌های سند، نوع سند و فیلدهای اسنادی را که در انبار هوش مصنوعی اسناد ذخیره می‌کنید، تعریف می‌کنند. قبل از آپلود هرگونه سند جدید، باید یک طرحواره ایجاد کنید.

  1. از کنسول Document AI Warehouse، روی دکمه Admin در گوشه سمت راست بالای صفحه کلیک کنید.
  2. روی آیتم Schema در نوار ناوبری سمت چپ کلیک کنید، سپس روی دکمه + Add new کلیک کنید.
  3. یک نام برای طرحواره خود، مانند Documents and Forms ، وارد کنید و مطمئن شوید که Document به عنوان نوع طرحواره انتخاب شده است. سپس، برای ادامه روی دکمه Next کلیک کنید.
  4. می‌توانید تعریف پیش‌فرض طرحواره JSON را همانطور که هست رها کنید، که باید به صورت زیر ظاهر شود:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. سپس برای اتمام ایجاد طرحواره سند، روی دکمه «انجام شد» کلیک کنید.

پس از اتمام موفقیت‌آمیز این مراحل، باید پیامی مبنی بر ایجاد طرحواره سند خود مشاهده کنید. می‌توانید روی دکمه «مشاهده طرحواره سند» و سپس تب JSON کلیک کنید تا طرحواره تأیید شود که باید مشابه تصویر زیر باشد:

طرحواره سند

۶. ایجاد پردازشگرهای سند

در این مرحله، شما پردازشگرهای سندی ایجاد خواهید کرد که می‌توانید از آنها برای انجام جستجوی متن کامل در انواع مختلف اسناد در Document AI Warehouse استفاده کنید.

  1. در کنسول گوگل کلود، به صفحه مرور کلی پلتفرم هوش مصنوعی اسناد بروید.
  2. روی «کاوش پردازنده‌ها» کلیک کنید، و نوع پردازنده‌ای که می‌خواهید ایجاد کنید را «OCR سند» انتخاب کنید.
  3. یک نام برای پردازشگر سند خود مانند ocr و منطقه مورد نظر خود مشخص کنید، سپس برای ایجاد پردازشگر خود روی Create کلیک کنید.
  4. در صفحه جزئیات پردازنده ، شناسه پردازنده را کپی کنید، که بعداً برای پیکربندی پردازنده در Document AI Warehouse از آن استفاده خواهیم کرد.

این مراحل را تکرار کنید و Form Parser را به عنوان نوع پردازشگر سند برای ایجاد انتخاب کنید و form به عنوان نام پردازشگر مشخص کنید.

این مراحل را تکرار کنید و Invoice Parser را به عنوان نوع پردازشگر سند برای ایجاد انتخاب کنید و invoice به عنوان نام پردازشگر مشخص کنید.

پس از اتمام موفقیت‌آمیز این مراحل، باید لیستی از پردازشگرهای سند را مشاهده کنید که شبیه به موارد زیر است:

پردازنده‌های سند

۷. پیکربندی پردازشگرهای سند

در این مرحله، با مراجعه به پردازنده‌هایی که در مرحله قبل ایجاد کرده‌اید، پردازنده‌های سند را در Document AI Warehouse پیکربندی خواهید کرد.

  1. از کنسول Document AI Warehouse، روی دکمه Admin در نوار ابزار بالا کلیک کنید.
  2. روی آیتم Doc AI Processors در نوار ناوبری سمت چپ کلیک کنید، سپس روی دکمه + Add new کلیک کنید.
  3. روی دکمه + افزودن پردازنده جدید کلیک کنید، سپس یک نام و شناسه پردازنده از مرحله قبل را مشخص کنید.
  4. برای ذخیره تغییرات خود، روی دکمه ذخیره کلیک کنید.

این مراحل را برای اضافه کردن دو پردازنده دیگر به پیکربندی انبار هوش مصنوعی اسناد با استفاده از دکمه + افزودن پردازنده جدید ، شامل تجزیه‌گر فرم و تجزیه‌گر فاکتور، تکرار کنید. مطمئن شوید که دو پردازنده اضافی را تحت همان شناسه طرحواره سند با استفاده از دکمه + افزودن پردازنده جدید اضافه می‌کنید، نه اینکه یک طرحواره اضافی را با استفاده از دکمه + افزودن جدید اضافه کنید.

پس از اتمام موفقیت‌آمیز این مراحل، باید لیستی از پردازشگرهای سند پیکربندی‌شده را مشاهده کنید که مشابه موارد زیر است:

پردازنده‌های سند در انبار هوش مصنوعی اسناد

۸. آپلود و پردازش اسناد نمونه

اکنون که یک طرحواره تعریف کرده و پردازنده‌ها را برای اسناد خود پیکربندی کرده‌اید، می‌توانید اسناد را در Document AI Warehouse بارگذاری کنید.

  1. به کنسول Document AI Warehouse برگردید و روی دکمه +Add new در نوار ناوبری سمت چپ کلیک کنید، سپس گزینه Upload a new document را انتخاب کنید.
  2. سند license-contract.pdf را از دستگاه خود به ابزارک آپلود بکشید، یا یکی از اسناد نمونه‌ای که دانلود کرده‌اید را مرور کرده و انتخاب کنید. سپس، برای ادامه روی دکمه Next کلیک کنید.
  3. برای «طرحواره سند» ، نام طرحی را که قبلاً ایجاد کرده‌اید، مانند «اسناد» و «فرم‌ها» انتخاب کنید. برای « شناسه پردازنده Doc AI» ، پردازنده سند OCR را که در مرحله قبل پیکربندی کرده‌اید، انتخاب کنید.
  4. برای نام نمایشی ، می‌توانید از نام پیش‌فرض (یعنی نام فایل) استفاده کنید، یا از نام سند دلخواه خود استفاده کنید.
  5. برای آپلود و پردازش سند خود، روی دکمه‌ی «ایجاد» کلیک کنید.

به کنسول Document AI Warehouse برگردید و این مراحل را با سند نمونه loan-form.pdf تکرار کنید. پردازشگر سند form را که قبلاً پیکربندی کرده‌اید، انتخاب کنید.

به کنسول Document AI Warehouse برگردید و این مراحل را با سند نمونه invoice-sample.pdf تکرار کنید. پردازشگر سند invoice را که قبلاً پیکربندی کرده‌اید، انتخاب کنید.

پس از اتمام موفقیت‌آمیز این مراحل، اگر به کنسول Document AI Warehouse برگردید، باید لیستی از اسناد پردازش شده را مشاهده کنید که مشابه موارد زیر است:

اسناد پردازش‌شده در انبار هوش مصنوعی اسناد

۹. جستجو و کاوش اسناد

اکنون که سندی را در Document AI Warehouse بارگذاری و پردازش کرده‌اید، می‌توانید جستجوی متن کامل را روی اسناد انجام دهید.

از کنسول Document AI Warehouse، یک عبارت جستجو که در اسناد نمونه مانند agreement وجود دارد را وارد کنید، سپس کلید Enter را فشار دهید. می‌توانید عبارات جستجوی دیگری مانند mortgage و monitor امتحان کنید تا نتایج مربوط به اسناد نمونه مختلفی که آپلود کرده‌اید را ببینید.

در نتایج، تمام اسنادی که حاوی آن عبارت جستجو هستند را به همراه خلاصه‌ای از متن سند که عبارت جستجو در آن هایلایت شده است، مشاهده خواهید کرد:

نتایج جستجو در انبار داده هوش مصنوعی اسناد

برای مشاهده سند، روی نام آن کلیک کنید.

برای مشاهده سند به همراه فیلدهای شناسایی شده و داده‌های مرتبط با آنها، روی گزینه AI View کلیک کنید:

نمای تفصیلی در انبار داده هوش مصنوعی اسناد

۱۰. تبریک

شما با موفقیت اسناد را با Document AI Warehouse و با استفاده از پردازنده‌های موجود در Document AI آپلود، پردازش و جستجوی متن کامل را روی آنها انجام داده‌اید. ما شما را تشویق می‌کنیم که با اسناد دیگر آزمایش کنید و سایر پردازنده‌های موجود در پلتفرم را بررسی کنید.

تمیز کردن

برای جلوگیری از تحمیل هزینه به حساب Google Cloud خود برای منابع استفاده شده در این آموزش، می‌توانید پاکسازی زیر را انجام دهید:

  • به صفحه کنسول انبار اسناد بروید و تمام اسناد نمونه‌ای که آپلود کرده‌اید را حذف کنید.
  • در کنسول گوگل کلود، به صفحه پردازنده‌های هوش مصنوعی سند بروید و پردازنده‌های نمونه‌ای که ایجاد کرده‌اید را حذف کنید.
  • در کنسول گوگل کلود، به صفحه APIها و سرویس‌ها بروید و API مربوط به انبار اسناد هوش مصنوعی (Document AI Warehouse API) را غیرفعال کنید.

اطلاعات بیشتر

یادگیری در مورد هوش مصنوعی اسناد را با این آزمایشگاه‌های کد دیگر ادامه دهید.

منابع

مجوز

این اثر تحت مجوز عمومی Creative Commons Attribution 2.0 منتشر شده است.