Использование Document AI Warehouse для приема, обработки и поиска документов

1. Обзор

Что такое хранилище документов на основе искусственного интеллекта?

Document AI Warehouse — это платформа для хранения, поиска, организации и анализа документов и их структурированных метаданных. Документы могут включать структурированные данные, такие как формы и счета-фактуры, а также неструктурированные данные, такие как договоры и научные работы. Метаданные для документов могут быть автоматически извлечены с помощью обработчиков в Document AI или введены вручную с помощью полей и тегов.

В этом практическом занятии вы научитесь загружать, обрабатывать и искать документы с помощью пользовательского интерфейса Document AI Warehouse. Для этого занятия предоставляются примеры PDF-документов, включая лицензионное соглашение, форму займа и счет-фактуру заказа.

Предварительные требования

Данный практический семинар основан на материалах других практических семинаров по Document AI. Перед началом работы рекомендуется ознакомиться со следующей документацией и практическими семинарами:

Что вы узнаете

  • Как включить API хранилища документов с использованием искусственного интеллекта
  • Как настроить обработчики документов в Document AI Warehouse
  • Как загружать и анализировать текст в различных типах PDF-документов
  • Как искать документы и их метаданные в Document AI Warehouse

Что вам понадобится

  • Проект Google Cloud
  • Браузер, например Chrome или Firefox.

2. Скачать образцы документов

Для этого практического занятия предоставлены примеры PDF-документов, включая лицензионное соглашение, форму займа и счет-фактуру заказа. Вы можете скачать следующие примеры документов для использования в этом практическом занятии.

В качестве альтернативы вы можете загрузить образцы документов из нашего общедоступного хранилища Google Cloud Storage, используя утилиту gsutil .

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

На следующем этапе вы загрузите эти образцы документов, обработаете их с помощью различных программ для обработки документов и сохраните полученные документы и метаданные в хранилище Document AI Warehouse.

3. Включите API хранилища документов с использованием искусственного интеллекта.

Прежде чем начать использовать Document AI Warehouse, необходимо включить API.

Использование облачной консоли

  1. Откройте консоль Google Cloud в своем браузере.
  2. В консоли Google Cloud перейдите в библиотеку API , чтобы просмотреть API и сервисы, которые можно включить.
  3. Воспользуйтесь строкой поиска в верхней части страницы библиотеки API, найдите Document AI Warehouse , а затем щелкните по найденному сервису.
  4. Нажмите кнопку «Включить» , чтобы активировать API хранилища документов ИИ в вашем проекте Google Cloud. API хранилища документов AI

Альтернативный вариант: использование интерфейса командной строки gcloud.

В качестве альтернативы, API можно включить с помощью следующей команды gcloud :

gcloud services enable contentwarehouse.googleapis.com

Если API был успешно активирован, вы должны увидеть сообщение, похожее на следующее:

Operation "operations/..." finished successfully.

Теперь вы готовы использовать Document AI Warehouse!

4. Просмотрите консоль хранилища документов с использованием искусственного интеллекта.

В браузере перейдите в консоль Document AI Warehouse, расположенную по адресу https://documentwarehouse.cloud.google.com (она находится вне консоли Google Cloud). Вы будете использовать консоль Document AI Warehouse вместе со своим проектом Google Cloud для выполнения оставшихся шагов в этом практическом задании по загрузке, обработке и поиску документов.

Панель мониторинга хранилища документов с использованием искусственного интеллекта

Если вы впервые используете Document AI Warehouse, обратитесь к документации Document AI Warehouse для получения дополнительной информации о настройке проекта и параметров в соответствии с вашими потребностями.

5. Создайте схему документа.

Схемы документов определяют тип документа и поля для документов, которые вы храните в Document AI Warehouse. Вам потребуется создать схему перед загрузкой любых новых документов.

  1. В консоли Document AI Warehouse нажмите кнопку «Администратор» в правом верхнем углу страницы.
  2. В левой панели навигации щелкните пункт «Схема» , затем нажмите кнопку «+ Добавить новую» .
  3. Введите название для вашей схемы, например, Documents and Forms , и убедитесь, что в качестве типа схемы выбран «Документ» . Затем нажмите кнопку «Далее» , чтобы продолжить.
  4. Вы можете оставить определение схемы JSON по умолчанию без изменений, оно должно выглядеть следующим образом:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. Затем нажмите кнопку «Готово» , чтобы завершить создание схемы документа.

После успешного выполнения этих шагов вы должны увидеть сообщение о том, что схема вашего документа создана. Вы можете нажать кнопку «Просмотреть схему документа» , а затем вкладку «JSON» , чтобы подтвердить схему, которая должна выглядеть примерно так:

Схема документа

6. Создание обработчиков документов

На этом этапе вы создадите обработчики документов, которые сможете использовать для выполнения полнотекстового поиска по различным типам документов в Document AI Warehouse.

  1. В консоли Google Cloud перейдите на страницу обзора платформы Document AI .
  2. Нажмите «Просмотреть процессоры» , затем выберите «OCR документа» в качестве типа создаваемого процессора.
  3. Укажите имя для вашего обработчика документов, например, ocr , и предпочтительный регион, затем нажмите «Создать» , чтобы создать обработчик.
  4. На странице «Подробная информация об обработчике» скопируйте идентификатор обработчика (Processor ID ), который мы будем использовать позже для настройки обработчика в Document AI Warehouse.

Повторите эти шаги, выбрав тип обработчика документов «Обработчик форм» и указав имя обработчика как form ».

Повторите эти шаги, выбрав в качестве типа обработчика документов «Анализатор счетов» и указав в качестве имени обработчика invoice .

После успешного выполнения этих шагов вы должны увидеть список обработчиков документов, который будет выглядеть примерно так:

Обработчики документов

7. Настройка обработчиков документов

На этом шаге вы настроите обработчики документов в Document AI Warehouse, используя в качестве ориентира обработчики, созданные на предыдущем шаге.

  1. В консоли Document AI Warehouse нажмите кнопку «Администрирование» на верхней панели инструментов.
  2. В левой панели навигации щелкните пункт « Обработчики ИИ для документов» , затем нажмите кнопку «+ Добавить новый» .
  3. Нажмите кнопку «+ Добавить новый процессор» , затем укажите имя и идентификатор процессора, полученный на предыдущем шаге.
  4. Нажмите кнопку «Сохранить» , чтобы сохранить изменения.

Повторите эти шаги, чтобы добавить два других процессора в конфигурацию Document AI Warehouse с помощью кнопки «+ Добавить новый процессор» , включая парсер форм и парсер счетов-фактур. Убедитесь, что вы добавляете два дополнительных процессора под одним и тем же идентификатором схемы документа с помощью кнопки «+ Добавить новый процессор» , а не добавляете дополнительную схему с помощью кнопки «+ Добавить новый» .

После успешного выполнения этих шагов вы должны увидеть список настроенных обработчиков документов, который будет выглядеть примерно так:

Обработчики документов в хранилище документов на основе искусственного интеллекта

8. Загрузка и обработка образцов документов.

Теперь, когда вы определили схему и настроили обработчики для ваших документов, вы можете загружать документы в Document AI Warehouse.

  1. Вернитесь в консоль Document AI Warehouse и нажмите кнопку «+Добавить новый» на левой панели навигации, затем выберите опцию «Загрузить новый документ» .
  2. Перетащите документ license-agreement.pdf со своего компьютера в виджет загрузки или выберите один из загруженных вами образцов документов. Затем нажмите кнопку «Далее» , чтобы продолжить.
  3. Для параметра «Схема документа » выберите имя схемы, которую вы создали ранее, например, «Документы и формы» . Для параметра «Идентификатор обработчика Doc AI» выберите обработчик документов OCR, который вы настроили на предыдущем шаге.
  4. В поле «Отображаемое имя» можно использовать имя по умолчанию (например, имя файла) или собственное имя документа.
  5. Нажмите кнопку «Создать» , чтобы загрузить и обработать документ.

Вернитесь в консоль Document AI Warehouse и повторите эти шаги с образцом документа loan-form.pdf . Выберите обработчик form документов, который вы настроили ранее.

Вернитесь в консоль Document AI Warehouse и повторите эти шаги с образцом документа invoice-sample.pdf . Выберите обработчик invoice , который вы настроили ранее.

После успешного выполнения этих шагов, если вы вернетесь в консоль Document AI Warehouse, вы увидите список обработанных документов, похожий на следующий:

Обработанные документы в хранилище документов, созданном с помощью искусственного интеллекта.

9. Поиск и изучение документов

Теперь, когда вы загрузили и обработали документ в Document AI Warehouse, вы можете выполнить полнотекстовый поиск по документу.

В консоли Document AI Warehouse введите поисковый запрос, встречающийся в примерах документов, например, agreement , а затем нажмите клавишу Enter . Вы можете попробовать другие поисковые запросы, такие как mortgage и monitor , чтобы увидеть результаты для различных загруженных вами примеров документов.

В результатах поиска вы увидите все документы, содержащие этот поисковый запрос, а также краткое описание текста документа с выделенным поисковым запросом:

Результаты поиска в хранилище документов с использованием искусственного интеллекта

Чтобы просмотреть документ, нажмите на его название.

Нажмите на переключатель « Просмотр с использованием ИИ» , чтобы увидеть документ вместе с обнаруженными полями и связанными с ними данными:

Подробный просмотр в хранилище документов AI.

10. Поздравляем!

Вы успешно загрузили, обработали и выполнили полнотекстовый поиск документов с помощью Document AI Warehouse и процессоров в Document AI. Мы рекомендуем вам поэкспериментировать с другими документами и изучить другие доступные на платформе процессоры .

Уборка

Чтобы избежать списания средств с вашего аккаунта Google Cloud за ресурсы, использованные в этом руководстве, вы можете выполнить следующую очистку:

Узнать больше

Продолжите изучение Document AI с помощью этих других практических заданий.

Ресурсы

Лицензия

Данная работа распространяется под лицензией Creative Commons Attribution 2.0 Generic.