Использование Document AI Warehouse для приема, обработки и поиска документов

1. Обзор

Что такое хранилище документов AI?

Document AI Warehouse — это платформа для хранения, поиска, организации и анализа документов и их структурированных метаданных. Документы могут включать структурированные данные, такие как формы и счета-фактуры, а также неструктурированные данные, такие как контракты и исследовательские работы. Метаданные документов можно автоматически извлечь с помощью процессоров Document AI или ввести вручную с помощью полей и тегов.

В этой лаборатории вы узнаете, как принимать, обрабатывать и искать документы с помощью пользовательского интерфейса Document AI Warehouse. Для этой кодовой лаборатории предоставляются образцы PDF-документов, включая лицензионное соглашение, форму кредита и счет-фактуру заказа.

Предварительные условия

Эта лаборатория основана на контенте, представленном в других лабораториях Document AI. Прежде чем продолжить, рекомендуется прочитать следующую документацию и кодовые лаборатории:

Что вы узнаете

  • Как включить API хранилища документов AI
  • Как настроить обработчики документов в Document AI Warehouse
  • Как загружать и анализировать текст в различных типах PDF-документов
  • Как искать документы и их метаданные в Document AI Warehouse

Что вам понадобится

  • Облачный проект Google
  • Браузер, например Chrome или Firefox.

2. Скачать образцы документов

Для этой кодовой лаборатории предоставляются образцы PDF-документов, включая лицензионное соглашение, форму кредита и счет-фактуру заказа. Вы можете скачать следующие образцы документов для использования в этой лаборатории кода.

Кроме того, вы можете загрузить образцы документов из нашей общедоступной корзины облачного хранилища Google с помощью gsutil .

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

На более позднем этапе вы загрузите эти образцы документов, проанализируете их с помощью различных процессоров документов и сохраните полученные документы и метаданные в Document AI Warehouse.

3. Включите API хранилища документов AI.

Прежде чем вы сможете начать использовать Document AI Warehouse, вам необходимо включить API.

Использование облачной консоли

  1. Откройте консоль Google Cloud в своем браузере.
  2. В консоли Google Cloud перейдите к библиотеке API , чтобы просмотреть API и службы, которые можно включить.
  3. Используя панель поиска в верхней части страницы библиотеки API, найдите Document AI Warehouse , затем щелкните полученную службу.
  4. Нажмите кнопку «Включить» , чтобы включить API Document AI Warehouse в вашем проекте Google Cloud. API хранилища документов AI

Альтернатива: использование интерфейса командной строки gcloud.

Альтернативно API можно включить с помощью следующей команды gcloud :

gcloud services enable contentwarehouse.googleapis.com

Если API был успешно включен, вы должны увидеть сообщение, подобное следующему:

Operation "operations/..." finished successfully.

Теперь вы готовы использовать Document AI Warehouse!

4. Откройте консоль Document AI Warehouse.

В браузере перейдите к консоли Document AI Warehouse, расположенной по адресу https://documentwarehouse.cloud.google.com (которая является внешней по отношению к консоли Google Cloud). Вы будете использовать консоль Document AI Warehouse вместе со своим проектом Google Cloud, чтобы выполнить оставшиеся шаги этой лаборатории кода по загрузке, обработке и поиску документов.

Панель управления хранилищем документов AI

Если вы впервые используете Document AI Warehouse, обратитесь к документации Document AI Warehouse для получения дополнительной информации о настройке вашего проекта и настроек в зависимости от ваших потребностей.

5. Создайте схему документа.

Схемы документов определяют тип документа и поля для документов, которые вы храните в Document AI Warehouse. Прежде чем загружать новые документы, вам потребуется создать схему.

  1. В консоли Document AI Warehouse нажмите кнопку «Администратор» в правом верхнем углу страницы.
  2. Щелкните элемент «Схема» на левой панели навигации, затем нажмите кнопку «+ Добавить новый» .
  3. Введите имя для своей схемы, например « Documents and Forms , и убедитесь, что в качестве типа схемы выбран «Документ» . Затем нажмите кнопку «Далее» , чтобы продолжить.
  4. Вы можете оставить определение схемы JSON по умолчанию как есть, оно должно выглядеть следующим образом:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. Затем нажмите кнопку «Готово» , чтобы завершить создание схемы документа.

После успешного завершения этих шагов вы должны увидеть сообщение о том, что схема вашего документа создана. Вы можете нажать кнопку «Просмотреть схему документа» , а затем перейти на вкладку JSON , чтобы подтвердить схему, которая должна выглядеть примерно так:

Схема документа

6. Создайте обработчики документов

На этом этапе вы создадите обработчики документов, которые можно будет использовать для полнотекстового поиска по различным типам документов в Document AI Warehouse.

  1. В консоли Google Cloud перейдите на страницу обзора Document AI Platform .
  2. Нажмите «Изучить процессоры» и выберите «Document OCR» в качестве типа создаваемого процессора.
  3. Укажите имя вашего процессора документов, например ocr , и предпочитаемый регион, затем нажмите «Создать» , чтобы создать свой процессор.
  4. На странице «Сведения о процессоре» скопируйте идентификатор процессора , который мы будем использовать позже для настройки процессора в Document AI Warehouse.

Повторите эти шаги и выберите Form Parser в качестве типа обработчика документов для создания и укажите form в качестве имени обработчика.

Повторите эти шаги и выберите Invoice Parser в качестве типа обработчика документов для создания и укажите invoice в качестве имени обработчика.

После успешного выполнения этих шагов вы должны увидеть список обработчиков документов, похожий на следующий:

Процессоры документов

7. Настройте обработчики документов

На этом этапе вы настроите обработчики документов в Document AI Warehouse, используя обработчики, созданные на предыдущем шаге.

  1. В консоли Document AI Warehouse нажмите кнопку «Администратор» на верхней панели инструментов.
  2. Щелкните элемент «Процессоры Doc AI» на левой панели навигации, затем нажмите кнопку «+ Добавить новый» .
  3. Нажмите кнопку + Добавить новый процессор , затем укажите имя и идентификатор процессора из предыдущего шага.
  4. Нажмите кнопку Сохранить , чтобы сохранить изменения.

Повторите эти шаги, чтобы добавить два других процессора в конфигурацию Document AI Warehouse с помощью кнопки + Добавить новый процессор , включая анализатор форм и анализатор счетов. Убедитесь, что вы добавляете два дополнительных процессора под одним и тем же идентификатором схемы документа с помощью кнопки + Добавить новый процессор , а не добавляете дополнительную схему с помощью кнопки + Добавить новый .

После успешного выполнения этих шагов вы должны увидеть список настроенных обработчиков документов, который выглядит примерно так:

Обработчики документов в хранилище документов AI

8. Загрузите и обработайте образцы документов.

Теперь, когда вы определили схему и настроили процессоры для своих документов, вы можете загрузить документы в Document AI Warehouse.

  1. Вернитесь в консоль Document AI Warehouse и нажмите кнопку +Добавить новый на левой панели навигации, затем выберите опцию « Загрузить новый документ» .
  2. Перетащите документ License-agreement.pdf со своего компьютера в виджет загрузки или найдите и выберите один из загруженных вами образцов документов. Затем нажмите кнопку «Далее» , чтобы продолжить.
  3. В разделе «Схема документа» выберите имя схемы, которую вы создали ранее, например « Документы и формы» . В качестве идентификатора процессора Doc AI выберите процессор документов OCR, который вы настроили на предыдущем шаге.
  4. В качестве отображаемого имени вы можете использовать имя по умолчанию (т. е. имя файла) или использовать собственное имя документа.
  5. Нажмите кнопку «Создать» , чтобы загрузить и обработать документ.

Вернитесь в консоль Document AI Warehouse и повторите эти шаги с образцом документа кредит-форма.pdf . Выберите обработчик документов form , который вы настроили ранее.

Вернитесь в консоль Document AI Warehouse и повторите эти шаги с образцом документаvoice-sample.pdf . Выберите обработчик документов invoice , который вы настроили ранее.

Если после успешного выполнения этих шагов вы вернетесь в консоль Document AI Warehouse, то вы должны увидеть список обработанных документов, похожий на следующий:

Обработанные документы в хранилище документов AI

9. Ищите и изучайте документы

Теперь, когда вы загрузили и обработали документ в Document AI Warehouse, вы можете выполнить полнотекстовый поиск по документам.

В консоли Document AI Warehouse введите поисковый запрос, который появляется в примерах документов, например agreement , затем нажмите клавишу Enter . Вы можете попробовать другие поисковые запросы, такие как mortgage и monitor , чтобы увидеть результаты для различных образцов документов, которые вы загрузили.

В результатах вы увидите все документы, содержащие этот поисковый запрос, а также сводку текста документа с выделенным поисковым запросом:

Результаты поиска в Document AI Warehouse

Нажмите на название документа, чтобы просмотреть его.

Нажмите на переключатель AI View , чтобы просмотреть документ вместе с обнаруженными полями и связанными с ними данными:

Детальный просмотр в хранилище документов AI

10. Поздравления

Вы успешно загрузили, обработали и выполнили полнотекстовый поиск документов с помощью Document AI Warehouse и с помощью процессоров в Document AI. Мы рекомендуем вам поэкспериментировать с другими документами и изучить другие процессоры , доступные на платформе.

Очистить

Вы можете выполнить следующую очистку, чтобы избежать списания средств с вашей учетной записи Google Cloud за ресурсы, используемые в этом руководстве:

Узнать больше

Продолжайте изучать Document AI с помощью других лабораторий кода.

Ресурсы

Лицензия

Эта работа распространяется под лицензией Creative Commons Attribution 2.0 Generic License.