1. Обзор
Что такое хранилище документов на основе искусственного интеллекта?
Document AI Warehouse — это платформа для хранения, поиска, организации и анализа документов и их структурированных метаданных. Документы могут включать структурированные данные, такие как формы и счета-фактуры, а также неструктурированные данные, такие как договоры и научные работы. Метаданные для документов могут быть автоматически извлечены с помощью обработчиков в Document AI или введены вручную с помощью полей и тегов.
В этом практическом занятии вы научитесь загружать, обрабатывать и искать документы с помощью пользовательского интерфейса Document AI Warehouse. Для этого занятия предоставляются примеры PDF-документов, включая лицензионное соглашение, форму займа и счет-фактуру заказа.
Предварительные требования
Данный практический семинар основан на материалах других практических семинаров по Document AI. Перед началом работы рекомендуется ознакомиться со следующей документацией и практическими семинарами:
- Быстрый старт: Настройка API Document AI
- Обрабатывайте документы с помощью консоли Google Cloud.
- Управление обработчиками документов с помощью ИИ на Python
Что вы узнаете
- Как включить API хранилища документов с использованием искусственного интеллекта
- Как настроить обработчики документов в Document AI Warehouse
- Как загружать и анализировать текст в различных типах PDF-документов
- Как искать документы и их метаданные в Document AI Warehouse
Что вам понадобится
2. Скачать образцы документов
Для этого практического занятия предоставлены примеры PDF-документов, включая лицензионное соглашение, форму займа и счет-фактуру заказа. Вы можете скачать следующие примеры документов для использования в этом практическом занятии.
В качестве альтернативы вы можете загрузить образцы документов из нашего общедоступного хранилища Google Cloud Storage, используя утилиту gsutil .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .
На следующем этапе вы загрузите эти образцы документов, обработаете их с помощью различных программ для обработки документов и сохраните полученные документы и метаданные в хранилище Document AI Warehouse.
3. Включите API хранилища документов с использованием искусственного интеллекта.
Прежде чем начать использовать Document AI Warehouse, необходимо включить API.
Использование облачной консоли
- Откройте консоль Google Cloud в своем браузере.
- В консоли Google Cloud перейдите в библиотеку API , чтобы просмотреть API и сервисы, которые можно включить.
- Воспользуйтесь строкой поиска в верхней части страницы библиотеки API, найдите
Document AI Warehouse, а затем щелкните по найденному сервису. - Нажмите кнопку «Включить» , чтобы активировать API хранилища документов ИИ в вашем проекте Google Cloud.

Альтернативный вариант: использование интерфейса командной строки gcloud.
В качестве альтернативы, API можно включить с помощью следующей команды gcloud :
gcloud services enable contentwarehouse.googleapis.com
Если API был успешно активирован, вы должны увидеть сообщение, похожее на следующее:
Operation "operations/..." finished successfully.
Теперь вы готовы использовать Document AI Warehouse!
4. Просмотрите консоль хранилища документов с использованием искусственного интеллекта.
В браузере перейдите в консоль Document AI Warehouse, расположенную по адресу https://documentwarehouse.cloud.google.com (она находится вне консоли Google Cloud). Вы будете использовать консоль Document AI Warehouse вместе со своим проектом Google Cloud для выполнения оставшихся шагов в этом практическом задании по загрузке, обработке и поиску документов.

Если вы впервые используете Document AI Warehouse, обратитесь к документации Document AI Warehouse для получения дополнительной информации о настройке проекта и параметров в соответствии с вашими потребностями.
5. Создайте схему документа.
Схемы документов определяют тип документа и поля для документов, которые вы храните в Document AI Warehouse. Вам потребуется создать схему перед загрузкой любых новых документов.
- В консоли Document AI Warehouse нажмите кнопку «Администратор» в правом верхнем углу страницы.
- В левой панели навигации щелкните пункт «Схема» , затем нажмите кнопку «+ Добавить новую» .
- Введите название для вашей схемы, например,
Documents and Forms, и убедитесь, что в качестве типа схемы выбран «Документ» . Затем нажмите кнопку «Далее» , чтобы продолжить. - Вы можете оставить определение схемы JSON по умолчанию без изменений, оно должно выглядеть следующим образом:
{ "display_name": "Documents and Forms", "property_definitions": [], "document_is_folder": false, "description": "" } - Затем нажмите кнопку «Готово» , чтобы завершить создание схемы документа.
После успешного выполнения этих шагов вы должны увидеть сообщение о том, что схема вашего документа создана. Вы можете нажать кнопку «Просмотреть схему документа» , а затем вкладку «JSON» , чтобы подтвердить схему, которая должна выглядеть примерно так:

6. Создание обработчиков документов
На этом этапе вы создадите обработчики документов, которые сможете использовать для выполнения полнотекстового поиска по различным типам документов в Document AI Warehouse.
- В консоли Google Cloud перейдите на страницу обзора платформы Document AI .
- Нажмите «Просмотреть процессоры» , затем выберите «OCR документа» в качестве типа создаваемого процессора.
- Укажите имя для вашего обработчика документов, например,
ocr, и предпочтительный регион, затем нажмите «Создать» , чтобы создать обработчик. - На странице «Подробная информация об обработчике» скопируйте идентификатор обработчика (Processor ID ), который мы будем использовать позже для настройки обработчика в Document AI Warehouse.
Повторите эти шаги, выбрав тип обработчика документов «Обработчик форм» и указав имя обработчика как form ».
Повторите эти шаги, выбрав в качестве типа обработчика документов «Анализатор счетов» и указав в качестве имени обработчика invoice .
После успешного выполнения этих шагов вы должны увидеть список обработчиков документов, который будет выглядеть примерно так:

7. Настройка обработчиков документов
На этом шаге вы настроите обработчики документов в Document AI Warehouse, используя в качестве ориентира обработчики, созданные на предыдущем шаге.
- В консоли Document AI Warehouse нажмите кнопку «Администрирование» на верхней панели инструментов.
- В левой панели навигации щелкните пункт « Обработчики ИИ для документов» , затем нажмите кнопку «+ Добавить новый» .
- Нажмите кнопку «+ Добавить новый процессор» , затем укажите имя и идентификатор процессора, полученный на предыдущем шаге.
- Нажмите кнопку «Сохранить» , чтобы сохранить изменения.
Повторите эти шаги, чтобы добавить два других процессора в конфигурацию Document AI Warehouse с помощью кнопки «+ Добавить новый процессор» , включая парсер форм и парсер счетов-фактур. Убедитесь, что вы добавляете два дополнительных процессора под одним и тем же идентификатором схемы документа с помощью кнопки «+ Добавить новый процессор» , а не добавляете дополнительную схему с помощью кнопки «+ Добавить новый» .
После успешного выполнения этих шагов вы должны увидеть список настроенных обработчиков документов, который будет выглядеть примерно так:

8. Загрузка и обработка образцов документов.
Теперь, когда вы определили схему и настроили обработчики для ваших документов, вы можете загружать документы в Document AI Warehouse.
- Вернитесь в консоль Document AI Warehouse и нажмите кнопку «+Добавить новый» на левой панели навигации, затем выберите опцию «Загрузить новый документ» .
- Перетащите документ license-agreement.pdf со своего компьютера в виджет загрузки или выберите один из загруженных вами образцов документов. Затем нажмите кнопку «Далее» , чтобы продолжить.
- Для параметра «Схема документа » выберите имя схемы, которую вы создали ранее, например, «Документы и формы» . Для параметра «Идентификатор обработчика Doc AI» выберите обработчик документов OCR, который вы настроили на предыдущем шаге.
- В поле «Отображаемое имя» можно использовать имя по умолчанию (например, имя файла) или собственное имя документа.
- Нажмите кнопку «Создать» , чтобы загрузить и обработать документ.
Вернитесь в консоль Document AI Warehouse и повторите эти шаги с образцом документа loan-form.pdf . Выберите обработчик form документов, который вы настроили ранее.
Вернитесь в консоль Document AI Warehouse и повторите эти шаги с образцом документа invoice-sample.pdf . Выберите обработчик invoice , который вы настроили ранее.
После успешного выполнения этих шагов, если вы вернетесь в консоль Document AI Warehouse, вы увидите список обработанных документов, похожий на следующий:

9. Поиск и изучение документов
Теперь, когда вы загрузили и обработали документ в Document AI Warehouse, вы можете выполнить полнотекстовый поиск по документу.
В консоли Document AI Warehouse введите поисковый запрос, встречающийся в примерах документов, например, agreement , а затем нажмите клавишу Enter . Вы можете попробовать другие поисковые запросы, такие как mortgage и monitor , чтобы увидеть результаты для различных загруженных вами примеров документов.
В результатах поиска вы увидите все документы, содержащие этот поисковый запрос, а также краткое описание текста документа с выделенным поисковым запросом:

Чтобы просмотреть документ, нажмите на его название.
Нажмите на переключатель « Просмотр с использованием ИИ» , чтобы увидеть документ вместе с обнаруженными полями и связанными с ними данными:

10. Поздравляем!
Вы успешно загрузили, обработали и выполнили полнотекстовый поиск документов с помощью Document AI Warehouse и процессоров в Document AI. Мы рекомендуем вам поэкспериментировать с другими документами и изучить другие доступные на платформе процессоры .
Уборка
Чтобы избежать списания средств с вашего аккаунта Google Cloud за ресурсы, использованные в этом руководстве, вы можете выполнить следующую очистку:
- Перейдите на страницу консоли хранилища документов и удалите все загруженные вами образцы документов.
- В консоли Google Cloud перейдите на страницу «Обработчики Document AI» и удалите созданные вами примеры обработчиков.
- В консоли Google Cloud перейдите на страницу API и сервисов и отключите API хранилища документов Document AI Warehouse .
Узнать больше
Продолжите изучение Document AI с помощью этих других практических заданий.
- Оптическое распознавание символов с помощью искусственного интеллекта для документов
- Анализ форм с помощью Document AI (Python)
- Специализированные процессоры с поддержкой искусственного интеллекта для обработки документов (Python)
- Управление обработчиками документов с помощью ИИ на Python
Ресурсы
- Документация по хранилищу данных ИИ
- Будущее документов — плейлист на YouTube
- Репозиторий примеров ИИ для документов
Лицензия
Данная работа распространяется под лицензией Creative Commons Attribution 2.0 Generic.