1. Обзор
Что такое хранилище документов AI?
Document AI Warehouse — это платформа для хранения, поиска, организации и анализа документов и их структурированных метаданных. Документы могут включать структурированные данные, такие как формы и счета-фактуры, а также неструктурированные данные, такие как контракты и исследовательские работы. Метаданные документов можно автоматически извлечь с помощью процессоров Document AI или ввести вручную с помощью полей и тегов.
В этой лаборатории вы узнаете, как принимать, обрабатывать и искать документы с помощью пользовательского интерфейса Document AI Warehouse. Для этой кодовой лаборатории предоставляются образцы PDF-документов, включая лицензионное соглашение, форму кредита и счет-фактуру заказа.
Предварительные условия
Эта лаборатория основана на контенте, представленном в других лабораториях Document AI. Прежде чем продолжить, рекомендуется прочитать следующую документацию и кодовые лаборатории:
- Краткое руководство: настройка API Document AI
- Обработка документов с помощью консоли Google Cloud
- Управление процессорами искусственного интеллекта для документов с помощью Python
Что вы узнаете
- Как включить API хранилища документов AI
- Как настроить обработчики документов в Document AI Warehouse
- Как загружать и анализировать текст в различных типах PDF-документов
- Как искать документы и их метаданные в Document AI Warehouse
Что вам понадобится
2. Скачать образцы документов
Для этой кодовой лаборатории предоставляются образцы PDF-документов, включая лицензионное соглашение, форму кредита и счет-фактуру заказа. Вы можете скачать следующие образцы документов для использования в этой лаборатории кода.
Кроме того, вы можете загрузить образцы документов из нашей общедоступной корзины облачного хранилища Google с помощью gsutil
.
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .
На более позднем этапе вы загрузите эти образцы документов, проанализируете их с помощью различных процессоров документов и сохраните полученные документы и метаданные в Document AI Warehouse.
3. Включите API хранилища документов AI.
Прежде чем вы сможете начать использовать Document AI Warehouse, вам необходимо включить API.
Использование облачной консоли
- Откройте консоль Google Cloud в своем браузере.
- В консоли Google Cloud перейдите к библиотеке API , чтобы просмотреть API и службы, которые можно включить.
- Используя панель поиска в верхней части страницы библиотеки API, найдите
Document AI Warehouse
, затем щелкните полученную службу. - Нажмите кнопку «Включить» , чтобы включить API Document AI Warehouse в вашем проекте Google Cloud.
Альтернатива: использование интерфейса командной строки gcloud.
Альтернативно API можно включить с помощью следующей команды gcloud
:
gcloud services enable contentwarehouse.googleapis.com
Если API был успешно включен, вы должны увидеть сообщение, подобное следующему:
Operation "operations/..." finished successfully.
Теперь вы готовы использовать Document AI Warehouse!
4. Откройте консоль Document AI Warehouse.
В браузере перейдите к консоли Document AI Warehouse, расположенной по адресу https://documentwarehouse.cloud.google.com (которая является внешней по отношению к консоли Google Cloud). Вы будете использовать консоль Document AI Warehouse вместе со своим проектом Google Cloud, чтобы выполнить оставшиеся шаги этой лаборатории кода по загрузке, обработке и поиску документов.
Если вы впервые используете Document AI Warehouse, обратитесь к документации Document AI Warehouse для получения дополнительной информации о настройке вашего проекта и настроек в зависимости от ваших потребностей.
5. Создайте схему документа.
Схемы документов определяют тип документа и поля для документов, которые вы храните в Document AI Warehouse. Прежде чем загружать новые документы, вам потребуется создать схему.
- В консоли Document AI Warehouse нажмите кнопку «Администратор» в правом верхнем углу страницы.
- Щелкните элемент «Схема» на левой панели навигации, затем нажмите кнопку «+ Добавить новый» .
- Введите имя для своей схемы, например «
Documents and Forms
, и убедитесь, что в качестве типа схемы выбран «Документ» . Затем нажмите кнопку «Далее» , чтобы продолжить. - Вы можете оставить определение схемы JSON по умолчанию как есть, оно должно выглядеть следующим образом:
{ "display_name": "Documents and Forms", "property_definitions": [], "document_is_folder": false, "description": "" }
- Затем нажмите кнопку «Готово» , чтобы завершить создание схемы документа.
После успешного завершения этих шагов вы должны увидеть сообщение о том, что схема вашего документа создана. Вы можете нажать кнопку «Просмотреть схему документа» , а затем перейти на вкладку JSON , чтобы подтвердить схему, которая должна выглядеть примерно так:
6. Создайте обработчики документов
На этом этапе вы создадите обработчики документов, которые можно будет использовать для полнотекстового поиска по различным типам документов в Document AI Warehouse.
- В консоли Google Cloud перейдите на страницу обзора Document AI Platform .
- Нажмите «Изучить процессоры» и выберите «Document OCR» в качестве типа создаваемого процессора.
- Укажите имя вашего процессора документов, например
ocr
, и предпочитаемый регион, затем нажмите «Создать» , чтобы создать свой процессор. - На странице «Сведения о процессоре» скопируйте идентификатор процессора , который мы будем использовать позже для настройки процессора в Document AI Warehouse.
Повторите эти шаги и выберите Form Parser в качестве типа обработчика документов для создания и укажите form
в качестве имени обработчика.
Повторите эти шаги и выберите Invoice Parser в качестве типа обработчика документов для создания и укажите invoice
в качестве имени обработчика.
После успешного выполнения этих шагов вы должны увидеть список обработчиков документов, похожий на следующий:
7. Настройте обработчики документов
На этом этапе вы настроите обработчики документов в Document AI Warehouse, используя обработчики, созданные на предыдущем шаге.
- В консоли Document AI Warehouse нажмите кнопку «Администратор» на верхней панели инструментов.
- Щелкните элемент «Процессоры Doc AI» на левой панели навигации, затем нажмите кнопку «+ Добавить новый» .
- Нажмите кнопку + Добавить новый процессор , затем укажите имя и идентификатор процессора из предыдущего шага.
- Нажмите кнопку Сохранить , чтобы сохранить изменения.
Повторите эти шаги, чтобы добавить два других процессора в конфигурацию Document AI Warehouse с помощью кнопки + Добавить новый процессор , включая анализатор форм и анализатор счетов. Убедитесь, что вы добавляете два дополнительных процессора под одним и тем же идентификатором схемы документа с помощью кнопки + Добавить новый процессор , а не добавляете дополнительную схему с помощью кнопки + Добавить новый .
После успешного выполнения этих шагов вы должны увидеть список настроенных обработчиков документов, который выглядит примерно так:
8. Загрузите и обработайте образцы документов.
Теперь, когда вы определили схему и настроили процессоры для своих документов, вы можете загрузить документы в Document AI Warehouse.
- Вернитесь в консоль Document AI Warehouse и нажмите кнопку +Добавить новый на левой панели навигации, затем выберите опцию « Загрузить новый документ» .
- Перетащите документ License-agreement.pdf со своего компьютера в виджет загрузки или найдите и выберите один из загруженных вами образцов документов. Затем нажмите кнопку «Далее» , чтобы продолжить.
- В разделе «Схема документа» выберите имя схемы, которую вы создали ранее, например « Документы и формы» . В качестве идентификатора процессора Doc AI выберите процессор документов OCR, который вы настроили на предыдущем шаге.
- В качестве отображаемого имени вы можете использовать имя по умолчанию (т. е. имя файла) или использовать собственное имя документа.
- Нажмите кнопку «Создать» , чтобы загрузить и обработать документ.
Вернитесь в консоль Document AI Warehouse и повторите эти шаги с образцом документа кредит-форма.pdf . Выберите обработчик документов form
, который вы настроили ранее.
Вернитесь в консоль Document AI Warehouse и повторите эти шаги с образцом документаvoice-sample.pdf . Выберите обработчик документов invoice
, который вы настроили ранее.
Если после успешного выполнения этих шагов вы вернетесь в консоль Document AI Warehouse, то вы должны увидеть список обработанных документов, похожий на следующий:
9. Ищите и изучайте документы
Теперь, когда вы загрузили и обработали документ в Document AI Warehouse, вы можете выполнить полнотекстовый поиск по документам.
В консоли Document AI Warehouse введите поисковый запрос, который появляется в примерах документов, например agreement
, затем нажмите клавишу Enter . Вы можете попробовать другие поисковые запросы, такие как mortgage
и monitor
, чтобы увидеть результаты для различных образцов документов, которые вы загрузили.
В результатах вы увидите все документы, содержащие этот поисковый запрос, а также сводку текста документа с выделенным поисковым запросом:
Нажмите на название документа, чтобы просмотреть его.
Нажмите на переключатель AI View , чтобы просмотреть документ вместе с обнаруженными полями и связанными с ними данными:
10. Поздравления
Вы успешно загрузили, обработали и выполнили полнотекстовый поиск документов с помощью Document AI Warehouse и с помощью процессоров в Document AI. Мы рекомендуем вам поэкспериментировать с другими документами и изучить другие процессоры , доступные на платформе.
Очистить
Вы можете выполнить следующую очистку, чтобы избежать списания средств с вашей учетной записи Google Cloud за ресурсы, используемые в этом руководстве:
- Перейдите на страницу консоли «Хранилище документов» и удалите все образцы документов, которые вы загрузили.
- В консоли Google Cloud перейдите на страницу процессоров Document AI и удалите образцы процессоров, которые вы создали.
- В консоли Google Cloud перейдите на страницу API и сервисы и отключите API Document AI Warehouse .
Узнать больше
Продолжайте изучать Document AI с помощью других лабораторий кода.
- Оптическое распознавание символов с помощью Document AI
- Анализ формы с помощью Document AI (Python)
- Специализированные процессоры с искусственным интеллектом документов (Python)
- Управление процессорами искусственного интеллекта для документов с помощью Python
Ресурсы
- Документация по хранилищу документов AI
- Будущее документов – Плейлист YouTube
- Хранилище образцов документов AI
Лицензия
Эта работа распространяется под лицензией Creative Commons Attribution 2.0 Generic License.