使用 Document AI Warehouse 提取、处理和搜索文档

1. 概览

什么是 Document AI Warehouse?

Document AI Warehouse 是一个平台,用于存储、搜索、整理和分析文档及其结构化元数据。文档可以包含结构化数据(例如表单和发票)以及非结构化数据(例如合同和研究论文)。您可以使用 Document AI 中的处理器自动提取文档的元数据,也可以使用字段和标记手动输入元数据。

在此 Codelab 中,您将了解如何使用 Document AI Warehouse 界面来注入、处理和搜索文档。此 Codelab 提供了 PDF 文档示例,包括许可协议、贷款表单和订单发票。

前提条件

此 Codelab 基于其他 Document AI Codelab 中介绍的内容。建议您在继续操作之前阅读以下文档和 Codelab:

学习内容

  • 如何启用 Document AI Warehouse API
  • 如何在 Document AI Warehouse 中配置文档处理器
  • 如何上传和解析各种类型的 PDF 文档中的文本
  • 如何在 Document AI Warehouse 中搜索文档及其元数据

所需条件

  • Google Cloud 项目
  • 一个浏览器,例如 ChromeFirefox

2. 下载示例文档

此 Codelab 提供了 PDF 文档示例,包括许可协议、贷款表单和订单发票。您可以下载以下示例文档,以便在本 Codelab 中使用。

或者,您可以使用 gsutil 从我们的公开 Google Cloud Storage 存储分区下载示例文档。

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

在后续步骤中,您将上传这些示例文档,使用不同的文档处理器解析它们,并将生成的文档和元数据存储在 Document AI Warehouse 中。

3. 启用 Document AI Warehouse API

您必须先启用 Document AI Warehouse API,然后才能开始使用 Document AI Warehouse。

使用 Cloud Console

  1. 在浏览器中打开 Google Cloud 控制台
  2. 在 Google Cloud 控制台中,前往 API 库,浏览可启用的 API 和服务。
  3. 使用“API 库”页面顶部的搜索栏搜索 Document AI Warehouse,然后点击搜索结果中的相应服务。
  4. 点击启用按钮,以在 Google Cloud 项目中启用 Document AI Warehouse API。Document AI Warehouse API

替代方案:使用 gcloud CLI

或者,您也可以使用以下 gcloud 命令启用该 API:

gcloud services enable contentwarehouse.googleapis.com

如果 API 已成功启用,您应该会看到类似如下的消息:

Operation "operations/..." finished successfully.

现在,您可以使用 Document AI Warehouse 了!

4. 查看 Document AI Warehouse 控制台

在浏览器中,前往 Document AI Warehouse 控制台,该控制台位于 https://documentwarehouse.cloud.google.com(位于 Google Cloud 控制台外部)。您将使用 Document AI Warehouse 控制台和 Google Cloud 项目来执行此 Codelab 中的剩余步骤,以上传、处理和搜索文档。

Document AI Warehouse 信息中心

如果您是首次使用 Document AI Warehouse,请参阅 Document AI Warehouse 文档,详细了解如何根据您的需求配置项目和设置。

5. 创建文档架构

文档架构用于定义存储在 Document AI Warehouse 中的文档的文档类型和字段。您需要先创建架构,然后才能上传任何新文档。

  1. 在 Document AI Warehouse 控制台中,点击页面右上角的管理按钮。
  2. 点击左侧导航栏中的 Schema 项,然后点击 + Add new 按钮。
  3. 为架构输入一个名称(例如 Documents and Forms),并确保选择文档作为架构类型。然后,点击下一页按钮即可继续学习。
  4. 您可以保留默认的 JSON 架构定义,该定义应如下所示:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. 然后,点击完成按钮,即可完成文档架构的创建。

成功完成这些步骤后,您应该会看到一条消息,说明您的文档架构已创建。您可以点击查看文档架构按钮,然后点击 JSON 标签页来确认架构,该架构应与以下内容类似:

文档架构

6. 创建文档处理器

在此步骤中,您将创建文档处理器,以便在 Document AI Warehouse 中对不同类型的文档执行全文搜索。

  1. 在 Google Cloud 控制台中,前往 Document AI Platform 概览页面
  2. 点击浏览处理器,然后选择文档 OCR 作为要创建的处理器类型。
  3. 为文档处理器指定一个名称(例如 ocr)和首选区域,然后点击创建以创建处理器。
  4. 处理器详情页面上,复制处理器 ID,我们稍后将使用该 ID 在 Document AI Warehouse 中配置处理器。

重复上述步骤,然后选择表单解析器作为文档处理器类型,以创建并指定 form 作为处理器名称。

重复上述步骤,选择账单解析器作为文档处理器类型,然后创建并指定 invoice 作为处理器名称。

成功完成这些步骤后,您应该会看到一个类似于以下内容的文档处理器列表:

文档处理器

7. 配置文档处理器

在此步骤中,您将通过引用在上一步中创建的处理器,在 Document AI Warehouse 中配置文档处理器。

  1. 在 Document AI Warehouse 控制台中,点击顶部工具栏上的管理按钮。
  2. 点击左侧导航栏中的 Doc AI 处理器项,然后点击 + 新增按钮。
  3. 点击 + Add New Processor(+ 添加新处理器)按钮,然后指定名称和上一步中的处理器 ID。
  4. 点击保存按钮以保存更改。

重复上述步骤,使用 + Add New Processor 按钮将其他两个处理器(包括表单解析器和账单解析器)添加到 Document AI Warehouse 配置中。请务必使用 + 添加新处理器按钮在同一文档架构 ID 下添加这两个额外的处理器,而不是使用 + 添加新按钮添加额外的架构。

成功完成这些步骤后,您应该会看到一个配置的文档处理器列表,该列表类似于以下内容:

Document AI Warehouse 中的文档处理器

8. 上传和处理示例文档

现在,您已经为文档定义了架构并配置了处理器,接下来可以将文档上传到 Document AI Warehouse。

  1. 返回 Document AI Warehouse 控制台,点击左侧导航栏中的 + 添加新内容按钮,然后选择上传新文档选项。
  2. license-agreement.pdf 文档从您的计算机拖动到上传 widget,或者浏览并选择您下载的其中一个示例文档。然后,点击下一页按钮即可继续学习。
  3. 对于文档架构,请选择您之前创建的架构的名称,例如文档和表单。对于 Doc AI 处理器 ID,请选择您在上一步中配置的 OCR 文档处理器。
  4. 对于显示名称,您可以使用默认名称(即文件名),也可以使用自己的自定义文档名称。
  5. 点击创建按钮,上传并处理您的文档。

返回 Document AI Warehouse 控制台,然后使用 loan-form.pdf 示例文档重复上述步骤。选择您之前配置的 form 文档处理器。

返回 Document AI Warehouse 控制台,然后使用 invoice-sample.pdf 示例文档重复上述步骤。选择您之前配置的 invoice 文档处理器。

成功完成上述步骤后,如果您返回 Document AI Warehouse 控制台,则应该会看到类似如下所示的处理后文档列表:

Document AI Warehouse 中的已处理文档

9. 搜索和浏览文档

现在,您已将文档上传到 Document AI Warehouse 并进行了处理,接下来可以对文档执行全文搜索。

在 Document AI Warehouse 控制台中,输入示例文档中显示的搜索字词(例如 agreement),然后按 Enter 键。您可以尝试其他搜索查询,例如 mortgagemonitor,查看您上传的不同示例文档的搜索结果。

在搜索结果中,您会看到包含该搜索字词的所有文档,以及突出显示搜索字词的文档文本摘要:

Document AI Warehouse 中的搜索结果

点击文档名称即可查看相应文档。

点击 AI 视图切换开关,即可查看文档以及检测到的字段及其关联的数据:

Document AI Warehouse 中的详细视图

10. 恭喜

您已成功使用 Document AI Warehouse 和 Document AI 中的处理器上传、处理文档并对文档执行全文搜索。我们建议您尝试使用其他文档,并探索平台上可用的其他处理器

清理

您可以执行以下清理操作,以避免系统因本教程中使用的资源向您的 Google Cloud 账号收取费用:

了解详情

通过以下其他 Codelab 继续了解 Document AI。

资源

许可

此作品已获得 Creative Commons Attribution 2.0 通用许可授权。