使用 Document AI Warehouse 提取、处理和搜索文档

1. 概览

什么是 Document AI Warehouse?

Document AI Warehouse 是一个用于存储、搜索、整理和分析文档及其结构化元数据的平台。文档可包括表单和账单等结构化数据,以及合约和研究论文等非结构化数据。文档的元数据可以使用 Document AI 中的处理器自动提取,也可以使用字段和标记手动输入。

在此 Codelab 中,您将学习如何使用 Document AI Warehouse 界面提取、处理和搜索文档。我们为此 Codelab 提供了示例 PDF 文档,包括许可协议、贷款表单和订单账单。

前提条件

此 Codelab 以其他 Document AI Codelab 中介绍的内容为基础。建议您先阅读以下文档和 Codelab,然后再继续:

学习内容

  • 如何启用 Document AI Warehouse API
  • 如何在 Document AI Warehouse 中配置文档处理器
  • 如何上传和解析各种类型的 PDF 文档中的文本
  • 如何在 Document AI Warehouse 中搜索文档及其元数据

所需条件

  • Google Cloud 项目
  • 一个浏览器,例如 ChromeFirefox

2. 下载示例文档

我们为此 Codelab 提供了示例 PDF 文档,包括许可协议、贷款表单和订单账单。您可以下载以下示例文档,以便在此 Codelab 中使用。

或者,您也可以使用 gsutil 从我们的公开 Google Cloud Storage 存储分区下载示例文档。

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

在稍后的步骤中,您将上传这些示例文档,使用不同的文档处理器对其进行解析,并将生成的文档和元数据存储在 Document AI Warehouse 中。

3. 启用 Document AI Warehouse API

您必须先启用该 API,然后才能开始使用 Document AI Warehouse。

使用 Cloud Console

  1. 在浏览器中打开 Google Cloud 控制台
  2. 在 Google Cloud 控制台中,前往 API 库,浏览可启用的 API 和服务。
  3. 使用“API 库”页面顶部的搜索栏搜索 Document AI Warehouse,然后点击生成的服务。
  4. 点击启用按钮,在您的 Google Cloud 项目中启用 Document AI Warehouse API。Document AI Warehouse API

替代方案:使用 gcloud CLI

或者,您也可以使用以下 gcloud 命令启用该 API:

gcloud services enable contentwarehouse.googleapis.com

如果该 API 已成功启用,您应该会看到类似于以下内容的消息:

Operation "operations/..." finished successfully.

现在,您可以使用 Document AI Warehouse 了!

4. 查看 Document AI Warehouse 控制台

在浏览器中,前往 https://documentwarehouse.cloud.google.com(位于 Google Cloud 控制台外部)进入 Document AI Warehouse 控制台。您将使用 Document AI Warehouse 控制台和您的 Google Cloud 项目来执行此 Codelab 中的其余步骤,以便上传、处理和搜索文档。

Document AI Warehouse 信息中心

如果这是您第一次使用 Document AI Warehouse,请参阅 Document AI Warehouse 文档,详细了解如何根据需要配置项目和设置。

5. 创建文档架构

文档架构定义了您存储在 Document AI Warehouse 中的文档的文档类型和字段。在上传任何新文档之前,您需要创建架构。

  1. 在 Document AI Warehouse 控制台中,点击页面右上角的管理按钮。
  2. 点击左侧导航栏上的架构项,然后点击 + 新增按钮。
  3. 为架构输入一个名称(例如 Documents and Forms),并确保选择 Document 作为 Schema Type(架构类型)。然后,点击下一步按钮以继续。
  4. 您可以保留默认的 JSON 架构定义,它应如下所示:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. 然后点击完成按钮,即可完成文档架构的创建。

成功完成这些步骤后,您应该会看到一条消息,告知您文档架构已创建。您可以点击查看文档架构按钮,然后点击 JSON 标签页,以确认架构(显示效果应如下所示):

文档架构

6. 创建文档处理器

在此步骤中,您将创建文档处理器,用于对 Document AI Warehouse 中的不同类型的文档执行全文搜索。

  1. 在 Google Cloud 控制台中,前往 Document AI Platform 概览页面
  2. 点击探索处理器,然后选择文档 OCR 作为要创建的处理器类型。
  3. 指定文档处理器的名称(例如 ocr)和您的首选区域,然后点击创建以创建处理器。
  4. 处理器详情页面上,复制处理器 ID,稍后我们将使用该 ID 在 Document AI Warehouse 中配置处理器。

重复上述步骤,选择 Form Parser 作为要创建的文档处理器类型,并指定 form 作为处理器名称。

重复上述步骤,选择 Invoice Parser 作为要创建的文档处理器类型,并指定 invoice 作为处理器名称。

成功完成这些步骤后,您应该会看到类似于以下内容的文档处理器列表:

文档处理器

7. 配置文档处理器

在此步骤中,您将参照在上一步中创建的处理器,在 Document AI Warehouse 中配置文档处理器。

  1. 在 Document AI Warehouse 控制台中,点击顶部工具栏中的管理按钮。
  2. 点击左侧导航栏上的 Doc AI 处理器项,然后点击 + 新增按钮。
  3. 点击 + Add New Processor(+ 添加新处理器)按钮,然后指定上一步中的名称和处理器 ID。
  4. 点击保存按钮以保存更改。

使用 + Add New Processor(+ 添加新处理器)按钮重复执行上述步骤,将其他两个处理器(包括表单解析器和账单解析器)添加到 Document AI Warehouse 配置中。请务必使用 + 添加新处理器按钮在同一文档架构 ID 下添加两个额外的处理器,而不是使用 + 添加新处理器按钮添加其他架构。

成功完成这些步骤后,您应该会看到已配置的文档处理器列表,如下所示:

Document AI Warehouse 中的文档处理器

8. 上传和处理示例文档

现在,您已经为文档定义了架构并配置了处理器,可以将文档上传到 Document AI Warehouse。

  1. 返回 Document AI Warehouse 控制台,点击左侧导航栏中的 +新增按钮,然后选择上传新文档选项。
  2. license-agreement.pdf 文档从计算机拖到上传微件,或者浏览并选择您下载的某个示例文档。然后,点击 Next 按钮继续。
  3. 对于文档架构,选择您之前创建的架构的名称,例如文档和表单。对于 Doc AI 处理器 ID,选择您在上一步中配置的 OCR 文档处理器。
  4. 对于显示名称,您可以使用默认名称(即文件名),也可以使用您自己的自定义文档名称。
  5. 点击创建按钮以上传和处理您的文档。

返回 Document AI Warehouse 控制台,然后针对 loan-form.pdf 示例文档重复这些步骤。选择您之前配置的 form 文档处理器。

返回 Document AI Warehouse 控制台,然后针对 invoice-sample.pdf 示例文档重复这些步骤。选择您之前配置的 invoice 文档处理器。

成功完成这些步骤后,如果您返回 Document AI Warehouse 控制台,应该会看到如下所示的已处理文档列表:

Document AI Warehouse 中已处理的文档

9. 搜索和浏览文档

现在,您已将文档上传并处理到 Document AI Warehouse,接下来可以对文档执行全文搜索。

在 Document AI Warehouse 控制台中,输入示例文档中显示的搜索字词(例如 agreement),然后按 Enter 键。您可以尝试其他搜索查询(例如 mortgagemonitor),以查看您上传的不同示例文档的结果。

在搜索结果中,您会看到包含该搜索字词的所有文档,以及突出显示的搜索字词的摘要:

Document AI Warehouse 中的搜索结果

点击某个文档的名称即可查看该文档。

点击 AI 视图切换开关以查看文档以及检测到的字段及其相关数据:

Document AI Warehouse 中的详细视图

10. 恭喜

您已成功使用 Document AI Warehouse 和 Document AI 中的处理器上传、处理文档并对文档执行全文搜索。我们建议您尝试使用其他文档,并探索平台上可用的其他处理器

清理

您可以执行以下清理操作,以避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用:

了解详情

请继续学习其他 Codelab,了解 Document AI。

资源

许可

此作品已获得 Creative Commons Attribution 2.0 通用许可授权。