1. 概览
什么是 Document AI Warehouse?
Document AI Warehouse 是一个平台,用于存储、搜索、整理和分析文档及其结构化元数据。文档可以包含结构化数据(例如表单和发票)以及非结构化数据(例如合同和研究论文)。您可以使用 Document AI 中的处理器自动提取文档的元数据,也可以使用字段和标记手动输入元数据。
在此 Codelab 中,您将了解如何使用 Document AI Warehouse 界面来注入、处理和搜索文档。此 Codelab 提供了 PDF 文档示例,包括许可协议、贷款表单和订单发票。
前提条件
此 Codelab 基于其他 Document AI Codelab 中介绍的内容。建议您在继续操作之前阅读以下文档和 Codelab:
学习内容
- 如何启用 Document AI Warehouse API
- 如何在 Document AI Warehouse 中配置文档处理器
- 如何上传和解析各种类型的 PDF 文档中的文本
- 如何在 Document AI Warehouse 中搜索文档及其元数据
所需条件
2. 下载示例文档
此 Codelab 提供了 PDF 文档示例,包括许可协议、贷款表单和订单发票。您可以下载以下示例文档,以便在本 Codelab 中使用。
或者,您可以使用 gsutil 从我们的公开 Google Cloud Storage 存储分区下载示例文档。
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .
在后续步骤中,您将上传这些示例文档,使用不同的文档处理器解析它们,并将生成的文档和元数据存储在 Document AI Warehouse 中。
3. 启用 Document AI Warehouse API
您必须先启用 Document AI Warehouse API,然后才能开始使用 Document AI Warehouse。
使用 Cloud Console
- 在浏览器中打开 Google Cloud 控制台。
- 在 Google Cloud 控制台中,前往 API 库,浏览可启用的 API 和服务。
- 使用“API 库”页面顶部的搜索栏搜索
Document AI Warehouse,然后点击搜索结果中的相应服务。 - 点击启用按钮,以在 Google Cloud 项目中启用 Document AI Warehouse API。

替代方案:使用 gcloud CLI
或者,您也可以使用以下 gcloud 命令启用该 API:
gcloud services enable contentwarehouse.googleapis.com
如果 API 已成功启用,您应该会看到类似如下的消息:
Operation "operations/..." finished successfully.
现在,您可以使用 Document AI Warehouse 了!
4. 查看 Document AI Warehouse 控制台
在浏览器中,前往 Document AI Warehouse 控制台,该控制台位于 https://documentwarehouse.cloud.google.com(位于 Google Cloud 控制台外部)。您将使用 Document AI Warehouse 控制台和 Google Cloud 项目来执行此 Codelab 中的剩余步骤,以上传、处理和搜索文档。

如果您是首次使用 Document AI Warehouse,请参阅 Document AI Warehouse 文档,详细了解如何根据您的需求配置项目和设置。
5. 创建文档架构
文档架构用于定义存储在 Document AI Warehouse 中的文档的文档类型和字段。您需要先创建架构,然后才能上传任何新文档。
- 在 Document AI Warehouse 控制台中,点击页面右上角的管理按钮。
- 点击左侧导航栏中的 Schema 项,然后点击 + Add new 按钮。
- 为架构输入一个名称(例如
Documents and Forms),并确保选择文档作为架构类型。然后,点击下一页按钮即可继续学习。 - 您可以保留默认的 JSON 架构定义,该定义应如下所示:
{ "display_name": "Documents and Forms", "property_definitions": [], "document_is_folder": false, "description": "" } - 然后,点击完成按钮,即可完成文档架构的创建。
成功完成这些步骤后,您应该会看到一条消息,说明您的文档架构已创建。您可以点击查看文档架构按钮,然后点击 JSON 标签页来确认架构,该架构应与以下内容类似:

6. 创建文档处理器
在此步骤中,您将创建文档处理器,以便在 Document AI Warehouse 中对不同类型的文档执行全文搜索。
- 在 Google Cloud 控制台中,前往 Document AI Platform 概览页面。
- 点击浏览处理器,然后选择文档 OCR 作为要创建的处理器类型。
- 为文档处理器指定一个名称(例如
ocr)和首选区域,然后点击创建以创建处理器。 - 在处理器详情页面上,复制处理器 ID,我们稍后将使用该 ID 在 Document AI Warehouse 中配置处理器。
重复上述步骤,然后选择表单解析器作为文档处理器类型,以创建并指定 form 作为处理器名称。
重复上述步骤,选择账单解析器作为文档处理器类型,然后创建并指定 invoice 作为处理器名称。
成功完成这些步骤后,您应该会看到一个类似于以下内容的文档处理器列表:

7. 配置文档处理器
在此步骤中,您将通过引用在上一步中创建的处理器,在 Document AI Warehouse 中配置文档处理器。
- 在 Document AI Warehouse 控制台中,点击顶部工具栏上的管理按钮。
- 点击左侧导航栏中的 Doc AI 处理器项,然后点击 + 新增按钮。
- 点击 + Add New Processor(+ 添加新处理器)按钮,然后指定名称和上一步中的处理器 ID。
- 点击保存按钮以保存更改。
重复上述步骤,使用 + Add New Processor 按钮将其他两个处理器(包括表单解析器和账单解析器)添加到 Document AI Warehouse 配置中。请务必使用 + 添加新处理器按钮在同一文档架构 ID 下添加这两个额外的处理器,而不是使用 + 添加新按钮添加额外的架构。
成功完成这些步骤后,您应该会看到一个配置的文档处理器列表,该列表类似于以下内容:

8. 上传和处理示例文档
现在,您已经为文档定义了架构并配置了处理器,接下来可以将文档上传到 Document AI Warehouse。
- 返回 Document AI Warehouse 控制台,点击左侧导航栏中的 + 添加新内容按钮,然后选择上传新文档选项。
- 将 license-agreement.pdf 文档从您的计算机拖动到上传 widget,或者浏览并选择您下载的其中一个示例文档。然后,点击下一页按钮即可继续学习。
- 对于文档架构,请选择您之前创建的架构的名称,例如文档和表单。对于 Doc AI 处理器 ID,请选择您在上一步中配置的 OCR 文档处理器。
- 对于显示名称,您可以使用默认名称(即文件名),也可以使用自己的自定义文档名称。
- 点击创建按钮,上传并处理您的文档。
返回 Document AI Warehouse 控制台,然后使用 loan-form.pdf 示例文档重复上述步骤。选择您之前配置的 form 文档处理器。
返回 Document AI Warehouse 控制台,然后使用 invoice-sample.pdf 示例文档重复上述步骤。选择您之前配置的 invoice 文档处理器。
成功完成上述步骤后,如果您返回 Document AI Warehouse 控制台,则应该会看到类似如下所示的处理后文档列表:

9. 搜索和浏览文档
现在,您已将文档上传到 Document AI Warehouse 并进行了处理,接下来可以对文档执行全文搜索。
在 Document AI Warehouse 控制台中,输入示例文档中显示的搜索字词(例如 agreement),然后按 Enter 键。您可以尝试其他搜索查询,例如 mortgage 和 monitor,查看您上传的不同示例文档的搜索结果。
在搜索结果中,您会看到包含该搜索字词的所有文档,以及突出显示搜索字词的文档文本摘要:

点击文档名称即可查看相应文档。
点击 AI 视图切换开关,即可查看文档以及检测到的字段及其关联的数据:

10. 恭喜
您已成功使用 Document AI Warehouse 和 Document AI 中的处理器上传、处理文档并对文档执行全文搜索。我们建议您尝试使用其他文档,并探索平台上可用的其他处理器。
清理
您可以执行以下清理操作,以避免系统因本教程中使用的资源向您的 Google Cloud 账号收取费用:
- 前往 Document Warehouse 控制台页面,然后删除您上传的所有示例文档。
- 在 Google Cloud 控制台中,前往 Document AI 处理器页面,然后删除您创建的示例处理器。
- 在 Google Cloud 控制台中,前往 API 和服务页面,然后停用 Document AI Warehouse API。
了解详情
通过以下其他 Codelab 继续了解 Document AI。
- 使用 Document AI 进行光学字符识别
- 使用 Document AI 解析表单 (Python)
- 使用 Document AI 专用处理器 (Python)
- 使用 Python 管理 Document AI 处理器
资源
许可
此作品已获得 Creative Commons Attribution 2.0 通用许可授权。