1. 简介
Document AI API 是一种文档理解解决方案,可以提取文档、电子邮件等非结构化数据,从而让用户更容易理解、分析和使用这些数据。
借助人工审核,您可以在保证人工审核的情况下实现更高的文档处理准确性。人工审核可以提高准确性,并帮助企业使用专用工具启用这些审核来评估预测。在本实验中,您将配置并测试费用处理器,使用人工审核来验证处理器的结果,并使用人机协同配置和管理工具。
前提条件
此 Codelab 基于其他 Document AI Codelab 中介绍的内容。
建议您先完成以下 Codelab,然后再继续。
学习内容
- 为处理器配置人工审核。
- 创建人工审核用户资源池。
- 创建测试人工审核任务。
- 向用户分配人工审核任务。
- 完成文档的人工审核。
所需条件
2. 准备工作
本 Codelab 假定您已完成入门 Codelab 中列出的 Document AI 设置步骤。
请先完成以下步骤,然后再继续操作:
您还需要启用 Vertex AI API。
- 通过控制台顶部的搜索栏搜索“Vertex AI API”,然后点击启用,以便在您的 Google Cloud 云项目中使用该 API
- 或者,您也可以使用以下
gcloud命令启用该 API。
gcloud services enable aiplatform.googleapis.com
3. 创建处理器
您必须先创建一个费用处理器实例,以便在本实验中使用。
- 在控制台中,前往 Document AI Platform 概览
- 点击创建处理器,向下滚动到专用,然后选择费用解析器。
- 将其命名为
codelab-expense-parser(或您能记住的其他名称)并从列表中选择距离最近的区域。 - 点击创建以创建处理器。
- 复制处理器 ID。您稍后在代码中会用到该 ID。
- 在 Cloud Shell 中,使用
PROJECT_ID-hitl-results作为名称创建一个存储分区:
export PROJECT_ID=$(gcloud config get-value core/project)
gsutil mb gs://$PROJECT_ID-hitl-results
- 将您的用户账号绑定到实验项目中的 Vertex AI Admin IAM 角色
export USER_ACCOUNT=$(gcloud config get-value core/account)
gcloud projects add-iam-policy-binding $PROJECT_ID --member=user:$USER_ACCOUNT --role=roles/aiplatform.admin
4. 配置人机协同
在此任务中,您将为之前创建的费用处理器配置人工审核。
- 在控制台中,打开导航菜单,然后选择 Document AI。
- 点击人机协同 (human-in-the-loop) AI。

- 点击
codelab-expense-parser以打开处理器的“人工审核”页面。 - 点击配置人机协同。

- 选择文档级过滤条件。
- 将置信度阈值百分比滑块设置为 50%。
- 将专家选项设置为使用我自己的专家。

- 点击专家池下拉框,然后点击新建专家池。
- 在新建专家池对话框中,为池名称输入
Codelab HITL Pool。 - 输入池管理员和专家的个人电子邮件地址
- 点击创建池。

这需要几分钟才能完成。您应该会收到Vertex AI noreply-vertex@google.com发来的电子邮件。
- 将自动分配复选框保留为未选中状态。
- 点击确认扣款部分中的复选框。
- 点击说明位置,然后复制此存储位置:- 请勿在路径中添加前缀
gs://
cloud-samples-data/documentai/codelabs/hitl/hitl-instructions.pdf
- 在结果位置中,点击浏览,然后选择您之前创建的 Cloud Storage 存储分区。
- 点击选择。
- 点击保存配置。
控制台现在会显示正在配置人机协同,这需要几分钟才能完成。

- 配置完成后,控制台会提示您启用人机协同。
- 点击开关按钮以启用。
- 然后,在弹出式对话框中点击 ENABLE。

上传费用报销单示例
- 我们有一个存储在 Google Cloud Storage 中的示例表单可供使用。您可以使用以下按钮或命令下载该文件:
gsutil cp gs://cloud-samples-data/documentai/codelabs/hitl/expense-claim.pdf .
- 启用人机协同 (human-in-the-loop)后,点击上传文档按钮,然后找到您刚刚下载的示例文档。
- 点击上传,然后等待上传完成。
5. 分配待人工审核的项目
- 在此页面上,您应该会看到池管理员控制台和专家控制台的链接。这些链接还会显示在
Vertex AI noreply-vertex@google.com发送的电子邮件中。- 它们应类似于
https://datacompute.google.com/cm/cloudml_data_specialists_us_central1_xxxxxxx/tasks - 点击经理控制台的链接。
- 它们应类似于

- 进入数据标记控制台后,点击任务标签页标题以打开任务分配页面。
- 点击未分配复选框。您应该会看到,系统针对 codelab-expense-parser-P1 任务队列列出了一个新条目。

- 选择 codelab-expense-parser-P1。
- 点击管理分配关系。
- 在通过电子邮件添加专家文本框中输入您自己的个人电子邮件地址,然后从下拉列表中选择该地址。
- 点击应用。
显示屏现在会显示该任务已分配给您。您可能会发现,此更改可能需要几分钟才能传播并显示出来。

- 选择新用户,然后点击菜单图标。
- 在随即显示的弹出式菜单中,点击分配给所有任务。

- 点击提交更改。
- 点击提交。

6. 执行人工审核任务
- 返回到 Cloud 控制台中的“Human-in-the-Loop”配置页面。
点击链接以访问专家(工作者)控制台。此代码将如下所示:https://datacompute.google.com/w/cloudml_data_specialists_us_central1_xxxxxxxxxxx。
工作器控制台应会打开并列出新任务。

- 将鼠标悬停在包含时长为 4 分钟的会议的订单项上,然后点击修改(铅笔)图标。
- 修改该值,将文本更改为与 Adam 的会议。您可能需要在文本框中向下滚动才能看到文本。
- 点击应用。
- 点击下方商品的确认(绿色对勾)图标。

- 点击其他突出显示的实体的确认图标。
- 点击提交。审核任务现已从您的标记者队列中移除。
7. 查看已完成的任务
- 返回到经理控制台。
- 点击任务,然后选择进行中图标

- 点击专家。
- 选择您的电子邮件地址。
- 点击管理分配关系。
- 从
Select specialists working on specific tasks和Select tasks下拉菜单中选择 expense-processor-P1。针对每项选择点击应用。在已分配给您的 expense-processor-P1 的上下文菜单中,选择查看专家

贴标员提交贴标任务后,系统会更新已回答的任务数和总耗时,但此视图中的数据可能需要几分钟才能显示。
- 关闭“专家”弹出式窗口,然后查看专家标签页。
- 点击您用户名的上下文菜单,然后选择查看任务。
此视图显示用户的任务列表、完成数量和所用时间,如下所示:

8. 恭喜
恭喜!您已成功使用 Document AI 人机协同功能,为使用 Document AI 费用处理器处理的文档配置了人工审核。
清理
为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用,请执行以下操作:
- 在 Cloud Console 中,转到管理资源页面。
- 在项目列表中,选择您的项目,然后点击“删除”。
- 在对话框中输入项目 ID,然后点击“关停”以删除项目。
了解详情
通过以下后续 Codelab 继续了解 Document AI。
资源
许可
此作品已获得 Creative Commons Attribution 2.0 通用许可授权。