1. 简介
Document AI API 是一种文档理解解决方案,可接受文档、电子邮件等非结构化数据,使数据更易于理解、分析和使用。
借助人工审核,您可以获得更高的文档处理准确性,并保证人工审核。人工审核可以提高准确性,并帮助商家使用专门打造的工具对联想查询进行评估。在本实验中,您将使用人工审核机制配置和测试费用处理方,以便使用人机协同 (human-in-the-loop) 配置和管理工具验证处理方的结果。
前提条件
此 Codelab 以其他 Document AI Codelab 中展示的内容为基础。
建议您先完成以下 Codelab,然后再继续。
- 使用 Document AI (Python) 进行光学字符识别 (OCR)
- 使用 Document AI (Python) 进行表单解析
- 使用 Document AI (Python) 的专业处理器
学习内容
- 为处理器配置人工审核。
- 创建人工审核用户资源池。
- 创建人工审核测试任务。
- 向用户分配人工审核任务。
- 完成文档的人工审核。
所需条件
2. 准备工作
此 Codelab 假定您已完成入门 Codelab 中列出的 Document AI 设置步骤。
请先完成以下步骤,然后再继续:
您还需要启用 Vertex AI API。
- 使用控制台顶部的搜索栏,搜索“Vertex AI API”,然后点击启用,在您的 Google Cloud 项目中使用该 API
- 或者,您也可以使用以下
gcloud
命令启用该 API。
gcloud services enable aiplatform.googleapis.com
3. 创建处理器
您必须先创建一个费用处理方实例以用于本实验。
- 在控制台中,前往 Document AI Platform 概览。
- 点击 Create Processor,向下滚动到 Specialized,然后选择 Expense Parser。
- 将其命名为
codelab-expense-parser
(或您能记住的其他名称)并从列表中选择距离最近的区域。 - 点击 Create 以创建处理器
- 复制处理器 ID。您稍后必须在代码中使用此 ID。
- 在 Cloud Shell 中,使用
PROJECT_ID-hitl-results
作为名称创建存储分区:
export PROJECT_ID=$(gcloud config get-value core/project)
gsutil mb gs://$PROJECT_ID-hitl-results
- 将您的用户账号绑定到实验项目的 Vertex AI Admin IAM 角色
export USER_ACCOUNT=$(gcloud config get-value core/account)
gcloud projects add-iam-policy-binding $PROJECT_ID --member=user:$USER_ACCOUNT --role=roles/aiplatform.admin
4. 配置人机协同
在此任务中,您将为之前创建的费用处理方配置人工审核。
- 在控制台中,打开导航菜单,然后选择 Document AI。
- 点击人机协同 AI。
- 点击
codelab-expense-parser
打开处理方的“人工审核”页面。 - 点击配置人机协同。
- 选择文档级过滤条件。
- 将置信度阈值 % 滑块设置为 50%。
- 将专家选项保留为使用我自己的专家。
- 点击专用池下拉框,然后点击新建专用池。
- 对于池名称,在新建专家池对话框中输入
Codelab HITL Pool
。 - 输入池管理员和专家的个人电子邮件地址
- 点击创建池。
这需要几分钟才能完成。您应该会收到一封来自Vertex AI noreply-vertex@google.com
的电子邮件。
- 请勿选中自动分配复选框。
- 点击确认费用部分中的复选框。
- 点击说明位置,然后将复制操作复制到此存储位置:- 请勿在路径中添加前缀
gs://
cloud-samples-data/documentai/codelabs/hitl/hitl-instructions.pdf
- 在结果位置中,点击浏览,然后选择您之前创建的 Cloud Storage 存储分区。
- 点击选择。
- 点击 Save Configuration(保存配置)。
控制台现在会显示正在配置人机协同,这需要几分钟才能完成。
- 配置完成后,控制台会提示您启用人机协同。
- 点击切换按钮以启用。
- 然后在弹出式对话框中点击启用。
上传费用表单示例
- Google Cloud Storage 中有一个示例表单可供您使用。您可以使用下面的按钮或命令下载该版本:
gsutil cp gs://cloud-samples-data/documentai/codelabs/hitl/expense-claim.pdf .
- 启用人机协同后,点击上传文件按钮并浏览您刚刚下载的示例文档。
- 点击上传,然后等待上传完成。
5. 将内容分配给人工审核
- 在此页面上,您应该会看到池管理器和专家控制台的链接。这些链接也会显示在
Vertex AI noreply-vertex@google.com
发送的电子邮件中。- 其应类似于
https://datacompute.google.com/cm/cloudml_data_specialists_us_central1_xxxxxxx/tasks
。 - 点击管理器控制台的链接。
- 其应类似于
- 进入 Data Labeling Console 后,点击 Tasks 标签页标题以打开任务分配页面。
- 点击未分配复选框。您应该会看到 codelab-expense-parser-P1 任务队列列出了一个新条目。
- 选择 codelab-expense-parser-P1。
- 点击管理作业。
- 在通过电子邮件添加专家文本框中输入您自己的个人电子邮件地址,然后从下拉列表中选择该电子邮件地址。
- 点击应用。
屏幕现在会显示任务已分配给您。您可能会发现,这可能需要几分钟才会传播到可见。
- 选择新用户,然后点击菜单图标。
- 从显示的弹出式菜单中,点击分配给所有任务。
- 点击提交更改。
- 点击提交。
6. 执行人工审核任务
- 返回 Cloud 控制台中的人机协同 (Human-in-the-Loop) 配置页面。
点击链接即可访问专家(工作器)控制台。其格式将类似于 https://datacompute.google.com/w/cloudml_data_specialists_us_central1_xxxxxxxxxxx
。
工作器控制台应该会打开并列出您的新任务。
- 将鼠标悬停在包含 Meeting with 4m 的订单项上,然后点击 edit(铅笔)图标。
- 修改该值,将文本更改为 Meeting with Adam。您可能需要向下滚动文本框才能看到文字。
- 点击应用。
- 点击下方内容对应的确认(绿色对勾)图标。
- 点击其他突出显示的实体的确认图标。
- 点击提交。审核任务现已从您的标签添加者队列中移除。
7. 查看已完成的任务
- 返回管理器控制台。
- 点击 Tasks,然后选择 Ongoing
- 点击专家。
- 选择您的电子邮件地址。
- 点击管理作业。
- 从
Select specialists working on specific tasks
和Select tasks
下拉菜单中选择 expense-processor-P1。针对每个选项点击应用。在分配给您的 expense-processor-P1 的上下文菜单中,选择查看专家
标签添加者提交标签任务后,已完成的任务数量和总用时都会更新,但此视图中的数据可能需要几分钟才能显示。
- 关闭“专家”弹出式窗口,然后查看专家标签页。
- 点击用户名的上下文菜单,然后选择查看任务。
此视图显示了用户的任务列表、完成次数和所花费的时间,如下所示:
8. 恭喜
恭喜!您已成功使用 Document AI 人机协同为使用 Document AI 费用处理器处理的文档配置了人工审核。
清理
为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用,请执行以下操作:
- 在 Cloud Console 中,转到管理资源页面。
- 在项目列表中,选择您的项目,然后点击“删除”。
- 在对话框中输入项目 ID,然后点击“关停”以删除项目。
了解详情
通过以下后续 Codelab 继续了解 Document AI。
资源
许可
此作品已获得 Creative Commons Attribution 2.0 通用许可授权。