Document AI:人机协同

1. 简介

Document AI API 是一种文档理解解决方案,可接受文档、电子邮件等非结构化数据,使数据更易于理解、分析和使用。

借助人工审核,您可以获得更高的文档处理准确性,并保证人工审核。人工审核可以提高准确性,并帮助商家使用专门打造的工具对联想查询进行评估。在本实验中,您将使用人工审核机制配置和测试费用处理方,以便使用人机协同 (human-in-the-loop) 配置和管理工具验证处理方的结果。

前提条件

此 Codelab 以其他 Document AI Codelab 中展示的内容为基础。

建议您先完成以下 Codelab,然后再继续。

学习内容

  • 为处理器配置人工审核。
  • 创建人工审核用户资源池。
  • 创建人工审核测试任务。
  • 向用户分配人工审核任务。
  • 完成文档的人工审核。

所需条件

  • Google Cloud 项目
  • 一个浏览器,例如 ChromeFirefox
  • 了解 Python 3

2. 准备工作

此 Codelab 假定您已完成入门 Codelab 中列出的 Document AI 设置步骤。

请先完成以下步骤,然后再继续:

您还需要启用 Vertex AI API。

  1. 使用控制台顶部的搜索栏,搜索“Vertex AI API”,然后点击启用,在您的 Google Cloud 项目中使用该 API
  2. 或者,您也可以使用以下 gcloud 命令启用该 API。
gcloud services enable aiplatform.googleapis.com

3. 创建处理器

您必须先创建一个费用处理方实例以用于本实验。

  1. 在控制台中,前往 Document AI Platform 概览
  2. 点击 Create Processor,向下滚动到 Specialized,然后选择 Expense Parser
  3. 将其命名为 codelab-expense-parser(或您能记住的其他名称)并从列表中选择距离最近的区域。
  4. 点击 Create 以创建处理器
  5. 复制处理器 ID。您稍后必须在代码中使用此 ID。
  6. 在 Cloud Shell 中,使用 PROJECT_ID-hitl-results 作为名称创建存储分区:
export PROJECT_ID=$(gcloud config get-value core/project)
gsutil mb gs://$PROJECT_ID-hitl-results
  1. 将您的用户账号绑定到实验项目的 Vertex AI Admin IAM 角色
export USER_ACCOUNT=$(gcloud config get-value core/account)
gcloud projects add-iam-policy-binding $PROJECT_ID --member=user:$USER_ACCOUNT --role=roles/aiplatform.admin

4. 配置人机协同

在此任务中,您将为之前创建的费用处理方配置人工审核。

  1. 在控制台中,打开导航菜单,然后选择 Document AI
  2. 点击人机协同 AIHITLMenu
  3. 点击 codelab-expense-parser 打开处理方的“人工审核”页面。
  4. 点击配置人机协同

ConfigureHITL

  1. 选择文档级过滤条件
  2. 置信度阈值 % 滑块设置为 50%。
  3. 专家选项保留为使用我自己的专家

HITLFilters

  1. 点击专用池下拉框,然后点击新建专用池
  2. 对于池名称,在新建专家池对话框中输入 Codelab HITL Pool
  3. 输入池管理员专家的个人电子邮件地址
  4. 点击创建池

HITLSpecialistPool

这需要几分钟才能完成。您应该会收到一封来自Vertex AI noreply-vertex@google.com的电子邮件。

  1. 请勿选中自动分配复选框。
  2. 点击确认费用部分中的复选框。
  3. 点击说明位置,然后将复制操作复制到此存储位置:- 请勿在路径中添加前缀 gs://
cloud-samples-data/documentai/codelabs/hitl/hitl-instructions.pdf
  1. 结果位置中,点击浏览,然后选择您之前创建的 Cloud Storage 存储分区。
  2. 点击选择
  3. 点击 Save Configuration(保存配置)。

控制台现在会显示正在配置人机协同,这需要几分钟才能完成。

HITLLoading

  1. 配置完成后,控制台会提示您启用人机协同。
  • 点击切换按钮以启用。
  • 然后在弹出式对话框中点击启用

HITLEnable

上传费用表单示例

  1. Google Cloud Storage 中有一个示例表单可供您使用。您可以使用下面的按钮或命令下载该版本:

gsutil cp gs://cloud-samples-data/documentai/codelabs/hitl/expense-claim.pdf .
  1. 启用人机协同后,点击上传文件按钮并浏览您刚刚下载的示例文档。
  2. 点击上传,然后等待上传完成。

5. 将内容分配给人工审核

  1. 在此页面上,您应该会看到池管理器和专家控制台的链接。这些链接也会显示在 Vertex AI noreply-vertex@google.com 发送的电子邮件中。
    • 其应类似于 https://datacompute.google.com/cm/cloudml_data_specialists_us_central1_xxxxxxx/tasks
    • 点击管理器控制台的链接。

  1. 进入 Data Labeling Console 后,点击 Tasks 标签页标题以打开任务分配页面。
  2. 点击未分配复选框。您应该会看到 codelab-expense-parser-P1 任务队列列出了一个新条目。

图片

  1. 选择 codelab-expense-parser-P1
  2. 点击管理作业
  3. 通过电子邮件添加专家文本框中输入您自己的个人电子邮件地址,然后从下拉列表中选择该电子邮件地址。
  4. 点击应用

屏幕现在会显示任务已分配给您。您可能会发现,这可能需要几分钟才会传播到可见。

图片

  1. 选择新用户,然后点击菜单图标。
  2. 从显示的弹出式菜单中,点击分配给所有任务

图片

  1. 点击提交更改
  2. 点击提交

图片

6. 执行人工审核任务

  1. 返回 Cloud 控制台中的人机协同 (Human-in-the-Loop) 配置页面。

点击链接即可访问专家(工作器)控制台。其格式将类似于 https://datacompute.google.com/w/cloudml_data_specialists_us_central1_xxxxxxxxxxx

工作器控制台应该会打开并列出您的新任务。

图片

  1. 将鼠标悬停在包含 Meeting with 4m 的订单项上,然后点击 edit(铅笔)图标。
  2. 修改该值,将文本更改为 Meeting with Adam。您可能需要向下滚动文本框才能看到文字。
  3. 点击应用
  4. 点击下方内容对应的确认(绿色对勾)图标。图片
  5. 点击其他突出显示的实体的确认图标。
  6. 点击提交。审核任务现已从您的标签添加者队列中移除。

7. 查看已完成的任务

  1. 返回管理器控制台。
  2. 点击 Tasks,然后选择 Ongoing图片
  3. 点击专家
  4. 选择您的电子邮件地址。
  5. 点击管理作业
  6. Select specialists working on specific tasksSelect tasks 下拉菜单中选择 expense-processor-P1。针对每个选项点击应用。在分配给您的 expense-processor-P1 的上下文菜单中,选择查看专家

图片

标签添加者提交标签任务后,已完成的任务数量和总用时都会更新,但此视图中的数据可能需要几分钟才能显示。

  1. 关闭“专家”弹出式窗口,然后查看专家标签页。
  2. 点击用户名的上下文菜单,然后选择查看任务

此视图显示了用户的任务列表、完成次数和所花费的时间,如下所示:

图片

8. 恭喜

恭喜!您已成功使用 Document AI 人机协同为使用 Document AI 费用处理器处理的文档配置了人工审核。

清理

为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用,请执行以下操作:

  • 在 Cloud Console 中,转到管理资源页面。
  • 在项目列表中,选择您的项目,然后点击“删除”。
  • 在对话框中输入项目 ID,然后点击“关停”以删除项目。

了解详情

通过以下后续 Codelab 继续了解 Document AI。

资源

许可

此作品已获得 Creative Commons Attribution 2.0 通用许可授权。