Document AI:人机协同

1. 简介

Document AI API 是一种文档理解解决方案,可以提取文档、电子邮件等非结构化数据,从而让用户更容易理解、分析和使用这些数据。

借助人工审核,您可以在保证人工审核的情况下实现更高的文档处理准确性。人工审核可以提高准确性,并帮助企业使用专用工具启用这些审核来评估预测。在本实验中,您将配置并测试费用处理器,使用人工审核来验证处理器的结果,并使用人机协同配置和管理工具。

前提条件

此 Codelab 基于其他 Document AI Codelab 中介绍的内容。

建议您先完成以下 Codelab,然后再继续。

学习内容

  • 为处理器配置人工审核。
  • 创建人工审核用户资源池。
  • 创建测试人工审核任务。
  • 向用户分配人工审核任务。
  • 完成文档的人工审核。

所需条件

  • Google Cloud 项目
  • 一个浏览器,例如 ChromeFirefox
  • 了解 Python 3

2. 准备工作

本 Codelab 假定您已完成入门 Codelab 中列出的 Document AI 设置步骤。

请先完成以下步骤,然后再继续操作:

您还需要启用 Vertex AI API。

  1. 通过控制台顶部的搜索栏搜索“Vertex AI API”,然后点击启用,以便在您的 Google Cloud 云项目中使用该 API
  2. 或者,您也可以使用以下 gcloud 命令启用该 API。
gcloud services enable aiplatform.googleapis.com

3. 创建处理器

您必须先创建一个费用处理器实例,以便在本实验中使用。

  1. 在控制台中,前往 Document AI Platform 概览
  2. 点击创建处理器,向下滚动到专用,然后选择费用解析器
  3. 将其命名为 codelab-expense-parser(或您能记住的其他名称)并从列表中选择距离最近的区域。
  4. 点击创建以创建处理器。
  5. 复制处理器 ID。您稍后在代码中会用到该 ID。
  6. 在 Cloud Shell 中,使用 PROJECT_ID-hitl-results 作为名称创建一个存储分区:
export PROJECT_ID=$(gcloud config get-value core/project)
gsutil mb gs://$PROJECT_ID-hitl-results
  1. 将您的用户账号绑定到实验项目中的 Vertex AI Admin IAM 角色
export USER_ACCOUNT=$(gcloud config get-value core/account)
gcloud projects add-iam-policy-binding $PROJECT_ID --member=user:$USER_ACCOUNT --role=roles/aiplatform.admin

4. 配置人机协同

在此任务中,您将为之前创建的费用处理器配置人工审核。

  1. 在控制台中,打开导航菜单,然后选择 Document AI
  2. 点击人机协同 (human-in-the-loop) AIHITLMenu
  3. 点击 codelab-expense-parser 以打开处理器的“人工审核”页面。
  4. 点击配置人机协同

ConfigureHITL

  1. 选择文档级过滤条件
  2. 置信度阈值百分比滑块设置为 50%。
  3. 专家选项设置为使用我自己的专家

HITLFilters

  1. 点击专家池下拉框,然后点击新建专家池
  2. 新建专家池对话框中,为池名称输入 Codelab HITL Pool
  3. 输入池管理员专家的个人电子邮件地址
  4. 点击创建池

HITLSpecialistPool

这需要几分钟才能完成。您应该会收到Vertex AI noreply-vertex@google.com发来的电子邮件。

  1. 自动分配复选框保留为未选中状态。
  2. 点击确认扣款部分中的复选框。
  3. 点击说明位置,然后复制此存储位置:- 请勿在路径中添加前缀 gs://
cloud-samples-data/documentai/codelabs/hitl/hitl-instructions.pdf
  1. 结果位置中,点击浏览,然后选择您之前创建的 Cloud Storage 存储分区。
  2. 点击选择
  3. 点击保存配置

控制台现在会显示正在配置人机协同,这需要几分钟才能完成。

HITLLoading

  1. 配置完成后,控制台会提示您启用人机协同。
  • 点击开关按钮以启用。
  • 然后,在弹出式对话框中点击 ENABLE

HITLEnable

上传费用报销单示例

  1. 我们有一个存储在 Google Cloud Storage 中的示例表单可供使用。您可以使用以下按钮或命令下载该文件:

gsutil cp gs://cloud-samples-data/documentai/codelabs/hitl/expense-claim.pdf .
  1. 启用人机协同 (human-in-the-loop)后,点击上传文档按钮,然后找到您刚刚下载的示例文档。
  2. 点击上传,然后等待上传完成。

5. 分配待人工审核的项目

  1. 在此页面上,您应该会看到池管理员控制台和专家控制台的链接。这些链接还会显示在 Vertex AI noreply-vertex@google.com 发送的电子邮件中。
    • 它们应类似于 https://datacompute.google.com/cm/cloudml_data_specialists_us_central1_xxxxxxx/tasks
    • 点击经理控制台的链接。

  1. 进入数据标记控制台后,点击任务标签页标题以打开任务分配页面。
  2. 点击未分配复选框。您应该会看到,系统针对 codelab-expense-parser-P1 任务队列列出了一个新条目。

图片

  1. 选择 codelab-expense-parser-P1
  2. 点击管理分配关系
  3. 通过电子邮件添加专家文本框中输入您自己的个人电子邮件地址,然后从下拉列表中选择该地址。
  4. 点击应用

显示屏现在会显示该任务已分配给您。您可能会发现,此更改可能需要几分钟才能传播并显示出来。

图片

  1. 选择新用户,然后点击菜单图标。
  2. 在随即显示的弹出式菜单中,点击分配给所有任务

图片

  1. 点击提交更改
  2. 点击提交

图片

6. 执行人工审核任务

  1. 返回到 Cloud 控制台中的“Human-in-the-Loop”配置页面。

点击链接以访问专家(工作者)控制台。此代码将如下所示:https://datacompute.google.com/w/cloudml_data_specialists_us_central1_xxxxxxxxxxx

工作器控制台应会打开并列出新任务。

图片

  1. 将鼠标悬停在包含时长为 4 分钟的会议的订单项上,然后点击修改(铅笔)图标。
  2. 修改该值,将文本更改为与 Adam 的会议。您可能需要在文本框中向下滚动才能看到文本。
  3. 点击应用
  4. 点击下方商品的确认(绿色对勾)图标。图片
  5. 点击其他突出显示的实体的确认图标。
  6. 点击提交。审核任务现已从您的标记者队列中移除。

7. 查看已完成的任务

  1. 返回到经理控制台。
  2. 点击任务,然后选择进行中图标 图片
  3. 点击专家
  4. 选择您的电子邮件地址。
  5. 点击管理分配关系
  6. Select specialists working on specific tasksSelect tasks 下拉菜单中选择 expense-processor-P1。针对每项选择点击应用。在已分配给您的 expense-processor-P1 的上下文菜单中,选择查看专家

图片

贴标员提交贴标任务后,系统会更新已回答的任务数和总耗时,但此视图中的数据可能需要几分钟才能显示。

  1. 关闭“专家”弹出式窗口,然后查看专家标签页。
  2. 点击您用户名的上下文菜单,然后选择查看任务

此视图显示用户的任务列表、完成数量和所用时间,如下所示:

图片

8. 恭喜

恭喜!您已成功使用 Document AI 人机协同功能,为使用 Document AI 费用处理器处理的文档配置了人工审核。

清理

为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用,请执行以下操作:

  • 在 Cloud Console 中,转到管理资源页面。
  • 在项目列表中,选择您的项目,然后点击“删除”。
  • 在对话框中输入项目 ID,然后点击“关停”以删除项目。

了解详情

通过以下后续 Codelab 继续了解 Document AI。

资源

许可

此作品已获得 Creative Commons Attribution 2.0 通用许可授权。