Google 会使用 AI 技术将内容翻译成您偏好的语言。AI 翻译可能包含错误。

Document AI Workbench - 增量训练

1. 简介

Document AI 是一种文档理解解决方案，可以提取文档、电子邮件等非结构化数据，从而让用户更容易理解、分析和使用这些数据。

通过 Document AI Workbench 进行增量训练，您可以为专业文档类型提供更多带标签的示例，并创建新的模型版本，从而提高文档处理准确率。

在本实验中，您将创建账单解析器处理器、配置该处理器以进行追加训练、为示例文档添加标签，并对该处理器进行追加训练。

本实验中使用的文档数据集包含一家虚构管道公司的随机生成的发票。

前提条件

此 Codelab 基于其他 Document AI Codelab 中介绍的内容。

建议您先完成以下 Codelab，然后再继续。

学习内容

为账单解析器处理器配置自训练。
使用注释工具为 Document AI 训练数据添加标签。
训练新模型版本。
评估新模型版本的准确率。

所需条件

Google Cloud 项目
一个浏览器，例如 Chrome 或 Firefox

2. 准备工作

本 Codelab 假定您已完成入门 Codelab 中列出的 Document AI 设置步骤。

请先完成以下步骤，然后再继续操作：

3. 创建处理器

您需要先创建一个账单解析器处理器，以便在本实验中使用。

在控制台中，前往 Document AI 概览页面。

docai-uptraining-codelab-01

点击创建处理器，向下滚动到专用（或者在搜索栏中输入“账单解析器”），然后选择账单解析器。

docai-uptraining-codelab-02

将其命名为 codelab-invoice-uptraining（或您能记住的其他名称）并从列表中选择距离最近的区域。

docai-uptraining-codelab-03

点击创建以创建处理器。然后，您应该会看到“处理器概览”页面。

docai-uptraining-codelab-04

4. 创建数据集

如需训练处理器，我们必须创建一个包含训练和测试数据的数据集，以帮助处理器识别我们想要提取的实体。

您需要在 Cloud Storage 中创建新的存储桶来存储数据集。注意：此存储桶不得与当前存储文档的存储桶相同。

打开 Cloud Shell 并运行以下命令以创建存储桶。或者，在 Cloud 控制台中创建新存储桶。保存此存储桶名称，稍后会用到。

export PROJECT_ID=$(gcloud config get-value project)

gsutil mb -p $PROJECT_ID "gs://${PROJECT_ID}-uptraining-codelab"

前往数据集标签页，然后点击创建数据集

docai-uptraining-codelab-05

将您在第 1 步中创建的存储桶的名称粘贴到目标路径字段中。（请勿包含 gs://）

docai-uptraining-codelab-06

等待系统创建数据集，然后系统应会将您定向到“数据集管理”页面。

docai-uptraining-codelab-07

5. 导入测试文档

现在，我们将一个示例账单 PDF 文件导入我们的数据集。

点击导入文档

docai-uptraining-codelab-08

我们提供了一个示例 PDF 文件，供您在此实验中使用。将以下链接复制并粘贴到来源路径框中。暂时将“数据拆分”保留为“未分配”。点击导入。

cloud-samples-data/documentai/codelabs/uptraining/pdfs

docai-uptraining-codelab-09

等待文档导入。在我的测试中，此过程不到 1 分钟的时间。

docai-uptraining-codelab-10

导入完成后，您应该会在数据集管理界面中看到相应文档。点击该文档即可进入标签控制台。

docai-uptraining-codelab-11

6. 为测试文档添加标签

接下来，我们将为要提取的实体确定文本元素和标签。这些标签将用于训练我们的模型以解析此特定文档结构并确定正确的类型。

您现在应该位于标签控制台中，该控制台看起来应如下所示。

docai-uptraining-codelab-12

点击“选择文本”工具，然后突出显示文本“McWilliam Piping International Piping Company”并分配标签 supplier_name。您可以使用文本过滤条件来搜索标签名称。

docai-uptraining-codelab-13

突出显示文本“14368 Pipeline Ave Chino, CA 91710”，然后分配标签 supplier_address。

docai-uptraining-codelab-14

突出显示文本“10001”并分配标签 invoice_id。

docai-uptraining-codelab-15

突出显示文本“2020-01-02”，然后分配标签 due_date。

docai-uptraining-codelab-16

切换到“边界框”工具。突出显示文本“Knuckle Couplers”，然后分配标签 line_item/description。

docai-uptraining-codelab-17

突出显示文本“9”，然后分配标签 line_item/quantity。

docai-uptraining-codelab-18

突出显示文本“74.43”，然后分配标签 line_item/unit_price。

docai-uptraining-codelab-19

突出显示文本“669.87”，然后分配标签 line_item/amount。

docai-uptraining-codelab-20

针对接下来的两项商品重复上述 4 个步骤。完成后，它应如下所示。

docai-uptraining-codelab-21

突出显示“小计”旁边的文本“1,419.57”，并分配标签 net_amount。

docai-uptraining-codelab-22

突出显示“税费”旁边的文本“113.57”，然后分配标签 total_tax_amount。

docai-uptraining-codelab-23

突出显示“总计”旁边的文本“1,533.14”，并分配标签 total_amount。

docai-uptraining-codelab-24

突出显示其中一个“$”字符，并分配标签 currency。

docai-uptraining-codelab-25

添加标签后的文档应如下所示。请注意，您可以通过点击文档中的边界框或左侧菜单中的标签名称/值来调整这些标签。完成标签添加后，点击保存。

docai-uptraining-codelab-26

以下是标签和值的完整列表

标签名称	文本
`supplier_name`	McWilliam Piping International Piping Company
`supplier_address`	14368 Pipeline Ave Chino, CA 91710
`invoice_id`	10001
`due_date`	2020-01-02
`line_item/description`	转向节耦合器
`line_item/quantity`	9
`line_item/unit_price`	74.43
`line_item/amount`	669.87
`line_item/description`	PVC 管（12 英寸）
`line_item/quantity`	7
`line_item/unit_price`	15.90
`line_item/amount`	111.30
`line_item/description`	铜管
`line_item/quantity`	7
`line_item/unit_price`	91.20
`line_item/amount`	638.40
`net_amount`	1,419.57
`total_tax_amount`	113.57
`total_amount`	1,533.14
`currency`	$

7. 将文档分配给训练集

您现在应该会返回到数据集管理控制台。请注意，已加标签和未加标签的文档数量以及有效标签的数量都已发生变化。

docai-uptraining-codelab-27

我们需要将此文档分配给“训练”集或“测试”集。点击相应凭证。

docai-uptraining-codelab-28

点击分配给集合，然后点击训练。

docai-uptraining-codelab-29

请注意，数据拆分数量已发生变化。

docai-uptraining-codelab-30

8. 导入预先添加标签的数据

Document AI 增量训练要求训练集和测试集中至少有 10 个文档，并且每个集中的每个标签有 10 个实例。

为了获得最佳性能，我们建议您在每个数据集中至少有 50 个文档，每个标签至少有 50 个实例。通常，训练数据越多，准确性就越高。

手动为 100 份文档添加标签需要很长时间，因此我们提供了一些预先添加标签的文档，您可以在本实验中导入这些文档。

您可以导入 Document.json 格式的预先添加标签的文档文件。这些文件可能是调用处理器并使用人机协同 (HITL) 验证准确性的结果。

点击导入文档。

docai-uptraining-codelab-30

复制/粘贴以下 Cloud Storage 路径并将其分配给训练集。

cloud-samples-data/documentai/codelabs/uptraining/training

点击添加其他存储桶。然后，复制/粘贴以下 Cloud Storage 路径并将其分配给测试集。

cloud-samples-data/documentai/codelabs/uptraining/test

docai-uptraining-codelab-31

点击导入，然后等待文档导入。这将比上次花费更长的时间，因为要处理的文档更多。在我的测试中，此过程大约需要 6 分钟时间。您可以离开此页面，稍后再返回来查看。

docai-uptraining-codelab-32

完成后，您应该会在“数据集管理”页面中看到这些文档。

docai-uptraining-codelab-33

9. 修改标签

我们在此示例中使用的示例文档不包含账单解析器支持的所有标签。在训练之前，我们需要将不使用的标签标记为无效。您还可以按照类似的步骤在增量训练之前添加自定义标签。

点击左下角的管理标签。

docai-uptraining-codelab-33

您现在应该位于标签管理控制台中。

docai-uptraining-codelab-34

使用复选框和停用/启用按钮，仅将以下标签标记为已启用。
- currency
- due_date
- invoice_id
- line_item/amount
- line_item/description
- line_item/quantity
- line_item/unit_price
- net_amount
- supplier_address
- supplier_name
- total_amount
- total_tax_amount
完成后，控制台应如下所示。完成后，请点击保存。

docai-uptraining-codelab-35

点击返回箭头，返回到数据集管理控制台。请注意，实例数为 0 的标签已标记为“无效”。

docai-uptraining-codelab-36

10. 可选：为新导入的文档自动添加标签

在为已部署现有处理器版本的处理器导入未加标签的文档时，您可以使用自动加标签功能来节省加标签的时间。

在训练页面上，点击导入文档。
复制并粘贴以下路径。该目录包含 5 个没有加标签的发票 PDF 文件。在数据拆分下拉列表中，选择训练。
```
cloud-samples-data/documentai/Custom/Invoices/PDF_Unlabeled
```
在自动加标签部分，选中使用自动添加标签功能导入复选框。
选择现有处理器版本，以便为文档添加标签。