Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Document AI Workbench - 進階訓練

1. 簡介

Document AI 是一項文件解讀解決方案，可將文件、電子郵件等非結構化的資料擷取出來，讓您更輕鬆地解讀、分析和消化這些資料。

透過 Document AI Workbench 進階訓練模型，並為特定文件類型提供更多標記範例，即可建立新模型版本，進而提高文件處理的準確率。

在本實驗室中，您將建立應付憑據剖析器處理器、設定處理器以進行進階訓練、為範例文件加上標籤，以及進階訓練處理器。

本實驗室使用的文件資料集，包含虛構管道公司的隨機產生發票。

必要條件

本程式碼研究室以其他 Document AI 程式碼研究室的內容為基礎。

建議您先完成下列程式碼研究室，再繼續操作。

課程內容

設定應付憑據剖析器處理器的進階訓練。
使用註解工具為 Document AI 訓練資料加上標籤。
訓練新版模型。
評估新模型版本的準確度。

軟硬體需求

Google Cloud 專案
Chrome 或 Firefox 瀏覽器

2. 開始設定

本程式碼研究室假設您已完成入門程式碼研究室中列出的 Document AI 設定步驟。

請先完成下列步驟再繼續：

3. 建立處理器

您必須先建立應付憑據剖析器處理器，才能在本實驗室中使用。

在控制台中，前往「Document AI Overview」頁面。

docai-uptraining-codelab-01

點按「建立處理器」，捲動至「專用」 (或在搜尋列中輸入「應付憑據剖析器」)，然後選取「應付憑據剖析器」。

docai-uptraining-codelab-02

將名稱設為 codelab-invoice-uptraining (或是您可以記住的其他名稱)，然後從清單中選取最接近的區域。

docai-uptraining-codelab-03

點按「建立」即可建立處理器。接著，您應該會看到「處理器總覽」頁面。

docai-uptraining-codelab-04

4. 建立資料集

如要訓練處理器，我們必須建立具有訓練和測試資料的資料集，以協助處理器識別要擷取的實體。

您需要在 Cloud Storage 中建立新值區，以儲存資料集。注意：請勿使用目前儲存文件的 bucket。

開啟 Cloud Shell，然後執行下列指令來建立 bucket。您也可以在 Cloud 控制台中建立新的 bucket。請儲存這個 bucket 名稱，後續步驟會用到。

export PROJECT_ID=$(gcloud config get-value project)

gsutil mb -p $PROJECT_ID "gs://${PROJECT_ID}-uptraining-codelab"

前往「資料集」分頁，然後點按「建立資料集」

docai-uptraining-codelab-05

將您在步驟一建立的值區名稱，貼到「Destination Path」(目的地路徑) 欄位。(請勿加入 gs://)

docai-uptraining-codelab-06

等待資料集建立完成，系統應會將您導向資料集管理頁面。

docai-uptraining-codelab-07

5. 匯入測試文件

現在，請將應付憑據 PDF 範例匯入資料集。

按一下「Import Documents」(匯入文件)

docai-uptraining-codelab-08

我們提供範例 PDF，供您在本實驗室中使用。複製下列連結並貼到「來源路徑」方塊中。目前請將「資料分割」保留為「未指派」。按一下「匯入」。

cloud-samples-data/documentai/codelabs/uptraining/pdfs

docai-uptraining-codelab-09

等待系統匯入文件。在我的測試中，這個過程不到 1 分鐘。

docai-uptraining-codelab-10

匯入完成後，您應該會在資料集管理使用者介面中看到該文件。按一下即可進入標籤控制台。

docai-uptraining-codelab-11

6. 為測試文件加上標籤

接著，我們會找出要擷取實體的文字元素和標籤。這些標籤將用於訓練模型，以便剖析這類特定文件結構並識別正確類型。

現在應該會進入標記控制台，畫面如下所示。

docai-uptraining-codelab-12

按一下「選取文字」工具，然後醒目顯示「McWilliam Piping International Piping Company」文字，並指派 supplier_name 標籤。您可以使用文字篩選器搜尋標籤名稱。

docai-uptraining-codelab-13

醒目顯示「14368 Pipeline Ave Chino, CA 91710」文字，並指派 supplier_address 標籤。

docai-uptraining-codelab-14

醒目顯示「10001」文字，並指派 invoice_id 標籤。

docai-uptraining-codelab-15

醒目顯示「2020-01-02」文字，然後指派 due_date 標籤。

docai-uptraining-codelab-16

切換至「Bounding Box」工具。醒目顯示「Knuckle Couplers」文字，並指派 line_item/description 標籤。

docai-uptraining-codelab-17

醒目顯示「9」這個文字，然後指派 line_item/quantity 標籤。

docai-uptraining-codelab-18

醒目顯示「74.43」文字，並指派 line_item/unit_price 標籤。

docai-uptraining-codelab-19

醒目顯示「669.87」文字，並指派 line_item/amount 標籤。

docai-uptraining-codelab-20

針對下兩個委刊項重複執行上述 4 個步驟。完成後應如下所示。

docai-uptraining-codelab-21

醒目顯示「小計」旁的「1,419.57」，然後指派 net_amount 標籤。

docai-uptraining-codelab-22

醒目顯示「稅金」旁邊的「113.57」，然後指派 total_tax_amount 標籤。

docai-uptraining-codelab-23

醒目顯示「總計」旁的「1,533.14」文字，然後指派 total_amount 標籤。

docai-uptraining-codelab-24

醒目顯示其中一個「$」字元，並指派 currency 標籤。

docai-uptraining-codelab-25

完成後，加上標籤的文件應如下所示。請注意，如要調整這些標籤，可以點選文件中的邊界方塊，或左側選單中的標籤名稱/值。標籤完成後，請按一下「儲存」。

docai-uptraining-codelab-26

以下是完整的標籤和值清單

標籤名稱	Text
`supplier_name`	麥克威廉國際管道公司
`supplier_address`	14368 Pipeline Ave Chino, CA 91710
`invoice_id`	10001
`due_date`	2020-01-02
`line_item/description`	連接管
`line_item/quantity`	9
`line_item/unit_price`	74.43
`line_item/amount`	669.87
`line_item/description`	聚氯乙烯管 (12 英寸)
`line_item/quantity`	7
`line_item/unit_price`	15.90
`line_item/amount`	111.30
`line_item/description`	銅管
`line_item/quantity`	7
`line_item/unit_price`	91.20
`line_item/amount`	638.40
`net_amount`	1,419.57
`total_tax_amount`	113.57
`total_amount`	1,533.14
`currency`	$

7. 將文件指派給訓練集

您現在應該會返回資料集管理控制台。請注意，標示和未標示的文件數量以及有效標籤數量也已變更。

docai-uptraining-codelab-27

我們需要將這份文件指派給「訓練」或「測試」集。按一下文件。

docai-uptraining-codelab-28

按一下「指派給資料集」，然後點選「訓練」。

docai-uptraining-codelab-29

請注意，資料分割的數字已變更。

docai-uptraining-codelab-30

8. 匯入預先加上標籤的資料

Document AI Uptraining 在訓練集和測試集中至少需要 10 個文件，每個組合中的每個標籤至少需要 10 個執行個體。

建議您每個組合至少加入 50 份文件，每個標籤包含 50 個例項，以獲得最佳成效。訓練資料越多，通常就越準確。

手動為 100 份文件加上標籤需要很長時間，因此我們提供了一些預先加上標籤的文件，您可以在這個實驗室中匯入這些文件。

您可以匯入 Document.json 格式的預先標記文件檔案。這些結果可能來自於呼叫處理器，並使用人機迴圈 (HITL) 驗證準確度。

按一下「匯入文件」。

docai-uptraining-codelab-30

複製/貼上下列 Cloud Storage 路徑，並指派給「訓練」集。

cloud-samples-data/documentai/codelabs/uptraining/training

按一下「新增其他儲存空間」。然後複製/貼上下列 Cloud Storage 路徑，並指派給「測試」集。

cloud-samples-data/documentai/codelabs/uptraining/test

docai-uptraining-codelab-31

按一下「Import」(匯入)，然後等待系統匯入文件。這次需要處理的文件較多，因此時間會比上次長。根據我的測試結果，這項程序大約需要 6 分鐘。您可以先離開這個頁面，稍後再返回查看。

docai-uptraining-codelab-32

完成後，您應該會在資料集管理頁面看到這些文件。

docai-uptraining-codelab-33

9. 編輯標籤

我們在這個範例中使用的範例文件，並未包含應付憑據剖析器支援的所有標籤。訓練前，我們需要將未使用的標籤標示為無效。您也可以按照類似步驟，在進階訓練前新增自訂標籤。

按一下左下角的「管理標籤」。

docai-uptraining-codelab-33

您現在應該會進入標籤管理控制台。

docai-uptraining-codelab-34

使用核取方塊和「停用」/「啟用」按鈕，將下列標籤標示為「已啟用」。
- currency
- due_date
- invoice_id
- line_item/amount
- line_item/description
- line_item/quantity
- line_item/unit_price
- net_amount
- supplier_address
- supplier_name
- total_amount
- total_tax_amount
完成後，控制台應如下所示。完成後，請按一下「儲存」。

docai-uptraining-codelab-35

按一下返回箭頭，返回資料集管理控制台。請注意，例項數為 0 的標籤已標示為「停用」。

docai-uptraining-codelab-36

10. 選用：自動為新匯入的文件加上標籤

在使用現有已部署處理器版本的處理器匯入無標籤文件時，您可以使用自動加上標籤功能節省標籤時間。

在「Train」(訓練) 頁面上，按一下「Import Documents」(匯入文件)。
複製及貼上下列路徑。這個目錄包含 5 個未加上標籤的應付憑據 PDF。在「Data split」(資料分割) 下拉式清單中選取「Training」(訓練)。
```
cloud-samples-data/documentai/Custom/Invoices/PDF_Unlabeled
```
在「自動加上標籤」專區中，勾選「使用自動加上標籤功能匯入」核取方塊。
選取現有的處理器版本來為文件加上標籤。

例如：pretrained-invoice-v1.3-2022-07-15

按一下「Import」(匯入)，然後等待系統匯入文件。您可以先離開這個頁面，稍後再返回查看。

完成後，文件就會顯示在「Auto-labeling」(自動加上標籤) 區段的「Train」(訓練) 頁面中。

您不得將自動加上標籤的文件用於訓練或測試，除非您將其標示為已加上標籤。如要查看已自動加上標籤的文件，請前往「Auto-labeled」(已自動加上標籤) 專區。
選取第一份文件即可進入標籤控制台。
確認標籤、定界框和值是否正確。為省略的任何值加上標籤。
完成後，請選取「標示為已加上標籤」。
為每個自動加上標籤的文件重複執行標籤驗證，然後返回「Train」(訓練) 頁面來使用這些資料進行訓練。