1. 簡介
Document AI 是一項文件解讀解決方案,可擷取文件、電子郵件等非結構化資料,使資料更容易理解、分析及取用。
透過 Document AI Workbench,您能使用自己的訓練資料完全自訂模型,進而提高文件處理準確率。
在本研究室中,您將建立自訂文件擷取處理器、匯入資料集、為範例文件加上標籤,並訓練處理器。
本研究室中使用的文件資料集來自偽造的 W-2 (美國稅務表單) 資料集,其中的 Kaggle 資料集為 CC0:公有領域授權。
必要條件
本程式碼研究室是以其他 Document AI 程式碼研究室呈現的內容為基礎。
建議您先完成下列程式碼研究室,再繼續操作。
- 具備 Document AI 的光學字元辨識 (OCR) 功能 (Python)
- 使用 Document AI 剖析表單 (Python)
- 使用 Document AI 的特殊處理器 (Python)
- 使用 Python 管理 Document AI 處理器
- Document AI:人機迴圈
- Document AI:進階訓練
課程內容
- 建立自訂文件擷取器處理器。
- 使用註解工具為 Document AI 訓練資料加上標籤。
- 訓練新的模型版本。
- 評估新模型版本的準確率。
軟硬體需求
2. 開始設定
本程式碼研究室假設您已完成「入門程式碼研究室」中列出的 Document AI 設定步驟。
請先完成下列步驟再繼續:
3. 建立處理器
您必須先建立要用於這個研究室的自訂文件擷取處理器。
- 按一下「建立自訂處理器」,然後選取「自訂文件擷取器」。
- 輸入名稱
codelab-custom-extractor
(或其他您會記得的),然後從清單中選取最接近的區域。
- 點選「建立」來建立處理器。系統隨即會顯示「Processor Overview」(處理器總覽) 頁面。
4. 建立資料集
為訓練處理器,我們必須建立含有訓練和測試資料的資料集,協助處理者找出要擷取的實體。
- 在「Processor Overview」(處理器總覽) 頁面中,點選「Configure Your Dataset」(設定資料集)。
- 現在您應位於「Configure Dataset」頁面中。如要指定用來儲存訓練文件和標籤的值區,請按一下「Show Advanced Options」。否則,請按一下「Continue」。
- 等待資料集建立完成,接著系統會將您導向「Training」(訓練) 頁面。
5. 匯入測試文件
現在,我們將 W2 PDF 範例檔案匯入資料集。
- 按一下「匯入文件」。
- 在這個研究室中,我們準備了一份 PDF 範例供您使用。複製下列連結,然後貼到「Source Path」方塊中。保留「資料分割」「未指派」。請不要勾選所有其他方塊。按一下「匯入」。
cloud-samples-data/documentai/codelabs/custom/extractor/pdfs
- 等待文件匯入完成。切換作業應會在 1 分鐘內完成,
- 匯入完成後,您應該會在「Training」(訓練) 頁面看到文件。
6. 建立標籤
由於我們正在建立新的處理器類型,因此必須建立自訂標籤,向 Document AI 說明要擷取哪些欄位。
- 按一下左下角的「編輯結構定義」。
- 現在應該會進入結構定義管理主控台。
- 使用「Create Label」按鈕建立下列標籤。
名稱 | 資料類型 | 發生次數 |
| 數字 | 必要 (可出現多次) |
| 純文字 | 必要 (可出現多次) |
| 純文字 | 必要 (可出現多次) |
| 地址 | 必要 (可出現多次) |
| 金額 | 必要 (可出現多次) |
| 金額 | 必要 (可出現多次) |
| 金額 | 必要 (可出現多次) |
| 金額 | 必要 (可出現多次) |
- 完成時,控制台看起來應該像這樣。完成後,按一下「儲存」。
- 點選「返回」箭頭,即可返回「訓練」頁面。請注意,我們建立的標籤會顯示在左下角。
7. 為測試文件加上標籤
接著,讓我們為想要擷取的實體識別文字元素和標籤。這些標籤將用於訓練模型,藉此剖析這個特定文件結構並找出正確的類型。
- 按兩下我們先前匯入的文件,進入標籤控制台。看起來應該會像這樣
- 按一下「定界框」然後在工具中醒目顯示文字「1173038」並指派「
CONTROL_NUMBER
」標籤。您可以使用文字篩選器搜尋標籤名稱。
- 為另一個
CONTROL_NUMBER
例項完成上述步驟後,這些例項應該看起來像套用了標籤。
- 醒目顯示下列文字值的所有例項,並指派適當的標籤。
標籤名稱 | 文字 |
| 24-3188810 |
| 19127.2 |
| 5093.71 |
| 66584.46 |
| 56081.18 |
| 714-32-2105 |
| Adams、Chase 和 Gilbert Inc 972 Gonzalez Dam South Katherine NC 95869-5178 |
- 完成後,加上標籤的文件應該會如下所示。請注意,如要調整這些標籤,只需按一下文件中的定界框,或是左側選單的標籤名稱/值即可。完成標籤作業後,請按一下「標示為已加上標籤」,然後返回資料集管理主控台。
8. 將文件指派給訓練集
現在應該會回到資料集管理主控台。請注意,已加上標籤和未加上標籤的文件數量和每個標籤的例項數量已變更。
- 我們必須將這份文件指派給「訓練」或「Test」設定。按一下文件,依序點選「Assign to Set」和「Training」。
- 請注意,資料分割的數字已變更。
9. 匯入預先加上標籤的資料
訓練集和測試集內至少須有 10 份文件,Document AI 自訂處理器各包含 10 個執行個體。
建議每個集內至少包含 50 份文件,且每個標籤各有 50 個執行個體,以獲得最佳效能。訓練資料越多,通常就越準確。
手動為所有文件加上標籤需要很長的時間,因此我們提供了一些預先加上標籤的文件,可供本研究室匯入。
您可以匯入預先加上標籤的文件檔案,格式為 Document.json
。這可能是呼叫處理器,並使用 Human in the Loop (HITL) 驗證準確率所致。
負面影響
注意:匯入預先加上標籤的資料時,強烈建議您在訓練模型之前,先手動檢查註解。
- 按一下「匯入文件」。
- 複製/貼上下列 Cloud Storage 路徑,然後指派給 Training 集。
cloud-samples-data/documentai/codelabs/custom/extractor/training
- 按一下「新增其他資料夾」。接著複製/貼上下列 Cloud Storage 路徑,然後指派給「Test」集。
cloud-samples-data/documentai/codelabs/custom/extractor/test
- 按一下「Import」(匯入),然後等待系統匯入文件。由於需要處理的文件數量較多,作業時間會比上次更長。這項作業大約需要 6 分鐘。您可以先離開這個頁面,稍後再返回查看。
- 完成後,您應該會在「Training」(訓練) 頁面看到文件。
10. 訓練模型
現在,我們已準備好開始訓練「自訂文件擷取器」。
- 按一下「Train New Version」。
- 為版本設定您容易記住的名稱,例如
codelab-custom-1
。在「訓練方法」部分,選取「從頭開始訓練」。
- (選用) 也可以選取「查看標籤統計資料」,查看資料集中標籤的指標。
- 按一下「Start Training」即可開始訓練程序。系統應會將您重新導向至資料集管理頁面。您可以在右側查看訓練狀態。訓練會在幾個小時內完成。您可以先離開這個頁面,稍後再返回查看。
- 按一下版本名稱,系統會將您導向至「管理版本」頁面,其中會顯示版本 ID 和訓練工作目前的狀態。
11. 測試新版模型版本
訓練工作完成後 (測試中大約需要 1 小時),您現在可以測試新的模型版本,並開始使用該模型進行預測。
- 前往「管理版本」頁面。這裡會顯示目前的狀態和 F1 分數。
- 需要先部署這個模型版本,才能開始使用。按一下右側的垂直圓點,然後選取「Deploy Version」。
- 等待版本部署完成時,從彈出式視窗中選取「部署」。這項作業會在幾分鐘內完成。部署完成後,您也可以將這個版本設為預設版本。
- 部署完成後,請前往「評估」分頁。在這個頁面中,您可以查看整份文件和個別標籤的評估指標,包括整份文件的 F1 分數、精確度和喚回度。如要進一步瞭解這些指標,請參閱 AutoML 說明文件。
- 透過下方連結下載 PDF 檔案。這裡並未涵蓋訓練或測試集內的 W2 範例。
- 按一下「Upload Test Document」,然後選取 PDF 檔案。
- 擷取的實體應如下所示。
12. 選用:自動為新匯入的文件加上標籤
部署經過訓練的處理器版本後,您可以在匯入新文件時使用自動加上標籤功能,節省標籤時間。
- 在「訓練」頁面中,按一下「匯入文件」。
- 複製並貼上下列 路徑。這個目錄包含 5 個未加上標籤的 W2 PDF。從「資料分割」下拉式清單中選取「訓練」。
cloud-samples-data/documentai/Custom/W2/AutoLabel
- 在「自動加上標籤」部分中,勾選「匯入並自動加上標籤」核取方塊。
- 選取現有的處理器版本來為文件加上標籤。
- 例如:
2af620b2fd4d1fcf
- 按一下「Import」(匯入),然後等待系統匯入文件。您可以先離開這個頁面,稍後再返回查看。
- 完成後,文件就會顯示在「Auto-labeling」(自動加上標籤) 區段的「Train」(訓練) 頁面中。
- 您不得將自動加上標籤的文件用於訓練或測試,除非您將其標示為已加上標籤。前往「已自動加上標籤」專區,查看已自動加上標籤的文件。
- 選取第一份文件即可進入標籤控制台。
- 確認標籤、定界框和值是否正確。為省略的任何值加上標籤。
- 完成後,選取「標示為已加上標籤」。
- 為每個自動加上標籤的文件重複執行標籤驗證,然後返回「Train」(訓練) 頁面來使用這些資料進行訓練。
13. 結語
恭喜!您已成功使用 Document AI 訓練自訂文件擷取器處理器。您現在可以使用這個處理器來剖析這種格式的文件,就像其他專用處理器一樣。
請參閱特殊處理器程式碼研究室,瞭解如何處理回應。
清除所用資源
如要避免系統向您的 Google Cloud 帳戶收取您在本教學課程中所用資源的相關費用:
資源
- Document AI Workbench 說明文件
- 文件的未來 - YouTube 播放清單
- Document AI 說明文件
- Document AI Python 用戶端程式庫
- Document AI 範例
授權
這項內容採用的是創用 CC 姓名標示 2.0 通用授權。