Document AI:人機迴圈

1. 簡介

Document AI API 是文件解讀解決方案,可擷取文件、電子郵件等非結構化資料,方便您解讀、分析及使用。

透過人工審查,您可以確保文件處理的準確度。人工審查可以提升準確性,並協助企業使用專為這種審查設計的工具評估預測結果。在本實驗室中,您將設定及測試費用處理器,並使用人機迴圈設定和管理工具,透過專人審查驗證處理器的結果。

必要條件

本程式碼研究室以其他 Document AI 程式碼研究室的內容為基礎。

建議您先完成下列程式碼研究室,再繼續操作。

課程內容

  • 為處理器設定人工審查。
  • 建立人工審查使用者資源集區。
  • 建立測試人工審查工作。
  • 將人工審查工作指派給使用者。
  • 完成文件的人工審查。

軟硬體需求

  • Google Cloud 專案
  • ChromeFirefox 瀏覽器
  • Python 3 知識

2. 開始設定

本程式碼研究室假設您已完成入門程式碼研究室中列出的 Document AI 設定步驟。

請先完成下列步驟再繼續:

您也需要啟用 Vertex AI API。

  1. 使用控制台頂端的搜尋列搜尋「Vertex AI API」,然後點按「啟用」,即可在 Google Cloud 專案中使用這個 API
  2. 或者,您也能使用下列 gcloud 指令啟用 API。
gcloud services enable aiplatform.googleapis.com

3. 建立處理器

您必須先建立費用處理器執行個體,才能在本實驗室中使用。

  1. 前往控制台的「Document AI Platform Overview」
  2. 點按「建立處理器」,捲動至「專用」,然後選取「費用剖析器」
  3. 將名稱設為 codelab-expense-parser (或是您可以記住的其他名稱),然後從清單中選取最接近的區域。
  4. 點按「建立」即可建立處理器
  5. 複製處理器 ID。您稍後必須在程式碼中使用此 ID。
  6. 在 Cloud Shell 中,建立名為 PROJECT_ID-hitl-results 的儲存空間 bucket:
export PROJECT_ID=$(gcloud config get-value core/project)
gsutil mb gs://$PROJECT_ID-hitl-results
  1. 將使用者帳戶繫結至實驗室專案的 Vertex AI 管理員 IAM 角色
export USER_ACCOUNT=$(gcloud config get-value core/account)
gcloud projects add-iam-policy-binding $PROJECT_ID --member=user:$USER_ACCOUNT --role=roles/aiplatform.admin

4. 設定人機迴圈

在這項工作中,您將為先前建立的費用處理器設定專人審查。

  1. 在控制台中開啟導覽選單,然後選取「Document AI」
  2. 按一下「人機迴圈 AI」HITLMenu
  3. 按一下 codelab-expense-parser,開啟處理器的人工審查頁面。
  4. 按一下「設定人機迴圈」

ConfigureHITL

  1. 選取「文件層級篩選器」
  2. 將「可信度門檻 %」滑桿設為 50%。
  3. 將「專員」選項設為「使用自己的專員」

HITLFilters

  1. 按一下「專員集區」下拉式方塊,然後點選「新增專員集區」
  2. 在「New specialist pool」(新增專員集區) 對話方塊中,輸入「Pool name」(集區名稱) Codelab HITL Pool
  3. 輸入「集區管理員」和「專員」的個人電子郵件地址
  4. 按一下「建立集區」

HITLSpecialistPool

這項作業要幾分鐘才能完成。您應該會收到 Vertex AI noreply-vertex@google.com 的電子郵件。

  1. 取消勾選「自動指派」核取方塊。
  2. 按一下「確認費用」專區中的核取方塊。
  3. 按一下「Instructions location」(操作說明位置),然後複製這個儲存空間位置:- 請勿在路徑中加入 gs:// 前置字串
cloud-samples-data/documentai/codelabs/hitl/hitl-instructions.pdf
  1. 在「結果位置」中,按一下「瀏覽」,然後選取您先前建立的 Cloud Storage bucket。
  2. 按一下「選取」
  3. 按一下「Save Configuration」

控制台現在會顯示「正在設定人工參與迴路」,這項作業需要幾分鐘才能完成。

HITLLoading

  1. 設定完成後,控制台會提示您啟用人機迴圈。
  • 按一下切換按鈕即可啟用。
  • 然後在彈出式對話方塊中按一下「啟用」

HITLEnable

上傳費用表單範本

  1. 我們在 Google Cloud Storage 中儲存了可使用的範例表單。您可以透過下列按鈕或指令下載:

gsutil cp gs://cloud-samples-data/documentai/codelabs/hitl/expense-claim.pdf .
  1. 啟用「人工介入」後,按一下「上傳文件」按鈕,然後瀏覽剛才下載的範例文件。
  2. 按一下「上傳」,然後等待完成。

5. 指派項目進行人工審查

  1. 這個頁面會顯示集區管理員和專員控制台的連結。這些連結也會顯示在 Vertex AI noreply-vertex@google.com的電子郵件中。
    • 應該會顯示 https://datacompute.google.com/cm/cloudml_data_specialists_us_central1_xxxxxxx/tasks
    • 按一下「管理員」控制台的連結。

  1. 進入資料標註控制台後,按一下「Tasks」(工作) 分頁標題,開啟工作指派頁面。
  2. 按一下「未指派」核取方塊。您應該會看到 codelab-expense-parser-P1 工作佇列列出新項目。

圖片

  1. 選取「codelab-expense-parser-P1」codelab-expense-parser-P1
  2. 按一下「管理指派作業」
  3. 在「透過電子郵件加入專家」文字方塊中輸入您的個人電子郵件地址,然後從下拉式清單中選取。
  4. 按一下「套用」

畫面現在會顯示工作已指派給您。這項作業可能需要幾分鐘才能完成。

圖片

  1. 選取新使用者,然後按一下選單圖示。
  2. 在隨即顯示的彈出式選單中,按一下「指派給所有工作」

圖片

  1. 按一下「Commit changes」(提交變更)
  2. 按一下「修訂版本」

圖片

6. 執行人工審查工作

  1. 返回 Cloud 控制台的人機迴圈設定頁面。

按一下連結即可前往專員 (工作人員) 控制台。看起來會像 https://datacompute.google.com/w/cloudml_data_specialists_us_central1_xxxxxxxxxxx

工作人員控制台應會開啟,並列出新工作。

圖片

  1. 將滑鼠游標懸停在含有「與 4m 會議」的項目上,然後按一下「編輯」 (鉛筆) 圖示。
  2. 編輯值,將文字變更為「Meeting with Adam」(與 Adam 的會議)。你可能需要向下捲動文字方塊,才能看到文字。
  3. 按一下「套用」
  4. 按一下下方項目的「確認」 (綠色勾號) 圖示。圖片
  5. 點按其他醒目顯示實體的「確認」圖示。
  6. 按一下「提交」。審查工作已從標籤者佇列中移除。

7. 查看已完成的工作

  1. 返回管理員控制台。
  2. 按一下「工作」,然後選取「進行中」圖片
  3. 按一下「專家」
  4. 選取您的電子郵件地址。
  5. 按一下「管理指派作業」
  6. Select specialists working on specific tasksSelect tasks 下拉式選單中選取「expense-processor-P1」。按一下各個選取項目的「套用」。在已指派給您的「expense-processor-P1」內容選單中,選取「查看專家」

圖片

標記者提交標記工作後,系統會更新已回答的工作數量和總耗時,但這個檢視畫面中的資料可能需要幾分鐘才會顯示。

  1. 關閉「專家」彈出式視窗,然後查看「專家」分頁。
  2. 按一下使用者名稱的內容選單,然後選取「查看工作」

這個檢視畫面會顯示使用者的工作清單、完成次數和所花時間,如下所示:

圖片

8. 恭喜

恭喜!您已成功使用 Document AI 人機迴圈,為透過 Document AI 費用處理器處理的文件設定人工審查。

清除

如要避免系統向您的 Google Cloud 帳戶收取您在本教學課程中所用資源的相關費用:

  • 前往 Cloud Console 中的「管理資源」頁面。
  • 在專案清單中選取專案,然後按一下「刪除」。
  • 在對話方塊中輸入專案 ID,然後按一下「關閉」即可刪除專案。

瞭解詳情

歡迎透過下列後續程式碼研究室,進一步瞭解 Document AI。

資源

授權

這項內容採用的授權為 Creative Commons 姓名標示 2.0 通用授權。