Document AI:人機迴圈

1. 簡介

Document AI API 是一項文件解讀解決方案,能擷取文件、電子郵件等非結構化資料,使資料更容易理解、分析及使用。

人工審查可確保文件程序的準確率提高,人工審查員可以提高準確度,並協助企業使用專門打造的工具評估預測結果。在本研究室中,您將運用人工審查機制設定及測試費用處理方,利用人機迴圈設定和管理工具驗證處理方的結果。

必要條件

本程式碼研究室是以其他 Document AI 程式碼研究室呈現的內容為基礎。

建議您先完成下列程式碼研究室,再繼續操作。

課程內容

  • 為處理器設定人工審查。
  • 建立人工審查使用者資源集區。
  • 建立人工審查測試工作。
  • 將人工審查工作指派給使用者。
  • 完成文件人工審查作業。

軟硬體需求

  • Google Cloud 專案
  • 瀏覽器,例如 ChromeFirefox
  • 對 Python 3 的瞭解

2. 開始設定

本程式碼研究室假設您已完成「入門程式碼研究室」中列出的 Document AI 設定步驟。

請先完成下列步驟再繼續:

您也需要啟用 Vertex AI API。

  1. 使用控制台頂端的搜尋列搜尋「Vertex AI API」,然後按一下「啟用」,即可在 Google Cloud 專案中使用該 API
  2. 您也可以使用以下 gcloud 指令啟用 API。
gcloud services enable aiplatform.googleapis.com

3. 建立處理器

您必須先建立用於這個研究室的「費用處理者」執行個體。

  1. 在控制台中,前往 Document AI Platform Overview (Document AI 平台總覽)
  2. 按一下「Create Processor」,然後向下捲動至「Specialized」並選取「Expense Parser」
  3. 輸入名稱 codelab-expense-parser (或其他您會記得的),然後從清單中選取最接近的區域。
  4. 點選「建立」來建立處理器
  5. 複製處理器 ID。您稍後必須在程式碼中使用此 ID。
  6. 在 Cloud Shell 中,使用 PROJECT_ID-hitl-results 做為名稱來建立儲存空間值區:
export PROJECT_ID=$(gcloud config get-value core/project)
gsutil mb gs://$PROJECT_ID-hitl-results
  1. 將使用者帳戶繫結至研究室專案的 Vertex AI 管理員 IAM 角色
export USER_ACCOUNT=$(gcloud config get-value core/account)
gcloud projects add-iam-policy-binding $PROJECT_ID --member=user:$USER_ACCOUNT --role=roles/aiplatform.admin

4. 設定人機迴圈

在這項工作中,您將針對先前建立的支出處理方設定人工審查。

  1. 在控制台中開啟「導覽選單」,然後選取「Document AI」
  2. 按一下「人機迴圈 AI」HITLMenu
  3. 按一下 codelab-expense-parser 即可開啟處理器的「人工審查」頁面。
  4. 按一下「Configure Human-in-the-Loop」

ConfigureHITL

  1. 選取「文件層級篩選器」
  2. 將「可信度門檻百分比」滑桿設為 50%。
  3. 將「專員」選項設為「使用自己的專員」

HITLFilters

  1. 按一下「特殊人員集區」下拉式選單,然後點選「新增名單集區」
  2. 在「集區名稱」的「新增專家集區」對話方塊中,輸入 Codelab HITL Pool
  3. 在「集區管理員」和「專員」輸入個人電子郵件地址
  4. 按一下「建立集區」

HITLSpecialistPool

這項作業會在幾分鐘內完成。你應該會收到來自 Vertex AI noreply-vertex@google.com 的電子郵件。

  1. 不要勾選「自動指派」核取方塊。
  2. 勾選「確認費用」部分的核取方塊。
  3. 點選「instructions location」,然後複製這個儲存位置:-「請勿」在路徑中加入前置字串 gs://
cloud-samples-data/documentai/codelabs/hitl/hitl-instructions.pdf
  1. 在「結果位置」中,按一下「瀏覽」,然後選取先前建立的 Cloud Storage 值區。
  2. 按一下「選取」
  3. 按一下「Save Configuration」

控制台會顯示「設定人機迴圈」,需要幾分鐘的時間才能完成。

HITLLoading

  1. 設定完成後,控制台會提示您啟用人機迴圈。
  • 按一下「切換」按鈕即可啟用。
  • 然後在彈出式對話方塊中按一下「啟用」

HITLEnable

上傳費用樣本

  1. 我們提供了一份範例表單,供您儲存在 Google Cloud Storage 中。您可以透過下方的按鈕或指令下載:

gsutil cp gs://cloud-samples-data/documentai/codelabs/hitl/expense-claim.pdf .
  1. 啟用人機迴圈後,請按一下「Upload Document」按鈕,然後瀏覽剛下載的範例文件。
  2. 按一下「上傳」,然後等待作業完成。

5. 指派項目送交人工審查

  1. 這個頁面中應該會顯示集區管理員和專家控制台的連結。這些連結也會顯示在「Vertex AI noreply-vertex@google.com」寄來的電子郵件中。
    • 他應該:https://datacompute.google.com/cm/cloudml_data_specialists_us_central1_xxxxxxx/tasks
    • 按一下「管理員」控制台的連結。

  1. 進入資料標籤控制台後,按一下「工作」分頁標題,開啟工作指派頁面。
  2. 按一下「未指派」核取方塊。您應該會看到新項目列在 codelab-expense-parser-P1 工作佇列中。

圖片

  1. 選取「codelab-expense-parser-P1」codelab-expense-parser-P1
  2. 按一下「管理作業」
  3. 在「加入專員的電子郵件」文字方塊中輸入你的個人電子郵件地址,然後從下拉式清單中選取該電子郵件地址。
  4. 按一下 [套用]

螢幕現在會顯示工作已指派給您。您可能會發現這項資訊可能需要幾分鐘才能全面生效,並且顯示在畫面上。

圖片

  1. 選取新使用者,然後按一下選單圖示。
  2. 在顯示的彈出式選單中,按一下「指派給所有工作」

圖片

  1. 按一下「Commit changes」
  2. 按一下 [Commit]

圖片

6. 執行人工審查任務

  1. 返回 Cloud 控制台中的「人機迴圈」設定頁面。

按一下連結,前往專員 (工作站) 控制台。這看起來像 https://datacompute.google.com/w/cloudml_data_specialists_us_central1_xxxxxxxxxxx

工作站控制台應會開啟並列出您的新工作。

圖片

  1. 將滑鼠遊標懸停在包含「與 4 分鐘開會」的委刊項上,然後按一下「編輯」圖示 (鉛筆圖示)。
  2. 編輯值,將文字變更為「與 Adam 會談」。您可能需要向下捲動文字方塊才能看到文字。
  3. 按一下 [套用]
  4. 點選下方的「確認」 (綠色勾號) 圖示。圖片
  5. 按一下其他醒目顯示的實體的「確認」圖示。
  6. 按一下「提交」。審查工作已從標籤人員佇列中移除。

7. 查看完成的工作

  1. 返回管理控制台。
  2. 按一下「Tasks」,然後選取「進行中」圖片
  3. 按一下「專員」
  4. 接著選取要使用的電子郵件地址。
  5. 按一下「管理作業」
  6. Select specialists working on specific tasksSelect tasks 下拉式選單中選取「expense-processor-P1」。為每個選項按一下「套用」。在已指派給您的 expense-processor-P1 內容選單中,選取「查看專家」

圖片

標籤人員提交標籤工作之後,已作答的工作數量和總時間都會更新,但這個檢視畫面的資料可能需要幾分鐘才會顯示。

  1. 關閉專員彈出式視窗,然後查看「專家」分頁。
  2. 按一下使用者名稱的內容選單,然後選取「查看工作」

這個檢視畫面會顯示使用者的工作清單、完成數以及所需時間,如下所示:

圖片

8. 恭喜

恭喜!您已成功使用 Document AI 人機迴圈,為透過 Document AI 費用處理器處理的文件設定人工審查作業。

清除所用資源

如要避免系統向您的 Google Cloud 帳戶收取您在本教學課程中所用資源的相關費用:

  • 在 Cloud 控制台中,前往「管理資源」頁面。
  • 在專案清單中,選取您的專案,然後按一下「刪除」。
  • 在對話方塊中輸入專案 ID,然後按一下「關閉」,即可刪除專案。

瞭解詳情

參加這些後續的程式碼研究室,繼續學習 Document AI。

資源

授權

這項內容採用的是創用 CC 姓名標示 2.0 通用授權。