使用 Procurement Document AI,透過 AI 平台筆記本剖析月結單

1. 總覽

c65b9ae04aa1853.png

什麼是採購文件專用 Document AI?

企業每年要管理龐大的採購管道,包括數千張應付憑據、收據和其他相關文件。使用 Procurement DocAI 智慧處理「暗資料」,例如 PDF、圖片和手寫表單,減少採購生命週期中的手動負擔。將應付憑據和收據等非結構化文件轉換成結構化資料,藉此大規模自動擷取採購資料,進而提升作業效率、改善客戶體驗並做出適當決策。

在本程式碼研究室中,我們將說明如何設定 Document AI 平台、處理範例帳單,以及在 AI 平台 Notebook 中擷取及顯示實體。

課程內容

  • 如何開始使用 Document AI 平台
  • 使用 Procurement DocAI 解決方案擷取實體並加上結構定義
  • 建立及自訂 AI Platform Notebooks 執行個體

軟硬體需求

  • Google Cloud 專案
  • ChromeFirefox 瀏覽器
  • Python 3 知識

問卷調查

您會如何使用本教學課程?

僅閱讀 閱讀並完成練習

你對 Python 的使用體驗如何?

新手 中級 熟練

您對使用 Google Cloud 服務的體驗滿意嗎?

新手 中級 熟練

2. 設定和需求

自修實驗室環境設定

  1. 登入 Cloud 控制台,建立新專案或重複使用現有專案。(如果沒有 Gmail 或 G Suite 帳戶,請先建立帳戶)。

記住專案 ID,這是所有 Google Cloud 專案中不重複的名稱。(很抱歉,上述名稱已遭占用,無法使用!)。您稍後必須提供此 ID 做為 PROJECT_ID

  1. 接著,您必須在 Cloud 控制台中啟用帳單,才能使用 Google Cloud 資源。

完成活動後,請務必按照「清除」部分的指示操作,當中會說明如何停用資源,避免在本教學課程結束後繼續產生帳單費用。Google Cloud 新使用者可參加價值$300 美元的免費試用計畫。

3. 啟用 Cloud Document AI API

您必須先啟用 API,才能使用 Document AI。在瀏覽器中開啟 Cloud Console

  1. 依序點選「導覽選單」圖示 ☰ >「API 和服務」>「程式庫」Search API
  2. 搜尋「Document AI API」,然後點按「啟用」,即可在 Google Cloud 雲端專案中使用這個 API

4. 建立及測試處理器

在本教學課程中,您必須先建立表單剖析器的處理器執行個體,才能用於 Document AI 平台。

  1. 在控制台中,前往「Document AI Platform Overview」
  2. 按一下「建立處理器」,然後選取「應付憑據剖析器」處理器
  3. 指定處理器名稱,然後從清單中選取區域。
  4. 點按「建立」即可建立處理器
  5. 複製處理器 ID。您稍後必須在程式碼中使用此 ID。

(選用) 上傳文件即可在控制台測試處理器。按一下「上傳文件」,然後選取要剖析的表單。如果沒有可用的表單,可以下載並使用這份範例表單。

應付憑據

輸出內容應如下所示:已剖析的應付憑據

5. 建立 AI Platform Notebook

前往 Cloud Console 的 AI Platform Notebooks 專區,然後點選「建立執行個體」。然後選取最新的 Python 執行個體類型:

a81c82876c6c16f9.png

使用預設選項,然後按一下「建立」。建立執行個體後,請選取「Open JupyterLab」

6. 取得程式碼範例

直接從 Document AI Notebooks Github Repo匯入程式碼範例。在筆記本中,前往頂端選單的「Git」>「Clone a Repository」(複製存放區),或按一下 Git 圖示:Git

貼上下列存放區網址:

https://github.com/GoogleCloudPlatform/documentai-notebooks.git

複製存放區後,請按一下「documentai-notebooks/specialized/」目錄,然後開啟 specialized_form_parser.ipynb 筆記本。找出宣告 GCP 專案和 Document AI 處理器 ID 的儲存格。

vars

貼上步驟 4 中的 GCP 專案 ID 和處理器 ID。儲存筆記本。

7. 擷取並顯示實體

您現在可以從發票中擷取擷取實體並加上結構定義,包括對應的信心分數。Document 回應物件包含實體清單。如要進一步瞭解結構化實體,請參閱「Invoice Parser 快速入門」。

執行筆記本中的所有儲存格,然後向下捲動至表格輸出內容。先前的程式碼會逐一疊代每個實體,並使用結果建立 Pandas DataFrame。資料表

現在請向下捲動至視覺化元件。Document 物件回應包含文件中每個頁面的空間版面配置資訊。下方會使用每個表單欄位的版面配置資訊,在圖片上繪製定界框。這項資料可用於將 Document AI 整合至前端應用程式。

polys

8. 恭喜

恭喜!您已成功使用 Procurement Document AI 解決方案,從應付憑據中擷取資料。建議您嘗試其他表單類型。

清除

如要避免系統向您的 Google Cloud 帳戶收取本教學課程所用資源的費用,請關閉筆記本或刪除 GCP 專案。

關閉 AI Platform Notebooks 執行個體

請按照相關操作說明關閉 AI 平台 Notebooks 執行個體

刪除專案

如要避免付費,最簡單的方法就是刪除您為了本教學課程所建立的專案。

如要刪除專案,請進行以下操作:

  1. 前往 GCP 主控台的「Projects」(專案) 頁面。「專案」頁面
  2. 在專案清單中選取要刪除的專案,然後點按「Delete」(刪除)
  3. 在對話方塊中輸入專案 ID,然後按一下「Shut down」(關閉) 即可刪除專案。

瞭解詳情

授權

這項內容採用的授權為 創用 CC 姓名標示 2.0 通用授權。