使用 Document AI 倉儲來擷取、處理及搜尋文件

1. 總覽

什麼是 Document AI 倉儲?

Document AI Warehouse 是用於儲存、搜尋、整理及分析文件及其結構化中繼資料的平台。文件可包含表單和應付憑據等結構化資料,以及合約和研究論文等非結構化資料。使用 Document AI 的處理器可自動擷取文件的中繼資料,或使用欄位和標記手動輸入。

在本程式碼研究室中,您將瞭解如何透過 Document AI Warehouse 使用者介面擷取、處理及搜尋文件。本程式碼研究室提供 PDF 文件範例,包括授權協議、貸款表單和訂單應付憑據。

必要條件

本程式碼研究室是以其他 Document AI 程式碼研究室呈現的內容為基礎。建議您先閱讀以下說明文件和程式碼研究室,再繼續操作:

課程內容

  • 如何啟用 Document AI Warehouse API
  • 如何在 Document AI 倉儲中設定文件處理器
  • 如何上傳及剖析各種 PDF 文件中的文字
  • 如何在 Document AI 倉儲中搜尋文件及其中繼資料

軟硬體需求

2. 下載範例文件

本程式碼研究室提供 PDF 文件範例,包括授權協議、貸款表單和訂單應付憑據。您可以下載下列範例文件,在本程式碼研究室中使用。

您也可以使用 gsutil,從公開的 Google Cloud Storage 值區下載範例文件。

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

在後續步驟中,您會上傳這些範例文件、使用不同的文件處理器進行剖析,並將產生的文件和中繼資料儲存在 Document AI Warehouse 中。

3. 啟用 Document AI Warehouse API

必須先啟用 API,才能開始使用 Document AI 倉儲。

使用 Cloud Console

  1. 在瀏覽器中開啟 Google Cloud 控制台
  2. 在 Google Cloud 控制台中,前往「API 程式庫」,瀏覽可啟用的 API 和服務。
  3. 使用 API 程式庫頁面頂端的搜尋列搜尋 Document AI Warehouse,然後按一下產生的服務。
  4. 點選「啟用」按鈕,即可在 Google Cloud 專案中啟用 Document AI Warehouse API。Document AI 倉儲 API

替代做法:使用 gcloud CLI

您也可以使用以下 gcloud 指令啟用 API:

gcloud services enable contentwarehouse.googleapis.com

如果 API 已成功啟用,您應該會看到類似下列內容的訊息:

Operation "operations/..." finished successfully.

現在可以使用 Document AI 倉儲了!

4. 查看 Document AI 倉儲控制台

透過瀏覽器前往位於 https://documentwarehouse.cloud.google.com (位於 Google Cloud 控制台外) 的 Document AI 倉儲控制台。您將使用 Document AI 倉儲控制台和 Google Cloud 專案,執行本程式碼研究室的其餘步驟,以上傳、處理及搜尋文件。

Document AI 倉儲資訊主頁

如果您是第一次使用 Document AI Warehouse,請參閱 Document AI Warehouse 說明文件,進一步瞭解如何根據需求調整專案和設定。

5. 建立文件結構定義

文件結構定義會針對你儲存在 Document AI 倉儲中的文件,定義文件類型和欄位。上傳任何新文件前,請先建立架構。

  1. 在 Document AI Warehouse 控制台中,按一下頁面右上角的「Admin」按鈕。
  2. 依序點選左側導覽列中的 [架構] 項目和「+ 新增」按鈕。
  3. 輸入結構定義名稱 (例如 Documents and Forms),並確認已選取「文件」做為「結構定義類型」。然後點選「Next」按鈕繼續操作。
  4. 您可以保留預設的 JSON 結構定義,如下所示:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. 接著,按一下「完成」按鈕,完成文件結構定義建立程序。

在完成這些步驟後,您應該會看到訊息,通知您文件架構已建立。您可以依序點選「查看文件結構定義」按鈕和「JSON」分頁標籤,確認結構定義看起來大致如下所示:

文件結構定義

6. 建立文件處理器

在這個步驟中,您將建立文件處理器,以便在 Document AI Warehouse 中對不同類型的文件執行全文搜尋。

  1. 在 Google Cloud 控制台中,前往 Document AI Platform 總覽頁面
  2. 點選「探索處理器」,然後選取「文件 OCR」做為要建立的處理器類型。
  3. 指定文件處理器的名稱 (例如 ocr 和您偏好的區域),然後按一下「建立」建立處理器。
  4. 複製「Processor Details」頁面中的「Processor ID」,稍後會在 Document AI Warehouse 中設定處理器。

重複上述步驟,並選取「Form Parser」做為文件處理工具的類型,然後指定 form 做為處理器名稱。

重複上述步驟,並選取「Invoice Parser」做為文件處理工具類型,即可建立文件,並指定 invoice 做為處理器名稱。

完成上述步驟後,您應該會看到類似下圖的文件處理工具清單:

文件處理器

7. 設定文件處理器

在這個步驟中,您將參照上一個步驟中建立的處理器,以便在 Document AI Warehouse 中設定文件處理器。

  1. 在 Document AI Warehouse 控制台中,按一下頂端工具列的「Admin」按鈕。
  2. 點選左側導覽列中的「Doc AI Processors」項目,然後按一下「+ Add new」按鈕。
  3. 按一下「+ Add New Processor」按鈕,然後指定上一步的名稱和處理器 ID。
  4. 按一下 [儲存] 按鈕儲存變更。

重複執行上述步驟,使用「+ Add New Processor」按鈕,將另外兩個處理器新增至 Document AI Warehouse 設定,包括表單剖析器和應付憑據剖析器。請確實利用「+ 新增處理器」按鈕,在相同的「文件架構 ID」之下新增兩個處理器,而非使用「+ 新增」按鈕新增其他架構。

完成上述步驟後,您應該會看到已設定的文件處理工具清單,如下所示:

Document AI 倉儲中的文件處理器

8. 上傳並處理範例文件

您已為文件定義結構定義並設定處理器,現在可以將文件上傳至 Document AI Warehouse。

  1. 返回 Document AI 倉儲控制台,按一下左側導覽列中的「+新增」按鈕,然後選取「上傳新文件」選項。
  2. license-agreement.pdf 文件從機器拖曳至上傳小工具,或瀏覽並選取您下載的其中一個範例文件。然後點選「Next」按鈕繼續操作。
  3. 在「文件架構」部分,選取先前建立的結構定義名稱,例如「文件和表單」。在「Doc AI processor ID」部分選取您在上一個步驟設定的 OCR 文件處理器。
  4. 在「顯示名稱」部分,您可以使用預設名稱 (例如檔案名稱) 或自訂文件名稱。
  5. 按一下「建立」按鈕即可上傳並處理文件。

返回 Document AI Warehouse 主控台,使用 loan-form.pdf 範例文件重複上述步驟。選取先前設定的 form 文件處理器。

返回 Document AI 倉儲控制台,然後使用 invoice-sample.pdf 範例文件重複上述步驟。選取先前設定的 invoice 文件處理器。

完成這些步驟後,如果您返回 Document AI Warehouse 主控台,應該會看到類似下圖的已處理文件清單:

Document AI 倉儲中的已處理文件

9. 搜尋及探索文件

上傳文件並處理到 Document AI Warehouse 後,您現在可以對文件執行全文搜尋。

在 Document AI Warehouse 控制台中,輸入 agreement 等範例文件中出現的搜尋字詞,然後按下 Enter 鍵。您可以嘗試其他搜尋查詢 (例如 mortgagemonitor),查看所上傳不同範例文件的結果。

在搜尋結果中,您會看到包含該搜尋字詞的所有文件,以及文件文字摘要並反白顯示搜尋字詞:

Document AI 倉儲中的搜尋結果

按一下文件名稱,即可查看內容。

按一下「AI 檢視畫面」切換按鈕,即可查看文件以及偵測到的欄位及其相關資料:

在 Document AI 倉儲中詳細檢視

10. 恭喜

您已成功使用 Document AI Warehouse 上傳、處理文件,並對文件使用 Document AI 中的處理器,對文件執行全文搜尋。我們鼓勵您試用其他文件,並探索平台提供的其他處理器

清除

您可以執行以下清除作業,以免系統向您的 Google Cloud 帳戶收取您在本教學課程中使用資源的相關費用:

  • 前往「文件倉儲控制台」頁面,並刪除您上傳的所有範例文件。
  • 前往 Google Cloud 控制台的「Document AI processors」頁面,然後刪除您建立的範例處理器。
  • 在 Google Cloud 控制台中,前往「API 和服務」頁面,然後停用 Document AI Warehouse API。

瞭解詳情

透過其他程式碼研究室繼續瞭解 Document AI。

資源

授權

這項內容採用的是創用 CC 姓名標示 2.0 通用授權。