使用 Document AI 倉儲來擷取、處理及搜尋文件

1. 總覽

什麼是 Document AI Warehouse?

Document AI 倉儲是儲存、搜尋、整理及分析文件和結構化中繼資料的平台。文件可包含表單和發票等結構化資料,以及合約和研究論文等非結構化資料。您可以透過 Document AI 中的處理器自動擷取文件的中繼資料,也可以使用欄位和標記手動輸入。

在本程式碼研究室中,您將瞭解如何使用 Document AI 倉儲使用者介面來擷取、處理及搜尋文件。本程式碼研究室提供 PDF 文件範例,包括授權協議、貸款表單和訂單應付憑據。

必要條件

本程式碼研究室以其他 Document AI 程式碼研究室的內容為基礎。建議您先閱讀下列說明文件和程式碼研究室,再繼續操作:

課程內容

  • 如何啟用 Document AI Warehouse API
  • 如何在 Document AI 倉儲中設定文件處理器
  • 如何上傳及剖析各種 PDF 文件中的文字
  • 如何在 Document AI 倉儲中搜尋文件及其中繼資料

軟硬體需求

2. 下載範例文件

本程式碼研究室提供 PDF 文件範例,包括授權協議、貸款表單和訂單應付憑據。您可以下載下列範例文件,在本程式碼研究室中使用。

或者,您也可以使用 gsutil,從我們的公開 Google Cloud Storage 值區下載範例文件。

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

在後續步驟中,您將上傳這些範例文件、使用不同的文件處理器剖析文件,並將產生的文件和中繼資料儲存在 Document AI 倉儲中。

3. 啟用 Document AI Warehouse API

您必須先啟用 API,才能使用 Document AI Warehouse。

使用 Cloud Console

  1. 在瀏覽器中開啟 Google Cloud 控制台
  2. 前往 Google Cloud 控制台的 API 程式庫,瀏覽可啟用的 API 和服務。
  3. 在「API 程式庫」頁面頂端的搜尋列中搜尋 Document AI Warehouse,然後按一下搜尋結果中的服務。
  4. 點選「啟用」按鈕,在 Google Cloud 專案中啟用 Document AI Warehouse API。Document AI 倉儲 API

替代方法:使用 gcloud CLI

或者,您也能使用下列 gcloud 指令啟用 API:

gcloud services enable contentwarehouse.googleapis.com

如果 API 啟用成功,您應該會看到類似以下的訊息:

Operation "operations/..." finished successfully.

現在您可以使用 Document AI Warehouse 了!

4. 查看 Document AI 倉儲控制台

在瀏覽器中前往 Document AI Warehouse 控制台,網址為 https://documentwarehouse.cloud.google.com (位於 Google Cloud 控制台外部)。您將使用 Document AI 倉儲控制台和 Google Cloud 專案,執行本程式碼研究室的其餘步驟,上傳、處理及搜尋文件。

Document AI 倉儲資訊主頁

如果您是第一次使用 Document AI 倉儲,請參閱 Document AI 倉儲說明文件,進一步瞭解如何根據需求設定專案和設定。

5. 建立文件結構定義

文件結構定義會定義儲存在 Document AI Warehouse 中的文件類型和欄位。上傳任何新文件前,請先建立結構定義。

  1. 在 Document AI Warehouse 控制台中,按一下頁面右上角的「管理」按鈕。
  2. 按一下左側導覽列的「結構化資料」項目,然後點選「+ 新增」按鈕。
  3. 輸入結構定義的名稱 (例如 Documents and Forms),並確認已選取「文件」做為「結構定義類型」。然後點選「下一步」按鈕繼續。
  4. 您可以保留預設的 JSON 結構定義,如下所示:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. 然後按一下「完成」按鈕,完成文件結構定義的建立程序。

完成上述步驟後,您應該會看到文件結構定義已建立的訊息。您可以按一下「查看文件結構定義」按鈕,然後點選「JSON」分頁標籤來確認結構定義,應該會類似於下列內容:

文件結構定義

6. 建立文件處理器

在這個步驟中,您將建立文件處理器,以便在 Document AI 倉儲中對不同類型的文件執行全文搜尋。

  1. 在 Google Cloud 控制台中,前往 Document AI Platform 總覽頁面
  2. 點按「探索處理器」,然後選取「Document OCR」做為要建立的處理器類型。
  3. 指定文件處理器的名稱 (例如 ocr) 和偏好區域,然後點選「建立」即可建立處理器。
  4. 在「處理器詳細資料」頁面,複製「處理器 ID」,稍後我們將使用這個 ID 在 Document AI 倉儲中設定處理器。

重複上述步驟,並選取「Form Parser」做為文件處理器類型,然後建立及指定 form 做為處理器名稱。

重複上述步驟,然後選取「月結單剖析器」做為文件處理器類型,並將處理器名稱指定為 invoice

成功完成這些步驟後,您應該會看到類似下方的文件處理器清單:

文件處理器

7. 設定文件處理器

在這個步驟中,您將參照上一個步驟建立的處理器,在 Document AI Warehouse 中設定文件處理器。

  1. 在 Document AI Warehouse 控制台中,按一下頂端工具列的「管理」按鈕。
  2. 按一下左側導覽列中的「Doc AI Processors」項目,然後點選「+ Add new」按鈕。
  3. 按一下「+ Add New Processor」(新增處理器) 按鈕,然後指定名稱和上一個步驟中的處理器 ID。
  4. 按一下 [儲存] 按鈕儲存變更。

使用「+ Add New Processor」(新增處理器) 按鈕,重複這些步驟,將其他兩個處理器 (包括表單剖析器和應付憑據剖析器) 新增至 Document AI Warehouse 設定。請務必使用「+ 新增處理器」按鈕,在同一個「文件結構定義 ID」下方新增兩個額外處理器,而不是使用「+ 新增」按鈕新增額外結構定義。

成功完成這些步驟後,您應該會看到類似下方的已設定文件處理器清單:

Document AI 倉儲中的文件處理器

8. 上傳及處理範例文件

定義結構定義並設定文件處理器後,即可將文件上傳至 Document AI Warehouse。

  1. 返回 Document AI Warehouse 控制台,按一下左側導覽列中的「+Add new」(新增) 按鈕,然後選取「Upload a new document」(上傳新文件) 選項。
  2. 將電腦中的 license-agreement.pdf 文件拖曳到上傳小工具,或是瀏覽並選取您下載的其中一個範例文件。然後點選「下一步」按鈕繼續。
  3. 在「Document Schema」部分,選取您先前建立的架構名稱,例如「Documents and Forms」。在「Doc AI processor ID」(Doc AI 處理器 ID) 中,選取您在上一個步驟中設定的 OCR 文件處理器。
  4. 在「顯示名稱」部分,你可以使用預設名稱 (即檔案名稱),也可以使用自訂文件名稱。
  5. 按一下「建立」按鈕,即可上傳及處理文件。

返回 Document AI Warehouse 控制台,並使用 loan-form.pdf 範例文件重複這些步驟。選取先前設定的 form 文件處理器。

返回 Document AI 倉儲控制台,然後使用 invoice-sample.pdf 範例文件重複這些步驟。選取先前設定的 invoice 文件處理器。

完成上述步驟後,如果返回 Document AI Warehouse 控制台,您應該會看到類似下方的已處理文件清單:

Document AI 倉儲中的已處理文件

9. 搜尋及探索文件

將文件上傳到 Document AI 倉儲並處理完畢後,即可對文件執行全文搜尋。

在 Document AI 倉儲控制台中,輸入範例文件中出現的搜尋字詞 (例如 agreement),然後按下 Enter 鍵。您可以嘗試其他搜尋查詢,例如 mortgagemonitor,查看您上傳的不同範例文件的結果。

搜尋結果會顯示包含該字詞的所有文件,以及醒目顯示搜尋字詞的文件文字摘要:

Document AI 倉儲中的搜尋結果

按一下文件名稱即可查看。

按一下「AI 檢視」切換鈕,即可查看文件、偵測到的欄位及其相關資料:

Document AI 倉儲中的詳細檢視畫面

10. 恭喜

您已成功使用 Document AI 倉儲上傳及處理文件,並透過 Document AI 中的處理器執行全文搜尋。建議您嘗試使用其他文件,並探索平台上的其他處理器

清除

如要避免系統向您的 Google Cloud 帳戶收取本教學課程所用資源的費用,請執行下列清理作業:

  • 前往 Document Warehouse 控制台頁面,然後刪除您上傳的所有範例文件。
  • 在 Google Cloud 控制台中,前往「Document AI processors」頁面,然後刪除您建立的範例處理器。
  • 在 Google Cloud 控制台中,前往「API 和服務」頁面,然後停用 Document AI Warehouse API。

瞭解詳情

歡迎透過下列程式碼研究室,進一步瞭解 Document AI。

資源

授權

這項內容採用的授權為 Creative Commons 姓名標示 2.0 通用授權。