1. 總覽
什麼是 Document AI Warehouse?
Document AI 倉儲是儲存、搜尋、整理及分析文件和結構化中繼資料的平台。文件可包含表單和發票等結構化資料,以及合約和研究論文等非結構化資料。您可以透過 Document AI 中的處理器自動擷取文件的中繼資料,也可以使用欄位和標記手動輸入。
在本程式碼研究室中,您將瞭解如何使用 Document AI 倉儲使用者介面來擷取、處理及搜尋文件。本程式碼研究室提供 PDF 文件範例,包括授權協議、貸款表單和訂單應付憑據。
必要條件
本程式碼研究室以其他 Document AI 程式碼研究室的內容為基礎。建議您先閱讀下列說明文件和程式碼研究室,再繼續操作:
課程內容
- 如何啟用 Document AI Warehouse API
- 如何在 Document AI 倉儲中設定文件處理器
- 如何上傳及剖析各種 PDF 文件中的文字
- 如何在 Document AI 倉儲中搜尋文件及其中繼資料
軟硬體需求
2. 下載範例文件
本程式碼研究室提供 PDF 文件範例,包括授權協議、貸款表單和訂單應付憑據。您可以下載下列範例文件,在本程式碼研究室中使用。
或者,您也可以使用 gsutil,從我們的公開 Google Cloud Storage 值區下載範例文件。
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .
在後續步驟中,您將上傳這些範例文件、使用不同的文件處理器剖析文件,並將產生的文件和中繼資料儲存在 Document AI 倉儲中。
3. 啟用 Document AI Warehouse API
您必須先啟用 API,才能使用 Document AI Warehouse。
使用 Cloud Console
- 在瀏覽器中開啟 Google Cloud 控制台。
- 前往 Google Cloud 控制台的 API 程式庫,瀏覽可啟用的 API 和服務。
- 在「API 程式庫」頁面頂端的搜尋列中搜尋
Document AI Warehouse,然後按一下搜尋結果中的服務。 - 點選「啟用」按鈕,在 Google Cloud 專案中啟用 Document AI Warehouse API。

替代方法:使用 gcloud CLI
或者,您也能使用下列 gcloud 指令啟用 API:
gcloud services enable contentwarehouse.googleapis.com
如果 API 啟用成功,您應該會看到類似以下的訊息:
Operation "operations/..." finished successfully.
現在您可以使用 Document AI Warehouse 了!
4. 查看 Document AI 倉儲控制台
在瀏覽器中前往 Document AI Warehouse 控制台,網址為 https://documentwarehouse.cloud.google.com (位於 Google Cloud 控制台外部)。您將使用 Document AI 倉儲控制台和 Google Cloud 專案,執行本程式碼研究室的其餘步驟,上傳、處理及搜尋文件。

如果您是第一次使用 Document AI 倉儲,請參閱 Document AI 倉儲說明文件,進一步瞭解如何根據需求設定專案和設定。
5. 建立文件結構定義
文件結構定義會定義儲存在 Document AI Warehouse 中的文件類型和欄位。上傳任何新文件前,請先建立結構定義。
- 在 Document AI Warehouse 控制台中,按一下頁面右上角的「管理」按鈕。
- 按一下左側導覽列的「結構化資料」項目,然後點選「+ 新增」按鈕。
- 輸入結構定義的名稱 (例如
Documents and Forms),並確認已選取「文件」做為「結構定義類型」。然後點選「下一步」按鈕繼續。 - 您可以保留預設的 JSON 結構定義,如下所示:
{ "display_name": "Documents and Forms", "property_definitions": [], "document_is_folder": false, "description": "" } - 然後按一下「完成」按鈕,完成文件結構定義的建立程序。
完成上述步驟後,您應該會看到文件結構定義已建立的訊息。您可以按一下「查看文件結構定義」按鈕,然後點選「JSON」分頁標籤來確認結構定義,應該會類似於下列內容:

6. 建立文件處理器
在這個步驟中,您將建立文件處理器,以便在 Document AI 倉儲中對不同類型的文件執行全文搜尋。
- 在 Google Cloud 控制台中,前往 Document AI Platform 總覽頁面。
- 點按「探索處理器」,然後選取「Document OCR」做為要建立的處理器類型。
- 指定文件處理器的名稱 (例如
ocr) 和偏好區域,然後點選「建立」即可建立處理器。 - 在「處理器詳細資料」頁面,複製「處理器 ID」,稍後我們將使用這個 ID 在 Document AI 倉儲中設定處理器。
重複上述步驟,並選取「Form Parser」做為文件處理器類型,然後建立及指定 form 做為處理器名稱。
重複上述步驟,然後選取「月結單剖析器」做為文件處理器類型,並將處理器名稱指定為 invoice。
成功完成這些步驟後,您應該會看到類似下方的文件處理器清單:

7. 設定文件處理器
在這個步驟中,您將參照上一個步驟建立的處理器,在 Document AI Warehouse 中設定文件處理器。
- 在 Document AI Warehouse 控制台中,按一下頂端工具列的「管理」按鈕。
- 按一下左側導覽列中的「Doc AI Processors」項目,然後點選「+ Add new」按鈕。
- 按一下「+ Add New Processor」(新增處理器) 按鈕,然後指定名稱和上一個步驟中的處理器 ID。
- 按一下 [儲存] 按鈕儲存變更。
使用「+ Add New Processor」(新增處理器) 按鈕,重複這些步驟,將其他兩個處理器 (包括表單剖析器和應付憑據剖析器) 新增至 Document AI Warehouse 設定。請務必使用「+ 新增處理器」按鈕,在同一個「文件結構定義 ID」下方新增兩個額外處理器,而不是使用「+ 新增」按鈕新增額外結構定義。
成功完成這些步驟後,您應該會看到類似下方的已設定文件處理器清單:

8. 上傳及處理範例文件
定義結構定義並設定文件處理器後,即可將文件上傳至 Document AI Warehouse。
- 返回 Document AI Warehouse 控制台,按一下左側導覽列中的「+Add new」(新增) 按鈕,然後選取「Upload a new document」(上傳新文件) 選項。
- 將電腦中的 license-agreement.pdf 文件拖曳到上傳小工具,或是瀏覽並選取您下載的其中一個範例文件。然後點選「下一步」按鈕繼續。
- 在「Document Schema」部分,選取您先前建立的架構名稱,例如「Documents and Forms」。在「Doc AI processor ID」(Doc AI 處理器 ID) 中,選取您在上一個步驟中設定的 OCR 文件處理器。
- 在「顯示名稱」部分,你可以使用預設名稱 (即檔案名稱),也可以使用自訂文件名稱。
- 按一下「建立」按鈕,即可上傳及處理文件。
返回 Document AI Warehouse 控制台,並使用 loan-form.pdf 範例文件重複這些步驟。選取先前設定的 form 文件處理器。
返回 Document AI 倉儲控制台,然後使用 invoice-sample.pdf 範例文件重複這些步驟。選取先前設定的 invoice 文件處理器。
完成上述步驟後,如果返回 Document AI Warehouse 控制台,您應該會看到類似下方的已處理文件清單:

9. 搜尋及探索文件
將文件上傳到 Document AI 倉儲並處理完畢後,即可對文件執行全文搜尋。
在 Document AI 倉儲控制台中,輸入範例文件中出現的搜尋字詞 (例如 agreement),然後按下 Enter 鍵。您可以嘗試其他搜尋查詢,例如 mortgage 和 monitor,查看您上傳的不同範例文件的結果。
搜尋結果會顯示包含該字詞的所有文件,以及醒目顯示搜尋字詞的文件文字摘要:

按一下文件名稱即可查看。
按一下「AI 檢視」切換鈕,即可查看文件、偵測到的欄位及其相關資料:

10. 恭喜
您已成功使用 Document AI 倉儲上傳及處理文件,並透過 Document AI 中的處理器執行全文搜尋。建議您嘗試使用其他文件,並探索平台上的其他處理器。
清除
如要避免系統向您的 Google Cloud 帳戶收取本教學課程所用資源的費用,請執行下列清理作業:
- 前往 Document Warehouse 控制台頁面,然後刪除您上傳的所有範例文件。
- 在 Google Cloud 控制台中,前往「Document AI processors」頁面,然後刪除您建立的範例處理器。
- 在 Google Cloud 控制台中,前往「API 和服務」頁面,然後停用 Document AI Warehouse API。
瞭解詳情
歡迎透過下列程式碼研究室,進一步瞭解 Document AI。
- 使用 Document AI 執行光學字元辨識
- 使用 Document AI 剖析表單 (Python)
- 使用 Document AI 的專用處理器 (Python)
- 使用 Python 管理 Document AI 處理器
資源
授權
這項內容採用的授權為 Creative Commons 姓名標示 2.0 通用授權。