1. 總覽
什麼是 Document AI 倉儲?
Document AI Warehouse 是用於儲存、搜尋、整理及分析文件及其結構化中繼資料的平台。文件可包含表單和應付憑據等結構化資料,以及合約和研究論文等非結構化資料。使用 Document AI 的處理器可自動擷取文件的中繼資料,或使用欄位和標記手動輸入。
在本程式碼研究室中,您將瞭解如何透過 Document AI Warehouse 使用者介面擷取、處理及搜尋文件。本程式碼研究室提供 PDF 文件範例,包括授權協議、貸款表單和訂單應付憑據。
必要條件
本程式碼研究室是以其他 Document AI 程式碼研究室呈現的內容為基礎。建議您先閱讀以下說明文件和程式碼研究室,再繼續操作:
課程內容
- 如何啟用 Document AI Warehouse API
- 如何在 Document AI 倉儲中設定文件處理器
- 如何上傳及剖析各種 PDF 文件中的文字
- 如何在 Document AI 倉儲中搜尋文件及其中繼資料
軟硬體需求
2. 下載範例文件
本程式碼研究室提供 PDF 文件範例,包括授權協議、貸款表單和訂單應付憑據。您可以下載下列範例文件,在本程式碼研究室中使用。
您也可以使用 gsutil
,從公開的 Google Cloud Storage 值區下載範例文件。
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .
在後續步驟中,您會上傳這些範例文件、使用不同的文件處理器進行剖析,並將產生的文件和中繼資料儲存在 Document AI Warehouse 中。
3. 啟用 Document AI Warehouse API
必須先啟用 API,才能開始使用 Document AI 倉儲。
使用 Cloud Console
- 在瀏覽器中開啟 Google Cloud 控制台。
- 在 Google Cloud 控制台中,前往「API 程式庫」,瀏覽可啟用的 API 和服務。
- 使用 API 程式庫頁面頂端的搜尋列搜尋
Document AI Warehouse
,然後按一下產生的服務。 - 點選「啟用」按鈕,即可在 Google Cloud 專案中啟用 Document AI Warehouse API。
替代做法:使用 gcloud CLI
您也可以使用以下 gcloud
指令啟用 API:
gcloud services enable contentwarehouse.googleapis.com
如果 API 已成功啟用,您應該會看到類似下列內容的訊息:
Operation "operations/..." finished successfully.
現在可以使用 Document AI 倉儲了!
4. 查看 Document AI 倉儲控制台
透過瀏覽器前往位於 https://documentwarehouse.cloud.google.com (位於 Google Cloud 控制台外) 的 Document AI 倉儲控制台。您將使用 Document AI 倉儲控制台和 Google Cloud 專案,執行本程式碼研究室的其餘步驟,以上傳、處理及搜尋文件。
如果您是第一次使用 Document AI Warehouse,請參閱 Document AI Warehouse 說明文件,進一步瞭解如何根據需求調整專案和設定。
5. 建立文件結構定義
文件結構定義會針對你儲存在 Document AI 倉儲中的文件,定義文件類型和欄位。上傳任何新文件前,請先建立架構。
- 在 Document AI Warehouse 控制台中,按一下頁面右上角的「Admin」按鈕。
- 依序點選左側導覽列中的 [架構] 項目和「+ 新增」按鈕。
- 輸入結構定義名稱 (例如
Documents and Forms
),並確認已選取「文件」做為「結構定義類型」。然後點選「Next」按鈕繼續操作。 - 您可以保留預設的 JSON 結構定義,如下所示:
{ "display_name": "Documents and Forms", "property_definitions": [], "document_is_folder": false, "description": "" }
- 接著,按一下「完成」按鈕,完成文件結構定義建立程序。
在完成這些步驟後,您應該會看到訊息,通知您文件架構已建立。您可以依序點選「查看文件結構定義」按鈕和「JSON」分頁標籤,確認結構定義看起來大致如下所示:
6. 建立文件處理器
在這個步驟中,您將建立文件處理器,以便在 Document AI Warehouse 中對不同類型的文件執行全文搜尋。
- 在 Google Cloud 控制台中,前往 Document AI Platform 總覽頁面。
- 點選「探索處理器」,然後選取「文件 OCR」做為要建立的處理器類型。
- 指定文件處理器的名稱 (例如
ocr
和您偏好的區域),然後按一下「建立」建立處理器。 - 複製「Processor Details」頁面中的「Processor ID」,稍後會在 Document AI Warehouse 中設定處理器。
重複上述步驟,並選取「Form Parser」做為文件處理工具的類型,然後指定 form
做為處理器名稱。
重複上述步驟,並選取「Invoice Parser」做為文件處理工具類型,即可建立文件,並指定 invoice
做為處理器名稱。
完成上述步驟後,您應該會看到類似下圖的文件處理工具清單:
7. 設定文件處理器
在這個步驟中,您將參照上一個步驟中建立的處理器,以便在 Document AI Warehouse 中設定文件處理器。
- 在 Document AI Warehouse 控制台中,按一下頂端工具列的「Admin」按鈕。
- 點選左側導覽列中的「Doc AI Processors」項目,然後按一下「+ Add new」按鈕。
- 按一下「+ Add New Processor」按鈕,然後指定上一步的名稱和處理器 ID。
- 按一下 [儲存] 按鈕儲存變更。
重複執行上述步驟,使用「+ Add New Processor」按鈕,將另外兩個處理器新增至 Document AI Warehouse 設定,包括表單剖析器和應付憑據剖析器。請確實利用「+ 新增處理器」按鈕,在相同的「文件架構 ID」之下新增兩個處理器,而非使用「+ 新增」按鈕新增其他架構。
完成上述步驟後,您應該會看到已設定的文件處理工具清單,如下所示:
8. 上傳並處理範例文件
您已為文件定義結構定義並設定處理器,現在可以將文件上傳至 Document AI Warehouse。
- 返回 Document AI 倉儲控制台,按一下左側導覽列中的「+新增」按鈕,然後選取「上傳新文件」選項。
- 將 license-agreement.pdf 文件從機器拖曳至上傳小工具,或瀏覽並選取您下載的其中一個範例文件。然後點選「Next」按鈕繼續操作。
- 在「文件架構」部分,選取先前建立的結構定義名稱,例如「文件和表單」。在「Doc AI processor ID」部分選取您在上一個步驟設定的 OCR 文件處理器。
- 在「顯示名稱」部分,您可以使用預設名稱 (例如檔案名稱) 或自訂文件名稱。
- 按一下「建立」按鈕即可上傳並處理文件。
返回 Document AI Warehouse 主控台,使用 loan-form.pdf 範例文件重複上述步驟。選取先前設定的 form
文件處理器。
返回 Document AI 倉儲控制台,然後使用 invoice-sample.pdf 範例文件重複上述步驟。選取先前設定的 invoice
文件處理器。
完成這些步驟後,如果您返回 Document AI Warehouse 主控台,應該會看到類似下圖的已處理文件清單:
9. 搜尋及探索文件
上傳文件並處理到 Document AI Warehouse 後,您現在可以對文件執行全文搜尋。
在 Document AI Warehouse 控制台中,輸入 agreement
等範例文件中出現的搜尋字詞,然後按下 Enter 鍵。您可以嘗試其他搜尋查詢 (例如 mortgage
和 monitor
),查看所上傳不同範例文件的結果。
在搜尋結果中,您會看到包含該搜尋字詞的所有文件,以及文件文字摘要並反白顯示搜尋字詞:
按一下文件名稱,即可查看內容。
按一下「AI 檢視畫面」切換按鈕,即可查看文件以及偵測到的欄位及其相關資料:
10. 恭喜
您已成功使用 Document AI Warehouse 上傳、處理文件,並對文件使用 Document AI 中的處理器,對文件執行全文搜尋。我們鼓勵您試用其他文件,並探索平台提供的其他處理器。
清除
您可以執行以下清除作業,以免系統向您的 Google Cloud 帳戶收取您在本教學課程中使用資源的相關費用:
- 前往「文件倉儲控制台」頁面,並刪除您上傳的所有範例文件。
- 前往 Google Cloud 控制台的「Document AI processors」頁面,然後刪除您建立的範例處理器。
- 在 Google Cloud 控制台中,前往「API 和服務」頁面,然後停用 Document AI Warehouse API。
瞭解詳情
透過其他程式碼研究室繼續瞭解 Document AI。
- 透過 Document AI 進行光學字元辨識
- 使用 Document AI 剖析表單 (Python)
- 使用 Document AI 的特殊處理器 (Python)
- 使用 Python 管理 Document AI 處理器
資源
授權
這項內容採用的是創用 CC 姓名標示 2.0 通用授權。