Document AI ウェアハウスを使用したドキュメントの取り込み、処理、検索

1. 概要

Document AI ウェアハウスとは

Document AI ウェアハウスは、ドキュメントとその構造化されたメタデータを保存、検索、整理、分析するためのプラットフォームです。ドキュメントには、フォームや請求書などの構造化データと、契約書や研究論文などの非構造化データを含めることができます。ドキュメントのメタデータは、Document AI のプロセッサを使用して自動的に抽出することも、フィールドとタグを使用して手動で入力することもできます。

この Codelab では、Document AI ウェアハウスのユーザー インターフェースを使用して、ドキュメントの取り込み、処理、検索を行う方法を学びます。この Codelab では、ライセンス契約、ローンフォーム、注文請求書などの PDF ドキュメントのサンプルが提供されています。

前提条件

この Codelab は、Document AI の他の Codelab の内容に基づいて作成されています。先に進む前に、次のドキュメントと Codelab を読むことをおすすめします。

学習内容

  • Document AI Warehouse API を有効にする方法
  • Document AI ウェアハウスでドキュメント プロセッサを構成する方法
  • さまざまな種類の PDF ドキュメントのテキストをアップロードして解析する方法
  • Document AI ウェアハウスでドキュメントとそのメタデータを検索する方法

必要なもの

  • Google Cloud プロジェクト
  • ブラウザ(ChromeFirefox など)

2. サンプル ドキュメントをダウンロードする

この Codelab では、ライセンス契約、ローンフォーム、注文請求書などの PDF ドキュメントのサンプルが提供されています。この Codelab で使用するサンプル ドキュメントは、以下からダウンロードできます。

または、gsutil を使用して、Google の Google Cloud Storage 公開バケットからサンプル ドキュメントをダウンロードすることもできます。

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

後の手順で、これらのサンプル ドキュメントをアップロードし、さまざまなドキュメント プロセッサで解析して、結果のドキュメントとメタデータを Document AI ウェアハウスに保存します。

3. Document AI Warehouse API を有効にする

Document AI Warehouse を使用する前に、API を有効にする必要があります。

Cloud Console を使用する

  1. ブラウザで Google Cloud コンソールを開きます。
  2. Google Cloud コンソールで、API ライブラリに移動して、有効にできる API とサービスを閲覧します。
  3. [API ライブラリ] ページの上部にある検索バーを使用して Document AI Warehouse を検索し、検索結果のサービスをクリックします。
  4. [有効にする] ボタンをクリックして、Google Cloud プロジェクトで Document AI Warehouse API を有効にします。Document AI Warehouse API

代替方法: gcloud CLI を使用する

または、次の gcloud コマンドを使用して API を有効にすることもできます。

gcloud services enable contentwarehouse.googleapis.com

API が正常に有効になると、次のようなメッセージが表示されます。

Operation "operations/..." finished successfully.

これで、Document AI ウェアハウスを使用する準備が整いました。

4. Document AI Warehouse コンソールを表示する

ブラウザで、https://documentwarehouse.cloud.google.com にある Document AI Warehouse コンソールに移動します(Google Cloud コンソールの外部にあります)。この Codelab の残りの手順では、Google Cloud プロジェクトとともに Document AI ウェアハウス コンソールを使用して、ドキュメントのアップロード、処理、検索を行います。

Document AI ウェアハウス ダッシュボード

Document AI ウェアハウスを初めて使用する場合は、Document AI ウェアハウスのドキュメントを参照して、ニーズに応じてプロジェクトと設定を構成する方法をご確認ください。

5. ドキュメント スキーマを作成する

ドキュメント スキーマは、Document AI ウェアハウスに保存するドキュメントのドキュメント タイプとフィールドを定義します。新しいドキュメントをアップロードする前に、スキーマを作成する必要があります。

  1. Document AI Warehouse コンソールで、ページの右上にある [管理者] ボタンをクリックします。
  2. 左側のナビゲーション バーで [スキーマ] をクリックし、[+ 新規追加] ボタンをクリックします。
  3. スキーマの名前(Documents and Forms など)を入力し、[スキーマタイプ] として [ドキュメント] が選択されていることを確認します。[次へ] ボタンをクリックして続行します。
  4. デフォルトの JSON スキーマ定義は、次のように表示されます。この定義はそのままにしておきます。
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. [完了] ボタンをクリックして、ドキュメント スキーマの作成を完了します。

これらの手順が正常に完了すると、ドキュメント スキーマが作成されたことを示すメッセージが表示されます。[View Document Schema] ボタンをクリックし、[JSON] タブをクリックしてスキーマを確認します。スキーマは次のように表示されます。

ドキュメント スキーマ

6. ドキュメント プロセッサを作成する

このステップでは、Document AI ウェアハウス内のさまざまな種類のドキュメントに対して全文検索を実行するために使用できるドキュメント プロセッサを作成します。

  1. Google Cloud コンソールで、Document AI Platform の概要ページに移動します。
  2. [プロセッサを確認] をクリックし、作成するプロセッサのタイプとして [ドキュメント OCR] を選択します。
  3. ドキュメント プロセッサの名前(ocr など)と優先リージョンを指定し、[作成] をクリックしてプロセッサを作成します。
  4. [プロセッサの詳細] ページで、プロセッサ ID をコピーします。この ID は、後で Document AI Warehouse でプロセッサを構成するために使用します。

この手順を繰り返して、ドキュメント プロセッサのタイプとして [Form Parser] を選択し、form をプロセッサ名として作成して指定します。

上記の手順を繰り返し、ドキュメント プロセッサのタイプとして Invoice パーサーを選択して、invoice をプロセッサ名として作成して指定します。

これらの手順が正常に完了すると、次のようなドキュメント プロセッサのリストが表示されます。

ドキュメント プロセッサ

7. ドキュメント プロセッサを構成する

このステップでは、前のステップで作成したプロセッサを参照して、Document AI Warehouse でドキュメント プロセッサを構成します。

  1. Document AI Warehouse コンソールで、上部のツールバーにある [管理者] ボタンをクリックします。
  2. 左側のナビゲーション バーで [Doc AI プロセッサ] をクリックし、[+ 新規追加] ボタンをクリックします。
  3. [+ 新しいプロセッサを追加] ボタンをクリックし、前の手順で指定した名前とプロセッサ ID を指定します。
  4. [保存] ボタンをクリックして変更を保存します。

+ 新しいプロセッサを追加ボタンを使用して、フォーム パーサーや請求書パーサーなど、他の 2 つのプロセッサを Document AI Warehouse 構成に追加する手順を繰り返します。[+ 新規追加] ボタンを使用して追加のスキーマを追加するのではなく、[+ 新しいプロセッサを追加] ボタンを使用して、同じドキュメント スキーマ ID に 2 つの追加プロセッサを追加してください。

これらの手順が正常に完了すると、次のような構成済みのドキュメント プロセッサのリストが表示されます。

Document AI ウェアハウスのドキュメント プロセッサ

8. サンプル ドキュメントをアップロードして処理する

スキーマを定義し、ドキュメントのプロセッサを構成したので、ドキュメントを Document AI ウェアハウスにアップロードできます。

  1. Document AI Warehouse コンソールに戻り、左側のナビゲーション バーの [+ 新規追加] ボタンをクリックし、[新しいドキュメントをアップロード] オプションを選択します。
  2. license-agreement.pdf ドキュメントをマシンからアップロード ウィジェットにドラッグするか、ダウンロードしたサンプル ドキュメントを参照して選択します。[次へ] ボタンをクリックして続行します。
  3. [ドキュメント スキーマ] で、以前に作成したスキーマの名前(Documents and Forms など)を選択します。[Doc AI プロセッサ ID] で、前の手順で構成した OCR ドキュメント プロセッサを選択します。
  4. [表示名] には、デフォルトの名前(ファイル名)を使用することも、独自のカスタム ドキュメント名を使用することもできます。
  5. [作成] ボタンをクリックして、ドキュメントをアップロードして処理します。

Document AI Warehouse コンソールに戻り、loan-form.pdf サンプル ドキュメントを使用して、これらの手順を繰り返します。以前に構成した form ドキュメント プロセッサを選択します。

Document AI Warehouse コンソールに戻り、invoice-sample.pdf サンプル ドキュメントを使用して、これらの手順を繰り返します。以前に構成した invoice ドキュメント プロセッサを選択します。

これらの手順が正常に完了したら、Document AI Warehouse コンソールに戻ると、次のような処理済みドキュメントのリストが表示されます。

Document AI ウェアハウスで処理されたドキュメント

9. ドキュメントの検索と探索を行う

Document AI ウェアハウスにドキュメントをアップロードして処理したので、ドキュメントの全文検索を実行できます。

Document AI Warehouse コンソールで、サンプル ドキュメントに表示される検索語句(agreement など)を入力し、Enter キーを押します。mortgagemonitor などの他の検索クエリを試して、アップロードしたさまざまなサンプル ドキュメントの結果を確認できます。

検索結果には、検索キーワードを含むすべてのドキュメントと、検索キーワードがハイライト表示されたドキュメント テキストの要約が表示されます。

Document AI ウェアハウスの検索結果

ドキュメントの名前をクリックして表示します。

[AI ビュー] 切り替えをクリックすると、検出されたフィールドとその関連データとともにドキュメントが表示されます。

Document AI ウェアハウスの詳細ビュー

10. 完了

Document AI ウェアハウスと Document AI のプロセッサを使用して、ドキュメントのアップロード、処理、全文検索を行うことができました。ほかのドキュメントでもこの機能を試してみてください。また、プラットフォームで利用可能な他のプロセッサもご確認ください。

クリーンアップ

このチュートリアルで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次のクリーンアップを行います。

  • Document Warehouse コンソール ページに移動し、アップロードしたサンプル ドキュメントをすべて削除します。
  • Google Cloud コンソールで、Document AI プロセッサのページに移動し、作成したサンプル プロセッサを削除します。
  • Google Cloud コンソールで、[API とサービス] ページに移動し、Document AI Warehouse API を無効にします。

詳細

次の Codelab で Document AI について理解を深めてください。

リソース

ライセンス

この作業はクリエイティブ・コモンズの表示 2.0 汎用ライセンスにより使用許諾されています。