Document AI ウェアハウスを使用したドキュメントの取り込み、処理、検索

Document AI ウェアハウスを使用したドキュメントの取り込み、処理、検索

この Codelab について

subject最終更新: 4月 3, 2023
account_circle作成者: Kristopher Overholt

1. 概要

Document AI ウェアハウスとは

Document AI ウェアハウスは、ドキュメントとその構造化メタデータを保存、検索、整理、分析するためのプラットフォームです。ドキュメントには、フォームや請求書などの構造化データのほか、契約書や研究論文などの非構造化データを含めることができます。ドキュメントのメタデータは、Document AI のプロセッサを使用して自動的に抽出することも、フィールドとタグを使用して手動で入力することもできます。

この Codelab では、Document AI ウェアハウスのユーザー インターフェースを使用して、ドキュメントの取り込み、処理、検索を行う方法を学びます。この Codelab には、ライセンス契約、ローンフォーム、注文の請求書などの PDF ドキュメントのサンプルが用意されています。

前提条件

この Codelab は、Document AI の他の Codelab の内容に基づいています。先に進む前に、次のドキュメントと Codelab を一読することをおすすめします。

学習内容

  • Document AI Warehouse API を有効にする方法
  • Document AI ウェアハウスでドキュメント プロセッサを構成する方法
  • さまざまな種類の PDF ドキュメントのテキストをアップロードして解析する方法
  • Document AI Warehouse でドキュメントとそのメタデータを検索する方法

必要なもの

  • Google Cloud プロジェクト
  • ブラウザ(ChromeFirefox など)

2. サンプル ドキュメントをダウンロード

この Codelab には、ライセンス契約、ローンフォーム、注文の請求書などの PDF ドキュメントのサンプルが用意されています。次のサンプル ドキュメントをダウンロードして、この Codelab で使用できます。

または、gsutil を使用して一般公開の Google Cloud Storage バケットからサンプル ドキュメントをダウンロードすることもできます。

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs
://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs
://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

後のステップで、これらのサンプル ドキュメントをアップロードし、さまざまなドキュメント プロセッサで解析して、生成されたドキュメントとメタデータを Document AI ウェアハウスに保存します。

3. Document AI Warehouse API を有効にする

Document AI Warehouse を使用する前に、API を有効にする必要があります。

Cloud Console を使用する

  1. ブラウザで Google Cloud コンソールを開きます。
  2. Google Cloud コンソールで [API ライブラリ] に移動し、有効にできる API とサービスを確認します。
  3. [API ライブラリ] ページの上部にある検索バーを使用して、「Document AI Warehouse」を検索し、表示されるサービスをクリックします。
  4. [有効にする] ボタンをクリックして、Google Cloud プロジェクトで Document AI ウェアハウス API を有効にします。Document AI ウェアハウス API

別の方法: gcloud CLI の使用

また、次の gcloud コマンドを使用して API を有効にすることもできます。

gcloud services enable contentwarehouse.googleapis.com

API が正常に有効になっている場合は、次のようなメッセージが表示されます。

Operation "operations/..." finished successfully.

これで、Document AI ウェアハウスを使用する準備が整いました。

4. Document AI Warehouse コンソールを表示する

ブラウザで、https://documentwarehouse.cloud.google.com(Google Cloud コンソールの外部にあります)にある Document AI ウェアハウス コンソールに移動します。この Codelab の残りの手順では、Document AI ウェアハウス コンソールと Google Cloud プロジェクトを使用して、ドキュメントのアップロード、処理、検索を行います。

Document AI ウェアハウス ダッシュボード

Document AI ウェアハウスを初めて使用する場合は、Document AI ウェアハウスのドキュメントを参照して、必要に応じてプロジェクトや設定を構成する方法をご確認ください。

5. ドキュメント スキーマを作成する

ドキュメント スキーマは、Document AI ウェアハウスに保存するドキュメントのドキュメント タイプとフィールドを定義します。新しいドキュメントをアップロードする前に、スキーマを作成する必要があります。

  1. Document AI ウェアハウス コンソールで、ページの右上にある [管理] ボタンをクリックします。
  2. 左側のナビゲーション バーで [スキーマ] 項目をクリックし、[+ 新しく追加] ボタンをクリックします。
  3. スキーマの名前(Documents and Forms など)を入力し、[スキーマタイプ] で [ドキュメント] が選択されていることを確認します。[次へ] ボタンをクリックして続行します。
  4. デフォルトの JSON スキーマ定義はそのままで構いません。次のように表示されます。
    {
     
    "display_name": "Documents and Forms",
     
    "property_definitions": [],
     
    "document_is_folder": false,
     
    "description": ""
    }
  5. [完了] ボタンをクリックして、ドキュメント スキーマの作成を終了します。

これらのステップが正常に完了すると、ドキュメント スキーマが作成されたというメッセージが表示されます。[View Document Schema] ボタン、[JSON] タブの順にクリックすると、スキーマを確認できます。次のように表示されます。

ドキュメント スキーマ

6. ドキュメント プロセッサを作成する

このステップでは、Document AI ウェアハウス内のさまざまなタイプのドキュメントの全文検索に使用できるドキュメント プロセッサを作成します。

  1. Google Cloud コンソールで、Document AI Platform の概要ページに移動します。
  2. [プロセッサの詳細を確認] をクリックし、作成するプロセッサのタイプとして [Document OCR] を選択します。
  3. ドキュメント プロセッサの名前(ocr など)と優先リージョンを指定し、[作成] をクリックしてプロセッサを作成します。
  4. [プロセッサの詳細] ページで、プロセッサ ID をコピーします。この ID は、後で Document AI ウェアハウスでプロセッサを構成するときに使用します。

これらの手順を繰り返し、ドキュメント プロセッサのタイプとして [Form Parser] を選択し、プロセッサ名として form を作成します。

これらの手順を繰り返し、ドキュメント プロセッサのタイプとして [Invoice Parser] を選択し、プロセッサ名として invoice を作成して指定します。

これらの手順が正常に完了すると、次のようなドキュメント プロセッサのリストが表示されます。

ドキュメント プロセッサ

7. ドキュメント プロセッサを構成する

このステップでは、前のステップで作成したプロセッサを参照して、Document AI ウェアハウスでドキュメント プロセッサを構成します。

  1. Document AI ウェアハウス コンソールで、上部のツールバーにある [管理] ボタンをクリックします。
  2. 左側のナビゲーション バーで [Doc AI プロセッサ] をクリックし、[+ 新規追加] ボタンをクリックします。
  3. [+ 新しいプロセッサを追加] ボタンをクリックし、前のステップで作成した名前とプロセッサ ID を指定します。
  4. [保存] ボタンをクリックして変更を保存します。

[+ Add New Processor](+ 新しいプロセッサを追加)ボタンを使用して、他の 2 つのプロセッサ(Form パーサーと Invoice パーサーを含む)を Document AI ウェアハウス構成に追加するには、上記の手順を繰り返します。[+ Add New] ボタンを使用してスキーマを追加するのではなく、[+ Add New Processor] ボタンを使用して同じドキュメント スキーマ ID に 2 つのプロセッサを追加するようにしてください。

これらの手順が正常に完了すると、次のような構成済みのドキュメント プロセッサのリストが表示されます。

Document AI ウェアハウスのドキュメント プロセッサ

8. サンプル ドキュメントをアップロードして処理する

ドキュメントのスキーマを定義してプロセッサを構成したので、ドキュメントを Document AI ウェアハウスにアップロードします。

  1. Document AI Warehouse コンソールに戻り、左側のナビゲーション バーにある [+ 新規追加] ボタンをクリックし、[新しいドキュメントをアップロードする] オプションを選択します。
  2. license-agreement.pdf ドキュメントをパソコンからアップロード ウィジェットにドラッグするか、ダウンロードしたサンプル ドキュメントのいずれかを参照して選択します。[次へ] ボタンをクリックして続行します。
  3. [ドキュメント スキーマ] で、前に作成したスキーマの名前([ドキュメントとフォーム] など)を選択します。[Doc AI プロセッサ ID] で、前の手順で構成した OCR ドキュメント プロセッサを選択します。
  4. [Display Name] には、デフォルトの名前(ファイル名)を使用することも、独自のカスタム ドキュメント名を使用することもできます。
  5. [作成] ボタンをクリックして、ドキュメントをアップロードして処理します。

Document AI ウェアハウス コンソールに戻り、loan-form.pdf サンプル ドキュメントで上記の手順を繰り返します。前に構成した form ドキュメント プロセッサを選択します。

Document AI ウェアハウス コンソールに戻り、invoice-sample.pdf のサンプル ドキュメントで上記の手順を繰り返します。前に構成した invoice ドキュメント プロセッサを選択します。

これらのステップが正常に完了して Document AI ウェアハウス コンソールに戻ると、次のような処理済みドキュメントのリストが表示されます。

Document AI ウェアハウスで処理されたドキュメント

9. ドキュメントの検索と探索を行う

ドキュメントを Document AI ウェアハウスにアップロードして処理したので、ドキュメントの全文検索を実行できます。

Document AI ウェアハウス コンソールで、サンプル ドキュメントに含まれている検索キーワード(agreement など)を入力し、Enter キーを押します。mortgagemonitor などの他の検索クエリを試して、アップロードした別のサンプル ドキュメントの結果を確認することもできます。

検索結果には、その検索キーワードを含むすべてのドキュメントと、検索キーワードがハイライト表示されたドキュメント テキストの概要が表示されます。

Document AI ウェアハウスの検索結果

ドキュメントの名前をクリックして表示します。

[AI ビュー] トグルをクリックして、検出されたフィールドとそれに関連するデータとともにドキュメントを表示します。

Document AI ウェアハウスでの詳細ビュー

10. 完了

ここでは、Document AI ウェアハウスと Document AI のプロセッサを使用して、ドキュメントのアップロード、処理、全文検索を行いました。ほかのドキュメントでもこの機能を試してみてください。また、プラットフォームで利用可能な他のプロセッサもご確認ください。

クリーンアップ

このチュートリアルで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次のクリーンアップを実行します。

  • Document Warehouse コンソール ページに移動し、アップロードしたサンプル ドキュメントをすべて削除します。
  • Google Cloud コンソールで [Document AI プロセッサ] ページに移動し、作成したサンプル プロセッサを削除します。
  • Google Cloud コンソールで [API とサービス] ページに移動し、Document AI ウェアハウス API を無効にします。

詳細

以下の他の Codelab で Document AI について学びましょう。

リソース

ライセンス

この作業はクリエイティブ・コモンズの表示 2.0 汎用ライセンスにより使用許諾されています。