この Codelab について
1. 概要
Document AI ウェアハウスとは
Document AI ウェアハウスは、ドキュメントとその構造化メタデータを保存、検索、整理、分析するためのプラットフォームです。ドキュメントには、フォームや請求書などの構造化データのほか、契約書や研究論文などの非構造化データを含めることができます。ドキュメントのメタデータは、Document AI のプロセッサを使用して自動的に抽出することも、フィールドとタグを使用して手動で入力することもできます。
この Codelab では、Document AI ウェアハウスのユーザー インターフェースを使用して、ドキュメントの取り込み、処理、検索を行う方法を学びます。この Codelab には、ライセンス契約、ローンフォーム、注文の請求書などの PDF ドキュメントのサンプルが用意されています。
前提条件
この Codelab は、Document AI の他の Codelab の内容に基づいています。先に進む前に、次のドキュメントと Codelab を一読することをおすすめします。
学習内容
- Document AI Warehouse API を有効にする方法
- Document AI ウェアハウスでドキュメント プロセッサを構成する方法
- さまざまな種類の PDF ドキュメントのテキストをアップロードして解析する方法
- Document AI Warehouse でドキュメントとそのメタデータを検索する方法
必要なもの
2. サンプル ドキュメントをダウンロード
この Codelab には、ライセンス契約、ローンフォーム、注文の請求書などの PDF ドキュメントのサンプルが用意されています。次のサンプル ドキュメントをダウンロードして、この Codelab で使用できます。
または、gsutil
を使用して一般公開の Google Cloud Storage バケットからサンプル ドキュメントをダウンロードすることもできます。
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .
後のステップで、これらのサンプル ドキュメントをアップロードし、さまざまなドキュメント プロセッサで解析して、生成されたドキュメントとメタデータを Document AI ウェアハウスに保存します。
3. Document AI Warehouse API を有効にする
Document AI Warehouse を使用する前に、API を有効にする必要があります。
Cloud Console を使用する
- ブラウザで Google Cloud コンソールを開きます。
- Google Cloud コンソールで [API ライブラリ] に移動し、有効にできる API とサービスを確認します。
- [API ライブラリ] ページの上部にある検索バーを使用して、「
Document AI Warehouse
」を検索し、表示されるサービスをクリックします。 - [有効にする] ボタンをクリックして、Google Cloud プロジェクトで Document AI ウェアハウス API を有効にします。
別の方法: gcloud CLI の使用
また、次の gcloud
コマンドを使用して API を有効にすることもできます。
gcloud services enable contentwarehouse.googleapis.com
API が正常に有効になっている場合は、次のようなメッセージが表示されます。
Operation "operations/..." finished successfully.
これで、Document AI ウェアハウスを使用する準備が整いました。
4. Document AI Warehouse コンソールを表示する
ブラウザで、https://documentwarehouse.cloud.google.com(Google Cloud コンソールの外部にあります)にある Document AI ウェアハウス コンソールに移動します。この Codelab の残りの手順では、Document AI ウェアハウス コンソールと Google Cloud プロジェクトを使用して、ドキュメントのアップロード、処理、検索を行います。
Document AI ウェアハウスを初めて使用する場合は、Document AI ウェアハウスのドキュメントを参照して、必要に応じてプロジェクトや設定を構成する方法をご確認ください。
5. ドキュメント スキーマを作成する
ドキュメント スキーマは、Document AI ウェアハウスに保存するドキュメントのドキュメント タイプとフィールドを定義します。新しいドキュメントをアップロードする前に、スキーマを作成する必要があります。
- Document AI ウェアハウス コンソールで、ページの右上にある [管理] ボタンをクリックします。
- 左側のナビゲーション バーで [スキーマ] 項目をクリックし、[+ 新しく追加] ボタンをクリックします。
- スキーマの名前(
Documents and Forms
など)を入力し、[スキーマタイプ] で [ドキュメント] が選択されていることを確認します。[次へ] ボタンをクリックして続行します。 - デフォルトの JSON スキーマ定義はそのままで構いません。次のように表示されます。
{
"display_name": "Documents and Forms",
"property_definitions": [],
"document_is_folder": false,
"description": ""
} - [完了] ボタンをクリックして、ドキュメント スキーマの作成を終了します。
これらのステップが正常に完了すると、ドキュメント スキーマが作成されたというメッセージが表示されます。[View Document Schema] ボタン、[JSON] タブの順にクリックすると、スキーマを確認できます。次のように表示されます。
6. ドキュメント プロセッサを作成する
このステップでは、Document AI ウェアハウス内のさまざまなタイプのドキュメントの全文検索に使用できるドキュメント プロセッサを作成します。
- Google Cloud コンソールで、Document AI Platform の概要ページに移動します。
- [プロセッサの詳細を確認] をクリックし、作成するプロセッサのタイプとして [Document OCR] を選択します。
- ドキュメント プロセッサの名前(
ocr
など)と優先リージョンを指定し、[作成] をクリックしてプロセッサを作成します。 - [プロセッサの詳細] ページで、プロセッサ ID をコピーします。この ID は、後で Document AI ウェアハウスでプロセッサを構成するときに使用します。
これらの手順を繰り返し、ドキュメント プロセッサのタイプとして [Form Parser] を選択し、プロセッサ名として form
を作成します。
これらの手順を繰り返し、ドキュメント プロセッサのタイプとして [Invoice Parser] を選択し、プロセッサ名として invoice
を作成して指定します。
これらの手順が正常に完了すると、次のようなドキュメント プロセッサのリストが表示されます。
7. ドキュメント プロセッサを構成する
このステップでは、前のステップで作成したプロセッサを参照して、Document AI ウェアハウスでドキュメント プロセッサを構成します。
- Document AI ウェアハウス コンソールで、上部のツールバーにある [管理] ボタンをクリックします。
- 左側のナビゲーション バーで [Doc AI プロセッサ] をクリックし、[+ 新規追加] ボタンをクリックします。
- [+ 新しいプロセッサを追加] ボタンをクリックし、前のステップで作成した名前とプロセッサ ID を指定します。
- [保存] ボタンをクリックして変更を保存します。
[+ Add New Processor](+ 新しいプロセッサを追加)ボタンを使用して、他の 2 つのプロセッサ(Form パーサーと Invoice パーサーを含む)を Document AI ウェアハウス構成に追加するには、上記の手順を繰り返します。[+ Add New] ボタンを使用してスキーマを追加するのではなく、[+ Add New Processor] ボタンを使用して同じドキュメント スキーマ ID に 2 つのプロセッサを追加するようにしてください。
これらの手順が正常に完了すると、次のような構成済みのドキュメント プロセッサのリストが表示されます。
8. サンプル ドキュメントをアップロードして処理する
ドキュメントのスキーマを定義してプロセッサを構成したので、ドキュメントを Document AI ウェアハウスにアップロードします。
- Document AI Warehouse コンソールに戻り、左側のナビゲーション バーにある [+ 新規追加] ボタンをクリックし、[新しいドキュメントをアップロードする] オプションを選択します。
- license-agreement.pdf ドキュメントをパソコンからアップロード ウィジェットにドラッグするか、ダウンロードしたサンプル ドキュメントのいずれかを参照して選択します。[次へ] ボタンをクリックして続行します。
- [ドキュメント スキーマ] で、前に作成したスキーマの名前([ドキュメントとフォーム] など)を選択します。[Doc AI プロセッサ ID] で、前の手順で構成した OCR ドキュメント プロセッサを選択します。
- [Display Name] には、デフォルトの名前(ファイル名)を使用することも、独自のカスタム ドキュメント名を使用することもできます。
- [作成] ボタンをクリックして、ドキュメントをアップロードして処理します。
Document AI ウェアハウス コンソールに戻り、loan-form.pdf サンプル ドキュメントで上記の手順を繰り返します。前に構成した form
ドキュメント プロセッサを選択します。
Document AI ウェアハウス コンソールに戻り、invoice-sample.pdf のサンプル ドキュメントで上記の手順を繰り返します。前に構成した invoice
ドキュメント プロセッサを選択します。
これらのステップが正常に完了して Document AI ウェアハウス コンソールに戻ると、次のような処理済みドキュメントのリストが表示されます。
9. ドキュメントの検索と探索を行う
ドキュメントを Document AI ウェアハウスにアップロードして処理したので、ドキュメントの全文検索を実行できます。
Document AI ウェアハウス コンソールで、サンプル ドキュメントに含まれている検索キーワード(agreement
など)を入力し、Enter キーを押します。mortgage
や monitor
などの他の検索クエリを試して、アップロードした別のサンプル ドキュメントの結果を確認することもできます。
検索結果には、その検索キーワードを含むすべてのドキュメントと、検索キーワードがハイライト表示されたドキュメント テキストの概要が表示されます。
ドキュメントの名前をクリックして表示します。
[AI ビュー] トグルをクリックして、検出されたフィールドとそれに関連するデータとともにドキュメントを表示します。
10. 完了
ここでは、Document AI ウェアハウスと Document AI のプロセッサを使用して、ドキュメントのアップロード、処理、全文検索を行いました。ほかのドキュメントでもこの機能を試してみてください。また、プラットフォームで利用可能な他のプロセッサもご確認ください。
クリーンアップ
このチュートリアルで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、次のクリーンアップを実行します。
- Document Warehouse コンソール ページに移動し、アップロードしたサンプル ドキュメントをすべて削除します。
- Google Cloud コンソールで [Document AI プロセッサ] ページに移動し、作成したサンプル プロセッサを削除します。
- Google Cloud コンソールで [API とサービス] ページに移動し、Document AI ウェアハウス API を無効にします。
詳細
以下の他の Codelab で Document AI について学びましょう。
- Document AI による光学式文字認識
- Document AI(Python)を使用したフォーム解析
- Document AI(Python)を使用した特殊プロセッサ
- Python による Document AI プロセッサの管理
リソース
ライセンス
この作業はクリエイティブ・コモンズの表示 2.0 汎用ライセンスにより使用許諾されています。