Document AI: 人間参加型

1. はじめに

Document AI API は、ドキュメントやメールなどの非構造化データを理解、分析、利用しやすくするドキュメント理解ソリューションです。

人間によるレビューにより、確実に人間によるレビューを行いながら、より高いドキュメント処理精度を実現できます。人間によるレビューにより精度が高まり、企業は専用ツールを使用して予測を評価できます。このラボでは、人間によるレビューによって経費処理業者を構成およびテストし、人間参加型の構成ツールと管理ツールを使用してプロセッサからの結果を検証します。

前提条件

この Codelab は、Document AI の他の Codelab の内容に基づいて作成されています。

このラボを始める前に、次の Codelab を完了しておくことをおすすめします。

学習内容

  • プロセッサの人間による確認を構成します。
  • 人間によるレビューのユーザー リソースプールを作成します。
  • 人間による審査のテストタスクを作成します。
  • 人間による確認のタスクをユーザーに割り当てます。
  • ドキュメントの人間によるレビューを完了します。

必要なもの

  • Google Cloud プロジェクト
  • ブラウザ(ChromeFirefox など)
  • Python 3 に関する知識

2. 設定する

この Codelab は、入門編の Codelabにある Document AI の設定手順を完了していることを前提としています

先に進む前に、次のステップを完了してください。

また、Vertex AI API を有効にする必要もあります。

  1. コンソールの上部にある検索バーを使用して「Vertex AI API」を検索し、[有効にする] をクリックして、Google Cloud プロジェクトで API を使用します。
  2. また、次の gcloud コマンドを使用して API を有効にすることもできます。
gcloud services enable aiplatform.googleapis.com

3. プロセッサを作成する

まず、このラボで使用する経費処理業者のインスタンスを作成する必要があります。

  1. コンソールで、Document AI Platform の [概要] に移動します。
  2. [プロセッサを作成] をクリックし、[専用] まで下にスクロールして、[経費パーサー] を選択します。
  3. codelab-expense-parser(または覚えている名前)を付けて、最も近いリージョンをリストから選択します。
  4. [作成] をクリックして、プロセッサを作成します。
  5. プロセッサ ID をコピーします。これは、後でコードを作成する際に使用します。
  6. Cloud Shell で、PROJECT_ID-hitl-results を名前として使用してストレージ バケットを作成します。
export PROJECT_ID=$(gcloud config get-value core/project)
gsutil mb gs://$PROJECT_ID-hitl-results
  1. 自分のユーザー アカウントをラボプロジェクトの Vertex AI 管理者 IAM ロールにバインドする
export USER_ACCOUNT=$(gcloud config get-value core/account)
gcloud projects add-iam-policy-binding $PROJECT_ID --member=user:$USER_ACCOUNT --role=roles/aiplatform.admin

4. 人間参加型を構成する

このタスクでは、前に作成した経費処理業者の人間による確認を構成します。

  1. コンソールでナビゲーション メニューを開き、[Document AI] を選択します。
  2. [人間参加型 AI] をクリックします。HITLMenu
  3. codelab-expense-parser をクリックすると、データ処理者の [人間による確認] ページが表示されます。
  4. [人間参加型を構成] をクリックします。

ConfigureHITL

  1. [ドキュメント レベルのフィルタ] を選択します。
  2. [信頼度のしきい値 %] スライダーを 50% に設定します。
  3. [スペシャリスト] オプションは [担当スペシャリストを使用] のままにします。

HITLFilters

  1. [スペシャリスト プール] プルダウン ボックスをクリックし、[新しいスペシャリスト プール] をクリックします。
  2. [新しいスペシャリスト プール] ダイアログの [プール名] に「Codelab HITL Pool」と入力します。
  3. プールの管理者専門家の個人用メールアドレスを入力します。
  4. [プールを作成] をクリックします。

HITLSpecialistPool

完了するまでに数分かかります。Vertex AI noreply-vertex@google.com からメールが届きます。

  1. [自動割り当て] チェックボックスはオフのままにします。
  2. [請求を確認する] のチェックボックスをオンにします。
  3. [手順の場所] をクリックして、次の保存場所にコピーします。 - パスに接頭辞 gs://含めないでください。
cloud-samples-data/documentai/codelabs/hitl/hitl-instructions.pdf
  1. [結果のロケーション] で [参照] をクリックし、前に作成した Cloud Storage バケットを選択します。
  2. [選択] をクリックします。
  3. [Save Configuration] をクリックします。

コンソールに「人間参加型を構成」と表示され、完了するまでに数分かかります。

HITLLoading

  1. 構成が完了すると、人間参加型を有効にするように求めるメッセージがコンソールに表示されます。
  • 切り替えボタンをクリックして有効にします。
  • ポップアップ ダイアログで [有効にする] をクリックします。

HITLEnable

経費フォームのサンプルをアップロードする

  1. Google Cloud Storage に、使用するサンプル フォームが用意されています。次のボタンまたはコマンドを使用してダウンロードできます。

gsutil cp gs://cloud-samples-data/documentai/codelabs/hitl/expense-claim.pdf .
  1. 人間参加型を有効にした後、[Upload Document] ボタンをクリックし、ダウンロードしたサンプル ドキュメントを参照します。
  2. [アップロード] をクリックして、完了するまで待ちます。

5. 人間による確認のためにアイテムを割り当てる

  1. このページには、プール マネージャーとスペシャリスト コンソールへのリンクが表示されています。これらのリンクは Vertex AI noreply-vertex@google.com からのメールにも記載されます。
    • https://datacompute.google.com/cm/cloudml_data_specialists_us_central1_xxxxxxx/tasks のようになります。
    • マネージャー コンソールのリンクをクリックします。

  1. Data Labeling Console で [タスク] タブのタイトルをクリックして、タスクの割り当てページを開きます。
  2. [Unassigned] チェックボックスをオンにします。codelab-expense-parser-P1 タスクキューに新しいエントリがリストされていることを確認します。

画像

  1. [codelab-expense-parser-P1] を選択します。
  2. [課題を管理] をクリックします。
  3. [担当者をメールで含める] テキスト ボックスにご自身のメールアドレスを入力し、プルダウン リストから選択します。
  4. [適用] をクリックします。

タスクが自分に割り当てられていることがディスプレイに表示されます。反映されるまでに数分かかることがあります。

画像

  1. 新しいユーザーを選択し、メニュー アイコンをクリックします。
  2. 表示されたポップアップ メニューから [すべてのタスクに割り当てる] をクリックします。

画像

  1. [Commit changes] をクリックします。
  2. [commit] をクリックします。

画像

6. 人間による確認タスクの実行

  1. Cloud コンソールの人間参加型構成ページに戻ります。

リンクをクリックして、スペシャリスト(ワーカー)コンソールにアクセスします。(例: https://datacompute.google.com/w/cloudml_data_specialists_us_central1_xxxxxxxxxxx)。

ワーカー コンソールが開き、新しいタスクが一覧表示されます。

画像

  1. [4 分で行った] が含まれている項目にカーソルを合わせ、編集(鉛筆)アイコンをクリックします。
  2. 値を編集し、「Meeting with Adam」というテキストに変更します。テキストを表示するには、テキスト ボックスを下にスクロールする必要があるかもしれません。
  3. [適用] をクリックします。
  4. 以下の項目で [確認](緑色のチェックマーク)アイコンをクリックします。画像
  5. ハイライト表示されている他のエンティティの [確認] アイコンをクリックします。
  6. [送信] をクリックします。これで、審査タスクがラベラーキューから削除されました。

7. 完了したタスクを表示する

  1. マネージャー コンソールに戻ります。
  2. [タスク] をクリックし、[進行中] を選択します。画像
  3. [スペシャリスト] をクリックします。
  4. メールアドレスを選択します。
  5. [課題を管理] をクリックします。
  6. Select specialists working on specific tasksSelect tasks のプルダウンから [expense-processor-P1] を選択します。選択した項目ごとに [適用] をクリックします。自分に割り当てられている expense-processor-P1 のコンテキスト メニューで、[View Specialists] を選択します。

画像

ラベル付け担当者がラベル付けタスクを送信すると、回答したタスクの数と合計所要時間が更新されますが、このビューにデータが表示されるまでに数分かかることがあります。

  1. スペシャリストのポップアップを閉じて、[スペシャリスト] タブを確認します。
  2. ユーザー名のコンテキスト メニューをクリックし、[タスクを表示] を選択します。

このビューには、以下のように、ユーザーのタスクのリスト、完了数、所要時間が表示されます。

画像

8. 完了

これで、Document AI の人間参加型機能を使用して、Document AI 経費処理装置で処理されたドキュメントの人間による確認を構成できました。

クリーンアップ

このチュートリアルで使用したリソースについて、Google Cloud アカウントに課金されないようにする手順は次のとおりです。

  • Cloud コンソールで、[リソースの管理] ページに移動します。
  • プロジェクト リストでプロジェクトを選択し、[削除] をクリックします。
  • ダイアログでプロジェクト ID を入力し、[シャットダウン] をクリックしてプロジェクトを削除します。

詳細

次の Codelab で Document AI について理解を深めてください。

リソース

ライセンス

この作業はクリエイティブ・コモンズの表示 2.0 汎用ライセンスにより使用許諾されています。