Document AI: human-in-the-loop (avec intervention humaine)

1. Introduction

L'API Document AI est une solution de compréhension de documents qui exploite des données non structurées, telles que des documents, des e-mails, etc., pour en faciliter la compréhension, l'analyse et l'utilisation.

L'examen manuel vous permet d'améliorer la précision du traitement de vos documents. Les examens manuels peuvent améliorer la précision des prédictions et aider les entreprises à les évaluer à l'aide d'outils spécialement conçus pour les évaluer. Dans cet atelier, vous allez configurer et tester un processeur de dépenses par le biais d'une révision humaine pour valider les résultats du processeur à l'aide des outils de configuration et de gestion human-in-the-loop (avec intervention humaine).

Prérequis

Cet atelier s'appuie sur le contenu présenté dans d'autres ateliers de programmation Document AI.

Nous vous recommandons d'effectuer les ateliers de programmation suivants avant de continuer.

Points abordés

  • Configurez la révision humaine pour un outil de traitement.
  • Créez un pool de ressources utilisateur pour les avis humains.
  • Créez une tâche de test d'examen manuel.
  • Attribuer une tâche d'examen manuel à un utilisateur
  • Effectuez l'examen manuel d'un document.

Prérequis

  • Un projet Google Cloud
  • Un navigateur (Chrome ou Firefox, par exemple)
  • Connaissances sur Python 3

2. Préparation

Cet atelier de programmation suppose que vous avez effectué les étapes de configuration de Document AI présentées dans l'atelier de programmation d'introduction.

Veuillez effectuer les étapes suivantes avant de continuer :

Vous devez également activer l'API Vertex AI.

  1. Dans la barre de recherche en haut de la console, recherchez "API Vertex AI", puis cliquez sur Activer pour utiliser l'API dans votre projet Google Cloud.
  2. Vous pouvez également activer l'API à l'aide de la commande gcloud suivante.
gcloud services enable aiplatform.googleapis.com

3. Créer un processeur

Vous devez d'abord créer une instance du processeur de dépenses à utiliser pour cet atelier.

  1. Dans la console, accédez à la présentation de la plate-forme Document AI.
  2. Cliquez sur Créer un processeur, faites défiler la page jusqu'à Spécialisé, puis sélectionnez Analyseur de dépenses.
  3. Donnez-lui le nom codelab-expense-parser (ou un autre nom facile à mémoriser), puis sélectionnez la région la plus proche sur la liste.
  4. Cliquez sur Créer pour créer le processeur.
  5. Copiez l'ID du processeur. Vous devrez l'utiliser ultérieurement dans votre code.
  6. Dans Cloud Shell, créez un bucket de stockage en utilisant le nom PROJECT_ID-hitl-results:
export PROJECT_ID=$(gcloud config get-value core/project)
gsutil mb gs://$PROJECT_ID-hitl-results
  1. Associez votre compte utilisateur au rôle IAM Administrateur Vertex AI dans le projet de votre atelier.
export USER_ACCOUNT=$(gcloud config get-value core/account)
gcloud projects add-iam-policy-binding $PROJECT_ID --member=user:$USER_ACCOUNT --role=roles/aiplatform.admin

4. Configurer Human-in-the-loop

Dans cette tâche, vous allez configurer la révision humaine pour le processeur de dépenses que vous avez créé précédemment.

  1. Dans la console, ouvrez le menu de navigation, puis sélectionnez Document AI.
  2. Cliquez sur Human-in-the-loop AI. HITLMenu
  3. Cliquez sur codelab-expense-parser pour ouvrir la page d'examen manuel du processeur.
  4. Cliquez sur Configurer human-in-the-loop.

ConfigureHITL

  1. Sélectionnez Filtre au niveau du document.
  2. Réglez le curseur Pourcentage du seuil de confiance sur 50 %.
  3. Laissez l'option Spécialistes définie sur Utiliser mes propres spécialistes.

HITLFilters

  1. Cliquez dans la boîte déroulante Pool de spécialistes, puis cliquez sur NOUVEAU POOL DE SPÉCIALISTES.
  2. Pour Nom du pool, saisissez Codelab HITL Pool dans la boîte de dialogue Nouveau pool de spécialistes.
  3. Saisissez votre adresse e-mail personnelle pour les gestionnaires de piscines et les spécialistes
  4. Cliquez sur Créer un pool.

HITLSpecialistPool

Cette opération prend quelques minutes. Vous devriez recevoir un e-mail de Vertex AI noreply-vertex@google.com.

  1. Ne cochez pas la case Attribution automatique.
  2. Cochez la case de la section Confirmer les débits.
  3. Cliquez sur Emplacement des instructions et copiez le contenu à cet emplacement de stockage: - N'incluez PAS le préfixe gs:// dans le chemin d'accès.
cloud-samples-data/documentai/codelabs/hitl/hitl-instructions.pdf
  1. Dans Emplacement des résultats, cliquez sur Parcourir et sélectionnez le bucket Cloud Storage que vous avez créé précédemment.
  2. Cliquez sur Sélectionner.
  3. Cliquez sur Save Configuration (Enregistrer la configuration).

La console affiche alors le message Configure human-in-the-loop (Configuration human-in-the-loop) qui s'affiche. Cette opération prend quelques minutes.

HITLLoading

  1. Une fois la configuration terminée, la console vous invite à activer Human-in-the-loop.
  • Cliquez sur le bouton pour l'activer.
  • Cliquez ensuite sur ACTIVER dans la boîte de dialogue pop-up.

HITLEnable

Importer un exemple de formulaire de dépenses

  1. Nous disposons d'un exemple de formulaire à utiliser, stocké dans Google Cloud Storage. Vous pouvez la télécharger à l'aide du bouton ou de la commande ci-dessous:

gsutil cp gs://cloud-samples-data/documentai/codelabs/hitl/expense-claim.pdf .
  1. Après avoir activé Human-in-the-loop, cliquez sur le bouton Importer un document et recherchez l'exemple de document que vous venez de télécharger.
  2. Cliquez sur Importer et attendez la fin de l'opération.

5. Attribuer un élément à un examen manuel

  1. Sur cette page, vous devriez voir des liens vers la console Pool Manager et la console spécialisée. Ces liens apparaîtront également dans un e-mail envoyé par Vertex AI noreply-vertex@google.com.
    • Elles devraient se présenter comme suit : https://datacompute.google.com/cm/cloudml_data_specialists_us_central1_xxxxxxx/tasks
    • Cliquez sur le lien vers la console Gestionnaire.

  1. Une fois dans la console d'étiquetage de données, cliquez sur le titre de l'onglet Tasks (Tâches) pour ouvrir la page d'attribution des tâches.
  2. Cochez la case Non attribuée. Vous devriez constater qu'une nouvelle entrée est répertoriée dans la file d'attente de tâches codelab-expense-parser-P1.

image

  1. Sélectionnez codelab-expense-parser-P1.
  2. Cliquez sur Gérer le devoir.
  3. Saisissez votre adresse e-mail personnelle dans la zone de texte Inclure des spécialistes par e-mail, puis sélectionnez-la dans la liste déroulante.
  4. Cliquez sur Appliquer.

L'écran indique maintenant que la tâche vous est attribuée. Il peut s'écouler quelques minutes avant que la modification soit prise en compte.

image

  1. Sélectionnez le nouvel utilisateur et cliquez sur l'icône de menu.
  2. Cliquez sur Attribuer à toutes les tâches dans le menu pop-up qui s'affiche.

image

  1. Cliquez sur Valider les modifications.
  2. Cliquez sur Commit.

image

6. Effectuer une tâche d'examen manuel

  1. Revenez à la page de configuration de human-in-the-loop (avec intervention humaine) dans la console Cloud.

Cliquez sur le lien pour accéder à la console du spécialiste (nœud de calcul). L'URL ressemble à ceci : https://datacompute.google.com/w/cloudml_data_specialists_us_central1_xxxxxxxxxxx.

La console du nœud de calcul devrait s'ouvrir et afficher votre nouvelle tâche.

image

  1. Pointez sur l'élément de campagne contenant Réunion avec 4 min, puis cliquez sur l'icône Modifier (en forme de crayon).
  2. Modifiez la valeur pour remplacer le texte par Rencontre avec Adam. Vous devrez peut-être faire défiler la zone de texte vers le bas pour voir le texte.
  3. Cliquez sur Appliquer.
  4. Cliquez sur l'icône Confirmer (coche verte) pour l'élément ci-dessous. image
  5. Cliquez sur l'icône Confirmer pour les autres entités mises en surbrillance.
  6. Cliquez sur Envoyer. La tâche d'examen a été supprimée de votre file d'attente des étiqueteurs.

7. Afficher les tâches terminées

  1. Revenez à la console Gestionnaire.
  2. Cliquez sur Tâches et sélectionnez En coursimage.
  3. Cliquez sur Spécialistes.
  4. Sélectionnez votre adresse e-mail.
  5. Cliquez sur Gérer le devoir.
  6. Sélectionnez expense-processor-P1 dans les menus déroulants Select specialists working on specific tasks et Select tasks. Cliquez sur Appliquer pour chaque sélection. Dans le menu contextuel de l'instance expense-processor-P1 qui vous a été attribuée, sélectionnez Afficher les spécialistes.

image

Une fois la tâche d'étiquetage envoyée par l'étiqueteur, le nombre de tâches traitées et le temps total pris seront mis à jour, mais l'affichage des données dans cette vue peut prendre quelques minutes.

  1. Fermez la fenêtre pop-up des spécialistes et accédez à l'onglet Spécialistes.
  2. Cliquez sur le menu contextuel de votre nom d'utilisateur et sélectionnez Afficher les tâches.

Cette vue affiche la liste des tâches de l'utilisateur, leur nombre d'achèvements et le temps nécessaire, comme indiqué ci-dessous:

image

8. Félicitations

Félicitations ! Vous avez utilisé la fonctionnalité human-in-the-loop (avec intervention humaine) de Document AI pour configurer l'examen manuel des documents traités à l'aide d'un processeur de dépenses Document AI.

Effectuer un nettoyage

Pour éviter que les ressources utilisées dans ce tutoriel soient facturées sur votre compte Google Cloud, procédez comme suit :

  • Dans la console Cloud, accédez à la page Gérer les ressources.
  • Dans la liste des projets, sélectionnez votre projet, puis cliquez sur "Supprimer".
  • Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur "Arrêter" pour supprimer le projet.

En savoir plus

Continuez à vous familiariser avec Document AI grâce aux ateliers de programmation suivants.

Ressources

Licence

Ce document est publié sous une licence Creative Commons Attribution 2.0 Generic.