Utiliser Document AI Warehouse pour ingérer, traiter et rechercher des documents

1. Présentation

Qu'est-ce que Document AI Warehouse ?

Document AI Warehouse est une plate-forme permettant de stocker, de rechercher, d'organiser et d'analyser des documents et leurs métadonnées structurées. Les documents peuvent inclure des données structurées (formulaires et factures, par exemple) et des données non structurées (contrats et articles de recherche, par exemple). Les métadonnées des documents peuvent être extraites automatiquement à l'aide de processeurs dans Document AI ou saisies manuellement à l'aide de champs et de tags.

Dans cet atelier de programmation, vous apprendrez à ingérer, traiter et rechercher des documents à l'aide de l'interface utilisateur de Document AI Warehouse. Des exemples de documents PDF sont fournis pour cet atelier de programmation, y compris un contrat de licence, un formulaire de prêt et une facture.

Prérequis

Cet atelier de programmation s'appuie sur le contenu présenté dans d'autres ateliers de programmation Document AI. Nous vous recommandons de lire la documentation et les ateliers de programmation suivants avant de continuer :

Points abordés

  • Activer l'API Document AI Warehouse
  • Configurer des processeurs de documents dans Document AI Warehouse
  • Importer et analyser du texte dans différents types de documents PDF
  • Rechercher des documents et leurs métadonnées dans Document AI Warehouse

Prérequis

  • Un projet Google Cloud
  • Un navigateur tel que Chrome ou Firefox

2. Télécharger des exemples de documents

Des exemples de documents PDF sont fournis pour cet atelier de programmation, y compris un contrat de licence, un formulaire de prêt et une facture. Vous pouvez télécharger les exemples de documents suivants à utiliser dans cet atelier de programmation.

Vous pouvez également télécharger les exemples de documents depuis notre bucket public Google Cloud Storage en utilisant gsutil.

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

Lors d'une étape ultérieure, vous importerez ces exemples de documents, les analyserez avec différents processeurs de documents et stockerez les documents et métadonnées obtenus dans Document AI Warehouse.

3. Activer l'API Document AI Warehouse

Avant de pouvoir utiliser Document AI Warehouse, vous devez activer l'API.

Utiliser Cloud Console

  1. Ouvrez la console Google Cloud dans votre navigateur.
  2. Dans la console Google Cloud, accédez à la bibliothèque d'API pour parcourir les API et les services qui peuvent être activés.
  3. Dans la barre de recherche en haut de la page "Bibliothèque d'API", recherchez Document AI Warehouse, puis cliquez sur le service correspondant.
  4. Cliquez sur le bouton Activer pour activer l'API Document AI Warehouse dans votre projet Google Cloud.API Document AI Warehouse

Alternative : Utiliser la CLI gcloud

Vous pouvez également activer l'API à l'aide de la commande gcloud suivante :

gcloud services enable contentwarehouse.googleapis.com

Si l'API a bien été activée, un message semblable à celui-ci s'affiche :

Operation "operations/..." finished successfully.

Vous êtes maintenant prêt à utiliser Document AI Warehouse.

4. Afficher la console Document AI Warehouse

Dans votre navigateur, accédez à la console Document AI Warehouse à l'adresse https://documentwarehouse.cloud.google.com (qui est externe à la console Google Cloud). Vous utiliserez la console Document AI Warehouse ainsi que votre projet Google Cloud pour effectuer les étapes restantes de cet atelier de programmation afin d'importer, de traiter et de rechercher des documents.

Tableau de bord Document AI Warehouse

Si vous utilisez Document AI Warehouse pour la première fois, consultez la documentation Document AI Warehouse pour en savoir plus sur la configuration de votre projet et de vos paramètres en fonction de vos besoins.

5. Créer un schéma de document

Les schémas de documents définissent le type de document et les champs des documents que vous stockez dans Document AI Warehouse. Vous devrez créer un schéma avant d'importer de nouveaux documents.

  1. Dans la console Document AI Warehouse, cliquez sur le bouton Admin en haut à droite de la page.
  2. Cliquez sur l'élément Schéma dans la barre de navigation de gauche, puis sur le bouton + Ajouter.
  3. Attribuez un nom à votre schéma, par exemple Documents and Forms, et assurez-vous que Document est sélectionné comme Type de schéma. Cliquez ensuite sur le bouton Suivant pour continuer.
  4. Vous pouvez laisser la définition du schéma JSON par défaut telle quelle, qui devrait se présenter comme suit :
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. Cliquez ensuite sur le bouton OK pour terminer la création du schéma de document.

Une fois ces étapes effectuées, un message indiquant que le schéma de votre document a été créé devrait s'afficher. Vous pouvez cliquer sur le bouton Afficher le schéma du document, puis sur l'onglet JSON pour confirmer le schéma, qui devrait ressembler à ce qui suit :

Schéma de document

6. Créer des processeurs de documents

Dans cette étape, vous allez créer des processeurs de documents que vous pourrez utiliser pour effectuer une recherche en texte intégral sur différents types de documents dans Document AI Warehouse.

  1. Dans la console Google Cloud, accédez à la page de présentation de la plate-forme Document AI.
  2. Cliquez sur Explorer les processeurs, puis sélectionnez Reconnaissance optique des caractères dans les documents comme type de processeur à créer.
  3. Spécifiez un nom pour votre processeur de documents, tel que ocr, et votre région préférée, puis cliquez sur Créer pour créer votre processeur.
  4. Sur la page Détails du processeur, copiez l'ID du processeur, que nous utiliserons plus tard pour configurer un processeur dans Document AI Warehouse.

Répétez ces étapes et sélectionnez Analyseur de formulaires comme type de processeur de documents pour créer et spécifier form comme nom de processeur.

Répétez ces étapes et sélectionnez Analyseur de factures comme type de processeur de documents pour créer et spécifier invoice comme nom de processeur.

Une fois ces étapes effectuées, une liste de processeurs de documents semblable à celle ci-dessous devrait s'afficher :

Processeurs de documents

7. Configurer les processeurs de documents

Dans cette étape, vous allez configurer des processeurs de documents dans Document AI Warehouse en vous référant aux processeurs que vous avez créés à l'étape précédente.

  1. Dans la console Document AI Warehouse, cliquez sur le bouton Admin dans la barre d'outils supérieure.
  2. Cliquez sur l'élément Processeurs Doc AI dans la barre de navigation de gauche, puis sur le bouton + Ajouter.
  3. Cliquez sur le bouton + Ajouter un processeur, puis spécifiez un nom et l'ID du processeur de l'étape précédente.
  4. Cliquez sur le bouton Enregistrer pour enregistrer vos modifications.

Répétez ces étapes pour ajouter les deux autres processeurs à la configuration Document AI Warehouse à l'aide du bouton + Ajouter un processeur, y compris l'analyseur de formulaires et l'analyseur de factures. Veillez à ajouter les deux processeurs supplémentaires sous le même ID de schéma de document à l'aide du bouton + Ajouter un processeur, plutôt que d'ajouter un schéma supplémentaire à l'aide du bouton + Ajouter.

Une fois ces étapes effectuées, une liste des processeurs de documents configurés doit s'afficher, comme suit :

Processeurs de documents dans Document AI Warehouse

8. Importer et traiter des exemples de documents

Maintenant que vous avez défini un schéma et configuré des processeurs pour vos documents, vous pouvez les importer dans Document AI Warehouse.

  1. Revenez à la console Document AI Warehouse, puis cliquez sur le bouton + Ajouter dans la barre de navigation de gauche. Sélectionnez ensuite l'option Importer un document.
  2. Faites glisser le document license-agreement.pdf de votre ordinateur vers le widget d'importation, ou parcourez et sélectionnez l'un des exemples de documents que vous avez téléchargés. Cliquez ensuite sur le bouton Suivant pour continuer.
  3. Pour le schéma de document, sélectionnez le nom du schéma que vous avez créé précédemment, par exemple Documents et formulaires. Pour l'ID du processeur Doc AI, sélectionnez le processeur de reconnaissance optique des caractères dans les documents que vous avez configuré à l'étape précédente.
  4. Pour le nom à afficher, vous pouvez utiliser le nom par défaut (c'est-à-dire le nom du fichier) ou votre propre nom de document personnalisé.
  5. Cliquez sur le bouton Créer pour importer et traiter votre document.

Revenez à la console Document AI Warehouse et répétez ces étapes avec l'exemple de document loan-form.pdf. Sélectionnez le processeur de documents form que vous avez configuré précédemment.

Revenez à la console Document AI Warehouse et répétez ces étapes avec l'exemple de document invoice-sample.pdf. Sélectionnez le processeur de documents invoice que vous avez configuré précédemment.

Une fois ces étapes effectuées, si vous revenez à la console Document AI Warehouse, vous devriez voir une liste de documents traités semblable à la suivante :

Documents traités dans Document AI Warehouse

9. Rechercher et explorer des documents

Maintenant que vous avez importé et traité un document dans Document AI Warehouse, vous pouvez effectuer une recherche en texte intégral sur les documents.

Dans la console Document AI Warehouse, saisissez un terme de recherche qui apparaît dans les exemples de documents, tel que agreement, puis appuyez sur la touche Entrée. Vous pouvez essayer d'autres requêtes de recherche, comme mortgage et monitor, pour afficher les résultats des différents exemples de documents que vous avez importés.

Dans les résultats, tous les documents contenant ce terme de recherche sont affichés, ainsi qu'un résumé du texte du document contenant le terme de recherche en surbrillance :

Résultats de recherche dans Document AI Warehouse

Cliquez sur le nom d'un document pour l'afficher.

Cliquez sur le bouton Vue IA pour afficher le document ainsi que les champs détectés et les données associées :

Vue détaillée dans Document AI Warehouse

10. Félicitations

Vous avez réussi à importer et à traiter des documents, et à effectuer une recherche en texte intégral sur ceux-ci avec Document AI Warehouse et en utilisant des processeurs dans Document AI. Nous vous encourageons à tester d'autres documents et à découvrir les autres processeurs disponibles sur la plate-forme.

Effectuer un nettoyage

Pour éviter que les ressources utilisées dans ce tutoriel soient facturées sur votre compte Google Cloud, vous pouvez effectuer le nettoyage suivant :

  • Accédez à la page de la console Document Warehouse et supprimez tous les exemples de documents que vous avez importés.
  • Dans la console Google Cloud, accédez à la page Outils de traitement Document AI et supprimez les exemples d'outils de traitement que vous avez créés.
  • Dans la console Google Cloud, accédez à la page API et services, puis désactivez l'API Document AI Warehouse.

En savoir plus

Continuez à vous familiariser avec Document AI grâce à ces autres ateliers de programmation.

Ressources

Licence

Ce document est publié sous une licence Creative Commons Attribution 2.0 Generic.