1. Présentation
Qu'est-ce que Document AI Warehouse ?
Document AI Warehouse est une plate-forme permettant de stocker, de rechercher, d'organiser et d'analyser des documents et leurs métadonnées structurées. Les documents peuvent inclure des données structurées telles que des formulaires et des factures, ainsi que des données non structurées telles que des contrats et des rapports de recherche. Les métadonnées des documents peuvent être extraites automatiquement à l'aide de processeurs dans Document AI ou saisies manuellement à l'aide de champs et de tags.
Dans cet atelier de programmation, vous allez apprendre à ingérer, traiter et rechercher des documents à l'aide de l'interface utilisateur Document AI Warehouse. Des exemples de documents PDF sont fournis pour cet atelier de programmation, y compris un contrat de licence, un formulaire de prêt et une facture de commande.
Prérequis
Cet atelier de programmation s'appuie sur le contenu présenté dans d'autres ateliers Document AI. Nous vous recommandons de lire la documentation et les ateliers de programmation suivants avant de continuer:
- Guide de démarrage rapide: Configurer l'API Document AI
- Traiter des documents à l'aide de la console Google Cloud
- Gérer les processeurs Document AI avec Python
Points abordés
- Activer l'API Document AI Warehouse
- Configurer des processeurs de documents dans Document AI Warehouse
- Importer et analyser du texte dans différents types de documents PDF
- Rechercher des documents et leurs métadonnées dans Document AI Warehouse
Prérequis
2. Télécharger des exemples de documents
Des exemples de documents PDF sont fournis pour cet atelier de programmation, y compris un contrat de licence, un formulaire de prêt et une facture de commande. Vous pouvez télécharger les exemples de documents suivants pour les utiliser dans cet atelier de programmation.
Vous pouvez également télécharger les exemples de documents depuis notre bucket public Google Cloud Storage à l'aide de gsutil
.
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .
Lors d'une étape ultérieure, vous importerez ces exemples de documents, les analyserez avec différents processeurs de documents, et stockerez les documents et métadonnées obtenus dans Document AI Warehouse.
3. Activer l'API Document AI Warehouse
Avant de pouvoir utiliser Document AI Warehouse, vous devez activer l'API.
Utiliser Cloud Console
- Ouvrez la console Google Cloud dans votre navigateur.
- Dans la console Google Cloud, accédez à la bibliothèque d'API pour parcourir les API et les services pouvant être activés.
- Dans la barre de recherche située en haut de la page "Bibliothèque d'API", recherchez
Document AI Warehouse
, puis cliquez sur le service obtenu. - Cliquez sur le bouton Activer pour activer l'API Document AI Warehouse dans votre projet Google Cloud.
Alternative: Utiliser la gcloud CLI
Vous pouvez également activer l'API à l'aide de la commande gcloud
suivante:
gcloud services enable contentwarehouse.googleapis.com
Si l'API a bien été activée, un message semblable à celui-ci doit s'afficher:
Operation "operations/..." finished successfully.
Vous êtes maintenant prêt à utiliser Document AI Warehouse.
4. Afficher la console Document AI Warehouse
Dans votre navigateur, accédez à la console Document AI Warehouse à l'adresse https://documentwarehouse.cloud.google.com (qui est externe à la console Google Cloud). Vous utiliserez la console Document AI Warehouse avec votre projet Google Cloud pour effectuer les étapes restantes de cet atelier de programmation visant à importer, traiter et rechercher des documents.
Si vous utilisez Document AI Warehouse pour la première fois, consultez la documentation Document AI Warehouse pour découvrir comment configurer votre projet et vos paramètres en fonction de vos besoins.
5. Créer un schéma de document
Les schémas de document définissent le type de document et les champs des documents que vous stockez dans Document AI Warehouse. Vous devrez créer un schéma avant d'importer de nouveaux documents.
- Dans la console Document AI Warehouse, cliquez sur le bouton Admin en haut à droite de la page.
- Cliquez sur l'élément Schéma dans la barre de navigation de gauche, puis sur le bouton + Ajouter.
- Saisissez un nom pour votre schéma, par exemple
Documents and Forms
, puis assurez-vous que Document est sélectionné comme Type de schéma. Cliquez ensuite sur le bouton Suivant pour continuer. - Vous pouvez laisser la définition du schéma JSON par défaut telle quelle, qui devrait se présenter comme suit:
{ "display_name": "Documents and Forms", "property_definitions": [], "document_is_folder": false, "description": "" }
- Cliquez ensuite sur le bouton Done (OK) pour terminer la création du schéma de document.
Une fois ces étapes terminées, un message devrait indiquer que le schéma de votre document a bien été créé. Vous pouvez cliquer sur le bouton View Document Schema (Afficher le schéma du document), puis sur l'onglet JSON pour confirmer le schéma, qui devrait ressembler à ceci:
6. Créer des processeurs de documents
Au cours de cette étape, vous allez créer des processeurs de documents que vous pourrez utiliser pour effectuer une recherche en texte intégral sur différents types de documents dans Document AI Warehouse.
- Dans la console Google Cloud, accédez à la page de présentation de la plate-forme Document AI.
- Cliquez sur Explorer les processeurs, puis sélectionnez Reconnaissance optique des caractères dans les documents comme type de processeur à créer.
- Spécifiez un nom pour votre processeur de documents, tel que
ocr
et la région de votre choix, puis cliquez sur Créer pour créer votre processeur. - Sur la page Détails du processeur, copiez l'ID du processeur, que nous utiliserons plus tard pour configurer un sous-traitant dans Document AI Warehouse.
Répétez ces étapes et sélectionnez Analyseur de formulaires comme type de processeur de documents pour créer et spécifier form
comme nom de processeur.
Répétez ces étapes et sélectionnez Analyseur de factures comme type de processeur de documents pour créer et spécifier invoice
comme nom de processeur.
Une fois ces étapes terminées, une liste de traitements de documents semblable à celle-ci doit s'afficher:
7. Configurer des processeurs de documents
Au cours de cette étape, vous allez configurer des processeurs de documents dans Document AI Warehouse en vous référant aux processeurs que vous avez créés à l'étape précédente.
- Dans la console Document AI Warehouse, cliquez sur le bouton Admin dans la barre d'outils en haut.
- Cliquez sur Processeurs Doc AI dans la barre de navigation de gauche, puis sur le bouton + Ajouter.
- Cliquez sur le bouton + Ajouter un processeur, puis spécifiez un nom et l'ID de processeur de l'étape précédente.
- Cliquez sur le bouton Enregistrer pour enregistrer vos modifications.
Répétez ces étapes pour ajouter les deux autres processeurs à la configuration de l'entrepôt Document AI à l'aide du bouton + Ajouter un processeur, en incluant l'analyseur de formulaires et l'analyseur de factures. Veillez à ajouter les deux processeurs supplémentaires sous le même ID de schéma de document à l'aide du bouton + Ajouter un processeur, au lieu d'ajouter un schéma supplémentaire à l'aide du bouton + Ajouter.
Une fois ces étapes terminées, vous devriez voir une liste de processeurs de documents configurés, semblable à ce qui suit:
8. Importer et traiter des exemples de documents
Maintenant que vous avez défini un schéma et configuré des processeurs pour vos documents, vous pouvez importer des documents dans Document AI Warehouse.
- Revenez à la console Document AI Warehouse et cliquez sur le bouton + Ajouter dans la barre de navigation de gauche, puis sélectionnez l'option Importer un nouveau document.
- Faites glisser le document license-agreement.pdf depuis votre ordinateur vers le widget d'importation, ou parcourez et sélectionnez l'un des exemples de documents que vous avez téléchargés. Ensuite, cliquez sur le bouton Next (Suivant) pour continuer.
- Pour Document Schema (Schéma du document), sélectionnez le nom du schéma que vous avez créé précédemment, par exemple Documents and Forms. Dans le champ ID de processeur Doc AI, sélectionnez le processeur de documents OCR que vous avez configuré à l'étape précédente.
- Dans le champ Nom à afficher, vous pouvez utiliser le nom par défaut (nom du fichier) ou votre propre nom de document personnalisé.
- Cliquez sur le bouton Créer pour importer et traiter votre document.
Revenez à la console Document AI Warehouse et répétez ces étapes avec l'exemple de document loan-form.pdf. Sélectionnez le processeur de documents form
que vous avez configuré précédemment.
Revenez à la console Document AI Warehouse et répétez ces étapes avec l'exemple de document invoice-sample.pdf. Sélectionnez le processeur de documents invoice
que vous avez configuré précédemment.
Une fois ces étapes terminées, si vous revenez à la console Document AI Warehouse, vous devriez voir une liste de documents traités semblable à celle-ci:
9. Rechercher et explorer des documents
Maintenant que vous avez importé et traité un document dans Document AI Warehouse, vous pouvez effectuer une recherche en texte intégral sur les documents.
Dans la console Document AI Warehouse, saisissez un terme de recherche qui apparaît dans les exemples de documents, par exemple agreement
, puis appuyez sur la touche Entrée. Vous pouvez essayer d'autres requêtes de recherche telles que mortgage
et monitor
pour voir les résultats correspondant aux différents exemples de documents que vous avez importés.
Dans les résultats, vous verrez tous les documents qui contiennent ce terme de recherche, ainsi qu'un résumé du texte du document avec le terme de recherche en surbrillance:
Cliquez sur le nom d'un document pour l'afficher.
Cliquez sur le bouton AI View pour afficher le document ainsi que les champs détectés et les données associées:
10. Félicitations
Vous avez importé, traité et effectué une recherche en texte intégral sur des documents avec Document AI Warehouse et à l'aide de processeurs dans Document AI. Nous vous encourageons à tester d'autres documents et à découvrir les autres processeurs disponibles sur la plate-forme.
Effectuer un nettoyage
Vous pouvez effectuer le nettoyage suivant pour éviter que les ressources utilisées dans ce tutoriel soient facturées sur votre compte Google Cloud:
- Accédez à la page de la console Document Warehouse et supprimez tous les exemples de documents que vous avez importés.
- Dans la console Google Cloud, accédez à la page Processeurs Document AI et supprimez les exemples de processeurs que vous avez créés.
- Dans la console Google Cloud, accédez à la page API et services et désactivez l'API Document AI Warehouse.
En savoir plus
Poursuivez votre apprentissage de Document AI avec ces autres ateliers de programmation.
- Reconnaissance optique des caractères avec Document AI
- Analyse de formulaire avec Document AI et Python
- Outils de traitement spécialisés avec Document AI et Python
- Gérer les processeurs Document AI avec Python
Ressources
- Documentation Document AI Warehouse
- The Future of Documents - YouTube Playlist
- Dépôt d'exemples Document AI
Licence
Ce document est publié sous une licence Creative Commons Attribution 2.0 Generic.