1. Übersicht
Was ist Document AI Warehouse?
Document AI Warehouse ist eine Plattform zum Speichern, Durchsuchen, Organisieren und Analysieren von Dokumenten und ihren strukturierten Metadaten. Dokumente können strukturierte Daten wie Formulare und Rechnungen sowie unstrukturierte Daten wie Verträge und Forschungsarbeiten umfassen. Die Metadaten für Dokumente können automatisch mithilfe von Prozessoren in Document AI extrahiert oder manuell mithilfe von Feldern und Tags eingegeben werden.
In diesem Codelab lernen Sie, wie Sie Dokumente über die Document AI Warehouse-Benutzeroberfläche aufnehmen, verarbeiten und suchen. Für dieses Codelab werden Beispieldokumente im PDF-Format zur Verfügung gestellt, darunter eine Lizenzvereinbarung, ein Kreditformular und eine Auftragsrechnung.
Vorbereitung
Dieses Codelab baut auf Inhalten aus anderen Document AI-Codelabs auf. Wir empfehlen, die folgende Dokumentation und Codelabs zu lesen, bevor Sie fortfahren:
- Kurzanleitung: Document AI API einrichten
- Dokumente mit der Google Cloud Console verarbeiten
- Document AI-Prozessoren mit Python verwalten
Lerninhalte
- Document AI Warehouse API aktivieren
- Dokumentprozessoren in Document AI Warehouse konfigurieren
- Wie Sie Text in verschiedenen Arten von PDF-Dokumenten hochladen und parsen
- Dokumente und zugehörige Metadaten in Document AI Warehouse suchen
Voraussetzungen
2. Beispieldokumente herunterladen
Für dieses Codelab werden Beispieldokumente im PDF-Format zur Verfügung gestellt, darunter eine Lizenzvereinbarung, ein Kreditformular und eine Auftragsrechnung. Sie können die folgenden Beispieldokumente für dieses Codelab herunterladen.
Alternativ können Sie die Beispieldokumente mit gsutil
aus unserem öffentlichen Google Cloud Storage-Bucket herunterladen.
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .
In einem späteren Schritt laden Sie diese Beispieldokumente hoch, parsen sie mit verschiedenen Dokumentprozessoren und speichern die resultierenden Dokumente und Metadaten in Document AI Warehouse.
3. Document AI Warehouse API aktivieren
Bevor Sie Document AI Warehouse verwenden können, müssen Sie die API aktivieren.
Mit der Cloud Console
- Öffnen Sie die Google Cloud Console in Ihrem Browser.
- Gehen Sie in der Google Cloud Console zur API-Bibliothek, um die APIs und Dienste zu sehen, die aktiviert werden können.
- Suchen Sie oben auf der Seite „API-Bibliothek“ in der Suchleiste nach
Document AI Warehouse
und klicken Sie dann auf den entsprechenden Dienst. - Klicken Sie auf die Schaltfläche Aktivieren, um die Document AI Warehouse API in Ihrem Google Cloud-Projekt zu aktivieren.
Alternative: gcloud CLI verwenden
Alternativ kann die API mit dem folgenden gcloud
-Befehl aktiviert werden:
gcloud services enable contentwarehouse.googleapis.com
Wenn die API erfolgreich aktiviert wurde, sollten Sie eine Meldung wie diese sehen:
Operation "operations/..." finished successfully.
Jetzt können Sie Document AI Warehouse verwenden.
4. Document AI Warehouse-Konsole aufrufen
Öffnen Sie in Ihrem Browser die Document AI Warehouse-Konsole unter https://documentwarehouse.cloud.google.com (außerhalb der Google Cloud Console). Sie verwenden die Document AI Warehouse-Konsole zusammen mit Ihrem Google Cloud-Projekt, um die verbleibenden Schritte in diesem Codelab zum Hochladen, Verarbeiten und Suchen von Dokumenten auszuführen.
Wenn Sie Document AI Warehouse zum ersten Mal verwenden, finden Sie in der Document AI Warehouse-Dokumentation weitere Informationen zur Konfiguration Ihres Projekts und Ihrer Einstellungen entsprechend Ihren Anforderungen.
5. Dokumentschema erstellen
Dokumentschemas definieren den Dokumenttyp und die Felder für Dokumente, die Sie in Document AI Warehouse speichern. Sie müssen ein Schema erstellen, bevor Sie neue Dokumente hochladen.
- Klicken Sie in der Document AI Warehouse-Konsole oben rechts auf die Schaltfläche Admin.
- Klicken Sie in der linken Navigationsleiste auf das Element Schema und dann auf die Schaltfläche + Add new (Neu hinzufügen).
- Geben Sie einen Namen für Ihr Schema ein, z. B.
Documents and Forms
, und achten Sie darauf, dass Dokument als Schematyp ausgewählt ist. Klicken Sie dann auf die Schaltfläche Weiter, um fortzufahren. - Sie können die Standarddefinition des JSON-Schemas unverändert lassen. Sie sollte so aussehen:
{ "display_name": "Documents and Forms", "property_definitions": [], "document_is_folder": false, "description": "" }
- Klicken Sie dann auf die Schaltfläche Fertig, um die Erstellung des Dokumentschemas abzuschließen.
Nach Abschluss dieser Schritte sollte eine Meldung angezeigt werden, dass das Dokumentschema erstellt wurde. Sie können auf die Schaltfläche View Document Schema (Dokumentschema anzeigen) und dann auf den Tab JSON (JSON) klicken, um das Schema zu bestätigen. Es sollte in etwa so aussehen:
6. Dokumentprozessoren erstellen
In diesem Schritt erstellen Sie Dokumentprozessoren, mit denen Sie eine Volltextsuche in verschiedenen Dokumenttypen in Document AI Warehouse ausführen können.
- Rufen Sie in der Google Cloud Console die Übersichtsseite von Document AI Platform auf.
- Klicken Sie auf Prozessoren ansehen und wählen Sie Dokument-OCR als Prozessortyp aus, der erstellt werden soll.
- Geben Sie einen Namen für Ihren Dokumentprozessor an, z. B.
ocr
, und Ihre bevorzugte Region. Klicken Sie dann auf Erstellen, um den Prozessor zu erstellen. - Kopieren Sie auf der Seite Prozessordetails die Prozessor-ID, die wir später zum Konfigurieren eines Prozessors in Document AI Warehouse verwenden.
Wiederholen Sie diese Schritte und wählen Sie Form Parser als Dokumentprozessortyp aus, um form
zu erstellen und als Prozessornamen anzugeben.
Wiederholen Sie diese Schritte und wählen Sie Rechnungsparser als Dokumentprozessortyp aus, um invoice
zu erstellen und als Prozessornamen anzugeben.
Nach Abschluss dieser Schritte sollte eine Liste von Dokumentverarbeitern angezeigt werden, die in etwa so aussieht:
7. Dokumentprozessoren konfigurieren
In diesem Schritt konfigurieren Sie Dokumentprozessoren in Document AI Warehouse, indem Sie auf die Prozessoren verweisen, die Sie im vorherigen Schritt erstellt haben.
- Klicken Sie in der Document AI Warehouse-Konsole in der oberen Symbolleiste auf die Schaltfläche Admin.
- Klicken Sie in der linken Navigationsleiste auf das Element Doc AI Processors und dann auf die Schaltfläche + Add new (Neu hinzufügen).
- Klicken Sie auf die Schaltfläche + Neuen Prozessor hinzufügen und geben Sie einen Namen und die Prozessor-ID aus dem vorherigen Schritt an.
- Klicken Sie auf Speichern, um Ihre Änderungen zu speichern.
Wiederholen Sie diese Schritte, um die anderen beiden Prozessoren mit der Schaltfläche + Neuen Prozessor hinzufügen zur Document AI Warehouse-Konfiguration hinzuzufügen, einschließlich des Formularparsers und des Rechnungsparsers. Fügen Sie die beiden zusätzlichen Prozessoren unter derselben Dokumentschema-ID mit der Schaltfläche + Neuen Prozessor hinzufügen hinzu, anstatt über die Schaltfläche + Neu hinzufügen ein zusätzliches Schema hinzuzufügen.
Nach Abschluss dieser Schritte sollte eine Liste der konfigurierten Dokumentprozessoren angezeigt werden, die in etwa so aussieht:
8. Beispieldokumente hochladen und verarbeiten
Nachdem Sie nun ein Schema definiert und Prozessoren für Ihre Dokumente konfiguriert haben, können Sie Dokumente in Document AI Warehouse hochladen.
- Kehren Sie zur Document AI Warehouse-Konsole zurück, klicken Sie in der linken Navigationsleiste auf die Schaltfläche +Add new (Neu hinzufügen) und wählen Sie dann die Option Upload a new document (Neues Dokument hochladen) aus.
- Ziehen Sie das Dokument license-agreement.pdf von Ihrem Computer in das Upload-Widget oder wählen Sie eines der heruntergeladenen Beispieldokumente aus. Klicken Sie dann auf die Schaltfläche Weiter, um fortzufahren.
- Wählen Sie unter Dokumentschema den Namen des Schemas aus, das Sie zuvor erstellt haben, z. B. Dokumente und Formulare. Wählen Sie für die Doc AI-Prozessor-ID den OCR-Dokumentprozessor aus, den Sie im vorherigen Schritt konfiguriert haben.
- Als Anzeigename können Sie den Standardnamen (d.h. den Dateinamen) oder Ihren eigenen benutzerdefinierten Dokumentnamen verwenden.
- Klicken Sie auf die Schaltfläche Erstellen, um Ihr Dokument hochzuladen und zu verarbeiten.
Kehren Sie zur Document AI Warehouse-Konsole zurück und wiederholen Sie diese Schritte mit dem Beispieldokument loan-form.pdf. Wählen Sie den Dokumentprozessor form
aus, den Sie zuvor konfiguriert haben.
Kehren Sie zur Document AI Warehouse-Konsole zurück und wiederholen Sie diese Schritte mit dem Beispieldokument invoice-sample.pdf. Wählen Sie den Dokumentprozessor invoice
aus, den Sie zuvor konfiguriert haben.
Wenn Sie nach Abschluss dieser Schritte zur Document AI Warehouse-Konsole zurückkehren, sollte eine Liste der verarbeiteten Dokumente angezeigt werden, die in etwa so aussieht:
9. Dokumente suchen und entdecken
Nachdem Sie ein Dokument in Document AI Warehouse hochgeladen und verarbeitet haben, können Sie eine Volltextsuche in den Dokumenten durchführen.
Geben Sie in der Document AI Warehouse-Konsole einen Suchbegriff ein, der in den Beispieldokumenten enthalten ist, z. B. agreement
, und drücken Sie dann die Eingabetaste. Sie können andere Suchanfragen wie mortgage
und monitor
ausprobieren, um Ergebnisse für die verschiedenen von Ihnen hochgeladenen Beispieldokumente zu erhalten.
In den Ergebnissen werden alle Dokumente angezeigt, die diesen Suchbegriff enthalten, sowie eine Zusammenfassung des Dokumenttexts, in der der Suchbegriff hervorgehoben ist:
Klicken Sie auf den Namen eines Dokuments, um es anzuzeigen.
Klicken Sie auf die Ein/Aus-Schaltfläche AI-Ansicht, um das Dokument mit den erkannten Feldern und den zugehörigen Daten aufzurufen:
10. Glückwunsch
Sie haben mithilfe von Document AI Warehouse und mithilfe von Prozessoren in Document AI eine Volltextsuche in Dokumenten erfolgreich hochgeladen, verarbeitet und durchgeführt. Wir empfehlen Ihnen, mit anderen Dokumenten zu experimentieren und sich die anderen Prozessoren anzusehen, die auf der Plattform verfügbar sind.
Bereinigen
Mit der folgenden Bereinigung können Sie vermeiden, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:
- Gehen Sie zur Seite Document Warehouse-Konsole und löschen Sie alle Beispieldokumente, die Sie hochgeladen haben.
- Rufen Sie in der Google Cloud Console die Seite Document AI-Prozessoren auf und löschen Sie die von Ihnen erstellten Beispielprozessoren.
- Rufen Sie in der Google Cloud Console die Seite APIs und Dienste auf und deaktivieren Sie die Document AI Warehouse API.
Weitere Informationen
In diesen Codelabs erfahren Sie mehr über Document AI.
- Optische Zeichenerkennung mit Document AI
- Formularanalyse mit Document AI (Python)
- Spezialisierte Prozessoren mit Document AI (Python)
- Document AI-Prozessoren mit Python verwalten
Ressourcen
- Document AI Warehouse-Dokumentation
- The Future of Documents – YouTube-Playlist
- Document AI-Beispiel-Repository
Lizenz
Dieser Text ist mit einer Creative Commons Attribution 2.0 Generic License lizenziert.