Document AI Warehouse zum Aufnehmen, Verarbeiten und Suchen von Dokumenten verwenden

1. Übersicht

Was ist Document AI Warehouse?

Document AI Warehouse ist eine Plattform zum Speichern, Suchen, Organisieren und Analysieren von Dokumenten und deren strukturierten Metadaten. Dokumente können strukturierte Daten wie Formulare und Rechnungen sowie unstrukturierte Daten wie Verträge und Forschungsarbeiten enthalten. Die Metadaten für Dokumente können automatisch mit Prozessoren in Document AI extrahiert oder manuell mit Feldern und Tags eingegeben werden.

In diesem Codelab erfahren Sie, wie Sie Dokumente mit der Document AI Warehouse-Benutzeroberfläche aufnehmen, verarbeiten und suchen. Für dieses Codelab werden Beispiel-PDF-Dokumente bereitgestellt, darunter eine Lizenzvereinbarung, ein Darlehensformular und eine Bestellrechnung.

Vorbereitung

Dieses Codelab baut auf Inhalten auf, die in anderen Document AI-Codelabs vorgestellt werden. Wir empfehlen Ihnen, die folgenden Dokumente und Codelabs zu lesen, bevor Sie fortfahren:

Lerninhalte

  • Document AI Warehouse API aktivieren
  • Dokumentprozessoren in Document AI Warehouse konfigurieren
  • Text in verschiedenen Arten von PDF-Dokumenten hochladen und parsen
  • Dokumente und ihre Metadaten in Document AI Warehouse durchsuchen

Voraussetzungen

2. Beispieldokumente herunterladen

Für dieses Codelab werden Beispiel-PDF-Dokumente bereitgestellt, darunter eine Lizenzvereinbarung, ein Darlehensformular und eine Bestellrechnung. Sie können die folgenden Beispieldokumente herunterladen, um sie in diesem Codelab zu verwenden.

Alternativ können Sie die Beispieldokumente mit gsutil aus unserem öffentlichen Google Cloud Storage-Bucket herunterladen.

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

In einem späteren Schritt laden Sie diese Beispieldokumente hoch, parsen sie mit verschiedenen Dokumentprozessoren und speichern die resultierenden Dokumente und Metadaten in Document AI Warehouse.

3. Document AI Warehouse API aktivieren

Bevor Sie Document AI Warehouse verwenden können, müssen Sie die API aktivieren.

Mit der Cloud Console

  1. Öffnen Sie die Google Cloud Console in Ihrem Browser.
  2. Rufen Sie in der Google Cloud Console die API-Bibliothek auf, um die APIs und Dienste zu durchsuchen, die aktiviert werden können.
  3. Suchen Sie in der Suchleiste oben auf der Seite „API-Bibliothek“ nach Document AI Warehouse und klicken Sie dann auf den resultierenden Dienst.
  4. Klicken Sie auf die Schaltfläche Aktivieren, um die Document AI Warehouse API in Ihrem Google Cloud-Projekt zu aktivieren.Document AI Warehouse API

Alternative: gcloud CLI verwenden

Alternativ kann die API mit dem folgenden gcloud-Befehl aktiviert werden:

gcloud services enable contentwarehouse.googleapis.com

Wenn die API erfolgreich aktiviert wurde, sollte eine Meldung wie die folgende angezeigt werden:

Operation "operations/..." finished successfully.

Jetzt können Sie Document AI Warehouse verwenden.

4. Document AI Warehouse-Konsole aufrufen

Rufen Sie in Ihrem Browser die Document AI Warehouse Console unter https://documentwarehouse.cloud.google.com auf (die sich außerhalb der Google Cloud Console befindet). Sie verwenden die Document AI Warehouse Console zusammen mit Ihrem Google Cloud-Projekt, um die verbleibenden Schritte in diesem Codelab zum Hochladen, Verarbeiten und Suchen von Dokumenten auszuführen.

Document AI Warehouse-Dashboard

Wenn Sie Document AI Warehouse zum ersten Mal verwenden, finden Sie in der Document AI Warehouse-Dokumentation weitere Informationen zum Konfigurieren Ihres Projekts und Ihrer Einstellungen entsprechend Ihren Anforderungen.

5. Dokumentschema erstellen

Dokumentschemas definieren den Dokumenttyp und die Felder für Dokumente, die Sie in Document AI Warehouse speichern. Sie müssen ein Schema erstellen, bevor Sie neue Dokumente hochladen.

  1. Klicken Sie in der Document AI Warehouse-Konsole rechts oben auf der Seite auf die Schaltfläche Admin.
  2. Klicken Sie in der linken Navigationsleiste auf Schema und dann auf die Schaltfläche + Neu hinzufügen.
  3. Geben Sie einen Namen für das Schema ein, z. B. Documents and Forms, und achten Sie darauf, dass Dokument als Schematyp ausgewählt ist. Klicken Sie dann auf Weiter, um fortzufahren.
  4. Sie können die Standard-JSON-Schemadefinition beibehalten, die so aussehen sollte:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. Klicken Sie dann auf die Schaltfläche Fertig, um das Dokumentschema zu erstellen.

Nach erfolgreichem Abschluss dieser Schritte sollte eine Meldung angezeigt werden, dass Ihr Dokumentschema erstellt wurde. Sie können auf die Schaltfläche Dokumentschema ansehen und dann auf den Tab JSON klicken, um das Schema zu bestätigen. Es sollte so aussehen:

Dokumentschema

6. Dokumentprozessoren erstellen

In diesem Schritt erstellen Sie Dokumentprozessoren, mit denen Sie Volltextsuchen in verschiedenen Dokumenttypen in Document AI Warehouse durchführen können.

  1. Rufen Sie in der Google Cloud Console die Übersichtsseite der Document AI Platform auf.
  2. Klicken Sie auf Prozessoren ansehen und wählen Sie dann Dokument-OCR als Prozessortyp aus, der erstellt werden soll.
  3. Geben Sie einen Namen für den Dokumentprozessor an, z. B. ocr, und die gewünschte Region. Klicken Sie dann auf Erstellen, um den Prozessor zu erstellen.
  4. Kopieren Sie auf der Seite Prozessordetails die Prozessor-ID, die wir später zum Konfigurieren eines Prozessors in Document AI Warehouse verwenden.

Wiederholen Sie diese Schritte und wählen Sie Formularparser als Typ des Dokumentprozessors aus, um form als Prozessornamen zu erstellen und anzugeben.

Wiederholen Sie diese Schritte und wählen Sie Invoice Parser als Typ des Dokumentprozessors aus, um invoice als Prozessornamen zu erstellen und anzugeben.

Nachdem Sie diese Schritte ausgeführt haben, sollten Sie eine Liste mit Dokumentprozessoren sehen, die in etwa so aussieht:

Dokumentprozessoren

7. Dokumentprozessoren konfigurieren

In diesem Schritt konfigurieren Sie Dokumentprozessoren in Document AI Warehouse, indem Sie auf die Prozessoren verweisen, die Sie im vorherigen Schritt erstellt haben.

  1. Klicken Sie in der Document AI Warehouse-Konsole oben in der Symbolleiste auf die Schaltfläche Admin.
  2. Klicken Sie in der linken Navigationsleiste auf Doc AI-Prozessoren und dann auf die Schaltfläche + Neu hinzufügen.
  3. Klicken Sie auf die Schaltfläche + Neuen Prozessor hinzufügen und geben Sie einen Namen und die Prozessor-ID aus dem vorherigen Schritt an.
  4. Klicken Sie auf Speichern, um Ihre Änderungen zu speichern.

Wiederholen Sie diese Schritte, um die beiden anderen Prozessoren mit der Schaltfläche + Neuen Prozessor hinzufügen zur Document AI Warehouse-Konfiguration hinzuzufügen, einschließlich des Formularparsers und des Rechnungsparsers. Achten Sie darauf, dass Sie die beiden zusätzlichen Prozessoren unter derselben Document Schema ID über die Schaltfläche + Add New Processor (Neuen Prozessor hinzufügen) hinzufügen und nicht über die Schaltfläche + Add New (Neu hinzufügen).

Nachdem Sie diese Schritte erfolgreich ausgeführt haben, sollte eine Liste der konfigurierten Dokumentprozessoren angezeigt werden, die in etwa so aussieht:

Document-Prozessoren in Document AI Warehouse

8. Beispieldokumente hochladen und verarbeiten

Nachdem Sie ein Schema definiert und Prozessoren für Ihre Dokumente konfiguriert haben, können Sie Dokumente in Document AI Warehouse hochladen.

  1. Kehren Sie zur Document AI Warehouse Console zurück und klicken Sie in der linken Navigationsleiste auf die Schaltfläche + Neu hinzufügen. Wählen Sie dann die Option zum Hochladen eines neuen Dokuments aus.
  2. Ziehen Sie das Dokument license-agreement.pdf von Ihrem Computer in das Upload-Widget oder suchen Sie nach einem der heruntergeladenen Beispieldokumente und wählen Sie es aus. Klicken Sie dann auf die Schaltfläche Weiter, um fortzufahren.
  3. Wählen Sie für Dokumentschema den Namen des Schemas aus, das Sie zuvor erstellt haben, z. B. Dokumente und Formulare. Wählen Sie unter Doc AI-Prozessor-ID den OCR-Dokumentprozessor aus, den Sie im vorherigen Schritt konfiguriert haben.
  4. Für den Anzeigenamen können Sie den Standardnamen (d.h. den Dateinamen) oder einen benutzerdefinierten Dokumentnamen verwenden.
  5. Klicken Sie auf die Schaltfläche Erstellen, um Ihr Dokument hochzuladen und zu verarbeiten.

Kehren Sie zur Document AI Warehouse-Konsole zurück und wiederholen Sie diese Schritte mit dem Beispieldokument loan-form.pdf. Wählen Sie den zuvor konfigurierten form-Dokumentprozessor aus.

Kehren Sie zur Document AI Warehouse Console zurück und wiederholen Sie diese Schritte mit dem Beispieldokument invoice-sample.pdf. Wählen Sie den zuvor konfigurierten invoice-Dokumentprozessor aus.

Wenn Sie nach Abschluss dieser Schritte zur Document AI Warehouse-Konsole zurückkehren, sollten Sie eine Liste der verarbeiteten Dokumente sehen, die der folgenden ähnelt:

Verarbeitete Dokumente in Document AI Warehouse

9. Dokumente suchen und entdecken

Nachdem Sie ein Dokument in Document AI Warehouse hochgeladen und verarbeitet haben, können Sie eine Volltextsuche in den Dokumenten durchführen.

Geben Sie in der Document AI Warehouse-Konsole einen Suchbegriff ein, der in den Beispieldokumenten vorkommt, z. B. agreement, und drücken Sie die Eingabetaste. Sie können auch andere Suchanfragen wie mortgage und monitor ausprobieren, um Ergebnisse für die verschiedenen hochgeladenen Beispieldokumente zu sehen.

In den Ergebnissen sehen Sie alle Dokumente, die den Suchbegriff enthalten. Weiter wird eine Zusammenfassung des Dokumenttexts mit hervorgehobenem Suchbegriff angezeigt:

Suchergebnisse in Document AI Warehouse

Klicken Sie auf den Namen eines Dokuments, um es aufzurufen.

Klicken Sie auf den Schalter KI-Ansicht, um das Dokument zusammen mit den erkannten Feldern und den zugehörigen Daten aufzurufen:

Detailansicht in Document AI Warehouse

10. Glückwunsch

Sie haben erfolgreich Dokumente mit Document AI Warehouse und mit Prozessoren in Document AI hochgeladen, verarbeitet und Volltextsuchen in ihnen durchgeführt. Wir empfehlen Ihnen, mit anderen Dokumenten zu experimentieren und die anderen auf der Plattform verfügbaren Prozessoren auszuprobieren.

Bereinigen

Mit den folgenden Schritten können Sie vermeiden, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:

  • Rufen Sie die Seite Document Warehouse-Konsole auf und löschen Sie alle hochgeladenen Beispieldokumente.
  • Rufen Sie in der Google Cloud Console die Seite Document AI-Prozessoren auf und löschen Sie die von Ihnen erstellten Beispielprozessoren.
  • Rufen Sie in der Google Cloud Console die Seite APIs und Dienste auf und deaktivieren Sie die Document AI Warehouse API.

Weitere Informationen

Weitere Informationen zu Document AI finden Sie in diesen Codelabs.

Ressourcen

Lizenz

Dieser Text ist mit einer Creative Commons Attribution 2.0 Generic License lizenziert.