Używanie Document AI Warehouse do przetwarzania, przetwarzania i wyszukiwania dokumentów

1. Omówienie

Czym jest Document AI Warehouse?

Document AI Warehouse to platforma do przechowywania, wyszukiwania, porządkowania i analizowania dokumentów oraz ich uporządkowanych metadanych. Dokumenty mogą zawierać uporządkowane dane, np. formularze i faktury, a także dane nieuporządkowane, np. umowy i artykuły badawcze. Metadane dokumentów mogą być automatycznie wyodrębniane za pomocą procesorów w Document AI lub ręcznie wprowadzane za pomocą pól i tagów.

Z tego ćwiczenia w Codelabs dowiesz się, jak pozyskiwać, przetwarzać i wyszukiwać dokumenty za pomocą interfejsu Document AI Warehouse. Udostępniamy przykładowe dokumenty w formacie PDF dotyczące tego ćwiczenia z programowania, w tym umowę licencyjną, formularz pożyczkowy i fakturę za zamówienie.

Wymagania wstępne

To ćwiczenie w Codelabs opiera się na treściach przedstawionych w innych ćwiczeniach z programowania Document AI. Przed kontynuowaniem zalecamy zapoznanie się z tą dokumentacją i tymi ćwiczeniami:

Czego się nauczysz

  • Jak włączyć interfejs Document AI Warehouse API
  • Jak skonfigurować procesory dokumentów w Document AI Warehouse
  • Przesyłanie i analiza tekstu w różnych typach dokumentów PDF
  • Jak wyszukiwać dokumenty i ich metadane w Document AI Warehouse

Czego potrzebujesz

  • Projekt Google Cloud
  • przeglądarki, na przykład Chrome lub Firefox;

2. Pobierz przykładowe dokumenty

Udostępniamy przykładowe dokumenty w formacie PDF dotyczące tego ćwiczenia z programowania, w tym umowę licencyjną, formularz pożyczkowy i fakturę za zamówienie. Możesz pobrać poniższe przykładowe dokumenty do wykorzystania w tym ćwiczeniu z programowania.

Możesz też pobrać przykładowe dokumenty z naszego publicznego zasobnika Google Cloud Storage za pomocą polecenia gsutil.

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

W kolejnym kroku prześlesz te przykładowe dokumenty, przeanalizujesz je z użyciem różnych procesorów dokumentów i zapiszesz otrzymane dokumenty oraz metadane w Document AI Warehouse.

3. Włączanie interfejsu Document AI Warehouse API

Zanim zaczniesz korzystać z Document AI Warehouse, musisz włączyć interfejs API.

Za pomocą konsoli Google Cloud

  1. Otwórz konsolę Google Cloud w przeglądarce.
  2. W konsoli Google Cloud otwórz Bibliotekę interfejsów API, aby przejrzeć interfejsy API i usługi, które możesz włączyć.
  3. Na pasku wyszukiwania u góry strony Biblioteki interfejsów API wyszukaj Document AI Warehouse, a następnie kliknij wyświetloną usługę.
  4. Kliknij przycisk Włącz, aby włączyć interfejs Document AI Warehouse API w projekcie Google Cloud.Interfejs Document AI Warehouse API

Wersja alternatywna: za pomocą gcloud CLI

Interfejs API można też włączyć za pomocą tego polecenia gcloud:

gcloud services enable contentwarehouse.googleapis.com

Jeśli interfejs API został włączony, powinien wyświetlić się komunikat podobny do tego:

Operation "operations/..." finished successfully.

Teraz możesz zacząć korzystać z Document AI Warehouse.

4. Wyświetl konsolę Document AI Warehouse

W przeglądarce otwórz konsolę Document AI Warehouse na stronie https://documentwarehouse.cloud.google.com (która znajduje się poza konsolą Google Cloud). Użyj konsoli Document AI Warehouse wraz z projektem Google Cloud do wykonania pozostałych kroków w ramach tego ćwiczenia w Codelabs, aby przesyłać, przetwarzać i wyszukiwać dokumenty.

Panel Document AI Warehouse

Jeśli po raz pierwszy korzystasz z Document AI Warehouse, zapoznaj się z dokumentacją Document AI Warehouse, aby uzyskać więcej informacji na temat konfigurowania projektu i ustawień zależnie od potrzeb.

5. Tworzenie schematu dokumentu

Schematy dokumentów definiują typ i pola dokumentów przechowywanych w Document AI Warehouse. Przed przesłaniem nowych dokumentów musisz utworzyć schemat.

  1. W konsoli Document AI Warehouse kliknij przycisk Admin (Administracja) w prawym górnym rogu strony.
  2. Kliknij element Schemat na pasku nawigacyjnym po lewej stronie, a potem kliknij przycisk + Dodaj nowy.
  3. Wpisz nazwę schematu, na przykład Documents and Forms, i upewnij się, że jako Typ schematu wybrana jest opcja Dokument. Następnie kliknij przycisk Dalej, aby kontynuować.
  4. Możesz pozostawić domyślną definicję schematu JSON bez zmian, która powinna wyglądać tak:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. Następnie kliknij przycisk Gotowe, aby zakończyć tworzenie schematu dokumentu.

Po wykonaniu tych czynności powinien pojawić się komunikat, że schemat dokumentu został utworzony. Aby potwierdzić schemat, kliknij przycisk Wyświetl schemat dokumentu, a następnie kartę JSON. Wygląda to podobnie do tego:

Schemat dokumentu

6. Tworzenie procesorów dokumentów

W tym kroku utworzysz procesory dokumentów, za pomocą których będzie można wyszukiwać pełnotekstowe dokumenty różnych typów w Document AI Warehouse.

  1. W konsoli Google Cloud otwórz stronę przeglądu Document AI Platform.
  2. Kliknij Przeglądaj procesory i wybierz OCR w dokumentach jako typ procesora do utworzenia.
  3. Podaj nazwę procesora dokumentów, na przykład ocr i preferowany region, a następnie kliknij Utwórz, aby utworzyć procesor.
  4. Na stronie Szczegóły procesora skopiuj identyfikator podmiotu przetwarzającego, którego użyjemy później do skonfigurowania procesora w Document AI Warehouse.

Powtórz te kroki, wybierając Parser formularzy jako typ procesora dokumentów i podając form jako nazwę procesora.

Powtórz te kroki i jako typ procesora dokumentów wybierz Invoice Parser, i podaj invoice jako nazwę procesora.

Po wykonaniu tych czynności powinna wyświetlić się lista programów do przetwarzania dokumentów. Wygląda to mniej więcej tak:

Procesory dokumentów

7. Skonfiguruj procesory dokumentów

W tym kroku skonfigurujesz procesory dokumentów w Document AI Warehouse, odwołując się do procesorów utworzonych przez Ciebie w poprzednim kroku.

  1. W konsoli Document AI Warehouse kliknij przycisk Admin (Administracja) na górnym pasku narzędzi.
  2. Kliknij element Procesory AI w Dokumentach na pasku nawigacyjnym po lewej stronie, a następnie kliknij przycisk + Dodaj nowy.
  3. Kliknij przycisk + Dodaj nowy procesor, a potem podaj nazwę i identyfikator procesora z poprzedniego kroku.
  4. Kliknij przycisk Zapisz, aby zapisać zmiany.

Powtórz te kroki, aby dodać 2 pozostałe procesory do konfiguracji Document AI Warehouse przy użyciu przycisku + Dodaj nowy procesor, w tym parser formularzy i parser faktur. Pamiętaj, aby dodać 2 dodatkowe procesory do tego samego identyfikatora schematu dokumentu za pomocą przycisku + Dodaj nowy procesor, zamiast dodawać kolejny schemat za pomocą przycisku + Dodaj nowy.

Po wykonaniu tych czynności powinna się wyświetlić lista skonfigurowanych procesorów dokumentów. Wygląda to podobnie do tej:

Procesory dokumentów w Document AI Warehouse

8. Przesyłanie i przetwarzanie przykładowych dokumentów

Po zdefiniowaniu schematu i skonfigurowaniu procesorów dokumentów możesz przesłać dokumenty do Document AI Warehouse.

  1. Wróć do konsoli Document AI Warehouse i kliknij przycisk +Dodaj nowy na lewym pasku nawigacyjnym, a następnie wybierz opcję Prześlij nowy dokument.
  2. Przeciągnij dokument license-agreement.pdf z komputera do widżetu przesyłania lub przejrzyj i wybierz jeden z pobranych przykładowych dokumentów. Następnie kliknij przycisk Dalej, aby kontynuować.
  3. W sekcji Schemat dokumentu wybierz nazwę utworzonego wcześniej schematu, na przykład Dokumenty i formularze. W polu Identyfikator procesora Doc AI wybierz procesor OCR skonfigurowany w poprzednim kroku.
  4. W polu Nazwa wyświetlana możesz użyć nazwy domyślnej (np. nazwy pliku) lub własnej niestandardowej nazwy dokumentu.
  5. Kliknij przycisk Utwórz, aby przesłać i przetworzyć dokument.

Wróć do konsoli Document AI Warehouse i powtórz te kroki z przykładowym dokumentem loan-form.pdf. Wybierz skonfigurowany wcześniej procesor dokumentów form.

Wróć do konsoli Document AI Warehouse i powtórz te kroki z przykładowym dokumentem invoice-sample.pdf. Wybierz skonfigurowany wcześniej procesor dokumentów invoice.

Jeśli po wykonaniu tych czynności wrócisz do konsoli Document AI Warehouse, powinna pojawić się lista przetworzonych dokumentów podobna do tej:

Przetworzone dokumenty w Document AI Warehouse

9. Wyszukiwanie i przeglądanie dokumentów

Po przesłaniu i przetworzeniu dokumentu do Document AI Warehouse możesz przeprowadzić w nim pełnotekstowe wyszukiwanie.

W konsoli Document AI Warehouse wpisz hasło wyświetlane w przykładowych dokumentach, na przykład agreement, a następnie naciśnij klawisz Enter. Aby zobaczyć wyniki różnych przesłanych przykładowych dokumentów, możesz użyć innych zapytań, takich jak mortgage i monitor.

W wynikach zostaną wyświetlone wszystkie dokumenty zawierające to wyszukiwane hasło, a także podsumowanie tekstu dokumentu z wyróżnionym wyszukiwanym hasłem:

Wyniki wyszukiwania w Document AI Warehouse

Kliknij nazwę dokumentu, aby go wyświetlić.

Kliknij przełącznik Widok AI, aby wyświetlić dokument wraz z wykrytymi polami i powiązanymi z nimi danymi:

Szczegółowy widok w Document AI Warehouse

10. Gratulacje

Udało Ci się przesłać, przetworzyć i przeprowadzić wyszukiwanie pełnotekstowe dokumentów za pomocą Document AI Warehouse oraz przy użyciu procesorów w Document AI. Zachęcamy do eksperymentowania z innymi dokumentami i zapoznania się z innymi platformami przetwarzania danych dostępnymi na platformie.

Czyszczenie

Aby uniknąć obciążenia konta Google Cloud opłatami za zasoby zużyte w tym samouczku, możesz wykonać te czynności:

Więcej informacji

Dowiedz się więcej o Document AI dzięki innym modułom Codelabs.

Zasoby

Licencja

To zadanie jest licencjonowane na podstawie ogólnej licencji Creative Commons Attribution 2.0.