Używanie Document AI Warehouse do przetwarzania, przetwarzania i wyszukiwania dokumentów

1. Przegląd

Czym jest Document AI Warehouse?

Document AI Warehouse to platforma do przechowywania, wyszukiwania, organizowania i analizowania dokumentów oraz ich uporządkowanych metadanych. Dokumenty mogą zawierać dane uporządkowane, takie jak formularze i faktury, a także dane nieuporządkowane, takie jak umowy i prace badawcze. Metadane dokumentów można wyodrębniać automatycznie za pomocą procesorów w Document AI lub wprowadzać ręcznie za pomocą pól i tagów.

Z tego laboratorium dowiesz się, jak wczytywać, przetwarzać i wyszukiwać dokumenty za pomocą interfejsu Document AI Warehouse. W tym laboratorium znajdziesz przykładowe dokumenty PDF, w tym umowę licencyjną, formularz pożyczki i fakturę za zamówienie.

Wymagania wstępne

To ćwiczenie opiera się na treściach przedstawionych w innych ćwiczeniach dotyczących Document AI. Zaleca się zapoznanie z poniższą dokumentacją i samouczkami:

Czego się nauczysz

  • Jak włączyć interfejs Document AI Warehouse API
  • Konfigurowanie procesorów dokumentów w Document AI Warehouse
  • Przesyłanie i analizowanie tekstu w różnych typach dokumentów PDF
  • Jak wyszukiwać dokumenty i ich metadane w Document AI Warehouse

Czego potrzebujesz

2. Pobieranie przykładowych dokumentów

W tym laboratorium znajdziesz przykładowe dokumenty PDF, w tym umowę licencyjną, formularz pożyczki i fakturę za zamówienie. Możesz pobrać te przykładowe dokumenty, aby użyć ich w tym laboratorium.

Możesz też pobrać przykładowe dokumenty z naszego publicznego zasobnika Cloud Storage za pomocą gsutil.

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

W dalszej części tego przewodnika prześlesz te przykładowe dokumenty, przeanalizujesz je za pomocą różnych procesorów dokumentów i zapiszesz uzyskane dokumenty oraz metadane w Document AI Warehouse.

3. Włączanie interfejsu Document AI Warehouse API

Zanim zaczniesz korzystać z Document AI Warehouse, musisz włączyć interfejs API.

Korzystanie z konsoli Google Cloud

  1. Otwórz konsolę Google Cloud w przeglądarce.
  2. W konsoli Google Cloud otwórz Bibliotekę interfejsów API, aby przejrzeć interfejsy API i usługi, które można włączyć.
  3. Na pasku wyszukiwania u góry strony Biblioteka interfejsów API wyszukaj Document AI Warehouse, a następnie kliknij wynikową usługę.
  4. Kliknij przycisk Włącz, aby włączyć Document AI Warehouse API w projekcie Google Cloud.Document AI Warehouse API

Alternatywa: korzystanie z interfejsu wiersza poleceń gcloud

Interfejs API można też włączyć za pomocą tego polecenia gcloud:

gcloud services enable contentwarehouse.googleapis.com

Jeśli interfejs API został włączony, powinien wyświetlić się komunikat podobny do tego:

Operation "operations/..." finished successfully.

Możesz już korzystać z Document AI Warehouse.

4. Wyświetlanie konsoli Document AI Warehouse

W przeglądarce otwórz konsolę Document AI Warehouse pod adresem https://documentwarehouse.cloud.google.com (jest to adres zewnętrzny w stosunku do konsoli Google Cloud). W pozostałych krokach tego Codelabs użyjesz konsoli Document AI Warehouse i projektu w chmurze Google Cloud, aby przesłać, przetworzyć i wyszukać dokumenty.

Panel Document AI Warehouse

Jeśli korzystasz z Document AI Warehouse po raz pierwszy, zapoznaj się z dokumentacją Document AI Warehouse, aby dowiedzieć się więcej o konfigurowaniu projektu i ustawień w zależności od potrzeb.

5. Utwórz schemat dokumentu

Schematy dokumentów określają typ dokumentu i pola dokumentów przechowywanych w Document AI Warehouse. Zanim prześlesz nowe dokumenty, musisz utworzyć schemat.

  1. W konsoli Document AI Warehouse kliknij przycisk Admin w prawym górnym rogu strony.
  2. Na pasku nawigacyjnym po lewej stronie kliknij Schema (Schemat), a potem kliknij przycisk + Add new (Dodaj nowy).
  3. Wpisz nazwę schematu, np. Documents and Forms, i upewnij się, że jako Typ schematu wybrano Dokument. Następnie kliknij przycisk Dalej, aby kontynuować.
  4. Możesz pozostawić domyślną definicję schematu JSON bez zmian. Powinna ona wyglądać tak:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. Następnie kliknij przycisk Gotowe, aby zakończyć tworzenie schematu dokumentu.

Po wykonaniu tych czynności powinien pojawić się komunikat informujący o utworzeniu schematu dokumentu. Aby potwierdzić schemat, który powinien wyglądać podobnie jak poniżej, możesz kliknąć przycisk Wyświetl schemat dokumentu, a potem kartę JSON:

Schemat dokumentu

6. Tworzenie procesorów dokumentów

W tym kroku utworzysz procesory dokumentów, których możesz używać do wyszukiwania pełnotekstowego różnych typów dokumentów w Document AI Warehouse.

  1. W konsoli Google Cloud otwórz stronę przeglądu platformy Document AI.
  2. Kliknij Poznaj procesory, a następnie wybierz Document OCR jako typ procesora do utworzenia.
  3. Wpisz nazwę procesora dokumentów, np. ocr, i wybierz preferowany region, a następnie kliknij Utwórz, aby utworzyć procesor.
  4. Na stronie Szczegóły procesora skopiuj Identyfikator procesora, którego użyjemy później do skonfigurowania procesora w Document AI Warehouse.

Powtórz te czynności i jako typ procesora dokumentów wybierz Form Parser, aby utworzyć procesor i określić form jako jego nazwę.

Powtórz te kroki i jako typ procesora dokumentów wybierz Invoice Parser, a jako nazwę procesora wpisz invoice.

Po wykonaniu tych czynności powinna pojawić się lista procesorów dokumentów podobna do tej:

Procesory dokumentów

7. Konfigurowanie procesorów dokumentów

W tym kroku skonfigurujesz procesory dokumentów w Document AI Warehouse, odwołując się do procesorów utworzonych w poprzednim kroku.

  1. W konsoli Document AI Warehouse na pasku narzędzi u góry kliknij przycisk Admin (Administrator).
  2. Na pasku nawigacyjnym po lewej stronie kliknij Procesory Doc AI, a potem kliknij przycisk + Dodaj nowy.
  3. Kliknij przycisk + Add New Processor (Dodaj nowy procesor), a następnie podaj nazwę i identyfikator procesora z poprzedniego kroku.
  4. Aby zapisać zmiany, kliknij przycisk Zapisz.

Powtórz te czynności, aby dodać do konfiguracji Document AI Warehouse pozostałe 2 procesory za pomocą przycisku + Add New Processor (Dodaj nowy procesor), w tym analizator formularzy i analizator faktur. Pamiętaj, aby dodać 2 dodatkowe procesory w ramach tego samego identyfikatora schematu dokumentu za pomocą przycisku + Dodaj nowy procesor, a nie dodawać dodatkowego schematu za pomocą przycisku + Dodaj nowy.

Po wykonaniu tych czynności powinna pojawić się lista skonfigurowanych procesorów dokumentów podobna do tej:

Procesory dokumentów w Document AI Warehouse

8. Przesyłanie i przetwarzanie przykładowych dokumentów

Po zdefiniowaniu schematu i skonfigurowaniu procesorów dla dokumentów możesz przesłać dokumenty do Document AI Warehouse.

  1. Wróć do konsoli Document AI Warehouse i na pasku nawigacyjnym po lewej stronie kliknij przycisk +Dodaj nowy, a następnie wybierz opcję Prześlij nowy dokument.
  2. Przeciągnij dokument license-agreement.pdf z komputera do widżetu przesyłania lub wyszukaj i wybierz jeden z pobranych przykładowych dokumentów. Następnie kliknij przycisk Dalej, aby kontynuować.
  3. W sekcji Schemat dokumentu wybierz nazwę utworzonego wcześniej schematu, np. Dokumenty i formularze. W polu Identyfikator procesora Doc AI wybierz procesor OCR dokumentów skonfigurowany w poprzednim kroku.
  4. W przypadku nazwy wyświetlanej możesz użyć nazwy domyślnej (czyli nazwy pliku) lub własnej nazwy dokumentu.
  5. Kliknij przycisk Utwórz, aby przesłać i przetworzyć dokument.

Wróć do konsoli Document AI Warehouse i powtórz te kroki z przykładowym dokumentem loan-form.pdf. Wybierz form procesor dokumentów skonfigurowany wcześniej.

Wróć do konsoli Document AI Warehouse i powtórz te kroki z przykładowym dokumentem invoice-sample.pdf. Wybierz invoice procesor dokumentów skonfigurowany wcześniej.

Po wykonaniu tych czynności i powrocie do konsoli Document AI Warehouse powinna się wyświetlić lista przetworzonych dokumentów podobna do tej:

Przetworzone dokumenty w Document AI Warehouse

9. Wyszukiwanie i przeglądanie dokumentów

Po przesłaniu i przetworzeniu dokumentu w Document AI Warehouse możesz przeprowadzić wyszukiwanie pełnotekstowe w dokumentach.

W konsoli Document AI Warehouse wpisz termin wyszukiwania, który występuje w przykładowych dokumentach, np. agreement, a następnie naciśnij klawisz Enter. Możesz wypróbować inne zapytania, np. mortgagemonitor, aby zobaczyć wyniki dla różnych przesłanych dokumentów przykładowych.

W wynikach zobaczysz wszystkie dokumenty zawierające wyszukiwane hasło oraz podsumowanie tekstu dokumentu z wyróżnionym wyszukiwanym hasłem:

Wyniki wyszukiwania w Document AI Warehouse

Kliknij nazwę dokumentu, aby go wyświetlić.

Kliknij przełącznik Widok AI, aby wyświetlić dokument wraz z wykrytymi polami i powiązanymi z nimi danymi:

Widok szczegółowy w Document AI Warehouse

10. Gratulacje

Udało Ci się przesłać i przetworzyć dokumenty oraz przeprowadzić w nich wyszukiwanie pełnotekstowe za pomocą Document AI Warehouse i procesorów w Document AI. Zachęcamy do eksperymentowania z innymi dokumentami i wypróbowania innych procesorów dostępnych na platformie.

Czyszczenie

Aby uniknąć obciążenia konta Google Cloud opłatami za zasoby zużyte w tym samouczku, wykonaj czyszczenie:

Więcej informacji

Więcej informacji o Document AI znajdziesz w tych codelabach.

Zasoby

Licencja

To zadanie jest licencjonowane na podstawie ogólnej licencji Creative Commons Attribution 2.0.