1. Przegląd
Czym jest Document AI Warehouse?
Document AI Warehouse to platforma do przechowywania, wyszukiwania, organizowania i analizowania dokumentów oraz ich uporządkowanych metadanych. Dokumenty mogą zawierać dane uporządkowane, takie jak formularze i faktury, a także dane nieuporządkowane, takie jak umowy i prace badawcze. Metadane dokumentów można wyodrębniać automatycznie za pomocą procesorów w Document AI lub wprowadzać ręcznie za pomocą pól i tagów.
Z tego laboratorium dowiesz się, jak wczytywać, przetwarzać i wyszukiwać dokumenty za pomocą interfejsu Document AI Warehouse. W tym laboratorium znajdziesz przykładowe dokumenty PDF, w tym umowę licencyjną, formularz pożyczki i fakturę za zamówienie.
Wymagania wstępne
To ćwiczenie opiera się na treściach przedstawionych w innych ćwiczeniach dotyczących Document AI. Zaleca się zapoznanie z poniższą dokumentacją i samouczkami:
- Krótkie wprowadzenie: konfigurowanie interfejsu Document AI API
- Przetwarzanie dokumentów za pomocą konsoli Google Cloud
- Zarządzanie procesorami Document AI za pomocą Pythona
Czego się nauczysz
- Jak włączyć interfejs Document AI Warehouse API
- Konfigurowanie procesorów dokumentów w Document AI Warehouse
- Przesyłanie i analizowanie tekstu w różnych typach dokumentów PDF
- Jak wyszukiwać dokumenty i ich metadane w Document AI Warehouse
Czego potrzebujesz
2. Pobieranie przykładowych dokumentów
W tym laboratorium znajdziesz przykładowe dokumenty PDF, w tym umowę licencyjną, formularz pożyczki i fakturę za zamówienie. Możesz pobrać te przykładowe dokumenty, aby użyć ich w tym laboratorium.
Możesz też pobrać przykładowe dokumenty z naszego publicznego zasobnika Cloud Storage za pomocą gsutil.
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .
W dalszej części tego przewodnika prześlesz te przykładowe dokumenty, przeanalizujesz je za pomocą różnych procesorów dokumentów i zapiszesz uzyskane dokumenty oraz metadane w Document AI Warehouse.
3. Włączanie interfejsu Document AI Warehouse API
Zanim zaczniesz korzystać z Document AI Warehouse, musisz włączyć interfejs API.
Korzystanie z konsoli Google Cloud
- Otwórz konsolę Google Cloud w przeglądarce.
- W konsoli Google Cloud otwórz Bibliotekę interfejsów API, aby przejrzeć interfejsy API i usługi, które można włączyć.
- Na pasku wyszukiwania u góry strony Biblioteka interfejsów API wyszukaj
Document AI Warehouse, a następnie kliknij wynikową usługę. - Kliknij przycisk Włącz, aby włączyć Document AI Warehouse API w projekcie Google Cloud.

Alternatywa: korzystanie z interfejsu wiersza poleceń gcloud
Interfejs API można też włączyć za pomocą tego polecenia gcloud:
gcloud services enable contentwarehouse.googleapis.com
Jeśli interfejs API został włączony, powinien wyświetlić się komunikat podobny do tego:
Operation "operations/..." finished successfully.
Możesz już korzystać z Document AI Warehouse.
4. Wyświetlanie konsoli Document AI Warehouse
W przeglądarce otwórz konsolę Document AI Warehouse pod adresem https://documentwarehouse.cloud.google.com (jest to adres zewnętrzny w stosunku do konsoli Google Cloud). W pozostałych krokach tego Codelabs użyjesz konsoli Document AI Warehouse i projektu w chmurze Google Cloud, aby przesłać, przetworzyć i wyszukać dokumenty.

Jeśli korzystasz z Document AI Warehouse po raz pierwszy, zapoznaj się z dokumentacją Document AI Warehouse, aby dowiedzieć się więcej o konfigurowaniu projektu i ustawień w zależności od potrzeb.
5. Utwórz schemat dokumentu
Schematy dokumentów określają typ dokumentu i pola dokumentów przechowywanych w Document AI Warehouse. Zanim prześlesz nowe dokumenty, musisz utworzyć schemat.
- W konsoli Document AI Warehouse kliknij przycisk Admin w prawym górnym rogu strony.
- Na pasku nawigacyjnym po lewej stronie kliknij Schema (Schemat), a potem kliknij przycisk + Add new (Dodaj nowy).
- Wpisz nazwę schematu, np.
Documents and Forms, i upewnij się, że jako Typ schematu wybrano Dokument. Następnie kliknij przycisk Dalej, aby kontynuować. - Możesz pozostawić domyślną definicję schematu JSON bez zmian. Powinna ona wyglądać tak:
{ "display_name": "Documents and Forms", "property_definitions": [], "document_is_folder": false, "description": "" } - Następnie kliknij przycisk Gotowe, aby zakończyć tworzenie schematu dokumentu.
Po wykonaniu tych czynności powinien pojawić się komunikat informujący o utworzeniu schematu dokumentu. Aby potwierdzić schemat, który powinien wyglądać podobnie jak poniżej, możesz kliknąć przycisk Wyświetl schemat dokumentu, a potem kartę JSON:

6. Tworzenie procesorów dokumentów
W tym kroku utworzysz procesory dokumentów, których możesz używać do wyszukiwania pełnotekstowego różnych typów dokumentów w Document AI Warehouse.
- W konsoli Google Cloud otwórz stronę przeglądu platformy Document AI.
- Kliknij Poznaj procesory, a następnie wybierz Document OCR jako typ procesora do utworzenia.
- Wpisz nazwę procesora dokumentów, np.
ocr, i wybierz preferowany region, a następnie kliknij Utwórz, aby utworzyć procesor. - Na stronie Szczegóły procesora skopiuj Identyfikator procesora, którego użyjemy później do skonfigurowania procesora w Document AI Warehouse.
Powtórz te czynności i jako typ procesora dokumentów wybierz Form Parser, aby utworzyć procesor i określić form jako jego nazwę.
Powtórz te kroki i jako typ procesora dokumentów wybierz Invoice Parser, a jako nazwę procesora wpisz invoice.
Po wykonaniu tych czynności powinna pojawić się lista procesorów dokumentów podobna do tej:

7. Konfigurowanie procesorów dokumentów
W tym kroku skonfigurujesz procesory dokumentów w Document AI Warehouse, odwołując się do procesorów utworzonych w poprzednim kroku.
- W konsoli Document AI Warehouse na pasku narzędzi u góry kliknij przycisk Admin (Administrator).
- Na pasku nawigacyjnym po lewej stronie kliknij Procesory Doc AI, a potem kliknij przycisk + Dodaj nowy.
- Kliknij przycisk + Add New Processor (Dodaj nowy procesor), a następnie podaj nazwę i identyfikator procesora z poprzedniego kroku.
- Aby zapisać zmiany, kliknij przycisk Zapisz.
Powtórz te czynności, aby dodać do konfiguracji Document AI Warehouse pozostałe 2 procesory za pomocą przycisku + Add New Processor (Dodaj nowy procesor), w tym analizator formularzy i analizator faktur. Pamiętaj, aby dodać 2 dodatkowe procesory w ramach tego samego identyfikatora schematu dokumentu za pomocą przycisku + Dodaj nowy procesor, a nie dodawać dodatkowego schematu za pomocą przycisku + Dodaj nowy.
Po wykonaniu tych czynności powinna pojawić się lista skonfigurowanych procesorów dokumentów podobna do tej:

8. Przesyłanie i przetwarzanie przykładowych dokumentów
Po zdefiniowaniu schematu i skonfigurowaniu procesorów dla dokumentów możesz przesłać dokumenty do Document AI Warehouse.
- Wróć do konsoli Document AI Warehouse i na pasku nawigacyjnym po lewej stronie kliknij przycisk +Dodaj nowy, a następnie wybierz opcję Prześlij nowy dokument.
- Przeciągnij dokument license-agreement.pdf z komputera do widżetu przesyłania lub wyszukaj i wybierz jeden z pobranych przykładowych dokumentów. Następnie kliknij przycisk Dalej, aby kontynuować.
- W sekcji Schemat dokumentu wybierz nazwę utworzonego wcześniej schematu, np. Dokumenty i formularze. W polu Identyfikator procesora Doc AI wybierz procesor OCR dokumentów skonfigurowany w poprzednim kroku.
- W przypadku nazwy wyświetlanej możesz użyć nazwy domyślnej (czyli nazwy pliku) lub własnej nazwy dokumentu.
- Kliknij przycisk Utwórz, aby przesłać i przetworzyć dokument.
Wróć do konsoli Document AI Warehouse i powtórz te kroki z przykładowym dokumentem loan-form.pdf. Wybierz form procesor dokumentów skonfigurowany wcześniej.
Wróć do konsoli Document AI Warehouse i powtórz te kroki z przykładowym dokumentem invoice-sample.pdf. Wybierz invoice procesor dokumentów skonfigurowany wcześniej.
Po wykonaniu tych czynności i powrocie do konsoli Document AI Warehouse powinna się wyświetlić lista przetworzonych dokumentów podobna do tej:

9. Wyszukiwanie i przeglądanie dokumentów
Po przesłaniu i przetworzeniu dokumentu w Document AI Warehouse możesz przeprowadzić wyszukiwanie pełnotekstowe w dokumentach.
W konsoli Document AI Warehouse wpisz termin wyszukiwania, który występuje w przykładowych dokumentach, np. agreement, a następnie naciśnij klawisz Enter. Możesz wypróbować inne zapytania, np. mortgage i monitor, aby zobaczyć wyniki dla różnych przesłanych dokumentów przykładowych.
W wynikach zobaczysz wszystkie dokumenty zawierające wyszukiwane hasło oraz podsumowanie tekstu dokumentu z wyróżnionym wyszukiwanym hasłem:

Kliknij nazwę dokumentu, aby go wyświetlić.
Kliknij przełącznik Widok AI, aby wyświetlić dokument wraz z wykrytymi polami i powiązanymi z nimi danymi:

10. Gratulacje
Udało Ci się przesłać i przetworzyć dokumenty oraz przeprowadzić w nich wyszukiwanie pełnotekstowe za pomocą Document AI Warehouse i procesorów w Document AI. Zachęcamy do eksperymentowania z innymi dokumentami i wypróbowania innych procesorów dostępnych na platformie.
Czyszczenie
Aby uniknąć obciążenia konta Google Cloud opłatami za zasoby zużyte w tym samouczku, wykonaj czyszczenie:
- Otwórz stronę konsoli Document Warehouse i usuń wszystkie przesłane dokumenty przykładowe.
- W konsoli Google Cloud otwórz stronę Procesory Document AI i usuń utworzone procesory przykładowe.
- W konsoli Google Cloud otwórz stronę Interfejsy API i usługi i wyłącz interfejs API Document AI Warehouse.
Więcej informacji
Więcej informacji o Document AI znajdziesz w tych codelabach.
- Optyczne rozpoznawanie znaków za pomocą Document AI
- Analizowanie formularzy za pomocą Document AI (Python)
- Specjalistyczne procesory z Document AI (Python)
- Zarządzanie procesorami Document AI za pomocą Pythona
Zasoby
- Dokumentacja Document AI Warehouse
- Przyszłość dokumentów – playlista w YouTube
- Repozytorium przykładów Document AI
Licencja
To zadanie jest licencjonowane na podstawie ogólnej licencji Creative Commons Attribution 2.0.