Document AI Warehouse를 사용하여 문서 수집, 처리, 검색

1. 개요

Document AI Warehouse란 무엇인가요?

Document AI Warehouse는 문서 및 그 정형 메타데이터를 저장, 검색, 구성, 분석하는 플랫폼입니다. 문서에는 양식 및 인보이스와 같은 구조화된 데이터는 물론 계약서 및 연구 논문과 같은 구조화되지 않은 데이터가 포함될 수 있습니다. 문서의 메타데이터는 Document AI의 프로세서를 사용하여 자동으로 추출하거나 필드 및 태그를 사용하여 수동으로 입력할 수 있습니다.

이 Codelab에서는 Document AI Warehouse 사용자 인터페이스를 사용하여 문서를 수집, 처리, 검색하는 방법을 알아봅니다. 이 Codelab에서는 라이선스 계약, 대출 양식, 주문 인보이스를 비롯한 샘플 PDF 문서가 제공됩니다.

기본 요건

이 Codelab은 다른 Document AI Codelab에서 다룬 콘텐츠를 기반으로 합니다. 계속하기 전에 다음 문서와 Codelab을 읽어보는 것이 좋습니다.

학습할 내용

  • Document AI Warehouse API를 사용 설정하는 방법
  • Document AI Warehouse에서 문서 프로세서를 구성하는 방법
  • 다양한 유형의 PDF 문서에서 텍스트를 업로드하고 파싱하는 방법
  • Document AI Warehouse에서 문서 및 문서의 메타데이터를 검색하는 방법

필요한 항목

  • Google Cloud 프로젝트
  • 브라우저(Chrome 또는 Firefox 등)

2. 샘플 문서 다운로드

이 Codelab에서는 라이선스 계약, 대출 양식, 주문 인보이스를 비롯한 샘플 PDF 문서가 제공됩니다. 이 Codelab에서 사용할 다음 샘플 문서를 다운로드할 수 있습니다.

또는 gsutil를 사용하여 공개 Google Cloud Storage 버킷에서 샘플 문서를 다운로드할 수 있습니다.

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

이후 단계에서는 이러한 샘플 문서를 업로드하고, 여러 문서 프로세서로 이를 파싱하고, 결과 문서와 메타데이터를 Document AI Warehouse에 저장합니다.

3. Document AI Warehouse API 사용 설정

Document AI Warehouse를 사용하려면 먼저 API를 사용 설정해야 합니다.

Cloud Console 사용

  1. 브라우저에서 Google Cloud 콘솔을 엽니다.
  2. Google Cloud 콘솔에서 API 라이브러리로 이동하여 사용 설정할 수 있는 API와 서비스를 둘러봅니다.
  3. API 라이브러리 페이지 상단의 검색창을 사용하여 Document AI Warehouse를 검색한 다음 결과 서비스를 클릭합니다.
  4. 사용 설정 버튼을 클릭하여 Google Cloud 프로젝트에서 Document AI Warehouse API를 사용 설정합니다.Document AI Warehouse API

대안: gcloud CLI 사용

또는 다음 gcloud 명령어를 사용하여 API를 사용 설정할 수 있습니다.

gcloud services enable contentwarehouse.googleapis.com

API가 성공적으로 사용 설정되면 다음과 유사한 메시지가 표시됩니다.

Operation "operations/..." finished successfully.

이제 Document AI Warehouse를 사용할 준비가 되었습니다.

4. Document AI Warehouse 콘솔 보기

브라우저에서 https://documentwarehouse.cloud.google.com (Google Cloud 콘솔 외부에 있는)에 있는 Document AI Warehouse 콘솔로 이동합니다. Document AI Warehouse 콘솔과 Google Cloud 프로젝트를 사용하여 이 Codelab의 나머지 단계를 수행하여 문서를 업로드, 처리, 검색합니다.

Document AI Warehouse 대시보드

Document AI Warehouse를 처음 사용하는 경우 Document AI Warehouse 문서를 참고하여 필요에 따라 프로젝트 및 설정을 구성하는 방법을 자세히 알아보세요.

5. 문서 스키마 만들기

문서 스키마는 Document AI Warehouse에 저장하는 문서의 문서 유형과 필드를 정의합니다. 새 문서를 업로드하기 전에 스키마를 만들어야 합니다.

  1. Document AI Warehouse 콘솔에서 페이지 오른쪽 상단의 관리 버튼을 클릭합니다.
  2. 왼쪽 탐색 메뉴에서 스키마 항목을 클릭한 다음 + 새로 추가 버튼을 클릭합니다.
  3. 스키마 이름(예: Documents and Forms)을 입력하고 스키마 유형으로 문서가 선택되어 있는지 확인합니다. 그런 다음 Next 버튼을 클릭하여 계속 진행합니다.
  4. 다음과 같이 표시되는 기본 JSON 스키마 정의는 그대로 두어도 됩니다.
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. 그런 다음 완료 버튼을 클릭하여 문서 스키마 만들기를 완료합니다.

이러한 단계를 성공적으로 완료하면 문서 스키마가 생성되었다는 메시지가 표시됩니다. 문서 스키마 보기 버튼을 클릭한 다음 JSON 탭을 클릭하여 다음과 비슷하게 표시되는 스키마를 확인할 수 있습니다.

문서 스키마

6. 문서 프로세서 만들기

이 단계에서는 Document AI Warehouse의 다양한 문서에서 전체 텍스트 검색을 수행하는 데 사용할 수 있는 문서 프로세서를 만듭니다.

  1. Google Cloud 콘솔에서 Document AI Platform 개요 페이지로 이동합니다.
  2. 프로세서 살펴보기를 클릭하고 생성할 프로세서 유형으로 문서 OCR을 선택합니다.
  3. 문서 프로세서의 이름(예: ocr)과 선호하는 리전을 지정한 다음 만들기를 클릭하여 프로세서를 만듭니다.
  4. 프로세서 세부정보 페이지에서 나중에 Document AI Warehouse에서 프로세서를 구성하는 데 사용할 프로세서 ID를 복사합니다.

이 단계를 반복하고 form를 프로세서 이름으로 지정할 문서 프로세서 유형으로 양식 파서를 선택합니다.

이 단계를 반복하고 invoice를 프로세서 이름으로 지정할 문서 프로세서 유형으로 인보이스 파서를 선택합니다.

이 단계를 성공적으로 완료하면 다음과 비슷한 문서 프로세서 목록이 표시됩니다.

문서 프로세서

7. 문서 프로세서 구성

이 단계에서는 이전 단계에서 만든 프로세서를 참조하여 Document AI Warehouse의 문서 프로세서를 구성합니다.

  1. Document AI Warehouse 콘솔의 상단 툴바에 있는 관리 버튼을 클릭합니다.
  2. 왼쪽 탐색 메뉴에서 Doc AI 프로세서 항목을 클릭한 다음 + 새로 추가 버튼을 클릭합니다.
  3. + 새 프로세서 추가 버튼을 클릭한 다음 이전 단계의 프로세서 ID와 이름을 지정합니다.
  4. 저장 버튼을 클릭하여 변경사항을 저장합니다.

이 단계를 반복하여 + 새 프로세서 추가 버튼을 사용하여 양식 파서와 인보이스 파서 등 다른 두 프로세서를 Document AI Warehouse 구성에 추가합니다. + 새로 추가 버튼을 사용하여 스키마를 추가하는 대신 + 새 프로세서 추가 버튼을 사용하여 동일한 문서 스키마 ID에 두 개의 프로세서를 추가해야 합니다.

이 단계를 성공적으로 완료하면 다음과 같이 구성된 문서 프로세서 목록이 표시됩니다.

Document AI Warehouse의 문서 프로세서

8. 샘플 문서 업로드 및 처리

이제 문서의 스키마를 정의하고 프로세서를 구성했으므로 Document AI Warehouse에 문서를 업로드할 수 있습니다.

  1. Document AI Warehouse 콘솔로 돌아가 왼쪽 탐색 메뉴에서 +새로 추가 버튼을 클릭한 다음 새 문서 업로드 옵션을 선택합니다.
  2. 컴퓨터에서 license-agreement.pdf 문서를 업로드 위젯으로 드래그하거나 다운로드한 샘플 문서 중 하나를 둘러보고 선택합니다. 그런 다음 Next 버튼을 클릭하여 계속 진행합니다.
  3. 문서 스키마문서 및 양식과 같이 앞서 만든 스키마의 이름을 선택합니다. Doc AI 프로세서 ID의 경우 이전 단계에서 구성한 OCR 문서 프로세서를 선택합니다.
  4. 표시 이름에는 기본 이름 (즉, 파일 이름)을 사용하거나 나만의 맞춤 문서 이름을 사용할 수 있습니다.
  5. 만들기 버튼을 클릭하여 문서를 업로드하고 처리합니다.

Document AI Warehouse 콘솔로 돌아가 loan-form.pdf 샘플 문서를 사용하여 이 단계를 반복합니다. 이전에 구성한 form 문서 프로세서를 선택합니다.

Document AI Warehouse 콘솔로 돌아가 invoice-sample.pdf 샘플 문서에서 이 단계를 반복합니다. 이전에 구성한 invoice 문서 프로세서를 선택합니다.

이러한 단계를 완료한 후 Document AI Warehouse 콘솔로 돌아가면 다음과 비슷한 처리된 문서 목록이 표시됩니다.

Document AI Warehouse의 처리된 문서

9. 문서 검색 및 탐색

이제 Document AI Warehouse에 문서를 업로드하고 처리했으므로 문서에서 전체 텍스트 검색을 수행할 수 있습니다.

Document AI Warehouse 콘솔에서 샘플 문서에 표시되는 검색어(예: agreement)를 입력한 다음 Enter 키를 누릅니다. mortgagemonitor과 같은 다른 검색어를 사용하여 업로드한 다른 샘플 문서에 대한 결과를 확인할 수 있습니다.

결과에는 해당 검색어를 포함한 모든 문서가 표시되며, 검색어가 강조 표시된 문서 텍스트 요약도 함께 표시됩니다.

Document AI Warehouse의 검색 결과

문서를 보려면 문서의 이름을 클릭하세요.

AI 뷰 전환 버튼을 클릭하여 감지된 필드 및 관련 데이터와 함께 문서를 확인합니다.

Document AI Warehouse의 세부정보 보기

10. 축하합니다

Document AI Warehouse와 Document AI의 프로세서를 사용하여 문서의 전체 텍스트 검색을 성공적으로 업로드, 처리, 수행했습니다. 다른 문서로도 실험해 보고 플랫폼에서 제공하는 다른 프로세서도 사용해 보시기 바랍니다.

삭제

이 튜토리얼에서 사용한 리소스 비용이 Google Cloud 계정에 청구되지 않도록 다음 정리를 수행할 수 있습니다.

  • 문서 웨어하우스 콘솔 페이지로 이동하여 업로드한 모든 샘플 문서를 삭제합니다.
  • Google Cloud 콘솔에서 Document AI 프로세서 페이지로 이동하여 내가 만든 샘플 프로세서를 삭제합니다.
  • Google Cloud 콘솔에서 API 및 서비스 페이지로 이동하여 Document AI Warehouse API를 사용 중지합니다.

자세히 알아보기

다른 Codelab을 통해 Document AI에 대해 계속 학습하세요.

리소스

라이선스

이 작업물은 Creative Commons Attribution 2.0 일반 라이선스에 따라 사용이 허가되었습니다.