1. 개요
Document AI Warehouse란 무엇인가요?
Document AI Warehouse는 문서와 문서의 구조화된 메타데이터를 저장, 검색, 정리, 분석할 수 있는 플랫폼입니다. 문서에는 양식, 인보이스와 같은 정형 데이터와 계약서, 연구 논문과 같은 비정형 데이터가 포함될 수 있습니다. 문서의 메타데이터는 Document AI의 프로세서를 사용하여 자동으로 추출하거나 필드와 태그를 사용하여 수동으로 입력할 수 있습니다.
이 Codelab에서는 Document AI Warehouse 사용자 인터페이스를 사용하여 문서를 수집, 처리, 검색하는 방법을 알아봅니다. 이 Codelab에서는 라이선스 계약, 대출 양식, 주문 인보이스 등 샘플 PDF 문서를 제공합니다.
기본 요건
이 Codelab은 다른 Document AI Codelab에서 다룬 콘텐츠를 기반으로 합니다. 계속하기 전에 다음 문서와 Codelab을 읽어보는 것이 좋습니다.
학습할 내용
- Document AI Warehouse API를 사용 설정하는 방법
- Document AI Warehouse에서 문서 프로세서를 구성하는 방법
- 다양한 유형의 PDF 문서에서 텍스트를 업로드하고 파싱하는 방법
- Document AI Warehouse에서 문서와 메타데이터를 검색하는 방법
필요한 항목
2. 샘플 문서 다운로드
이 Codelab에는 라이선스 계약, 대출 양식, 주문 인보이스 등 샘플 PDF 문서가 제공됩니다. 이 Codelab에서 사용할 다음 샘플 문서를 다운로드할 수 있습니다.
또는 gsutil을 사용하여 공개 Google Cloud Storage 버킷에서 샘플 문서를 다운로드할 수 있습니다.
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .
나중에 이러한 샘플 문서를 업로드하고, 다양한 문서 프로세서로 파싱하고, 결과 문서와 메타데이터를 Document AI Warehouse에 저장합니다.
3. Document AI Warehouse API 사용 설정
Document AI Warehouse를 사용하려면 먼저 API를 사용 설정해야 합니다.
Cloud Console 사용
- 브라우저에서 Google Cloud 콘솔을 엽니다.
- Google Cloud 콘솔에서 API 라이브러리로 이동하여 사용 설정할 수 있는 API 및 서비스를 탐색합니다.
- API 라이브러리 페이지 상단의 검색창을 사용하여
Document AI Warehouse를 검색한 다음 검색 결과로 표시된 서비스를 클릭합니다. - 사용 설정 버튼을 클릭하여 Google Cloud 프로젝트에서 Document AI Warehouse API를 사용 설정합니다.

대안: gcloud CLI 사용
다음 gcloud 명령어를 사용하여 API를 사용 설정할 수도 있습니다.
gcloud services enable contentwarehouse.googleapis.com
API가 사용 설정되면 다음과 비슷한 메시지가 표시됩니다.
Operation "operations/..." finished successfully.
이제 Document AI Warehouse를 사용할 준비가 되었습니다.
4. Document AI Warehouse 콘솔 보기
브라우저에서 https://documentwarehouse.cloud.google.com에 있는 Document AI Warehouse 콘솔로 이동합니다 (Google Cloud 콘솔 외부). 이 Codelab의 나머지 단계를 수행하여 문서를 업로드, 처리, 검색하려면 Google Cloud 프로젝트와 함께 Document AI Warehouse 콘솔을 사용합니다.

Document AI Warehouse를 처음 사용하는 경우 Document AI Warehouse 문서를 참고하여 필요에 따라 프로젝트와 설정을 구성하세요.
5. 문서 스키마 만들기
문서 스키마는 Document AI Warehouse에 저장하는 문서의 문서 유형과 필드를 정의합니다. 새 문서를 업로드하기 전에 스키마를 만들어야 합니다.
- Document AI Warehouse 콘솔에서 페이지 오른쪽 상단의 관리 버튼을 클릭합니다.
- 왼쪽 탐색 메뉴에서 스키마 항목을 클릭한 다음 + 새로 추가 버튼을 클릭합니다.
- 스키마 이름(예:
Documents and Forms)을 입력하고 스키마 유형으로 문서가 선택되어 있는지 확인합니다. 그런 다음 다음 버튼을 클릭하여 계속합니다. - 다음과 같이 표시되는 기본 JSON 스키마 정의를 그대로 둘 수 있습니다.
{ "display_name": "Documents and Forms", "property_definitions": [], "document_is_folder": false, "description": "" } - 그런 다음 완료 버튼을 클릭하여 문서 스키마 만들기를 마칩니다.
이 단계를 완료하면 문서 스키마가 생성되었다는 메시지가 표시됩니다. 문서 스키마 보기 버튼을 클릭한 다음 JSON 탭을 클릭하여 스키마를 확인할 수 있습니다. 스키마는 다음과 유사하게 표시됩니다.

6. 문서 프로세서 만들기
이 단계에서는 Document AI Warehouse에서 다양한 유형의 문서에 대해 전체 텍스트 검색을 실행하는 데 사용할 수 있는 문서 프로세서를 만듭니다.
- Google Cloud 콘솔에서 Document AI Platform 개요 페이지로 이동합니다.
- 프로세서 탐색을 클릭한 다음 만들 프로세서 유형으로 문서 OCR을 선택합니다.
- 문서 프로세서의 이름(예:
ocr)과 원하는 리전을 지정한 다음 만들기를 클릭하여 프로세서를 만듭니다. - 프로세서 세부정보 페이지에서 프로세서 ID를 복사합니다. 이 ID는 나중에 Document AI Warehouse에서 프로세서를 구성하는 데 사용됩니다.
위 단계를 반복하고 문서 프로세서 유형으로 양식 파서를 선택하여 프로세서 이름으로 form를 만들고 지정합니다.
이 단계를 반복하고 문서 프로세서 유형으로 인보이스 파서를 선택하여 invoice를 프로세서 이름으로 만들고 지정합니다.
이 단계를 완료하면 다음과 비슷한 문서 처리기 목록이 표시됩니다.

7. 문서 프로세서 구성
이 단계에서는 이전 단계에서 만든 프로세서를 참조하여 Document AI Warehouse에서 문서 프로세서를 구성합니다.
- Document AI Warehouse 콘솔에서 상단 툴바의 관리 버튼을 클릭합니다.
- 왼쪽 탐색 메뉴에서 Doc AI 프로세서 항목을 클릭한 다음 + 새로 추가 버튼을 클릭합니다.
- + 새 프로세서 추가 버튼을 클릭한 다음 이전 단계에서 이름을 지정하고 프로세서 ID를 지정합니다.
- 저장 버튼을 클릭하여 변경사항을 저장합니다.
이 단계를 반복하여 양식 파서와 인보이스 파서를 포함한 다른 두 프로세서를 + 새 프로세서 추가 버튼을 사용하여 Document AI Warehouse 구성에 추가합니다. + 새로 추가 버튼을 사용하여 스키마를 추가하는 대신 + 새 프로세서 추가 버튼을 사용하여 동일한 문서 스키마 ID 아래에 두 개의 추가 프로세서를 추가해야 합니다.
이 단계를 완료하면 다음과 유사한 구성된 문서 프로세서 목록이 표시됩니다.

8. 샘플 문서 업로드 및 처리
이제 스키마를 정의하고 문서의 프로세서를 구성했으므로 문서를 Document AI Warehouse에 업로드할 수 있습니다.
- Document AI Warehouse 콘솔로 돌아가 왼쪽 탐색 메뉴에서 +새로 추가 버튼을 클릭한 다음 새 문서 업로드 옵션을 선택합니다.
- 컴퓨터에서 license-agreement.pdf 문서를 업로드 위젯으로 드래그하거나 다운로드한 샘플 문서 중 하나를 찾아 선택합니다. 그런 다음 다음 버튼을 클릭하여 계속합니다.
- 문서 스키마에서 이전에 만든 스키마의 이름(예: 문서 및 양식)을 선택합니다. Doc AI 프로세서 ID에서 이전 단계에서 구성한 OCR 문서 프로세서를 선택합니다.
- 표시 이름의 경우 기본 이름 (즉, 파일 이름)을 사용하거나 맞춤 문서 이름을 사용할 수 있습니다.
- 만들기 버튼을 클릭하여 문서를 업로드하고 처리합니다.
Document AI Warehouse 콘솔로 돌아가 loan-form.pdf 샘플 문서를 사용하여 이 단계를 반복합니다. 이전에 구성한 form 문서 프로세서를 선택합니다.
Document AI Warehouse 콘솔로 돌아가 invoice-sample.pdf 샘플 문서를 사용하여 이 단계를 반복합니다. 이전에 구성한 invoice 문서 프로세서를 선택합니다.
이 단계를 완료한 후 Document AI Warehouse 콘솔로 돌아가면 다음과 비슷한 처리된 문서 목록이 표시됩니다.

9. 문서 검색 및 탐색
이제 Document AI Warehouse에 문서를 업로드하고 처리했으므로 문서에 대해 전체 텍스트 검색을 실행할 수 있습니다.
Document AI Warehouse 콘솔에서 샘플 문서에 표시되는 검색어(예: agreement)를 입력한 다음 Enter 키를 누릅니다. mortgage 및 monitor과 같은 다른 검색어를 사용해 업로드한 다양한 샘플 문서의 결과를 확인할 수 있습니다.
결과에서 검색어가 강조 표시된 문서 텍스트 요약본과 함께 검색어가 포함된 모든 문서를 볼 수 있습니다.

문서 이름을 클릭하여 문서를 확인합니다.
AI 보기 전환 버튼을 클릭하면 감지된 필드와 연결된 데이터와 함께 문서가 표시됩니다.

10. 축하합니다
Document AI Warehouse와 Document AI의 프로세서를 사용하여 문서를 업로드하고, 처리하고, 전체 텍스트 검색을 수행했습니다. 다른 문서로도 실험해 보고 플랫폼에서 제공하는 다른 프로세서도 사용해 보시기 바랍니다.
삭제
다음과 같이 정리하면 이 튜토리얼에서 사용한 리소스에 대해 Google Cloud 계정에 요금이 청구되지 않습니다.
- Document Warehouse 콘솔 페이지로 이동하여 업로드한 모든 샘플 문서를 삭제합니다.
- Google Cloud 콘솔에서 Document AI 프로세서 페이지로 이동하여 만든 샘플 프로세서를 삭제합니다.
- Google Cloud 콘솔에서 API 및 서비스 페이지로 이동하여 Document AI Warehouse API를 사용 중지합니다.
자세히 알아보기
다음 Codelab에서 Document AI에 대해 계속 알아보세요.
- Document AI를 사용한 광학 문자 인식
- Document AI(Python)를 사용한 양식 파싱
- Document AI(Python)를 사용한 전문 프로세서
- Python으로 Document AI 프로세서 관리
리소스
라이선스
이 작업물은 Creative Commons Attribution 2.0 일반 라이선스에 따라 사용이 허가되었습니다.