Dùng Document AI Warehouse để nhập, xử lý và tìm kiếm tài liệu

1. Tổng quan

Document AI Warehouse là gì?

Document AI Warehouse là một nền tảng để lưu trữ, tìm kiếm, sắp xếp và phân tích tài liệu cũng như siêu dữ liệu có cấu trúc của tài liệu. Tài liệu có thể bao gồm dữ liệu có cấu trúc như biểu mẫu và hoá đơn, cũng như dữ liệu phi cấu trúc như hợp đồng và bài viết nghiên cứu. Hệ thống có thể tự động trích xuất siêu dữ liệu của tài liệu bằng bộ xử lý trong AI của tài liệu hoặc nhập thủ công bằng các trường và thẻ.

Trong lớp học lập trình này, bạn sẽ tìm hiểu cách nhập, xử lý và tìm kiếm tài liệu bằng giao diện người dùng Document AI Warehouse. Chúng tôi cung cấp tài liệu PDF mẫu cho lớp học lập trình này, bao gồm thoả thuận cấp phép, biểu mẫu cho vay và hoá đơn đặt hàng.

Điều kiện tiên quyết

Lớp học lập trình này dựa trên nội dung có trong các lớp học lập trình khác về AI tạo tài liệu. Bạn nên đọc các tài liệu và lớp học lập trình sau đây trước khi tiếp tục:

Kiến thức bạn sẽ học được

  • Cách bật API Document AI Warehouse
  • Cách định cấu hình trình xử lý tài liệu trong Document AI Warehouse
  • Cách tải lên và phân tích cú pháp văn bản trong nhiều loại tài liệu PDF
  • Cách tìm tài liệu và siêu dữ liệu của tài liệu trong Document AI Warehouse

Bạn cần có

  • Một dự án trong Google Cloud
  • Một trình duyệt, chẳng hạn như Chrome hoặc Firefox

2. Tải tài liệu mẫu xuống

Chúng tôi cung cấp tài liệu PDF mẫu cho lớp học lập trình này, bao gồm thoả thuận cấp phép, biểu mẫu cho vay và hoá đơn đặt hàng. Bạn có thể tải các tài liệu mẫu sau xuống để sử dụng trong lớp học lập trình này.

Ngoài ra, bạn có thể tải các tài liệu mẫu xuống từ bộ chứa công khai của Google Cloud Storage bằng gsutil.

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

Ở bước sau, bạn sẽ tải các tài liệu mẫu này lên, phân tích cú pháp các tài liệu này bằng nhiều trình xử lý tài liệu rồi lưu trữ các tài liệu và siêu dữ liệu thu được trong Document AI Warehouse.

3. Bật Document AI Warehouse API

Bạn phải bật API thì mới có thể bắt đầu sử dụng Document AI Warehouse.

Sử dụng Cloud Console

  1. Mở bảng điều khiển Google Cloud trên trình duyệt.
  2. Trong bảng điều khiển Google Cloud, hãy chuyển đến Thư viện API để duyệt xem các API và dịch vụ được phép bật.
  3. Sử dụng thanh tìm kiếm ở đầu trang Thư viện API, tìm Document AI Warehouse, sau đó nhấp vào dịch vụ kết quả.
  4. Nhấp vào nút Enable (Bật) để bật Document AI Warehouse API trong dự án của bạn trên Google Cloud.API Document AI Warehouse

Cách khác: Sử dụng Giao diện dòng lệnh (CLI) của gcloud

Ngoài ra, bạn có thể bật API này bằng lệnh gcloud sau đây:

gcloud services enable contentwarehouse.googleapis.com

Nếu API được bật thành công, bạn sẽ thấy một thông báo tương tự như sau:

Operation "operations/..." finished successfully.

Bây giờ, bạn đã sẵn sàng sử dụng Document AI Warehouse!

4. Xem bảng điều khiển Document AI Warehouse

Trên trình duyệt, hãy chuyển đến Bảng điều khiển Document AI Warehouse tại https://documentwarehouse.cloud.google.com (nằm ngoài bảng điều khiển Google Cloud). Bạn sẽ sử dụng bảng điều khiển Document AI Warehouse cùng với dự án Google Cloud của mình để thực hiện các bước còn lại trong lớp học lập trình này để tải lên, xử lý và tìm kiếm tài liệu.

Trang tổng quan Document AI Warehouse

Nếu đây là lần đầu tiên bạn sử dụng Document AI Warehouse, hãy tham khảo Tài liệu về Document AI Warehouse để biết thêm thông tin về cách định cấu hình dự án và các chế độ cài đặt theo nhu cầu của bạn.

5. Tạo một giản đồ tài liệu

Giản đồ tài liệu xác định loại tài liệu và các trường cho các tài liệu mà bạn lưu trữ trong Document AI Warehouse. Bạn cần phải tạo giản đồ trước khi tải bất kỳ tài liệu mới nào lên.

  1. Trong bảng điều khiển Document AI Warehouse, hãy nhấp vào nút Quản trị ở góc trên cùng bên phải của trang.
  2. Nhấp vào mục Giản đồ trên thanh điều hướng bên trái, sau đó nhấp vào nút + Thêm mới.
  3. Nhập tên cho giản đồ của bạn, chẳng hạn như Documents and Forms và đảm bảo rằng Tài liệu được chọn làm Loại giản đồ. Sau đó, nhấp vào nút Tiếp theo để tiếp tục.
  4. Bạn có thể giữ nguyên định nghĩa giản đồ JSON mặc định. Định nghĩa này sẽ có dạng như sau:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. Sau đó, nhấp vào nút Xong để hoàn tất việc tạo giản đồ tài liệu.

Sau khi hoàn tất thành công các bước này, bạn sẽ thấy một thông báo cho biết giản đồ tài liệu của bạn đã được tạo. Bạn có thể nhấp vào nút View Document Schema (Xem giản đồ tài liệu), sau đó nhấp vào thẻ JSON để xác nhận giản đồ này, giản đồ này sẽ có dạng như sau:

Giản đồ tài liệu

6. Tạo trình xử lý tài liệu

Ở bước này, bạn sẽ tạo một trình xử lý tài liệu mà bạn có thể dùng để tìm kiếm toàn bộ văn bản trên nhiều loại tài liệu trong Document AI Warehouse.

  1. Trong bảng điều khiển Google Cloud, hãy chuyển đến trang tổng quan về Tài liệu AI Platform.
  2. Nhấp vào Khám phá bộ xử lý, rồi chọn Nhận dạng ký tự quang học (OCR) tài liệu làm loại bộ xử lý cần tạo.
  3. Chỉ định tên cho bộ xử lý tài liệu, chẳng hạn như ocr và khu vực ưu tiên, rồi nhấp vào Tạo để tạo bộ xử lý.
  4. Trên trang Thông tin chi tiết về bộ xử lý, hãy sao chép Mã bộ xử lý. Sau này, chúng ta sẽ sử dụng mã này để định cấu hình bộ xử lý trong Document AI Warehouse.

Lặp lại các bước này và chọn Trình phân tích cú pháp biểu mẫu làm loại trình xử lý tài liệu để tạo và chỉ định form làm tên bộ xử lý.

Lặp lại các bước này rồi chọn Trình phân tích cú pháp hoá đơn làm loại bộ xử lý tài liệu để tạo và chỉ định invoice làm tên bộ xử lý.

Sau khi hoàn tất thành công các bước này, bạn sẽ thấy một danh sách trình xử lý tài liệu giống như sau:

Máy xử lý tài liệu

7. Định cấu hình trình xử lý tài liệu

Ở bước này, bạn sẽ định cấu hình các trình xử lý tài liệu trong Document AI Warehouse bằng cách tham chiếu đến các trình xử lý mà bạn đã tạo ở bước trước.

  1. Trong Bảng điều khiển Document AI Warehouse, hãy nhấp vào nút Quản trị ở thanh công cụ trên cùng.
  2. Nhấp vào mục Doc AI Processors (Trình xử lý tài liệu) trên thanh điều hướng bên trái, rồi nhấp vào nút + Add new (Thêm mới).
  3. Nhấp vào nút + Thêm đơn vị xử lý mới, sau đó chỉ định tên và mã đơn vị xử lý ở bước trước.
  4. Nhấp vào nút Lưu để lưu các thay đổi.

Lặp lại các bước này để thêm 2 trình xử lý còn lại vào cấu hình Document AI Warehouse bằng cách sử dụng nút + Thêm bộ xử lý mới, bao gồm cả trình phân tích cú pháp biểu mẫu và trình phân tích cú pháp hoá đơn. Hãy đảm bảo rằng bạn thêm 2 trình xử lý bổ sung vào cùng Mã giản đồ tài liệu bằng cách sử dụng nút + Thêm bộ xử lý mới, thay vì thêm giản đồ bổ sung bằng nút + Thêm mới.

Sau khi hoàn tất thành công các bước này, bạn sẽ thấy danh sách trình xử lý tài liệu được định cấu hình giống như sau:

Trình xử lý tài liệu trong Document AI Warehouse

8. Tải lên và xử lý tài liệu mẫu

Giờ đây, khi đã xác định được giản đồ và định cấu hình trình xử lý cho các tài liệu của mình, bạn có thể tải tài liệu lên Document AI Warehouse.

  1. Quay lại bảng điều khiển Document AI Warehouse rồi nhấp vào nút +Thêm mới trong thanh điều hướng bên trái, sau đó chọn Tải tài liệu mới lên.
  2. Kéo tài liệu license-agreement.pdf từ máy của bạn vào tiện ích tải lên hoặc duyệt qua và chọn một trong các tài liệu mẫu mà bạn đã tải xuống. Sau đó, nhấp vào nút Tiếp theo để tiếp tục.
  3. Đối với Giản đồ tài liệu, hãy chọn tên của giản đồ mà bạn đã tạo trước đó, chẳng hạn như Tài liệu và biểu mẫu. Đối với Mã trình xử lý AI của Tài liệu, hãy chọn bộ xử lý tài liệu nhận dạng ký tự quang học (OCR) mà bạn đã định cấu hình ở bước trước.
  4. Đối với Tên hiển thị, bạn có thể sử dụng tên mặc định (tức là tên tệp) hoặc sử dụng tên tài liệu tuỳ chỉnh của riêng mình.
  5. Nhấp vào nút Tạo để tải lên và xử lý tài liệu của bạn.

Quay lại bảng điều khiển Document AI Warehouse và lặp lại các bước này với tài liệu mẫu loan-form.pdf. Chọn trình xử lý tài liệu form mà bạn đã định cấu hình trước đó.

Quay lại bảng điều khiển Document AI Warehouse và lặp lại các bước này với tài liệu mẫu invoice-sample.pdf. Chọn trình xử lý tài liệu invoice mà bạn đã định cấu hình trước đó.

Sau khi hoàn tất các bước này, nếu quay lại bảng điều khiển Document AI Warehouse, bạn sẽ thấy một danh sách các tài liệu đã xử lý có dạng như sau:

Tài liệu đã được xử lý trong Document AI Warehouse

9. Tìm kiếm và khám phá tài liệu

Giờ đây, khi bạn đã tải và xử lý tài liệu vào Document AI Warehouse, bạn có thể tìm kiếm toàn bộ văn bản trên các tài liệu đó.

Trong bảng điều khiển Document AI Warehouse, hãy nhập một cụm từ tìm kiếm xuất hiện trong tài liệu mẫu, chẳng hạn như agreement, sau đó nhấn phím Enter. Bạn có thể thử các cụm từ tìm kiếm khác như mortgagemonitor để xem kết quả cho các tài liệu mẫu mà bạn đã tải lên.

Trong kết quả, bạn sẽ thấy tất cả tài liệu chứa cụm từ tìm kiếm đó, cùng với bản tóm tắt văn bản tài liệu có cụm từ tìm kiếm được đánh dấu:

Kết quả tìm kiếm trong Document AI Warehouse

Nhấp vào tên của tài liệu để xem.

Nhấp vào nút bật/tắt Chế độ xem AI để xem tài liệu cùng với các trường đã phát hiện và dữ liệu liên quan:

Chế độ xem chi tiết trong Document AI Warehouse

10. Xin chúc mừng

Bạn đã tải lên, xử lý và tìm kiếm toàn bộ văn bản trên các tài liệu bằng Document AI Warehouse và bằng cách sử dụng bộ xử lý trong Document AI. Bạn nên thử nghiệm với các tài liệu khác và tìm hiểu những bộ xử lý khác có trên nền tảng.

Dọn dẹp

Bạn có thể thực hiện thao tác dọn dẹp sau đây để tránh phát sinh phí cho tài khoản Google Cloud của mình đối với các tài nguyên dùng trong hướng dẫn này:

Tìm hiểu thêm

Hãy tiếp tục tìm hiểu về AI của tài liệu thông qua các lớp học lập trình khác này.

Tài nguyên

Giấy phép

Tác phẩm này được cấp phép theo Giấy phép chung Ghi nhận tác giả Creative Commons 2.0.