Dùng Document AI Warehouse để nhập, xử lý và tìm kiếm tài liệu

1. Tổng quan

Document AI Warehouse là gì?

Document AI Warehouse là một nền tảng để lưu trữ, tìm kiếm, sắp xếp và phân tích các tài liệu cũng như siêu dữ liệu có cấu trúc của các tài liệu đó. Tài liệu có thể bao gồm dữ liệu có cấu trúc (chẳng hạn như biểu mẫu và hoá đơn) cũng như dữ liệu không có cấu trúc (chẳng hạn như hợp đồng và bài nghiên cứu). Bạn có thể tự động trích xuất siêu dữ liệu cho tài liệu bằng cách sử dụng bộ xử lý trong Document AI hoặc nhập thủ công bằng cách sử dụng các trường và thẻ.

Trong lớp học lập trình này, bạn sẽ tìm hiểu cách nhập, xử lý và tìm kiếm tài liệu bằng giao diện người dùng Document AI Warehouse. Các tài liệu PDF mẫu được cung cấp cho lớp học lập trình này, bao gồm thoả thuận cấp phép, biểu mẫu cho vay và hoá đơn đặt hàng.

Điều kiện tiên quyết

Lớp học lập trình này dựa trên nội dung được trình bày trong các lớp học lập trình khác về Document AI. Bạn nên đọc tài liệu và các lớp học lập trình sau đây trước khi tiếp tục:

Kiến thức bạn sẽ học được

  • Cách bật Document AI Warehouse API
  • Cách định cấu hình trình xử lý tài liệu trong Document AI Warehouse
  • Cách tải lên và phân tích cú pháp văn bản trong nhiều loại tài liệu PDF
  • Cách tìm kiếm tài liệu và siêu dữ liệu của tài liệu trong Document AI Warehouse

Bạn cần có

  • Một dự án trên Google Cloud
  • Một trình duyệt, chẳng hạn như Chrome hoặc Firefox

2. Tải tài liệu mẫu xuống

Các tài liệu PDF mẫu được cung cấp cho lớp học lập trình này, bao gồm thoả thuận cấp phép, biểu mẫu cho vay và hoá đơn đặt hàng. Bạn có thể tải các tài liệu mẫu sau đây xuống để sử dụng trong lớp học lập trình này.

Ngoài ra, bạn có thể tải các tài liệu mẫu xuống từ Bộ chứa Google Cloud Storage công khai của chúng tôi bằng cách sử dụng gsutil.

gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .

Trong một bước sau đó, bạn sẽ tải các tài liệu mẫu này lên, phân tích cú pháp bằng nhiều trình xử lý tài liệu và lưu trữ các tài liệu cũng như siêu dữ liệu thu được trong Document AI Warehouse.

3. Bật Document AI Warehouse API

Bạn phải bật API này thì mới có thể bắt đầu sử dụng Document AI Warehouse.

Sử dụng Cloud Console

  1. Mở bảng điều khiển Cloud trong trình duyệt.
  2. Trong bảng điều khiển Cloud, hãy chuyển đến Thư viện API để duyệt xem các API và dịch vụ có thể bật.
  3. Sử dụng thanh tìm kiếm ở đầu trang Thư viện API, tìm kiếm Document AI Warehouse, sau đó nhấp vào dịch vụ tương ứng.
  4. Nhấp vào nút Bật để bật Document AI Warehouse API trong dự án trên đám mây của Google Cloud của bạn.Document AI Warehouse API

Cách khác: Sử dụng giao diện dòng lệnh gcloud

Ngoài ra, bạn có thể bật API bằng lệnh gcloud sau:

gcloud services enable contentwarehouse.googleapis.com

Nếu bật thành công API này, bạn sẽ thấy một thông báo tương tự như sau:

Operation "operations/..." finished successfully.

Giờ đây, bạn đã sẵn sàng sử dụng Document AI Warehouse!

4. Xem bảng điều khiển Document AI Warehouse

Trong trình duyệt, hãy chuyển đến bảng điều khiển Document AI Warehouse tại https://documentwarehouse.cloud.google.com (nằm bên ngoài bảng điều khiển Google Cloud). Bạn sẽ sử dụng bảng điều khiển Document AI Warehouse cùng với dự án trên đám mây của Google Cloud để thực hiện các bước còn lại trong lớp học lập trình này nhằm tải lên, xử lý và tìm kiếm tài liệu.

Trang tổng quan Document AI Warehouse

Nếu đây là lần đầu tiên bạn sử dụng Document AI Warehouse, hãy tham khảo Tài liệu về Document AI Warehouse để biết thêm thông tin về cách định cấu hình dự án và chế độ cài đặt tuỳ theo nhu cầu của bạn.

5. Tạo giản đồ tài liệu

Giản đồ tài liệu xác định loại tài liệu và các trường cho tài liệu mà bạn lưu trữ trong Document AI Warehouse. Bạn cần tạo một giản đồ trước khi tải bất kỳ tài liệu mới nào lên.

  1. Trong bảng điều khiển Document AI Warehouse, hãy nhấp vào nút Quản trị ở góc trên cùng bên phải của trang.
  2. Nhấp vào mục Schema (Lược đồ) trên thanh điều hướng bên trái, sau đó nhấp vào nút + Add new (+ Thêm mới).
  3. Nhập tên cho giản đồ của bạn, chẳng hạn như Documents and Forms, rồi nhớ chọn Tài liệu làm Loại giản đồ. Sau đó, hãy nhấp vào nút Tiếp theo để tiếp tục.
  4. Bạn có thể giữ nguyên định nghĩa giản đồ JSON mặc định, định nghĩa này sẽ xuất hiện như sau:
    {
      "display_name": "Documents and Forms",
      "property_definitions": [],
      "document_is_folder": false,
      "description": ""
    }
    
  5. Sau đó, nhấp vào nút Xong để hoàn tất việc tạo giản đồ tài liệu.

Sau khi hoàn tất các bước này, bạn sẽ thấy thông báo cho biết rằng bạn đã tạo thành công giản đồ tài liệu. Bạn có thể nhấp vào nút View Document Schema (Xem giản đồ tài liệu), sau đó nhấp vào thẻ JSON để xác nhận giản đồ. Giản đồ này sẽ xuất hiện tương tự như sau:

Giản đồ tài liệu

6. Tạo trình xử lý tài liệu

Trong bước này, bạn sẽ tạo các trình xử lý tài liệu mà bạn có thể dùng để thực hiện tìm kiếm toàn văn trên nhiều loại tài liệu trong Document AI Warehouse.

  1. Trong bảng điều khiển Cloud của Google, hãy chuyển đến trang tổng quan về Nền tảng Document AI.
  2. Nhấp vào Khám phá bộ xử lý, sau đó chọn OCR tài liệu làm loại bộ xử lý cần tạo.
  3. Chỉ định tên cho trình xử lý tài liệu của bạn, chẳng hạn như ocr và khu vực bạn muốn, sau đó nhấp vào Tạo để tạo trình xử lý.
  4. Trên trang Processor Details (Thông tin chi tiết về bộ xử lý), hãy sao chép Processor ID (Mã nhận dạng bộ xử lý). Chúng ta sẽ dùng mã này sau để định cấu hình bộ xử lý trong Document AI Warehouse.

Lặp lại các bước này và chọn Trình phân tích cú pháp biểu mẫu làm loại trình xử lý tài liệu để tạo và chỉ định form làm tên trình xử lý.

Lặp lại các bước này và chọn Trình phân tích cú pháp hoá đơn làm loại trình xử lý tài liệu để tạo và chỉ định invoice làm tên trình xử lý.

Sau khi hoàn tất các bước này, bạn sẽ thấy danh sách các trình xử lý tài liệu có dạng như sau:

Bộ xử lý tài liệu

7. Định cấu hình trình xử lý tài liệu

Trong bước này, bạn sẽ định cấu hình các trình xử lý tài liệu trong Kho lưu trữ AI cho tài liệu bằng cách tham khảo các trình xử lý mà bạn đã tạo ở bước trước.

  1. Trong bảng điều khiển Document AI Warehouse, hãy nhấp vào nút Quản trị trên thanh công cụ trên cùng.
  2. Nhấp vào mục Doc AI Processors (Bộ xử lý AI cho tài liệu) trên thanh điều hướng bên trái, sau đó nhấp vào nút + Add new (+ Thêm mới).
  3. Nhấp vào nút + Add New Processor (Thêm bộ xử lý mới), sau đó chỉ định tên và mã bộ xử lý từ bước trước.
  4. Nhấp vào nút Lưu để lưu các thay đổi.

Lặp lại các bước này để thêm 2 trình xử lý còn lại vào cấu hình Document AI Warehouse bằng nút + Add New Processor (+ Thêm trình xử lý mới), bao gồm cả trình phân tích cú pháp biểu mẫu và trình phân tích cú pháp hoá đơn. Đảm bảo rằng bạn thêm 2 trình xử lý bổ sung trong cùng một Mã lược đồ tài liệu bằng nút + Thêm trình xử lý mới, thay vì thêm một lược đồ bổ sung bằng nút + Thêm mới.

Sau khi hoàn tất các bước này, bạn sẽ thấy danh sách các trình xử lý tài liệu đã định cấu hình có dạng như sau:

Bộ xử lý tài liệu trong Document AI Warehouse

8. Tải lên và xử lý tài liệu mẫu

Bây giờ, khi đã xác định một giản đồ và định cấu hình các trình xử lý cho tài liệu, bạn có thể tải tài liệu lên Kho lưu trữ AI cho tài liệu.

  1. Quay lại bảng điều khiển Document AI Warehouse rồi nhấp vào nút +Thêm mới trong thanh điều hướng bên trái, sau đó chọn mục Tải tài liệu mới lên.
  2. Kéo tài liệu license-agreement.pdf từ máy của bạn vào tiện ích tải lên hoặc duyệt tìm và chọn một trong các tài liệu mẫu mà bạn đã tải xuống. Sau đó, hãy nhấp vào nút Tiếp theo để tiếp tục.
  3. Đối với Giản đồ tài liệu, hãy chọn tên của giản đồ mà bạn đã tạo trước đó, chẳng hạn như Tài liệu và biểu mẫu. Đối với Mã nhận dạng trình xử lý AI cho tài liệu, hãy chọn trình xử lý tài liệu OCR mà bạn đã định cấu hình ở bước trước.
  4. Đối với Tên hiển thị, bạn có thể sử dụng tên mặc định (tức là tên tệp) hoặc sử dụng tên tài liệu tuỳ chỉnh của riêng bạn.
  5. Nhấp vào nút Tạo để tải lên và xử lý tài liệu của bạn.

Quay lại bảng điều khiển Document AI Warehouse và lặp lại các bước này với tài liệu mẫu loan-form.pdf. Chọn trình xử lý tài liệu form mà bạn đã định cấu hình trước đó.

Quay lại bảng điều khiển Document AI Warehouse và lặp lại các bước này với tài liệu mẫu invoice-sample.pdf. Chọn trình xử lý tài liệu invoice mà bạn đã định cấu hình trước đó.

Sau khi hoàn tất các bước này, nếu quay lại bảng điều khiển Document AI Warehouse, bạn sẽ thấy một danh sách các tài liệu đã xử lý có dạng như sau:

Tài liệu đã xử lý trong Document AI Warehouse

9. Tìm kiếm và khám phá tài liệu

Sau khi tải lên và xử lý một tài liệu trong Document AI Warehouse, bạn có thể thực hiện tìm kiếm toàn văn trên các tài liệu đó.

Trong bảng điều khiển Document AI Warehouse, hãy nhập một cụm từ tìm kiếm xuất hiện trong các tài liệu mẫu, chẳng hạn như agreement, rồi nhấn phím Enter. Bạn có thể thử các cụm từ tìm kiếm khác như mortgagemonitor để xem kết quả cho các tài liệu mẫu mà bạn đã tải lên.

Trong kết quả, bạn sẽ thấy tất cả tài liệu có chứa cụm từ tìm kiếm đó, cùng với bản tóm tắt văn bản của tài liệu có cụm từ tìm kiếm được đánh dấu:

Kết quả tìm kiếm trong Document AI Warehouse

Nhấp vào tên của một tài liệu để xem tài liệu đó.

Nhấp vào nút bật/tắt Chế độ xem bằng AI để xem tài liệu cùng với các trường được phát hiện và dữ liệu liên quan:

Chế độ xem chi tiết trong Document AI Warehouse

10. Xin chúc mừng

Bạn đã tải lên, xử lý và thực hiện thành công tính năng tìm kiếm toàn văn trên các tài liệu bằng Document AI Warehouse và bằng cách sử dụng các bộ xử lý trong Document AI. Bạn nên thử nghiệm với các tài liệu khác và khám phá những trình xử lý khác có trên nền tảng này.

Dọn dẹp

Bạn có thể thực hiện các bước dọn dẹp sau để tránh bị tính phí cho tài khoản Google Cloud của mình đối với các tài nguyên được dùng trong hướng dẫn này:

  • Chuyển đến trang bảng điều khiển Kho tài liệu rồi xoá tất cả tài liệu mẫu mà bạn đã tải lên.
  • Trong bảng điều khiển Cloud của Google, hãy chuyển đến trang Bộ xử lý Document AI rồi xoá các bộ xử lý mẫu mà bạn đã tạo.
  • Trong bảng điều khiển Google Cloud, hãy chuyển đến trang API và dịch vụ rồi tắt API Document AI Warehouse.

Tìm hiểu thêm

Tiếp tục tìm hiểu về Document AI thông qua các lớp học lập trình khác này.

Tài nguyên

Giấy phép

Tác phẩm này được cấp phép theo giấy phép Ghi công theo Creative Commons 2.0 Chung.