1. Giới thiệu
Document AI là một giải pháp hiểu tài liệu, lấy dữ liệu không có cấu trúc (chẳng hạn như tài liệu, email, v.v.) và giúp dữ liệu dễ hiểu, dễ phân tích và dễ sử dụng hơn.
Với Document AI Workbench, bạn có thể đạt được độ chính xác cao hơn khi xử lý tài liệu bằng cách tạo các mô hình hoàn toàn tuỳ chỉnh bằng dữ liệu huấn luyện của riêng bạn.
Trong phòng thí nghiệm này, bạn sẽ tạo một trình xử lý Trích xuất tài liệu tuỳ chỉnh, nhập một tập dữ liệu, gắn nhãn cho các tài liệu mẫu và huấn luyện trình xử lý.
Tập dữ liệu tài liệu được dùng trong phòng thí nghiệm này là từ Tập dữ liệu Giấy tờ khai thuế W-2 giả (Hoa Kỳ) trên Kaggle theo Giấy phép CC0: Miền công cộng.
Điều kiện tiên quyết
Lớp học lập trình này dựa trên nội dung được trình bày trong các Lớp học lập trình khác về Document AI.
Bạn nên hoàn thành các lớp học lập trình sau đây trước khi tiếp tục.
- Nhận dạng ký tự quang học (OCR) bằng Document AI (Python)
- Phân tích cú pháp biểu mẫu bằng Document AI (Python)
- Bộ xử lý chuyên dụng có Document AI (Python)
- Quản lý các bộ xử lý Document AI bằng Python
- Document AI: Sự tham gia của con người vào quy trình
- Document AI: Đào tạo thêm
Kiến thức bạn sẽ học được
- Tạo một bộ xử lý Trình trích xuất tài liệu tuỳ chỉnh.
- Gắn nhãn dữ liệu huấn luyện Document AI bằng công cụ chú thích.
- Huấn luyện một phiên bản mô hình mới.
- Đánh giá độ chính xác của phiên bản mô hình mới.
Bạn cần có
2. Thiết lập
Lớp học lập trình này giả định rằng bạn đã hoàn thành các bước Thiết lập Document AI được liệt kê trong Lớp học lập trình giới thiệu.
Vui lòng hoàn tất các bước sau trước khi tiếp tục:
3. Tạo một Bộ xử lý
Trước tiên, bạn phải tạo một bộ xử lý Trích xuất tài liệu tuỳ chỉnh để sử dụng cho phòng thí nghiệm này.
- Trong bảng điều khiển, hãy chuyển đến trang Tổng quan về Document AI.

- Nhấp vào Tạo bộ xử lý tuỳ chỉnh rồi chọn Trình trích xuất tài liệu tuỳ chỉnh.

- Đặt tên cho
codelab-custom-extractor(Hoặc một tên khác mà bạn sẽ nhớ) rồi chọn khu vực gần nhất trong danh sách.

- Nhấp vào Tạo để tạo bộ xử lý. Sau đó, bạn sẽ thấy trang Tổng quan về bộ xử lý.

4. Tạo tập dữ liệu
Để huấn luyện bộ xử lý, chúng ta sẽ phải tạo một tập dữ liệu có dữ liệu huấn luyện và kiểm thử để giúp bộ xử lý xác định các thực thể mà chúng ta muốn trích xuất.
- Trên trang Tổng quan về bộ xử lý, hãy nhấp vào Định cấu hình tập dữ liệu của bạn.

- Lúc này, bạn sẽ thấy trang Định cấu hình tập dữ liệu. Nếu bạn muốn chỉ định nhóm riêng để lưu trữ các tài liệu và nhãn huấn luyện, hãy nhấp vào Hiện các lựa chọn nâng cao. Nếu không, bạn chỉ cần nhấp vào Tiếp tục.

- Đợi quá trình tạo tập dữ liệu hoàn tất, sau đó, hệ thống sẽ chuyển bạn đến trang Huấn luyện.

5. Nhập tài liệu kiểm thử
Bây giờ, hãy nhập một tệp PDF W2 mẫu vào tập dữ liệu của chúng ta.
- Nhấp vào Nhập chứng từ

- Chúng tôi có một tệp PDF mẫu để bạn sử dụng trong phòng thí nghiệm này. Sao chép và dán đường liên kết sau vào hộp Đường dẫn nguồn. Tạm thời, hãy để "Phân chia dữ liệu" ở trạng thái "Chưa chỉ định". Bỏ đánh dấu tất cả các hộp khác. Nhấp vào Nhập.
cloud-samples-data/documentai/codelabs/custom/extractor/pdfs

- Đợi tài liệu được nhập. Quá trình này sẽ mất chưa đến 1 phút.
- Khi quá trình nhập hoàn tất, bạn sẽ thấy Tài liệu trong trang Đào tạo.

6. Tạo nhãn
Vì đang tạo một loại trình xử lý mới, nên chúng ta cần tạo nhãn tuỳ chỉnh để cho Document AI biết những trường mà chúng ta muốn trích xuất.
- Nhấp vào Chỉnh sửa giản đồ ở góc dưới cùng bên trái.

- Lúc này, bạn sẽ thấy mình đang ở trong bảng điều khiển Quản lý giản đồ.

- Tạo các nhãn sau bằng nút Tạo nhãn.
Tên | Loại dữ liệu | Sự kiện định kỳ |
| Số | Số lượng bắt buộc |
| Văn bản thuần túy | Số lượng bắt buộc |
| Văn bản thuần túy | Số lượng bắt buộc |
| Địa chỉ | Số lượng bắt buộc |
| Tiền | Số lượng bắt buộc |
| Tiền | Số lượng bắt buộc |
| Tiền | Số lượng bắt buộc |
| Tiền | Số lượng bắt buộc |
- Bảng điều khiển sẽ có dạng như sau khi hoàn tất. Sau khi hoàn tất, hãy nhấp vào Lưu.

- Nhấp vào mũi tên Quay lại để quay lại trang Đào tạo. Lưu ý rằng các nhãn chúng ta tạo sẽ xuất hiện ở góc dưới cùng bên trái.

7. Gắn nhãn cho Tài liệu thử nghiệm
Tiếp theo, chúng ta sẽ xác định các phần tử văn bản và nhãn cho những thực thể mà chúng ta muốn trích xuất. Các nhãn này sẽ được dùng để huấn luyện mô hình của chúng tôi phân tích cấu trúc tài liệu cụ thể này và xác định các loại chính xác.
- Nhấp đúp vào tài liệu mà chúng ta đã nhập trước đó để vào bảng điều khiển gắn nhãn. Nó phải trông giống như thế này.

- Nhấp vào Công cụ "Khung viền", sau đó đánh dấu văn bản "1173038" và chỉ định nhãn
CONTROL_NUMBER. Bạn có thể sử dụng bộ lọc văn bản để tìm tên nhãn.

- Hoàn tất cho phiên bản khác của
CONTROL_NUMBER. Sau khi được gắn nhãn, phiên bản này sẽ có dạng như sau.

- Đánh dấu tất cả các trường hợp của giá trị văn bản sau đây và chỉ định nhãn thích hợp.
Tên nhãn | Văn bản |
| 24-3188810 |
| 19127,2 |
| 5093.71 |
| 66.584,46 |
| 56081.18 |
| 714-32-2105 |
| Adams, Chase and Gilbert Inc 972 Gonzalez Dam South Katherine NC 95869-5178 |
- Sau khi hoàn tất, tài liệu được gắn nhãn sẽ có dạng như sau. Xin lưu ý rằng bạn có thể điều chỉnh các nhãn này bằng cách nhấp vào khung viền trong tài liệu hoặc tên/giá trị nhãn trên trình đơn bên trái. Nhấp vào Đánh dấu là đã gắn nhãn khi bạn hoàn tất việc gắn nhãn, sau đó quay lại Bảng điều khiển quản lý tập dữ liệu.

8. Chỉ định tài liệu cho Tập dữ liệu huấn luyện
Giờ đây, bạn sẽ quay lại Bảng điều khiển quản lý tập dữ liệu. Lưu ý rằng số lượng tài liệu được gắn nhãn và chưa được gắn nhãn cũng như số lượng thực thể trên mỗi nhãn đã thay đổi.

- Chúng ta cần chỉ định tài liệu này cho tập hợp "Đào tạo" hoặc "Kiểm thử". Nhấp vào Tài liệu, nhấp vào Chỉ định cho bộ, rồi nhấp vào Đào tạo.

- Lưu ý rằng số liệu về Phân chia dữ liệu đã thay đổi.

9. Nhập dữ liệu được gắn nhãn trước
Bộ xử lý tuỳ chỉnh Document AI yêu cầu tối thiểu 10 tài liệu trong cả tập huấn luyện và tập kiểm định, cùng với 10 thực thể của mỗi nhãn trong mỗi tập.
Bạn nên có ít nhất 50 tài liệu trong mỗi bộ với 50 thực thể của mỗi nhãn để đạt được hiệu suất tốt nhất. Nói chung, càng có nhiều dữ liệu huấn luyện thì độ chính xác càng cao.
Việc gắn nhãn tất cả các tài liệu theo cách thủ công sẽ mất nhiều thời gian, vì vậy, chúng tôi có một số tài liệu được gắn nhãn trước mà bạn có thể nhập cho phòng thí nghiệm này.
Bạn có thể nhập các tệp tài liệu đã được gắn nhãn trước ở định dạng Document.json. Đây có thể là kết quả từ việc gọi một bộ xử lý và xác minh độ chính xác bằng cách sử dụng Con người tham gia vào quy trình (HITL).
phủ định
LƯU Ý: Khi nhập dữ liệu được gắn nhãn trước, bạn nên xem xét chú thích theo cách thủ công trước khi huấn luyện mô hình.
- Nhấp vào Nhập tài liệu.

- Sao chép/Dán đường dẫn Cloud Storage sau đây và chỉ định đường dẫn đó cho tập dữ liệu Đào tạo.
cloud-samples-data/documentai/codelabs/custom/extractor/training
- Nhấp vào Thêm thư mục khác. Sau đó, hãy sao chép/dán đường dẫn Cloud Storage sau đây rồi chỉ định đường dẫn đó cho bộ Kiểm thử.
cloud-samples-data/documentai/codelabs/custom/extractor/test

- Nhấp vào Nhập rồi đợi tài liệu được nhập. Quá trình này sẽ mất nhiều thời gian hơn lần trước vì có nhiều giấy tờ cần xử lý hơn. Quá trình này sẽ mất khoảng 6 phút. Bạn có thể rời trang này rồi quay lại sau.

- Sau khi hoàn tất, bạn sẽ thấy các tài liệu trong trang Đào tạo.

10. Huấn luyện mô hình
Giờ đây, chúng ta đã sẵn sàng bắt đầu huấn luyện Trình trích xuất tài liệu tuỳ chỉnh.
- Nhấp vào Huấn luyện phiên bản mới

- Đặt tên cho phiên bản mà bạn sẽ nhớ, chẳng hạn như
codelab-custom-1. Đối với "Phương pháp huấn luyện", hãy chọn "Huấn luyện từ đầu".

- (Không bắt buộc) Bạn cũng có thể chọn Xem số liệu thống kê về nhãn để xem các chỉ số về nhãn trong tập dữ liệu.

- Nhấp vào Bắt đầu huấn luyện để bắt đầu quy trình Huấn luyện. Bạn sẽ được chuyển hướng đến trang Quản lý tập dữ liệu. Bạn có thể xem trạng thái huấn luyện ở bên phải. Quá trình huấn luyện sẽ mất vài giờ để hoàn tất. Bạn có thể rời trang này rồi quay lại sau.

- Nếu nhấp vào tên phiên bản, bạn sẽ được chuyển đến trang Quản lý phiên bản. Trang này cho biết Mã phiên bản và trạng thái hiện tại của Công việc huấn luyện.

11. Thử nghiệm Phiên bản mô hình mới
Sau khi hoàn tất Training Job (mất khoảng 1 giờ trong các thử nghiệm của tôi), bạn có thể kiểm thử phiên bản mô hình mới và bắt đầu sử dụng phiên bản đó để dự đoán.
- Chuyển đến trang Quản lý phiên bản. Tại đây, bạn có thể xem trạng thái hiện tại và Điểm F1.

- Chúng tôi cần triển khai phiên bản mô hình này thì mới có thể sử dụng. Nhấp vào dấu chấm dọc ở bên phải rồi chọn Triển khai phiên bản.

- Chọn Triển khai trong cửa sổ bật lên khi chờ phiên bản triển khai. Quá trình này sẽ mất vài phút để hoàn tất. Sau khi triển khai, bạn cũng có thể đặt phiên bản này làm Phiên bản mặc định.

- Sau khi quá trình triển khai hoàn tất, hãy chuyển đến thẻ Đánh giá. Trên trang này, bạn có thể xem các chỉ số đánh giá, bao gồm điểm F1, Độ chính xác và Độ thu hồi cho toàn bộ tài liệu cũng như từng nhãn. Bạn có thể đọc thêm về các chỉ số này trong Tài liệu về AutoML.

- Tải tệp PDF được liên kết bên dưới xuống. Đây là một mẫu W2 không có trong bộ Dữ liệu huấn luyện hoặc tập kiểm định.
- Nhấp vào Tải tài liệu kiểm thử lên rồi chọn tệp PDF.
- Các thực thể được trích xuất sẽ có dạng như sau.

12. Không bắt buộc: Tự động gắn nhãn cho các tài liệu mới nhập
Sau khi triển khai một phiên bản trình xử lý đã được huấn luyện, bạn có thể sử dụng tính năng Gắn nhãn tự động để tiết kiệm thời gian gắn nhãn khi nhập tài liệu mới.
- Trên trang Huấn luyện, hãy nhấp vào Nhập tài liệu.
- Sao chép và dán đường dẫn sau đây. Thư mục này chứa 5 tệp PDF W2 không có nhãn. Trong danh sách thả xuống Phân chia dữ liệu, hãy chọn Đào tạo.
cloud-samples-data/documentai/Custom/W2/AutoLabel - Trong mục Gắn nhãn tự động, hãy đánh dấu vào hộp Nhập bằng tính năng gắn nhãn tự động.
- Chọn một phiên bản bộ xử lý hiện có để gắn nhãn cho tài liệu.
- Ví dụ:
2af620b2fd4d1fcf
- Nhấp vào Nhập rồi đợi tài liệu được nhập. Bạn có thể rời trang này rồi quay lại sau.
- Sau khi hoàn tất, các tài liệu sẽ xuất hiện trên trang Huấn luyện trong phần Được gắn nhãn tự động.
- Bạn không thể dùng tài liệu được gắn nhãn tự động để huấn luyện hoặc kiểm thử mà không đánh dấu chúng là đã được gắn nhãn. Chuyển đến phần Được gắn nhãn tự động để xem các tài liệu được gắn nhãn tự động.
- Chọn tài liệu đầu tiên để nhập vào bảng điều khiển gắn nhãn.
- Xác minh nhãn, khung hình chữ nhật và giá trị để đảm bảo chúng chính xác. Gắn nhãn cho mọi giá trị bị bỏ qua.
- Chọn Đánh dấu là đã gắn nhãn khi hoàn tất.
- Lặp lại quy trình xác minh nhãn cho từng tài liệu được gắn nhãn tự động, sau đó quay lại trang Huấn luyện để sử dụng dữ liệu cho việc huấn luyện.
13. Kết luận
Xin chúc mừng! Bạn đã sử dụng thành công Document AI để huấn luyện một bộ xử lý Trích xuất tài liệu tuỳ chỉnh. Giờ đây, bạn có thể sử dụng Bộ xử lý này để phân tích cú pháp các tài liệu ở định dạng này giống như cách bạn làm đối với mọi Bộ xử lý chuyên biệt.
Bạn có thể tham khảo Lớp học lập trình về bộ xử lý chuyên dụng để xem cách xử lý phản hồi xử lý.
Dọn dẹp
Để tránh phát sinh phí cho tài khoản Google Cloud của bạn đối với các tài nguyên được dùng trong hướng dẫn này, hãy làm như sau:
- Trong Cloud Console, hãy chuyển đến trang Quản lý tài nguyên.
- Trong danh sách dự án, hãy chọn dự án của bạn rồi nhấp vào Xoá.
- Trong hộp thoại, hãy nhập mã dự án rồi nhấp vào Tắt để xoá dự án.
Tài nguyên
- Tài liệu về Document AI Workbench
- The Future of Documents – YouTube Playlist
- Tài liệu về Document AI
- Thư viện ứng dụng Document AI Python
- Mẫu Document AI
Giấy phép
Tác phẩm này được cấp phép theo giấy phép Ghi công theo Creative Commons 2.0 Chung.