1. Giới thiệu
AI của tài liệu là một giải pháp phân tích tài liệu, có thể sử dụng dữ liệu phi cấu trúc, chẳng hạn như tài liệu, email, v.v., đồng thời giúp dữ liệu trở nên dễ hiểu, phân tích và sử dụng hơn.
Với Document AI Workbench, bạn có thể xử lý tài liệu chính xác hơn bằng cách tạo các mô hình được tuỳ chỉnh hoàn toàn dựa trên dữ liệu huấn luyện của riêng bạn.
Trong phòng thí nghiệm này, bạn sẽ tạo một trình xử lý Giải nén tài liệu tuỳ chỉnh, nhập tập dữ liệu, gắn nhãn tài liệu mẫu và đào tạo đơn vị xử lý đó.
Tập dữ liệu tài liệu mà bạn dùng trong phòng thí nghiệm này là từ Tập dữ liệu giả mạo W-2 (Biểu mẫu thuế của Hoa Kỳ) trên Kaggle có giấy phép CC0: Giấy phép phạm vi công cộng.
Điều kiện tiên quyết
Lớp học lập trình này dựa trên nội dung có trong các Lớp học lập trình khác về AI tạo tài liệu.
Bạn nên hoàn tất các Lớp học lập trình sau đây trước khi tiếp tục.
- Nhận dạng ký tự quang học (OCR) với AI tài liệu (Python)
- Phân tích cú pháp biểu mẫu bằng AI tài liệu (Python)
- Bộ xử lý chuyên dụng sử dụng AI tài liệu (Python)
- Quản lý trình xử lý tài liệu dựa trên AI bằng Python
- AI tài liệu: Con người trong vòng lặp
- AI tài liệu: Nâng cao chất lượng
Kiến thức bạn sẽ học được
- Tạo trình xử lý Công cụ trích xuất tài liệu tuỳ chỉnh.
- Dữ liệu đào tạo về Gắn nhãn tài liệu bằng AI bằng công cụ chú thích.
- Huấn luyện phiên bản mô hình mới.
- Đánh giá độ chính xác của phiên bản mô hình mới.
Bạn cần có
2. Thiết lập
Lớp học lập trình này giả định bạn đã hoàn tất các bước Thiết lập AI cho tài liệu được liệt kê trong Lớp học lập trình giới thiệu.
Vui lòng hoàn tất các bước sau đây trước khi tiếp tục:
3. Tạo Bộ xử lý
Trước tiên, bạn phải tạo Trình xử lý Công cụ trích xuất tài liệu tuỳ chỉnh để sử dụng cho phòng thí nghiệm này.
- Trong bảng điều khiển, hãy chuyển đến trang Tổng quan về AI của tài liệu.
- Nhấp vào Create Custom Processor (Tạo trình xử lý tuỳ chỉnh) rồi chọn Custom Document Extractor (Trình trích xuất tài liệu tuỳ chỉnh).
- Đặt tên cho khu vực đó
codelab-custom-extractor
(hoặc tên khác bạn sẽ nhớ) và chọn khu vực gần nhất trong danh sách.
- Nhấp vào Tạo để tạo bộ xử lý. Sau đó, bạn sẽ thấy trang Tổng quan về bộ xử lý.
4. Tạo Tập dữ liệu
Để huấn luyện đơn vị xử lý, chúng ta sẽ phải tạo một tập dữ liệu có dữ liệu huấn luyện và kiểm thử để giúp họ xác định các thực thể mà chúng ta muốn trích xuất.
- Trên trang Tổng quan về bộ xử lý, hãy nhấp vào Định cấu hình tập dữ liệu của bạn.
- Bây giờ, bạn sẽ đến trang Định cấu hình tập dữ liệu. Nếu bạn muốn chỉ định bộ chứa của riêng mình để lưu trữ tài liệu và nhãn huấn luyện, hãy nhấp vào Hiển thị tuỳ chọn nâng cao. Nếu không, bạn chỉ cần nhấp vào Tiếp tục.
- Hãy chờ tập dữ liệu được tạo, sau đó tập dữ liệu sẽ chuyển bạn đến trang Huấn luyện.
5. Nhập tài liệu kiểm thử
Bây giờ, hãy nhập một tệp pdf W2 mẫu vào tập dữ liệu.
- Nhấp vào Nhập tài liệu
- Chúng tôi có một tệp PDF mẫu để bạn sử dụng trong phòng thí nghiệm này. Sao chép và dán đường liên kết sau vào hộp Đường dẫn nguồn. Rời khỏi phần "Phân tách dữ liệu" là "Chưa chỉ định" tạm thời. Hãy bỏ đánh dấu tất cả các hộp khác. Nhấp vào Nhập.
cloud-samples-data/documentai/codelabs/custom/extractor/pdfs
- Chờ tài liệu được nhập. Quá trình này mất chưa đến 1 phút.
- Khi quá trình nhập hoàn tất, bạn sẽ thấy Tài liệu trong trang Đào tạo.
6. Tạo nhãn
Vì chúng ta đang tạo một loại đơn vị xử lý mới nên sẽ cần tạo các nhãn tuỳ chỉnh để cho Document AI biết chúng ta muốn trích xuất những trường nào.
- Nhấp vào Chỉnh sửa giản đồ ở góc dưới cùng bên trái.
- Bây giờ, bạn sẽ ở trong bảng điều khiển Quản lý giản đồ.
- Tạo các nhãn sau bằng nút Tạo nhãn.
Tên | Loại dữ liệu | Lần xuất hiện |
| Số | Bắt buộc có nhiều |
| Văn bản thuần túy | Bắt buộc có nhiều |
| Văn bản thuần túy | Bắt buộc có nhiều |
| Địa chỉ | Bắt buộc có nhiều |
| Tiền | Bắt buộc có nhiều |
| Tiền | Bắt buộc có nhiều |
| Tiền | Bắt buộc có nhiều |
| Tiền | Bắt buộc có nhiều |
- Bảng điều khiển sẽ có dạng như sau khi hoàn tất. Nhấp vào Lưu khi hoàn tất.
- Nhấp vào mũi tên Quay lại để quay lại trang Đào tạo. Lưu ý rằng nhãn mà chúng ta đã tạo xuất hiện ở góc dưới bên trái.
7. Gắn nhãn cho tài liệu thử nghiệm
Tiếp theo, chúng tôi sẽ xác định các thành phần văn bản và nhãn cho các thực thể mà chúng tôi muốn trích xuất. Những nhãn này sẽ được dùng để huấn luyện mô hình của chúng tôi phân tích cú pháp cấu trúc tài liệu cụ thể này và xác định đúng loại tài liệu.
- Nhấp đúp vào tài liệu chúng ta đã nhập trước đó để vào bảng điều khiển gắn nhãn. Nó phải trông giống như thế này.
- Nhấp vào "Hộp giới hạn" Công cụ, sau đó đánh dấu văn bản "1173038" và chỉ định nhãn
CONTROL_NUMBER
. Bạn có thể dùng bộ lọc văn bản để tìm tên nhãn.
- Hoàn tất cho thực thể khác của
CONTROL_NUMBER
. Sau khi được gắn nhãn, bạn sẽ thấy giao diện như sau.
- Đánh dấu tất cả các bản sao của những giá trị văn bản sau đây và gán các nhãn thích hợp.
Tên nhãn | Văn bản |
| 24-3188810 |
| 19127,2 |
| 5093,71 |
| 66584,46 |
| 56081,18 |
| 714-32-2105 |
| Adams, Chase và Gilbert Inc 972 Gonzalez Dam Nam Katherine NC 95869-5178 |
- Tài liệu được gắn nhãn sẽ có dạng như sau khi hoàn tất. Lưu ý: Bạn có thể điều chỉnh các nhãn này bằng cách nhấp vào hộp giới hạn trong tài liệu hoặc tên/giá trị nhãn trên trình đơn bên trái. Nhấp vào Đánh dấu là đã gắn nhãn khi bạn hoàn tất việc gắn nhãn, sau đó quay lại bảng điều khiển quản lý Tập dữ liệu.
8. Chỉ định tài liệu cho bộ huấn luyện
Bây giờ, bạn sẽ trở lại Bảng điều khiển quản lý tập dữ liệu. Lưu ý rằng số lượng tài liệu Có gắn nhãn và Chưa gắn nhãn cũng như số lượng bản sao của mỗi nhãn đã thay đổi.
- Chúng ta cần phải gán tài liệu này cho hoặc "Thử nghiệm" thiết lập. Nhấp vào Tài liệu, nhấp vào Giao cho tập hợp, rồi nhấp vào Đào tạo.
- Lưu ý rằng số liệu Phân chia dữ liệu đã thay đổi.
9. Nhập dữ liệu được gắn nhãn trước
Bộ xử lý tuỳ chỉnh bằng AI của tài liệu yêu cầu tối thiểu 10 tài liệu trong cả tập huấn luyện và tập kiểm tra, cùng với 10 thực thể của mỗi nhãn trong mỗi tập.
Nên có ít nhất 50 tài liệu trong mỗi bộ với 50 phiên bản của mỗi nhãn để có hiệu suất tốt nhất. Nhìn chung, càng nhiều dữ liệu huấn luyện thì độ chính xác càng cao.
Sẽ mất nhiều thời gian để gắn nhãn tất cả tài liệu theo cách thủ công, do đó chúng tôi có một số tài liệu được gắn nhãn trước mà bạn có thể nhập cho phòng thí nghiệm này.
Bạn có thể nhập các tệp tài liệu có nhãn sẵn ở định dạng Document.json
. Đây có thể là kết quả từ việc gọi cho đơn vị xử lý và xác minh độ chính xác bằng phương pháp Con người trong vòng lặp (HITL).
sang một bên tiêu cực
LƯU Ý: Khi nhập dữ liệu được gắn nhãn sẵn, bạn nên xem xét chú thích theo cách thủ công trước khi huấn luyện mô hình.
- Nhấp vào Nhập chứng từ.
- Sao chép/Dán đường dẫn sau đây của Cloud Storage rồi chỉ định cho tập hợp Đào tạo.
cloud-samples-data/documentai/codelabs/custom/extractor/training
- Nhấp vào Add Another Folder (Thêm thư mục khác). Sau đó, hãy Sao chép/Dán đường dẫn sau đây của Cloud Storage và chỉ định cho tập hợp Test (Kiểm thử).
cloud-samples-data/documentai/codelabs/custom/extractor/test
- Nhấp vào Nhập rồi đợi chứng từ được nhập. Lần này sẽ mất nhiều thời gian hơn lần trước vì có nhiều tài liệu hơn để xử lý. Quá trình này thường mất khoảng 6 phút. Bạn có thể rời khỏi trang này và quay lại sau.
- Sau khi hoàn tất, bạn sẽ xem tài liệu trên trang Đào tạo.
10. Huấn luyện mô hình
Bây giờ, chúng ta đã sẵn sàng để bắt đầu đào tạo Trình trích xuất tài liệu tuỳ chỉnh.
- Nhấp vào Đào tạo phiên bản mới
- Đặt một tên dễ nhớ cho phiên bản của bạn, chẳng hạn như
codelab-custom-1
. Đối với "Phương pháp đào tạo", hãy chọn "Đào tạo từ đầu".
- (Không bắt buộc) Bạn cũng có thể chọn Xem số liệu thống kê về nhãn để xem chỉ số về các nhãn trong tập dữ liệu của mình.
- Nhấp vào Bắt đầu đào tạo để bắt đầu Quy trình đào tạo. Bạn phải được chuyển hướng đến trang Quản lý tập dữ liệu. Bạn có thể xem trạng thái huấn luyện ở bên phải. Quá trình đào tạo sẽ mất vài giờ để hoàn tất. Bạn có thể rời khỏi trang này và quay lại sau.
- Nếu nhấp vào tên phiên bản, bạn sẽ được chuyển đến trang Quản lý phiên bản. Trang này hiển thị Mã phiên bản và trạng thái hiện tại của Công việc đào tạo.
11. Kiểm thử Phiên bản Mô hình Mới
Sau khi Công việc đào tạo hoàn tất (mất khoảng 1 giờ trong các kiểm thử của tôi), bây giờ bạn có thể kiểm tra phiên bản mô hình mới và bắt đầu sử dụng nó để dự đoán.
- Chuyển đến trang Quản lý phiên bản. Tại đây, bạn có thể nhìn thấy trạng thái hiện tại và Điểm F1.
- Chúng tôi sẽ cần triển khai phiên bản mô hình này thì mới có thể dùng được. Nhấp vào các dấu chấm dọc ở bên phải rồi chọn Triển khai phiên bản.
- Chọn Deploy (Triển khai) trong cửa sổ bật lên, trong khi chờ phiên bản triển khai. Quá trình này sẽ mất vài phút để hoàn tất. Sau khi triển khai, bạn cũng có thể đặt phiên bản này làm Phiên bản mặc định.
- Sau khi triển khai xong, hãy chuyển đến thẻ Đánh giá. Trên trang này, bạn có thể xem các chỉ số đánh giá, bao gồm điểm F1, Độ chính xác và Thu hồi đối với toàn bộ tài liệu cũng như từng nhãn. Bạn có thể đọc thêm về các chỉ số này trong Tài liệu về AutoML.
- Tải tệp PDF được liên kết bên dưới xuống. Đây là một mẫu W2 không có trong tập hợp Đào tạo hoặc Kiểm tra.
- Nhấp vào Upload Test Document (Tải tài liệu kiểm tra lên) rồi chọn tệp PDF.
- Các thực thể được trích xuất sẽ có dạng như sau.
12. Không bắt buộc: Tự động gắn nhãn cho các tài liệu mới nhập
Sau khi triển khai phiên bản bộ xử lý đã qua đào tạo, bạn có thể sử dụng tính năng Tự động gắn nhãn để tiết kiệm thời gian gắn nhãn khi nhập tài liệu mới.
- Trên trang Đào tạo, hãy nhấp vào Nhập tài liệu.
- Sao chép và dán đường dẫn sau. Thư mục này chứa 5 tệp PDF W2 chưa gắn nhãn. Trong danh sách thả xuống Phân tách dữ liệu, hãy chọn Huấn luyện.
cloud-samples-data/documentai/Custom/W2/AutoLabel
- Trong phần Gắn nhãn tự động, chọn hộp đánh dấu Nhập bằng tính năng gắn nhãn tự động.
- Chọn một phiên bản bộ xử lý hiện có để gắn nhãn tài liệu.
- Ví dụ:
2af620b2fd4d1fcf
- Nhấp vào Nhập rồi đợi chứng từ được nhập. Bạn có thể rời khỏi trang này và quay lại sau.
- Khi hoàn tất, tài liệu sẽ xuất hiện trên trang Chuyến tàu trong phần Được gắn nhãn tự động.
- Bạn không thể sử dụng những tài liệu có gắn nhãn tự động cho việc huấn luyện hoặc kiểm tra nếu không đánh dấu những tài liệu đó là đã gắn nhãn. Hãy chuyển đến mục Được tự động gắn nhãn để xem các tài liệu được gắn nhãn tự động.
- Chọn tài liệu đầu tiên để vào bảng điều khiển gắn nhãn.
- Xác minh nhãn, hộp giới hạn và giá trị để đảm bảo chúng chính xác. Gắn nhãn mọi giá trị đã bị bỏ qua.
- Chọn Đánh dấu là đã gắn nhãn khi hoàn tất.
- Lặp lại quy trình xác minh nhãn cho từng tài liệu được gắn nhãn tự động, sau đó quay lại trang Chuyến tàu để dùng dữ liệu cho quá trình huấn luyện.
13. Kết luận
Xin chúc mừng! Bạn đã sử dụng thành công Document AI để huấn luyện Trình xử lý công cụ trích xuất tài liệu tuỳ chỉnh. Giờ đây, bạn có thể sử dụng bộ xử lý này để phân tích cú pháp tài liệu ở định dạng này giống như cách bạn làm với bất kỳ Bộ xử lý chuyên dụng nào.
Bạn có thể tham khảo Lớp học lập trình về đơn vị xử lý chuyên dụng để tìm hiểu cách xử lý phản hồi trong quá trình xử lý.
Dọn dẹp
Để tránh bị tính phí vào tài khoản Google Cloud của bạn cho các tài nguyên được sử dụng trong hướng dẫn này:
- Trong Cloud Console, hãy chuyển đến trang Quản lý tài nguyên.
- Trong danh sách dự án, hãy chọn dự án rồi nhấp vào Xoá.
- Trong hộp thoại, nhập ID dự án rồi nhấp vào Tắt để xoá dự án.
Tài nguyên
- Tài liệu về AI Workbench
- Tương lai của tài liệu – Danh sách phát trên YouTube
- Tài liệu về AI cho tài liệu
- Thư viện ứng dụng Python AI cho tài liệu
- Mẫu AI cho tài liệu
Giấy phép
Tác phẩm này được cấp phép theo Giấy phép chung Ghi nhận tác giả Creative Commons 2.0.