1. Tổng quan

Document AI Tài liệu mua sắm là gì?
Các doanh nghiệp quản lý các quy trình mua sắm lớn, bao gồm hàng nghìn hoá đơn, biên lai và các tài liệu liên quan khác mỗi năm. Hãy sử dụng Document AI Tài liệu mua sắm để xử lý thông minh "dữ liệu ẩn" như tệp PDF, hình ảnh và biểu mẫu viết tay nhằm giảm chi phí thủ công của vòng đời mua sắm. Tự động hoá việc thu thập dữ liệu mua sắm ở quy mô lớn bằng cách chuyển các tài liệu không có cấu trúc như hoá đơn và biên lai thành dữ liệu có cấu trúc để tăng hiệu quả hoạt động, cải thiện trải nghiệm khách hàng và cung cấp thông tin cho việc ra quyết định.
Trong lớp học lập trình này, chúng ta sẽ tìm hiểu cách thiết lập Nền tảng Document AI, xử lý một hoá đơn mẫu, trích xuất và trực quan hoá các thực thể trong AI Platform Notebook.
Kiến thức bạn sẽ học được
- Cách bắt đầu sử dụng Nền tảng Trí tuệ nhân tạo Document AI
- Trích xuất các thực thể được lập sơ đồ bằng Giải pháp Document AI Tài liệu mua sắm
- Tạo và tuỳ chỉnh một phiên bản sổ tay AI Platform
Bạn cần có
- Một dự án trên Google Cloud
- Một trình duyệt, chẳng hạn như Chrome hoặc Firefox
- Kiến thức về Python 3
Bản khảo sát
Bạn sẽ sử dụng hướng dẫn này như thế nào?
Bạn đánh giá trải nghiệm của mình với Python như thế nào?
Bạn đánh giá trải nghiệm của mình khi sử dụng các dịch vụ của Google Cloud như thế nào?
2. Thiết lập và yêu cầu
Thiết lập môi trường tự học
- Đăng nhập vào Cloud Console rồi tạo một dự án mới hoặc sử dụng lại một dự án hiện có. (Nếu chưa có tài khoản Gmail hoặc G Suite, bạn phải tạo một tài khoản.)



Hãy nhớ mã dự án, một tên duy nhất trên tất cả các dự án của Google Cloud. (Tên ở trên đã được sử dụng và sẽ không hoạt động đối với bạn, xin lỗi!). Sau này, bạn phải cung cấp mã này dưới dạng PROJECT_ID.
- Tiếp theo, bạn phải bật tính năng thanh toán trong Cloud Console để sử dụng các tài nguyên của Google Cloud.
Hãy nhớ làm theo mọi hướng dẫn trong phần "Dọn dẹp". Phần này hướng dẫn bạn cách tắt các tài nguyên để không phải chịu phí thanh toán ngoài hướng dẫn này. Người dùng mới của Google Cloud đủ điều kiện tham gia chương trình Dùng thử miễn phí trị giá 300 USD.
3. Bật API Document AI trên Cloud
Trước khi có thể bắt đầu sử dụng Document AI, bạn phải bật API. Mở Cloud Console trong trình duyệt.
- Nhấp vào Navigation menu ☰ (Trình đơn điều hướng ☰) > APIs & Services (API và dịch vụ) > Library (Thư viện).

- Tìm kiếm "Document AI API", sau đó nhấp vào Enable để sử dụng API này trong dự án trên đám mây của bạn
4. Tạo và kiểm thử một trình xử lý
Trước tiên, bạn phải tạo một thực thể của trình xử lý Trình phân tích cú pháp biểu mẫu để sử dụng trong Nền tảng Trí tuệ nhân tạo Document AI cho hướng dẫn này.
- Trong bảng điều khiển, hãy chuyển đến phần Tổng quan về Document AI
- Nhấp vào Create Processor (Tạo trình xử lý) rồi chọn Invoice Parser (Trình phân tích cú pháp hoá đơn)

- Chỉ định tên trình xử lý và chọn khu vực của bạn trong danh sách.
- Nhấp vào Create (Tạo) để tạo trình xử lý
- Sao chép mã trình xử lý. Sau này, bạn phải sử dụng mã này trong mã của mình.
(Không bắt buộc) Bạn có thể kiểm thử trình xử lý trong bảng điều khiển bằng cách tải một tài liệu lên. Nhấp vào Upload Document (Tải tài liệu lên) rồi chọn một biểu mẫu để phân tích cú pháp. Bạn có thể tải xuống và sử dụng biểu mẫu mẫu này nếu không có biểu mẫu nào để sử dụng.

Kết quả đầu ra sẽ có dạng như sau: 
5. Tạo AI Platform Notebook
Chuyển đến phần AI Platform Notebooks (Sổ tay Nền tảng Trí tuệ nhân tạo) của bảng điều khiển Cloud rồi nhấp vào New Instance (Phiên bản mới). Sau đó, hãy chọn loại phiên bản Python mới nhất:

Sử dụng các lựa chọn mặc định rồi nhấp vào Create (Tạo). Sau khi tạo phiên bản, hãy chọn Open JupyterLab (Mở JupyterLab).
6. Nhận mã mẫu
Nhập trực tiếp mã mẫu từ Kho lưu trữ Github của Document AI Notebooks Github Repo. Trong sổ ghi chú, hãy chuyển đến Git > Clone a Repository (Sao chép kho lưu trữ) trong trình đơn trên cùng hoặc nhấp vào biểu tượng Git: 
Dán URL kho lưu trữ sau:
https://github.com/GoogleCloudPlatform/documentai-notebooks.git
Sau khi sao chép kho lưu trữ, hãy nhấp vào thư mục documentai-notebooks/specialized/ rồi mở sổ ghi chú specialized_form_parser.ipynb. Tìm ô nơi khai báo Mã dự án GCP và Mã trình xử lý Document AI.

Dán Mã dự án GCP và Mã trình xử lý từ bước 4. Lưu sổ ghi chú.
7. Trích xuất và trực quan hoá các thực thể
Giờ đây, bạn có thể trích xuất các thực thể được lập sơ đồ từ hoá đơn và điểm tin cậy tương ứng. Đối tượng phản hồi Tài liệu chứa danh sách các thực thể. Để đọc thêm về các thực thể được lập sơ đồ, hãy đọc bài viết Bắt đầu nhanh về Trình phân tích cú pháp hoá đơn quickstart.
Chạy tất cả các ô trong sổ ghi chú rồi cuộn xuống kết quả đầu ra dạng bảng. Mã trước đó lặp lại từng thực thể và tạo Pandas DataFrame với kết quả. 
Bây giờ, hãy cuộn xuống thành phần trực quan hoá. Đối tượng phản hồi Tài liệu chứa thông tin bố cục không gian cho từng trang trong tài liệu. Bên dưới, thông tin bố cục trên mỗi trường biểu mẫu được dùng để vẽ hộp giới hạn trên hình ảnh. Dữ liệu này có thể dùng để tích hợp Document AI vào ứng dụng giao diện người dùng.

8. Xin chúc mừng
Xin chúc mừng! Bạn đã sử dụng thành công Giải pháp Document AI Tài liệu mua sắm để trích xuất dữ liệu từ hoá đơn. Bạn nên thử nghiệm với các loại biểu mẫu khác.
Dọn dẹp
Để tránh bị tính phí vào tài khoản Google Cloud cho các tài nguyên được sử dụng trong hướng dẫn này, bạn có thể tắt sổ ghi chú hoặc xoá Dự án GCP.
Tắt thực thể Notebooks của Nền tảng Trí tuệ nhân tạo
Hãy làm theo các hướng dẫn này để tắt phiên bản AI Platform Notebooks.
Xoá dự án
Cách dễ nhất để loại bỏ phí thanh toán là xoá dự án mà bạn đã tạo cho hướng dẫn này.
Cách xoá dự án:
- Trong Bảng điều khiển GCP, hãy chuyển đến trang Projects (Dự án). Trang dự án
- Trong danh sách dự án, hãy chọn dự án mà bạn muốn xoá rồi nhấp vào Delete (Xoá).
- Trong hộp thoại, hãy nhập mã dự án, sau đó nhấp vào Shut down (Tắt) để xoá dự án.