1. Tổng quan
Trong phòng thí nghiệm này, bạn sẽ:
- Tạo tập dữ liệu được quản lý
- Nhập dữ liệu từ một bộ chứa trong Google Cloud Storage
- Cập nhật siêu dữ liệu cột để sử dụng phù hợp với AutoML
- Huấn luyện một mô hình bằng cách sử dụng các lựa chọn như ngân sách và mục tiêu tối ưu hoá
- Đưa ra dự đoán theo lô trực tuyến
2. Xem xét dữ liệu
Phòng thí nghiệm này sử dụng dữ liệu từ tập dữ liệu Doanh số bán rượu ở Iowa trong Tập dữ liệu công khai của BigQuery. Tập dữ liệu này bao gồm các giao dịch mua rượu bán buôn ở tiểu bang Iowa của Hoa Kỳ kể từ năm 2012.
Bạn có thể xem dữ liệu thô ban đầu bằng cách chọn Xem tập dữ liệu. Để truy cập vào bảng này, hãy chuyển đến dự án bigquery-public-datasets trong thanh điều hướng bên trái, sau đó chuyển đến tập dữ liệu iowa_liquor_sales rồi chuyển đến bảng sales. Bạn có thể chọn Xem trước để xem một số hàng trong tập dữ liệu.
Để phục vụ cho mục đích của lớp học lập trình này, chúng tôi đã thực hiện một số bước tiền xử lý dữ liệu cơ bản để nhóm các giao dịch mua theo ngày. Chúng ta sẽ sử dụng một tệp CSV được trích xuất từ bảng BigQuery. Các cột trong tệp CSV là:
- ds: Ngày
- y: Tổng số tiền của tất cả giao dịch mua trong ngày đó (tính bằng đô la)
- holiday: Giá trị boolean cho biết ngày có phải là ngày lễ ở Hoa Kỳ hay không
- id: Giá trị nhận dạng chuỗi thời gian (để hỗ trợ nhiều chuỗi thời gian, ví dụ: theo cửa hàng hoặc theo sản phẩm). Trong trường hợp này, chúng ta chỉ cần dự đoán tổng số lượt mua trong một chuỗi thời gian, vì vậy, mã nhận dạng được đặt thành 0 cho mỗi hàng.
3. Nhập dữ liệu
Bước 1: Chuyển đến phần Tập dữ liệu của Vertex AI
Truy cập vào Tập dữ liệu trong trình đơn Vertex AI trên thanh điều hướng bên trái của Cloud Console.
Bước 2: Tạo tập dữ liệu
Tạo một Tập dữ liệu mới, chọn Dữ liệu dạng bảng, rồi chọn loại vấn đề Dự báo. Chọn tên iowa_daily hoặc tên khác mà bạn muốn.
Bước 3: Nhập dữ liệu
Bước tiếp theo là nhập dữ liệu vào tập dữ liệu. Chọn mục Chọn tệp CSV trong Cloud Storage. Sau đó, hãy chuyển đến tệp CSV trong nhóm AutoML Demo Alpha rồi dán automl-demo-240614-lcm/iowa_liquor/iowa_daily.csv.
4. Mô hình tàu hoả
Bước 1: Định cấu hình các tính năng của mô hình
Sau vài phút, AutoML sẽ thông báo cho bạn rằng quá trình nhập đã hoàn tất. Tại thời điểm đó, bạn có thể định cấu hình các tính năng của mô hình.
- Chọn Cột mã nhận dạng chuỗi thời gian là id. Chúng ta chỉ có một chuỗi thời gian trong tập dữ liệu, vì vậy, đây chỉ là một thủ tục.
- Chọn Cột thời gian là ds.
Sau đó, chọn Tạo số liệu thống kê. Sau khi quá trình này hoàn tất, bạn sẽ thấy số liệu thống kê về Tỷ lệ thiếu và Giá trị riêng biệt. Quá trình này có thể mất vài phút, vì vậy, bạn có thể chuyển sang bước tiếp theo nếu muốn.
Bước 2: Huấn luyện mô hình
Chọn Huấn luyện mô hình để bắt đầu quy trình huấn luyện. Đảm bảo bạn đã chọn AutoML, rồi chọn Tiếp tục.
Bước 3: Xác định Mô hình
- Chọn Cột đích là y. Đó là giá trị mà chúng ta đang dự đoán.
- Nếu bạn chưa đặt trước đó, hãy đặt cột Giá trị nhận dạng chuỗi thành id và cột Dấu thời gian thành ds.
- Đặt Mức độ chi tiết của dữ liệu thành Ngày và Khoảng thời gian dự đoán thành 7. Trường này chỉ định số lượng khoảng thời gian mà mô hình có thể dự đoán trong tương lai.
- Đặt Cửa sổ ngữ cảnh thành 7 ngày. Mô hình sẽ sử dụng dữ liệu trong 30 ngày trước đó để dự đoán. Có sự đánh đổi giữa khoảng thời gian ngắn hơn và dài hơn, và nói chung, bạn nên chọn một giá trị từ 1 đến 10 lần khoảng thời gian dự báo.
- Đánh dấu vào ô Xuất tập dữ liệu kiểm thử sang BigQuery. Bạn có thể để trống trường này và BigQuery sẽ tự động tạo một tập dữ liệu và bảng trong dự án của bạn (hoặc chỉ định một vị trí mà bạn chọn).
- Chọn Tiếp tục.
Bước 4: Thiết lập các lựa chọn đào tạo
Trong bước này, bạn có thể chỉ định thêm thông tin chi tiết về cách bạn muốn huấn luyện mô hình.
- Đặt cột ngày lễ thành Có sẵn tại thời điểm dự đoán, vì chúng tôi biết liệu một ngày cụ thể có phải là ngày lễ hay không từ trước.
- Thay đổi Mục tiêu tối ưu hoá thành MAE. MAE (sai số tuyệt đối trung bình) có khả năng chống lại các giá trị ngoại lai tốt hơn so với sai số bình phương trung bình. Vì chúng tôi đang xử lý dữ liệu mua hàng hằng ngày có thể có nhiều biến động, nên MAE là một chỉ số phù hợp để sử dụng.
- Chọn Tiếp tục.
Bước 5: Bắt đầu huấn luyện
Đặt ngân sách theo lựa chọn của bạn. Trong trường hợp này, 1 giờ nút là đủ để huấn luyện mô hình. Sau đó, hãy bắt đầu quy trình đào tạo.
Bước 6: Đánh giá mô hình
Quá trình huấn luyện có thể mất từ 1 đến 2 giờ để hoàn tất (bao gồm cả thời gian thiết lập bổ sung). Bạn sẽ nhận được email khi quá trình huấn luyện hoàn tất. Khi mô hình đã sẵn sàng, bạn có thể xem độ chính xác của mô hình mà bạn đã tạo.
5. Dự đoán
Bước 1: Xem xét các dự đoán về dữ liệu kiểm thử
Chuyển đến bảng điều khiển BigQuery để xem các dự đoán về dữ liệu kiểm thử. Trong dự án của bạn, một tập dữ liệu mới sẽ tự động được tạo theo quy tắc đặt tên: export_evaluated_data_items + <model name> + <timestamp>. Trong tập dữ liệu đó, bạn sẽ thấy bảng evaluated_data_items để xem xét các dự đoán.
Bảng này có một số cột mới:
- predicted_on_[cột ngày]: Ngày đưa ra dự đoán. Ví dụ: nếu predicted_on_ds là 11/4 và ds là 11/8, thì chúng ta đang dự đoán trước 4 ngày.
- predicted_[cột mục tiêu].tables.value: Giá trị dự đoán
Bước 2: Thực hiện dự đoán hàng loạt
Cuối cùng, bạn sẽ muốn sử dụng mô hình của mình để đưa ra dự đoán.
Tệp đầu vào chứa các giá trị trống cho những ngày cần dự đoán, cùng với dữ liệu trong quá khứ:
ds | holiday | id | y |
15/5/20 | 0 | 0 | 1.751.315,43 |
16/5/20 | 0 | 0 | 0 |
17/5/20 | 0 | 0 | 0 |
18/5/20 | 0 | 0 | 1612066.43 |
19/5/20 | 0 | 0 | 1.773.885,17 |
20/5/20 | 0 | 0 | 1487270.92 |
21/5/20 | 0 | 0 | 1024051.76 |
22/5/20 | 0 | 0 | 1471736.31 |
23/5/20 | 0 | 0 | <empty> |
24/5/2020 | 0 | 0 | <empty> |
25/5/20 | 1 | 0 | <empty> |
26/5/20 | 0 | 0 | <empty> |
27/5/20 | 0 | 0 | <empty> |
28/5/20 | 0 | 0 | <empty> |
29/5/20 | 0 | 0 | <empty> |
Từ mục Dự đoán hàng loạt trong thanh điều hướng bên trái của AI Platform (hợp nhất), bạn có thể tạo một dự đoán hàng loạt mới.
Một tệp đầu vào mẫu được tạo cho bạn tại đây trong một vùng lưu trữ: automl-demo-240614-lcm/iowa_liquor/iowa_daily_automl_predict.csv
Bạn có thể cung cấp vị trí tệp nguồn này. Sau đó, bạn có thể chọn xuất các dự đoán của mình sang một vị trí lưu trữ trên đám mây dưới dạng tệp CSV hoặc sang BigQuery. Để thực hiện bài thực hành này, hãy chọn BigQuery rồi chọn mã dự án của bạn trên Google Cloud.
Quá trình dự đoán hàng loạt sẽ mất vài phút. Sau khi hoàn tất, bạn có thể nhấp vào công việc dự đoán hàng loạt để xem thông tin chi tiết, bao gồm cả Vị trí xuất. Trong BigQuery, bạn sẽ cần chuyển đến dự án / tập dữ liệu / bảng trong thanh điều hướng bên trái để truy cập vào các dự đoán.
Công việc này sẽ tạo ra 2 bảng riêng biệt trong BigQuery. Một tệp sẽ chứa mọi hàng có lỗi và tệp còn lại sẽ chứa các giá trị dự đoán. Dưới đây là ví dụ về kết quả của bảng Dự đoán:
Bước 3: Kết luận
Xin chúc mừng! Bạn đã xây dựng và huấn luyện thành công một mô hình dự báo bằng AutoML. Trong phòng thí nghiệm này, chúng ta đã đề cập đến việc nhập dữ liệu, xây dựng mô hình và đưa ra dự đoán.
Bạn đã sẵn sàng xây dựng mô hình dự báo của riêng mình!