1. Giới thiệu
Một trong những thành phần cốt lõi của Apache Spark là Spark ML, một thư viện để xây dựng các mô hình và quy trình học máy dựa trên công cụ Apache Spark. Trên trang web này, bạn có thể tìm thấy các công cụ như:
- Thuật toán học máy: các thuật toán học tập phổ biến như phân loại, hồi quy, phân cụm và lọc cộng tác
- Tạo đặc trưng: trích xuất, chuyển đổi, giảm chiều và chọn đặc trưng
- Quy trình: các công cụ để tạo, đánh giá và điều chỉnh Quy trình ML
- Tính liên tục: lưu và tải các thuật toán, mô hình và quy trình
- Tiện ích: đại số tuyến tính, số liệu thống kê, xử lý dữ liệu, v.v.
Trong lớp học lập trình này, bạn sẽ tìm hiểu cách tạo một mô hình Spark ML bằng sổ tay.
2. Bật API
Đối với lớp học lập trình này, bạn phải bật các API sau:
Nhấp vào đường liên kết này để bật các API này trong dự án của bạn. Khi được nhắc, hãy xác nhận rằng các API sẽ được bật trong đúng dự án.
3. Tạo và kết nối với một phiên bản Vertex AI Workbench
Trong phần này, bạn sẽ tạo một phiên bản Vertex AI Workbench. Sau đó, bạn sẽ kết nối với phiên bản này, sao chép một kho lưu trữ Github và chạy một sổ tay.
Để tạo phiên bản Vertex AI Workbench, bạn có thể làm theo hướng dẫn hoặc làm theo hướng dẫn bên dưới.
- Chuyển đến trang bảng điều khiển Managed Notebooks.
- Nhấp vào SỔ TAY MỚI.
- Đặt tên và chọn một khu vực, chẳng hạn như us-central1 (Iowa). Tốt nhất là bạn nên chọn khu vực khớp với khu vực đã chọn trước đó trong lớp học lập trình, mặc dù đây không phải là yêu cầu bắt buộc.
- Trong mục Quyền, hãy chọn Chỉ một người dùng.
- Mở trình đơn thả xuống Cài đặt nâng cao.
- Trong phần Bảo mật, hãy chọn Bật nbconvert và Bật thiết bị đầu cuối.
- Nhấp vào TẠO.
Phiên bản này sẽ được cung cấp trong vòng khoảng 5 phút. Bạn sẽ thấy dấu kiểm màu xanh lục bên cạnh Tên sổ tay khi phiên bản đã sẵn sàng.
Khi phiên bản đã sẵn sàng, hãy nhấp vào MỞ JUPYTERLAB. Xác thực khi được nhắc và bật tất cả các quyền.
4. Tạo mô hình bằng Spark ML từ sổ tay
Sau khi phiên bản JupyterLab tải xong, bạn sẽ ở trong thẻ Trình chạy. Trong thẻ này, trong mục Khác, hãy nhấp vào Terminal để mở một Terminal mới.
Trong thiết bị đầu cuối, hãy sao chép kho lưu trữ Vertex AI Samples.
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
Trong thẻ File Browser (Trình duyệt tệp), hãy chuyển đến vertex-ai-samples/notebooks/official/workbench/spark. Mở sổ tay spark_ml.ipynb bằng cách nhấp đúp vào sổ tay đó. Khi được nhắc chọn một hạt nhân, hãy chọn Python (local).
Thực hiện từng ô khi bạn đi qua các bước của sổ tay. Làm theo hướng dẫn trong các ô.
5. Dọn dẹp tài nguyên
Để tránh phát sinh các khoản phí không cần thiết cho tài khoản GCP của bạn sau khi hoàn tất lớp học lập trình này, hãy làm như sau:
- Xoá phiên bản Workbench. Trong bảng điều khiển, hãy đánh dấu vào hộp bên cạnh phiên bản của bạn rồi nhấp vào XOÁ.
Nếu chỉ tạo một dự án cho lớp học lập trình này, bạn cũng có thể xoá dự án (không bắt buộc):
- Trong Bảng điều khiển của GCP, hãy chuyển đến trang Dự án.
- Trong danh sách dự án, hãy chọn dự án bạn muốn xoá rồi nhấp vào Xoá.
- Trong hộp này, hãy nhập mã dự án, rồi nhấp vào Tắt để xoá dự án.