1. Giới thiệu
Một trong những thành phần cốt lõi của Apache Spark là Spark ML, một thư viện để xây dựng các mô hình và quy trình học máy dựa trên công cụ Apache Spark. Trên trang web, thư viện này chứa các công cụ như:
- Thuật toán học máy: các thuật toán học phổ biến như phân loại, hồi quy, phân cụm và lọc cộng tác
- Tạo đặc trưng: trích xuất, chuyển đổi, giảm chiều và chọn đặc trưng
- Quy trình: các công cụ để xây dựng, đánh giá và điều chỉnh Quy trình học máy
- Tính liên tục: lưu và tải các thuật toán, mô hình và Quy trình
- Tiện ích: đại số tuyến tính, số liệu thống kê, xử lý dữ liệu, v.v.
Trong lớp học lập trình này, bạn sẽ tìm hiểu cách tạo mô hình Spark ML bằng sổ tay.
2. Bật API
Đối với lớp học lập trình này, bạn phải bật các API sau:
Nhấp vào đường liên kết này để bật các API này trong dự án của bạn. Khi được nhắc, hãy xác nhận rằng các API sẽ được bật trong dự án chính xác.
3. Tạo và kết nối với một thực thể Workbench của công cụ tác nhân Gemini Enterprise
Trong phần này, bạn sẽ tạo một thực thể Workbench của công cụ tác nhân Gemini Enterprise. Sau đó, bạn sẽ kết nối với thực thể đó, sao chép một kho lưu trữ GitHub và chạy một sổ tay.
Để tạo thực thể Workbench của công cụ tác nhân Gemini Enterprise, bạn có thể làm theo hướng dẫn hoặc làm theo các bước bên dưới.
- Chuyển đến trang bảng điều khiển Sổ tay được quản lý.
- Nhấp vào SỔ TAY MỚI.
- Đặt tên và chọn một vùng như us-central1 (Iowa). Tốt nhất là bạn nên chọn khu vực đã chọn trước đó trong lớp học lập trình, mặc dù không bắt buộc.
- Trong phần Quyền , hãy chọn Chỉ một người dùng.
- Mở trình đơn thả xuống Cài đặt nâng cao.
- Trong phần Bảo mật , hãy chọn Bật nbconvert và Bật cửa sổ dòng lệnh.
- Nhấp vào TẠO.
Phiên bản này sẽ được cung cấp trong vòng khoảng 5 phút. Bạn sẽ thấy một dấu kiểm màu xanh lục bên cạnh Tên sổ tay khi phiên bản này đã sẵn sàng.
Khi phiên bản này đã sẵn sàng, hãy nhấp vào MỞ JUPYTERLAB. Xác thực khi được nhắc và bật tất cả các quyền.
4. Xây dựng mô hình bằng Spark ML từ sổ tay
Sau khi phiên bản JupyterLab tải, bạn sẽ ở thẻ Trình chạy. Trong thẻ này, trong phần Khác , hãy nhấp vào Cửa sổ dòng lệnh để mở một Cửa sổ dòng lệnh mới.
Trong cửa sổ dòng lệnh, hãy sao chép kho lưu trữ Mẫu công cụ tác nhân Gemini Enterprise.
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
Trong thẻ Trình duyệt tệp, hãy chuyển đến vertex-ai-samples/notebooks/official/workbench/spark. Mở sổ tay spark_ml.ipynb bằng cách nhấp đúp vào sổ tay đó. Khi được nhắc chọn một nhân, hãy chọn Python (local).
Làm theo các bước trong sổ tay bằng cách thực thi từng ô khi bạn thực hiện. Làm theo hướng dẫn trong các ô.
5. Dọn dẹp tài nguyên
Để tránh phát sinh các khoản phí không cần thiết cho tài khoản GCP sau khi hoàn tất lớp học lập trình này:
- Xoá thực thể Workbench. Trong bảng điều khiển, hãy đánh dấu vào hộp bên cạnh thực thể của bạn rồi nhấp vào XOÁ.
Nếu bạn chỉ tạo một dự án cho lớp học lập trình này, bạn cũng có thể xoá dự án đó (không bắt buộc):
- Trong Bảng điều khiển GCP, hãy chuyển đến trang Dự án.
- Trong danh sách dự án, hãy chọn dự án bạn muốn xoá rồi nhấp vào Xoá.
- Trong hộp, hãy nhập mã dự án, rồi nhấp vào Tắt để xoá dự án.