Tạo mô hình Spark ML bằng Google Dataproc

1. Giới thiệu

Một trong những thành phần cốt lõi của Apache Spark là Spark ML, một thư viện để xây dựng các mô hình và quy trình học máy dựa trên công cụ Apache Spark. Từ trang web, thư viện này chứa các công cụ như:

  • Thuật toán học máy: các thuật toán học phổ biến như phân loại, hồi quy, phân cụm và lọc cộng tác
  • Tạo đặc trưng: trích xuất, chuyển đổi, giảm chiều và chọn đặc trưng
  • Quy trình: các công cụ để xây dựng, đánh giá và điều chỉnh Quy trình học máy
  • Tính liên tục: lưu và tải các thuật toán, mô hình và Quy trình
  • Tiện ích: đại số tuyến tính, số liệu thống kê, xử lý dữ liệu, v.v.

Trong lớp học lập trình này, bạn sẽ tìm hiểu cách tạo mô hình Spark ML bằng sổ tay.

2. Bật API

Đối với lớp học lập trình này, bạn phải bật các API sau:

Nhấp vào đường liên kết này để bật các API này trong dự án của bạn. Khi được nhắc, hãy xác nhận rằng các API sẽ được bật trong dự án chính xác.

3. Tạo và kết nối với một phiên bản Vertex AI Workbench

Trong phần này, bạn sẽ tạo một phiên bản Vertex AI Workbench. Sau đó, bạn sẽ kết nối với phiên bản đó, sao chép một kho lưu trữ GitHub và chạy một sổ tay.

Để tạo thực thể Vertex AI Workbench, bạn có thể làm theo hướng dẫn hoặc làm theo hướng dẫn bên dưới.

  1. Chuyển đến trang bảng điều khiển Sổ tay được quản lý.
  2. Nhấp vào SỔ TAY MỚI.
  3. Cung cấp tên và chọn một khu vực như us-central1 (Iowa). Tốt nhất là bạn nên chọn khu vực đã chọn trước đó trong lớp học lập trình, mặc dù không bắt buộc.
  4. Trong phần Quyền , hãy chọn Chỉ một người dùng.
  5. Mở trình đơn thả xuống Cài đặt nâng cao.
  6. Trong phần Bảo mật , hãy chọn Bật nbconvertBật cửa sổ dòng lệnh.
  7. Nhấp vào TẠO.

Phiên bản sẽ được cung cấp trong khoảng 5 phút. Bạn sẽ thấy một dấu kiểm màu xanh lục bên cạnh Tên sổ tay khi phiên bản đã sẵn sàng.

Khi phiên bản đã sẵn sàng, hãy nhấp vào MỞ JUPYTERLAB. Xác thực khi được nhắc thực hiện và bật tất cả các quyền.

4. Xây dựng mô hình bằng Spark ML từ sổ tay

Sau khi phiên bản JupyterLab tải, bạn sẽ ở trong thẻ Trình chạy. Trong thẻ này, trong phần Khác , hãy nhấp vào Cửa sổ dòng lệnh để mở một Cửa sổ dòng lệnh mới.

Trong cửa sổ dòng lệnh, hãy sao chép kho lưu trữ Mẫu Vertex AI.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

Trong thẻ Trình duyệt tệp, hãy chuyển đến vertex-ai-samples/notebooks/official/workbench/spark. Mở sổ tay spark_ml.ipynb bằng cách nhấp đúp vào sổ tay đó. Khi được nhắc chọn một kernel, hãy chọn Python (local).

Thực hiện từng bước trong sổ tay bằng cách thực thi từng ô khi bạn thực hiện. Làm theo hướng dẫn trong các ô.

5. Dọn dẹp tài nguyên

Để tránh phát sinh các khoản phí không cần thiết cho tài khoản GCP sau khi hoàn tất lớp học lập trình này:

  1. Xoá phiên bản Workbench. Trong bảng điều khiển, hãy đánh dấu vào hộp bên cạnh thực thể của bạn rồi nhấp vào XOÁ.

Nếu bạn chỉ tạo một dự án cho lớp học lập trình này, thì bạn cũng có thể xoá dự án đó (không bắt buộc):

  1. Trong Bảng điều khiển GCP, hãy chuyển đến trang Dự án.
  2. Trong danh sách dự án, hãy chọn dự án bạn muốn xoá rồi nhấp vào Xoá.
  3. Trong hộp, hãy nhập mã dự án, sau đó nhấp vào Tắt để xoá dự án.