Tạo mô hình Spark ML bằng Google Dataproc

1. Giới thiệu

Một trong những thành phần cốt lõi của Apache Spark là Spark ML, một thư viện để xây dựng các mô hình và quy trình học máy được xây dựng dựa trên công cụ Apache Spark. Trên trang web, bộ công cụ này chứa các công cụ như:

  • Các thuật toán học máy: các thuật toán học phổ biến như phân loại, hồi quy, phân cụm và lọc cộng tác
  • Liên kết: trích xuất đối tượng, chuyển đổi, giảm kích thước và chọn
  • Quy trình: công cụ để xây dựng, đánh giá và điều chỉnh Quy trình học máy
  • Tính liên tục: lưu và tải các thuật toán, mô hình và Quy trình
  • Phần mềm tiện ích: đại số tuyến tính, thống kê, xử lý dữ liệu, v.v.

Trong lớp học lập trình này, bạn sẽ tìm hiểu cách tạo một mô hình Spark ML bằng sổ tay.

2. Bật API

Đối với lớp học lập trình này, bạn phải bật các API sau:

Nhấp vào đường liên kết này để bật các API này trong dự án của bạn. Khi được nhắc, hãy xác nhận rằng các API sẽ được bật trong đúng dự án.

3. Tạo và kết nối với một thực thể Vertex AI Workbench

Trong phần này, bạn sẽ tạo một thực thể Vertex AI Workbench. Sau đó, bạn sẽ kết nối với kho lưu trữ GitHub, sao chép kho lưu trữ GitHub và chạy một sổ tay.

Để tạo thực thể Vertex AI Workbench, bạn có thể làm theo hướng dẫn hoặc làm theo hướng dẫn ở bên dưới.

  1. Chuyển đến trang bảng điều khiển của Sổ tay được quản lý.
  2. Nhấp vào SÁCH LƯU Ý MỚI.
  3. Cung cấp tên rồi chọn một khu vực, chẳng hạn như us-central1 (Iowa). Khu vực này nên phù hợp nhất với khu vực đã chọn trước đó trong lớp học lập trình (mặc dù không bắt buộc).
  4. Trong phần Quyền, hãy chọn Chỉ một người dùng.
  5. Mở trình đơn thả xuống Cài đặt nâng cao.
  6. Trong phần Bảo mật, chọn Bật nbconvertBật thiết bị đầu cuối.
  7. Nhấp vào TẠO.

Thực thể máy ảo sẽ được cung cấp trong vòng khoảng 5 phút. Bạn sẽ thấy một dấu kiểm màu xanh lục bên cạnh Tên sổ tay khi phiên bản đã sẵn sàng.

Khi thực thể đã sẵn sàng, hãy nhấp vào MỞ JUPYTERLAB. Xác thực khi được nhắc thực hiện và bật tất cả các quyền.

4. Xây dựng mô hình bằng Spark ML từ sổ tay

Sau khi tải phiên bản JupyterLab, bạn sẽ ở thẻ Trình chạy. Trong thẻ này, bên dưới mục Other (Khác), hãy nhấp vào Terminal để mở một cửa sổ dòng lệnh mới.

Trong cửa sổ dòng lệnh, hãy sao chép kho lưu trữ Các mẫu AI Vertex.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

Trong thẻ File Browser (Trình duyệt tệp), hãy chuyển đến vertex-ai-samples/notebooks/chính thức/workbench/spark. Mở sổ tay spark_ml.ipynb bằng cách nhấp đúp vào sổ tay đó. Khi được nhắc chọn một nhân, hãy chọn Python (local).

Tìm hiểu các bước của sổ tay này bằng cách thực thi từng ô trong khi thực thi. Làm theo hướng dẫn trong các ô.

5. Dọn dẹp tài nguyên

Cách tránh phát sinh các khoản phí không cần thiết cho tài khoản GCP sau khi bạn hoàn thành lớp học lập trình này:

  1. Xoá thực thể Workbench. Trên bảng điều khiển, hãy đánh dấu vào hộp bên cạnh phiên bản của bạn rồi nhấp vào XOÁ.

Nếu đã tạo một dự án chỉ dành cho lớp học lập trình này, bạn cũng có thể xoá dự án đó (không bắt buộc):

  1. Trong Bảng điều khiển GCP, hãy chuyển đến trang Dự án.
  2. Trong danh sách dự án, hãy chọn dự án mà bạn muốn xoá rồi nhấp vào Xoá.
  3. Trong hộp này, hãy nhập mã dự án, sau đó nhấp vào Tắt để xoá dự án.