使用 Google Dataproc 建立 Spark 機器學習模型

1. 簡介

Apache Spark 的核心元件之一是 Spark ML,這個程式庫可建構以 Apache Spark 引擎為基礎的機器學習模型和管線。網站提供下列工具:

  • 機器學習演算法:常見的學習演算法,例如分類、迴歸、分群和協同過濾
  • 特徵化:特徵擷取、轉換、降維和選取
  • 管道:用於建構、評估及調整機器學習管道的工具
  • 持續性:儲存及載入演算法、模型和管道
  • 實用工具:線性代數、統計、資料處理等。

在本程式碼研究室中,您將瞭解如何使用筆記本建立 Spark ML 模型。

2. 啟用 API

在本程式碼研究室中,您必須啟用下列 API:

按一下這個連結,在專案中啟用這些 API。系統提示時,請確認 API 將在正確的專案中啟用。

3. 建立及連線至 Vertex AI Workbench 執行個體

在本節中,您將建立 Vertex AI Workbench 執行個體。接著連線至該執行個體、複製 GitHub 存放區,然後執行筆記本。

如要建立 Vertex AI Workbench 執行個體,請按照操作說明或以下步驟進行。

  1. 前往 Managed Notebooks 控制台頁面
  2. 按一下「新增筆記本」
  3. 提供名稱並選擇區域,例如「us-central1 (Iowa)」(us-central1 (愛荷華州))。理想情況下,這應與您稍早在程式碼研究室中選取的區域相符,但並非必要條件。
  4. 在「權限」下方,選取「僅限單一使用者」
  5. 開啟「進階設定」下拉式選單。
  6. 在「安全性」下方,選取「啟用 nbconvert」和「啟用終端機」
  7. 按一下 [建立]

執行個體應會在五分鐘內完成佈建。執行個體準備就緒後,筆記本名稱旁會顯示綠色勾號。

執行個體就緒後,按一下「OPEN JUPYTERLAB」。在系統提示時進行驗證,並啟用所有權限。

4. 從筆記本使用 Spark ML 建構模型

JupyterLab 執行個體載入後,您會進入「啟動器」分頁。在這個分頁中,按一下「Other」(其他) 下方的「Terminal」(終端機),開啟新的終端機。

在終端機中,複製 Vertex AI 範例存放區。

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

在「File Browser」(檔案瀏覽器) 分頁中,前往 vertex-ai-samples/notebooks/official/workbench/spark。按兩下開啟筆記本 spark_ml.ipynb。系統提示選取核心時,請選取「Python (local)」

逐步執行筆記本中的每個儲存格,並按照儲存格中的操作說明操作。

5. 清除資源

完成本程式碼研究室後,為避免系統向您的 GCP 帳戶收取不必要的費用,請按照下列步驟操作:

  1. 刪除 Workbench 執行個體。在控制台中,勾選執行個體旁邊的方塊,然後按一下「DELETE」(刪除)

如果您專為這個程式碼研究室建立了專案,也可以選擇刪除專案:

  1. 前往 GCP 主控台的「Projects」(專案) 頁面。
  2. 在專案清單中,選取要刪除的專案,然後按一下「刪除」。
  3. 在方塊中輸入專案 ID,然後按一下「關閉」刪除專案。