1. 簡介
Apache Spark 的核心元件之一是 Spark ML,這個程式庫可建構以 Apache Spark 引擎為基礎的機器學習模型和管線。網站提供下列工具:
- 機器學習演算法:常見的學習演算法,例如分類、迴歸、分群和協同過濾
- 特徵化:特徵擷取、轉換、降維和選取
- 管道:用於建構、評估及調整機器學習管道的工具
- 持續性:儲存及載入演算法、模型和管道
- 實用工具:線性代數、統計、資料處理等。
在本程式碼研究室中,您將瞭解如何使用筆記本建立 Spark ML 模型。
2. 啟用 API
在本程式碼研究室中,您必須啟用下列 API:
按一下這個連結,在專案中啟用這些 API。系統提示時,請確認 API 將在正確的專案中啟用。
3. 建立及連線至 Vertex AI Workbench 執行個體
在本節中,您將建立 Vertex AI Workbench 執行個體。接著連線至該執行個體、複製 GitHub 存放區,然後執行筆記本。
如要建立 Vertex AI Workbench 執行個體,請按照操作說明或以下步驟進行。
- 前往 Managed Notebooks 控制台頁面。
- 按一下「新增筆記本」。
- 提供名稱並選擇區域,例如「us-central1 (Iowa)」(us-central1 (愛荷華州))。理想情況下,這應與您稍早在程式碼研究室中選取的區域相符,但並非必要條件。
- 在「權限」下方,選取「僅限單一使用者」。
- 開啟「進階設定」下拉式選單。
- 在「安全性」下方,選取「啟用 nbconvert」和「啟用終端機」。
- 按一下 [建立]。
執行個體應會在五分鐘內完成佈建。執行個體準備就緒後,筆記本名稱旁會顯示綠色勾號。
執行個體就緒後,按一下「OPEN JUPYTERLAB」。在系統提示時進行驗證,並啟用所有權限。
4. 從筆記本使用 Spark ML 建構模型
JupyterLab 執行個體載入後,您會進入「啟動器」分頁。在這個分頁中,按一下「Other」(其他) 下方的「Terminal」(終端機),開啟新的終端機。
在終端機中,複製 Vertex AI 範例存放區。
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
在「File Browser」(檔案瀏覽器) 分頁中,前往 vertex-ai-samples/notebooks/official/workbench/spark。按兩下開啟筆記本 spark_ml.ipynb。系統提示選取核心時,請選取「Python (local)」。
逐步執行筆記本中的每個儲存格,並按照儲存格中的操作說明操作。
5. 清除資源
完成本程式碼研究室後,為避免系統向您的 GCP 帳戶收取不必要的費用,請按照下列步驟操作:
- 刪除 Workbench 執行個體。在控制台中,勾選執行個體旁邊的方塊,然後按一下「DELETE」(刪除)。
如果您專為這個程式碼研究室建立了專案,也可以選擇刪除專案: