使用 Google Dataproc 创建 Spark ML 模型

1. 简介

Apache Spark 的核心组件之一是 Spark ML,这是一个基于 Apache Spark 引擎构建的用于构建机器学习模型和流水线的库。该网站包含以下工具:

  • 机器学习算法:常见的学习算法,例如分类、回归、聚类和协同过滤
  • 特征化:特征提取、转换、降维和选择
  • 流水线:用于构建、评估和调整机器学习流水线的工具
  • 持久性:保存和加载算法、模型和流水线
  • 实用程序:线性代数、统计、数据处理等

在此 Codelab 中,您将学习如何使用笔记本创建 Spark ML 模型。

2. 启用 API

在此 Codelab 中,您必须启用以下 API:

点击此链接可在项目中启用这些 API。系统提示时,确认将在正确的项目中启用这些 API。

3. 创建并连接到 Vertex AI Workbench 实例

在本部分中,您将创建一个 Vertex AI Workbench 实例。然后,您将连接到该实例,克隆 GitHub 代码库并运行笔记本。

如需创建 Vertex AI Workbench 实例,您可以按照说明操作,也可以按照以下步骤操作。

  1. 前往“代管式笔记本”控制台页面。
  2. 点击新建笔记本
  3. 提供名称并选择区域,例如 us-central1(爱荷华)。此值最好与 Codelab 前面选择的区域一致,但不是强制性的。
  4. 权限下,选择仅限单个用户
  5. 打开高级设置下拉菜单。
  6. 安全性下,选择启用 nbconvert启用终端
  7. 点击创建

实例应在约 5 分钟内完成预配。当实例准备就绪后,您会在笔记本名称旁边看到一个绿色对勾标记。

当实例准备就绪后,点击打开 JUPYTERLAB。在系统提示时进行身份验证,并启用所有权限。

4. 通过笔记本使用 Spark ML 构建模型

JupyterLab 实例加载完毕后,您会进入启动器标签页。在此标签页中,点击其他下的终端以打开新终端。

在终端中,克隆 Vertex AI Samples 代码库。

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

文件浏览器标签页中,前往 vertex-ai-samples/notebooks/official/workbench/spark。双击笔记本 spark_ml.ipynb 将其打开。当系统提示选择内核时,请选择 Python(本地)

通过执行每个单元逐步完成笔记本中的步骤。按照单元中的说明操作。

5. 清理资源

为避免在完成本 Codelab 后产生不必要的 GCP 账号费用,请执行以下操作:

  1. 删除工作台实例。在控制台中,选中实例旁边的复选框,然后点击删除

如果您创建了一个仅针对本 Codelab 的项目,还可以选择删除该项目:

  1. 在 GCP Console 中,前往项目页面。
  2. 在项目列表中,选择要删除的项目,然后点击“删除”。
  3. 在框中输入项目 ID,然后点击“关停”以删除项目。