使用 Managed Service for Apache Spark 创建 Spark 机器学习模型

1. 简介

Apache Spark 的核心组件之一是 Spark ML,这是一个基于 Apache Spark 引擎构建的用于构建机器学习模型和流水线的库。该网站包含以下工具:

  • 机器学习算法:常见的学习算法,例如分类、回归、聚类和协同过滤
  • 特征化:特征提取、转换、降维和选择
  • 流水线:用于构建、评估和调整机器学习流水线的工具
  • 持久性:保存和加载算法、模型和流水线
  • 实用程序:线性代数、统计、数据处理等。

在此 Codelab 中,您将学习如何使用笔记本创建 Spark ML 模型。

2. 启用 API

在此 Codelab 中,您必须启用以下 API:

点击此链接可在项目中启用这些 API。系统提示时,确认将在正确的项目中启用这些 API。

3. 创建并连接到 Gemini Enterprise Agent Engine Workbench 实例

在本部分中,您将创建一个 Gemini Enterprise Agent Engine Workbench 实例。然后,您将连接到该实例,克隆 GitHub 代码库并运行笔记本。

如需创建 Gemini Enterprise Agent Engine Workbench 实例,您可以按照说明操作,也可以按照以下步骤操作。

  1. 前往“代管式笔记本”控制台页面。
  2. 点击新建笔记本
  3. 提供名称并选择区域,例如 us-central1(爱荷华)。理想情况下,此区域应与在实验开始时选择的区域一致,但这不是强制性要求。
  4. 权限下,选择仅限单个用户
  5. 打开高级设置下拉菜单。
  6. 安全性下,选择启用 nbconvert启用终端
  7. 点击创建

实例应在约 5 分钟内完成预配。当实例准备就绪时,您会在笔记本名称旁边看到一个绿色对勾标记。

当实例准备就绪后,点击打开 JupyterLab。在系统提示时进行身份验证,并启用所有权限。

4. 通过笔记本使用 Spark ML 构建模型

JupyterLab 实例加载完毕后,您会进入启动器标签页。在此标签页中,点击其他下的终端以打开新终端。

在终端中,克隆 Gemini Enterprise Agent Engine 示例代码库。

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

文件浏览器标签页中,前往 vertex-ai-samples/notebooks/official/workbench/spark。双击笔记本 spark_ml.ipynb 将其打开。当系统提示选择内核时,请选择 Python(本地)

通过执行每个单元逐步完成笔记本中的步骤。按照单元中的说明操作。

5. 清理资源

为避免在完成此 Codelab 后产生不必要的 GCP 账号费用,请执行以下操作:

  1. 删除工作台实例。在控制台中,选中实例旁边的复选框,然后点击删除

如果您创建了一个仅针对本 Codelab 的项目,还可以选择删除该项目:

  1. 在 GCP Console 中,前往项目页面。
  2. 在项目列表中,选择要删除的项目,然后点击“删除”。
  3. 在框中输入项目 ID,然后点击“关停”以删除项目。