1. 简介
Apache Spark 的核心组件之一是 Spark ML,这是一个基于 Apache Spark 引擎构建的用于构建机器学习模型和流水线的库。该网站包含以下工具:
- 机器学习算法:常见的学习算法,例如分类、回归、聚类和协同过滤
- 特征化:特征提取、转换、降维和选择
- 流水线:用于构建、评估和调整机器学习流水线的工具
- 持久性:保存和加载算法、模型和流水线
- 实用程序:线性代数、统计、数据处理等
在此 Codelab 中,您将学习如何使用笔记本创建 Spark ML 模型。
2. 启用 API
在此 Codelab 中,您必须启用以下 API:
点击此链接可在项目中启用这些 API。系统提示时,确认将在正确的项目中启用这些 API。
3. 创建并连接到 Vertex AI Workbench 实例
在本部分中,您将创建一个 Vertex AI Workbench 实例。然后,您将连接到该实例,克隆 GitHub 代码库并运行笔记本。
如需创建 Vertex AI Workbench 实例,您可以按照说明操作,也可以按照以下步骤操作。
- 前往“代管式笔记本”控制台页面。
- 点击新建笔记本。
- 提供名称并选择区域,例如 us-central1(爱荷华)。此值最好与 Codelab 前面选择的区域一致,但不是强制性的。
- 在权限下,选择仅限单个用户。
- 打开高级设置下拉菜单。
- 在安全性下,选择启用 nbconvert 和启用终端。
- 点击创建。
实例应在约 5 分钟内完成预配。当实例准备就绪后,您会在笔记本名称旁边看到一个绿色对勾标记。
当实例准备就绪后,点击打开 JUPYTERLAB。在系统提示时进行身份验证,并启用所有权限。
4. 通过笔记本使用 Spark ML 构建模型
JupyterLab 实例加载完毕后,您会进入启动器标签页。在此标签页中,点击其他下的终端以打开新终端。
在终端中,克隆 Vertex AI Samples 代码库。
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
在文件浏览器标签页中,前往 vertex-ai-samples/notebooks/official/workbench/spark。双击笔记本 spark_ml.ipynb 将其打开。当系统提示选择内核时,请选择 Python(本地)。
通过执行每个单元逐步完成笔记本中的步骤。按照单元中的说明操作。
5. 清理资源
为避免在完成本 Codelab 后产生不必要的 GCP 账号费用,请执行以下操作:
- 删除工作台实例。在控制台中,选中实例旁边的复选框,然后点击删除。
如果您创建了一个仅针对本 Codelab 的项目,还可以选择删除该项目:
- 在 GCP Console 中,前往项目页面。
- 在项目列表中,选择要删除的项目,然后点击“删除”。
- 在框中输入项目 ID,然后点击“关停”以删除项目。