Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

使用 Managed Service for Apache Spark 创建 Spark 机器学习模型

1. 简介

Apache Spark 的核心组件之一是 Spark ML，这是一个基于 Apache Spark 引擎构建的用于构建机器学习模型和流水线的库。该网站包含以下工具：

在此 Codelab 中，您将学习如何使用笔记本创建 Spark ML 模型。

在此 Codelab 中，您必须启用以下 API：

点击此链接可在项目中启用这些 API。系统提示时，确认将在正确的项目中启用这些 API。

在本部分中，您将创建一个 Gemini Enterprise Agent Engine Workbench 实例。然后，您将连接到该实例，克隆 GitHub 代码库并运行笔记本。

如需创建 Gemini Enterprise Agent Engine Workbench 实例，您可以按照说明操作，也可以按照以下步骤操作。

实例应在约 5 分钟内完成预配。当实例准备就绪时，您会在笔记本名称旁边看到一个绿色对勾标记。

当实例准备就绪后，点击打开 JupyterLab。在系统提示时进行身份验证，并启用所有权限。

JupyterLab 实例加载完毕后，您会进入启动器标签页。在此标签页中，点击其他下的终端以打开新终端。

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

在文件浏览器标签页中，前往 vertex-ai-samples/notebooks/official/workbench/spark。双击笔记本 spark_ml.ipynb 将其打开。当系统提示选择内核时，请选择 Python（本地）。

通过执行每个单元逐步完成笔记本中的步骤。按照单元中的说明操作。

为避免在完成此 Codelab 后产生不必要的 GCP 账号费用，请执行以下操作：

如果您创建了一个仅针对本 Codelab 的项目，还可以选择删除该项目：