Эта страница переведена с помощью Cloud Translation API.

Создавайте модели машинного обучения Spark с помощью управляемого сервиса для Apache Spark.

1. Введение

Одним из основных компонентов Apache Spark является Spark ML — библиотека для создания моделей машинного обучения и конвейеров обработки данных, построенных на основе движка Apache Spark. На веб-сайте она содержит такие инструменты, как:

Алгоритмы машинного обучения: распространенные алгоритмы обучения, такие как классификация, регрессия, кластеризация и коллаборативная фильтрация.
Преобразование признаков: извлечение признаков, преобразование, уменьшение размерности и выбор признаков.
Конвейеры: инструменты для построения, оценки и настройки конвейеров машинного обучения.
Сохранение данных: алгоритмы сохранения и загрузки, модели и конвейеры обработки данных.
Вспомогательные программы: линейная алгебра, статистика, обработка данных и т. д.

В этом практическом занятии вы научитесь создавать модель Spark ML с помощью ноутбука.

2. Включите API.

Для выполнения этого практического задания необходимо включить следующие API:

Нажмите на эту ссылку , чтобы включить эти API в вашем проекте. При появлении запроса подтвердите, что API будут включены в нужном проекте.

3. Создайте экземпляр Gemini Enterprise Agent Engine Workbench и подключитесь к нему.

В этом разделе вы создадите экземпляр Gemini Enterprise Agent Engine Workbench. Затем вы подключитесь к нему, клонируете репозиторий GitHub и запустите ноутбук.

Для создания экземпляра Gemini Enterprise Agent Engine Workbench вы можете следовать инструкциям или выполнить действия, описанные ниже.

Перейдите на страницу консоли «Управляемые ноутбуки» .
Нажмите «Создать блокнот».
Укажите название и выберите регион, например, us-central1 (Айова) . В идеале он должен совпадать с регионом, выбранным ранее в практическом задании, хотя это и не обязательно.
В разделе «Разрешения» выберите «Только для одного пользователя».
Откройте выпадающее меню «Дополнительные настройки» .
В разделе «Безопасность» выберите «Включить nbconvert» и «Включить терминал».
Нажмите СОЗДАТЬ.

Создание экземпляра должно занять около пяти минут. Когда экземпляр будет готов, рядом с его именем появится зеленая галочка.

Когда экземпляр будет готов, нажмите кнопку «ОТКРЫТЬ JUPYTERLAB» . При появлении запроса пройдите аутентификацию и включите все необходимые разрешения.

4. Создавайте модели с помощью Spark ML из ноутбука.

После загрузки экземпляра JupyterLab вы окажетесь на вкладке «Запуск» . На этой вкладке в разделе «Другое» нажмите «Терминал» , чтобы открыть новый терминал.

В терминале клонируйте репозиторий Gemini Enterprise Agent Engine Samples .

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

На вкладке «Просмотр файлов» перейдите в папку vertex-ai-samples/notebooks/official/workbench/spark . Откройте блокнот spark_ml.ipynb , дважды щелкнув по нему. Когда появится запрос на выбор ядра, выберите Python (local) .

Пошагово выполняйте действия в каждой ячейке блокнота. Следуйте инструкциям в ячейках.

5. Очистка ресурсов

Чтобы избежать ненужных расходов на ваш счет GCP после завершения этого практического занятия:

Удалите свой экземпляр Workbench. В консоли установите флажок рядом с вашим экземпляром и нажмите «УДАЛИТЬ».

Если вы создали проект специально для этого практического занятия, вы также можете при желании удалить этот проект:

В консоли GCP перейдите на страницу «Проекты» .
В списке проектов выберите проект, который хотите удалить, и нажмите «Удалить».
В поле введите идентификатор проекта, а затем нажмите «Завершить», чтобы удалить проект.

Внимание: удаление проекта влечет за собой следующие последствия:

Все данные в проекте будут удалены. Если вы использовали существующий проект для этого урока, то при его удалении будет удалена и вся остальная работа, проделанная в этом проекте.
Пользовательские идентификаторы проектов теряются . При создании этого проекта вы могли создать пользовательский идентификатор проекта, который хотите использовать в будущем. Чтобы сохранить URL-адреса, использующие этот идентификатор проекта, например, URL-адрес appspot.com , удалите выбранные ресурсы внутри проекта, а не удаляйте весь проект.