Создание моделей Spark ML с помощью Google Dataproc

1. Введение

Одним из основных компонентов Apache Spark является Spark ML — библиотека для создания моделей машинного обучения и конвейеров обработки данных, построенных на основе движка Apache Spark. На веб-сайте она содержит такие инструменты, как:

  • Алгоритмы машинного обучения: распространенные алгоритмы обучения, такие как классификация, регрессия, кластеризация и коллаборативная фильтрация.
  • Преобразование признаков: извлечение признаков, преобразование, уменьшение размерности и выбор признаков.
  • Конвейеры: инструменты для построения, оценки и настройки конвейеров машинного обучения.
  • Сохранение данных: алгоритмы сохранения и загрузки, модели и конвейеры обработки данных.
  • Вспомогательные программы: линейная алгебра, статистика, обработка данных и т. д.

В этом практическом занятии вы научитесь создавать модель Spark ML с помощью ноутбука.

2. Включите API.

Для выполнения этого практического задания необходимо включить следующие API:

Нажмите на эту ссылку , чтобы включить эти API в вашем проекте. При появлении запроса подтвердите, что API будут включены в нужном проекте.

3. Создайте экземпляр Vertex AI Workbench и подключитесь к нему.

В этом разделе вы создадите экземпляр Vertex AI Workbench. Затем вы подключитесь к нему, клонируете репозиторий Github и запустите ноутбук.

Для создания экземпляра Vertex AI Workbench вы можете следовать инструкциям или выполнить действия, описанные ниже.

  1. Перейдите на страницу консоли «Управляемые ноутбуки» .
  2. Нажмите «Создать блокнот».
  3. Укажите название и выберите регион, например, us-central1 (Айова) . В идеале он должен совпадать с регионом, выбранным ранее в практическом задании, хотя это и не обязательно.
  4. В разделе «Разрешения» выберите «Только для одного пользователя».
  5. Откройте выпадающее меню «Дополнительные настройки» .
  6. В разделе «Безопасность» выберите «Включить nbconvert» и «Включить терминал».
  7. Нажмите СОЗДАТЬ.

Создание экземпляра должно занять около пяти минут. Когда экземпляр будет готов, рядом с его именем появится зеленая галочка.

Когда экземпляр будет готов, нажмите кнопку «ОТКРЫТЬ JUPYTERLAB» . При появлении запроса пройдите аутентификацию и включите все необходимые разрешения.

4. Создавайте модели с помощью Spark ML из ноутбука.

После загрузки экземпляра JupyterLab вы окажетесь на вкладке «Запуск» . На этой вкладке в разделе «Другое» нажмите «Терминал» , чтобы открыть новый терминал.

В терминале клонируйте репозиторий Vertex AI Samples .

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

На вкладке «Просмотр файлов» перейдите в папку vertex-ai-samples/notebooks/official/workbench/spark . Откройте блокнот spark_ml.ipynb , дважды щелкнув по нему. Когда появится запрос на выбор ядра, выберите Python (local) .

Пошагово выполняйте действия в каждой ячейке блокнота. Следуйте инструкциям в ячейках.

5. Очистка ресурсов

Чтобы избежать ненужных расходов на ваш счет GCP после завершения этого практического занятия:

  1. Удалите свой экземпляр Workbench. В консоли установите флажок рядом с вашим экземпляром и нажмите «УДАЛИТЬ».

Если вы создали проект специально для этого практического занятия, вы также можете при желании удалить этот проект:

  1. В консоли GCP перейдите на страницу «Проекты» .
  2. В списке проектов выберите проект, который хотите удалить, и нажмите «Удалить».
  3. В поле введите идентификатор проекта, а затем нажмите «Завершить», чтобы удалить проект.