Создание моделей Spark ML с помощью Google Dataproc

1. Введение

Одним из основных компонентов Apache Spark является Spark ML , библиотека для построения моделей и конвейеров машинного обучения, построенная на базе движка Apache Spark. На веб-сайте он содержит такие инструменты, как:

  • Алгоритмы машинного обучения: общие алгоритмы обучения, такие как классификация, регрессия, кластеризация и совместная фильтрация.
  • Фичеризация: извлечение признаков, преобразование, уменьшение размерности и выбор.
  • Конвейеры: инструменты для построения, оценки и настройки конвейеров машинного обучения.
  • Персистентность: сохранение и загрузка алгоритмов, моделей и конвейеров.
  • Утилиты: линейная алгебра, статистика, обработка данных и т. д.

В этой лаборатории кода вы узнаете, как создать модель Spark ML с помощью блокнота.

2. Включите API

Для этой лаборатории кода необходимо включить следующие API:

Нажмите эту ссылку , чтобы включить эти API в свой проект. При появлении запроса подтвердите, что API будут включены в правильном проекте.

3. Создайте экземпляр Vertex AI Workbench и подключитесь к нему.

В этом разделе вы создадите экземпляр Vertex AI Workbench. Затем вы подключитесь к нему, клонируете репозиторий Github и запустите блокнот.

Чтобы создать экземпляр Vertex AI Workbench, вы можете следовать инструкциям или следовать инструкциям ниже.

  1. Перейдите на страницу консоли «Управляемые блокноты» .
  2. Нажмите НОВЫЙ НОУТБУК.
  3. Укажите имя и выберите регион , например us-central1 (Iowa) . В идеале это должно соответствовать региону, выбранному ранее в кодовой лаборатории, хотя это не обязательно.
  4. В разделе «Разрешение» выберите «Только один пользователь».
  5. Откройте раскрывающийся список «Дополнительные настройки» .
  6. В разделе «Безопасность» выберите «Включить nbconvert» и «Включить терминал».
  7. Нажмите СОЗДАТЬ.

Экземпляр должен быть подготовлен в течение примерно пяти минут. Когда экземпляр будет готов, рядом с именем блокнота появится зеленая галочка.

Когда экземпляр будет готов, нажмите OPEN JUPYTERLAB . Пройдите аутентификацию при появлении соответствующего запроса и включите все разрешения.

4. Создавайте модели с помощью Spark ML из блокнота.

После загрузки экземпляра JupyterLab вы попадаете на вкладку «Панель запуска» . На этой вкладке в разделе «Другое» нажмите «Терминал» , чтобы открыть новый терминал.

В терминале клонируйте репозиторий Vertex AI Samples .

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

На вкладке «Обозреватель файлов» перейдите к vertex-ai-samples/notebooks/official/workbench/spark . Откройте блокнот spark_ml.ipynb, дважды щелкнув по нему. Когда будет предложено выбрать ядро, выберите Python (локальный) .

Пройдитесь по шагам блокнота, выполняя каждую ячейку по ходу дела. Следуйте инструкциям в ячейках.

5. Очистите ресурсы

Чтобы избежать ненужных расходов на вашу учетную запись GCP после завершения этой лаборатории кода:

  1. Удалите экземпляр Workbench. В консоли установите флажок рядом с вашим экземпляром и нажмите УДАЛИТЬ.

Если вы создали проект только для этой лаборатории кода, вы также можете при желании удалить проект:

  1. В консоли GCP перейдите на страницу «Проекты» .
  2. В списке проектов выберите проект, который хотите удалить, и нажмите «Удалить».
  3. В поле введите идентификатор проекта и нажмите «Завершить работу», чтобы удалить проект.