1. Введение
Одним из основных компонентов Apache Spark является Spark ML — библиотека для создания моделей машинного обучения и конвейеров обработки данных, построенных на основе движка Apache Spark. На веб-сайте она содержит такие инструменты, как:
- Алгоритмы машинного обучения: распространенные алгоритмы обучения, такие как классификация, регрессия, кластеризация и коллаборативная фильтрация.
- Преобразование признаков: извлечение признаков, преобразование, уменьшение размерности и выбор признаков.
- Конвейеры: инструменты для построения, оценки и настройки конвейеров машинного обучения.
- Сохранение данных: алгоритмы сохранения и загрузки, модели и конвейеры обработки данных.
- Вспомогательные программы: линейная алгебра, статистика, обработка данных и т. д.
В этом практическом занятии вы научитесь создавать модель Spark ML с помощью ноутбука.
2. Включите API.
Для выполнения этого практического задания необходимо включить следующие API:
Нажмите на эту ссылку , чтобы включить эти API в вашем проекте. При появлении запроса подтвердите, что API будут включены в нужном проекте.
3. Создайте экземпляр Vertex AI Workbench и подключитесь к нему.
В этом разделе вы создадите экземпляр Vertex AI Workbench. Затем вы подключитесь к нему, клонируете репозиторий Github и запустите ноутбук.
Для создания экземпляра Vertex AI Workbench вы можете следовать инструкциям или выполнить действия, описанные ниже.
- Перейдите на страницу консоли «Управляемые ноутбуки» .
- Нажмите «Создать блокнот».
- Укажите название и выберите регион, например, us-central1 (Айова) . В идеале он должен совпадать с регионом, выбранным ранее в практическом задании, хотя это и не обязательно.
- В разделе «Разрешения» выберите «Только для одного пользователя».
- Откройте выпадающее меню «Дополнительные настройки» .
- В разделе «Безопасность» выберите «Включить nbconvert» и «Включить терминал».
- Нажмите СОЗДАТЬ.
Создание экземпляра должно занять около пяти минут. Когда экземпляр будет готов, рядом с его именем появится зеленая галочка.
Когда экземпляр будет готов, нажмите кнопку «ОТКРЫТЬ JUPYTERLAB» . При появлении запроса пройдите аутентификацию и включите все необходимые разрешения.
4. Создавайте модели с помощью Spark ML из ноутбука.
После загрузки экземпляра JupyterLab вы окажетесь на вкладке «Запуск» . На этой вкладке в разделе «Другое» нажмите «Терминал» , чтобы открыть новый терминал.
В терминале клонируйте репозиторий Vertex AI Samples .
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
На вкладке «Просмотр файлов» перейдите в папку vertex-ai-samples/notebooks/official/workbench/spark . Откройте блокнот spark_ml.ipynb , дважды щелкнув по нему. Когда появится запрос на выбор ядра, выберите Python (local) .
Пошагово выполняйте действия в каждой ячейке блокнота. Следуйте инструкциям в ячейках.
5. Очистка ресурсов
Чтобы избежать ненужных расходов на ваш счет GCP после завершения этого практического занятия:
- Удалите свой экземпляр Workbench. В консоли установите флажок рядом с вашим экземпляром и нажмите «УДАЛИТЬ».
Если вы создали проект специально для этого практического занятия, вы также можете при желании удалить этот проект:
- В консоли GCP перейдите на страницу «Проекты» .
- В списке проектов выберите проект, который хотите удалить, и нажмите «Удалить».
- В поле введите идентификатор проекта, а затем нажмите «Завершить», чтобы удалить проект.