Google Dataproc으로 Spark ML 모델 만들기

1. 소개

Apache Spark의 핵심 구성요소 중 하나는 Apache Spark 엔진을 기반으로 구축된 머신러닝 모델 및 파이프라인을 빌드하기 위한 라이브러리인 Spark ML입니다. 웹사이트에는 다음과 같은 도구가 포함되어 있습니다.

  • ML 알고리즘: 분류, 회귀, 클러스터링, 협업 필터링과 같은 일반적인 학습 알고리즘
  • 특성 생성: 특성 추출, 변환, 차원 축소, 선택
  • 파이프라인: ML 파이프라인을 구성, 평가, 조정하는 도구
  • 지속성: 알고리즘, 모델, 파이프라인 저장 및 로드
  • 유틸리티: 선형 대수, 통계, 데이터 처리 등

이 Codelab에서는 노트북을 사용하여 Spark ML 모델을 만드는 방법을 알아봅니다.

2. API 사용 설정

이 Codelab에서는 다음 API를 사용 설정해야 합니다.

링크를 클릭하여 프로젝트에서 이러한 API를 사용 설정합니다. 메시지가 표시되면 API가 올바른 프로젝트에서 사용 설정되는지 확인합니다.

3. Vertex AI Workbench 인스턴스 만들기 및 연결

이 섹션에서는 Vertex AI Workbench 인스턴스를 만듭니다. 그런 다음 연결하고, GitHub 저장소를 클론하고, 노트북을 실행합니다.

Vertex AI Workbench 인스턴스를 만들려면 안내를 따르거나 아래 단계를 따르세요.

  1. 관리형 노트북으로 이동 콘솔 페이지로 이동합니다.
  2. 새 노트북을 클릭합니다.
  3. 이름을 입력하고 us-central1 (아이오와)와 같은 리전을 선택합니다. 필수는 아니지만 Codelab에서 이전에 선택한 리전과 일치하는 것이 좋습니다.
  4. 권한에서 단일 사용자 전용을 선택합니다.
  5. 고급 설정 드롭다운을 엽니다.
  6. 보안에서 nbconvert 사용 설정터미널 사용 설정을 선택합니다.
  7. 만들기를 클릭합니다.

인스턴스는 약 5분 이내에 프로비저닝됩니다. 인스턴스가 준비되면 노트북 이름 옆에 녹색 체크표시가 표시됩니다.

인스턴스가 준비되면 JupyterLab 열기를 클릭합니다. 메시지가 표시되면 인증하고 모든 권한을 사용 설정합니다.

4. 노트북에서 Spark ML로 모델 빌드

JupyterLab 인스턴스가 로드되면 런처 탭이 표시됩니다. 이 탭의 기타에서 터미널을 클릭하여 새 터미널을 엽니다.

터미널에서 Vertex AI 샘플 저장소를 클론합니다.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

파일 브라우저 탭에서 vertex-ai-samples/notebooks/official/workbench/spark로 이동합니다. spark_ml.ipynb 노트북을 더블클릭하여 엽니다. 커널을 선택하라는 메시지가 표시되면 Python (로컬)을 선택합니다.

각 셀을 실행하면서 노트북의 단계를 살펴봅니다. 셀의 안내를 따릅니다.

5. 리소스 삭제

이 Codelab을 완료한 후 GCP 계정에 불필요한 요금이 청구되지 않도록 다음을 수행하세요.

  1. Workbench 인스턴스를 삭제합니다. 콘솔에서 인스턴스 옆의 체크박스를 선택하고 삭제를 클릭합니다.

이 Codelab만을 위한 프로젝트를 만든 경우 선택적으로 프로젝트를 삭제할 수도 있습니다.

  1. GCP 콘솔에서 프로젝트 페이지로 이동합니다.
  2. 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제를 클릭합니다.
  3. 상자에 프로젝트 ID를 입력한 다음 종료를 클릭하여 프로젝트를 삭제합니다.