Google Dataproc으로 Spark ML 모델 만들기

1. 소개

Apache Spark의 핵심 구성요소 중 하나는 Apache Spark 엔진을 기반으로 빌드된 머신러닝 모델과 파이프라인을 빌드하기 위한 라이브러리인 Spark ML입니다. 웹사이트에서 다음과 같은 도구가 포함되어 있습니다.

  • ML 알고리즘: 분류, 회귀, 클러스터링, 협업 필터링과 같은 일반적인 학습 알고리즘
  • 기능화: 특성 추출, 변환, 차원 축소, 선택
  • 파이프라인: ML 파이프라인의 구성, 평가, 조정을 위한 도구
  • 지속성: 알고리즘, 모델, 파이프라인 저장 및 로드
  • 유틸리티: 선형 대수학, 통계, 데이터 처리 등

이 Codelab에서는 노트북을 사용하여 Spark ML 모델을 만드는 방법을 알아봅니다.

2. API 사용 설정

이 Codelab에서는 다음 API를 사용 설정해야 합니다.

프로젝트에서 API를 사용 설정하려면 이 링크를 클릭하세요. 메시지가 표시되면 API가 올바른 프로젝트에 사용 설정되는지 확인합니다.

3. Vertex AI Workbench 인스턴스를 만들고 연결하기

이 섹션에서는 Vertex AI Workbench 인스턴스를 만듭니다. 그런 다음 저장소에 연결하고 GitHub 저장소를 클론하고 노트북을 실행합니다.

Vertex AI Workbench 인스턴스를 만들려면 안내를 따르거나 아래 단계를 따르세요.

  1. 관리형 노트북 콘솔 페이지로 이동합니다.
  2. 새 노트북을 클릭합니다.
  3. 이름을 입력하고 리전을 선택합니다(예: us-central1(아이오와)). 이 리전은 Codelab 초기에 선택한 리전과 이상적으로 일치해야 하지만 필수는 아닙니다.
  4. 권한에서 단일 사용자만을 선택합니다.
  5. 고급 설정 드롭다운을 엽니다.
  6. 보안에서 nbconvert 사용 설정터미널 사용 설정을 선택합니다.
  7. 만들기를 클릭합니다.

약 5분 내에 인스턴스가 프로비저닝됩니다. 인스턴스가 준비되면 노트북 이름 옆에 녹색 체크표시가 나타납니다.

인스턴스가 준비되면 JupyterLab 열기를 클릭합니다. 메시지가 표시되면 인증합니다. 모든 권한을 사용 설정합니다.

4. 노트북에서 Spark ML을 사용하여 모델 빌드

JupyterLab 인스턴스가 로드되면 런처 탭이 표시됩니다. 이 탭의 기타에서 터미널을 클릭하여 새 터미널을 엽니다.

터미널에서 Vertex AI 샘플 저장소를 클론합니다.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

File Browser 탭에서 vertex-ai-samples/notebooks/official/workbench/spark로 이동합니다. spark_ml.ipynb 노트북을 더블클릭하여 엽니다. 커널을 선택하라는 메시지가 표시되면 Python (로컬)을 선택합니다.

작업을 진행하면서 각 셀을 실행하여 노트북 단계를 살펴봅니다. 셀의 안내를 따릅니다.

5. 리소스 삭제

이 Codelab을 완료한 후 GCP 계정에 불필요한 비용이 청구되지 않도록 하려면 다음 안내를 따르세요.

  1. Workbench 인스턴스를 삭제합니다. 콘솔에서 인스턴스 옆에 있는 체크박스를 선택하고 삭제를 클릭합니다.

이 Codelab만을 위해 프로젝트를 만든 경우 선택적으로 프로젝트를 삭제할 수도 있습니다.

  1. GCP 콘솔에서 프로젝트 페이지로 이동합니다.
  2. 프로젝트 목록에서 삭제할 프로젝트를 선택하고 '삭제'를 클릭합니다.
  3. 상자에 프로젝트 ID를 입력한 후 종료를 클릭하여 프로젝트를 삭제합니다.