1. 소개
Apache Spark의 핵심 구성요소 중 하나는 Apache Spark 엔진을 기반으로 빌드된 머신러닝 모델 및 파이프라인 빌드를 위한 라이브러리인 Spark ML입니다. 웹사이트에서 다음과 같은 도구를 포함합니다.
- ML 알고리즘: 분류, 회귀분석, 클러스터링, 협업 필터링과 같은 일반적인 학습 알고리즘
- 특성 처리: 특성 추출, 변환, 차원 축소, 선택
- 파이프라인: ML 파이프라인을 구성, 평가, 조정하는 도구
- 지속성: 알고리즘, 모델, 파이프라인 저장 및 로드
- 유틸리티: 선형 대수학, 통계, 데이터 처리 등
이 Codelab에서는 노트북을 사용하여 Spark ML 모델을 만드는 방법을 알아봅니다.
2. API 사용 설정
이 Codelab에서는 다음 API를 사용 설정해야 합니다.
이 링크를 클릭하여 프로젝트에서 이러한 API를 사용 설정합니다. 메시지가 표시되면 API가 올바른 프로젝트에서 사용 설정되는지 확인합니다.
3. Vertex AI Workbench 인스턴스 생성 및 연결
이 섹션에서는 Vertex AI Workbench 인스턴스를 만듭니다. 그런 다음 인스턴스에 연결하고, GitHub 저장소를 클론하고, 노트북을 실행합니다.
Vertex AI Workbench 인스턴스를 만들려면 안내를 따르거나 아래 단계를 따르세요.
- 관리형 노트북 콘솔 페이지로 이동합니다.
- 새 노트북 을 클릭합니다.
- 이름을 제공하고 리전을 선택합니다(예: us-central1(아이오와)). 필수는 아니지만 이전에 Codelab에서 선택한 리전과 일치하는 것이 좋습니다.
- 권한 에서 단일 사용자만 을 선택합니다.
- 고급 설정 드롭다운을 엽니다.
- 보안 에서 nbconvert 사용 설정 및 터미널 사용 설정 을 선택합니다.
- 만들기 를 클릭합니다.
인스턴스는 약 5분 이내에 프로비저닝됩니다. 인스턴스가 준비되면 노트북 이름 옆에 녹색 체크표시가 표시됩니다.
인스턴스가 준비되면 JupyterLab 열기 를 클릭합니다. 메시지가 표시되면 인증하고 모든 권한을 사용 설정합니다.
4. 노트북에서 Spark ML로 모델 빌드
JupyterLab 인스턴스가 로드되면 런처 탭이 표시됩니다. 이 탭의 기타 에서 터미널 을 클릭하여 새 터미널을 엽니다.
터미널에서 Vertex AI 샘플 저장소를 클론합니다.
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
파일 브라우저 탭에서 vertex-ai-samples/notebooks/official/workbench/spark 로 이동합니다. spark_ml.ipynb 노트북을 더블클릭하여 엽니다. 커널을 선택하라는 메시지가 표시되면 Python (로컬) 을 선택합니다.
각 셀을 실행하면서 노트북의 단계를 살펴봅니다. 셀의 안내를 따르세요.
5. 리소스 삭제
이 Codelab을 완료한 후 GCP 계정에 불필요한 요금이 청구되지 않도록 하려면 다음 단계를 따르세요.
- Workbench 인스턴스를 삭제합니다. 콘솔에서 인스턴스 옆의 체크박스를 선택하고 삭제를 클릭합니다.
이 Codelab만을 위한 프로젝트를 생성한 경우 프로젝트를 삭제할 수도 있습니다.
- GCP 콘솔에서 프로젝트 페이지로 이동합니다.
- 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제를 클릭합니다.
- 상자에 프로젝트 ID를 입력한 후 종료를 클릭하여 프로젝트를 삭제합니다.