1. 소개
Kubeflow는 Kubernetes용 머신러닝 도구 모음입니다. 이 프로젝트는 Kubernetes에서 머신러닝 (ML) 워크플로 배포를 간단하고 이동성 및 확장 가능하도록 만드는 데 전념하고 있습니다. 목표는 최상의 ML용 오픈소스 시스템을 다양한 인프라에 배포할 수 있는 간단한 방법을 제공하는 것입니다. |
Kubeflow 배포는 어떤 모습인가요?
Kubeflow 배포는 다음과 같습니다.
- 이동성 - Google Cloud Platform (GCP), 온프레미스, 제공업체 간 등 모든 Kubernetes 클러스터에서 작동합니다.
- 확장 가능 - 변동하는 리소스를 활용할 수 있으며 Kubernetes 클러스터에 할당된 리소스 수에 의해서만 제한됩니다.
- 구성 가능 - 서비스 워커를 사용하여 오프라인이나 품질이 낮은 네트워크에서 작동하도록 향상됩니다.
이는 느슨하게 결합된 마이크로서비스를 단일 단위로 구성하고 노트북이나 클라우드와 같은 다양한 위치에 배포하는 방법입니다.
이 Codelab에서는 MiniKF를 사용하여 자체 Kubeflow 배포를 만들고 Jupyter 노트북 내에서 Kubeflow Pipelines 워크플로를 실행하는 방법을 안내합니다.
빌드할 항목
이 Codelab에서는 CLI 명령어나 SDK를 사용하지 않고 Kubeflow Pipelines로 복잡한 데이터 과학 파이프라인을 빌드합니다. Kubernetes 또는 Docker에 대한 지식이 없어도 됩니다. 완료되면 인프라에 다음이 포함됩니다.
- 자동으로 설치되는 MiniKF (Mini Kubeflow) VM:
- Kubernetes (Minikube 사용)
- Kubeflow
- Kale - 범용 Jupyter 노트북을 Kubeflow Pipelines 워크플로로 변환하는 도구 ( GitHub)
- 데이터 버전 관리 및 재현성을 위한 Arrikto Rok
학습할 내용
- MiniKF로 Kubeflow를 설치하는 방법
- CLI 명령어 또는 SDK를 사용하지 않고 Jupyter 노트북을 Kubeflow Pipelines로 변환하는 방법
- 노트북 내에서 버튼 클릭 한 번으로 Kubeflow Pipelines를 실행하는 방법
- 노트북 및 모든 파이프라인 단계에서 데이터의 버전을 자동으로 지정하는 방법
필요한 항목
- 소유자 권한이 있는 활성 GCP 프로젝트
Kubeflow에 중점을 둔 고급 Codelab입니다. 자세한 배경 정보와 플랫폼 소개는 Kubeflow 소개 문서를 참고하세요. 따라서 이와 관련 없는 개념과 코드 블록은 설명 없이 넘어가고 필요할 때 간단히 복사하여 붙여넣을 수 있도록 제공해 드립니다.
2. 환경 설정
GCP 프로젝트 ID 및 클러스터 이름 설정
프로젝트 ID를 찾으려면 왼쪽 상단의 햄버거 메뉴에 있는 GCP 콘솔의 홈 패널로 이동합니다. 화면이 비어 있으면 프롬프트에서 '예'를 클릭하여 대시보드를 만듭니다.
프로젝트가 아직 선택되지 않은 경우 프로젝트 선택을 클릭합니다.
프로젝트를 선택합니다. 다음이 하나만 있어야 합니다.
3. MiniKF 설치
Compute 인스턴스 만들기
GCP Marketplace에서 'MiniKF'를 검색합니다.
Arrikto에서 제공하는 MiniKF 가상 머신을 선택합니다.
Compute Engine에서 실행 버튼을 클릭하고 프로젝트를 선택합니다.
구성 및 배포 창에서 MiniKF 인스턴스의 이름을 선택하고 기본 옵션은 그대로 둡니다. 그런 다음 배포 버튼을 클릭합니다.
MiniKF 컴퓨팅 인스턴스가 부팅될 때까지 기다립니다.
MinKF에 로그인
MiniKF VM이 준비되면 SSH 버튼을 클릭하여 연결하고 로그인합니다. 화면에 표시된 안내에 따라 minikf
명령어를 실행합니다. 그러면 Minikube, Kubeflow, Rok의 배포가 시작됩니다. 완료되기까지 몇 분 정도 걸립니다.
Kubeflow에 로그인
설치가 완료되고 모든 포드가 준비되면 MiniKF 대시보드로 이동합니다. MiniKF 사용자 이름과 비밀번호를 사용하여 Kubeflow에 로그인합니다.
Chrome 사용자에게 다음 화면이 표시됩니다.
Firefox 사용자에게 표시되는 화면:
Safari 사용자에게는 다음 화면이 표시됩니다.
Rok에 로그인
Kubeflow에 로그인한 후 햄버거 아이콘을 클릭하여 왼쪽 메뉴를 엽니다. Snapshot Store로 이동하여 MiniKF 사용자 이름과 비밀번호를 사용하여 Rok에 로그인합니다.
축하합니다. GCP에 MiniKF를 배포했습니다. 이제 Notebooks를 만들고 ML 코드를 작성하고 Kubeflow Pipelines를 실행할 수 있습니다. 데이터 버전 관리 및 재현성을 위해 Rok를 사용합니다.
4. 노트북 내에서 파이프라인 실행
이 섹션에서는 타이타닉 난파선에서 살아남은 승객을 예측하는 Kaggle 대회인 타이타닉호를 실행합니다.
노트북 서버 만들기
Kubeflow 중앙 대시보드에서 Notebook Servers 링크로 이동합니다.
새 서버를 클릭합니다.
노트북 서버 이름을 지정하십시오.
다음 이미지를 선택했는지 확인하세요.
gcr.io/arrikto-public/tensorflow-1.14.0-notebook-cpu:kubecon-workshop
크기가 5GB인 새로운 빈 데이터 볼륨을 추가하고 이름을 data로 지정합니다.
실행을 클릭하여 노트북 서버를 만듭니다.
노트북 서버를 사용할 수 있게 되면 연결을 클릭하여 연결합니다.
데이터 및 노트북 다운로드
JupyterLab 방문 페이지가 새 탭에 열립니다. JupyterLab에서 새 터미널을 만듭니다.
터미널 창에서 다음 명령어를 실행하여 data 폴더로 이동하고 노트북과 실습의 나머지 부분에 사용할 데이터를 다운로드합니다.
cd data/ git clone -b kubecon-workshop https://github.com/kubeflow-kale/examples
이 저장소에는 데이터 및 주석이 달린 Notebooks가 포함된 선별된 예시가 포함되어 있습니다. 사이드바에서 data/examples/titanic-ml-dataset/
폴더로 이동하여 titanic_dataset_ml.ipynb
노트북을 엽니다.
타이타닉 챌린지의 ML 코드 살펴보기
단계별로 노트북을 실행합니다. 라이브러리가 누락되어 코드가 실패합니다.
터미널로 돌아가서 누락된 라이브러리를 설치합니다.
pip3 install --user seaborn
Refresh 아이콘을 클릭하여 노트북 커널을 다시 시작합니다.
올바른 라이브러리가 설치된 상태로 셀을 다시 실행하고 성공하는지 확인합니다.
노트북을 Kubeflow 파이프라인으로 변환
왼쪽 창에서 Kubeflow 아이콘을 클릭하여 케일을 사용 설정합니다.
셀별 종속 항목을 살펴봅니다. 여러 셀이 어떻게 단일 파이프라인 단계의 일부가 될 수 있는지와 파이프라인 단계가 이전 단계에 어떻게 종속될 수 있는지 알아보세요.
Compile and Run 버튼을 클릭합니다.
스냅샷 진행 상황을 확인합니다.
파이프라인 실행 진행 상황 보기
링크를 클릭하여 Kubeflow Pipelines UI로 이동하고 실행을 확인합니다.
완료될 때까지 기다립니다.
축하합니다. 지금까지 노트북에서 시작하여 엔드 투 엔드 Kubeflow 파이프라인을 실행했습니다.
5. 볼륨 스냅샷을 사용한 재현성
결과 검사
파이프라인에서 마지막에서 두 번째 단계 결과의 로그를 살펴보세요. 모든 예측자의 점수는 100%로 표시됩니다. 경험이 풍부한 데이터 과학자는 이를 즉시 의심해 볼 것입니다. 이는 모델이 일반화하지 않고 학습 데이터 세트에 대해 과적합함을 보여주는 좋은 지표입니다. 이는 모델에서 사용하는 데이터의 문제로 인해 발생할 수 있습니다.
이전 상태 재현
다행히 Rok은 데이터 버전을 관리하고 사용자가 Compile and Run 버튼을 클릭할 때처럼 전체 환경을 재현합니다. 이렇게 하면 데이터와 코드를 위한 타임머신을 활용할 수 있습니다. 따라서 모델 중 하나를 학습시키기 전에 파이프라인 상태를 재개하고 상황을 살펴보겠습니다. randomforest 단계를 살펴본 후 아티팩트를 클릭합니다.
마크다운의 단계를 따릅니다. 즉, 해당하는 링크를 클릭하여 Rok UI에서 스냅샷을 봅니다.
Rok URL을 복사합니다.
Notebook Servers(노트북 서버) 링크로 이동합니다.
새 서버를 클릭합니다.
이전에 복사한 Rok URL을 붙여넣고 Autofill(자동 완성) 버튼을 클릭합니다.
노트북 이름을 지정합니다.
다음 이미지를 선택했는지 확인하세요.
gcr.io/arrikto-public/tensorflow-1.14.0-notebook-cpu:kubecon-workshop
실행을 클릭하여 노트북 서버를 만듭니다.
노트북 서버를 사용할 수 있게 되면 연결을 클릭하여 연결합니다.
생성한 파이프라인 단계의 정확한 셀에서 노트북이 열립니다.
백그라운드에서 케일은 모든 라이브러리를 가져오고 이전 단계의 변수를 로드하여 노트북 상태를 재개했습니다.
이전 상태 디버그
이 셀에 인쇄 명령어를 추가합니다.
print(acc_random_forest)
Shift + Return을 눌러 활성 셀을 실행하여 랜덤 포레스트를 다시 학습시키고 점수를 출력합니다. 100입니다.
이제 학습 데이터에 이상한 점이 있는지 확인할 차례입니다. 이 문제를 살펴보고 해결하려면 이전 셀을 선택하고 더하기 아이콘 (+)을 클릭하여 랜덤 포레스트 마크다운 위에 셀을 추가합니다.
다음 텍스트를 추가하고 셀을 실행하여 학습 세트를 출력합니다.
train_df
죄송합니다. 학습 라벨('Survived')이 있는 열이 실수로 입력 특성으로 포함되었습니다. 모델은 '생존됨' 상태에 초점을 맞추도록 학습했으며 나머지는 무시하므로 입력을 오염시킵니다. 이 열은 모델의 목표와 정확히 일치하며 예측 중에는 표시되지 않으므로 모델이 다른 특성을 통해 학습할 수 있도록 학습 데이터 세트에서 열을 삭제해야 합니다.
버그 수정 추가
이 열을 삭제하려면 셀을 수정하여 다음 명령어를 추가하세요.
train_df.drop('Survived', axis=1, inplace=True) train_df
케일을 사용 설정하고 존재 라벨을 삭제하는 셀이 특성 추출 파이프라인 단계에 포함되는지 확인합니다 (윤곽선 색상이 동일해야 함).
Compile and Run(컴파일 및 실행) 버튼을 클릭하여 파이프라인을 다시 실행합니다.
링크를 클릭하여 Kubeflow Pipelines UI로 이동하고 실행을 확인합니다.
results 단계가 완료될 때까지 기다린 후 로그를 확인하여 최종 결과를 확인합니다. 이제 현실적인 예측 점수가 생겼습니다.
6. 삭제
MinKF VM 폐기
GCP 콘솔에서 Deployment Manager로 이동하여 minikf-1
배포를 삭제합니다.
7. 축하합니다
수고하셨습니다. Kubeflow (MiniKF), Kale, Rok을 사용하여 엔드 투 엔드 데이터 과학 워크플로를 성공적으로 실행했습니다.
다음 단계
Kubeflow 커뮤니티 가입:
- github.com/kubeflow
- Kubeflow Slack
- kubeflow-discuss@googlegroups.com
- 화요일에 열리는 커뮤니티 통화