프로토타입에서 프로덕션으로: 초매개변수 조정

1. 개요

이 실습에서는 Vertex AI를 사용하여 Vertex AI 학습에 대한 초매개변수 조정 작업을 실행합니다.

이 실습은 프로토타입에서 프로덕션으로 동영상 시리즈 중 하나이며, 이전 실습을 완료한 후에 이 실습을 진행해야 합니다. 함께 제공되는 동영상 시리즈를 시청하여 자세히 알아볼 수 있습니다.

학습 내용

다음 작업을 수행하는 방법을 배우게 됩니다.

자동 초매개변수 조정을 위한 학습 애플리케이션 코드 수정
Vertex AI Python SDK로 초매개변수 조정 작업 구성 및 실행

Google Cloud에서 이 실습을 진행하는 데 드는 총 비용은 약 $1입니다.

2. Vertex AI 소개

이 실습에서는 Google Cloud에서 제공되는 최신 AI 제품을 사용합니다. Vertex AI는 Google Cloud 전반의 ML 제품을 원활한 개발 환경으로 통합합니다. 이전에는 AutoML로 학습된 모델과 커스텀 모델은 별도의 서비스를 통해 액세스할 수 있었습니다. 새 서비스는 다른 새로운 제품과 함께 두 가지 모두를 단일 API로 결합합니다. 기존 프로젝트를 Vertex AI로 이전할 수도 있습니다.

Vertex AI에는 엔드 투 엔드 ML 워크플로를 지원하는 다양한 제품이 포함되어 있습니다. 이 실습에서는 아래에 강조 표시된 학습 및 Workbench 제품에 중점을 둡니다.

Vertex 제품 개요

3. 환경 설정

Vertex AI를 사용한 커스텀 모델 학습 실습의 단계를 완료하여 환경을 설정합니다.

4. 학습 애플리케이션 코드 컨테이너화

학습 애플리케이션 코드를 Docker 컨테이너에 넣고 이 컨테이너를 Google Artifact Registry로 푸시하여 이 학습 작업을 Vertex AI에 제출합니다. 이 방식을 사용하면 모든 프레임워크로 빌드된 모델을 학습시키고 조정할 수 있습니다.

시작하려면 이전 실습에서 만든 Workbench 노트북의 런처 메뉴에서 터미널 창을 엽니다.

노트북에서 터미널 열기

1단계: 학습 코드 작성

flowers-hptune이라는 새 디렉터리를 만들고 여기로 디렉터리를 변경합니다.

mkdir flowers-hptune
cd flowers-hptune

다음을 실행하여 학습 코드 디렉터리와 아래의 코드를 추가할 Python 파일을 만듭니다.

mkdir trainer
touch trainer/task.py

이제 flowers-hptune/ 디렉터리에 다음이 포함됩니다.

+ trainer/
    + task.py

다음으로, 방금 만든 task.py 파일을 열고 아래의 코드를 복사합니다.

BUCKET_ROOT의 {your-gcs-bucket}은 실습 1에서 flowers 데이터 세트를 저장한 Cloud Storage 버킷으로 바꿔야 합니다.

import tensorflow as tf
import numpy as np
import os
import hypertune
import argparse

## Replace {your-gcs-bucket} !!
BUCKET_ROOT='/gcs/{your-gcs-bucket}'

# Define variables
NUM_CLASSES = 5
EPOCHS=10
BATCH_SIZE = 32

IMG_HEIGHT = 180
IMG_WIDTH = 180

DATA_DIR = f'{BUCKET_ROOT}/flower_photos'

def get_args():
  '''Parses args. Must include all hyperparameters you want to tune.'''

  parser = argparse.ArgumentParser()
  parser.add_argument(
      '--learning_rate',
      required=True,
      type=float,
      help='learning rate')
  parser.add_argument(
      '--momentum',
      required=True,
      type=float,
      help='SGD momentum value')
  parser.add_argument(
      '--num_units',
      required=True,
      type=int,
      help='number of units in last hidden layer')
  args = parser.parse_args()
  return args

def create_datasets(data_dir, batch_size):
  '''Creates train and validation datasets.'''

  train_dataset = tf.keras.utils.image_dataset_from_directory(
    data_dir,
    validation_split=0.2,
    subset="training",
    seed=123,
    image_size=(IMG_HEIGHT, IMG_WIDTH),
    batch_size=batch_size)

  validation_dataset = tf.keras.utils.image_dataset_from_directory(
    data_dir,
    validation_split=0.2,
    subset="validation",
    seed=123,
    image_size=(IMG_HEIGHT, IMG_WIDTH),
    batch_size=batch_size)

  train_dataset = train_dataset.cache().shuffle(1000).prefetch(buffer_size=tf.data.AUTOTUNE)
  validation_dataset = validation_dataset.cache().prefetch(buffer_size=tf.data.AUTOTUNE)

  return train_dataset, validation_dataset

def create_model(num_units, learning_rate, momentum):
  '''Creates model.'''

  model = tf.keras.Sequential([
    tf.keras.layers.Resizing(IMG_HEIGHT, IMG_WIDTH),
    tf.keras.layers.Rescaling(1./255, input_shape=(IMG_HEIGHT, IMG_WIDTH, 3)),
    tf.keras.layers.Conv2D(16, 3, padding='same', activation='relu'),
    tf.keras.layers.MaxPooling2D(),
    tf.keras.layers.Conv2D(32, 3, padding='same', activation='relu'),
    tf.keras.layers.MaxPooling2D(),
    tf.keras.layers.Conv2D(64, 3, padding='same', activation='relu'),
    tf.keras.layers.MaxPooling2D(),
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(num_units, activation='relu'),
    tf.keras.layers.Dense(NUM_CLASSES, activation='softmax')
  ])

  model.compile(optimizer=tf.keras.optimizers.SGD(learning_rate=learning_rate, momentum=momentum),
              loss=tf.keras.losses.SparseCategoricalCrossentropy(),
              metrics=['accuracy'])

  return model

def main():
  args = get_args()
  train_dataset, validation_dataset = create_datasets(DATA_DIR, BATCH_SIZE)
  model = create_model(args.num_units, args.learning_rate, args.momentum)
  history = model.fit(train_dataset, validation_data=validation_dataset, epochs=EPOCHS)

  # DEFINE METRIC
  hp_metric = history.history['val_accuracy'][-1]

  hpt = hypertune.HyperTune()
  hpt.report_hyperparameter_tuning_metric(
      hyperparameter_metric_tag='accuracy',
      metric_value=hp_metric,
      global_step=EPOCHS)

if __name__ == "__main__":
    main()

컨테이너를 빌드하기 전에 코드를 자세히 살펴보겠습니다. 초매개변수 조정 서비스 사용과 관련된 몇 가지 구성요소가 있습니다.

스크립트가 hypertune 라이브러리를 가져옵니다.
get_args() 함수는 조정하려는 각 초매개변수의 명령줄 인수를 정의합니다. 이 예시에서 조정될 초매개변수는 학습률, 옵티마이저의 모멘텀 값, 모델의 마지막 히든 레이어의 단위 수이지만 자유롭게 실험해도 됩니다. 그런 다음 코드에서 해당 인수에 전달된 값을 사용하여 해당 초매개변수를 설정합니다.
main() 함수의 끝에서 hypertune 라이브러리를 사용하여 최적화하려는 측정항목을 정의합니다. TensorFlow에서 Keras model.fit 메서드는 History 객체를 반환합니다. History.history 속성은 연속된 에포크의 학습 손실 값 및 측정항목 값에 대한 레코드입니다. 유효성 검사 데이터를 model.fit에 전달하면 History.history 속성에 유효성 검사 손실 및 측정항목 값도 포함됩니다. 예를 들어 유효성 검사 데이터로 3개의 에포크에 대한 모델을 학습하고 accuracy를 측정항목으로 제공한 경우 History.history 속성은 다음 사전과 유사하게 나타납니다.

{
 "accuracy": [
   0.7795261740684509,
   0.9471358060836792,
   0.9870933294296265
 ],
 "loss": [
   0.6340447664260864,
   0.16712145507335663,
   0.04546636343002319
 ],
 "val_accuracy": [
   0.3795261740684509,
   0.4471358060836792,
   0.4870933294296265
 ],
 "val_loss": [
   2.044623374938965,
   4.100203514099121,
   3.0728273391723633
 ]

초매개변수 조정 서비스가 모델의 유효성 검사 정확도를 최대화하는 값을 검색하도록 하려면 측정항목을 val_accuracy 목록의 마지막 항목(또는 NUM_EPOCS - 1)으로 정의합니다. 그런 다음 이 측정항목을 HyperTune의 인스턴스에 전달합니다. hyperparameter_metric_tag에 대해 원하는 문자열을 선택할 수 있지만 나중에 초매개변수 조정 작업을 시작할 때 문자열을 다시 사용해야 합니다.

2단계: Dockerfile 만들기

코드를 컨테이너화하려면 Dockerfile을 만들어야 합니다. Dockerfile에는 이미지를 실행하는 데 필요한 모든 명령어가 포함됩니다. 필요한 모든 라이브러리를 설치하고 학습 코드의 진입점을 설정합니다.

터미널에서 flowers-hptune 디렉터리의 루트에 빈 Dockerfile을 만듭니다.

touch Dockerfile

이제 flowers-hptune/ 디렉터리에 다음이 포함됩니다.

+ Dockerfile
+ trainer/
    + task.py

Dockerfile을 열고 다음을 복사합니다. cloudml-hypertune 라이브러리를 설치한다는 점을 제외하면 첫 번째 실습에서 사용한 Dockerfile과 거의 동일하다는 것을 알 수 있습니다.

FROM gcr.io/deeplearning-platform-release/tf2-gpu.2-8

WORKDIR /

# Installs hypertune library
RUN pip install cloudml-hypertune

# Copies the trainer code to the docker image.
COPY trainer /trainer

# Sets up the entry point to invoke the trainer.
ENTRYPOINT ["python", "-m", "trainer.task"]

3단계: 컨테이너 빌드

터미널에서 다음을 실행하여 프로젝트의 env 변수를 정의하고 your-cloud-project를 프로젝트의 ID로 바꿉니다.

PROJECT_ID='your-cloud-project'

Artifact Registry에서 저장소를 정의합니다. 첫 번째 실습에서 만든 저장소를 사용합니다.

REPO_NAME='flower-app'

Google Artifact Registry에서 컨테이너 이미지의 URI로 변수를 정의합니다.

IMAGE_URI=us-central1-docker.pkg.dev/$PROJECT_ID/$REPO_NAME/flower_image_hptune:latest

Docker 구성

gcloud auth configure-docker \
    us-central1-docker.pkg.dev

그런 다음 flower-hptune 디렉터리의 루트에서 다음을 실행하여 컨테이너를 빌드합니다.

docker build ./ -t $IMAGE_URI

마지막으로 Artifact Registry로 푸시합니다.

docker push $IMAGE_URI

컨테이너가 Artifact Registry로 푸시되었으므로 이제 학습 작업을 시작할 준비가 되었습니다.

5. SDK로 초매개변수 조정 작업 실행

이 섹션에서는 Vertex Python API를 사용하여 초매개변수 조정 작업을 구성하고 제출하는 방법을 알아봅니다.

런처에서 TensorFlow 2 노트북을 만듭니다.

new_notebook

Vertex AI SDK를 가져옵니다.

from google.cloud import aiplatform
from google.cloud.aiplatform import hyperparameter_tuning as hpt

초매개변수 조정 작업을 시작하려면 먼저 머신 유형과 Docker 이미지를 지정하는 worker_pool_specs를 정의해야 합니다. 다음 사양은 NVIDIA Tesla V100 GPU 2개를 갖춘 머신 1개를 정의합니다.

image_uri의 {PROJECT_ID}를 프로젝트로 바꿔야 합니다.

# The spec of the worker pools including machine type and Docker image
# Be sure to replace PROJECT_ID in the `image_uri` with your project.

worker_pool_specs = [{
    "machine_spec": {
        "machine_type": "n1-standard-4",
        "accelerator_type": "NVIDIA_TESLA_V100",
        "accelerator_count": 1
    },
    "replica_count": 1,
    "container_spec": {
        "image_uri": "us-central1-docker.pkg.dev/{PROJECT_ID}/flower-app/flower_image_hptune:latest"
    }
}]

다음은 최적화할 매개변수를 지정하는 사전인 parameter_spec을 정의합니다. 사전 키는 각 초매개변수의 명령줄 인수에 할당한 문자열이며 사전 값은 매개변수 사양입니다.

각 초매개변수의 경우 조정 서비스에서 시도할 값의 경계와 유형을 정의해야 합니다. 초매개변수는 Double, Integer, Categorical 또는 Discrete 유형일 수 있습니다. Double 또는 Integer 유형을 선택한 경우 최솟값과 최댓값을 제공해야 합니다. Categorical 또는 Discrete을 선택한 경우 해당 값을 제공해야 합니다. Double 및 Integer 유형의 경우 확장 값도 제공해야 합니다. 최적의 조정을 선택하는 방법에 대해 자세히 알아보려면 이 동영상을 참조하세요.

# Dictionary representing parameters to optimize.
# The dictionary key is the parameter_id, which is passed into your training
# job as a command line argument,
# And the dictionary value is the parameter specification of the metric.
parameter_spec = {
    "learning_rate": hpt.DoubleParameterSpec(min=0.001, max=1, scale="log"),
    "momentum": hpt.DoubleParameterSpec(min=0, max=1, scale="linear"),
    "num_units": hpt.DiscreteParameterSpec(values=[64, 128, 512], scale=None)
}

정의할 최종 사양은 최적화할 측정항목을 나타내는 사전인 metric_spec입니다. 사전 키는 학습 애플리케이션 코드에 설정한 hyperparameter_metric_tag이며 이 값은 최적화 목표입니다.

# Dictionary representing metric to optimize.
# The dictionary key is the metric_id, which is reported by your training job,
# And the dictionary value is the optimization goal of the metric.
metric_spec={'accuracy':'maximize'}

사양이 정의되면 각 초매개변수 조정 시도에서 작업을 실행하는 데 사용되는 일반 사양인 CustomJob을 만듭니다.

{YOUR_BUCKET}을 이전에 만든 버킷으로 바꿔야 합니다.

# Replace YOUR_BUCKET
my_custom_job = aiplatform.CustomJob(display_name='flowers-hptune-job',
                              worker_pool_specs=worker_pool_specs,
                              staging_bucket='gs://{YOUR_BUCKET}')

그런 다음 HyperparameterTuningJob을 만들고 실행합니다.

hp_job = aiplatform.HyperparameterTuningJob(
    display_name='flowers-hptune-job',
    custom_job=my_custom_job,
    metric_spec=metric_spec,
    parameter_spec=parameter_spec,
    max_trial_count=15,
    parallel_trial_count=3)

hp_job.run()

다음은 주의해야 할 몇 가지 인수입니다.

max_trial_count: 서비스 실행 시도 횟수의 상한값을 설정해야 합니다. 더 많이 시도하면 일반적으로 결과가 향상되지만, 반환되는 결과가 감소하는 시점이 있습니다. 그 이후에는 추가로 시도해도 최적화할 측정항목에 거의 또는 전혀 영향을 미치지 않습니다. 시도 횟수를 늘리기 전에 선택한 초매개변수가 미치는 영향을 판별하기 위해 시도 횟수를 적게 설정하는 것이 좋습니다.
parallel_trial_count: 병렬 시도를 사용하는 경우 서비스에서 여러 학습 처리 클러스터를 프로비저닝합니다. 병렬 시도 횟수를 늘리면 초매개변수 조정 작업을 실행하는 데 걸리는 시간이 줄어듭니다. 하지만 전체적으로 작업의 효율성이 떨어질 수 있습니다. 기본 조정 전략이 이전 시도의 결과를 사용하여 후속 시도에서 값 할당을 알리기 때문입니다.
search_algorithm: 검색 알고리즘을 그리드, 무작위 또는 기본값(없음)으로 설정할 수 있습니다. 기본 옵션은 Bayesian 최적화를 적용하여 가능한 초매개변수 값의 공간을 검색하며 권장되는 알고리즘입니다. 이 알고리즘에 대한 자세한 내용은 여기에서 알아볼 수 있습니다.

콘솔에서 작업 진행 상황을 볼 수 있습니다.

hp_job