プロトタイプから本番環境へ: ハイパーパラメータ調整

1. 概要

このラボでは、Vertex AI を使用して、Vertex AI Training でハイパーパラメータ調整ジョブを実行します。

このラボは、動画シリーズ「プロトタイプから本番環境へ」の一部です。このラボに進む前に、前のラボを完了してください。詳細については、関連する動画シリーズでご確認ください。

。

学習内容

次の方法を学習します。

自動でハイパーパラメータ調整を行うように、トレーニングアプリケーションのコードを変更する
Vertex AI Python SDK を使用して、ハイパーパラメータ調整ジョブを構成して起動する

このラボを Google Cloud で実行するための総費用は約 $1 です。

2. Vertex AI の概要

このラボでは、Google Cloud で利用できる最新の AI プロダクトを使用します。Vertex AI は Google Cloud 全体の ML サービスを統合してシームレスな開発エクスペリエンスを提供します。以前は、AutoML でトレーニングしたモデルやカスタムモデルには、個別のサービスを介してアクセスする必要がありました。Vertex AI は、これらの個別のサービスを他の新しいプロダクトとともに 1 つの API へと結合します。既存のプロジェクトを Vertex AI に移行することもできます。

Vertex AI には、エンドツーエンドの ML ワークフローをサポートするさまざまなプロダクトが含まれています。このラボでは、以下でハイライト表示されているプロダクト（Training と Workbench）を中心に学習します。

Vertex プロダクトの概要

3. 環境を設定する

Vertex AI を使用したカスタムモデルのトレーニングラボのステップを完了して、環境を設定します。

4. トレーニングアプリケーションコードをコンテナ化する

このトレーニングジョブを Vertex AI に送信しましょう。トレーニングアプリケーションコードを Docker コンテナに格納して、このコンテナを Google Artifact Registry に push します。この方法により、任意のフレームワークで構築されたモデルをトレーニングして調整できます。

前のラボで作成した Workbench ノートブックの Launcher メニューで、ターミナルウィンドウを開きます。

ノートブックでターミナルを開く

ステップ 1: トレーニングコードを作成する

flowers-hptune という新しいディレクトリを作成し、そのディレクトリに移動します。

mkdir flowers-hptune
cd flowers-hptune

次のコマンドを実行して、トレーニングコードのディレクトリと、以下のコードを追加する Python ファイルを作成します。

mkdir trainer
touch trainer/task.py

flowers-hptune/ ディレクトリに、次のものが作成されます。

+ trainer/
    + task.py

いま作成した task.py ファイルを開いて、次のコードをコピーします。

BUCKET_ROOT の {your-gcs-bucket} は、ラボ 1 で花のデータセットを保存した Cloud Storage バケットに置き換えます。

import tensorflow as tf
import numpy as np
import os
import hypertune
import argparse

## Replace {your-gcs-bucket} !!
BUCKET_ROOT='/gcs/{your-gcs-bucket}'

# Define variables
NUM_CLASSES = 5
EPOCHS=10
BATCH_SIZE = 32

IMG_HEIGHT = 180
IMG_WIDTH = 180

DATA_DIR = f'{BUCKET_ROOT}/flower_photos'

def get_args():
  '''Parses args. Must include all hyperparameters you want to tune.'''

  parser = argparse.ArgumentParser()
  parser.add_argument(
      '--learning_rate',
      required=True,
      type=float,
      help='learning rate')
  parser.add_argument(
      '--momentum',
      required=True,
      type=float,
      help='SGD momentum value')
  parser.add_argument(
      '--num_units',
      required=True,
      type=int,
      help='number of units in last hidden layer')
  args = parser.parse_args()
  return args

def create_datasets(data_dir, batch_size):
  '''Creates train and validation datasets.'''

  train_dataset = tf.keras.utils.image_dataset_from_directory(
    data_dir,
    validation_split=0.2,
    subset="training",
    seed=123,
    image_size=(IMG_HEIGHT, IMG_WIDTH),
    batch_size=batch_size)

  validation_dataset = tf.keras.utils.image_dataset_from_directory(
    data_dir,
    validation_split=0.2,
    subset="validation",
    seed=123,
    image_size=(IMG_HEIGHT, IMG_WIDTH),
    batch_size=batch_size)

  train_dataset = train_dataset.cache().shuffle(1000).prefetch(buffer_size=tf.data.AUTOTUNE)
  validation_dataset = validation_dataset.cache().prefetch(buffer_size=tf.data.AUTOTUNE)

  return train_dataset, validation_dataset

def create_model(num_units, learning_rate, momentum):
  '''Creates model.'''

  model = tf.keras.Sequential([
    tf.keras.layers.Resizing(IMG_HEIGHT, IMG_WIDTH),
    tf.keras.layers.Rescaling(1./255, input_shape=(IMG_HEIGHT, IMG_WIDTH, 3)),
    tf.keras.layers.Conv2D(16, 3, padding='same', activation='relu'),
    tf.keras.layers.MaxPooling2D(),
    tf.keras.layers.Conv2D(32, 3, padding='same', activation='relu'),
    tf.keras.layers.MaxPooling2D(),
    tf.keras.layers.Conv2D(64, 3, padding='same', activation='relu'),
    tf.keras.layers.MaxPooling2D(),
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(num_units, activation='relu'),
    tf.keras.layers.Dense(NUM_CLASSES, activation='softmax')
  ])

  model.compile(optimizer=tf.keras.optimizers.SGD(learning_rate=learning_rate, momentum=momentum),
              loss=tf.keras.losses.SparseCategoricalCrossentropy(),
              metrics=['accuracy'])

  return model

def main():
  args = get_args()
  train_dataset, validation_dataset = create_datasets(DATA_DIR, BATCH_SIZE)
  model = create_model(args.num_units, args.learning_rate, args.momentum)
  history = model.fit(train_dataset, validation_data=validation_dataset, epochs=EPOCHS)

  # DEFINE METRIC
  hp_metric = history.history['val_accuracy'][-1]

  hpt = hypertune.HyperTune()
  hpt.report_hyperparameter_tuning_metric(
      hyperparameter_metric_tag='accuracy',
      metric_value=hp_metric,
      global_step=EPOCHS)

if __name__ == "__main__":
    main()

コンテナをビルドする前に、コードを詳しく見ておきましょう。ハイパーパラメータ調整サービスを使用するための専用コンポーネントがいくつかあります。

このスクリプトは、hypertune ライブラリをインポートします。
関数 get_args() では、調整するハイパーパラメータごとにコマンドライン引数を定義します。この例で調整するハイパーパラメータは、学習率、オプティマイザーのモメンタム値、モデルの最終隠しレイヤのユニット数ですが、その他のパラメータの調整も自由に試してください。これらの引数に渡された値はその後、コード内で対応するハイパーパラメータを設定するために使用されます。
main() 関数の最後で、hypertune ライブラリを使用して、最適化する指標を定義します。TensorFlow では、Keras model.fit メソッドは History オブジェクトを返します。History.history 属性は、連続したエポックにおけるトレーニングの損失値と指標値の記録です。検証データを model.fit に渡した場合、History.history 属性には検証損失値と指標値も含まれます。たとえば、検証データを用いて 3 回のエポックでモデルをトレーニングし、指標として accuracy を提供した場合、History.history 属性は以下の辞書のようになります。

{
 "accuracy": [
   0.7795261740684509,
   0.9471358060836792,
   0.9870933294296265
 ],
 "loss": [
   0.6340447664260864,
   0.16712145507335663,
   0.04546636343002319
 ],
 "val_accuracy": [
   0.3795261740684509,
   0.4471358060836792,
   0.4870933294296265
 ],
 "val_loss": [
   2.044623374938965,
   4.100203514099121,
   3.0728273391723633
 ]

ハイパーパラメータ調整サービスでモデルの検証精度を最大化する値を見つけたい場合は、その指標を val_accuracy リストの最後のエントリ（または NUM_EPOCS - 1）として定義します。その後、この指標を HyperTune のインスタンスに渡します。hyperparameter_metric_tag には任意の文字列を選択できますが、ハイパーパラメータ調整ジョブを開始する際には、その文字列を再び使用する必要があります。

ステップ 2: Dockerfile を作成する

コードをコンテナ化するには、Dockerfile ファイルを作成する必要があります。Dockerfile には、イメージの実行に必要なすべてのコマンドを含めます。必要なライブラリがすべてインストールされ、トレーニングコードのエントリポイントが設定されます。

ターミナルで、flowers-hptune ディレクトリのルートに空の Dockerfile を作成します。

touch Dockerfile

flowers-hptune/ ディレクトリに、次のものが作成されます。

+ Dockerfile
+ trainer/
    + task.py

Dockerfile を開き、次の内容をコピーします。これは、最初のラボで使用した Dockerfile とほぼ同じですが、ここでは cloudml-hypertune ライブラリをインストールします。

FROM gcr.io/deeplearning-platform-release/tf2-gpu.2-8

WORKDIR /

# Installs hypertune library
RUN pip install cloudml-hypertune

# Copies the trainer code to the docker image.
COPY trainer /trainer

# Sets up the entry point to invoke the trainer.
ENTRYPOINT ["python", "-m", "trainer.task"]

ステップ 3: コンテナをビルドする

ターミナルで以下のように実行して、プロジェクトの環境変数を定義します。その際、your-cloud-project は実際のプロジェクト ID で置き換えてください。

PROJECT_ID='your-cloud-project'

Artifact Registry にリポジトリを定義します。最初のラボで作成したリポジトリを使用します。

REPO_NAME='flower-app'

Google Artifact Registry 内のコンテナイメージの URI を示す変数を定義します。

IMAGE_URI=us-central1-docker.pkg.dev/$PROJECT_ID/$REPO_NAME/flower_image_hptune:latest

Docker を構成します。

gcloud auth configure-docker \
    us-central1-docker.pkg.dev

続いて、flower-hptune ディレクトリのルートで次のように実行してコンテナをビルドします。

docker build ./ -t $IMAGE_URI

最後に、コンテナを Artifact Registry に push します。

docker push $IMAGE_URI

コンテナが Artifact Registry に push され、トレーニングジョブを開始する準備ができました。

5. SDK でハイパーパラメータ調整ジョブを実行する

このセクションでは、Vertex Python API を使用してハイパーパラメータ調整ジョブを構成し、送信する方法を学びます。

Launcher から TensorFlow 2 ノートブックを作成します。

new_notebook

Vertex AI SDK をインポートします。

from google.cloud import aiplatform
from google.cloud.aiplatform import hyperparameter_tuning as hpt

ハイパーパラメータ調整ジョブを開始するには、まずマシンタイプと Docker イメージを指定する worker_pool_specs を定義する必要があります。以下の仕様では、2 つの NVIDIA Tesla V100 GPU を搭載した 1 台のマシンを定義しています。

image_uri の {PROJECT_ID} は実際のプロジェクトに置き換えます。

# The spec of the worker pools including machine type and Docker image
# Be sure to replace PROJECT_ID in the `image_uri` with your project.

worker_pool_specs = [{
    "machine_spec": {
        "machine_type": "n1-standard-4",
        "accelerator_type": "NVIDIA_TESLA_V100",
        "accelerator_count": 1
    },
    "replica_count": 1,
    "container_spec": {
        "image_uri": "us-central1-docker.pkg.dev/{PROJECT_ID}/flower-app/flower_image_hptune:latest"
    }
}]

次に、parameter_spec を定義します。これは、最適化するパラメータを指定する辞書です。辞書のキーは、各ハイパーパラメータのコマンドライン引数に割り当てた文字列で、辞書の値はパラメータの仕様です。

各ハイパーパラメータにはタイプと調整サービスが試行する値の境界を定義する必要があります。ハイパーパラメータには、Double、Integer、Categorical、Discrete のタイプがあります。タイプに Double または Integer を選択した場合は、最小値と最大値を指定する必要があります。Categorical または Discrete を選択した場合は、値を入力する必要があります。Double タイプと Integer タイプでは、Scaling の値も必要になります。最適なスケールの選び方については、こちらの動画で詳しく紹介しています。

# Dictionary representing parameters to optimize.
# The dictionary key is the parameter_id, which is passed into your training
# job as a command line argument,
# And the dictionary value is the parameter specification of the metric.
parameter_spec = {
    "learning_rate": hpt.DoubleParameterSpec(min=0.001, max=1, scale="log"),
    "momentum": hpt.DoubleParameterSpec(min=0, max=1, scale="linear"),
    "num_units": hpt.DiscreteParameterSpec(values=[64, 128, 512], scale=None)
}

定義する最後の仕様は metric_spec です。これは最適化する指標を表す辞書です。辞書のキーはトレーニングアプリケーションのコードで設定した hyperparameter_metric_tag で、値は最適化の目標です。

# Dictionary representing metric to optimize.
# The dictionary key is the metric_id, which is reported by your training job,
# And the dictionary value is the optimization goal of the metric.
metric_spec={'accuracy':'maximize'}

spec を定義してから、CustomJob を作成します。これは、ハイパーパラメータ調整の各トライアルでジョブを実行するために使用される共通の spec です。

{YOUR_BUCKET} は、前に作成したバケットに置き換える必要があります。

# Replace YOUR_BUCKET
my_custom_job = aiplatform.CustomJob(display_name='flowers-hptune-job',
                              worker_pool_specs=worker_pool_specs,
                              staging_bucket='gs://{YOUR_BUCKET}')

次に、HyperparameterTuningJob を作成して実行します。

hp_job = aiplatform.HyperparameterTuningJob(
    display_name='flowers-hptune-job',
    custom_job=my_custom_job,
    metric_spec=metric_spec,
    parameter_spec=parameter_spec,
    max_trial_count=15,
    parallel_trial_count=3)

hp_job.run()

注意すべき引数がいくつかあります。

max_trial_count: サービスが実行するトライアルの数に上限を設ける必要があります。トライアルの回数を増やすと一般的に良い結果が得られますが、収穫逓減のポイントがあり、それ以降はトライアルの回数を増やしても最適化しようとしている指標にほとんど影響がなくなります。少ないトライアル回数から始めて、選択したハイパーパラメータの影響力を把握してから、スケールアップするのがベストプラクティスです。
parallel_trial_count: パラレルトライアルをご利用の場合、サービスは複数のトレーニング処理クラスタをプロビジョニングします。パラレルトライアルの回数を増やすと、ハイパーパラメータ調整ジョブの実行時間が短縮されますが、ジョブ全体の効果が低下する可能性がありますこれは、デフォルトの調整戦略では、過去のトライアルの結果を後続のトライアルでの値の割り当てに使用するためです。
search_algorithm: 検索アルゴリズムは、グリッド、ランダム、デフォルト（なし）のいずれかに設定できます。デフォルトのオプションは、ベイズ最適化を適用して有効なハイパーパラメータ値の領域を検索するもので、推奨されるアルゴリズムとなっています。このアルゴリズムの詳細はこちらで確認できます。

コンソールでジョブの進行状況を確認できます。

hp_job

完了すると、各トライアルの結果と最もパフォーマンスの良い値のセットを確認できます。

hp_results

お疲れさまでした

Vertex AI を使って次のことを行う方法を学びました。

自動化されたハイパーパラメータ調整ジョブを実行する

Vertex のさまざまな部分の説明については、ドキュメントをご覧ください。

6. クリーンアップ

ノートブックは、アイドル状態で 60 分が経過するとタイムアウトするように構成されています。このため、インスタンスのシャットダウンを心配する必要はありません。インスタンスを手動でシャットダウンする場合は、Console で [Vertex AI] の [ワークベンチ] セクションにある [停止] ボタンをクリックします。ノートブックを完全に削除する場合は、[削除] ボタンをクリックします。

インスタンスの停止

ストレージバケットを削除するには、Cloud コンソールのナビゲーションメニューで [ストレージ] に移動してバケットを選択し、[削除] をクリックします。

ストレージを削除