このページは Cloud Translation API によって翻訳されました。

AI Platform Notebooks でモデルをプロトタイピング

1. 概要

このラボでは、データの探索や ML モデルのプロトタイピングに使用できる AI Platform Notebooks のさまざまなツールについて説明します。

学習内容

次の方法を学習します。

AI Platform Notebooks インスタンスを作成してカスタマイズする
AI Platform Notebooks に直接統合された Git を使用してノートブックのコードを追跡する
ノートブックで What-If ツールを使用する

このラボを Google Cloud で実行するための総費用は約 $1 です。AI Platform Notebooks の料金について詳しくは、こちらをご覧ください。

2. AI Platform Notebooks インスタンスを作成する

この Codelab を実行するには、課金が有効になっている Google Cloud Platform プロジェクトが必要です。プロジェクトを作成するには、こちらの手順に沿って操作してください。

ステップ 2: Compute Engine API を有効にする

まだ有効になっていない場合は、[Compute Engine] に移動して [有効にする] を選択します。これはノートブックインスタンスを作成するために必要です。

ステップ 3: ノートブックインスタンスを作成する

Cloud コンソールの [AI Platform Notebooks] セクションに移動し、[新しいインスタンス] をクリックします。次に、最新の [TensorFlow 2 Enterprise] インスタンスタイプ（GPU なし）を選択します。

インスタンスに名前を付けるか、デフォルトを使用します。次に、カスタマイズオプションについて説明します。[カスタマイズ] ボタンをクリックします。

AI Platform Notebooks には、インスタンスがデプロイされているリージョン、イメージタイプ、マシンタイプ、GPU の数など、さまざまなカスタマイズオプションがあります。[リージョン] と [環境] にはデフォルトの値を使用します。マシン構成には n1-standard-8 マシンを使用します。

GPU は追加しません。ブートディスク、ネットワーク、権限のデフォルトを使用します。[作成] を選択してインスタンスを作成します。完了するまでに数分かかります。

インスタンスが作成されると、Notebooks UI でインスタンスの横に緑色のチェックマークが表示されます。[JupyterLab を開く] を選択してインスタンスを開き、プロトタイピングを開始します。

インスタンスを開いたら、Codelab という新しいディレクトリを作成します。このラボ全体を通してこのディレクトリを使用します。

新しく作成した codelab ディレクトリをダブルクリックして開き、ランチャーから Python 3 ノートブックを選択します。

ノートブックの名前を demo.ipynb など任意の名前に変更します。

ステップ 4: Python パッケージをインポートする

ノートブックに新しいセルを作成し、この Codelab で使用するライブラリをインポートします。

import pandas as pd
import tensorflow as tf
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense

import numpy as np
import json

from sklearn.model_selection import train_test_split
from sklearn.utils import shuffle
from google.cloud import bigquery
from witwidget.notebook.visualization import WitWidget, WitConfigBuilder

3. BigQuery データをノートブックに接続する

Google Cloud のビッグデータウェアハウスである BigQuery では、多くのデータセットが一般公開されています。AI Platform Notebooks は、認証を必要とせずに BigQuery との直接統合をサポートします。

このラボでは、出生率データセットを使用します。これには、子供の出生時体重や新生児の両親のユーザー属性情報など、米国での 40 年間にわたるほぼすべての出生に関するデータが含まれています。特徴のサブセットを使用して、新生児の出生時体重を予測します。

ステップ 1: BigQuery データをノートブックにダウンロードする

BigQuery 用の Python クライアントライブラリを使用して、データを Pandas DataFrame にダウンロードします。元のデータセットは 21 GB で、1 億 2,300 万行が含まれています。簡潔にするために、データセットの 10,000 行のみを使用します。

以下のコードを使用してクエリを作成し、結果の DataFrame をプレビューします。ここでは、元のデータセットから 4 つの特徴と、新生児の体重（モデルが予測するもの）を取得しています。データセットは何年も前のものですが、このモデルでは 2000 年以降のデータのみを使用します。

query="""
SELECT
  weight_pounds,
  is_male,
  mother_age,
  plurality,
  gestation_weeks
FROM
  publicdata.samples.natality
WHERE year > 2000
LIMIT 10000
"""
df = bigquery.Client().query(query).to_dataframe()
df.head()

データセット内の数値特徴の概要を取得するには、次のコマンドを実行します。

df.describe()

数値列の平均値、標準偏差、最小値、その他の指標が表示されます。最後に、赤ちゃんの性別を示すブール値列のデータを取得しましょう。これは、Pandas の value_counts メソッドで実行できます。

df['is_male'].value_counts()

このデータセットは性別でほぼ 50 対 50 のバランスになっているようです。

ステップ 2: トレーニング用のデータセットを準備する

データセットを Pandas DataFrame としてノートブックにダウンロードしたので、前処理を行い、トレーニングセットとテストセットに分割できます。

まず、null 値を持つ行をデータセットから削除し、データをシャッフルします。

df = df.dropna()
df = shuffle(df, random_state=2)

次に、ラベル列を別の変数に抽出し、特徴量のみを含む DataFrame を作成します。is_male はブール値であるため、モデルへのすべての入力が数値になるように整数に変換します。

labels = df['weight_pounds']
data = df.drop(columns=['weight_pounds'])
data['is_male'] = data['is_male'].astype(int)

data.head() を実行してデータセットをプレビューすると、トレーニングに使用する 4 つの特徴が表示されます。

4. git を初期化する

AI Platform Notebooks は Git と直接統合されているため、ノートブック環境内で直接バージョン管理を行うことができます。これにより、ノートブック UI で直接、または JupyterLab で利用可能なターミナルからコードを commit できます。このセクションでは、ノートブックで Git リポジトリを初期化し、UI を介して最初の commit を行います。

ステップ 1: Git リポジトリを初期化する

Codelab ディレクトリで、[Git] を選択し、JupyterLab の上部メニューバーから [Init] を選択します。

このディレクトリを Git Repo にするかどうかを尋ねられたら、[Yes] を選択します。次に、左側のサイドバーにある Git アイコンを選択し、ファイルと commit のステータスを確認します。

ステップ 2: 最初の commit を行う

この UI では、commit にファイルを追加し、ファイルの差分を確認して（これについては後ほど説明します）、変更を commit できます。まず、先ほど追加したノートブックファイルを commit します。

demo.ipynb ノートブックファイルの横にあるチェックボックスをオンにして、commit 用にステージングします（.ipynb_checkpoints/ ディレクトリは無視します）。テキストボックスに commit メッセージを入力し、チェックマークをクリックして変更を commit します。

プロンプトが表示されたら、名前とメールアドレスを入力します。次に、[履歴] タブに戻り、最初の commit を確認します。

このラボが公開されてからの更新により、スクリーンショットが実際の UI と正確に一致しない場合があります。

5. TensorFlow モデルを構築してトレーニングする

ノートブックにダウンロードした BigQuery の出生率データセットを使用して、新生児の体重を予測するモデルを構築します。このラボでは、モデル自体の精度ではなく、ノートブックツールに焦点を当てます。

ステップ 1: データをトレーニングセットとテストセットに分割する

Scikit Learn の train_test_split ユーティリティを使用して、モデルを構築する前にデータを分割します。

x,y = data,labels
x_train,x_test,y_train,y_test = train_test_split(x,y)

これで、TensorFlow モデルを構築する準備が整いました。

ステップ 2: TensorFlow モデルを構築してトレーニングする

このモデルは tf.keras Sequential model API を使用して構築します。これにより、モデルをレイヤのスタックとして定義できます。モデルを構築するために必要なコードはすべてここにあります。

model = Sequential([
    Dense(64, activation='relu', input_shape=(len(x_train.iloc[0]),)),
    Dense(32, activation='relu'),
    Dense(1)]
)

次に、モデルをトレーニングできるようにコンパイルします。ここでは、モデルのオプティマイザー、損失関数、トレーニング中にモデルが記録する指標を選択します。これは（数値を予測する）回帰モデルなので、指標として精度ではなく平均二乗誤差を使用します。

model.compile(optimizer=tf.keras.optimizers.RMSprop(),
              loss=tf.keras.losses.MeanSquaredError(),
              metrics=['mae', 'mse'])

Keras の便利な model.summary() 関数を使用して、各レイヤでモデルのトレーニング可能なパラメータの形状と数を確認できます。

これで、モデルをトレーニングする準備が整いました。あとは fit() メソッドを呼び出して、トレーニングデータとラベルを渡すだけです。ここでは、オプションの validation_split パラメータを使用します。このパラメータには、各ステップでモデルを検証するためのトレーニングデータの一部が保持されます。トレーニングと検証の損失が両方とも減少することが理想的です。ただし、この例では、モデルの品質よりもモデルとノートブックのツールを重視しています。

model.fit(x_train, y_train, epochs=10, validation_split=0.1)

ステップ 3: テストサンプルに基づいて予測を生成する

モデルのパフォーマンスを確認するために、テストデータセットの最初の 10 個のサンプルでテスト予測を生成しましょう。

num_examples = 10
predictions = model.predict(x_test[:num_examples])

次に、モデルの予測を反復処理して、実際の値と比較します。

for i in range(num_examples):
    print('Predicted val: ', predictions[i][0])
    print('Actual val: ',y_test.iloc[i])
    print()

ステップ 4: git diff を使用して変更を commit する

ノートブックに変更を加えたので、Notebooks の Git UI で利用できる git diff 機能を試してみましょう。demo.ipynb ノートブックが [Changed] に表示されます。セクションに表示されますファイル名にカーソルを合わせ、差分アイコンをクリックします。

これにより、次のように変更の差分を確認できます。

今回は、ターミナルを使用してコマンドラインから変更を commit します。JupyterLab の上部のメニューバーにある [Git] メニューから [ターミナルの Git コマンド] を選択します。以下のコマンドを実行する際に左側のサイドバーの [git] タブを開いたままにすると、Git UI に変更が反映されていることを確認できます。

新しいターミナルインスタンスで、次のコマンドを実行してノートブックファイルを commit 用にステージングします。

git add demo.ipynb

次に、次のコマンドを実行して変更を commit します（任意の commit メッセージを使用できます）。

git commit -m "Build and train TF model"

最新の commit が履歴に表示されます。

6. ノートブックから直接 What-If ツールを使用する

What-If ツールは、データセットを可視化し、ML モデルの出力をより深く理解できるように設計された、インタラクティブなビジュアルインターフェースです。Google の PAIR チームによって作成されたオープンソースツールです。あらゆるタイプのモデルに対応していますが、Cloud AI Platform 専用に構築された機能もあります。

What-If ツールは、TensorFlow を含む Cloud AI Platform Notebooks インスタンスにプリインストールされています。ここでは、これを使用してモデルの全体的なパフォーマンスを確認し、テストセットのデータポイントに対するモデルの動作を調べます。

ステップ 1: What-If ツール用のデータを準備する

What-If ツールを最大限に活用するため、テストセットの例とそれらの例の正解ラベル（y_test）を送信します。これにより、モデルが予測した内容を正解と比較できます。以下のコード行を実行して、テスト例とそのラベルを含む新しい DataFrame を作成します。

wit_data = pd.concat([x_test, y_test], axis=1)

このラボでは、ノートブックでトレーニングしたモデルに What-If ツールを接続します。そのためには、ツールがモデルにテストデータポイントを実行するときに使用する関数を作成する必要があります。

def custom_predict(examples_to_infer):
    preds = model.predict(examples_to_infer)
    return preds

ステップ 2: What-If ツールをインスタンス化する

連結されたテストデータセットと先ほど作成した正解ラベルから 500 個のサンプルを渡すことで、What-If ツールをインスタンス化します。WitConfigBuilder のインスタンスを作成してツールをセットアップし、データ、上で定義したカスタム予測関数、ターゲット（予測対象）、モデルタイプを渡します。

config_builder = (WitConfigBuilder(wit_data[:500].values.tolist(), data.columns.tolist() + ['weight_pounds'])
  .set_custom_predict_fn(custom_predict)
  .set_target_feature('weight_pounds')
  .set_model_type('regression'))
WitWidget(config_builder, height=800)

What-If ツールが読み込まれると、次のように表示されます。

X 軸は、モデルの予測された重み値 weight_pounds で分散されたテストデータポイントを示しています。

ステップ 3: What-If ツールを使用してモデルの動作を確認する

What-If ツールでできることはたくさんあります。ここでは、そのほんの一部をご紹介します。まず、データポイントエディタを見てみましょう。任意のデータポイントを選択して、その特徴を表示し、特徴値を変更できます。まず、任意のデータポイントをクリックします。

左側に、選択したデータポイントの特徴値が表示されます。また、そのデータポイントのグラウンドトゥルースラベルを、モデルによって予測された値と比較することもできます。左側のサイドバーでは、特徴値を変更してモデルの予測を再実行し、この変更がモデルに与えた影響を確認することもできます。たとえば、このデータポイントの gestation_weeks を 30 に変更するには、そのデータポイントをダブルクリックして予測を再実行します。

What-If ツールのプロットセクションのプルダウンメニューを使用すると、あらゆる種類のカスタムビジュアリゼーションを作成できます。たとえば、この 2 つのグラフにモデルの予測体重を X 軸に、母親の年齢を Y 軸に、推論誤差で色分けしたポイント（濃いほど、予測体重と実際の体重の差が大きいことを意味します）この例では、重みが減少すると、モデルの誤差がわずかに増加します。

次に、左側の [Partial Dependence Plots] ボタンにチェックを入れます。これは、各特徴量がモデルの予測にどのように影響するかを示しています。たとえば、妊娠期間が長くなると、モデルの予測新生児の体重も増加します。

What-If ツールに関するその他のアイデアについては、このセクションの冒頭に記載されているリンクを確認してください。

7. 省略可: ローカルの Git リポジトリを GitHub に接続する

最後に、ノートブックインスタンスの Git リポジトリを GitHub アカウントのリポジトリに接続する方法を学びます。この手順を行うには、GitHub アカウントが必要です。

ステップ 1: GitHub に新しいリポジトリを作成する

GitHub アカウントで、新しいリポジトリを作成します。名前と説明を入力し、公開するかどうかを決定して、[リポジトリを作成] を選択します（README で初期化する必要はありません）。次のページでは、コマンドラインから既存のリポジトリを push する手順に沿って操作します。

ターミナルウィンドウを開き、新しいリポジトリをリモートとして追加します。以下のリポジトリ URL の username を GitHub ユーザー名に置き換え、your-repo を先ほど作成したユーザー名に置き換えます。

git remote add origin git@github.com:username/your-repo.git

ステップ 2: ノートブックインスタンスで GitHub に対する認証を行う

次に、ノートブックインスタンス内から GitHub に対する認証を行う必要があります。このプロセスは、GitHub で 2 要素認証が有効になっているかどうかによって異なります。

どこから始めたらよいかわからない場合は、GitHub のドキュメントの手順に沿って SSH 認証鍵を作成してから、新しい鍵を GitHub に追加します。

ステップ 3: GitHub リポジトリが正しくリンクされていることを確認する

設定が正しく行われたことを確認するには、ターミナルで git remote -v を実行します。新しいリポジトリがリモートリポジトリとして表示されます。GitHub リポジトリの URL が表示され、ノートブックから GitHub への認証が完了したら、ノートブックインスタンスから GitHub に直接 push できます。

ローカルノートブックの Git リポジトリを新しく作成した GitHub リポジトリと同期するには、Git サイドバーの上部にあるクラウドアップロードボタンをクリックします。

GitHub リポジトリを更新すると、以前の commit を含むノートブックコードが表示されます。他のユーザーが GitHub リポジトリにアクセスできる場合、ノートブックに最新の変更を取り込む場合は、クラウドのダウンロードアイコンをクリックして変更を同期します。

Notebooks の Git UI の [履歴] タブで、ローカル commit が GitHub と同期されているかどうかを確認できます。この例では、origin/master は GitHub 上のリポジトリに対応しています。

新しい commit を行うたびに、クラウドアップロードボタンをもう一度クリックするだけで、変更内容が GitHub リポジトリに push されます。

8. お疲れさまでした。

このラボではいろいろと取り組んでくれました 👏?👏?👏?

復習として、以下の方法を学びました。

カスタマイズした AI Platform Notebooks インスタンスを作成する
そのインスタンスでローカルの Git リポジトリを初期化し、Git UI またはコマンドラインを使用して commit を追加し、ノートブックの Git UI で git の差分を表示
シンプルな TensorFlow 2 モデルを構築してトレーニングする
ノートブックインスタンス内で What-If ツールを使用する
ノートブックの Git リポジトリを GitHub の外部リポジトリに接続する

9. クリーンアップ

このノートブックを引き続き使用する場合は、未使用時にオフにすることをおすすめします。Cloud コンソールの Notebooks UI で、ノートブックを選択して [停止] を選択します。

このラボで作成したすべてのリソースを削除する場合は、ノートブックインスタンスを停止するのではなく削除します。

Cloud コンソールのナビゲーションメニューで [ストレージ] に移動し、モデルアセットを保存するために作成した両方のバケットを削除します。