この Codelab について
1. はじめに
Apache Spark のコア コンポーネントの一つに Spark ML があります。これは、Apache Spark エンジン上に構築された ML モデルやパイプラインを構築するためのライブラリです。この Web サイトには、次のようなツールが含まれています。
- ML アルゴリズム: 分類、回帰、クラスタリング、協調フィルタリングなどの一般的な学習アルゴリズム
- 特徴量化: 特徴量の抽出、変換、次元削減、選択
- パイプライン: ML パイプラインを構築、評価、チューニングするためのツール
- 永続性: アルゴリズム、モデル、パイプラインの保存と読み込み
- ユーティリティ: 線形代数、統計、データ処理など
この Codelab では、ノートブックを使用して Spark ML モデルを作成する方法を学びます。
3. Vertex AI Workbench インスタンスを作成して接続する
このセクションでは、Vertex AI Workbench インスタンスを作成します。その後、そのリポジトリに接続し、GitHub リポジトリのクローンを作成してノートブックを実行します。
Vertex AI Workbench インスタンスを作成するには、手順または以下の手順を行います。
- [マネージド ノートブック] コンソール ページに移動
- [新しいノートブック] をクリックします。
- 名前を指定し、リージョン(us-central1(アイオワ)など)を選択します。必須ではありませんが、この Codelab で前に選択したリージョンと一致させるのが理想的です。
- [権限] で [シングル ユーザーのみ] を選択します。
- [詳細設定] プルダウンを開きます。
- [セキュリティ] で、[nbconvert を有効にする] と [ターミナルを有効にする] を選択します。
- [作成] をクリックします。
インスタンスは約 5 分以内にプロビジョニングされます。インスタンスの準備が整うと、[ノートブック名] の横に緑色のチェックマークが表示されます。
インスタンスの準備ができたら、[JUPYTERLAB を開く] をクリックします。認証を求められたら認証を行い、すべての権限を有効にします。
4. ノートブックから Spark ML を使用してモデルを構築する
JupyterLab インスタンスが読み込まれると、[Launcher] タブが表示されます。このタブの [その他] で、[ターミナル] をクリックして新しいターミナルを開きます。
ターミナルで、Vertex AI サンプル リポジトリのクローンを作成します。
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
[ファイル ブラウザ] タブで、vertex-ai-samples/notebooks/canonical/workbench/spark に移動します。spark_ml.ipynb ノートブックをダブルクリックして開きます。カーネルを選択するように求められたら、[Python (local)] を選択します。
各セルを実行して、ノートブックの手順を進めてください。セル内の指示に沿って操作します。
5. リソースのクリーンアップ
この Codelab の完了後に GCP アカウントに不要な料金が発生しないようにするには:
- Workbench インスタンスを削除します。コンソールで、インスタンスの横にあるチェックボックスをオンにして、[削除] をクリックします。
この Codelab 専用のプロジェクトを作成した場合は、必要に応じてプロジェクトを削除することもできます。
- GCP Console でプロジェクト ページに移動します。
- プロジェクト リストで、削除するプロジェクトを選択し、[削除] をクリックします。
- ボックスにプロジェクト ID を入力し、[シャットダウン] をクリックしてプロジェクトを削除します。