1. はじめに
Apache Spark のコアコンポーネントの 1 つに Spark ML があります。これは、Apache Spark エンジン上に構築された機械学習モデルとパイプラインを構築するためのライブラリです。ウェブサイトから、次のようなツールが含まれています。
- ML アルゴリズム: 分類、回帰、クラスタリング、協調フィルタリングなどの一般的な学習アルゴリズム
- 特徴量化: 特徴抽出、変換、次元削減、選択
- パイプライン: ML パイプラインの構築、評価、チューニングを行うためのツール
- 永続性: アルゴリズム、モデル、パイプラインの保存と読み込み
- ユーティリティ: 線形代数、統計、データ処理など
この Codelab では、ノートブックを使用して Spark ML モデルを作成する方法について説明します。
2. API の有効化
この Codelab では、次の API を有効にする必要があります。
この リンク をクリックして、プロジェクトでこれらの API を有効にします。プロンプトが表示されたら、正しいプロジェクトで API が有効になっていることを確認します。
3. Vertex AI Workbench インスタンスを作成して接続する
このセクションでは、Vertex AI Workbench インスタンスを作成します。次に、インスタンスに接続し、Github リポジトリのクローンを作成して、ノートブックを実行します。
Vertex AI Workbench インスタンスを作成するには、手順に沿って操作するか、以下の手順に沿って操作します。
- マネージド ノートブック コンソール ページに移動します。
- [新しいノートブック] をクリックします。
- 名前を指定し、リージョンとして us-central1(アイオワ) などを選択します。必須ではありませんが、Codelab で選択したリージョンと一致させることをおすすめします。
- [権限] で [単一ユーザーのみ] を選択します。
- [詳細設定] プルダウンを開きます。
- [セキュリティ] で [nbconvert を有効にする] と [ターミナルを有効にする] を選択します。
- [作成] をクリックします。
インスタンスのプロビジョニングには 5 分ほどかかります。インスタンスの準備が完了すると、[ノートブック名] の横に緑色のチェックマークが表示されます。
インスタンスの準備ができたら、[JUPYTERLAB を開く] をクリックします。プロンプトが表示されたら認証を行い、すべての権限を有効にします。
4. ノートブックから Spark ML でモデルを構築する
JupyterLab インスタンスが読み込まれると、[ランチャー] タブが表示されます。このタブの [その他] で [ターミナル] をクリックして、新しいターミナルを開きます。
ターミナルで、Vertex AI Samples リポジトリのクローンを作成します。
git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git
[ファイル ブラウザ] タブで、vertex-ai-samples/notebooks/official/workbench/spark に移動します。spark_ml.ipynb ノートブックをダブルクリックして開きます。カーネルを選択するよう求められたら、[Python(ローカル)] を選択します。
各セルを実行しながら、ノートブックの手順を進めます。セルの手順に沿って操作してください。
5. リソースのクリーンアップ
この Codelab の完了後に GCP アカウントに不要な料金が発生しないようにするには:
- Workbench インスタンスを削除します。コンソールで、インスタンスの横にあるチェックボックスをオンにして、[**削除**] をクリックします。
この Codelab 用にプロジェクトを作成した場合は、必要に応じてプロジェクトを削除することもできます。
- GCP Console で [プロジェクト] ページに移動します。
- プロジェクト リストで、削除するプロジェクトを選択し、[削除] をクリックします。
- ボックスにプロジェクト ID を入力し、[シャットダウン] をクリックしてプロジェクトを削除します。