Google Dataproc で Spark ML モデルを作成する

1. はじめに

Apache Spark のコア コンポーネントの 1 つは、Apache Spark エンジン上に構築された機械学習モデルとパイプラインを構築するためのライブラリである Spark ML です。ウェブサイトには、次のようなツールが含まれています。

  • ML アルゴリズム: 分類、回帰、クラスタリング、協調フィルタリングなどの一般的な学習アルゴリズム
  • 特徴化: 特徴の抽出、変換、次元削減、選択
  • パイプライン: ML パイプラインの構築、評価、チューニングを行うためのツール
  • 永続性: アルゴリズム、モデル、パイプラインの保存と読み込み
  • ユーティリティ: 線形代数、統計、データ処理など。

この Codelab では、ノートブックを使用して Spark ML モデルを作成する方法を学びます。

2. API を有効にする

この Codelab では、次の API を有効にする必要があります。

このリンクをクリックして、プロジェクトでこれらの API を有効にします。プロンプトが表示されたら、正しいプロジェクトで API が有効になることを確認します。

3. Vertex AI Workbench インスタンスを作成して接続する

このセクションでは、Vertex AI Workbench インスタンスを作成します。次に、それに接続し、GitHub リポジトリのクローンを作成して、ノートブックを実行します。

Vertex AI Workbench インスタンスを作成するには、手順に沿って操作するか、以下の手順に沿って操作します。

  1. マネージド ノートブックのコンソール ページに移動します。
  2. [新しいノートブック] をクリックします。
  3. 名前を指定し、us-central1(アイオワ)などのリージョンを選択します。これは、Codelab の前半で選択したリージョンと一致することが理想的ですが、必須ではありません。
  4. [権限] で [シングル ユーザーのみ] を選択します。
  5. [詳細設定] プルダウンを開きます。
  6. [セキュリティ] で、[nbconvert を有効にする] と [ターミナルを有効にする] を選択します。
  7. [作成] をクリックします。

インスタンスは 5 分ほどでプロビジョニングされます。インスタンスの準備が整うと、[ノートブック名] の横に緑色のチェックマークが表示されます。

インスタンスの準備ができたら、[JUPYTERLAB を開く] をクリックします。認証を求められたら認証し、すべての権限を有効にします。

4. ノートブックから Spark ML を使用してモデルを構築する

JupyterLab インスタンスが読み込まれると、[ランチャー] タブが表示されます。このタブの [その他] で [ターミナル] をクリックして、新しいターミナルを開きます。

ターミナルで、Vertex AI Samples リポジトリのクローンを作成します。

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

[ファイル ブラウザ] タブで、vertex-ai-samples/notebooks/official/workbench/spark に移動します。ノートブック spark_ml.ipynb をダブルクリックして開きます。カーネルの選択を求められたら、[Python(ローカル)] を選択します。

各セルを実行しながら、ノートブックの手順を確認します。セルの手順に沿って操作します。

5. リソースをクリーンアップする

この Codelab の完了後に GCP アカウントに不要な料金が発生しないようにするには:

  1. Workbench インスタンスを削除します。コンソールで、インスタンスの横にあるチェックボックスをオンにして、[削除] をクリックします。

この Codelab 専用のプロジェクトを作成した場合は、必要に応じてプロジェクトを削除することもできます。

  1. GCP Console で [プロジェクト] ページに移動します。
  2. プロジェクト リストで、削除するプロジェクトを選択し、[削除] をクリックします。
  3. ボックスにプロジェクト ID を入力し、[シャットダウン] をクリックしてプロジェクトを削除します。