Cloud Dataproc は、バッチ処理、クエリー、ストリーミング、および機械学習にオープン ソース データ ツールを活用できる Managed Spark および Hadoop サービスです。Cloud Dataproc 自動化によって、クラスタを手早く作成して、簡単に管理し、必要ないクラスタをオフにすることでコストを削減できます。管理に必要な時間とコストが減れば、ジョブとデータにより集中できるようになります。

本ラボは、https://cloud.google.com/dataproc/quickstart-console から編集されています。

学習内容

必要な環境

本チュートリアルをどのように使用しますか?

通読するだけ 通読し、演習をこなす

Google Cloud Platform サービスの使用についてのあなたの習熟度として、最も適切なものを選択してください

初心者 中級者 上級者

本セクションのステップでは、Dataproc を利用するためのプロジェクトを準備します。一度実行すれば、同じプロジェクトで Dataproc を扱う際、それらのステップを再度行う必要はありません。

自己学習環境セットアップ

Google Account (Gmail または Google Apps) をまだ持っていない場合、作成する必要があります。Google Cloud Platform コンソール (console.cloud.google.com) にサインインし、新しいプロジェクトを作成します。

すべての Google Cloud プロジェクトで一意の名前であるプロジェクト ID (上記の名前はすでに取得されているため、使用できません!) を覚えてください。以降、本コードラボでは PROJECT_ID と呼びます。

次に、Google Cloud リソースを使用するには、Developers Console で課金を有効にする必要があります。

本コードラボの実行には数ドルもかかりませんが、より多くのリソースを利用するか、実行し続けると、より多く料金がかかる場合があります (本書末尾の「クリーンアップ」セクションを参照してください)。

Google Cloud Platform の新規ユーザーは、300 ドル無料トライアルの対象となります。

画面右上のメニュー アイコンをクリックします。

ドロップダウンから [API Manager] を選択します。

検索ボックスで「Google Compute Engine」を検索します。表示された結果リストで「Google Compute Engine API」をクリックします。

Google Compute Engine ページで、[Enable] をクリックします。

それが有効になったら、矢印をクリックして戻ります。

次に、「Google Cloud Dataproc API」を検索し、それも有効にします。

Google Developer Console で、画面左上の [Menu] アイコンをクリックします。

次に、ドロップ ダウンで [Dataproc] に移動します。

クリックした後、プロジェクトにクラスタがない場合、次のように表示されます。

新規クラスタを作成するには、[Create cluster] をクリックします。

新規クラスタ作成時に設定できる多くのパラメータがあります。本チュートリアルには、2 つのワーカー ノードが含まれるデフォルト クラスタ設定で十分です。次のものも使用しましょう。

名前

gcelab

ゾーン

us-central1-c

ゾーンの詳細については、『地域及びゾーン説明書』を参照してください。

[Create] をクリックして、新規クラスタを作成します。

左のナビゲーションで [Jobs] を選択して、Dataproc のジョブ ビューに切り替えます。

[Submit job] をクリックします。

[Cluster] ドロップダウン メニューから、新しいクラスタ [gcelab] を選択します。

[Job type] ドロップダウン メニューから [Spark] を選択します。

[Jar files] フィールドに、「file:///usr/lib/spark/lib/spark-examples.jar」と入力します。

[Main class or jar] フィールドに、「org.apache.spark.examples.SparkPi」と入力します。

[Arguments] フィールドに「1000」と入力して、タスクの数を設定します。

[Submit] をクリックします。

クラスタ、タイプ、および現在のステータスとともにプロジェクトのジョブが表示される Jobs リストに、あなたのジョブが表示されます。新しいジョブは、「Running」と表示され、完了すると「Succeeded」になります。

完了したジョブの出力を確認する手順:

Jobs リストでジョブ ID をクリックします。

[Line Wrapping] を選択して、スクロールを避けます。

ジョブがパイの概算に成功したことを確認しましょう!

[Clusters] ページでクラスタをシャットダウンできます。

[Gcelab] クラスタの隣にあるチェックボックスを選択します。

次に、[Delete] をクリックします。

Dataproc クラスタを作成して、Spark ジョブを送信し、クラスタをシャットダウンする方法について学びました!

参考

ライセンス

本書は、Creative Commons Attribution 3.0 Generic License および Apache 2.0 license でライセンスされています。