Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Apache Iceberg と BigLake を使用して AI 用の統合データレイクハウスを構築する

1. はじめに

この Codelab では、Google Cloud の統合データレイクハウスの機能について説明します。BigLake の Apache Iceberg REST カタログを介して提供される公開データセットを操作し、構造化データと非構造化データの両方に Google Cloud の AI 機能を適用します。

Apache Iceberg を使用して従来の NYC Taxi データセットをクエリし、タイムトラベルでデータ変更を監査します。次に、BigQuery ML と Gemini を使用して、データに対して AI モデルを実行します。

演習内容

Apache Spark 向け Google Cloud Serverless を使用して、BigLake でホストされている Apache Iceberg 公開データセットをクエリします。
Apache Iceberg 形式の構造化データにクエリを実行します。
Apache Iceberg でのタイムトラベルをデモンストレートします。
BigQuery ML を使用して、構造化データで予測モデルをトレーニングします。
BigLake オブジェクトテーブル（非構造化データ）を作成し、Gemini を使用して画像を分析します。

必要なもの

ウェブブラウザ（Chrome など）。
課金を有効にした Google Cloud プロジェクト

推定費用と期間

所要時間: 約 45 分。
推定費用: $2.00 未満。一般公開データセットとサーバーレスクエリを使用して、費用を抑えています。

2. 設定と要件

このステップでは、環境を準備し、必要な API を有効にします。

Cloud Shell の起動

ほとんどのコマンドは Google Cloud Shell から実行します。

Google Cloud コンソールの上部にある [Cloud Shell をアクティブにする] をクリックします。
認証を確認します。
```
gcloud auth list
```
プロジェクトを確認します。
```
gcloud config get project
```
プロジェクトが設定されていない場合は、プロジェクト ID を使用して設定します。
```
gcloud config set project <YOUR_PROJECT_ID>
```

API を有効にする

次のコマンドを実行して、BigQuery、Cloud Resource Manager、Vertex AI に必要な API を有効にします。

gcloud services enable \
  bigquery.googleapis.com \
  aiplatform.googleapis.com \
  cloudresourcemanager.googleapis.com

環境を構成して依存関係バケットを作成する

ターミナルで環境変数を設定します。

export PROJECT_ID=$(gcloud config get project)
export REGION=us-central1
export DEPS_BUCKET=$PROJECT_ID-deps-bucket

依存関係の Cloud Storage バケットを作成します。PySpark スクリプトは、ジョブの送信時にここにアップロードされます。
```
gcloud storage buckets create gs://$DEPS_BUCKET --location=$REGION
```

3. Apache Iceberg パブリックカタログに接続する

このステップでは、Google Cloud の BigLake でホストされている本番環境グレードの Apache Iceberg カタログに接続します。

Apache Spark Batch CLI 向け Serverless で Spark SQL を実行する

Apache Spark 用 Google Cloud Serverless を使用して、インフラストラクチャを管理することなく PySpark ジョブを実行します。一般公開の BigLake REST カタログを参照するように構成します。

BigLake REST カタログのプロパティを定義して、繰り返しを回避します。この構成は、Spark に次のことを伝えます。

iceberg-spark-runtime ライブラリと iceberg-gcp-bundle ライブラリを使用する。
BigLake REST カタログエンドポイントを使用して my_catalog という名前のカタログを構成する。
デフォルトのローカルファイルシステムではなく、Google Cloud Storage（GCS）を使用してデータファイルを読み取る。
この my_catalog カタログをセッションのデフォルトとして設定します。
セキュリティを強化し、データアクセスを簡素化するために、ベンダーの認証情報を使用します。

export METASTORE_PROPERTIES="^|^spark.jars.packages=org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.10.0,org.apache.iceberg:iceberg-gcp-bundle:1.10.0|\
spark.sql.catalog.my_catalog=org.apache.iceberg.spark.SparkCatalog|\
spark.sql.catalog.my_catalog.type=rest|\
spark.sql.catalog.my_catalog.uri=https://biglake.googleapis.com/iceberg/v1/restcatalog|\
spark.sql.catalog.my_catalog.warehouse=gs://biglake-public-nyc-taxi-iceberg|\
spark.sql.catalog.my_catalog.io-impl=org.apache.iceberg.gcp.gcs.GCSFileIO|\
spark.sql.catalog.my_catalog.header.x-goog-user-project=$PROJECT_ID|\
spark.sql.catalog.my_catalog.header.X-Iceberg-Access-Delegation=vended-credentials|\
spark.sql.catalog.my_catalog.rest.auth.type=org.apache.iceberg.gcp.auth.GoogleAuthManager|\
spark.sql.defaultCatalog=my_catalog|\
spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions|\
spark.log.level=ERROR"

簡単なテストクエリファイルを作成します。

cat <<EOF > test.py
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

spark.sql("SHOW TABLES IN public_data").show()
EOF

バッチジョブを送信します。

gcloud dataproc batches submit pyspark \
  --project=$PROJECT_ID \
  --region=$REGION \
  --version=2.3 \
  --properties="$METASTORE_PROPERTIES" \
  --deps-bucket=gs://$DEPS_BUCKET \
  test.py

バッチジョブが完了するまで数分待ちます。ジョブが完了すると、次のような出力が表示されます。

+-----------+----------------+-----------+
|  namespace|       tableName|isTemporary|
+-----------+----------------+-----------+
|public_data|     nyc_taxicab|      false|
|public_data|nyc_taxicab_2021|      false|
+-----------+----------------+-----------+

4. 構造化された Iceberg データにクエリを実行する

接続すると、データセットへの完全な SQL アクセス権が付与されます。Iceberg テーブルとしてモデル化された NYC Taxi データセットに対してクエリを実行します。

標準集計クエリを実行する

query.py という名前のファイルを作成します。

cat <<EOF > query.py
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

query = """
SELECT
  passenger_count,
  COUNT(1) AS num_trips,
  ROUND(AVG(total_amount), 2) AS avg_fare,
  ROUND(AVG(trip_distance), 2) AS avg_distance
FROM public_data.nyc_taxicab
WHERE data_file_year = 2021 AND passenger_count > 0
GROUP BY passenger_count
ORDER BY num_trips DESC
"""

spark.sql(query).show()
EOF

Serverless for Apache Spark を使用して送信します。

gcloud dataproc batches submit pyspark \
  --project=$PROJECT_ID \
  --region=$REGION \
  --version=2.3 \
  --properties="$METASTORE_PROPERTIES" \
  --deps-bucket=gs://$DEPS_BUCKET \
  query.py

バッチジョブが完了するまで数分待ちます。

ジョブが完了すると、次のような出力が表示されます。

+---------------+---------+--------+------------+
|passenger_count|num_trips|avg_fare|avg_distance|
+---------------+---------+--------+------------+
|              1| 21508009|   18.82|        3.03|
|              2|  4424746|   20.22|        3.40|
|              3|  1164846|   19.84|        3.27|
|              5|   718282|   18.88|        3.07|
|              4|   466485|   20.61|        3.44|
|              6|   452467|   18.97|        3.11|
|              7|       78|   65.24|        3.71|
|              8|       49|   57.39|        5.88|
|              9|       35|   73.26|        6.20|
|             96|        1|   17.00|        2.00|
|            112|        1|   15.00|        2.00|
+---------------+---------+--------+------------+

ここで Apache Iceberg を使用する理由

パーティションプルーニング: クエリは data_file_year = 2021 でフィルタします。Iceberg を使用すると、エンジンは他の年のデータのスキャンを完全にスキップできます。
エンジンの俊敏性: データをコピーせずに、Spark、Trino、BigQuery で実行できます。

5. Apache Iceberg のタイムトラベル

Iceberg の最も強力な機能の一つは、タイムトラベルです。これにより、過去のバージョンまたはスナップショットに存在していたデータに対してクエリを実行できます。

テーブルの履歴を表示する

history.py という名前のファイルを作成します。

cat <<EOF > history.py
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

spark.sql("SELECT * FROM public_data.nyc_taxicab.history").show()
EOF

送信します。

gcloud dataproc batches submit pyspark \
  --project=$PROJECT_ID \
  --region=$REGION \
  --version=2.3 \
  --properties="$METASTORE_PROPERTIES" \
  --deps-bucket=gs://$DEPS_BUCKET \
  history.py

コンソールに次のような出力が表示されます。

+--------------------+-------------------+-------------------+-------------------+
|     made_current_at|        snapshot_id|          parent_id|is_current_ancestor|
+--------------------+-------------------+-------------------+-------------------+
|2026-01-07 21:32:...|6333415779680505547|               NULL|               true|
|2026-01-07 21:34:...|1840345522877675925|6333415779680505547|               true|
|2026-01-07 21:36:...|7203554539964460256|1840345522877675925|               true|
|2026-01-07 21:38:...|4573466015237516024|7203554539964460256|               true|
|2026-01-07 21:40:...|3353190952148867790|4573466015237516024|               true|
|2026-01-07 21:42:...|1335547378580631681|3353190952148867790|               true|
|2026-01-07 21:44:...|8203141258229894239|1335547378580631681|               true|
|2026-01-07 21:46:...|1597048231706307813|8203141258229894239|               true|
|2026-01-07 21:48:...|6247811509231462655|1597048231706307813|               true|
|2026-01-07 21:50:...|2527184310045633322|6247811509231462655|               true|
|2026-01-07 21:52:...|2512764101237223642|2527184310045633322|               true|
|2026-01-07 21:52:...|7045957533358062548|2512764101237223642|               true|
|2026-01-07 21:53:...| 531753237516076726|7045957533358062548|               true|
|2026-01-07 21:53:...|4184653573199718274| 531753237516076726|               true|
|2026-01-07 21:54:...|5125223829492177301|4184653573199718274|               true|
|2026-01-07 21:54:...|6844673237417600305|5125223829492177301|               true|
|2026-01-07 21:54:...|6634828203344518093|6844673237417600305|               true|
|2026-01-07 21:55:...|7637728273407236194|6634828203344518093|               true|
|2026-01-07 21:55:...|3424071684958740192|7637728273407236194|               true|
|2026-01-07 21:55:...|1743746294196424254|3424071684958740192|               true|
+--------------------+-------------------+-------------------+-------------------+

さまざまなスナップショット ID と、それらがコミットされた日時を表す行が表示されます。

現在の行数と過去の行数を比較する

timetravel.py という名前のファイルを作成します。

cat <<EOF > timetravel.py
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

query = """
SELECT 'Current State' AS version, COUNT(*) AS count FROM public_data.nyc_taxicab
UNION ALL
SELECT 'Past State' AS version, COUNT(*) AS count FROM public_data.nyc_taxicab VERSION AS OF 4573466015237516024
"""

spark.sql(query).show()
EOF

送信します。

gcloud dataproc batches submit pyspark \
  --project=$PROJECT_ID \
  --region=$REGION \
  --version=2.3 \
  --properties="$METASTORE_PROPERTIES" \
  --deps-bucket=gs://$DEPS_BUCKET \
  timetravel.py

コンソールに次のような出力が表示されます。

+-------------+----------+
|      version|     count|
+-------------+----------+
|Current State|1293069366|
|   Past State|  72878594|
+-------------+----------+

これにより、経時的なデータ変更を監査できます。

6. BigQuery ML を使用した構造化 AI

Iceberg データを探索したので、BigQuery AI の機能を使用してみましょう。一般公開の Iceberg カタログは読み取り専用であるため、BigQuery を使用して一般公開テーブルから読み取り、ワークスペースでモデルをトレーニングできます。

ローカルデータセットを作成する

まず、bq CLI を使用して、AI モデルを格納するデータセットをプロジェクトに作成します。

bq mk --location=$REGION --project_id=$PROJECT_ID iceberg_ai

線形回帰モデルをトレーニングする

次に、一般公開の BigLake Iceberg テーブルを使用して線形回帰モデルをトレーニングします。

クエリファイルを作成し、bq query を使用してモデルをトレーニングします。

cat <<'EOF' > train_model.sql
CREATE OR REPLACE MODEL `iceberg_ai.predict_fare`
OPTIONS(model_type='LINEAR_REG', input_label_cols=['fare_amount']) AS
SELECT fare_amount, passenger_count, CAST(trip_distance AS FLOAT64) AS trip_distance
FROM `bigquery-public-data`.`biglake-public-nyc-taxi-iceberg`.public_data.nyc_taxicab
WHERE fare_amount > 0 AND trip_distance > 0 AND RAND() < 0.01; -- Using 1% of data to downsample
EOF

bq query --location=$REGION --use_legacy_sql=false < train_model.sql

モデルを使用して予測する

モデルのトレーニングが完了したので、ML.PREDICT を使用して新しい乗車料金を予測できます。

クエリファイルを作成し、bq query を使用して予測を実行します。

cat <<'EOF' > predict_fare.sql
SELECT
  predicted_fare_amount, passenger_count, trip_distance
FROM
  ML.PREDICT(MODEL `iceberg_ai.predict_fare`,
    (
    SELECT 2 AS passenger_count, 5.0 AS trip_distance
    )
  );
EOF

bq query --location=$REGION --use_legacy_sql=false < predict_fare.sql

出力は次のようになります。

+-----------------------+-----------------+---------------+
| predicted_fare_amount | passenger_count | trip_distance |
+-----------------------+-----------------+---------------+
|     14.12252095150709 |               2 |           5.0 |
+-----------------------+-----------------+---------------+

7. BigLake を使用した非構造化 AI

データは行と列だけではありません。統合データレイクハウスは、非構造化データ（画像、PDF）も処理します。オブジェクトテーブルとオブジェクト参照を使用して、非構造化データをクエリしてみましょう。

オブジェクトテーブルは、Cloud Storage パス内のオブジェクトを一覧表示する BigQuery の読み取り専用外部テーブルです。各行はファイルを表し、uri、size などのメタデータの列と、ObjectRef を含む特別な ref 列があります。

オブジェクト参照（ObjectRef）は、単一ファイルの実際のデータを指します。最新の BigQuery ML 関数（AI.GENERATE や AI.AGG など）は、ObjectRef を使用してファイルコンテンツ（画像、音声、テキスト）を読み取り、標準テーブルにバイトを読み込まずに分析します。

非構造化 AI のデータセットを作成する

まず、US マルチリージョンの bq CLI を使用して、オブジェクトテーブルを保存する 2 つ目のデータセットをプロジェクトに作成します。

bq mk --location=US --project_id=$PROJECT_ID iceberg_object_ai

外部接続を作成する

BigQuery から Cloud Storage に保存されているデータ（オブジェクトテーブルと非構造化データの両方）をクエリするには、外部接続を作成する必要があります。

Cloud Shell で次のコマンドを実行して、Cloud リソース接続を作成します。

bq mk --connection --project_id=$PROJECT_ID --location=US --connection_type=CLOUD_RESOURCE my-conn

接続用に作成されたサービスアカウント ID を見つけます。

CONNECTION_SA=$(bq show --format=json --project_id=$PROJECT_ID --connection $PROJECT_ID.us.my-conn | jq -r '.serviceAccountId // .cloudResource.serviceAccountId')

サービスアカウントに Vertex AI ユーザーと Storage オブジェクト閲覧者のロールを付与して、Gemini モデルを呼び出し、GCS データを読み取れるようにします。

gcloud projects add-iam-policy-binding $PROJECT_ID \
  --member="serviceAccount:$CONNECTION_SA" \
  --role="roles/aiplatform.user"

gcloud projects add-iam-policy-binding $PROJECT_ID \
  --member="serviceAccount:$CONNECTION_SA" \
  --role="roles/storage.objectViewer"

オブジェクトテーブルの作成

前のセクションで作成した外部接続 my-conn を使用して、非構造化データにアクセスします。クエリファイルを作成し、bq query を使用してオブジェクトテーブルを作成します。

cat <<'EOF' > create_object_table.sql
CREATE EXTERNAL TABLE `iceberg_object_ai.sample_images`
WITH CONNECTION `us.my-conn`
OPTIONS (
  object_metadata = 'SIMPLE',
  uris = ['gs://cloud-samples-data/vision/landmark/*']
);
EOF

bq query --use_legacy_sql=false < create_object_table.sql

オブジェクトデータで Gemini を使用する

Gemini を使用してクエリを実行し、画像をダウンロードせずに評価します。

bq query を介して標準 SQL を使用して画像をクエリします。

cat <<EOF > query_images.sql
SELECT
  uri,
  image_analysis.description
FROM (
  SELECT
    uri,
    AI.GENERATE(
      (
        'Identify what is happening in the image.',
        ref
      ),
      connection_id => 'us.my-conn',
      endpoint => 'gemini-2.5-flash-lite',
      output_schema => 'event STRING, severity STRING, description STRING'
    ) AS image_analysis
  FROM
    iceberg_object_ai.sample_images
);
EOF

bq query --use_legacy_sql=false < query_images.sql

出力例:

+----------------------------------------------------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|                           uri                            |                                                                                                                                                                                                                             description                                                                                                                                                                                                                             |
+----------------------------------------------------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| gs://cloud-samples-data/vision/landmark/eiffel_tower.jpg | The Eiffel Tower stands tall against a cloudy sky, overlooking the Seine River in Paris. Boats are docked along the riverbank, and trees line the opposite shore, with bridges and buildings visible in the distance.                                                                                                                                                                                                                                               |
| gs://cloud-samples-data/vision/landmark/pofa.jpg         | A wide shot shows the Palace of Fine Arts, a monumental structure in San Francisco, California. The building features a large rotunda with a dome, surrounded by colonnades. In front of the rotunda is a lagoon. Several people are walking around the grounds. The sky is blue with a few scattered clouds.                                                                                                                                                       |
| gs://cloud-samples-data/vision/landmark/st_basils.jpeg   | A monument stands in front of Saint Basil's Cathedral in Moscow under a bright blue sky with scattered white clouds. The cathedral features distinctive onion domes in various colors and patterns, including red, blue and white stripes, green and beige stripes, and red and blue diamonds. A large green tree partially obscures the left side of the cathedral. People are visible in the foreground near the base of the monument and the cathedral entrance. |
+----------------------------------------------------------+---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+

ObjectRef を直接探索する: 感情分析

オブジェクトテーブルはファイル参照を自動的に管理しますが、BigQuery のオブジェクト参照を使用してこれらのオブジェクトを直接操作し、単一のファイルに対してオンザフライ分析を実行できます。

たとえば、独自の GCS バケットに保存されている小さなテキストファイル（前に作成した $DEPS_BUCKET 変数を使用）を使用して、bq query で OBJ.MAKE_REF を使用して分析できます。

まず、小さなテキストファイルを作成してバケットにアップロードします。

cat <<'EOF' > review.txt
This product is fantastic! It exceeded my expectations. The quality is top-notch. I highly recommend it to everyone!
EOF

gcloud storage cp review.txt gs://${DEPS_BUCKET}/review.txt

次に、標準 SQL 内で OBJ.MAKE_REF を使用してファイルにクエリを実行します。

cat <<EOF > sentiment_analysis.sql
SELECT
  AI.GENERATE(
    (
      'Analyze the sentiment of this text file. Is it positive, negative, or neutral? Explain why.',
      OBJ.MAKE_REF('gs://${DEPS_BUCKET}/review.txt', 'us.my-conn')
    ),
    connection_id => 'us.my-conn',
    endpoint => 'gemini-2.5-flash-lite'
  ).result AS ml_generate_text_result;
EOF

bq query --use_legacy_sql=false < sentiment_analysis.sql

出力例:

+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
|                                                                                 ml_generate_text_result                                                                                  |
+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| This text file has a **strongly positive** sentiment.                                                                                                                                    |
|                                                                                                                                                                                          |
| Here's why:                                                                                                                                                                              |
|                                                                                                                                                                                          |
| *   **Positive Keywords:** The text is filled with unequivocally positive words and phrases:                                                                                             |
|     *   "fantastic"                                                                                                                                                                      |
|     *   "exceeded my expectations"                                                                                                                                                       |
|     *   "top-notch"                                                                                                                                                                      |
|     *   "highly recommend"                                                                                                                                                               |
|                                                                                                                                                                                          |
| *   **Enthusiastic Language:** The use of exclamation marks ("!") further amplifies the positive tone, indicating excitement and strong approval.                                        |
|                                                                                                                                                                                          |
| *   **Lack of Negative or Neutral Elements:** There are no words, phrases, or implications that suggest any dissatisfaction, criticism, or even indifference.                            |
|                                                                                                                                                                                          |
| In summary, the author's language is enthusiastic and uses multiple strong positive descriptors, leaving no room for doubt that their opinion of the product is overwhelmingly positive. |
+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+

8. クリーンアップ

Google Cloud アカウントに継続的に課金されないようにするには、この Codelab で作成したリソースを削除します。

データセットと接続を削除する

Cloud Shell で次のコマンドを実行して、データセットと接続を削除します。

bq rm -r -f --location=$REGION iceberg_ai
bq rm -r -f --location=US iceberg_object_ai
bq rm --connection $PROJECT_ID.US.my-conn

GCS バケットとローカルファイルを削除する

GCS バケットとローカルファイルをクリーンアップします。

# Delete GCS buckets
PROJECT_NUMBER=$(gcloud projects describe $PROJECT_ID --format="value(projectNumber)")
gcloud storage rm -r gs://dataproc-temp-${REGION}-${PROJECT_NUMBER}-*
gcloud storage rm -r gs://dataproc-staging-${REGION}-${PROJECT_NUMBER}-*
gcloud storage rm -r gs://${DEPS_BUCKET}

# Delete local files
rm -f train_model.sql predict_fare.sql create_object_table.sql query_images.sql sentiment_analysis.sql test.py query.py history.py timetravel.py review.txt

このラボ専用に作成した場合は、プロジェクト全体を削除することもできます。

9. 完了

おめでとうございます！Apache Iceberg、BigLake、BigQuery AI を使用して、統合データレイクハウスを構築できました。

学習した内容

パブリック Apache Iceberg REST カタログに接続してクエリを実行する方法。
Iceberg のタイムトラベルを使用して、データセットのバージョンを監査します。
構造化データに対する BigQuery ML モデルのトレーニング。
オブジェクトテーブルと ObjectRef を使用して非構造化データ（画像）を接続する。
BigQuery SQL で Gemini を直接使用して画像を分析する。