Transformación de datos sin servidores con Apache Spark en notebooks de BigQuery Studio

1. Introducción

En este codelab, aprenderás a aprovechar la potencia de Apache Spark para la transformación de datos dentro de la interfaz familiar de BigQuery Studio. Leerás datos de BigQuery, realizarás la limpieza y transformación de datos con PySpark, y escribirás los resultados en una nueva tabla de BigQuery, todo desde un solo notebook.

En el codelab, seguirás un enfoque paso a paso de la siguiente manera:

  1. Prepara tu proyecto de Google Cloud y habilita todas las APIs necesarias en él
  2. Crea un bucket de GCS para la carpeta temporal
  3. Importa las bibliotecas necesarias para ejecutar Apache Spark
  4. Inicializa la sesión de Spark con el conector de BigQuery
  5. Lee datos de muestra de Google Analytics desde el conjunto de datos públicos de BigQuery
  6. Transformar los datos con datos agregados por navegador del dispositivo (métricas básicas)
  7. Realiza la transformación de datos con el análisis de la fuente de tráfico y los cálculos de ingresos
  8. Transforma los datos con el análisis geográfico
  9. Escribe datos después de la transformación en la tabla de BigQuery

Descripción general de la arquitectura

186f332da87c2ef3.png

Requisitos previos

  • Un proyecto de Google Cloud Platform (GCP) con facturación habilitada
  • La API de BigQuery y la API de BigQuery Connection habilitadas en tu proyecto de GCP
  • Conocimientos básicos de SQL y Python

Qué aprenderás

  • Cómo extraer datos con Apache Spark en el notebook de BigQuery Studio
  • Cómo transformar o agregar datos con Apache Spark en el notebook de BigQuery Studio
  • Cómo escribir datos después de transformarlos o agregarlos con Apache Spark en el notebook de BigQuery Studio

Requisitos

  • Navegador web Chrome
  • Una cuenta de Gmail
  • Un proyecto de Cloud con la facturación habilitada

2. Configuración básica y requisitos

Configuración del entorno de autoaprendizaje

  1. Accede a Google Cloud Console y crea un proyecto nuevo o reutiliza uno existente. Si aún no tienes una cuenta de Gmail o de Google Workspace, debes crear una.

fbef9caa1602edd0.png

97bdebccea2ba4be.png

5e3ff691252acf41.png

  • El nombre del proyecto es el nombre visible de los participantes de este proyecto. Es una cadena de caracteres que no se utiliza en las APIs de Google. Puedes actualizarla cuando quieras.
  • El ID del proyecto es único en todos los proyectos de Google Cloud y es inmutable (no se puede cambiar después de configurarlo). La consola de Cloud genera automáticamente una cadena única. Por lo general, no importa cuál sea. En la mayoría de los codelabs, deberás hacer referencia al ID de tu proyecto (suele identificarse como PROJECT_ID). Si no te gusta el ID que se generó, podrías generar otro aleatorio. También puedes probar uno propio y ver si está disponible. No se puede cambiar después de este paso y se usa el mismo durante todo el proyecto.
  • Recuerda que hay un tercer valor, un número de proyecto, que usan algunas APIs. Obtén más información sobre estos tres valores en la documentación.
  1. A continuación, deberás habilitar la facturación en la consola de Cloud para usar las APIs o los recursos de Cloud. Ejecutar este codelab no costará mucho, tal vez nada. Para cerrar recursos y evitar que se generen cobros más allá de este instructivo, puedes borrar los recursos que creaste o borrar el proyecto. Los usuarios nuevos de Google Cloud son aptos para participar en el programa Prueba gratuita de $300.

3. Antes de comenzar

Habilitar API

Antes de usar los notebooks de BigQuery Studio, debemos habilitar las siguientes APIs:

  • La API de Compute Engine
  • La API de Dataform
  • La API de Vertex AI

Para habilitar manualmente, ve a BigQuery. En la barra de pestañas del panel del editor, haz clic en la flecha desplegable junto al signo +, mantén el puntero sobre Notebook y, luego, selecciona Plantilla de BigQuery, Notebook vacío o Plantilla de Spark.

2073fec24366e7c4.png

En la ventana Enable Core feature API, haz clic en Enable en BigQuery Unified API.

44dc4e398b4e8fb5.png

Cuando termines, habilita la opción y, luego, haz clic en Cerrar. Consulta Habilita BigQuery Studio para la administración de recursos para obtener más detalles.

4. Cómo leer un conjunto de datos públicos

Primero, crearemos un bucket de GCS para uso temporal y, así, poder ejecutar Spark en los notebooks de BigQuery Studio.

  1. En la consola de Google Cloud, navega a BigQuery.
  2. En la barra de pestañas del panel del editor, haz clic en la flecha desplegable junto al signo +, mantén el puntero sobre Notebook y, luego, selecciona Empty Notebook.dc05f38b85ba6844.png
  3. Haz clic en la celda de código y, luego, escribe la siguiente secuencia de comandos de la CLI para crear el bucket de GCS. Luego, haz clic en el botón Ejecutar celda o presiona Mayúsculas + Intro.
!gsutil mb -p <your_project_id> -c STANDARD -l US gs://ioxid2025-<your_project_id>

Actualiza los valores de <your_project_id> según lo que seleccionaste cuando creaste el proyecto de Google Cloud. Actualiza los valores de <your_project_id> con el ID de tu proyecto para crear un nombre de bucket de GCS único. Después, haz clic en el botón Ejecutar celda o presiona Mayúsculas + Intro para ejecutar la celda de código.

Luego, iniciaremos una sesión de Spark. En este codelab, usaremos la biblioteca SparkSession, aunque podemos usar DataprocSession para aprovechar las capacidades de Dataproc y ejecutar Spark en el notebook de BigQuery Studio.

  1. Haz clic en la celda de código y, luego, escribe la siguiente secuencia de comandos de la CLI para inicializar la sesión de Spark. Haz clic en el botón Ejecutar celda o presiona Mayúsculas + Intro.
# Import required libraries 
from pyspark.sql import SparkSession 
from pyspark.sql.functions import col, sum, count, countDistinct, when, expr, date_format 
from pyspark.sql.types import DecimalType 

# Initialize Spark session with BigQuery connector 
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, sum, count, countDistinct, when, expr, date_format
from pyspark.sql.types import DecimalType

# Initialize Spark session with BigQuery connector
spark = SparkSession.builder \
 .appName("Google Analytics ETL with Apache Spark") \
 .config("spark.jars.packages", "com.google.cloud.spark:spark-bigquery-with-dependencies_2.12:0.32.0") \
 .getOrCreate()

spark

Resultado esperado :

SparkSession - in-memory
SparkContext
Spark UI
Version
v3.5.4
Master
local[*]
AppName
Google Analytics ETL with Apache Spark
  1. Haz clic en la celda de código y, luego, escribe la siguiente secuencia de comandos de CLI para configurar el proyecto de GCP y el bucket temporal de GCS.
# Set GCP project and temporary bucket 
project_id = "your-gcp-project-id"  # Replace with your GCP project ID 
bucket = "your-gcs-bucket"  # Replace with your GCS bucket for temporary files spark.conf.set("temporaryGcsBucket", bucket)

Base de datos de muestra de Google Analytics

La base de datos de muestra de Google Analytics se proporciona en BigQuery a través del programa de conjuntos de datos públicos de Google Cloud. En BigQuery, el conjunto de datos proporciona 12 meses (de agosto de 2016 a agosto de 2017) de datos ofuscados de Google Analytics 360 de Google Merchandise Store , una tienda de comercio electrónico real que vende productos de la marca Google. Es una excelente forma de analizar los datos de la empresa y conocer los beneficios de usar BigQuery para analizar los datos de Analytics 360. Obtén más información sobre los datos

Los datos son típicos de lo que vería un sitio web de comercio electrónico y contienen la siguiente información:

  • Datos de la fuente de tráfico: Es información sobre el origen de los visitantes del sitio web, incluidos datos sobre el tráfico orgánico, el tráfico de búsqueda pagada y el tráfico de Display.
  • Datos del contenido: Es información sobre el comportamiento de los usuarios en el sitio, como las URLs de las páginas que ven los visitantes, cómo interactúan con el contenido, etcétera.
  • Datos de transacciones: Información sobre las transacciones en el sitio web de Google Merchandise Store

Ejecuta el siguiente código para mostrar los 5 principales datos de muestra en Apache Spark

# EXTRACT: Read data from BigQuery
print("Extracting data from BigQuery...")
ga_df = spark.read.format("bigquery") \
   .option("table", "bigquery-public-data.google_analytics_sample.ga_sessions_20170801") \
   .load()

# Show schema sample data
print("Sample data:")
ga_df.show(5, truncate=False)

Resultado esperado :

Extracting data from BigQuery...
Sample data:

|visitorId|visitNumber|visitId   |visitStartTime|date    |totals                                                         |trafficSource                                                                                                                                                                          |device                                                                                                                                                                                                                                                                                                                                                                                                                      |geoNetwork                                                                                                                                                                                                                                                                     |customDimensions    |hits|fullVisitorId      |userId|clientId|channelGrouping|socialEngagementType|

|NULL     |1          |1501591568|1501591568    |20170801|{1, 1, 1, NULL, 1, NULL, NULL, 1, NULL, NULL, NULL, NULL, 1}   |{NULL, (not set), (direct), (none), NULL, NULL, {NULL, NULL, NULL, NULL, NULL, NULL, not available in demo dataset, NULL, NULL, NULL, NULL, NULL}, NULL, NULL}                         |{Chrome, not available in demo dataset, not available in demo dataset, Windows, not available in demo dataset, false, not available in demo dataset, not available in demo dataset, not available in demo dataset, not available in demo dataset, not available in demo dataset, not available in demo dataset, NULL, not available in demo dataset, not available in demo dataset, not available in demo dataset, desktop} |{Europe, Southern Europe, Greece, not available in demo dataset, not available in demo dataset, not available in demo dataset, not available in demo dataset, tellas.gr, not available in demo dataset, not available in demo dataset, not available in demo dataset}          |[]                  |[{1, 0, 5, 46, NULL, true, true, true, https://www.google.gr/, {/google+redesign/bags/google+zipper+front+sports+bag.axd, shop.googlemerchandisestore.com, Page Unavailable, NULL, NULL, /google+redesign/, /bags/, /google+zipper+front+sports+bag.axd, }, NULL, NULL, NULL, {NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, shop.googlemerchandisestore.com/google+redesign/bags/google+zipper+front+sports+bag.axd, shop.googlemerchandisestore.com/google+redesign/bags/google+zipper+front+sports+bag.axd, shop.googlemerchandisestore.com/google+redesign/bags/google+zipper+front+sports+bag.axd, 0}, {NULL, true, NULL, NULL}, NULL, [], [], NULL, NULL, {0, 1, NULL}, [], NULL, [], [], [], PAGE, {NULL, NULL, NULL, NULL, (not set), NULL, No,  : }, NULL, NULL, {(not set), Bags, (not set), (not set), (not set), (entrance), (entrance), (entrance), (entrance), (entrance), NULL, 1, NULL, NULL, NULL}, web, []}]     |3418334011779872055|NULL  |NULL    |Organic Search |Not Socially Engaged|
|NULL     |2          |1501589647|1501589647    |20170801|{1, 1, 1, NULL, 1, NULL, NULL, NULL, NULL, NULL, NULL, NULL, 1}|{/analytics/web/, (not set), analytics.google.com, referral, NULL, NULL, {NULL, NULL, NULL, NULL, NULL, NULL, not available in demo dataset, NULL, NULL, NULL, NULL, NULL}, NULL, NULL}|{Chrome, not available in demo dataset, not available in demo dataset, Windows, not available in demo dataset, false, not available in demo dataset, not available in demo dataset, not available in demo dataset, not available in demo dataset, not available in demo dataset, not available in demo dataset, NULL, not available in demo dataset, not available in demo dataset, not available in demo dataset, desktop} |{Asia, Southern Asia, India, Maharashtra, (not set), Mumbai, not available in demo dataset, unknown.unknown, not available in demo dataset, not available in demo dataset, not available in demo dataset}                                                                      |[{4, APAC}]         |[{1, 0, 5, 14, NULL, true, true, true, https://analytics.google.com/analytics/web/, {/google+redesign/shop+by+brand/youtube, shop.googlemerchandisestore.com, Page Unavailable, NULL, NULL, /google+redesign/, /shop+by+brand/, /youtube, }, NULL, NULL, NULL, {NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, shop.googlemerchandisestore.com/google+redesign/shop+by+brand/youtube, shop.googlemerchandisestore.com/google+redesign/shop+by+brand/youtube, shop.googlemerchandisestore.com/google+redesign/shop+by+brand/youtube, 0}, {NULL, true, NULL, NULL}, NULL, [], [], NULL, NULL, {0, 1, NULL}, [], NULL, [], [], [], PAGE, {NULL, NULL, NULL, NULL, (not set), NULL, No,  : }, NULL, NULL, {(not set), Brands, (not set), (not set), (not set), (entrance), (entrance), (entrance), (entrance), (entrance), NULL, 1, NULL, NULL, NULL}, web, []}]                                                                        |2474397855041322408|NULL  |NULL    |Referral       |Not Socially Engaged|
|NULL     |1          |1501616621|1501616621    |20170801|{1, 1, 1, NULL, 1, NULL, NULL, 1, NULL, NULL, NULL, NULL, 1}   |{/analytics/web/, (not set), analytics.google.com, referral, NULL, NULL, {NULL, NULL, NULL, NULL, NULL, NULL, not available in demo dataset, NULL, NULL, NULL, NULL, NULL}, NULL, NULL}|{Chrome, not available in demo dataset, not available in demo dataset, Windows, not available in demo dataset, false, not available in demo dataset, not available in demo dataset, not available in demo dataset, not available in demo dataset, not available in demo dataset, not available in demo dataset, NULL, not available in demo dataset, not available in demo dataset, not available in demo dataset, desktop} |{Europe, Northern Europe, United Kingdom, not available in demo dataset, not available in demo dataset, not available in demo dataset, not available in demo dataset, as9105.com, not available in demo dataset, not available in demo dataset, not available in demo dataset} |[{4, EMEA}]         |[{1, 0, 12, 43, NULL, true, true, true, https://analytics.google.com/analytics/web/?utm_source=demoaccount&utm_medium=demoaccount&utm_campaign=demoaccount, {/google+redesign/shop+by+brand/youtube, shop.googlemerchandisestore.com, Page Unavailable, NULL, NULL, /google+redesign/, /shop+by+brand/, /youtube, }, NULL, NULL, NULL, {NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, shop.googlemerchandisestore.com/google+redesign/shop+by+brand/youtube, shop.googlemerchandisestore.com/google+redesign/shop+by+brand/youtube, shop.googlemerchandisestore.com/google+redesign/shop+by+brand/youtube, 0}, {NULL, true, NULL, NULL}, NULL, [], [], NULL, NULL, {0, 1, NULL}, [], NULL, [], [], [], PAGE, {NULL, NULL, NULL, NULL, (not set), NULL, No,  : }, NULL, NULL, {(not set), Brands, (not set), (not set), (not set), (entrance), (entrance), (entrance), (entrance), (entrance), NULL, 1, NULL, NULL, NULL}, web, []}]|5870462820713110108|NULL  |NULL    |Referral       |Not Socially Engaged|
|NULL     |1          |1501601200|1501601200    |20170801|{1, 1, 1, NULL, 1, NULL, NULL, 1, NULL, NULL, NULL, NULL, 1}   |{/analytics/web/, (not set), analytics.google.com, referral, NULL, NULL, {NULL, NULL, NULL, NULL, NULL, NULL, not available in demo dataset, NULL, NULL, NULL, NULL, NULL}, NULL, NULL}|{Firefox, not available in demo dataset, not available in demo dataset, Windows, not available in demo dataset, false, not available in demo dataset, not available in demo dataset, not available in demo dataset, not available in demo dataset, not available in demo dataset, not available in demo dataset, NULL, not available in demo dataset, not available in demo dataset, not available in demo dataset, desktop}|{Americas, Northern America, United States, Texas, Dallas-Ft. Worth TX, Dallas, not available in demo dataset, h5colo.com, not available in demo dataset, not available in demo dataset, not available in demo dataset}                                                        |[{4, North America}]|[{1, 0, 8, 26, NULL, true, true, true, https://analytics.google.com/analytics/web/, {/google+redesign/shop+by+brand/youtube, shop.googlemerchandisestore.com, Page Unavailable, NULL, NULL, /google+redesign/, /shop+by+brand/, /youtube, }, NULL, NULL, NULL, {NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, shop.googlemerchandisestore.com/google+redesign/shop+by+brand/youtube, shop.googlemerchandisestore.com/google+redesign/shop+by+brand/youtube, shop.googlemerchandisestore.com/google+redesign/shop+by+brand/youtube, 0}, {NULL, true, NULL, NULL}, NULL, [], [], NULL, NULL, {0, 1, NULL}, [], NULL, [], [], [], PAGE, {NULL, NULL, NULL, NULL, (not set), NULL, No,  : }, NULL, NULL, {(not set), Brands, (not set), (not set), (not set), (entrance), (entrance), (entrance), (entrance), (entrance), NULL, 1, NULL, NULL, NULL}, web, []}]                                                                        |9397809171349480379|NULL  |NULL    |Referral       |Not Socially Engaged|
|NULL     |1          |1501615525|1501615525    |20170801|{1, 1, 1, NULL, 1, NULL, NULL, 1, NULL, NULL, NULL, NULL, 1}   |{/analytics/web/, (not set), adwords.google.com, referral, NULL, NULL, {NULL, NULL, NULL, NULL, NULL, NULL, not available in demo dataset, NULL, NULL, NULL, NULL, NULL}, NULL, NULL}  |{Chrome, not available in demo dataset, not available in demo dataset, Windows, not available in demo dataset, false, not available in demo dataset, not available in demo dataset, not available in demo dataset, not available in demo dataset, not available in demo dataset, not available in demo dataset, NULL, not available in demo dataset, not available in demo dataset, not available in demo dataset, desktop} |{Americas, Northern America, United States, not available in demo dataset, not available in demo dataset, not available in demo dataset, not available in demo dataset, (not set), not available in demo dataset, not available in demo dataset, not available in demo dataset}|[{4, North America}]|[{1, 0, 12, 25, NULL, true, true, true, https://adwords.google.com/analytics/web/?__o=cues&authuser=0, {/google+redesign/shop+by+brand/youtube, shop.googlemerchandisestore.com, Page Unavailable, NULL, NULL, /google+redesign/, /shop+by+brand/, /youtube, }, NULL, NULL, NULL, {NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, shop.googlemerchandisestore.com/google+redesign/shop+by+brand/youtube, shop.googlemerchandisestore.com/google+redesign/shop+by+brand/youtube, shop.googlemerchandisestore.com/google+redesign/shop+by+brand/youtube, 0}, {NULL, true, NULL, NULL}, NULL, [], [], NULL, NULL, {0, 1, NULL}, [], NULL, [], [], [], PAGE, {NULL, NULL, NULL, NULL, (not set), NULL, No,  : }, NULL, NULL, {(not set), Brands, (not set), (not set), (not set), (entrance), (entrance), (entrance), (entrance), (entrance), NULL, 1, NULL, NULL, NULL}, web, []}]                                                     |6089902943184578335|NULL  |NULL    |Referral       |Not Socially Engaged|

only showing top 5 rows

5. Agrega datos por navegador del dispositivo (métricas básicas)

Este código agrega los datos de Google Analytics por navegador del dispositivo, calcula varias métricas, como las sesiones totales, las visitas, los hits, las vistas de página, los rebotes, el tiempo en el sitio, los visitantes únicos y el tiempo promedio por visita, luego cambia el nombre de una columna y ordena los resultados.

print("Transformation 1: Aggregating by device browser...")
device_agg = ga_df.groupBy("device.browser") \
   .agg(
       count("*").alias("total_sessions"),
       sum("totals.visits").alias("total_visits"),
       sum("totals.hits").alias("total_hits"),
       sum("totals.pageviews").alias("total_pageviews"),
       sum("totals.bounces").alias("total_bounces"),
       sum("totals.timeOnSite").alias("total_time_on_site"),
       countDistinct("fullVisitorId").alias("unique_visitors"),
       (sum("totals.timeOnSite")/sum("totals.visits")).alias("avg_time_per_visit")
   ) \
   .withColumnRenamed("browser", "device_browser") \
   .orderBy("total_sessions", ascending=False)

# Show sample transformed data
print("\nDevice Aggregation Sample:")
device_agg.show(5)

Resultado esperado :

Transformation 1: Aggregating by device browser...

Device Aggregation Sample:
+-----------------+--------------+------------+----------+---------------+-------------+------------------+---------------+------------------+
|   device_browser|total_sessions|total_visits|total_hits|total_pageviews|total_bounces|total_time_on_site|unique_visitors|avg_time_per_visit|
+-----------------+--------------+------------+----------+---------------+-------------+------------------+---------------+------------------+
|           Chrome|          1900|        1900|     10896|           8956|          870|            354691|           1689|186.67947368421054|
|           Safari|           397|         397|      1260|           1137|          218|             43150|            364|108.69017632241814|
|          Firefox|           101|         101|       390|            343|           59|             10659|             95|105.53465346534654|
|Internet Explorer|            54|          54|       107|            102|           36|              5589|             50|             103.5|
|             Edge|            23|          23|        63|             55|           12|              2623|             23|114.04347826086956|
+-----------------+--------------+------------+----------+---------------+-------------+------------------+---------------+------------------+
only showing top 5 rows

6. Analiza la fuente de tráfico con cálculos de ingresos

Este código analiza los datos de Google Analytics por fuente y medio de tráfico, calcula métricas como el recuento de sesiones, las transacciones, los ingresos totales, los ingresos por sesión y los visitantes únicos, luego cambia el nombre de las columnas y ordena los resultados por ingresos totales.

print("Transformation 2: Analyzing traffic sources...")
traffic_source_agg = ga_df.groupBy("trafficSource.source", "trafficSource.medium") \
   .agg(
       count("*").alias("session_count"),
       sum(when(col("totals.transactions").isNotNull(), 1).otherwise(0)).alias("transactions"),
       sum("totals.totalTransactionRevenue").cast(DecimalType(20,2)).alias("total_revenue"),
       (sum("totals.totalTransactionRevenue")/count("*")).cast(DecimalType(10,2)).alias("revenue_per_session"),
       countDistinct("fullVisitorId").alias("unique_visitors")
   ) \
   .withColumnRenamed("source", "traffic_source") \
   .withColumnRenamed("medium", "traffic_medium") \
   .orderBy("total_revenue", ascending=False)

print("\nTraffic Source Aggregation Sample:")
traffic_source_agg.show(5)

Resultado esperado :

Transformation 2: Analyzing traffic sources...

Traffic Source Aggregation Sample:
+--------------------+--------------+-------------+------------+-------------+-------------------+---------------+
|      traffic_source|traffic_medium|session_count|transactions|total_revenue|revenue_per_session|unique_visitors|
+--------------------+--------------+-------------+------------+-------------+-------------------+---------------+
|            (direct)|        (none)|         2166|          42|8872040000.00|         4096048.01|           1943|
|     mail.google.com|      referral|            2|           1|  17960000.00|         8980000.00|              2|
|       google.com.tw|      referral|            1|           0|         NULL|               NULL|              1|
|analytics.google.com|      referral|           57|           0|         NULL|               NULL|             53|
|           quora.com|      referral|            6|           0|         NULL|               NULL|              5|
+--------------------+--------------+-------------+------------+-------------+-------------------+---------------+
only showing top 5 rows

7. Análisis geográfico

Este código realiza un análisis geográfico de los datos de Google Analytics por país y región, calcula el recuento de sesiones, las páginas vistas totales, el tiempo total en el sitio, el tiempo promedio por sesión y los visitantes únicos, luego cambia el nombre de las columnas y las ordena por recuento de sesiones.

print("Transformation 3: Geographic analysis...")
geo_agg = ga_df.groupBy("geoNetwork.country", "geoNetwork.region") \
   .agg(
       count("*").alias("session_count"),
       sum("totals.pageviews").alias("total_pageviews"),
       sum("totals.timeOnSite").alias("total_time_on_site"),
       (sum("totals.timeOnSite")/count("*")).alias("avg_time_per_session"),
       countDistinct("fullVisitorId").alias("unique_visitors")
   ) \
   .withColumnRenamed("country", "country") \
   .withColumnRenamed("region", "region") \
   .orderBy("session_count", ascending=False)

print("\nGeographic Aggregation Sample:")
geo_agg.show(5)

Resultado esperado :

Transformation 3: Geographic analysis...

Geographic Aggregation Sample:
+--------------+--------------------+-------------+---------------+------------------+--------------------+---------------+
|       country|              region|session_count|total_pageviews|total_time_on_site|avg_time_per_session|unique_visitors|
+--------------+--------------------+-------------+---------------+------------------+--------------------+---------------+
| United States|not available in ...|          564|           2326|             97829|  173.45567375886526|            494|
| United States|          California|          420|           3102|            116563|   277.5309523809524|            347|
| United States|            New York|          109|            845|             39976|   366.7522935779817|             84|
|United Kingdom|not available in ...|           82|            161|              7791|   95.01219512195122|             79|
|         India|not available in ...|           62|            139|              2869|  46.274193548387096|             61|
+--------------+--------------------+-------------+---------------+------------------+--------------------+---------------+
only showing top 5 rows

8. Análisis basado en el tiempo

Este código realiza un análisis basado en el tiempo. Para ello, extrae la hora de la columna visitStartTime, luego agrupa los datos por hora para calcular el recuento de sesiones, las transacciones, los ingresos totales y las vistas de página totales para cada hora, y, por último, ordena los resultados por hora.

print("Transformation 4: Time-based analysis...")
hourly_agg = ga_df.withColumn("hour", date_format(col("visitStartTime").cast("timestamp"), "H")) \
   .groupBy("hour") \
   .agg(
       count("*").alias("session_count"),
       sum("totals.transactions").alias("transactions"),
       sum("totals.totalTransactionRevenue").cast(DecimalType(20,2)).alias("total_revenue"),
       sum("totals.pageviews").alias("total_pageviews")
   ) \
   .orderBy("hour")

print("\nHourly Aggregation Sample:")
hourly_agg.show(5)

Resultado esperado :

Transformation 4: Time-based analysis...

Hourly Aggregation Sample:
+----+-------------+------------+-------------+---------------+
|hour|session_count|transactions|total_revenue|total_pageviews|
+----+-------------+------------+-------------+---------------+
|   0|           87|        NULL|         NULL|            372|
|   1|          102|        NULL|         NULL|            494|
|  10|           67|        NULL|         NULL|            149|
|  11|           73|        NULL|         NULL|            167|
|  12|           99|        NULL|         NULL|            313|
+----+-------------+------------+-------------+---------------+
only showing top 5 rows

9. Escribe el resultado en la tabla de BigQuery

Este código exporta cuatro DataFrames agregados (device_agg, traffic_source_agg, geo_agg y hourly_agg) a tablas separadas en Google BigQuery, y reemplaza las tablas existentes si las hay, con un método de escritura directa.

# Write to BigQuery tables
print("\nLoading data to BigQuery...")

# Set output tables
device_output_table = f"{project_id}.analytics_sample.device_aggregation"
traffic_output_table = f"{project_id}.analytics_sample.traffic_source_aggregation"
geo_output_table = f"{project_id}.analytics_sample.geo_aggregation"
hourly_output_table = f"{project_id}.analytics_sample.hourly_aggregation"

dataset_id = "demo"  # Replace with your BigQuery dataset ID 

# Set BigQuery output table
device_output_table = f"{project_id}.{dataset_id}.device_aggregation"
traffic_output_table = f"{project_id}.{dataset_id}.traffic_source_aggregation"
geo_output_table = f"{project_id}.{dataset_id}.geo_aggregation"
hourly_output_table = f"{project_id}.{dataset_id}.hourly_aggregation"

# Write each DataFrame to BigQuery
device_agg.write \
   .format("bigquery") \
   .option("table", device_output_table) \
   .option("writeMethod", "direct") \
   .mode("overwrite") \
   .save()

traffic_source_agg.write \
   .format("bigquery") \
   .option("table", traffic_output_table) \
   .option("writeMethod", "direct") \
   .mode("overwrite") \
   .save()

geo_agg.write \
   .format("bigquery") \
   .option("table", geo_output_table) \
   .option("writeMethod", "direct") \
   .mode("overwrite") \
   .save()

hourly_agg.write \
   .format("bigquery") \
   .option("table", hourly_output_table) \
   .option("writeMethod", "direct") \
   .mode("overwrite") \
   .save()

Verifica la tabla de salida en BigQuery para asegurarte de que los datos se hayan guardado correctamente después de realizar algunas transformaciones.

6227a951f1d1d4e6.png

Tabla device_aggregation

da7791f5d15f67be.png

Tabla de agregación geográfica

76ec9d9dc9929c1c.png

Tabla hourly_aggregation

bcf627ef6a13c8cc.png

traffic_source_aggregation

f373d64ace332074.png

10. Cómo organizar el código del notebook de BigQuery Studio (opcional)

Puedes organizar el código de los notebooks de BigQuery Studio de las siguientes maneras:

En este codelab, usaremos la opción Schedule notebook code de la consola de Google Cloud.

  1. En la barra de herramientas Notebook, haz clic en Programar.
  2. En el panel Programar notebook, en el campo Nombre de la programación, ingresa un nombre para la programación.
  3. En la sección Autenticación, autoriza el notebook con las credenciales de usuario de tu Cuenta de Google o una cuenta de servicio.
  4. Para usar las credenciales de usuario de tu Cuenta de Google ( Vista previa), selecciona Ejecutar con mis credenciales de usuario.
  5. Para usar una cuenta de servicio, selecciona Ejecutar con la cuenta de servicio seleccionada y, luego, elige una cuenta de servicio.
  6. En la sección Opciones de notebook, en el campo Plantilla de entorno de ejecución, selecciona una plantilla de entorno de ejecución de notebook de Colab o las especificaciones de entorno de ejecución predeterminadas. Para obtener detalles sobre cómo crear una plantilla de entorno de ejecución de notebook de Colab, consulta Crea una plantilla de entorno de ejecución.
  7. En el campo Bucket de Cloud Storage, haz clic en Explorar y selecciona o crea un bucket de Cloud Storage. A la cuenta de servicio seleccionada se le debe otorgar el rol de IAM de Administrador de almacenamiento (roles/storage.admin) en el bucket seleccionado. Para obtener más información, consulta Habilita la programación de notebooks.
  8. En la sección frecuencia de programación, haz lo siguiente:
  9. En el menú Repeticiones, selecciona la frecuencia de las ejecuciones programadas del notebook.
  10. En el campo A la hora, ingresa la hora de las ejecuciones programadas del notebook.
  11. En el menú Zona horaria, selecciona la zona horaria para la programación.
  12. Haz clic en Crear programación. Si seleccionaste Ejecutar con mis credenciales de usuario como método de autenticación, debes autorizar tu Cuenta de Google ( Vista previa).

f3d87c9a3408b08d.png

11. Limpieza

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en este codelab:

  1. En la consola de Google Cloud, ve a la página Administrar recursos.
  2. En la lista de proyectos, elige el proyecto que deseas borrar y haz clic en Borrar.
  3. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrarlo.

12. Felicitaciones

Terminaste de realizar transformaciones y análisis de datos aprovechando Apache Spark sin servidores en los notebooks de BigQuery Studio. Durante el proceso, exploraste los conjuntos de datos públicos de Google Cloud, realizaste ETL sin servidores con Apache Spark en el notebook de BigQuery Studio y orquestaste el notebook de BigQuery Studio. ¡Gran trabajo!

Próximos pasos :

  • Orquesta el notebook con la cuenta de servicio para fines de automatización.
  • Agrega una secuencia de comandos para supervisar la duración cuando se ejecuta el trabajo de ETL.
  • Implementa un notebook.
  • Usa DataprocSparkSession para aprovechar las capacidades reales de Apache Spark distribuido con Dataproc sin servidor en los notebooks de BigQuery Studio.
  • Crea un procedimiento almacenado para Apache Spark en BigQuery Studio. De esta manera, puedes aplicar principios de POO para estructurar tu código de PySpark y lograr una mejor organización, reutilización y capacidad de mantenimiento.

Referencias :