Codelab de Navigation y exploración de datos de la IU de BigQuery

1. Introducción

BigQuery es un almacén de datos sin servidores, altamente escalable y rentable. Simplemente mueve tus datos a BigQuery y déjanos el trabajo duro a nosotros para que puedas enfocarte en lo que realmente importa: administrar tu empresa. Puedes controlar el acceso al proyecto y a tus datos (por ejemplo, puedes otorgar permisos de visualización o consulta de datos) según tus necesidades empresariales.

En este lab, descubrirás las posibilidades analíticas de BigQuery. Aprenderás a importar un conjunto de datos desde un bucket de Google Cloud Storage y a comprender la IU de BigQuery trabajando con un conjunto de datos de la banca minorista. Además, en este lab, aprenderás a descubrir funciones clave en BigQuery que facilitan las estadísticas diarias, como exportar resultados de consultas en una hoja de cálculo, ver y ejecutar consultas desde tu historial de consultas, visualizar el rendimiento de las consultas y crear vistas de tablas para que las usen otros equipos y departamentos.

Qué aprenderás

En este lab, aprenderás a realizar las siguientes tareas:

  • Carga datos nuevos en BigQuery
  • Familiarizarse con la IU de BigQuery
  • Cómo ejecutar consultas en BigQuery
  • Ver rendimiento de consultas
  • Crea vistas en BigQuery
  • Comparta conjuntos de datos con otras personas de forma segura

2. Introducción: Comprende la IU de BigQuery

En esta sección, aprenderás a navegar por la IU de BigQuery, ver los conjuntos de datos disponibles y ejecutar una consulta simple.

Carga la IU de BQ

  1. Escribe “BigQuery” ubicado en la parte superior de la consola de Google Cloud.
  2. Selecciona BigQuery en la lista de opciones. Asegúrate de seleccionar la opción que tiene el logotipo de BigQuery, la lupa.

Visualiza conjuntos de datos y ejecuta consultas

ee95ce13969ee1ad.png

  1. En la sección Recurso del panel de la izquierda, haz clic en tu proyecto de BigQuery.
  2. Haz clic en bq_demo para ver las tablas en ese conjunto de datos.
  3. En el cuadro de búsqueda, escribe "tarjeta". para ver una lista de tablas y conjuntos de datos que contienen "tarjeta" en su nombre.
  4. Selecciona "card_transactions" de la lista de resultados de la búsqueda

beb6ff6ca2930125.png

  1. Haz clic en la pestaña Detalles debajo del panel card_transactions para ver los metadatos de esta tabla.
  2. Haz clic en la pestaña Vista previa para obtener una vista previa de la tabla.

[Tema de conversación sobre la competencia]: La integración en Data Catalog de Google implica que los metadatos de BigQuery se pueden administrar junto con otras fuentes de datos, como fuentes de datos operativas o data lakes. Este es un ejemplo que muestra que Google Cloud no es solo un almacén de datos relacional, sino una plataforma completa de datos analíticos.

  1. Haz clic en el ícono de lupa para consultar las “card_transactions” desde una tabla de particiones. Un texto generado automáticamente propagará el editor de consultas de BigQuery.
  2. Ingresa el código a continuación para mostrarnos los comercios distintos de la tabla Card_Transactions.
SELECT distinct (merchant) FROM bq_demo.card_transactions LIMIT 1000
  1. Haz clic en el botón Ejecutar para ejecutar la consulta.

35113542e7ec6fa6.png

3. Crea conjuntos de datos y comparte vistas

Compartir datos y administración es fundamental, ya que se puede hacer de forma intuitiva en la IU de BQ. En esta sección, aprenderás a crear un conjunto de datos nuevo, propagarlo con una vista y compartir ese conjunto de datos.

Visualiza el historial de consultas

  1. Haz clic en "Historial de consultas". en el panel izquierdo de la consola de GCP
  2. Haz clic en Actualizar en el panel Historial de consultas
  3. Haz clic en la imagen o flecha de descarga en el extremo derecho de la consulta para ver los resultados.

6e3232ed96f647b8.png

Crea un conjunto de datos nuevo

  1. Selecciona [el nombre de tu proyecto] en el panel de recursos de la IU de BigQuery.
  2. Selecciona "Crear nuevo conjunto de datos". en el panel de información del proyecto
  3. Para el ID del conjunto de datos:

bq_demo_shared

  1. Deja todos los demás campos con la configuración predeterminada.
  2. Haz clic en "Crear conjunto de datos".

b433eba38f55124f.png dd774aca416e7fbc.png

Crea vistas

[Tema de conversación sobre la competencia]: BigQuery cumple con los requisitos de ANSI SQL y admite uniones de tablas múltiples simples y complejas, así como funciones analíticas enriquecidas. Lanzamos constantemente compatibilidad mejorada con las funciones y los tipos de datos de SQL comunes que se usan en los almacenes de datos tradicionales para facilitar el proceso de migración.

  1. Selecciona "Redactar consulta nueva". ubicado en la parte superior del panel Editor de consultas.
  2. Inserta el siguiente código en el editor de consultas
WITH revenue_by_month AS (
SELECT
    card.type AS card_type,
    FORMAT_DATE('%Y-%m', trans_date) as revenue_date,
    SUM(amount) as revenue
FROM bq_demo.card_transactions
JOIN bq_demo.card ON card_transactions.cc_number = card.card_number
WHERE trans_date  DATE_ADD(CURRENT_DATE, INTERVAL -1 YEAR)
GROUP BY card_type, revenue_date
)
SELECT
    card_type,
    revenue_date,
    revenue as monthly_rev,
    revenue -  LAG(revenue) OVER (ORDER BY card_type, revenue_date ASC) as rev_change
FROM revenue_by_month
ORDER BY card_type, revenue_date ASC;
  1. Haz clic en "Guardar vista".
  2. Selecciona el proyecto actual para Nombre del proyecto
  3. Selecciona el conjunto de datos recién creado:

bq_demo_shared

  1. Para el nombre de la tabla:

rev_change_by_card_type

  1. Haz clic en Guardar.

4b111056b544c27d.png

Comparte vistas y conjuntos de datos

  1. Selecciona el archivo "bq_demo_shared". del panel izquierdo de recursos en la IU de BigQuery.
  2. Haz clic en "Compartir conjunto de datos". En el panel de información del conjunto de datos
  3. Ingresa una dirección de correo electrónico
  4. Selecciona “Visualizador de datos de BigQuery” en el menú desplegable Rol
  5. Haz clic en "Agregar".
  6. Haga clic en Finalizado.

1c04b6b5ebc191dc.png

Explora datos en Hojas de cálculo

[Tema de conversación sobre la competencia]: Otro beneficio de BigQuery en comparación con sus competidores es BI Engine. BI Engine se puede usar para hacer que las consultas de resumen de tipo de IE devuelvan en menos de un segundo a través del motor de almacenamiento en caché en la memoria. Por el momento, esta función es compatible con Google Data Studio, pero pronto estará disponible para acelerar todas las consultas en BigQuery.

Por ejemplo:

Snowflake se basa en herramientas de IE de terceros para los paneles y la visualización de datos, mientras que GCP ofrece una variedad de herramientas de IE integradas, incluidas Hojas conectadas, Data Studio y Looker.

  1. Selecciona el "rev_change_by_card_type" desde el panel izquierdo de recursos en la IU de BigQuery.
  2. Haz clic en la lupa para consultar la vista 255be22b0eaf339.png
  3. Tipo:

SELECT *

DE bq_demo_shared.rev_change_by_card_type

  1. Haz clic en Ejecutar.
  2. Haz clic en "Exportar". Ícono del panel de resultados
  3. Selecciona “Explorar datos con Hojas de cálculo”.

9617b522025fd337.png

  1. Haga clic en "Comenzar el análisis".
  2. Selecciona "Tabla dinámica".
  3. Selecciona "Nueva hoja".
  4. Haga clic en "Crear".
  5. Agrega "revenue_date" en la sección Fila del Editor de tabla dinámica que se encuentra a la derecha de la ventana Hojas de cálculo
  6. Agrega "card_type" en la sección Columna del Editor de tablas dinámicas
  7. Agregar "monthly_rev" en la sección Columna del Editor de tablas dinámicas
  8. Haz clic en Aplicar.

48e67c2e04965796.png

  1. Navega hasta el Top robbin de la IU de Hojas de cálculo y selecciona Insertar gráfico

4. Configuración: Integración de datos

En esta sección, aprenderás a crear una tabla nueva y a realizar una instrucción JOIN en uno de los numerosos conjuntos de datos públicos disponibles en Google Cloud.

[Tema de conversación sobre la competencia]:

BigQuery es compatible con los conjuntos de datos compartidos desde hace años. Los clientes de cualquier proyecto pueden consultar tanto conjuntos de datos públicos como conjuntos de datos en otros proyectos que se hayan compartido con ellos.

BigQuery puede admitir data lakes en GCS mediante el uso de tablas externas. Además de la carga masiva, BigQuery admite la capacidad de transmitir datos a la base de datos a velocidades de cientos de MB por segundo. Snowflake no es compatible con la transmisión de datos.

Importa datos a una tabla nueva

  1. En el panel de recursos, selecciona el conjunto de datos bq_demo.
  2. En el panel de información del conjunto de datos, selecciona “Crear tabla”.
  3. Selecciona Google Cloud Storage para la fuente
  4. En el cuadro de texto de la ruta del archivo:

gs://retail-banking-looker/district

  1. Seleccionar CSV para formato de archivo
  2. Ingresar "distrito" para Nombre de la tabla
  3. Selecciona la casilla de verificación para el esquema de detección automática
  4. Haz clic en Crear tabla.

Consulta conjuntos de datos públicos

  1. En el editor de consultas, ingresa la siguiente consulta:
SELECT
    CAST(geo_id as STRING) AS zip_code,
    total_pop,
    median_age,
    households,
    income_per_capita,
    housing_units,
    vacant_housing_units_for_sale,
    ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
    ROUND(SAFE_DIVIDE(bachelors_degree_or_higher_25_64, pop_25_64),4) AS rate_bachelors_degree_or_higher_25_64
  FROM
    `bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`;
  1. Haz clic en Ejecutar.
  2. Ver los resultados

dff40709db70d75.png

  1. Ahora combinaremos estos datos públicos con otra consulta. Ingresa el siguiente código SQL en el editor de consultas:
WITH customer_counts AS (
    select regexp_extract(address, "[0-9][0-9][0-9][0-9][0-9]") as zip_code, 
    count(*) as num_clients
    FROM bq_demo.client
    GROUP BY zip_code
    )
SELECT 
    CAST(geo_id as STRING) AS zip_code,
    total_pop,
    median_age,
    households,
    income_per_capita,
    ROUND(SAFE_DIVIDE(employed_pop, pop_16_over),4) AS rate_employment,
    num_clients
FROM
    `bigquery-public-data.census_bureau_acs.zip_codes_2017_5yr`
JOIN customer_counts on zip_code = geo_id
ORDER BY num_clients DESC
  1. Haz clic en Ejecutar.
  2. Ver los resultados

b853ad571e7a3038.png

5. Administración de capacidad

Trabaja con ranuras y reservas

BQ ofrece varios modelos de precios para satisfacer tus necesidades. La mayoría de los grandes clientes aprovechan principalmente la tarifa plana para obtener precios predecibles con capacidad reservada. Para un aumento de actividad más allá de esa capacidad de referencia, BQ ofrece ranuras flexibles que te permiten aumentar la capacidad adicional sobre la marcha y, luego, reducirse automáticamente sin afectar la ejecución de consultas. BQ también tiene un modelo de análisis de bytes que te permite pagar solo por las consultas que ejecutas.

[Tema de conversación sobre la competencia: Algunos competidores trabajan de forma exclusiva en un modelo de capacidad fija en el que los clientes tienen que asignar un almacén virtual para cada carga de trabajo de su organización. Además de un modelo de bajo costo por consulta que facilita el inicio a usar BigQuery, admitimos un modelo de precios por capacidad de tarifa plana en el que la capacidad inactiva se puede compartir entre un conjunto de cargas de trabajo.]

  1. Ve a la pestaña de reservas.

964f4ab78d35d067.png

  1. Haz clic en “Comprar ranuras”.

c8cb5ee61bbea814.png

  1. Selecciona “Flex”. como duración.
  2. Selecciona 500 ranuras.
  3. Confirma la compra.

d615f5908dffc1ee.png

  1. Haz clic en Ver compromisos de ranuras.
  2. Haz clic en "Crear reserva".
  3. “Demostración” del usuario como nombre de la reserva
  4. Selecciona Estados Unidos como ubicación
  5. Escribe 500 para ranuras (todas disponibles)
  6. Haz clic en Tareas.
  7. Elegir el proyecto actual para el proyecto de la organización
  8. Selecciona "demostración". para el ID de reserva
  9. Haz clic en Crear".