Gobernanza básica con Dataplex Universal Catalog: Introducción

1. Introducción

Como desarrolladores e ingenieros de datos, a menudo heredamos grandes colecciones de datos que se parecen más a pantanos de datos. Enfrentamos los mismos puntos de fricción una y otra vez: "¿Cuál es la definición real de esta columna ‘amt’?". "¿Quién es responsable si este conjunto de datos deja de funcionar?" o "¿Podemos usar esta tabla en el motor de recomendaciones personalizadas?"

Tradicionalmente, los catálogos de datos han sido inventarios pasivos llenos de etiquetas de texto libre que rápidamente se vuelven incoherentes y obsoletas. No aplican la estructura, lo que hace que la administración programática sea casi imposible.

Para que esto sea práctico, trabajaremos en un escenario en este lab: establecer una gobernanza sólida sobre los datos de ventas minoristas sin procesar para que el departamento de finanzas pueda confiar en ellos para la generación de informes oficiales. Moverás estos datos de un estado ambiguo de "pantano" a un producto gobernado.

Dataplex Universal Catalog cambia esto, ya que proporciona un framework activo y estructurado de administración de metadatos. Te permite adjuntar metadatos estructurados basados en esquemas (Aspectos) y definiciones comerciales aceptadas (Glosarios) directamente a tus recursos de datos (Entradas).

Antes de escribir secuencias de comandos en Python o módulos de Terraform para automatizar este proceso a gran escala, debes comprender el modelo de objetos subyacente.

En este codelab, realizaremos los pasos de gobernanza de forma manual en la consola de Google Cloud. Conectaremos explícitamente los puntos entre las entradas, los tipos de aspectos, los aspectos y los glosarios para brindarte un modelo mental sólido sobre cómo hacer que tus datos sean detectables, comprensibles y confiables.

Requisitos previos

  • Un proyecto de Google Cloud con acceso de propietario o editor
  • Conocimientos sobre la consola de Google Cloud
  • Habilidades básicas de la CLI de gcloud y bq en Cloud Shell

Qué aprenderás

  • La distinción crucial entre una entrada, un tipo de aspecto y un aspecto de Dataplex
  • Cómo crear un glosario empresarial para resolver la ambigüedad en la terminología
  • Cómo diseñar un tipo de aspecto para aplicar un esquema estricto a los metadatos técnicos (más allá de las "etiquetas")
  • Cómo vincular un término del diccionario de la empresa a una columna específica de BigQuery
  • Cómo adjuntar un Aspecto estructurado a un activo de datos y validar las entradas
  • Cómo ejecutar búsquedas precisas en estos nuevos metadatos estructurados

Requisitos

  • Una cuenta de Google Cloud y un proyecto de Google Cloud
  • Un navegador web, como Chrome

Conceptos clave

  • Entrada: Es la representación canónica y abstracta de un recurso de datos en el catálogo. Piensa en esto como el "puntero" o el "sustantivo". Cuando creas una tabla de BigQuery, Dataplex crea automáticamente una entrada para ella. No controlamos la tabla directamente, sino su entrada.
  • Glosario empresarial: Un diccionario centralizado y con versiones de los términos comerciales de tu organización. Es la única fuente de información. Evita el problema de que "Ventas define el GMV de manera diferente a Finanzas".
  • Tipo de aspecto: Es el esquema o la plantilla para una categoría específica de metadatos. Un tipo de aspecto define campos, tipos de datos (cadena, enumeración, fecha y hora, etc.) y restricciones (obligatorio/opcional). Es el contrato que garantiza la coherencia de los metadatos.
  • Aspecto: Es un fragmento específico de metadatos adjunto a una entrada que sigue la estructura definida por el tipo de aspecto. Contiene los datos reales que cumplen con el esquema del tipo de aspecto.

2. Configuración y requisitos

Inicia Cloud Shell

Si bien Google Cloud y Spanner se pueden operar de manera remota desde tu laptop, en este codelab usarás Google Cloud Shell, un entorno de línea de comandos que se ejecuta en la nube.

En Google Cloud Console, haz clic en el ícono de Cloud Shell en la barra de herramientas en la parte superior derecha:

Activa Cloud Shell

El aprovisionamiento y la conexión al entorno deberían tomar solo unos minutos. Cuando termine el proceso, debería ver algo como lo siguiente:

Captura de pantalla de la terminal de Google Cloud Shell que muestra que el entorno se conectó

Esta máquina virtual está cargada con todas las herramientas de desarrollo que necesitarás. Ofrece un directorio principal persistente de 5 GB y se ejecuta en Google Cloud, lo que permite mejorar considerablemente el rendimiento de la red y la autenticación. Todo tu trabajo en este codelab se puede hacer en un navegador. No es necesario que instales nada.

Habilita las APIs obligatorias y configura el entorno

Ejecuta los siguientes comandos para establecer el ID del proyecto, definir la región y habilitar las APIs de servicios necesarias.

export PROJECT_ID=$(gcloud config get-value project)
gcloud config set project $PROJECT_ID
export LOCATION="us-central1"

gcloud services enable dataplex.googleapis.com \
                       bigquery.googleapis.com \
                       datacatalog.googleapis.com

Crea un conjunto de datos de BigQuery y prepara datos de muestra

Necesitamos un activo de datos concreto para administrar. Crearemos un conjunto de datos de BigQuery y cargaremos una pequeña muestra de CSV que representa transacciones. Dataplex descubrirá automáticamente esta tabla y creará una entrada para ella.

# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
    --description "Retail data for governance codelab" \
    $PROJECT_ID:retail_data

# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv

# Load the data from the temporary CSV file into BigQuery
bq load \
    --source_format=CSV \
    --autodetect \
    retail_data.transactions \
    /tmp/transactions.csv

# (Optional) Clean up the temporary file
rm /tmp/transactions.csv

Para verificar la configuración, ejecuta una consulta rápida:

bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"

3. Establece un lenguaje común con un glosario empresarial

Una gobernanza eficaz comienza con definiciones inequívocas. Si un desarrollador ve una columna llamada gmv, no debería tener que adivinar si incluye impuestos o devoluciones. Un glosario de la empresa resuelve este problema al separar la definición comercial de la implementación técnica.

  1. En la consola de Google Cloud, navega a Dataplex Universal Catalog.
  2. En el menú de navegación de la izquierda, selecciona Glosarios (en Administrar metadatos).

96020207ba4bd128.png

  1. Haz clic en Crear glosario empresarial.
  2. Ingresa los siguientes detalles:
    • Nombre: Retail Business Glossary
    • Ubicación: us-central1 (o la ubicación que definiste en la configuración).
  3. Haz clic en Crear.

e3b146e5f3b57785.png

  1. Haz clic en el Glosario de comercio minorista que acabas de crear para ingresar.

c98bdf049e946234.png

  1. Haz clic en Crear categoría, asígnale el nombre Sales Metrics y, luego, haz clic en Crear. Las categorías ayudan a agrupar términos relacionados.
  2. Selecciona la categoría Sales Metrics, haz clic en Agregar término, asígnale el nombre Gross Merchandise Value y, luego, haz clic en Crear.
  3. Haz clic en el botón + Agregar en la sección Descripción general y, luego, completa los siguientes detalles:
    • Descripción general: The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.
  4. Haz clic en Guardar.

3a642fd2a41c040e.png

Ahora estableciste una definición clara que se puede vincular a los activos técnicos de toda tu organización.

4. Define metadatos técnicos estructurados con un tipo de aspecto

Las etiquetas simples de "clave:valor" no son suficientes para la rigurosidad de la ingeniería. Si necesitas hacer un seguimiento de los "propietarios de datos", no querrás que una tabla esté etiquetada como owner:bob y otra como contact:alice@example.com. Necesitas un esquema para aplicar que se requiere un propietario y que debe tener un formato de correo electrónico válido.

Usaremos un tipo de aspecto para definir este contrato.

  1. En el panel de navegación izquierdo de Dataplex, en Catálogo, selecciona Tipos de aspectos y plantillas de etiquetas.
  1. Selecciona la pestaña Personalizado y haz clic en Crear tipo de aspecto.

a920c555d40425a.png

  1. Ingresa los siguientes detalles:
    • Nombre visible: Data Asset Governance
    • Ubicación: us-central1
  2. En la sección Plantilla, definiremos el esquema para nuestro Aspect. Haz clic en Agregar un campo para crear los siguientes tres campos:
    • Campo 1:
      • Nombre visible: Data Steward
      • Tipo: Text
      • Tipo de texto: Plain text
      • Cardinalidad: Es obligatoria (marca la casilla).
    • Campo 2 (vuelve a hacer clic en Agregar un campo):
      • Nombre visible: Data Sensitivity
      • Tipo: Enum
      • Valores: Agrega Public, Internal y Confidential.
      • Cardinalidad: Opcional
    • Campo 3 (vuelve a hacer clic en Agregar un campo):
      • Nombre visible: Last Review Date
      • Tipo: Date and time
      • Cardinalidad: Opcional
  3. Haz clic en Guardar.

20babd75c2b8dce6.png

Acabas de crear un contrato de metadatos reutilizable. Aún no se usa, pero la estructura existe.

5. Conexión de la administración al activo

Ahora, uniremos todo. Tenemos una tabla de BigQuery (retail_data.transactions), una definición de negocio (Gross Merchandise Value) y un esquema de administración (Data Asset Governance).

Enriqueceremos la entrada de Dataplex para la tabla de BigQuery.

Enriquece el esquema con contexto empresarial (a nivel de la columna)

Vinculemos la columna gmv al glosario para explicarles a los usuarios qué significa en realidad.

  1. En la navegación izquierda de Dataplex, haz clic en Buscar.
  2. En el lado superior derecho, haz clic en la pestaña Dataplex Universal Catalog si no está activada.

849a24e7b1a86a19.png

  1. Busca retail_data.transactions. Haz clic en el resultado de la tabla de BigQuery.

54d3edd1520593a9.png

  1. Haz clic en la pestaña Esquema en Detalles de la entrada.
  2. Marca la casilla de verificación de la fila de la columna gmv y haz clic en Agregar término comercial.
  3. Selecciona el término Gross Merchandise Value.

64768eecf630c90b.png

La columna gmv ya no es solo un "FLOAT"; ahora está vinculada a la definición corporativa de Gross Merchandise Value.

Enriquece la entrada con metadatos técnicos estructurados (a nivel de la tabla)

A continuación, adjuntaremos el Aspect Data Asset Governance a la tabla para definir la propiedad y la sensibilidad.

  1. Permanece en la página de entrada de retail_data.transactions.
  2. Haz clic en la pestaña Agregar aspecto o etiqueta y, luego, selecciona el tipo Data Asset Governance en el menú desplegable.

4b770307159a28d8.png

  1. El formulario ahora mostrará los campos definidos en el esquema de tu tipo de aspecto. Completa los campos de la siguiente manera:
    • Administrador de datos: finance-team@example.com
    • Sensibilidad de los datos: Selecciona Internal.
    • Fecha de la última revisión: Selecciona la fecha de hoy.
  2. Haz clic en Guardar.

f953c5569520d42a.png

Vinculaste correctamente un aspecto estructurado a la entrada. A diferencia de una etiqueta simple, estos datos se validan con el esquema que creaste.

6. Descubrimiento y verificación unificados

No hicimos este trabajo solo para completar formularios. Lo hicimos para que los datos sean fáciles de descubrir y confiables. Veamos cómo estos metadatos cambian la experiencia del desarrollador en la búsqueda y el descubrimiento.

Regresa a la página principal de Búsqueda en Dataplex Universal Catalog.

Imagina que eres un ingeniero de plataformas que aplica la gobernanza. Debes encontrar todos los recursos marcados como "Internos" que se rigen por tu tipo de aspecto específico. Debes usar predicados precisos basados en tu esquema.

Puedes verificar esto de dos maneras: con una sintaxis de consulta precisa (esencial para la automatización) o con filtros interactivos de la IU.

Método 1: Verificación a través de una consulta estructurada

  1. En la barra de búsqueda (en el modo de búsqueda Palabra clave), ingresa la siguiente búsqueda estructurada.
aspect:data-asset-governance.data-sensitivity=Internal
  1. Deberías ver tu tabla de retail_data.transactions.

49120fe4ea224359.png

Método 2: Verificación a través de las facetas de filtro de la IU

  1. Borra la barra de búsqueda para restablecer la vista
  2. Observa el panel Filter by properties en el lado izquierdo de la pantalla.
  3. Desplázate hacia abajo y expande la sección Administración de activos de datos (esto representa el tipo de aspecto que creaste).
  4. En Sensibilidad de los datos, marca la casilla de Internal.
  5. Los resultados de la búsqueda se actualizarán para mostrar la tabla retail_data.transactions.

4df224cb06720ec4.png

Ya sea que uses la consulta escrita o los filtros de la IU, el mecanismo subyacente es el mismo.

Esto demuestra la diferencia fundamental entre Dataplex y una wiki simple: tus metadatos son una estructura consultable. Ahora puedes crear auditorías automatizadas (p.ej., "Encuentra todas las tablas en las que last_review_date es > hace 1 año") basándose en esta estructura predecible.

7. Limpia tu entorno

Para evitar que se apliquen cargos continuos, borra los recursos que creaste en este codelab.

Borra el conjunto de datos de BigQuery

Este comando es irreversible y usa la marca -f (forzar) para quitar el conjunto de datos y todas sus tablas sin confirmación.

# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)

# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data

Borra artefactos de Dataplex

  1. Navega a IU de Dataplex Universal Catalog > Administrar metadatos > Catálogo.
  2. En Tipos de aspectos y plantillas de etiquetas, selecciona el tipo de aspecto data_asset_governance y bórralo.
  3. Navega a Administrar metadatos > Glosarios, selecciona el Retail Business Glossary y bórralo. Asegúrate de borrar primero el término Gross Merchandise Value y, luego, el glosario.

8. ¡Felicitaciones!

Ya superaste el etiquetado de datos simple y estableciste un modelo de administración estructurado y fundamental en Dataplex.

Aprendiste lo siguiente:

  • Los glosarios resuelven la ambigüedad empresarial.
  • Los tipos de aspectos proporcionan el contrato de esquema para los metadatos técnicos.
  • Los aspectos aplican ese esquema a las entradas de datos reales.
  • La Búsqueda de Dataplex utiliza estos metadatos estructurados para realizar descubrimientos precisos.

Próximos pasos

  • Gobernanza como código: Usa el proveedor de Terraform de Google Cloud para definir tus tipos de aspectos y glosarios en el control de versiones, lo que garantiza esquemas coherentes en los entornos de desarrollo, prueba y producción.
  • Etiquetado automático: Escribe una Cloud Function o un paso de Cloud Build que se active con la creación de un nuevo conjunto de datos y que adjunte automáticamente tu aspecto "Gobernanza de activos de datos" con valores predeterminados (p.ej., sensitivity=Internal, steward=TBD), y se marcará para su revisión.