1. Introdução
Como desenvolvedores e engenheiros de dados, muitas vezes herdamos grandes coleções de dados que parecem mais pântanos de dados. Enfrentamos os mesmos pontos de atrito repetidamente: "Qual é a definição real da coluna "amt"?", "Quem é o responsável se esse conjunto de dados falhar?" ou "Podemos usar essa tabela no mecanismo de recomendação personalizada?"
Tradicionalmente, os catálogos de dados são inventários passivos preenchidos com tags de texto livre que rapidamente se tornam inconsistentes e desatualizadas. Eles não impõem estrutura, o que torna a governança programática quase impossível.
Para tornar isso prático, vamos trabalhar em um cenário neste laboratório: estabelecer uma governança robusta sobre dados brutos de vendas no varejo para que possam ser confiáveis por um departamento financeiro para relatórios oficiais. Você vai mover esses dados de um estado ambíguo de "pântano" para um produto governado.
O Dataplex Universal Catalog muda isso ao oferecer uma estrutura ativa e estruturada de gerenciamento de metadados. Ele permite anexar metadados estruturados e orientados por esquema (Aspectos) e definições comerciais aceitas (Glossários) diretamente aos seus recursos de dados (Entradas).
Antes de escrever scripts em Python ou módulos do Terraform para automatizar isso em grande escala, é preciso entender o modelo de objeto subjacente.
Neste codelab, vamos realizar as etapas de governança manualmente no console do Google Cloud. Vamos conectar explicitamente os pontos entre entradas, tipos de aspectos, aspectos e glossários para oferecer um modelo mental sólido de como tornar seus dados detectáveis, compreensíveis e confiáveis.
Pré-requisitos
- Um projeto do Google Cloud com acesso de proprietário ou editor.
- Console do Google Cloud.
- Habilidades básicas de CLI gcloud e bq no Cloud Shell.
O que você vai aprender
- A distinção crucial entre uma entrada, um tipo de aspecto e um aspecto do Dataplex.
- Como criar um glossário de negócios para resolver ambiguidades na terminologia.
- Como projetar um tipo de aspecto para aplicar um esquema estrito a metadados técnicos (além de "tags").
- Como vincular um termo do glossário de negócios a uma coluna específica do BigQuery.
- Como anexar um aspecto estruturado a um recurso de dados e validar entradas.
- Como executar consultas de pesquisa precisas com esses novos metadados estruturados.
O que é necessário
- Uma conta e um projeto do Google Cloud
- Um navegador da Web, como o Chrome
Conceitos principais
- Entrada:a representação canônica e abstrata de um recurso de dados no catálogo. Pense nisso como o "ponteiro" ou o "substantivo". Quando você cria uma tabela do BigQuery, o Dataplex cria automaticamente uma entrada para ela. Não governamos a tabela diretamente, mas sim a entrada dela.
- Glossário de negócios:um dicionário centralizado e com controle de versões dos termos comerciais da sua organização. Ela é a única fonte de verdade. Isso evita o problema "As vendas definem o GMV de maneira diferente das finanças".
- Tipo de aspecto:o esquema ou modelo de uma categoria específica de metadados. Um tipo de aspecto define campos, tipos de dados (string, enum, datetime etc.) e restrições (obrigatório/opcional). É o contrato que garante a consistência dos metadados.
- Aspecto:uma parte específica de metadados anexada a uma entrada que segue a estrutura definida pelo tipo de aspecto. Ele contém os dados reais que atendem ao esquema do tipo de aspecto.
2. Configuração e requisitos
Inicie o Cloud Shell
Embora o Google Cloud e o Spanner possam ser operados remotamente do seu laptop, neste codelab usaremos o Google Cloud Shell, um ambiente de linha de comando executado no Cloud.
No Console do Google Cloud, clique no ícone do Cloud Shell na barra de ferramentas superior à direita:

O provisionamento e a conexão com o ambiente levarão apenas alguns instantes para serem concluídos: Quando o processamento for concluído, você verá algo como:

Essa máquina virtual contém todas as ferramentas de desenvolvimento necessárias. Ela oferece um diretório principal persistente de 5 GB, além de ser executada no Google Cloud. Isso aprimora o desempenho e a autenticação da rede. Neste codelab, todo o trabalho pode ser feito com um navegador. Você não precisa instalar nada.
Ativar as APIs necessárias e configurar o ambiente
Execute os comandos a seguir para definir o ID do projeto, definir a região e ativar as APIs de serviço necessárias.
export PROJECT_ID=$(gcloud config get-value project)
gcloud config set project $PROJECT_ID
export LOCATION="us-central1"
gcloud services enable dataplex.googleapis.com \
bigquery.googleapis.com \
datacatalog.googleapis.com
Criar um conjunto de dados do BigQuery e preparar dados de amostra
Precisamos de um recurso de dados concreto para governar. Vamos criar um conjunto de dados do BigQuery e carregar um pequeno CSV de amostra que representa transações. O Dataplex vai descobrir automaticamente essa tabela e criar uma entrada para ela.
# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
--description "Retail data for governance codelab" \
$PROJECT_ID:retail_data
# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv
# Load the data from the temporary CSV file into BigQuery
bq load \
--source_format=CSV \
--autodetect \
retail_data.transactions \
/tmp/transactions.csv
# (Optional) Clean up the temporary file
rm /tmp/transactions.csv
Verifique a configuração executando uma consulta rápida:
bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"
3. Estabelecer uma linguagem comum com um glossário de negócios
Uma governança eficaz começa com definições claras. Se um desenvolvedor encontrar uma coluna chamada gmv, não será necessário adivinhar se ela inclui tributos ou devoluções. Um glossário de negócios resolve isso ao separar a definição de negócios da implementação técnica.
- No console do Google Cloud, acesse o Catálogo universal do Dataplex.
- No menu de navegação à esquerda, selecione Glossários (em "Gerenciar metadados").

- Clique em Criar glossário de negócios.
- Digite os seguintes detalhes:
- Nome:
Retail Business Glossary - Local:
us-central1(ou o local definido na configuração).
- Nome:
- Clique em Criar.

- Clique no Glossário de negócios de varejo recém-criado para acessar.

- Clique em Criar categoria, nomeie como
Sales Metricse clique em Criar. As categorias ajudam a agrupar termos relacionados. - Selecione a categoria
Sales Metrics, clique em Adicionar termo, nomeie comoGross Merchandise Valuee clique em Criar. - Clique no botão + Adicionar em "Visão geral" e preencha os seguintes detalhes:
- Visão geral:
The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.
- Visão geral:
- Clique em Salvar.

Agora você estabeleceu uma definição clara que pode ser vinculada a recursos técnicos em toda a organização.
4. Definir metadados técnicos estruturados com um tipo de aspecto
Tags simples "chave:valor" não são suficientes para o rigor da engenharia. Se você precisar rastrear "Proprietários de dados", não vai querer uma tabela marcada como owner:bob e outra como contact:alice@example.com. Você precisa de um esquema para garantir que um proprietário seja obrigatório e esteja em um formato de e-mail válido.
Vamos usar um tipo de aspecto para definir esse contrato.
- Na navegação à esquerda do Dataplex, em Catálogo, selecione Tipos de aspecto e modelos de tag.
- Selecione a guia Personalizado e clique em Criar tipo de aspecto.

- Digite os seguintes detalhes:
- Nome de exibição:
Data Asset Governance - Local:
us-central1
- Nome de exibição:
- Na seção Modelo, vamos definir o esquema para nosso
Aspect. Clique em Adicionar um campo para criar os três campos a seguir:- Campo 1:
- Nome de exibição:
Data Steward - Tipo:
Text - Tipo de texto:
Plain text - Cardinalidade: é obrigatória (marque a caixa)
- Nome de exibição:
- Campo 2 (clique em Adicionar um campo novamente):
- Nome de exibição:
Data Sensitivity - Tipo:
Enum - Valores: adicione
Public,InternaleConfidential. - Cardinalidade: opcional
- Nome de exibição:
- Campo 3 (clique em Adicionar um campo novamente):
- Nome de exibição:
Last Review Date - Tipo:
Date and time - Cardinalidade: opcional
- Nome de exibição:
- Campo 1:
- Clique em Salvar.

Você acabou de criar um contrato de metadados reutilizável. Nada usa isso ainda, mas a estrutura existe.
5. Como conectar a governança ao recurso
Agora vamos juntar tudo. Temos uma tabela do BigQuery (retail_data.transactions), uma definição de negócios (Gross Merchandise Value) e um esquema de governança (Data Asset Governance.
Vamos enriquecer a entrada do Dataplex para a tabela do BigQuery.
Enriquecer o esquema com contexto comercial (no nível da coluna)
Vamos explicar aos usuários o que a coluna gmv significa, vinculando-a ao glossário.
- Na navegação à esquerda do Dataplex, clique em Pesquisar.
- No canto superior direito, clique na guia Catálogo Universal do Dataplex se ela não estiver ativada.

- Pesquisar por
retail_data.transactions. Clique no resultado da tabela do BigQuery.

- Clique na guia Esquema em "Detalhes da entrada".
- Marque a caixa de seleção da linha da coluna
gmve clique em Adicionar termo comercial. - Selecione o termo
Gross Merchandise Value.

A coluna gmv não é mais apenas um "FLOAT"; agora ela está vinculada à definição corporativa de Gross Merchandise Value.
Enriqueça a entrada com metadados técnicos estruturados (nível da tabela)
Em seguida, vamos anexar o Aspecto Data Asset Governance à tabela para definir propriedade e sensibilidade.
- Permaneça na página de entrada
retail_data.transactions. - Clique na guia Adicionar tag ou aspecto e selecione o tipo
Data Asset Governanceno menu suspenso.

- O formulário vai mostrar os campos definidos no esquema do tipo de aspecto. Preencha os campos da seguinte forma:
- Administrador de dados :
finance-team@example.com - Sensibilidade de dados:selecione
Internal. - Data da última revisão:selecione a data de hoje.
- Administrador de dados :
- Clique em Salvar.

Você anexou um aspecto estruturado à entrada. Ao contrário de uma tag simples, esses dados são validados em relação ao esquema que você criou.
6. Descoberta e verificação unificadas
Não fizemos esse trabalho apenas para preencher formulários. Fizemos isso para tornar os dados detectáveis e confiáveis. Vamos ver como esses metadados mudam a experiência do desenvolvedor para pesquisa e descoberta.
Volte à página principal de Pesquisa no Dataplex Universal Catalog.
Imagine que você é um engenheiro de plataforma que aplica a governança. Você precisa encontrar todos os recursos marcados como "Interno" que são regidos pelo seu tipo de aspecto específico. Você precisa usar predicados precisos com base no seu esquema.
É possível verificar isso de duas maneiras: usando uma sintaxe de consulta precisa (essencial para automação) ou filtros interativos da interface.
Método 1: verificar usando uma consulta estruturada
- Na barra de pesquisa (no modo de pesquisa Palavra-chave), digite a seguinte consulta estruturada.
aspect:data-asset-governance.data-sensitivity=Internal
- Você vai ver a tabela
retail_data.transactions.

Método 2: verificar usando as facetas de filtro da interface
- Limpe a barra de pesquisa para redefinir a visualização
- Observe o painel Filtrar por propriedades no lado esquerdo da tela.
- Role a tela para baixo e expanda a seção Governança de recursos de dados (que representa o tipo de aspecto criado).
- Em Sensibilidade dos dados, marque a caixa
Internal. - Os resultados da pesquisa serão atualizados para mostrar a tabela
retail_data.transactions.

Não importa se você usa a consulta digitada ou os filtros da interface, o mecanismo subjacente é o mesmo.
Isso demonstra a diferença fundamental entre o Dataplex e uma wiki simples: seus metadados são uma estrutura consultável. Agora é possível criar auditorias automatizadas, por exemplo, "Encontre todas as tabelas em que last_review_date é > 1 ano atrás") usando essa estrutura previsível.
7. Como limpar seu ambiente
Para evitar cobranças contínuas, exclua os recursos criados neste codelab.
Excluir o conjunto de dados do BigQuery
Esse comando é irreversível e usa a flag -f (forçar) para remover o conjunto de dados e todas as tabelas sem confirmação.
# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)
# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data
Excluir artefatos do Dataplex
- Acesse Interface do Dataplex Universal Catalog > Gerenciar metadados > Catálogo.
- Em Tipos de aspectos e modelos de tag, selecione o tipo de aspecto data_asset_governance e exclua-o.
- Navegue até Gerenciar metadados > Glossários, selecione o
Retail Business Glossarye exclua. Exclua o termoGross Merchandise Valueprimeiro e o glossário depois.
8. Parabéns!
Você já passou da simples inclusão de tags de dados e estabeleceu um modelo de governança estruturado e fundamental no Dataplex.
Você aprendeu que:
- Os glossários resolvem a ambiguidade dos negócios.
- Os tipos de aspecto fornecem o contrato de esquema para metadados técnicos.
- Os aspectos aplicam esse esquema às entradas de dados reais.
- A Pesquisa do Dataplex usa esses metadados estruturados para uma descoberta precisa.
A seguir
- Governança como código:use o provedor do Terraform do Google Cloud para definir seus tipos de aspectos e glossários no controle de versão, garantindo esquemas consistentes em ambientes de desenvolvimento/teste/produção.
- Tagging automático:escreva uma função do Cloud ou uma etapa do Cloud Build acionada pela criação de um novo conjunto de dados que anexe automaticamente o aspecto "Governança de recursos de dados" com valores padrão (por exemplo,
sensitivity=Internal, steward=TBD), sinalizando para revisão.