1. Introdução
Como desenvolvedores e engenheiros de dados, muitas vezes herdamos grandes coleções de dados que parecem mais pântanos de dados. Enfrentamos os mesmos pontos de atrito repetidamente: "Qual é a definição real dessa coluna 'amt'?", "Quem é o responsável se esse conjunto de dados quebrar?" ou "Podemos usar essa tabela no mecanismo de recomendação personalizada?"
Tradicionalmente, os catálogos de dados são inventários passivos preenchidos com tags de texto livre que rapidamente se tornam inconsistentes e desatualizadas. Eles não impõem uma estrutura, tornando a governança programática quase impossível.
Para tornar isso prático, vamos trabalhar em um cenário neste laboratório: estabelecer uma governança robusta sobre dados brutos de vendas no varejo para que possam ser confiáveis por um departamento financeiro para relatórios oficiais. Você vai mover esses dados de um estado ambíguo de "pântano" para um produto governado.
O Dataplex Universal Catalog muda isso fornecendo um framework de gerenciamento de metadados ativo e estruturado. Ele permite anexar metadados estruturados e orientados por esquema (Aspectos) e definições de negócios aceitas (Glossários) diretamente aos seus recursos de dados (Entradas).
Antes de gravar scripts Python ou módulos do Terraform para automatizar isso em escala, é necessário entender o modelo de objeto subjacente.
Neste codelab, vamos executar as etapas de governança manualmente no console do Google Cloud. Vamos conectar explicitamente os pontos entre entradas, tipos de aspecto, aspectos e glossários para oferecer um modelo mental sólido de como tornar seus dados detectáveis, compreensíveis e confiáveis.
Pré-requisitos
- Um projeto do Google Cloud com acesso de proprietário ou edição.
- Console do Google Cloud.
- Habilidades básicas da CLI gcloud e bq no Cloud Shell.
O que você vai aprender
- A distinção crucial entre uma entrada, um tipo de aspecto e um aspecto do Dataplex.
- Como criar um glossário de negócios para resolver a ambiguidade na terminologia.
- Como criar um tipo de aspecto para aplicar um esquema estrito para metadados técnicos (além das "tags").
- Como vincular um termo do glossário de negócios a uma coluna específica do BigQuery.
- Como anexar um aspecto estruturado a um recurso de dados e validar entradas.
- Como executar consultas de pesquisa precisas em relação a esses novos metadados estruturados.
O que é necessário
- Uma conta e um projeto do Google Cloud
- Um navegador da Web, como o Chrome
Conceitos principais
- Entrada:a representação canônica e abstrata de um recurso de dados no catálogo. Pense nisso como o "ponteiro" ou o "substantivo". Quando você cria uma tabela do BigQuery, o Dataplex cria automaticamente uma entrada para ela. Não governamos a tabela diretamente, mas sim a entrada dela.
- Glossário de negócios:um dicionário centralizado e versionado dos termos comerciais da sua organização. É a única fonte de verdade. Ele evita o problema "As vendas definem o GMV de maneira diferente das finanças".
- Tipo de aspecto:o esquema ou modelo para uma categoria específica de metadados. Um tipo de aspecto define campos, tipos de dados (string, enum, datetime etc.) e restrições (obrigatório/opcional). É o contrato que garante a consistência dos metadados.
- Aspecto:uma parte específica de metadados anexada a uma entrada que segue a estrutura definida pelo tipo de aspecto. Ele contém os dados reais que atendem ao esquema do tipo de aspecto.
2. Configuração e requisitos
Iniciar Cloud Shell
Embora o Google Cloud e o Spanner possam ser operados remotamente do seu laptop, neste codelab usaremos o Google Cloud Shell, um ambiente de linha de comando executado no Cloud.
No Console do Google Cloud, clique no ícone do Cloud Shell na barra de ferramentas superior à direita:

O provisionamento e a conexão com o ambiente levarão apenas alguns instantes para serem concluídos: Quando o processamento for concluído, você verá algo como:

Essa máquina virtual contém todas as ferramentas de desenvolvimento necessárias. Ela oferece um diretório principal persistente de 5 GB, além de ser executada no Google Cloud. Isso aprimora o desempenho e a autenticação da rede. Neste codelab, todo o trabalho pode ser feito com um navegador. Você não precisa instalar nada.
Ativar as APIs necessárias e configurar o ambiente
Execute os comandos a seguir para definir o ID do projeto, definir a região e ativar as APIs de serviço necessárias.
export PROJECT_ID=$(gcloud config get-value project)
gcloud config set project $PROJECT_ID
export LOCATION="us-central1"
gcloud services enable dataplex.googleapis.com \
bigquery.googleapis.com \
datacatalog.googleapis.com
Criar um conjunto de dados do BigQuery e preparar dados de amostra
Precisamos de um recurso de dados concreto para governar. Vamos criar um conjunto de dados do BigQuery e carregar um pequeno exemplo de CSV que representa transações. O Dataplex vai descobrir automaticamente essa tabela e criar uma entrada para ela.
# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
--description "Retail data for governance codelab" \
$PROJECT_ID:retail_data
# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv
# Load the data from the temporary CSV file into BigQuery
bq load \
--source_format=CSV \
--autodetect \
retail_data.transactions \
/tmp/transactions.csv
# (Optional) Clean up the temporary file
rm /tmp/transactions.csv
Para verificar a configuração, execute uma consulta rápida:
bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"
3. Estabelecer uma linguagem comum com um glossário de negócios
A governança eficaz começa com definições inequívocas. Se um desenvolvedor vir uma coluna chamada gmv, ele não precisará adivinhar se ela inclui impostos ou retornos. Um glossário de negócios resolve isso desvinculando a definição de negócios da implementação técnica.
- No console do Google Cloud, acesse o Dataplex Universal Catalog.
- No menu de navegação à esquerda, selecione Glossários (em Gerenciar metadados).

- Clique em Criar glossário empresarial.
- Digite os seguintes detalhes:
- Nome:
Retail Business Glossary - Local:
us-central1(ou o local definido na configuração).
- Nome:
- Clique em Criar.

- Clique no glossário de negócios de varejo recém-criado para acessá-lo.

- Clique em Criar categoria e nomeie-a como
Sales Metricse clique em Criar. As categorias ajudam a agrupar termos relacionados. - Selecione a categoria
Sales Metricse clique em Adicionar termo, nomeie-a comoGross Merchandise Valuee clique em Criar - Clique no botão "Adicionar" na visão geral e preencha os seguintes detalhes:
- Visão geral
The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.
- Visão geral
- Clique em Salvar.

Agora você estabeleceu uma definição clara que pode ser vinculada a recursos técnicos em toda a organização.
4. Definir metadados técnicos estruturados com um tipo de aspecto
As tags simples "chave:valor" são insuficientes para a rigorosidade da engenharia. Se você precisar rastrear "Proprietários de dados", não vai querer uma tabela marcada como owner:bob e outra contact:alice@example.com. Você precisa de um esquema para aplicar que um proprietário seja obrigatório e precise estar em um formato de e-mail válido.
Vamos usar um tipo de aspecto para definir esse contrato.
- Na navegação à esquerda do Dataplex, em Catálogo, selecione Tipos de aspecto e modelos de tag.
- Selecione a guia Personalizado e clique em Criar tipo de aspecto.

- Digite os seguintes detalhes:
- Nome de exibição:
Data Asset Governance - Local:
us-central1
- Nome de exibição:
- Na seção Modelo, vamos definir o esquema do nosso
Aspect. Clique em Adicionar um campo para criar os três campos a seguir:- Campo 1:
- Nome de exibição:
Data Steward - Tipo:
Text - Tipo de texto:
Plain text - Cardinalidade: é obrigatório (marque a caixa)
- Nome de exibição:
- Campo 2 (clique em Adicionar um campo novamente):
- Nome de exibição:
Data Sensitivity - Tipo:
Enum - Valores: adicione
Public,Internal, eConfidential - Cardinalidade: opcional
- Nome de exibição:
- Campo 3 (clique em Adicionar um campo novamente):
- Nome de exibição:
Last Review Date - Tipo:
Date and time - Cardinalidade: opcional
- Nome de exibição:
- Campo 1:
- Clique em Salvar.

Você acabou de criar um contrato de metadados reutilizável. Nada o usa ainda, mas a estrutura existe.
5. Como conectar a governança ao recurso
Agora vamos juntar tudo. Temos uma tabela do BigQuery (retail_data.transactions), uma definição de negócios (Gross Merchandise Value) e um esquema de governança (Data Asset Governance).
Vamos enriquecer a entrada do Dataplex para a tabela do BigQuery.
Enriquecer o esquema com o contexto de negócios (nível da coluna)
Vamos informar aos usuários o que a coluna gmv realmente significa, vinculando-a ao glossário.
- Na navegação à esquerda do Dataplex, clique em Pesquisar.
- No lado superior direito, clique na guia Dataplex Universal Catalog se ela não estiver ativada.

- Pesquise
retail_data.transactions. Clique no resultado da tabela do BigQuery.

- Clique na guia Esquema nos detalhes da entrada.
- Marque a caixa de seleção da linha da coluna
gmve clique em Adicionar termo comercial. - Selecione o termo
Gross Merchandise Value.

A coluna gmv não é mais apenas um "FLOAT". Agora ela está vinculada à definição corporativa de Gross Merchandise Value.
Enriquecer a entrada com metadados técnicos estruturados (nível da tabela)
Em seguida, vamos anexar o aspecto Data Asset Governance à tabela para definir a propriedade e a sensibilidade.
- Permaneça na página de entrada
retail_data.transactions. - Clique na guia Adicionar tag ou aspecto e selecione o tipo
Data Asset Governanceno menu suspenso.

- O formulário agora vai mostrar os campos definidos no esquema do tipo de aspecto. Preencha-os da seguinte maneira:
- Administrador de dados:
finance-team@example.com - Sensibilidade de dados:selecione
Internal. - Data da última revisão:selecione a data de hoje.
- Administrador de dados:
- Clique em Salvar.

Você anexou um aspecto estruturado à entrada. Ao contrário de uma tag simples, esses dados são validados em relação ao esquema criado.
6. Descoberta e verificação unificadas
Não fizemos esse trabalho apenas para preencher formulários. Fizemos isso para tornar os dados detectáveis e confiáveis. Vamos ver como esses metadados mudam a experiência do desenvolvedor para pesquisa e descoberta.
Volte para a página principal Pesquisar no Dataplex Universal Catalog.
Imagine que você é um engenheiro de plataforma que aplica a governança. Você precisa encontrar todos os recursos marcados como "Interno" que são regidos pelo seu tipo de aspecto específico. É necessário usar predicados precisos com base no seu esquema.
Você pode verificar isso de duas maneiras: usando uma sintaxe de consulta precisa (essencial para automação) ou usando filtros interativos da interface.
Método 1: verificar usando uma consulta estruturada
- Na barra de pesquisa (no modo de pesquisa Palavra-chave), insira a seguinte consulta estruturada.
aspect:data-asset-governance.data-sensitivity=Internal
- A tabela
retail_data.transactionsvai aparecer.

Método 2: verificar usando as facetas de filtro da interface
- Limpe a barra de pesquisa para redefinir a visualização.
- Observe o painel Filtrar por propriedades no lado esquerdo da tela.
- Role para baixo e expanda a seção Governança de recursos de dados (que representa o tipo de aspecto criado).
- Em Sensibilidade de dados, marque a caixa de seleção
Internal. - Os resultados da pesquisa serão atualizados para mostrar a tabela
retail_data.transactions.

Se você usar a consulta digitada ou os filtros da interface, o mecanismo subjacente será o mesmo.
Isso demonstra a diferença fundamental entre o Dataplex e uma wiki simples: seus metadados são uma estrutura consultável. Agora você pode criar auditorias automatizadas (por exemplo, "Encontrar todas as tabelas em que last_review_date é > 1 ano atrás") com base nessa estrutura previsível.
7. Limpar o ambiente
Para evitar cobranças contínuas, exclua os recursos criados neste codelab.
Excluir o conjunto de dados do BigQuery
Esse comando é irreversível e usa a flag -f (forçar) para remover o conjunto de dados e todas as tabelas dele sem confirmação.
# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)
# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data
Excluir artefatos do Dataplex
- Acesse Interface do Dataplex Universal Catalog > Gerenciar metadados > Catálogo.
- Em Tipos de aspecto e modelos de tag , selecione o tipo de aspecto data_asset_governance e exclua-o.
- Acesse Gerenciar metadados > Glossários , selecione o
Retail Business Glossarye exclua-o. Exclua o termoGross Merchandise Valueprimeiro e exclua o glossário mais tarde.
8. Parabéns!
Você foi além da simples marcação de dados e estabeleceu um modelo de governança estruturado e fundamental no Dataplex.
Você aprendeu que:
- Os glossários resolvem a ambiguidade comercial.
- Os tipos de aspecto fornecem o contrato de esquema para metadados técnicos.
- Os aspectos aplicam esse esquema às entradas de dados reais.
- A pesquisa do Dataplex usa esses metadados estruturados para uma descoberta precisa.
Próximas etapas
- Governança como código: use o provedor do Google Cloud Terraform para definir seus tipos de aspecto e glossários no controle de versões, garantindo esquemas consistentes em ambientes de desenvolvimento/teste/produção.
- Marcação automática:grave uma etapa do Cloud Functions ou do Cloud Build acionada pela criação de um novo conjunto de dados que anexa automaticamente o aspecto "Governança de recursos de dados" com valores padrão (por exemplo,
sensitivity=Internal, steward=TBD), marcando-o para revisão.