Governança fundamental com o Dataplex Universal Catalog: como começar

1. Introdução

Como desenvolvedores e engenheiros de dados, muitas vezes herdamos grandes coleções de dados que parecem mais pântanos de dados. Enfrentamos os mesmos pontos de atrito repetidamente: "Qual é a definição real dessa coluna 'amt'?", "Quem é o responsável se esse conjunto de dados quebrar?" ou "Podemos usar essa tabela no mecanismo de recomendação personalizada?"

Tradicionalmente, os catálogos de dados são inventários passivos preenchidos com tags de texto livre que rapidamente se tornam inconsistentes e desatualizadas. Eles não impõem uma estrutura, tornando a governança programática quase impossível.

Para tornar isso prático, vamos trabalhar em um cenário neste laboratório: estabelecer uma governança robusta sobre dados brutos de vendas no varejo para que possam ser confiáveis por um departamento financeiro para relatórios oficiais. Você vai mover esses dados de um estado ambíguo de "pântano" para um produto governado.

O Dataplex Universal Catalog muda isso fornecendo um framework de gerenciamento de metadados ativo e estruturado. Ele permite anexar metadados estruturados e orientados por esquema (Aspectos) e definições de negócios aceitas (Glossários) diretamente aos seus recursos de dados (Entradas).

Antes de gravar scripts Python ou módulos do Terraform para automatizar isso em escala, é necessário entender o modelo de objeto subjacente.

Neste codelab, vamos executar as etapas de governança manualmente no console do Google Cloud. Vamos conectar explicitamente os pontos entre entradas, tipos de aspecto, aspectos e glossários para oferecer um modelo mental sólido de como tornar seus dados detectáveis, compreensíveis e confiáveis.

Pré-requisitos

  • Um projeto do Google Cloud com acesso de proprietário ou edição.
  • Console do Google Cloud.
  • Habilidades básicas da CLI gcloud e bq no Cloud Shell.

O que você vai aprender

  • A distinção crucial entre uma entrada, um tipo de aspecto e um aspecto do Dataplex.
  • Como criar um glossário de negócios para resolver a ambiguidade na terminologia.
  • Como criar um tipo de aspecto para aplicar um esquema estrito para metadados técnicos (além das "tags").
  • Como vincular um termo do glossário de negócios a uma coluna específica do BigQuery.
  • Como anexar um aspecto estruturado a um recurso de dados e validar entradas.
  • Como executar consultas de pesquisa precisas em relação a esses novos metadados estruturados.

O que é necessário

  • Uma conta e um projeto do Google Cloud
  • Um navegador da Web, como o Chrome

Conceitos principais

  • Entrada:a representação canônica e abstrata de um recurso de dados no catálogo. Pense nisso como o "ponteiro" ou o "substantivo". Quando você cria uma tabela do BigQuery, o Dataplex cria automaticamente uma entrada para ela. Não governamos a tabela diretamente, mas sim a entrada dela.
  • Glossário de negócios:um dicionário centralizado e versionado dos termos comerciais da sua organização. É a única fonte de verdade. Ele evita o problema "As vendas definem o GMV de maneira diferente das finanças".
  • Tipo de aspecto:o esquema ou modelo para uma categoria específica de metadados. Um tipo de aspecto define campos, tipos de dados (string, enum, datetime etc.) e restrições (obrigatório/opcional). É o contrato que garante a consistência dos metadados.
  • Aspecto:uma parte específica de metadados anexada a uma entrada que segue a estrutura definida pelo tipo de aspecto. Ele contém os dados reais que atendem ao esquema do tipo de aspecto.

2. Configuração e requisitos

Iniciar Cloud Shell

Embora o Google Cloud e o Spanner possam ser operados remotamente do seu laptop, neste codelab usaremos o Google Cloud Shell, um ambiente de linha de comando executado no Cloud.

No Console do Google Cloud, clique no ícone do Cloud Shell na barra de ferramentas superior à direita:

Ativar o Cloud Shell

O provisionamento e a conexão com o ambiente levarão apenas alguns instantes para serem concluídos: Quando o processamento for concluído, você verá algo como:

Captura de tela do terminal do Google Cloud Shell mostrando que o ambiente foi conectado

Essa máquina virtual contém todas as ferramentas de desenvolvimento necessárias. Ela oferece um diretório principal persistente de 5 GB, além de ser executada no Google Cloud. Isso aprimora o desempenho e a autenticação da rede. Neste codelab, todo o trabalho pode ser feito com um navegador. Você não precisa instalar nada.

Ativar as APIs necessárias e configurar o ambiente

Execute os comandos a seguir para definir o ID do projeto, definir a região e ativar as APIs de serviço necessárias.

export PROJECT_ID=$(gcloud config get-value project)
gcloud config set project $PROJECT_ID
export LOCATION="us-central1"

gcloud services enable dataplex.googleapis.com \
                       bigquery.googleapis.com \
                       datacatalog.googleapis.com

Criar um conjunto de dados do BigQuery e preparar dados de amostra

Precisamos de um recurso de dados concreto para governar. Vamos criar um conjunto de dados do BigQuery e carregar um pequeno exemplo de CSV que representa transações. O Dataplex vai descobrir automaticamente essa tabela e criar uma entrada para ela.

# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
    --description "Retail data for governance codelab" \
    $PROJECT_ID:retail_data

# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv

# Load the data from the temporary CSV file into BigQuery
bq load \
    --source_format=CSV \
    --autodetect \
    retail_data.transactions \
    /tmp/transactions.csv

# (Optional) Clean up the temporary file
rm /tmp/transactions.csv

Para verificar a configuração, execute uma consulta rápida:

bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"

3. Estabelecer uma linguagem comum com um glossário de negócios

A governança eficaz começa com definições inequívocas. Se um desenvolvedor vir uma coluna chamada gmv, ele não precisará adivinhar se ela inclui impostos ou retornos. Um glossário de negócios resolve isso desvinculando a definição de negócios da implementação técnica.

  1. No console do Google Cloud, acesse o Dataplex Universal Catalog.
  2. No menu de navegação à esquerda, selecione Glossários (em Gerenciar metadados).

96020207ba4bd128.png

  1. Clique em Criar glossário empresarial.
  2. Digite os seguintes detalhes:
    • Nome: Retail Business Glossary
    • Local: us-central1 (ou o local definido na configuração).
  3. Clique em Criar.

e3b146e5f3b57785.png

  1. Clique no glossário de negócios de varejo recém-criado para acessá-lo.

c98bdf049e946234.png

  1. Clique em Criar categoria e nomeie-a como Sales Metrics e clique em Criar. As categorias ajudam a agrupar termos relacionados.
  2. Selecione a categoria Sales Metrics e clique em Adicionar termo, nomeie-a como Gross Merchandise Value e clique em Criar
  3. Clique no botão "Adicionar" na visão geral e preencha os seguintes detalhes:
    • Visão geral The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.
  4. Clique em Salvar.

3a642fd2a41c040e.png

Agora você estabeleceu uma definição clara que pode ser vinculada a recursos técnicos em toda a organização.

4. Definir metadados técnicos estruturados com um tipo de aspecto

As tags simples "chave:valor" são insuficientes para a rigorosidade da engenharia. Se você precisar rastrear "Proprietários de dados", não vai querer uma tabela marcada como owner:bob e outra contact:alice@example.com. Você precisa de um esquema para aplicar que um proprietário seja obrigatório e precise estar em um formato de e-mail válido.

Vamos usar um tipo de aspecto para definir esse contrato.

  1. Na navegação à esquerda do Dataplex, em Catálogo, selecione Tipos de aspecto e modelos de tag.
  1. Selecione a guia Personalizado e clique em Criar tipo de aspecto.

a920c555d40425a.png

  1. Digite os seguintes detalhes:
    • Nome de exibição: Data Asset Governance
    • Local: us-central1
  2. Na seção Modelo, vamos definir o esquema do nosso Aspect. Clique em Adicionar um campo para criar os três campos a seguir:
    • Campo 1:
      • Nome de exibição: Data Steward
      • Tipo: Text
      • Tipo de texto: Plain text
      • Cardinalidade: é obrigatório (marque a caixa)
    • Campo 2 (clique em Adicionar um campo novamente):
      • Nome de exibição: Data Sensitivity
      • Tipo: Enum
      • Valores: adicione Public, Internal, e Confidential
      • Cardinalidade: opcional
    • Campo 3 (clique em Adicionar um campo novamente):
      • Nome de exibição: Last Review Date
      • Tipo: Date and time
      • Cardinalidade: opcional
  3. Clique em Salvar.

20babd75c2b8dce6.png

Você acabou de criar um contrato de metadados reutilizável. Nada o usa ainda, mas a estrutura existe.

5. Como conectar a governança ao recurso

Agora vamos juntar tudo. Temos uma tabela do BigQuery (retail_data.transactions), uma definição de negócios (Gross Merchandise Value) e um esquema de governança (Data Asset Governance).

Vamos enriquecer a entrada do Dataplex para a tabela do BigQuery.

Enriquecer o esquema com o contexto de negócios (nível da coluna)

Vamos informar aos usuários o que a coluna gmv realmente significa, vinculando-a ao glossário.

  1. Na navegação à esquerda do Dataplex, clique em Pesquisar.
  2. No lado superior direito, clique na guia Dataplex Universal Catalog se ela não estiver ativada.

849a24e7b1a86a19.png

  1. Pesquise retail_data.transactions. Clique no resultado da tabela do BigQuery.

54d3edd1520593a9.png

  1. Clique na guia Esquema nos detalhes da entrada.
  2. Marque a caixa de seleção da linha da coluna gmv e clique em Adicionar termo comercial.
  3. Selecione o termo Gross Merchandise Value.

64768eecf630c90b.png

A coluna gmv não é mais apenas um "FLOAT". Agora ela está vinculada à definição corporativa de Gross Merchandise Value.

Enriquecer a entrada com metadados técnicos estruturados (nível da tabela)

Em seguida, vamos anexar o aspecto Data Asset Governance à tabela para definir a propriedade e a sensibilidade.

  1. Permaneça na página de entrada retail_data.transactions.
  2. Clique na guia Adicionar tag ou aspecto e selecione o tipo Data Asset Governance no menu suspenso.

4b770307159a28d8.png

  1. O formulário agora vai mostrar os campos definidos no esquema do tipo de aspecto. Preencha-os da seguinte maneira:
    • Administrador de dados: finance-team@example.com
    • Sensibilidade de dados:selecione Internal.
    • Data da última revisão:selecione a data de hoje.
  2. Clique em Salvar.

f953c5569520d42a.png

Você anexou um aspecto estruturado à entrada. Ao contrário de uma tag simples, esses dados são validados em relação ao esquema criado.

6. Descoberta e verificação unificadas

Não fizemos esse trabalho apenas para preencher formulários. Fizemos isso para tornar os dados detectáveis e confiáveis. Vamos ver como esses metadados mudam a experiência do desenvolvedor para pesquisa e descoberta.

Volte para a página principal Pesquisar no Dataplex Universal Catalog.

Imagine que você é um engenheiro de plataforma que aplica a governança. Você precisa encontrar todos os recursos marcados como "Interno" que são regidos pelo seu tipo de aspecto específico. É necessário usar predicados precisos com base no seu esquema.

Você pode verificar isso de duas maneiras: usando uma sintaxe de consulta precisa (essencial para automação) ou usando filtros interativos da interface.

Método 1: verificar usando uma consulta estruturada

  1. Na barra de pesquisa (no modo de pesquisa Palavra-chave), insira a seguinte consulta estruturada.
aspect:data-asset-governance.data-sensitivity=Internal
  1. A tabela retail_data.transactions vai aparecer.

49120fe4ea224359.png

Método 2: verificar usando as facetas de filtro da interface

  1. Limpe a barra de pesquisa para redefinir a visualização.
  2. Observe o painel Filtrar por propriedades no lado esquerdo da tela.
  3. Role para baixo e expanda a seção Governança de recursos de dados (que representa o tipo de aspecto criado).
  4. Em Sensibilidade de dados, marque a caixa de seleção Internal.
  5. Os resultados da pesquisa serão atualizados para mostrar a tabela retail_data.transactions.

4df224cb06720ec4.png

Se você usar a consulta digitada ou os filtros da interface, o mecanismo subjacente será o mesmo.

Isso demonstra a diferença fundamental entre o Dataplex e uma wiki simples: seus metadados são uma estrutura consultável. Agora você pode criar auditorias automatizadas (por exemplo, "Encontrar todas as tabelas em que last_review_date é > 1 ano atrás") com base nessa estrutura previsível.

7. Limpar o ambiente

Para evitar cobranças contínuas, exclua os recursos criados neste codelab.

Excluir o conjunto de dados do BigQuery

Esse comando é irreversível e usa a flag -f (forçar) para remover o conjunto de dados e todas as tabelas dele sem confirmação.

# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)

# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data

Excluir artefatos do Dataplex

  1. Acesse Interface do Dataplex Universal Catalog > Gerenciar metadados > Catálogo.
  2. Em Tipos de aspecto e modelos de tag , selecione o tipo de aspecto data_asset_governance e exclua-o.
  3. Acesse Gerenciar metadados > Glossários , selecione o Retail Business Glossary e exclua-o. Exclua o termo Gross Merchandise Value primeiro e exclua o glossário mais tarde.

8. Parabéns!

Você foi além da simples marcação de dados e estabeleceu um modelo de governança estruturado e fundamental no Dataplex.

Você aprendeu que:

  • Os glossários resolvem a ambiguidade comercial.
  • Os tipos de aspecto fornecem o contrato de esquema para metadados técnicos.
  • Os aspectos aplicam esse esquema às entradas de dados reais.
  • A pesquisa do Dataplex usa esses metadados estruturados para uma descoberta precisa.

Próximas etapas

  • Governança como código: use o provedor do Google Cloud Terraform para definir seus tipos de aspecto e glossários no controle de versões, garantindo esquemas consistentes em ambientes de desenvolvimento/teste/produção.
  • Marcação automática:grave uma etapa do Cloud Functions ou do Cloud Build acionada pela criação de um novo conjunto de dados que anexa automaticamente o aspecto "Governança de recursos de dados" com valores padrão (por exemplo, sensitivity=Internal, steward=TBD), marcando-o para revisão.