1. Introduzione
In qualità di sviluppatori e data engineer, spesso ereditiamo grandi raccolte di dati che assomigliano più a paludi di dati. Ci troviamo ripetutamente di fronte agli stessi punti di attrito: "Qual è la definizione effettiva di questa colonna "amt"?", "Chi è responsabile se questo set di dati non funziona?" o "Possiamo utilizzare questa tabella nel motore di consigli personalizzati?"
Tradizionalmente, i cataloghi di dati sono inventari passivi pieni di tag di testo libero che diventano rapidamente incoerenti e obsoleti. Non impongono una struttura, rendendo la governance programmatica quasi impossibile.
Per rendere il tutto più pratico, in questo lab esamineremo uno scenario: la creazione di una governance solida sui dati grezzi delle vendite al dettaglio, in modo che possano essere considerati attendibili da un reparto finanziario per la creazione di report ufficiali. Questi dati passeranno da uno stato ambiguo di "palude" a un prodotto gestito.
Dataplex Universal Catalog cambia questa situazione fornendo un framework di gestione dei metadati attivo e strutturato. Consente di collegare metadati strutturati basati su schemi (Aspetti) e definizioni aziendali accettate (Glossari) direttamente agli asset di dati (Voci).
Prima di poter scrivere script Python o moduli Terraform per automatizzare questa operazione su larga scala, devi comprendere il modello di oggetti sottostante.
In questo codelab, eseguiremo manualmente i passaggi di governance nella console Google Cloud. Collegheremo esplicitamente le voci, i tipi di aspetti, gli aspetti e i glossari per fornirti un modello mentale solido su come rendere i tuoi dati rilevabili, comprensibili e affidabili.
Prerequisiti
- Un progetto Google Cloud con accesso Proprietario o Editor.
- Familiarità con la console Google Cloud.
- Competenze di base nell'utilizzo di gcloud e bq CLI in Cloud Shell.
Cosa imparerai a fare
- La distinzione fondamentale tra una voce Dataplex, un tipo di aspetto e un aspetto.
- Come creare un glossario aziendale per risolvere l'ambiguità della terminologia.
- Come progettare un tipo di aspetto per applicare uno schema rigoroso per i metadati tecnici (andando oltre i "tag").
- Come collegare un termine del glossario aziendale a una colonna BigQuery specifica.
- Come collegare un aspetto strutturato a un asset di dati e convalidare gli input.
- Come eseguire query di ricerca precise su questi nuovi metadati strutturati.
Che cosa ti serve
- Un account Google Cloud e un progetto Google Cloud
- Un browser web come Chrome
Concetti fondamentali
- Voce: la rappresentazione canonica e astratta di un asset di dati nel catalogo. Consideralo come il "puntatore" o il "sostantivo". Quando crei una tabella BigQuery, Dataplex crea automaticamente una voce. Non governiamo direttamente la tabella, ma la sua voce.
- Glossario aziendale:un dizionario centralizzato e con controllo delle versioni dei termini aziendali della tua organizzazione. È l'unica fonte attendibile. Evita il problema "Le vendite definiscono il GMV in modo diverso rispetto alla finanza".
- Tipo di aspetto:lo schema o il modello per una categoria specifica di metadati. Un tipo di aspetto definisce campi, tipi di dati (stringa, enum, datetime e così via) e vincoli (obbligatori/facoltativi). È il contratto che garantisce la coerenza dei metadati.
- Aspetto:un metadato specifico allegato a una voce che segue la struttura definita dal tipo di aspetto. Contiene i dati effettivi che soddisfano lo schema del tipo di aspetto.
2. Configurazione e requisiti
Avvia Cloud Shell
Sebbene Google Cloud possa essere gestito da remoto dal tuo laptop, in questo codelab utilizzerai Google Cloud Shell, un ambiente a riga di comando in esecuzione nel cloud.
Nella console Google Cloud, fai clic sull'icona di Cloud Shell nella barra degli strumenti in alto a destra:

Bastano pochi istanti per eseguire il provisioning e connettersi all'ambiente. Al termine, dovresti vedere un risultato simile a questo:

Questa macchina virtuale è caricata con tutti gli strumenti di sviluppo di cui avrai bisogno. Offre una home directory permanente da 5 GB e viene eseguita su Google Cloud, migliorando notevolmente le prestazioni di rete e l'autenticazione. Tutto il lavoro in questo codelab può essere svolto all'interno di un browser. Non devi installare nulla.
Abilita le API richieste e configura l'ambiente
Esegui questi comandi per impostare l'ID progetto, definire la regione e abilitare le API di servizio necessarie.
export PROJECT_ID=$(gcloud config get-value project)
gcloud config set project $PROJECT_ID
export LOCATION="us-central1"
gcloud services enable dataplex.googleapis.com \
bigquery.googleapis.com \
datacatalog.googleapis.com
Crea un set di dati BigQuery e prepara i dati di esempio
Abbiamo bisogno di un asset di dati concreto da gestire. Creeremo un set di dati BigQuery e caricheremo un piccolo campione CSV che rappresenta le transazioni. Dataplex rileverà automaticamente questa tabella e creerà una voce per essa.
# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
--description "Retail data for governance codelab" \
$PROJECT_ID:retail_data
# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv
# Load the data from the temporary CSV file into BigQuery
bq load \
--source_format=CSV \
--autodetect \
retail_data.transactions \
/tmp/transactions.csv
# (Optional) Clean up the temporary file
rm /tmp/transactions.csv
Verifica la configurazione eseguendo una query rapida:
bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"
3. Stabilire un linguaggio comune con un glossario aziendale
Una governance efficace inizia con definizioni inequivocabili. Se uno sviluppatore vede una colonna denominata gmv, non deve indovinare se include tasse o resi. Un glossario aziendale risolve questo problema separando la definizione aziendale dall'implementazione tecnica.
- Nella console Google Cloud, vai a Dataplex Universal Catalog.
- Nel menu di navigazione a sinistra, seleziona Glossari (in Gestisci metadati).

- Fai clic su Crea glossario aziendale.
- Inserisci i seguenti dettagli:
- Nome:
Retail Business Glossary - Posizione:
us-central1(o la posizione definita durante la configurazione).
- Nome:
- Fai clic su Crea.

- Fai clic sul Glossario aziendale per la vendita al dettaglio appena creato per aprirlo.

- Fai clic su Crea categoria, assegnale il nome
Sales Metrics, quindi fai clic su Crea. Le categorie consentono di raggruppare i termini correlati. - Seleziona la categoria
Sales Metricse fai clic su Aggiungi termine, quindi assegna il nomeGross Merchandise Valuee fai clic su Crea. - Fai clic sul pulsante + Aggiungi nella panoramica, quindi inserisci i seguenti dettagli:
- Panoramica:
The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.
- Panoramica:
- Fai clic su Salva.

Ora hai stabilito una definizione chiara che può essere collegata alle risorse tecniche della tua organizzazione.
4. Definisci metadati tecnici strutturati con un tipo di aspetto
I tag semplici "chiave:valore" non sono sufficienti per la precisione ingegneristica. Se devi monitorare i "Proprietari dei dati", non vuoi che una tabella sia taggata owner:bob e un'altra contact:alice@example.com. Hai bisogno di uno schema per imporre che un proprietario sia obbligatorio e debba essere un formato email valido.
Utilizzeremo un tipo di aspetto per definire questo contratto.
- Nel menu di navigazione a sinistra di Dataplex, in Catalogo, seleziona Tipi di aspetti e modelli di tag.
- Seleziona la scheda Personalizzato e fai clic su Crea tipo di aspetto.

- Inserisci i seguenti dettagli:
- Nome visualizzato:
Data Asset Governance - Località:
us-central1
- Nome visualizzato:
- Nella sezione Modello, definiremo lo schema per il nostro
Aspect. Fai clic su Aggiungi un campo per creare i tre campi seguenti:- Campo 1:
- Nome visualizzato:
Data Steward - Tipo:
Text - Tipo di testo:
Plain text - Cardinalità: è obbligatoria (seleziona la casella)
- Nome visualizzato:
- Campo 2 (fai di nuovo clic su Aggiungi un campo):
- Nome visualizzato:
Data Sensitivity - Tipo:
Enum - Valori: aggiungi
Public,InternaleConfidential - Cardinalità: facoltativo
- Nome visualizzato:
- Campo 3 (fai di nuovo clic su Aggiungi un campo):
- Nome visualizzato:
Last Review Date - Tipo:
Date and time - Cardinalità: facoltativo
- Nome visualizzato:
- Campo 1:
- Fai clic su Salva.

Hai appena creato un contratto di metadati riutilizzabile. Ancora non viene utilizzato da nessuno, ma la struttura esiste.
5. Collegamento della governance all'asset
Ora mettiamo tutto insieme. Abbiamo una tabella BigQuery (retail_data.transactions), una definizione aziendale (Gross Merchandise Value) e uno schema di governance (Data Asset Governance).
Arricchiremo la voce Dataplex per la tabella BigQuery.
Arricchire lo schema con il contesto aziendale (a livello di colonna)
Spieghiamo agli utenti cosa significa effettivamente la colonna gmv collegandola al glossario.
- Nel menu di navigazione a sinistra di Dataplex, fai clic su Cerca.
- In alto a destra, fai clic sulla scheda Dataplex Universal Catalog se non è stata attivata.

- Cerca
retail_data.transactions. Fai clic sul risultato per la tabella BigQuery.

- Fai clic sulla scheda Schema all'interno dei dettagli della voce.
- Seleziona la casella di controllo della riga della colonna
gmve fai clic su Aggiungi termine commerciale. - Seleziona il termine
Gross Merchandise Value.

La colonna gmv non è più solo un "FLOAT", ma è ora collegata alla definizione aziendale di Gross Merchandise Value.
Arricchisci la voce con metadati tecnici strutturati (a livello di tabella)
Successivamente, collegheremo l'Data Asset Governance aspetto alla tabella per definire la proprietà e la sensibilità.
- Rimani nella pagina della voce
retail_data.transactions. - Fai clic sulla scheda Aggiungi tag o aspetto, poi seleziona il tipo
Data Asset Governancedal menu a discesa.

- Il modulo ora mostra i campi definiti nello schema del tipo di aspetto. Compilali come segue:
- Data Steward:
finance-team@example.com - Sensibilità dei dati:seleziona
Internal. - Data dell'ultima revisione:seleziona la data odierna.
- Data Steward:
- Fai clic su Salva.

Hai allegato correttamente un aspetto strutturato alla voce. A differenza di un semplice tag, questi dati vengono convalidati in base allo schema che hai creato.
6. Individuazione e verifica unificate
Non abbiamo fatto questo lavoro solo per compilare moduli. L'abbiamo fatto per rendere i dati rilevabili e affidabili. Vediamo come questi metadati cambiano l'esperienza degli sviluppatori per la ricerca e l'esplorazione.
Torna alla pagina principale Cerca in Dataplex Universal Catalog.
Immagina di essere un tecnico di piattaforma che applica la governance. Devi trovare tutti gli asset contrassegnati come "Interno" regolati dal tuo tipo di aspetto specifico. Devi utilizzare predicati precisi in base al tuo schema.
Puoi verificarlo in due modi: utilizzando una sintassi di query precisa (essenziale per l'automazione) o utilizzando filtri interattivi della UI.
Metodo 1: verifica tramite query strutturata
- Nella barra di ricerca (in modalità di ricerca Parola chiave), inserisci la seguente query strutturata.
aspect:data-asset-governance.data-sensitivity=Internal
- Dovresti visualizzare la tabella
retail_data.transactions.

Metodo 2: verifica tramite le sfaccettature dei filtri dell'interfaccia utente
- Cancella la barra di ricerca per reimpostare la visualizzazione.
- Guarda il riquadro Filtra per proprietà sul lato sinistro dello schermo.
- Scorri verso il basso ed espandi la sezione Governance degli asset di dati (che rappresenta il tipo di aspetto che hai creato).
- In Sensibilità dei dati, seleziona la casella
Internal. - I risultati di ricerca verranno aggiornati per mostrare la tabella
retail_data.transactions.

Che tu utilizzi la query digitata o i filtri dell'interfaccia utente, il meccanismo sottostante è lo stesso.
Ciò dimostra la differenza fondamentale tra Dataplex e una semplice wiki: i metadati sono una struttura interrogabile. Ora puoi creare audit automatizzati (ad es. "Trova tutte le tabelle in cui last_review_date è > 1 anno fa") basandosi su questa struttura prevedibile.
7. Pulizia dell'ambiente
Per evitare addebiti continui, elimina le risorse create in questo codelab.
Elimina il set di dati BigQuery
Questo comando è irreversibile e utilizza il flag -f (forza) per rimuovere il set di dati e tutte le relative tabelle senza conferma.
# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)
# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data
Eliminare gli artefatti Dataplex
- Vai a UI di Dataplex Universal Catalog > Gestisci metadati > Catalogo.
- In Tipi di aspetti e modelli di tag, seleziona il tipo di aspetto data_asset_governance ed eliminalo.
- Vai a Gestisci metadati > Glossari, seleziona
Retail Business Glossaryed eliminalo. Assicurati di eliminare prima il termineGross Merchandise Valueed eliminare il glossario in un secondo momento.
8. Complimenti!
Hai superato la semplice etichettatura dei dati e hai stabilito un modello di governance strutturato e di base in Dataplex.
Hai imparato che:
- I glossari risolvono l'ambiguità aziendale.
- I tipi di aspetto forniscono il contratto dello schema per i metadati tecnici.
- Gli aspetti applicano questo schema alle voci di dati effettive.
- Dataplex Search utilizza questi metadati strutturati per un rilevamento preciso.
Passaggi successivi
- Governance as Code: utilizza il provider Terraform Google Cloud per definire i tipi di aspetti e i glossari nel controllo della versione, garantendo schemi coerenti negli ambienti di sviluppo/test/produzione.
- Tagging automatica:scrivi una funzione Cloud o un passaggio di Cloud Build attivato dalla creazione di un nuovo set di dati che associa automaticamente l'aspetto "Governance degli asset di dati" con valori predefiniti (ad es.
sensitivity=Internal, steward=TBD), contrassegnandolo per la revisione.