Grundlegende Governance mit Dataplex Universal Catalog: Erste Schritte

1. Einführung

Als Entwickler und Data Engineers übernehmen wir oft große Datensammlungen, die eher an Datensümpfe erinnern. Wir stoßen immer wieder auf dieselben Probleme: „Was ist die genaue Definition der Spalte ‚Betrag‘?“, „Wer ist verantwortlich, wenn dieses Dataset nicht mehr funktioniert?“ oder „Dürfen wir diese Tabelle in der personalisierten Empfehlungs-Engine verwenden?“

Traditionell sind Data Catalogs passive Inventare, die mit Freitext-Tags gefüllt sind, die schnell inkonsistent und veraltet werden. Sie erzwingen keine Struktur, was die programmatische Governance nahezu unmöglich macht.

Um das zu veranschaulichen, arbeiten wir in diesem Lab ein Szenario durch: Wir richten eine robuste Governance für Rohdaten aus dem Einzelhandel ein, damit sie von der Finanzabteilung für offizielle Berichte verwendet werden können. Sie verschieben diese Daten aus einem mehrdeutigen „Sumpfzustand“ in ein verwaltetes Produkt.

Dataplex Universal Catalog ändert das, indem es ein aktives, strukturiertes Framework für die Metadatenverwaltung bietet. Damit können Sie strukturierte, schemabasierte Metadaten (Aspekte) und akzeptierte Geschäftsdefinitionen (Glossare) direkt an Ihre Daten-Assets (Einträge) anhängen.

Bevor Sie Python-Skripts oder Terraform-Module schreiben können, um diesen Prozess im großen Maßstab zu automatisieren, müssen Sie das zugrunde liegende Objektmodell verstehen.

In diesem Codelab führen wir die Governance-Schritte manuell in der Google Cloud Console aus. Wir stellen explizit die Verbindungen zwischen Einträgen, Aspekttypen, Aspekten und Glossaren her, um Ihnen ein solides mentales Modell zu vermitteln, wie Sie Ihre Daten auffindbar, verständlich und vertrauenswürdig machen.

Voraussetzungen

  • Ein Google Cloud-Projekt mit Inhaber- oder Bearbeiterzugriff.
  • Vertrautheit mit der Google Cloud Console.
  • Grundlegende Kenntnisse der gcloud- und bq-Befehlszeile in Cloud Shell.

Lerninhalte

  • Der entscheidende Unterschied zwischen einem Dataplex-Eintrag, einem Aspekttyp und einem Aspekt.
  • Wie Sie ein Unternehmensglossar erstellen, um Mehrdeutigkeiten in der Terminologie zu beseitigen.
  • Wie Sie einen Aspekttyp entwerfen, um ein strenges Schema für technische Metadaten zu erzwingen (über „Tags“ hinaus).
  • Wie Sie einen Begriff aus dem Unternehmensglossar mit einer bestimmten BigQuery-Spalte verknüpfen.
  • Wie Sie ein strukturiertes Aspect an ein Daten-Asset anhängen und Eingaben validieren.
  • Wie Sie präzise Suchanfragen für diese neuen strukturierten Metadaten ausführen.

Voraussetzungen

  • Ein Google Cloud-Konto und ein Google Cloud-Projekt
  • Ein Webbrowser wie Chrome

Wichtige Konzepte

  • Eintrag:Die kanonische, abstrakte Darstellung eines Daten-Assets im Katalog. Stellen Sie sich das als „Zeiger“ oder „Nomen“ vor. Wenn Sie eine BigQuery-Tabelle erstellen, erstellt Dataplex automatisch einen Eintrag dafür. Wir verwalten die Tabelle nicht direkt, sondern ihren Eintrag.
  • Unternehmensglossar:Ein zentralisiertes, versioniertes Wörterbuch der Geschäftsbegriffe Ihrer Organisation. Es ist die einzige Quelle der Wahrheit. Es verhindert das Problem, dass „die Vertriebsabteilung den GMV anders definiert als die Finanzabteilung“.
  • Aspekttyp:Das Schema oder die Vorlage für eine bestimmte Kategorie von Metadaten. Ein Aspekttyp definiert Felder, Datentypen (String, Enum, Datum/Uhrzeit usw.) und Einschränkungen (erforderlich/optional). Er ist der Vertrag, der die Konsistenz der Metadaten gewährleistet.
  • Aspekt:Ein bestimmtes Metadatenstück, das an einen Eintrag angehängt wird und der Struktur folgt, die durch den Aspekttyp definiert ist. Es enthält die tatsächlichen Daten, die dem Schema des Aspekttyps entsprechen.

2. Einrichtung und Anforderungen

Cloud Shell starten

Während Sie Google Cloud von Ihrem Laptop aus per Fernzugriff nutzen können, verwenden Sie in diesem Codelab Google Cloud Shell, eine Befehlszeilenumgebung, die in der Cloud ausgeführt wird.

Klicken Sie in der Google Cloud Console in der Symbolleiste rechts oben auf das Cloud Shell-Symbol:

Cloud Shell aktivieren

Die Bereitstellung und Verbindung mit der Umgebung sollte nur wenige Augenblicke dauern. Wenn der Vorgang abgeschlossen ist, sollte etwas Ähnliches wie das Folgende angezeigt werden:

Screenshot des Google Cloud Shell-Terminals, auf dem zu sehen ist, dass die Umgebung verbunden ist

Diese virtuelle Maschine verfügt über sämtliche Entwicklertools, die Sie benötigen. Sie bietet ein Basisverzeichnis mit 5 GB nichtflüchtigem Speicher und läuft in Google Cloud, was die Netzwerkleistung und Authentifizierung erheblich verbessert. Alle Aufgaben in diesem Codelab können in einem Browser ausgeführt werden. Sie müssen nichts installieren.

Erforderliche APIs aktivieren und Umgebung konfigurieren

Führen Sie die folgenden Befehle aus, um Ihre Projekt-ID festzulegen, die Region zu definieren und die erforderlichen Dienst-APIs zu aktivieren.

export PROJECT_ID=$(gcloud config get-value project)
gcloud config set project $PROJECT_ID
export LOCATION="us-central1"

gcloud services enable dataplex.googleapis.com \
                       bigquery.googleapis.com \
                       datacatalog.googleapis.com

BigQuery-Dataset erstellen und Beispieldaten vorbereiten

Wir benötigen ein konkretes Daten-Asset, das wir verwalten können. Wir erstellen ein BigQuery-Dataset und laden eine kleine CSV-Beispieldatei mit Transaktionen. Dataplex erkennt diese Tabelle automatisch und erstellt einen Eintrag dafür.

# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
    --description "Retail data for governance codelab" \
    $PROJECT_ID:retail_data

# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv

# Load the data from the temporary CSV file into BigQuery
bq load \
    --source_format=CSV \
    --autodetect \
    retail_data.transactions \
    /tmp/transactions.csv

# (Optional) Clean up the temporary file
rm /tmp/transactions.csv

Überprüfen Sie die Einrichtung, indem Sie eine schnelle Abfrage ausführen:

bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"

3. Mit einem Unternehmensglossar eine gemeinsame Sprache schaffen

Eine effektive Governance beginnt mit eindeutigen Definitionen. Wenn ein Entwickler eine Spalte mit dem Namen gmv sieht, sollte er nicht raten müssen, ob Steuern oder Rückgaben enthalten sind. Ein Unternehmensglossar löst dieses Problem, indem es die Geschäftsdefinition von der technischen Implementierung entkoppelt.

  1. Gehen Sie in der Google Cloud Console zu Dataplex Universal Catalog.
  2. Wählen Sie im linken Navigationsmenü unter „Metadaten verwalten“ die Option Glossare aus.

96020207ba4bd128.png

  1. Klicken Sie auf Unternehmensglossar erstellen.
  2. Geben Sie die folgenden Details ein:
    • Name: Retail Business Glossary
    • Standort: us-central1 oder der Standort, den Sie bei der Einrichtung definiert haben.
  3. Klicken Sie auf Erstellen.

e3b146e5f3b57785.png

  1. Klicken Sie auf das neu erstellte Retail Business Glossary , um es zu öffnen.

c98bdf049e946234.png

  1. Klicken Sie auf Kategorie erstellen und geben Sie Sales Metrics ein. Klicken Sie dann auf Erstellen. Mit Kategorien können Sie verwandte Begriffe gruppieren.
  2. Wählen Sie die Kategorie Sales Metrics aus und klicken Sie auf Begriff hinzufügen. Geben Sie dann Gross Merchandise Value ein und klicken Sie auf Erstellen.
  3. Klicken Sie auf der Übersichtsseite auf die Schaltfläche „+ Hinzufügen“ und geben Sie die folgenden Details ein:
    • Übersicht: The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.
  4. Klicken Sie auf Speichern.

3a642fd2a41c040e.png

Sie haben jetzt eine klare Definition festgelegt, die mit technischen Assets in Ihrer gesamten Organisation verknüpft werden kann.

4. Strukturierte technische Metadaten mit einem Aspekttyp definieren

Einfache „Schlüssel:Wert“-Tags reichen für die technische Genauigkeit nicht aus. Wenn Sie „Dateninhaber“ erfassen müssen, möchten Sie nicht, dass eine Tabelle mit owner:bob und eine andere mit contact:alice@example.com getaggt wird. Sie benötigen ein Schema, um zu erzwingen, dass ein Inhaber erforderlich ist und ein gültiges E-Mail-Format haben muss.

Wir verwenden einen Aspekttyp , um diesen Vertrag zu definieren.

  1. Wählen Sie in der linken Navigationsleiste von Dataplex unter Katalog die Option Aspekttypen und Tag-Vorlagen aus.
  1. Wählen Sie den Tab Benutzerdefiniert aus und klicken Sie auf Aspekttyp erstellen.

a920c555d40425a.png

  1. Geben Sie die folgenden Details ein:
    • Anzeigename: Data Asset Governance
    • Standort: us-central1
  2. Im Abschnitt Vorlage definieren wir das Schema für unseren Aspect. Klicken Sie auf Feld hinzufügen , um die folgenden drei Felder zu erstellen:
    • Feld 1:
      • Anzeigename: Data Steward
      • Typ: Text
      • Texttyp: Plain text
      • Kardinalität: Erforderlich (Kästchen anklicken)
    • Feld 2 (noch einmal auf Feld hinzufügen klicken):
      • Anzeigename: Data Sensitivity
      • Typ: Enum
      • Werte: Public, Internal und Confidential hinzufügen
      • Kardinalität: Optional
    • Feld 3 (noch einmal auf Feld hinzufügen klicken):
      • Anzeigename: Last Review Date
      • Typ: Date and time
      • Kardinalität: Optional
  3. Klicken Sie auf Speichern.

20babd75c2b8dce6.png

Sie haben gerade einen wiederverwendbaren Metadatenvertrag erstellt. Er wird noch nicht verwendet, aber die Struktur ist vorhanden.

5. Governance mit dem Asset verbinden

Jetzt führen wir alles zusammen. Wir haben eine BigQuery-Tabelle (retail_data.transactions), eine Geschäftsdefinition (Gross Merchandise Value) und ein Governance-Schema (Data Asset Governance).

Wir erweitern den Dataplex-Eintrag für die BigQuery-Tabelle.

Schema mit geschäftlichem Kontext erweitern (Spaltenebene)

Wir teilen den Nutzern mit, was die Spalte gmv tatsächlich bedeutet, indem wir sie mit dem Glossar verknüpfen.

  1. Klicken Sie in der linken Navigationsleiste von Dataplex auf Suche.
  2. Klicken Sie rechts oben auf den Tab Dataplex Universal Catalog, falls er nicht aktiviert ist.

849a24e7b1a86a19.png

  1. Suchen Sie nach retail_data.transactions. Klicken Sie auf das Ergebnis für die BigQuery-Tabelle.

54d3edd1520593a9.png

  1. Klicken Sie in den Eintragsdetails auf den Tab Schema.
  2. Klicken Sie das Kästchen in der Zeile der Spalte gmv an und klicken Sie auf Geschäftsbegriff hinzufügen.
  3. Wählen Sie den Begriff Gross Merchandise Value aus.

64768eecf630c90b.png

Die Spalte gmv ist nicht mehr nur ein „FLOAT“, sondern jetzt mit der Unternehmensdefinition von Gross Merchandise Value verknüpft.

Eintrag mit strukturierten technischen Metadaten erweitern (Tabellenebene)

Als Nächstes hängen wir den Aspekt Data Asset Governance an die Tabelle an, um Eigentümerschaft und Vertraulichkeit zu definieren.

  1. Bleiben Sie auf der Eintragsseite retail_data.transactions.
  2. Klicken Sie auf den Tab Tag oder Aspekt hinzufügen und wählen Sie dann im Drop-down-Menü den Typ Data Asset Governance aus.

4b770307159a28d8.png

  1. Im Formular werden jetzt die Felder angezeigt, die in Ihrem Aspekttyp-Schema definiert sind. Füllen Sie sie so aus:
    • Data Steward : finance-team@example.com
    • Data Sensitivity:Wählen Sie Internal aus.
    • Last Review Date:Wählen Sie das heutige Datum aus.
  2. Klicken Sie auf Speichern.

f953c5569520d42a.png

Sie haben dem Eintrag erfolgreich einen strukturierten Aspekt angehängt. Im Gegensatz zu einem einfachen Tag werden diese Daten anhand des von Ihnen erstellten Schemas validiert.

6. Einheitliche Erkennung und Überprüfung

Wir haben diese Arbeit nicht nur erledigt, um Formulare auszufüllen. Wir haben sie erledigt, um Daten auffindbar und vertrauenswürdig zu machen. Sehen wir uns an, wie diese Metadaten die Entwicklererfahrung bei der Suche und Erkennung verändern.

Kehren Sie in Dataplex Universal Catalog zur Hauptseite Suche zurück.

Stellen Sie sich vor, Sie sind ein Plattform-Engineer, der die Governance erzwingt. Sie müssen alle Assets finden, die mit „Internal“ gekennzeichnet sind und von Ihrem spezifischen Aspekttyp verwaltet werden. Sie müssen präzise Prädikate verwenden, die auf Ihrem Schema basieren.

Sie können das auf zwei Arten überprüfen: mit einer präzisen Abfragesyntax (wichtig für die Automatisierung) oder mit interaktiven UI-Filtern.

Methode 1: Über eine strukturierte Abfrage überprüfen

  1. Geben Sie in der Suchleiste (im Suchmodus Keyword) die folgende strukturierte Abfrage ein.
aspect:data-asset-governance.data-sensitivity=Internal
  1. Sie sollten die Tabelle retail_data.transactions sehen.

49120fe4ea224359.png

Methode 2: Über UI-Filterfacetten überprüfen

  1. Leeren Sie die Suchleiste, um die Ansicht zurückzusetzen.
  2. Sehen Sie sich das Feld Nach Eigenschaften filtern auf der linken Seite des Bildschirms an.
  3. Scrollen Sie nach unten und maximieren Sie den Abschnitt Data Asset Governance (dies stellt den von Ihnen erstellten Aspekttyp dar).
  4. Klicken Sie unter Data Sensitivity (Vertraulichkeit der Daten) das Kästchen für Internal an.
  5. Die Suchergebnisse werden aktualisiert und die Tabelle retail_data.transactions wird angezeigt.

4df224cb06720ec4.png

Unabhängig davon, ob Sie die eingegebene Abfrage oder die UI-Filter verwenden, ist der zugrunde liegende Mechanismus derselbe.

Das zeigt den grundlegenden Unterschied zwischen Dataplex und einem einfachen Wiki: Ihre Metadaten sind eine abfragbare Struktur. Sie können jetzt automatisierte Audits erstellen (z.B. „Alle Tabellen suchen, bei denen das letzte Überprüfungsdatum mehr als ein Jahr zurückliegt“), die auf dieser vorhersehbaren Struktur basieren.

7. Umgebung bereinigen

Löschen Sie die in diesem Codelab erstellten Ressourcen, um laufende Kosten zu vermeiden.

BigQuery-Dataset löschen

Dieser Befehl kann nicht rückgängig gemacht werden. Mit dem Flag `-f` (erzwingen) werden das Dataset und alle zugehörigen Tabellen ohne Bestätigung entfernt.

# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)

# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data

Dataplex-Artefakte löschen

  1. Gehen Sie zur Dataplex Universal Catalog-Benutzeroberfläche > Metadaten verwalten > Katalog.
  2. Wählen Sie unter Aspekttypen und Tag-Vorlagen den Aspekttyp „data_asset_governance“ aus und löschen Sie ihn.
  3. Gehen Sie zu Metadaten verwalten > Glossare , wählen Sie das Retail Business Glossary aus und löschen Sie es. Löschen Sie zuerst den Begriff Gross Merchandise Value und dann das Glossar.

8. Glückwunsch!

Sie haben mehr als nur einfache Daten-Tags erstellt und ein grundlegendes, strukturiertes Governance-Modell in Dataplex eingerichtet.

Sie haben Folgendes gelernt:

  • Glossare beseitigen Mehrdeutigkeiten im Unternehmen.
  • Aspekttypen bieten den Schemavertrag für technische Metadaten.
  • Aspekte wenden dieses Schema auf tatsächliche Dateneinträge an.
  • Dataplex Search verwendet diese strukturierten Metadaten für eine präzise Erkennung.

Nächste Schritte

  • Governance as Code:Verwenden Sie den Google Cloud Terraform-Provider, um Ihre Aspekttypen und Glossare in der Versionsverwaltung zu definieren. So sorgen Sie für einheitliche Schemas in allen Entwicklungs-, Test- und Produktionsumgebungen.
  • Automatische Tags:Schreiben Sie eine Cloud Function oder einen Cloud Build-Schritt, der durch die Erstellung eines neuen Datasets ausgelöst wird und automatisch Ihren Aspekt „Data Asset Governance“ mit Standardwerten anhängt (z.B. sensitivity=Internal, steward=TBD) und ihn zur Überprüfung kennzeichnet.