Tata Kelola Dasar dengan Dataplex Universal Catalog: Memulai

1. Pengantar

Sebagai developer dan engineer data, kita sering mewarisi kumpulan data besar yang lebih terlihat seperti rawa data. Kita menghadapi titik kesulitan yang sama berulang kali: "Apa definisi sebenarnya dari kolom 'amt' ini?", "Siapa yang bertanggung jawab jika set data ini rusak?", atau "Apakah kita diizinkan menggunakan tabel ini di mesin rekomendasi yang dipersonalisasi?"

Secara tradisional, katalog data adalah inventaris pasif yang diisi dengan tag teks bebas yang dengan cepat menjadi tidak konsisten dan tidak berlaku lagi. Hal ini tidak memberlakukan struktur, sehingga tata kelola terprogram hampir tidak mungkin dilakukan.

Untuk mempraktikkannya, kita akan membahas sebuah skenario di lab ini: menetapkan tata kelola yang kuat atas data penjualan retail mentah sehingga dapat dipercaya oleh departemen keuangan untuk pelaporan resmi. Anda akan memindahkan data ini dari status "rawa" yang ambigu ke produk yang diatur.

Dataplex Universal Catalog mengubah hal ini dengan menyediakan framework pengelolaan metadata yang aktif dan terstruktur. Dengan begitu, Anda dapat melampirkan metadata terstruktur yang didorong skema (Aspek) dan definisi bisnis yang diterima (Glosarium) langsung ke aset data Anda (Entri).

Sebelum dapat menulis skrip Python atau modul Terraform untuk mengotomatiskan hal ini dalam skala besar, Anda harus memahami model objek yang mendasarinya.

Dalam codelab ini, kita akan melakukan langkah-langkah tata kelola secara manual di Konsol Google Cloud. Kami akan menghubungkan titik-titik antara Entri, Jenis Aspek, Aspek, dan Glosarium secara eksplisit untuk memberi Anda model mental yang solid tentang cara membuat data Anda dapat ditemukan, dipahami, dan tepercaya.

Prasyarat

  • Project Google Cloud dengan akses Pemilik atau Editor.
  • Pemahaman tentang Konsol Google Cloud.
  • Keterampilan dasar CLI gcloud dan bq di Cloud Shell.

Yang akan Anda pelajari

  • Perbedaan penting antara Entri Dataplex, Jenis Aspek, dan Aspek.
  • Cara membuat Glosarium Bisnis untuk mengatasi ambiguitas dalam terminologi.
  • Cara mendesain Jenis Aspek untuk menerapkan skema yang ketat untuk metadata teknis (melampaui "tag").
  • Cara menautkan Istilah Glosarium Bisnis ke kolom BigQuery tertentu.
  • Cara melampirkan Aspek terstruktur ke aset data dan memvalidasi input.
  • Cara menjalankan kueri penelusuran yang akurat terhadap metadata terstruktur baru ini.

Yang Anda butuhkan

  • Akun Google Cloud dan Project Google Cloud
  • Browser web seperti Chrome

Konsep utama

  • Entri: Representasi abstrak kanonis aset data dalam katalog. Anggap ini sebagai "penunjuk" atau "kata benda". Saat Anda membuat tabel BigQuery, Dataplex akan otomatis membuat Entri untuk tabel tersebut. Kita tidak mengatur tabel secara langsung; kita mengatur Entrinya.
  • Glosarium Bisnis: Kamus terpusat dan berversi untuk istilah bisnis organisasi Anda. Ini adalah satu sumber tepercaya. Hal ini mencegah masalah "Tim Penjualan mendefinisikan GMV secara berbeda dengan Tim Keuangan".
  • Jenis Aspek: Skema atau template untuk kategori metadata tertentu. Jenis Aspek menentukan kolom, jenis data (string, enum, datetime, dll.), dan batasan (wajib/opsional). Kontrak ini memastikan konsistensi metadata.
  • Aspek: Bagian metadata tertentu yang dilampirkan ke Entri yang mengikuti struktur yang ditentukan oleh Jenis Aspek. Objek ini berisi data aktual yang memenuhi skema Jenis Aspek.

2. Penyiapan dan persyaratan

Mulai Cloud Shell

Meskipun Google Cloud dapat dioperasikan dari jarak jauh menggunakan laptop Anda, dalam codelab ini, Anda akan menggunakan Google Cloud Shell, lingkungan command line yang berjalan di Cloud.

Dari Google Cloud Console, klik ikon Cloud Shell di toolbar kanan atas:

Aktifkan Cloud Shell

Hanya perlu waktu beberapa saat untuk penyediaan dan terhubung ke lingkungan. Jika sudah selesai, Anda akan melihat tampilan seperti ini:

Screenshot terminal Google Cloud Shell yang menunjukkan bahwa lingkungan telah terhubung

Mesin virtual ini berisi semua alat pengembangan yang Anda perlukan. Layanan ini menawarkan direktori beranda tetap sebesar 5 GB dan beroperasi di Google Cloud, sehingga sangat meningkatkan performa dan autentikasi jaringan. Semua pekerjaan Anda dalam codelab ini dapat dilakukan di browser. Anda tidak perlu menginstal apa pun.

Aktifkan API yang diperlukan dan konfigurasi lingkungan

Jalankan perintah berikut untuk menetapkan project ID, menentukan region, dan mengaktifkan API layanan yang diperlukan.

export PROJECT_ID=$(gcloud config get-value project)
gcloud config set project $PROJECT_ID
export LOCATION="us-central1"

gcloud services enable dataplex.googleapis.com \
                       bigquery.googleapis.com \
                       datacatalog.googleapis.com

Membuat set data BigQuery dan menyiapkan data sampel

Kita memerlukan aset data konkret untuk dikelola. Kita akan membuat set data BigQuery dan memuat sampel CSV kecil yang merepresentasikan transaksi. Dataplex akan otomatis menemukan tabel ini dan membuat Entri untuknya.

# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
    --description "Retail data for governance codelab" \
    $PROJECT_ID:retail_data

# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv

# Load the data from the temporary CSV file into BigQuery
bq load \
    --source_format=CSV \
    --autodetect \
    retail_data.transactions \
    /tmp/transactions.csv

# (Optional) Clean up the temporary file
rm /tmp/transactions.csv

Verifikasi penyiapan dengan menjalankan kueri cepat:

bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"

3. Menetapkan bahasa umum dengan Glosarium Bisnis

Tata kelola yang efektif dimulai dengan definisi yang tidak ambigu. Jika developer melihat kolom bernama gmv, mereka tidak perlu menebak apakah kolom tersebut menyertakan pajak atau pengembalian. Glosarium Bisnis memecahkan masalah ini dengan memisahkan definisi bisnis dari penerapan teknis.

  1. Di Konsol Google Cloud, buka Dataplex Universal catalog.
  2. Di menu navigasi kiri, pilih Glosarium (di bagian Kelola metadata).

96020207ba4bd128.png

  1. Klik Buat glosarium bisnis.
  2. Masukkan detail berikut:
    • Nama: Retail Business Glossary
    • Lokasi: us-central1 (atau lokasi yang Anda tentukan dalam penyiapan).
  3. Klik Buat.

e3b146e5f3b57785.png

  1. Klik Glosarium Bisnis Retail yang baru dibuat untuk membukanya.

c98bdf049e946234.png

  1. Klik Buat kategori dan beri nama Sales Metrics, lalu klik Buat. Kategori membantu mengelompokkan istilah terkait.
  2. Pilih kategori Sales Metrics, klik Tambahkan istilah, beri nama Gross Merchandise Value, lalu klik Buat
  3. Klik tombol + Tambahkan di Ringkasan, lalu isi detail berikut:
    • Ringkasan: The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.
  4. Klik Simpan.

3a642fd2a41c040e.png

Anda kini telah menetapkan definisi yang jelas yang dapat ditautkan ke aset teknis di seluruh organisasi Anda.

4. Mendefinisikan metadata teknis terstruktur dengan Jenis Aspek

Tag "key:value" sederhana tidak cukup untuk ketelitian engineering. Jika Anda perlu melacak "Pemilik Data", Anda tidak ingin satu tabel diberi tag owner:bob dan tabel lainnya diberi tag contact:alice@example.com. Anda memerlukan skema untuk memastikan bahwa pemilik wajib diisi dan harus berupa format email yang valid.

Kita akan menggunakan Jenis Aspek untuk menentukan kontrak ini.

  1. Di navigasi kiri Dataplex, di bagian Katalog, pilih Jenis aspek & Template Tag.
  1. Pilih tab Kustom, lalu klik Buat jenis aspek.

a920c555d40425a.png

  1. Masukkan detail berikut:
    • Nama tampilan: Data Asset Governance
    • Lokasi: us-central1
  2. Di bagian Template, kita akan menentukan skema untuk Aspect. Klik Tambahkan kolom untuk membuat tiga kolom berikut:
    • Kolom 1:
      • Nama tampilan: Data Steward
      • Jenis: Text
      • Jenis teks: Plain text
      • Kardinalitas: Wajib diisi (centang kotak)
    • Kolom 2 (klik Tambahkan kolom lagi):
      • Nama tampilan: Data Sensitivity
      • Jenis: Enum
      • Nilai: Tambahkan Public, Internal, dan Confidential
      • Kardinalitas: Opsional
    • Kolom 3 (klik Tambahkan kolom lagi):
      • Nama tampilan: Last Review Date
      • Jenis: Date and time
      • Kardinalitas: Opsional
  3. Klik Simpan.

20babd75c2b8dce6.png

Anda baru saja membuat kontrak metadata yang dapat digunakan kembali. Belum ada yang menggunakannya, tetapi strukturnya sudah ada.

5. Menghubungkan tata kelola ke Aset

Sekarang kita akan menggabungkan semuanya. Kita memiliki tabel BigQuery (retail_data.transactions), definisi bisnis (Gross Merchandise Value), dan skema tata kelola (Data Asset Governance).

Kita akan memperkaya Entri Dataplex untuk tabel BigQuery.

Memperkaya skema dengan konteks bisnis (tingkat kolom)

Mari beri tahu pengguna arti sebenarnya kolom gmv dengan menautkannya ke glosarium.

  1. Di navigasi kiri Dataplex, klik Search.
  2. Di sisi Kanan atas, klik tab Dataplex Universal Catalog jika belum diaktifkan.

849a24e7b1a86a19.png

  1. Telusuri retail_data.transactions. Klik hasil untuk Tabel BigQuery.

54d3edd1520593a9.png

  1. Klik tab Schema dalam Detail entri.
  2. Centang kotak baris kolom gmv, lalu klik Tambahkan istilah bisnis.
  3. Pilih istilah Gross Merchandise Value.

64768eecf630c90b.png

Kolom gmv tidak lagi hanya "FLOAT"; kolom ini kini ditautkan ke definisi Gross Merchandise Value perusahaan.

Perkaya entri dengan metadata teknis terstruktur (tingkat tabel)

Selanjutnya, kita akan melampirkan Data Asset Governance Aspek ke tabel untuk menentukan kepemilikan dan sensitivitas.

  1. Tetap di halaman Entri retail_data.transactions.
  2. Klik tab Tambahkan tag atau aspek, lalu pilih jenis Data Asset Governance dari dropdown.

4b770307159a28d8.png

  1. Formulir kini akan menampilkan kolom yang ditentukan dalam skema Jenis Aspek Anda. Isi sebagai berikut:
    • Pengelola Data: finance-team@example.com
    • Sensitivitas Data: Pilih Internal.
    • Tanggal Ulasan Terakhir: Pilih tanggal hari ini.
  2. Klik Simpan.

f953c5569520d42a.png

Anda telah berhasil melampirkan Aspek terstruktur ke Entri. Tidak seperti tag sederhana, data ini divalidasi terhadap skema yang Anda buat.

6. Penemuan dan verifikasi terpadu

Kami tidak melakukan pekerjaan ini hanya untuk mengisi formulir. Kami melakukannya untuk membuat data dapat ditemukan dan dipercaya. Mari kita lihat bagaimana metadata ini mengubah pengalaman developer untuk penelusuran dan penemuan.

Kembali ke halaman Penelusuran utama di Dataplex Universal Catalog.

Bayangkan Anda adalah seorang engineer platform yang menerapkan tata kelola. Anda harus menemukan semua aset yang ditandai "Internal" yang diatur oleh Jenis Aspek tertentu. Anda harus menggunakan predikat yang tepat berdasarkan skema Anda.

Anda dapat memverifikasi hal ini dengan dua cara: menggunakan sintaksis kueri yang tepat (penting untuk otomatisasi) atau menggunakan filter UI interaktif.

Metode 1: Verifikasi melalui Kueri Terstruktur

  1. Di kotak penelusuran (dalam mode penelusuran Kata Kunci), masukkan kueri terstruktur berikut.
aspect:data-asset-governance.data-sensitivity=Internal
  1. Anda akan melihat tabel retail_data.transactions.

49120fe4ea224359.png

Metode 2: Verifikasi melalui Facet Filter UI

  1. Hapus teks di kotak penelusuran untuk mereset tampilan
  2. Lihat panel Filter menurut properti di sisi kiri layar.
  3. Scroll ke bawah dan luaskan bagian Tata Kelola Aset Data (ini mewakili Jenis Aspek yang Anda buat)
  4. Di bagian Sensitivitas Data, centang kotak untuk Internal.
  5. Hasil penelusuran akan diperbarui untuk menampilkan tabel retail_data.transactions.

4df224cb06720ec4.png

Baik Anda menggunakan kueri yang diketik maupun filter UI, mekanisme yang mendasarinya sama.

Hal ini menunjukkan perbedaan mendasar antara Dataplex dan wiki sederhana: metadata Anda adalah struktur yang dapat dikueri. Anda kini dapat membuat audit otomatis (misalnya, "Temukan semua tabel yang last_review_date-nya > 1 tahun yang lalu") yang mengandalkan struktur yang dapat diprediksi ini.

7. Membersihkan lingkungan Anda

Untuk menghindari biaya berkelanjutan, hapus resource yang dibuat dalam codelab ini.

Hapus Set Data BigQuery

Perintah ini tidak dapat diurungkan dan menggunakan flag -f (force) untuk menghapus set data dan semua tabelnya tanpa konfirmasi.

# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)

# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data

Menghapus artefak Dataplex

  1. Buka UI Dataplex Universal Catalog > Manage metadata > Catalogue.
  2. Di Aspect types & tag templates, pilih jenis aspek data_asset_governance, lalu hapus.
  3. Buka Kelola metadata > Glosarium, pilih Retail Business Glossary, lalu hapus. Pastikan untuk menghapus istilah, Gross Merchandise Value terlebih dahulu, lalu hapus glosarium nanti.

8. Selamat!

Anda telah melampaui penandaan data sederhana dan membuat model tata kelola terstruktur yang mendasar di Dataplex.

Anda telah mempelajari bahwa:

  • Glosarium mengatasi ambiguitas bisnis.
  • Jenis Aspek menyediakan kontrak skema untuk metadata teknis.
  • Aspek menerapkan skema tersebut ke Entri Data sebenarnya.
  • Penelusuran Dataplex menggunakan metadata terstruktur ini untuk penemuan yang akurat.

Apa Selanjutnya?

  • Tata Kelola sebagai Kode: Gunakan penyedia Terraform Google Cloud untuk menentukan Jenis Aspek dan Glosarium Anda dalam kontrol versi, sehingga memastikan skema yang konsisten di seluruh lingkungan dev/test/prod.
  • Pemberian Tag Otomatis: Tulis langkah Cloud Function atau Cloud Build yang dipicu oleh pembuatan set data baru yang secara otomatis melampirkan Aspek "Tata Kelola Aset Data" Anda dengan nilai default (misalnya, sensitivity=Internal, steward=TBD), menandainya untuk ditinjau.