Quản trị cơ bản bằng Danh mục phổ quát Dataplex: Bắt đầu

1. Giới thiệu

Là nhà phát triển và kỹ sư dữ liệu, chúng ta thường kế thừa các tập hợp dữ liệu lớn trông giống như đầm lầy dữ liệu. Chúng tôi liên tục gặp phải những điểm khó khăn tương tự: "Định nghĩa thực tế của cột "amt" này là gì?", "Ai chịu trách nhiệm nếu tập dữ liệu này bị hỏng?" hoặc "Chúng tôi có được phép sử dụng bảng này trong công cụ đề xuất được cá nhân hoá không?"

Theo truyền thống, danh mục dữ liệu là những kho lưu trữ thụ động chứa đầy các thẻ văn bản tự do, nhanh chóng trở nên không nhất quán và lỗi thời. Các chế độ này không thực thi cấu trúc, khiến việc quản trị theo chương trình gần như không thể thực hiện được.

Để thực hiện điều này, chúng ta sẽ xem xét một tình huống trong phòng thí nghiệm này: thiết lập quy trình quản trị mạnh mẽ đối với dữ liệu bán lẻ thô để bộ phận tài chính có thể tin tưởng dữ liệu này cho báo cáo chính thức. Bạn sẽ di chuyển dữ liệu này từ trạng thái "đầm lầy" mơ hồ sang một sản phẩm được quản lý.

Danh mục chung của Dataplex thay đổi điều này bằng cách cung cấp một khung quản lý siêu dữ liệu có cấu trúc và chủ động. Tính năng này cho phép bạn đính kèm siêu dữ liệu có cấu trúc, dựa trên giản đồ (Khía cạnh) và các định nghĩa kinh doanh được chấp nhận (Bảng chú giải) trực tiếp vào tài sản dữ liệu (Mục nhập).

Trước khi có thể viết tập lệnh Python hoặc mô-đun Terraform để tự động hoá quy trình này ở quy mô lớn, bạn cần hiểu mô hình đối tượng cơ bản.

Trong lớp học lập trình này, chúng ta sẽ thực hiện các bước quản trị theo cách thủ công trong Google Cloud Console. Chúng tôi sẽ kết nối rõ ràng các điểm giữa Mục nhập, Loại khía cạnh, Khía cạnh và Thuật ngữ để cung cấp cho bạn một mô hình tinh thần vững chắc về cách giúp dữ liệu của bạn dễ dàng được khám phá, dễ hiểu và đáng tin cậy.

Điều kiện tiên quyết

  • Một dự án trên Google Cloud có quyền truy cập của Chủ sở hữu hoặc Người chỉnh sửa.
  • Quen thuộc với Google Cloud Console.
  • Kỹ năng cơ bản về gcloud và bq CLI trong Cloud Shell.

Kiến thức bạn sẽ học được

  • Điểm khác biệt quan trọng giữa Mục nhập Dataplex, Loại khía cạnh và Khía cạnh.
  • Cách tạo Thuật ngữ kinh doanh để giải quyết sự mơ hồ trong thuật ngữ.
  • Cách thiết kế một Loại khía cạnh để thực thi một giản đồ nghiêm ngặt cho siêu dữ liệu kỹ thuật (vượt ra ngoài "thẻ").
  • Cách liên kết một Thuật ngữ trong từ điển doanh nghiệp với một cột cụ thể trong BigQuery.
  • Cách đính kèm một khía cạnh có cấu trúc vào một tài sản dữ liệu và xác thực dữ liệu đầu vào.
  • Cách thực hiện các cụm từ tìm kiếm chính xác dựa trên siêu dữ liệu có cấu trúc mới này.

Bạn cần có

  • Tài khoản Google Cloud và dự án trên Google Cloud
  • Một trình duyệt web như Chrome

Các khái niệm chính

  • Mục nhập: Biểu diễn trừu tượng, chuẩn tắc của một tài sản dữ liệu trong danh mục. Hãy coi đây là "con trỏ" hoặc "danh từ". Khi bạn tạo một bảng BigQuery, Dataplex sẽ tự động tạo một Mục nhập cho bảng đó. Chúng tôi không quản lý trực tiếp bảng này mà quản lý Entry của bảng.
  • Thuật ngữ kinh doanh: Từ điển tập trung, có phiên bản về các thuật ngữ kinh doanh của tổ chức bạn. Đây là nguồn thông tin đáng tin cậy duy nhất. Điều này giúp ngăn chặn vấn đề "Nhóm bán hàng định nghĩa GMV khác với nhóm tài chính".
  • Loại khía cạnh: Giản đồ hoặc mẫu cho một danh mục siêu dữ liệu cụ thể. Loại khía cạnh xác định các trường, kiểu dữ liệu (chuỗi, enum, ngày giờ, v.v.) và các ràng buộc (bắt buộc/không bắt buộc). Đây là hợp đồng đảm bảo tính nhất quán của siêu dữ liệu.
  • Khía cạnh: Một phần siêu dữ liệu cụ thể được đính kèm vào một Mục tuân theo cấu trúc do Loại khía cạnh xác định. Nội dung này chứa dữ liệu thực tế đáp ứng giản đồ của Loại khía cạnh.

2. Thiết lập và yêu cầu

Khởi động Cloud Shell

Mặc dù có thể vận hành Google Cloud từ xa trên máy tính xách tay, nhưng trong lớp học lập trình này, bạn sẽ sử dụng Google Cloud Shell, một môi trường dòng lệnh chạy trên Cloud.

Trên Bảng điều khiển Google Cloud, hãy nhấp vào biểu tượng Cloud Shell trên thanh công cụ ở trên cùng bên phải:

Kích hoạt Cloud Shell

Quá trình này chỉ mất vài phút để cung cấp và kết nối với môi trường. Khi quá trình này kết thúc, bạn sẽ thấy như sau:

Ảnh chụp màn hình cửa sổ dòng lệnh Google Cloud Shell cho thấy môi trường đã kết nối

Máy ảo này được trang bị tất cả các công cụ phát triển mà bạn cần. Nó cung cấp một thư mục chính có dung lượng 5 GB và chạy trên Google Cloud, giúp tăng cường đáng kể hiệu suất mạng và hoạt động xác thực. Bạn có thể thực hiện mọi thao tác trong lớp học lập trình này trong trình duyệt. Bạn không cần cài đặt bất cứ thứ gì.

Bật các API bắt buộc và định cấu hình môi trường

Chạy các lệnh sau để đặt mã dự án, xác định khu vực và bật các API dịch vụ cần thiết.

export PROJECT_ID=$(gcloud config get-value project)
gcloud config set project $PROJECT_ID
export LOCATION="us-central1"

gcloud services enable dataplex.googleapis.com \
                       bigquery.googleapis.com \
                       datacatalog.googleapis.com

Tạo tập dữ liệu BigQuery và chuẩn bị dữ liệu mẫu

Chúng ta cần một tài sản dữ liệu cụ thể để quản lý. Chúng ta sẽ tạo một tập dữ liệu BigQuery và tải một tệp CSV mẫu nhỏ đại diện cho các giao dịch. Dataplex sẽ tự động phát hiện bảng này và tạo một mục nhập cho bảng.

# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
    --description "Retail data for governance codelab" \
    $PROJECT_ID:retail_data

# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv

# Load the data from the temporary CSV file into BigQuery
bq load \
    --source_format=CSV \
    --autodetect \
    retail_data.transactions \
    /tmp/transactions.csv

# (Optional) Clean up the temporary file
rm /tmp/transactions.csv

Xác minh chế độ thiết lập bằng cách chạy một truy vấn nhanh:

bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"

3. Thiết lập ngôn ngữ chung bằng Bảng thuật ngữ kinh doanh

Hoạt động quản trị hiệu quả bắt đầu bằng các định nghĩa rõ ràng. Nếu thấy một cột có tên là gmv, nhà phát triển không cần phải đoán xem cột đó có bao gồm thuế hay không. Thuật ngữ kinh doanh giải quyết vấn đề này bằng cách tách định nghĩa kinh doanh khỏi việc triển khai kỹ thuật.

  1. Trong Google Cloud Console, hãy chuyển đến Danh mục phổ quát Dataplex.
  2. Trong trình đơn điều hướng bên trái, hãy chọn Bảng chú giải (trong phần Quản lý siêu dữ liệu).

96020207ba4bd128.png

  1. Nhấp vào Tạo bảng thuật ngữ kinh doanh.
  2. Nhập các thông tin chi tiết sau:
    • Tên: Retail Business Glossary
    • Vị trí: us-central1 (hoặc vị trí bạn đã xác định trong quá trình thiết lập).
  3. Nhấp vào Tạo.

e3b146e5f3b57785.png

  1. Nhấp vào Retail Business Glossary (Thuật ngữ kinh doanh bán lẻ) mới tạo để truy cập vào thuật ngữ đó.

c98bdf049e946234.png

  1. Nhấp vào Tạo danh mục và đặt tên là Sales Metrics, rồi nhấp vào Tạo. Danh mục giúp nhóm các cụm từ có liên quan.
  2. Chọn danh mục Sales Metrics rồi nhấp vào Thêm cụm từ, sau đó đặt tên là Gross Merchandise Value rồi nhấp vào Tạo
  3. Nhấp vào nút + Thêm trên trang Tổng quan, sau đó điền các thông tin sau:
    • Tổng quan: The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.
  4. Nhấp vào Lưu.

3a642fd2a41c040e.png

Giờ đây, bạn đã thiết lập một định nghĩa rõ ràng có thể liên kết với các tài sản kỹ thuật trong tổ chức của mình.

4. Xác định siêu dữ liệu kỹ thuật có cấu trúc bằng một Loại khía cạnh

Các thẻ "khoá:giá trị" đơn giản không đủ để đảm bảo tính nghiêm ngặt về kỹ thuật. Nếu cần theo dõi "Chủ sở hữu dữ liệu", bạn không muốn một bảng được gắn thẻ owner:bob và một bảng khác được gắn thẻ contact:alice@example.com. Bạn cần có một giản đồ để thực thi rằng chủ sở hữu là bắt buộc và phải có định dạng email hợp lệ.

Chúng ta sẽ sử dụng Aspect Type để xác định hợp đồng này.

  1. Trong bảng điều hướng bên trái của Dataplex, trong mục Danh mục, hãy chọn Loại khía cạnh và Mẫu thẻ.
  1. Chọn thẻ Tuỳ chỉnh rồi nhấp vào Tạo loại tỷ lệ khung hình.

a920c555d40425a.png

  1. Nhập các thông tin chi tiết sau:
    • Tên hiển thị: Data Asset Governance
    • Địa điểm: us-central1
  2. Trong phần Mẫu, chúng ta sẽ xác định giản đồ cho Aspect. Nhấp vào Thêm trường để tạo 3 trường sau:
    • Trường 1:
      • Tên hiển thị: Data Steward
      • Loại: Text
      • Loại văn bản: Plain text
      • Lượng số: Bắt buộc (đánh dấu vào hộp)
    • Trường 2 (nhấp lại vào Thêm trường):
      • Tên hiển thị: Data Sensitivity
      • Loại: Enum
      • Giá trị: Thêm Public, InternalConfidential
      • Số lượng giá trị riêng biệt: Không bắt buộc
    • Trường 3 (nhấp lại vào Thêm trường):
      • Tên hiển thị: Last Review Date
      • Loại: Date and time
      • Số lượng giá trị riêng biệt: Không bắt buộc
  3. Nhấp vào Lưu.

20babd75c2b8dce6.png

Bạn vừa tạo một hợp đồng siêu dữ liệu có thể tái sử dụng. Hiện chưa có nội dung nào sử dụng cấu trúc này, nhưng cấu trúc đã tồn tại.

5. Kết nối hoạt động quản trị với Thành phần

Bây giờ, chúng ta sẽ kết hợp tất cả lại với nhau. Chúng tôi có một bảng BigQuery (retail_data.transactions), một định nghĩa về doanh nghiệp (Gross Merchandise Value) và một giản đồ quản trị (Data Asset Governance).

Chúng tôi sẽ làm phong phú Mục Dataplex cho bảng BigQuery.

Làm phong phú giản đồ bằng ngữ cảnh kinh doanh (cấp cột)

Hãy cho người dùng biết cột gmv thực sự có nghĩa là gì bằng cách liên kết cột này với bảng chú giải.

  1. Trong trình đơn điều hướng bên trái của Dataplex, hãy nhấp vào Tìm kiếm.
  2. Ở phía trên cùng bên phải, hãy nhấp vào thẻ Danh mục chung của Dataplex nếu thẻ này chưa được kích hoạt.

849a24e7b1a86a19.png

  1. Tìm kiếm retail_data.transactions Nhấp vào kết quả cho Bảng BigQuery.

54d3edd1520593a9.png

  1. Nhấp vào thẻ Lược đồ trong phần Thông tin chi tiết về mục nhập.
  2. Đánh dấu vào hộp của hàng trong cột gmv rồi nhấp vào Thêm thuật ngữ kinh doanh.
  3. Chọn cụm từ Gross Merchandise Value.

64768eecf630c90b.png

Cột gmv không còn chỉ là "FLOAT" nữa; giờ đây, cột này được liên kết với định nghĩa của công ty về Gross Merchandise Value.

Bổ sung thông tin cho mục nhập bằng siêu dữ liệu kỹ thuật có cấu trúc (cấp bảng)

Tiếp theo, chúng ta sẽ đính kèm Data Asset Governance Aspect vào bảng để xác định quyền sở hữu và mức độ nhạy cảm.

  1. Ở lại trang retail_data.transactions Nhập.
  2. Nhấp vào thẻ Thêm thẻ hoặc khía cạnh, sau đó chọn loại Data Asset Governance trong trình đơn thả xuống.

4b770307159a28d8.png

  1. Giờ đây, biểu mẫu sẽ hiển thị các trường được xác định trong giản đồ Loại khía cạnh. Điền thông tin như sau:
    • Người quản lý dữ liệu: finance-team@example.com
    • Độ nhạy của dữ liệu: Chọn Internal.
    • Ngày xem xét gần đây nhất: Chọn ngày hôm nay.
  2. Nhấp vào Lưu.

f953c5569520d42a.png

Bạn đã đính kèm thành công một Khía cạnh có cấu trúc vào Mục nhập. Không giống như một thẻ đơn giản, dữ liệu này được xác thực dựa trên giản đồ mà bạn đã tạo.

6. Khám phá và xác minh hợp nhất

Chúng tôi không làm việc này chỉ để điền vào biểu mẫu. Chúng tôi làm vậy để giúp bạn dễ dàng tìm thấy và tin tưởng dữ liệu. Hãy xem siêu dữ liệu này thay đổi trải nghiệm của nhà phát triển đối với hoạt động tìm kiếm và khám phá như thế nào.

Quay lại trang Tìm kiếm chính trong Danh mục phổ quát của Dataplex.

Giả sử bạn là một kỹ sư nền tảng đang thực thi hoạt động quản trị. Bạn cần tìm tất cả các thành phần được đánh dấu là "Nội bộ" và chịu sự điều chỉnh của Loại khía cạnh cụ thể. Bạn cần sử dụng các vị từ chính xác dựa trên giản đồ của mình.

Bạn có thể xác minh điều này theo 2 cách: sử dụng cú pháp truy vấn chính xác (cần thiết cho quá trình tự động hoá) hoặc sử dụng bộ lọc giao diện người dùng tương tác.

Cách 1: Xác minh thông qua Cụm từ tìm kiếm có cấu trúc

  1. Trong thanh tìm kiếm (ở chế độ tìm kiếm Từ khoá), hãy nhập cụm từ tìm kiếm có cấu trúc sau.
aspect:data-asset-governance.data-sensitivity=Internal
  1. Bạn sẽ thấy bảng retail_data.transactions của mình.

49120fe4ea224359.png

Phương thức 2: Xác minh thông qua các khía cạnh bộ lọc trên giao diện người dùng

  1. Xoá nội dung trên thanh tìm kiếm để đặt lại chế độ xem
  2. Xem bảng điều khiển Lọc theo thuộc tính ở bên trái màn hình.
  3. Di chuyển xuống rồi mở rộng mục Quản trị tài sản dữ liệu (mục này đại diện cho Loại khía cạnh mà bạn đã tạo)
  4. Trong mục Độ nhạy của dữ liệu, hãy đánh dấu vào hộp Internal.
  5. Kết quả tìm kiếm sẽ cập nhật để cho thấy bảng retail_data.transactions.

4df224cb06720ec4.png

Cho dù bạn sử dụng truy vấn được nhập hay bộ lọc giao diện người dùng, cơ chế cơ bản vẫn giống nhau.

Điều này minh hoạ sự khác biệt cơ bản giữa Dataplex và một wiki đơn giản: siêu dữ liệu của bạn là một cấu trúc có thể truy vấn. Giờ đây, bạn có thể tạo các quy trình kiểm tra tự động (ví dụ: "Tìm tất cả các bảng có last_review_date > 1 năm trước") dựa vào cấu trúc có thể dự đoán này.

7. Dọn dẹp môi trường

Để tránh bị tính phí liên tục, hãy xoá các tài nguyên đã tạo trong lớp học lập trình này.

Xoá Tập dữ liệu BigQuery

Bạn không thể huỷ lệnh này sau khi thực hiện và lệnh này dùng cờ -f (force) để xoá tập dữ liệu và tất cả các bảng của tập dữ liệu đó mà không cần xác nhận.

# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)

# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data

Xoá các cấu phần phần mềm Dataplex

  1. Chuyển đến Giao diện người dùng Danh mục phổ quát của Dataplex > Quản lý siêu dữ liệu > Danh mục.
  2. Trong Aspect types & tag templates (Loại khía cạnh và mẫu thẻ), hãy chọn loại khía cạnh data_asset_governance rồi xoá loại khía cạnh đó.
  3. Chuyển đến Quản lý siêu dữ liệu > Bảng thuật ngữ, chọn Retail Business Glossary rồi xoá. Nhớ xoá thuật ngữ Gross Merchandise Value trước rồi mới xoá chú giải.

8. Xin chúc mừng!

Bạn đã vượt qua việc gắn thẻ dữ liệu đơn giản và thiết lập một mô hình quản trị có cấu trúc, cơ bản trong Dataplex.

Bạn đã tìm hiểu rằng:

  • Bảng chú giải giúp giải quyết sự mơ hồ trong kinh doanh.
  • Loại khía cạnh cung cấp hợp đồng giản đồ cho siêu dữ liệu kỹ thuật.
  • Các khía cạnh áp dụng giản đồ đó cho các Mục nhập dữ liệu thực tế.
  • Dataplex Search sử dụng siêu dữ liệu có cấu trúc này để khám phá chính xác.

Các bước tiếp theo

  • Quản trị dưới dạng mã: Sử dụng trình cung cấp Google Cloud Terraform để xác định Các loại khía cạnh và Bảng chú giải trong tính năng kiểm soát phiên bản, đảm bảo các lược đồ nhất quán trên các môi trường phát triển/kiểm thử/sản xuất.
  • Gắn thẻ tự động: Viết một Cloud Function hoặc bước Cloud Build được kích hoạt bằng việc tạo tập dữ liệu mới, tự động đính kèm Khía cạnh "Quản trị tài sản dữ liệu" của bạn bằng các giá trị mặc định (ví dụ: sensitivity=Internal, steward=TBD), gắn cờ để chúng tôi xem xét.