Основы управления с помощью универсального каталога Dataplex: начало работы

1. Введение

Как разработчики и специалисты по обработке данных, мы часто получаем в наследство большие массивы данных, которые больше похожи на целые болота. Мы постоянно сталкиваемся с одними и теми же трудностями: «Каково фактическое определение этого столбца „amt“?», «Кто понесёт убытки, если этот набор данных сломается?» или «Можно ли использовать эту таблицу в системе персонализированных рекомендаций?»

Традиционно каталоги данных представляли собой пассивные хранилища, заполненные произвольными текстовыми тегами, которые быстро становились несогласованными и устаревшими. Они не обеспечивают чёткой структуры, что делает программное управление практически невозможным.

Чтобы реализовать это на практике, в этой лабораторной работе мы отработаем сценарий: создание надежного управления первичными данными о розничных продажах, чтобы финансовый отдел мог доверять им при составлении официальной отчетности. Вам предстоит перевести эти данные из состояния неоднозначного «болота» в управляемый продукт.

Универсальный каталог Dataplex меняет эту ситуацию, предоставляя активную структурированную инфраструктуру управления метаданными. Он позволяет добавлять структурированные метаданные на основе схем ( аспекты ) и принятые бизнес-определения ( глоссарии ) непосредственно к вашим данным ( записям ).

Прежде чем вы сможете писать скрипты Python или модули Terraform для масштабной автоматизации, вам необходимо понять базовую объектную модель.

В этой лабораторной работе мы вручную выполним этапы управления в консоли Google Cloud. Мы подробно объясним взаимосвязь между записями, типами аспектов, аспектами и глоссариями, чтобы сформировать у вас чёткую ментальную модель, позволяющую сделать ваши данные доступными для обнаружения, понятными и надёжными.

Предпосылки

  • Проект Google Cloud с доступом владельца или редактора.
  • Знакомство с Google Cloud Console.
  • Базовые навыки работы с gcloud и bq CLI в Cloud Shell.

Чему вы научитесь

  • Ключевое различие между записью Dataplex, типом аспекта и аспектом.
  • Как создать бизнес-глоссарий для устранения неоднозначности терминологии.
  • Как разработать тип аспекта для обеспечения строгой схемы технических метаданных (выходя за рамки «тегов»).
  • Как связать термин бизнес-глоссария с определенным столбцом BigQuery.
  • Как прикрепить структурированный аспект к активу данных и проверить входные данные.
  • Как выполнять точные поисковые запросы по этим новым структурированным метаданным.

Что вам понадобится

  • Учетная запись Google Cloud и проект Google Cloud
  • Веб-браузер, такой как Chrome

Ключевые концепции

  • Запись: каноническое, абстрактное представление актива данных в каталоге. Можно представить его как «указатель» или «существительное». При создании таблицы BigQuery Dataplex автоматически создаёт для неё запись. Мы не управляем таблицей напрямую; мы управляем её записью.
  • Бизнес-глоссарий: централизованный словарь бизнес-терминов вашей организации с возможностью версионирования. Это единственный источник достоверной информации. Он предотвращает проблему «В отделе продаж GMV определяется иначе, чем в отделе финансов».
  • Тип аспекта: схема или шаблон для определённой категории метаданных. Тип аспекта определяет поля, типы данных (строка, перечисление, дата/время и т. д.) и ограничения (обязательные/необязательные). Это контракт, обеспечивающий согласованность метаданных.
  • Аспект: определённый фрагмент метаданных, прикреплённый к записи и следующий структуре, определяемой типом аспекта. Он содержит фактические данные, соответствующие схеме типа аспекта.

2. Настройка и требования

Запустить Cloud Shell

Хотя Google Cloud можно управлять удаленно с вашего ноутбука, в этой лабораторной работе вы будете использовать Google Cloud Shell — среду командной строки, работающую в облаке.

В консоли Google Cloud Console нажмите значок Cloud Shell на верхней правой панели инструментов:

Активируйте Cloud Shell

Подготовка и подключение к среде займёт всего несколько минут. После завершения вы увидите примерно следующее:

Скриншот терминала Google Cloud Shell, показывающий, что среда подключена

Эта виртуальная машина содержит все необходимые инструменты разработки. Она предоставляет постоянный домашний каталог объёмом 5 ГБ и работает в облаке Google Cloud, что значительно повышает производительность сети и аутентификацию. Всю работу в этой лабораторной работе можно выполнять в браузере. Вам не нужно ничего устанавливать.

Включите необходимые API и настройте среду

Выполните следующие команды, чтобы задать идентификатор вашего проекта, определить регион и включить необходимые API-интерфейсы служб.

export PROJECT_ID=$(gcloud config get-value project)
gcloud config set project $PROJECT_ID
export LOCATION="us-central1"

gcloud services enable dataplex.googleapis.com \
                       bigquery.googleapis.com \
                       datacatalog.googleapis.com

Создайте набор данных BigQuery и подготовьте образцы данных

Нам нужен конкретный ресурс данных для управления. Мы создадим набор данных BigQuery и загрузим небольшой пример CSV-файла, представляющего транзакции. Dataplex автоматически обнаружит эту таблицу и создаст для неё запись.

# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
    --description "Retail data for governance codelab" \
    $PROJECT_ID:retail_data

# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv

# Load the data from the temporary CSV file into BigQuery
bq load \
    --source_format=CSV \
    --autodetect \
    retail_data.transactions \
    /tmp/transactions.csv

# (Optional) Clean up the temporary file
rm /tmp/transactions.csv

Проверьте настройку, выполнив быстрый запрос:

bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"

3. Найдите общий язык с помощью бизнес-глоссария.

Эффективное управление начинается с однозначных определений. Если разработчик видит столбец с названием gmv , ему не придётся гадать, включает ли он налоги или декларации. Бизнес-глоссарий решает эту проблему, отделяя определение бизнеса от технической реализации.

  1. В консоли Google Cloud перейдите в каталог Dataplex Universal .
  2. В левом навигационном меню выберите Глоссарии (в разделе Управление метаданными).

96020207ba4bd128.png

  1. Нажмите Создать бизнес-глоссарий .
  2. Введите следующие данные:
    • Имя : Retail Business Glossary
    • Расположение : us-central1 (или расположение, указанное вами при настройке).
  3. Нажмите «Создать» .

e3b146e5f3b57785.png

  1. Нажмите на недавно созданный глоссарий розничного бизнеса, чтобы войти в него.

c98bdf049e946234.png

  1. Нажмите «Создать категорию» и назовите её Sales Metrics , затем нажмите «Создать» . Категории помогают сгруппировать связанные термины.
  2. Выберите категорию Sales Metrics и нажмите «Добавить термин» , затем назовите его Gross Merchandise Value , затем нажмите «Создать».
  3. Нажмите кнопку + Добавить в разделе «Обзор», затем заполните следующие данные:
    • Обзор: The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.
  4. Нажмите «Сохранить ».

3a642fd2a41c040e.png

Теперь вы разработали четкое определение, которое можно связать с техническими активами вашей организации.

4. Определите структурированные технические метаданные с типом аспекта

Простых тегов «ключ:значение» недостаточно для строгой инженерной работы. Если вам нужно отслеживать «Владельцев данных», вам не нужна одна таблица с тегом owner:bob , а другая — contact:alice@example.com . Вам нужна схема, которая обеспечит обязательное указание владельца и должна иметь допустимый формат адреса электронной почты.

Для определения этого контракта мы будем использовать тип аспекта .

  1. В левой навигационной панели Dataplex в разделе Каталог выберите Типы аспектов и Шаблоны тегов .
  1. Выберите вкладку Пользовательский и нажмите Создать тип аспекта .

a920c555d40425a.png

  1. Введите следующие данные:
    • Отображаемое имя : Data Asset Governance
    • Местоположение : us-central1
  2. В разделе «Шаблон » мы определим схему для нашего Aspect . Нажмите «Добавить поле» , чтобы создать следующие три поля:
    • Поле 1:
      • Отображаемое имя : Data Steward
      • Тип : Text
      • Тип текста : Plain text
      • Кардинальность : обязательно (отметьте галочкой)
    • Поле 2 (еще раз нажмите «Добавить поле» ):
      • Отображаемое имя : Data Sensitivity
      • Тип : Enum
      • Значения : добавьте Public , Internal и Confidential
      • Мощность : Необязательно
    • Поле 3 (еще раз нажмите «Добавить поле» ):
      • Отображаемое имя : Last Review Date
      • Тип : Date and time
      • Мощность : Необязательно
  3. Нажмите «Сохранить ».

20babd75c2b8dce6.png

Вы только что создали контракт метаданных для повторного использования. Он пока никому не нужен, но структура уже существует.

5. Связь управления с активом

Теперь соберём всё воедино. У нас есть таблица BigQuery ( retail_data.transactions ), определение бизнеса ( Gross Merchandise Value ) и схема управления (Data Asset Governance ).

Мы обогатим запись Dataplex для таблицы BigQuery.

Обогатить схему бизнес-контекстом (уровень столбцов)

Давайте расскажем пользователям, что на самом деле означает столбец gmv , связав его с глоссарием.

  1. В левой навигационной панели Dataplex нажмите кнопку Поиск .
  2. В правом верхнем углу нажмите вкладку Dataplex Universal Catalog , если она не была активирована.

849a24e7b1a86a19.png

  1. Найдите retail_data.transactions . Щелкните по результату для таблицы BigQuery.

54d3edd1520593a9.png

  1. Нажмите вкладку Схема в сведениях о записи.
  2. Установите флажок в строке столбца gmv и нажмите кнопку Добавить бизнес-термин .
  3. Выберите термин Gross Merchandise Value .

64768eecf630c90b.png

Столбец gmv больше не просто «ПЛАВАЮЩИЙ»; теперь он связан с корпоративным определением Gross Merchandise Value .

Обогатить запись структурированными техническими метаданными (уровень таблицы)

Далее мы добавим к таблице аспект Data Asset Governance , чтобы определить права собственности и конфиденциальность.

  1. Оставайтесь на странице ввода retail_data.transactions .
  2. Нажмите вкладку Добавить тег или аспект , затем выберите тип Data Asset Governance из раскрывающегося списка.

4b770307159a28d8.png

  1. Теперь в форме будут отображаться поля, определённые в вашей схеме «Тип аспекта». Заполните их следующим образом:
    • Управляющий данными: finance-team@example.com
    • Конфиденциальность данных: выберите Internal .
    • Дата последнего обзора: выберите сегодняшнюю дату.
  2. Нажмите «Сохранить ».

f953c5569520d42a.png

Вы успешно прикрепили структурированный аспект к записи. В отличие от простого тега, эти данные проверяются на соответствие созданной вами схеме.

6. Унифицированное обнаружение и проверка

Мы проделали эту работу не просто для заполнения форм. Мы сделали это, чтобы сделать данные доступными для поиска и надёжными. Давайте посмотрим, как эти метаданные меняют интерфейс поиска и обнаружения для разработчиков.

Вернуться на главную страницу поиска в Dataplex Universal Catalog.

Представьте, что вы — инженер платформы, обеспечивающий управление. Вам нужно найти все активы с пометкой «Внутренние», которые управляются вашим типом аспекта. Вам нужно использовать точные предикаты, основанные на вашей схеме.

Проверить это можно двумя способами: используя точный синтаксис запроса (необходим для автоматизации) или используя интерактивные фильтры пользовательского интерфейса.

Метод 1: Проверка с помощью структурированного запроса

  1. В строке поиска (в режиме поиска по ключевым словам ) введите следующий структурированный запрос.
aspect:data-asset-governance.data-sensitivity=Internal
  1. Вы должны увидеть таблицу retail_data.transactions .

49120fe4ea224359.png

Метод 2: Проверка с помощью UI Filter Facets

  1. Очистите строку поиска, чтобы сбросить вид
  2. Посмотрите на панель Фильтр по свойствам в левой части экрана.
  3. Прокрутите вниз и разверните раздел «Управление активами данных» (он представляет созданный вами тип аспекта).
  4. В разделе «Конфиденциальность данных » установите флажок Internal .
  5. Результаты поиска обновятся и отобразят таблицу retail_data.transactions .

4df224cb06720ec4.png

Независимо от того, используете ли вы типизированный запрос или фильтры пользовательского интерфейса, базовый механизм один и тот же.

Это демонстрирует фундаментальное отличие Dataplex от простого вики: ваши метаданные представляют собой структуру, доступную для запросов. Теперь вы можете создавать автоматизированные аудиты (например, «Найти все таблицы, где last_review_date > 1 года назад»), опираясь на эту предсказуемую структуру.

7. Очистка окружающей среды

Чтобы избежать постоянных расходов, удалите ресурсы, созданные в этой лабораторной работе.

Удалить набор данных BigQuery

Эта команда необратима и использует флаг -f (принудительно) для удаления набора данных и всех его таблиц без подтверждения.

# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)

# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data

Удалить артефакты Dataplex

  1. Перейдите в пользовательский интерфейс каталога Dataplex Universal > Управление метаданными > Каталог .
  2. В разделе Типы аспектов и шаблоны тегов выберите тип аспекта data_asset_governance и удалите его.
  3. Перейдите в раздел «Управление метаданными» > «Глоссарии» , выберите « Retail Business Glossary и удалите его. Сначала удалите термин Gross Merchandise Value , а затем — «Глоссарий».

8. Поздравляем!

Вы вышли за рамки простой маркировки данных и создали основополагающую структурированную модель управления в Dataplex.

Вы узнали, что:

  • Глоссарии устраняют неоднозначность в деловых вопросах.
  • Типы аспектов предоставляют схему контракта для технических метаданных.
  • Аспекты применяют эту схему к фактическим записям данных.
  • Dataplex Search использует эти структурированные метаданные для точного обнаружения.

Что дальше?

  • Управление как код: используйте поставщик Google Cloud Terraform для определения типов аспектов и глоссариев в системе управления версиями, обеспечивая согласованность схем в средах разработки, тестирования и производства.
  • Автоматизированная маркировка: напишите облачную функцию или шаг сборки облака, запускаемые при создании нового набора данных, которые автоматически прикрепляют ваш аспект «Управление активами данных» со значениями по умолчанию (например, sensitivity=Internal, steward=TBD ) и отмечают его для проверки.