1. Введение
Как разработчики и специалисты по обработке данных, мы часто получаем в наследство большие массивы данных, которые больше похожи на целые болота. Мы постоянно сталкиваемся с одними и теми же трудностями: «Каково фактическое определение этого столбца „amt“?», «Кто понесёт убытки, если этот набор данных сломается?» или «Можно ли использовать эту таблицу в системе персонализированных рекомендаций?»
Традиционно каталоги данных представляли собой пассивные хранилища, заполненные произвольными текстовыми тегами, которые быстро становились несогласованными и устаревшими. Они не обеспечивают чёткой структуры, что делает программное управление практически невозможным.
Чтобы реализовать это на практике, в этой лабораторной работе мы отработаем сценарий: создание надежного управления первичными данными о розничных продажах, чтобы финансовый отдел мог доверять им при составлении официальной отчетности. Вам предстоит перевести эти данные из состояния неоднозначного «болота» в управляемый продукт.
Универсальный каталог Dataplex меняет эту ситуацию, предоставляя активную структурированную инфраструктуру управления метаданными. Он позволяет добавлять структурированные метаданные на основе схем ( аспекты ) и принятые бизнес-определения ( глоссарии ) непосредственно к вашим данным ( записям ).
Прежде чем вы сможете писать скрипты Python или модули Terraform для масштабной автоматизации, вам необходимо понять базовую объектную модель.
В этой лабораторной работе мы вручную выполним этапы управления в консоли Google Cloud. Мы подробно объясним взаимосвязь между записями, типами аспектов, аспектами и глоссариями, чтобы сформировать у вас чёткую ментальную модель, позволяющую сделать ваши данные доступными для обнаружения, понятными и надёжными.
Предпосылки
- Проект Google Cloud с доступом владельца или редактора.
- Знакомство с Google Cloud Console.
- Базовые навыки работы с gcloud и bq CLI в Cloud Shell.
Чему вы научитесь
- Ключевое различие между записью Dataplex, типом аспекта и аспектом.
- Как создать бизнес-глоссарий для устранения неоднозначности терминологии.
- Как разработать тип аспекта для обеспечения строгой схемы технических метаданных (выходя за рамки «тегов»).
- Как связать термин бизнес-глоссария с определенным столбцом BigQuery.
- Как прикрепить структурированный аспект к активу данных и проверить входные данные.
- Как выполнять точные поисковые запросы по этим новым структурированным метаданным.
Что вам понадобится
- Учетная запись Google Cloud и проект Google Cloud
- Веб-браузер, такой как Chrome
Ключевые концепции
- Запись: каноническое, абстрактное представление актива данных в каталоге. Можно представить его как «указатель» или «существительное». При создании таблицы BigQuery Dataplex автоматически создаёт для неё запись. Мы не управляем таблицей напрямую; мы управляем её записью.
- Бизнес-глоссарий: централизованный словарь бизнес-терминов вашей организации с возможностью версионирования. Это единственный источник достоверной информации. Он предотвращает проблему «В отделе продаж GMV определяется иначе, чем в отделе финансов».
- Тип аспекта: схема или шаблон для определённой категории метаданных. Тип аспекта определяет поля, типы данных (строка, перечисление, дата/время и т. д.) и ограничения (обязательные/необязательные). Это контракт, обеспечивающий согласованность метаданных.
- Аспект: определённый фрагмент метаданных, прикреплённый к записи и следующий структуре, определяемой типом аспекта. Он содержит фактические данные, соответствующие схеме типа аспекта.
2. Настройка и требования
Запустить Cloud Shell
Хотя Google Cloud можно управлять удаленно с вашего ноутбука, в этой лабораторной работе вы будете использовать Google Cloud Shell — среду командной строки, работающую в облаке.
В консоли Google Cloud Console нажмите значок Cloud Shell на верхней правой панели инструментов:

Подготовка и подключение к среде займёт всего несколько минут. После завершения вы увидите примерно следующее:

Эта виртуальная машина содержит все необходимые инструменты разработки. Она предоставляет постоянный домашний каталог объёмом 5 ГБ и работает в облаке Google Cloud, что значительно повышает производительность сети и аутентификацию. Всю работу в этой лабораторной работе можно выполнять в браузере. Вам не нужно ничего устанавливать.
Включите необходимые API и настройте среду
Выполните следующие команды, чтобы задать идентификатор вашего проекта, определить регион и включить необходимые API-интерфейсы служб.
export PROJECT_ID=$(gcloud config get-value project)
gcloud config set project $PROJECT_ID
export LOCATION="us-central1"
gcloud services enable dataplex.googleapis.com \
bigquery.googleapis.com \
datacatalog.googleapis.com
Создайте набор данных BigQuery и подготовьте образцы данных
Нам нужен конкретный ресурс данных для управления. Мы создадим набор данных BigQuery и загрузим небольшой пример CSV-файла, представляющего транзакции. Dataplex автоматически обнаружит эту таблицу и создаст для неё запись.
# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
--description "Retail data for governance codelab" \
$PROJECT_ID:retail_data
# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv
# Load the data from the temporary CSV file into BigQuery
bq load \
--source_format=CSV \
--autodetect \
retail_data.transactions \
/tmp/transactions.csv
# (Optional) Clean up the temporary file
rm /tmp/transactions.csv
Проверьте настройку, выполнив быстрый запрос:
bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"
3. Найдите общий язык с помощью бизнес-глоссария.
Эффективное управление начинается с однозначных определений. Если разработчик видит столбец с названием gmv , ему не придётся гадать, включает ли он налоги или декларации. Бизнес-глоссарий решает эту проблему, отделяя определение бизнеса от технической реализации.
- В консоли Google Cloud перейдите в каталог Dataplex Universal .
- В левом навигационном меню выберите Глоссарии (в разделе Управление метаданными).

- Нажмите Создать бизнес-глоссарий .
- Введите следующие данные:
- Имя :
Retail Business Glossary - Расположение :
us-central1(или расположение, указанное вами при настройке).
- Имя :
- Нажмите «Создать» .

- Нажмите на недавно созданный глоссарий розничного бизнеса, чтобы войти в него.

- Нажмите «Создать категорию» и назовите её
Sales Metrics, затем нажмите «Создать» . Категории помогают сгруппировать связанные термины. - Выберите категорию
Sales Metricsи нажмите «Добавить термин» , затем назовите егоGross Merchandise Value, затем нажмите «Создать». - Нажмите кнопку + Добавить в разделе «Обзор», затем заполните следующие данные:
- Обзор:
The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.
- Обзор:
- Нажмите «Сохранить ».

Теперь вы разработали четкое определение, которое можно связать с техническими активами вашей организации.
4. Определите структурированные технические метаданные с типом аспекта
Простых тегов «ключ:значение» недостаточно для строгой инженерной работы. Если вам нужно отслеживать «Владельцев данных», вам не нужна одна таблица с тегом owner:bob , а другая — contact:alice@example.com . Вам нужна схема, которая обеспечит обязательное указание владельца и должна иметь допустимый формат адреса электронной почты.
Для определения этого контракта мы будем использовать тип аспекта .
- В левой навигационной панели Dataplex в разделе Каталог выберите Типы аспектов и Шаблоны тегов .
- Выберите вкладку Пользовательский и нажмите Создать тип аспекта .

- Введите следующие данные:
- Отображаемое имя :
Data Asset Governance - Местоположение :
us-central1
- Отображаемое имя :
- В разделе «Шаблон » мы определим схему для нашего
Aspect. Нажмите «Добавить поле» , чтобы создать следующие три поля:- Поле 1:
- Отображаемое имя :
Data Steward - Тип :
Text - Тип текста :
Plain text - Кардинальность : обязательно (отметьте галочкой)
- Отображаемое имя :
- Поле 2 (еще раз нажмите «Добавить поле» ):
- Отображаемое имя :
Data Sensitivity - Тип :
Enum - Значения : добавьте
Public,InternalиConfidential - Мощность : Необязательно
- Отображаемое имя :
- Поле 3 (еще раз нажмите «Добавить поле» ):
- Отображаемое имя :
Last Review Date - Тип :
Date and time - Мощность : Необязательно
- Отображаемое имя :
- Поле 1:
- Нажмите «Сохранить ».

Вы только что создали контракт метаданных для повторного использования. Он пока никому не нужен, но структура уже существует.
5. Связь управления с активом
Теперь соберём всё воедино. У нас есть таблица BigQuery ( retail_data.transactions ), определение бизнеса ( Gross Merchandise Value ) и схема управления (Data Asset Governance ).
Мы обогатим запись Dataplex для таблицы BigQuery.
Обогатить схему бизнес-контекстом (уровень столбцов)
Давайте расскажем пользователям, что на самом деле означает столбец gmv , связав его с глоссарием.
- В левой навигационной панели Dataplex нажмите кнопку Поиск .
- В правом верхнем углу нажмите вкладку Dataplex Universal Catalog , если она не была активирована.

- Найдите
retail_data.transactions. Щелкните по результату для таблицы BigQuery.

- Нажмите вкладку Схема в сведениях о записи.
- Установите флажок в строке столбца
gmvи нажмите кнопку Добавить бизнес-термин . - Выберите термин
Gross Merchandise Value.

Столбец gmv больше не просто «ПЛАВАЮЩИЙ»; теперь он связан с корпоративным определением Gross Merchandise Value .
Обогатить запись структурированными техническими метаданными (уровень таблицы)
Далее мы добавим к таблице аспект Data Asset Governance , чтобы определить права собственности и конфиденциальность.
- Оставайтесь на странице ввода
retail_data.transactions. - Нажмите вкладку Добавить тег или аспект , затем выберите тип
Data Asset Governanceиз раскрывающегося списка.

- Теперь в форме будут отображаться поля, определённые в вашей схеме «Тип аспекта». Заполните их следующим образом:
- Управляющий данными:
finance-team@example.com - Конфиденциальность данных: выберите
Internal. - Дата последнего обзора: выберите сегодняшнюю дату.
- Управляющий данными:
- Нажмите «Сохранить ».

Вы успешно прикрепили структурированный аспект к записи. В отличие от простого тега, эти данные проверяются на соответствие созданной вами схеме.
6. Унифицированное обнаружение и проверка
Мы проделали эту работу не просто для заполнения форм. Мы сделали это, чтобы сделать данные доступными для поиска и надёжными. Давайте посмотрим, как эти метаданные меняют интерфейс поиска и обнаружения для разработчиков.
Вернуться на главную страницу поиска в Dataplex Universal Catalog.
Представьте, что вы — инженер платформы, обеспечивающий управление. Вам нужно найти все активы с пометкой «Внутренние», которые управляются вашим типом аспекта. Вам нужно использовать точные предикаты, основанные на вашей схеме.
Проверить это можно двумя способами: используя точный синтаксис запроса (необходим для автоматизации) или используя интерактивные фильтры пользовательского интерфейса.
Метод 1: Проверка с помощью структурированного запроса
- В строке поиска (в режиме поиска по ключевым словам ) введите следующий структурированный запрос.
aspect:data-asset-governance.data-sensitivity=Internal
- Вы должны увидеть таблицу
retail_data.transactions.

Метод 2: Проверка с помощью UI Filter Facets
- Очистите строку поиска, чтобы сбросить вид
- Посмотрите на панель Фильтр по свойствам в левой части экрана.
- Прокрутите вниз и разверните раздел «Управление активами данных» (он представляет созданный вами тип аспекта).
- В разделе «Конфиденциальность данных » установите флажок
Internal. - Результаты поиска обновятся и отобразят таблицу
retail_data.transactions.

Независимо от того, используете ли вы типизированный запрос или фильтры пользовательского интерфейса, базовый механизм один и тот же.
Это демонстрирует фундаментальное отличие Dataplex от простого вики: ваши метаданные представляют собой структуру, доступную для запросов. Теперь вы можете создавать автоматизированные аудиты (например, «Найти все таблицы, где last_review_date > 1 года назад»), опираясь на эту предсказуемую структуру.
7. Очистка окружающей среды
Чтобы избежать постоянных расходов, удалите ресурсы, созданные в этой лабораторной работе.
Удалить набор данных BigQuery
Эта команда необратима и использует флаг -f (принудительно) для удаления набора данных и всех его таблиц без подтверждения.
# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)
# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data
Удалить артефакты Dataplex
- Перейдите в пользовательский интерфейс каталога Dataplex Universal > Управление метаданными > Каталог .
- В разделе Типы аспектов и шаблоны тегов выберите тип аспекта data_asset_governance и удалите его.
- Перейдите в раздел «Управление метаданными» > «Глоссарии» , выберите «
Retail Business Glossaryи удалите его. Сначала удалите терминGross Merchandise Value, а затем — «Глоссарий».
8. Поздравляем!
Вы вышли за рамки простой маркировки данных и создали основополагающую структурированную модель управления в Dataplex.
Вы узнали, что:
- Глоссарии устраняют неоднозначность в деловых вопросах.
- Типы аспектов предоставляют схему контракта для технических метаданных.
- Аспекты применяют эту схему к фактическим записям данных.
- Dataplex Search использует эти структурированные метаданные для точного обнаружения.
Что дальше?
- Управление как код: используйте поставщик Google Cloud Terraform для определения типов аспектов и глоссариев в системе управления версиями, обеспечивая согласованность схем в средах разработки, тестирования и производства.
- Автоматизированная маркировка: напишите облачную функцию или шаг сборки облака, запускаемые при создании нового набора данных, которые автоматически прикрепляют ваш аспект «Управление активами данных» со значениями по умолчанию (например,
sensitivity=Internal, steward=TBD) и отмечают его для проверки.