Создайте модель прогнозирования AutoML с помощью Vertex AI

Создайте модель прогнозирования AutoML с помощью Vertex AI

О практической работе

subjectПоследнее обновление: июн. 25, 2021
account_circleАвторы: Karl Weinmeister

1. Обзор

В этой лабораторной работе вы:

  • Создайте управляемый набор данных
  • Импортируйте данные из сегмента Google Cloud Storage.
  • Обновите метаданные столбца для надлежащего использования с AutoML.
  • Обучите модель, используя такие параметры, как бюджет и цель оптимизации.
  • Делайте онлайн-пакетные прогнозы

2. Просмотр данных

В этой лабораторной работе используются данные из набора данных по продажам спиртных напитков в Айове из общедоступных наборов данных BigQuery. Этот набор данных состоит из оптовых закупок спиртных напитков в американском штате Айова с 2012 года.

Вы можете просмотреть исходные необработанные данные, выбрав «Просмотреть набор данных» . Чтобы получить доступ к таблице, перейдите на левой панели навигации к проекту bigquery-public-datasets , затем к набору данных iowa_liquor_sales , а затем к таблице продаж . Вы можете выбрать «Предварительный просмотр», чтобы просмотреть выбранные строки из набора данных.

f07c88368e7445c6.png

Для целей этой лабораторной работы мы уже выполнили некоторую предварительную обработку базовых данных, чтобы сгруппировать покупки по дням. Мы будем использовать CSV-выдержку из таблицы BigQuery. Столбцы в файле CSV:

  • дс : Дата
  • y : сумма всех покупок за этот день в долларах.
  • праздник : логическое значение, является ли дата праздником в США.
  • id : идентификатор временного ряда (для поддержки нескольких временных рядов, например, по магазину или по продукту). В этом случае мы просто собираемся прогнозировать общий объем покупок в одном временном ряду, поэтому для каждой строки id устанавливается равным 0.

3. Импортировать данные

Шаг 1. Перейдите к наборам данных Vertex AI.

Доступ к наборам данных осуществляется в меню Vertex AI на левой панели навигации Cloud Console .

d8f26bfce50bfdb5.png

Шаг 2. Создайте набор данных

Создайте новый набор данных, выбрав «Табличные данные» , а затем тип задачи «Прогнозирование» . Выберите имя iowa_daily или любое другое, которое вам больше нравится.

4efeaebfd7845b9c.png

Шаг 3: Импортируйте данные

Следующим шагом является импорт данных в набор данных. Выберите вариант «Выбрать CSV из облачного хранилища». Затем перейдите к CSV-файлу в сегменте AutoML Demo Alpha и вставьте automl-demo-240614-lcm/iowa_liquor/iowa_daily.csv .

4. Модель поезда

Шаг 1. Настройка функций модели

Через несколько минут AutoML уведомит вас о завершении импорта. На этом этапе вы можете настроить функции модели.

  • Выберите столбец идентификатора временного ряда, который будет иметь значение id . В нашем наборе данных есть только один временной ряд, так что это формальность.
  • Выберите столбец «Время» как ds .

Затем выберите «Создать статистику» . После завершения процесса вы увидите статистику «Процент отсутствующих» и «Различные значения» . Этот процесс может занять несколько минут, поэтому вы можете перейти к следующему шагу, если хотите.

Шаг 2. Обучение модели

Выберите «Обучить модель» , чтобы начать процесс обучения. Убедитесь, что выбран AutoML, и нажмите «Продолжить» .

5028ec6f242dfa6a.png

Шаг 3: Определите модель

  • Выберите столбец «Цель» как y . Это значение, которое мы прогнозируем.
  • Если это еще не установлено ранее, установите для столбца идентификатора серии значение id , а для столбца Timestamp — значение ds .
  • Установите Детализация данных на Дни и Горизонт прогноза на 7 . В этом поле указывается количество периодов, которые модель может прогнозировать в будущем.
  • Установите окно контекста на 7 дней. Для прогнозирования модель будет использовать данные за предыдущие 30 дней. Существует компромисс между более короткими и более длинными окнами, и обычно рекомендуется выбирать значение в диапазоне 1–10 раз от горизонта прогнозирования.
  • Установите флажок Экспортировать набор тестовых данных в BigQuery . Вы можете оставить это поле пустым, и оно автоматически создаст набор данных и таблицу в вашем проекте (или укажет местоположение по вашему выбору).
  • Выберите Продолжить .

8d2f34779ba49bb1.png

Шаг 4. Установите параметры обучения

На этом этапе вы можете указать более подробную информацию о том, как вы хотите обучать модель.

  • Установите для столбца «Праздник» значение «Доступно по прогнозу», поскольку мы заранее знаем, является ли данная дата праздником.
  • Измените цель оптимизации на MAE . MAE, или средняя средняя ошибка, более устойчива к выбросам по сравнению со среднеквадратичной ошибкой. Поскольку мы работаем с данными о ежедневных покупках, которые могут иметь резкие колебания, MAE является подходящим показателем для использования.
  • Выберите Продолжить .

9557c92be32a1987.png

Шаг 5: Начните обучение

Установите бюджет по вашему выбору. В этом случае для обучения модели достаточно 1 узла-часа . Затем начните тренировочный процесс.

Шаг 6: Оценка модели

Процесс обучения может занять 1–2 часа (включая дополнительное время на настройку). Когда обучение завершится, вы получите электронное письмо. Когда он будет готов, вы сможете просмотреть точность созданной вами модели.

5. Предсказывать

Шаг 1. Просмотрите прогнозы на основе тестовых данных

Перейдите в консоль BigQuery, чтобы просмотреть прогнозы по тестовым данным. Внутри вашего проекта автоматически создается новый набор данных со схемой именования: Export_evaluated_data_items + <имя модели> + <метка времени> . Внутри этого набора данных вы найдете таблицу Assessment_data_items для просмотра прогнозов.

В этой таблице появилось несколько новых столбцов:

  • Preded_on_[столбец даты]: дата, когда был сделан прогноз. Например, если предсказанное_on_ds равно 11/4, а ds равно 11/8, мы прогнозируем на 4 дня вперед.
  • предсказанный_[целевой столбец].tables.value: прогнозируемое значение

9800c7c67d93db03.png

Шаг 2. Выполните пакетные прогнозы

Наконец, вы захотите использовать свою модель для прогнозирования.

Входной файл содержит пустые значения для прогнозируемых дат, а также исторические данные:

дс

праздничный день

идентификатор

й

15.05.20

0

0

1751315.43

16.05.20

0

0

0

17.05.20

0

0

0

18.05.20

0

0

1612066.43

19.05.20

0

0

1773885.17

20.05.20

0

0

1487270,92

21.05.20

0

0

1024051,76

22.05.20

0

0

1471736.31

23.05.20

0

0

<пусто>

24.05.20

0

0

<пусто>

25 мая 2020 г.

1

0

<пусто>

26.05.20

0

0

<пусто>

27.05.20

0

0

<пусто>

28 мая 2020 г.

0

0

<пусто>

29.05.20

0

0

<пусто>

Из элемента «Пакетные прогнозы» на левой панели навигации AI Platform (Unified) вы можете создать новый пакетный прогноз.

Здесь в хранилище хранилища создается пример входного файла: automl-demo-240614-lcm/iowa_liquor/iowa_daily_automl_predict.csv.

Вы можете указать местоположение исходного файла. Затем вы можете экспортировать свои прогнозы в облачное хранилище в формате CSV или в BigQuery. Для целей этой лабораторной работы выберите BigQuery и укажите идентификатор своего проекта Google Cloud .

22e808dd5cbd4224.png

Процесс пакетного прогнозирования займет несколько минут. После завершения вы можете нажать на задание пакетного прогнозирования, чтобы просмотреть подробную информацию, включая местоположение экспорта . В BigQuery вам нужно будет перейти к проекту/набору данных/таблице на левой панели навигации, чтобы получить доступ к прогнозам.

Задание создаст две разные таблицы в BigQuery. Один будет содержать строки с ошибками, а другой — прогнозы. Вот пример вывода таблицы прогнозов:

9ead59dcc9ad1521.png

Шаг 3: Заключение

Поздравляем, вы успешно создали и обучили модель прогнозирования с помощью AutoML. В этой лабораторной работе мы рассмотрели импорт данных, построение моделей и прогнозирование.

Вы готовы создать свою собственную модель прогнозирования!