با Vertex AI یک مدل پیش بینی AutoML بسازید

۱. مرور کلی

در این آزمایشگاه، شما:

  • ایجاد یک مجموعه داده مدیریت‌شده
  • وارد کردن داده‌ها از یک مخزن ذخیره‌سازی ابری گوگل
  • به‌روزرسانی متادیتای ستون برای استفاده مناسب با AutoML
  • آموزش یک مدل با استفاده از گزینه‌هایی مانند بودجه و هدف بهینه‌سازی
  • پیش‌بینی‌های دسته‌ای آنلاین انجام دهید

۲. بررسی داده‌ها

این آزمایشگاه از داده‌های مجموعه داده‌های فروش مشروبات الکلی آیووا از مجموعه داده‌های عمومی BigQuery استفاده می‌کند. این مجموعه داده‌ها شامل خرید عمده مشروبات الکلی در ایالت آیووای ایالات متحده از سال ۲۰۱۲ است.

می‌توانید با انتخاب «مشاهده مجموعه داده‌ها» (View Dataset) ، داده‌های خام اصلی را مشاهده کنید. برای دسترسی به جدول، در نوار پیمایش سمت چپ به پروژه bigquery-public-datasets ، سپس مجموعه داده iowa_liquor_sales و در نهایت جدول فروش بروید. می‌توانید برای مشاهده مجموعه‌ای از ردیف‌های مجموعه داده‌ها، «پیش‌نمایش» (Preview) را انتخاب کنید.

f07c88368e7445c6.png

برای اهداف این آزمایش، ما قبلاً برخی پیش‌پردازش‌های اولیه داده‌ها را برای گروه‌بندی خریدها بر اساس روز انجام داده‌ایم. ما از یک فایل CSV استخراج‌شده از جدول BigQuery استفاده خواهیم کرد. ستون‌های فایل CSV عبارتند از:

  • ds : تاریخ
  • y : مجموع کل خریدهای آن روز به دلار
  • holiday : یک متغیر بولی که مشخص می‌کند آیا تاریخ مورد نظر جزو تعطیلات رسمی ایالات متحده است یا خیر.
  • id : یک شناسه سری زمانی (برای پشتیبانی از چندین سری زمانی، مثلاً بر اساس فروشگاه یا محصول). در این حالت، ما صرفاً قصد داریم خریدهای کلی را در یک سری زمانی پیش‌بینی کنیم، بنابراین id برای هر ردیف روی 0 تنظیم می‌شود.

۳. وارد کردن داده‌ها

مرحله 1: به مجموعه داده‌های هوش مصنوعی Vertex بروید

از طریق نوار ناوبری سمت چپ کنسول ابری ، در منوی Vertex AI به مجموعه داده‌ها دسترسی پیدا کنید.

d8f26bfce50bfdb5.png

مرحله ۲: ایجاد مجموعه داده

یک مجموعه داده جدید ایجاد کنید، Tabular Data و سپس نوع مسئله پیش‌بینی را انتخاب کنید. نام iowa_daily یا هر چیز دیگری را که ترجیح می‌دهید انتخاب کنید.

4efeaebfd7845b9c.png

مرحله ۳: وارد کردن داده‌ها

مرحله بعدی وارد کردن داده‌ها به مجموعه داده‌ها است. گزینه Select a CSV from Cloud Storage را انتخاب کنید. سپس، به فایل CSV موجود در AutoML Demo Alpha بروید و automl-demo-240614-lcm/iowa_liquor/iowa_daily.csv را وارد کنید.

۴. مدل قطار

مرحله ۱: پیکربندی ویژگی‌های مدل

بعد از چند دقیقه، AutoML به شما اطلاع می‌دهد که وارد کردن اطلاعات تکمیل شده است. در آن مرحله، می‌توانید ویژگی‌های مدل را پیکربندی کنید.

  • ستون شناسه سری زمانی را برای id انتخاب کنید. ما فقط یک سری زمانی در مجموعه داده خود داریم، بنابراین این یک امر تشریفاتی است.
  • ستون Time را برای ds انتخاب کنید.

سپس، گزینه‌ی «ایجاد آمار» (Generate Statistics) را انتخاب کنید. پس از اتمام فرآیند، آمار مربوط به « درصد گمشده» (Missing% ) و «مقادیر متمایز» (Distinct values) را مشاهده خواهید کرد. این فرآیند ممکن است چند دقیقه طول بکشد، بنابراین در صورت تمایل می‌توانید به مرحله‌ی بعدی بروید.

مرحله ۲: آموزش مدل

برای شروع فرآیند آموزش، گزینه Train the Model را انتخاب کنید. مطمئن شوید که AutoML انتخاب شده است و سپس Continue را بزنید .

5028ec6f242dfa6a.png

مرحله ۳: تعریف مدل

  • ستون Target را y انتخاب کنید. این مقداری است که ما پیش‌بینی می‌کنیم.
  • اگر قبلاً تنظیم نشده است، ستون شناسه سری را روی id و ستون Timestamp را روی ds تنظیم کنید.
  • بخش « جزئیات داده‌ها» (Data Granularity) را روی «روزها» (Days) و «افق پیش‌بینی» (Frequency) را روی ۷ تنظیم کنید. این فیلد تعداد دوره‌هایی را که مدل می‌تواند برای آینده پیش‌بینی کند، مشخص می‌کند.
  • پنجره Context را روی ۷ روز تنظیم کنید. مدل از داده‌های ۳۰ روز گذشته برای پیش‌بینی استفاده خواهد کرد. بین پنجره‌های کوتاه‌تر و بلندتر، بده‌بستان‌هایی وجود دارد و به‌طورکلی انتخاب مقداری بین ۱ تا ۱۰ برابر افق پیش‌بینی توصیه می‌شود.
  • کادر «صادر کردن مجموعه داده‌های آزمایشی به BigQuery» را علامت بزنید. می‌توانید آن را خالی بگذارید تا به‌طور خودکار یک مجموعه داده و جدول در پروژه شما ایجاد شود (یا مکان مورد نظر خود را مشخص کنید).
  • ادامه را انتخاب کنید.

8d2f34779ba49bb1.png

مرحله ۴: تنظیم گزینه‌های آموزشی

در این مرحله، می‌توانید جزئیات بیشتری در مورد نحوه آموزش مدل مشخص کنید.

  • ستون تعطیلات را روی «در زمان پیش‌بینی موجود است» تنظیم کنید، زیرا از قبل می‌دانیم که آیا یک تاریخ معین، تعطیل است یا خیر.
  • هدف بهینه‌سازی را به MAE تغییر دهید. MAE یا میانگین خطای میانگین، نسبت به میانگین مربعات خطا، در برابر داده‌های پرت مقاوم‌تر است. از آنجا که ما با داده‌های خرید روزانه کار می‌کنیم که می‌توانند نوسانات شدیدی داشته باشند، MAE معیار مناسبی برای استفاده است.
  • ادامه را انتخاب کنید.

9557c92be32a1987.png

مرحله ۵: شروع آموزش

بودجه‌ای به دلخواه خود تعیین کنید. در این حالت، ۱ ساعت گره برای آموزش مدل کافی است. سپس، فرآیند آموزش را آغاز کنید.

مرحله ۶: ارزیابی مدل

فرآیند آموزش ممکن است ۱ تا ۲ ساعت طول بکشد (شامل هرگونه زمان اضافی برای راه‌اندازی). پس از اتمام آموزش، ایمیلی دریافت خواهید کرد. وقتی آماده شد، می‌توانید دقت مدلی که ایجاد کرده‌اید را مشاهده کنید.

۵. پیش‌بینی کنید

مرحله ۱: بررسی پیش‌بینی‌ها روی داده‌های آزمایشی

برای مشاهده پیش‌بینی‌ها روی داده‌های آزمایشی، به کنسول BigQuery بروید. در داخل پروژه شما، یک مجموعه داده جدید به طور خودکار با طرح نامگذاری زیر ایجاد می‌شود: export_evaluated_data_items + <model name> + <timestamp> . در داخل آن مجموعه داده، جدول evaluated_data_items را برای بررسی پیش‌بینی‌ها خواهید یافت.

این جدول چند ستون جدید دارد:

  • prediction_on_[date column]: تاریخی که پیش‌بینی انجام شده است. برای مثال، اگر prediction_on_ds برابر با 11/4 و ds برابر با 11/8 باشد، ما 4 روز جلوتر را پیش‌بینی می‌کنیم.
  • prediction_[target column].tables.value: مقدار پیش‌بینی‌شده

۹۸۰۰c۷c۶۷d۹۳db۰۳.png

مرحله ۲: انجام پیش‌بینی‌های دسته‌ای

در نهایت، شما می‌خواهید از مدل خود برای پیش‌بینی استفاده کنید.

فایل ورودی شامل مقادیر خالی برای تاریخ‌های پیش‌بینی‌شده، همراه با داده‌های تاریخی است:

دی اس

تعطیلات

شناسه

ی

۱۵/۵/۲۰۲۰

0

0

۱۷۵۱۳۱۵.۴۳

۱۶/۵/۲۰۲۰

0

0

0

۱۷/۵/۲۰۲۰

0

0

0

۱۸/۵/۲۰۲۰

0

0

۱۶۱۲۰۶۶.۴۳

۱۹/۵/۲۰۲۰

0

0

۱۷۷۳۸۸۵.۱۷

۲۰/۵/۲۰

0

0

۱۴۸۷۲۷۰.۹۲

۲۱/۵/۲۰۲۰

0

0

۱۰۲۴۰۵۱.۷۶

۲۲/۵/۲۰۲۰

0

0

۱۴۷۱۷۳۶.۳۱

۲۳/۵/۲۰۲۰

0

0

<خالی>

۲۰/۵/۲۴

0

0

<خالی>

2020/5/25

۱

0

<خالی>

۵/۲۶/۲۰

0

0

<خالی>

2020/5/27

0

0

<خالی>

۲۸/۵/۲۰

0

0

<خالی>

۲۹/۵/۲۰

0

0

<خالی>

از آیتم پیش‌بینی‌های دسته‌ای در نوار ناوبری سمت چپ پلتفرم هوش مصنوعی (یکپارچه)، می‌توانید یک پیش‌بینی دسته‌ای جدید ایجاد کنید.

یک فایل ورودی نمونه در اینجا در یک مخزن ذخیره‌سازی برای شما ایجاد می‌شود: automl-demo-240614-lcm/iowa_liquor/iowa_daily_automl_predict.csv

می‌توانید محل فایل منبع را مشخص کنید. سپس می‌توانید پیش‌بینی‌های خود را به صورت CSV به یک محل ذخیره‌سازی ابری یا به BigQuery صادر کنید. برای اهداف این آزمایش، BigQuery را انتخاب کرده و شناسه پروژه Google Cloud خود را انتخاب کنید.

22e808dd5cbd4224.png

فرآیند پیش‌بینی دسته‌ای چند دقیقه طول می‌کشد. پس از اتمام آن، می‌توانید روی کار پیش‌بینی دسته‌ای کلیک کنید تا جزئیات، از جمله محل خروجی ، را مشاهده کنید. در BigQuery، برای دسترسی به پیش‌بینی‌ها باید به project / dataset / table در نوار ناوبری سمت چپ بروید.

این کار دو جدول مختلف در BigQuery ایجاد می‌کند. یکی شامل هر ردیفی که خطا دارد و دیگری شامل پیش‌بینی‌ها خواهد بود. در اینجا مثالی از خروجی جدول پیش‌بینی‌ها آورده شده است:

9ead59dcc9ad1521.png

مرحله ۳: نتیجه‌گیری

تبریک می‌گویم، شما با موفقیت یک مدل پیش‌بینی را با AutoML ساختید و آموزش دادید. در این آزمایش، ما وارد کردن داده‌ها، ساخت مدل و انجام پیش‌بینی‌ها را پوشش دادیم.

شما آماده‌اید تا مدل پیش‌بینی خودتان را بسازید!