با Vertex AI یک مدل پیش بینی AutoML بسازید

1. بررسی اجمالی

در این آزمایشگاه، شما:

  • یک مجموعه داده مدیریت شده ایجاد کنید
  • داده‌ها را از Google Cloud Storage Bucket وارد کنید
  • ابرداده ستون را برای استفاده مناسب با AutoML به روز کنید
  • یک مدل را با استفاده از گزینه هایی مانند بودجه و هدف بهینه سازی آموزش دهید
  • پیش بینی دسته ای آنلاین انجام دهید

2. بررسی داده ها

این آزمایشگاه از داده های مجموعه داده فروش مشروب Iowa از مجموعه داده های عمومی BigQuery استفاده می کند. این مجموعه داده شامل خرید عمده مشروب در ایالت آیووا ایالات متحده از سال 2012 است.

با انتخاب View Dataset می توانید به داده های خام اصلی نگاه کنید. برای دسترسی به جدول، در نوار ناوبری سمت چپ به پروژه bigquery-public-datasets ، سپس مجموعه داده iowa_liquor_sales و سپس جدول فروش بروید. برای مشاهده مجموعه‌ای از ردیف‌ها از مجموعه داده، می‌توانید پیش‌نمایش را انتخاب کنید.

f07c88368e7445c6.png

برای اهداف این آزمایشگاه، پیش‌پردازش اولیه داده‌ها را برای گروه‌بندی خریدها بر اساس روز انجام داده‌ایم. ما از یک استخراج CSV از جدول BigQuery استفاده خواهیم کرد. ستون های موجود در فایل CSV عبارتند از:

  • ds : تاریخ
  • y : مجموع تمام خریدهای آن روز به دلار
  • تعطیلات : یک بولی که آیا تاریخ تعطیلات ایالات متحده است
  • id : یک شناسه سری زمانی (برای پشتیبانی از چندین سری زمانی، به عنوان مثال بر اساس فروشگاه یا محصول). در این حالت، ما به سادگی قصد داریم خریدهای کلی را در یک سری زمانی پیش بینی کنیم، بنابراین id برای هر ردیف روی 0 تنظیم می شود.

3. وارد کردن داده ها

مرحله 1: به Vertex AI Datasets بروید

در منوی Vertex AI از نوار پیمایش سمت چپ Cloud Console به مجموعه داده ها دسترسی پیدا کنید.

d8f26bfce50bfdb5.png

مرحله 2: مجموعه داده ایجاد کنید

یک مجموعه داده جدید ایجاد کنید، داده های جدولی و سپس نوع مشکل پیش بینی را انتخاب کنید. نام iowa_daily یا چیز دیگری را که ترجیح می دهید انتخاب کنید.

4efeaebfd7845b9c.png

مرحله 3: وارد کردن داده ها

مرحله بعدی وارد کردن داده ها به مجموعه داده است. گزینه Select a CSV from Cloud Storage را انتخاب کنید. سپس، به فایل CSV در سطل AutoML Demo Alpha بروید و در automl-demo-240614-lcm/iowa_liquor/iowa_daily.csv قرار دهید.

4. مدل قطار

مرحله 1: پیکربندی ویژگی های مدل

پس از چند دقیقه، AutoML به شما اطلاع می دهد که واردات انجام شده است. در آن مرحله، می توانید ویژگی های مدل را پیکربندی کنید.

  • ستون شناسه سری زمانی را برای شناسه انتخاب کنید. ما فقط یک سری زمانی در مجموعه داده خود داریم، بنابراین این یک امر رسمی است.
  • ستون Time را به عنوان ds انتخاب کنید.

سپس، Generate Statistics را انتخاب کنید. پس از تکمیل فرآیند، آمار Missing % و Distinct مقادیر را مشاهده خواهید کرد. این فرآیند ممکن است چند دقیقه طول بکشد، بنابراین در صورت تمایل می‌توانید به مرحله بعدی بروید.

مرحله 2: مدل را آموزش دهید

برای شروع فرآیند آموزش ، Train the Model را انتخاب کنید. مطمئن شوید که AutoML انتخاب شده است و ادامه دهید .

5028ec6f242dfa6a.png

مرحله 3: مدل را تعریف کنید

  • ستون Target را y انتخاب کنید. این ارزشی است که ما پیش بینی می کنیم.
  • اگر قبلاً تنظیم نشده است، ستون شناسه سری را روی id و ستون Timestamp را روی ds تنظیم کنید.
  • Data Granularity را روی Days و افق Forecast را روی 7 تنظیم کنید. این قسمت تعداد دوره هایی را که مدل می تواند در آینده پیش بینی کند را مشخص می کند.
  • پنجره Context را روی 7 روز تنظیم کنید. این مدل از داده های 30 روز گذشته برای پیش بینی استفاده می کند. بین پنجره‌های کوتاه‌تر و طولانی‌تر معاوضه‌هایی وجود دارد و معمولاً انتخاب مقداری بین 1-10 برابر افق پیش‌بینی توصیه می‌شود.
  • کادر صادرات مجموعه آزمایشی به BigQuery را علامت بزنید. می توانید آن را خالی بگذارید و به طور خودکار یک مجموعه داده و جدول در پروژه شما ایجاد می کند (یا مکان مورد نظر شما را مشخص می کند).
  • ادامه را انتخاب کنید.

8d2f34779ba49bb1.png

مرحله 4: گزینه های آموزشی را تنظیم کنید

در این مرحله، می‌توانید جزئیات بیشتری در مورد نحوه آموزش مدل را مشخص کنید.

  • ستون تعطیلات را در حالت پیش‌بینی در دسترس قرار دهید، زیرا از قبل می‌دانیم که آیا تاریخ معین تعطیل است یا خیر.
  • هدف بهینه سازی را به MAE تغییر دهید. MAE یا میانگین خطای میانگین نسبت به میانگین مربعات خطا نسبت به مقادیر پرت انعطاف پذیرتر است. از آنجایی که ما با داده‌های خرید روزانه کار می‌کنیم که می‌تواند دارای نوسانات شدید باشد، MAE معیار مناسبی برای استفاده است.
  • ادامه را انتخاب کنید.

9557c92be32a1987.png

مرحله 5: آموزش را آغاز کنید

بودجه مورد نظر خود را تعیین کنید. در این حالت 1 ساعت گره برای آموزش مدل کافی است. سپس، روند آموزش را شروع کنید.

مرحله 6: مدل را ارزیابی کنید

فرآیند آموزش ممکن است 1 تا 2 ساعت طول بکشد تا تکمیل شود (از جمله زمان نصب اضافی). پس از اتمام آموزش، ایمیلی دریافت خواهید کرد. وقتی آماده شد، می توانید دقت مدلی که ایجاد کرده اید را مشاهده کنید.

5. پیش بینی کنید

مرحله 1: پیش بینی های مربوط به داده های آزمون را مرور کنید

برای مشاهده پیش‌بینی‌های داده‌های آزمایشی، به کنسول BigQuery بروید. در داخل پروژه شما، یک مجموعه داده جدید به طور خودکار با طرح نامگذاری ایجاد می شود: export_evaluated_data_items + <model name> + <timestamp> . در داخل آن مجموعه داده، جدول valued_data_items را برای بررسی پیش‌بینی‌ها پیدا خواهید کرد.

این جدول دارای دو ستون جدید است:

  • predicted_on_[ستون تاریخ]: تاریخی که پیش‌بینی انجام شد. برای مثال، اگر predicted_on_ds 11/4 و ds 11/8 باشد، ما 4 روز آینده را پیش‌بینی می‌کنیم.
  • predicted_[target column].tables.value: مقدار پیش بینی شده

9800c7c67d93db03.png

مرحله 2: پیش بینی های دسته ای را انجام دهید

در نهایت، شما می خواهید از مدل خود برای پیش بینی استفاده کنید.

فایل ورودی حاوی مقادیر خالی برای تاریخ های پیش بینی شده به همراه داده های تاریخی است:

ds

تعطیلات

شناسه

y

20/5/15

0

0

1751315.43

20/5/16

0

0

0

20/5/17

0

0

0

20/5/18

0

0

1612066.43

20/5/19

0

0

1773885.17

20/5/20

0

0

1487270.92

5/21/20

0

0

1024051.76

5/22/20

0

0

1471736.31

23/5/20

0

0

<خالی>

24/5/20

0

0

<خالی>

25/5/20

1

0

<خالی>

26/5/20

0

0

<خالی>

27/5/20

0

0

<خالی>

5/28/20

0

0

<خالی>

29/5/20

0

0

<خالی>

از آیتم Batch Predictions در نوار ناوبری سمت چپ پلتفرم هوش مصنوعی (یکپارچه)، می توانید یک پیش بینی دسته ای جدید ایجاد کنید.

یک نمونه فایل ورودی برای شما در اینجا در یک سطل ذخیره سازی ایجاد شده است: automl-demo-240614-lcm/iowa_liquor/iowa_daily_automl_predict.csv

شما می توانید این مکان فایل منبع را ارائه دهید. سپس می‌توانید پیش‌بینی‌های خود را به یک مکان ذخیره‌سازی ابری به‌عنوان CSV یا به BigQuery صادر کنید. برای اهداف این آزمایشگاه، BigQuery را انتخاب کنید و شناسه پروژه Google Cloud خود را انتخاب کنید.

22e808dd5cbd4224.png

فرآیند پیش‌بینی دسته‌ای چند دقیقه طول خواهد کشید. پس از تکمیل، می‌توانید روی کار پیش‌بینی دسته‌ای کلیک کنید تا جزئیات، از جمله Export Location را مشاهده کنید. در BigQuery، برای دسترسی به پیش‌بینی‌ها، باید به پروژه / مجموعه داده / جدول در نوار ناوبری سمت چپ بروید.

این کار دو جدول مختلف در BigQuery ایجاد می کند. یکی حاوی هر ردیفی با خطا است و دیگری حاوی پیش بینی ها خواهد بود. در اینجا نمونه ای از خروجی جدول پیش بینی ها آورده شده است:

9ead59dcc9ad1521.png

مرحله 3: نتیجه گیری

تبریک می گویم، شما با موفقیت یک مدل پیش بینی را با AutoML ساخته و آموزش داده اید. در این آزمایشگاه، وارد کردن داده، ساخت مدل و پیش‌بینی را پوشش داده‌ایم.

شما آماده ساخت مدل پیش بینی خود هستید!