1. بررسی اجمالی
در این آزمایشگاه، شما:
- یک مجموعه داده مدیریت شده ایجاد کنید
- دادهها را از Google Cloud Storage Bucket وارد کنید
- ابرداده ستون را برای استفاده مناسب با AutoML به روز کنید
- یک مدل را با استفاده از گزینه هایی مانند بودجه و هدف بهینه سازی آموزش دهید
- پیش بینی دسته ای آنلاین انجام دهید
2. بررسی داده ها
این آزمایشگاه از داده های مجموعه داده فروش مشروب Iowa از مجموعه داده های عمومی BigQuery استفاده می کند. این مجموعه داده شامل خرید عمده مشروب در ایالت آیووا ایالات متحده از سال 2012 است.
با انتخاب View Dataset می توانید به داده های خام اصلی نگاه کنید. برای دسترسی به جدول، در نوار ناوبری سمت چپ به پروژه bigquery-public-datasets ، سپس مجموعه داده iowa_liquor_sales و سپس جدول فروش بروید. برای مشاهده مجموعهای از ردیفها از مجموعه داده، میتوانید پیشنمایش را انتخاب کنید.
برای اهداف این آزمایشگاه، پیشپردازش اولیه دادهها را برای گروهبندی خریدها بر اساس روز انجام دادهایم. ما از یک استخراج CSV از جدول BigQuery استفاده خواهیم کرد. ستون های موجود در فایل CSV عبارتند از:
- ds : تاریخ
- y : مجموع تمام خریدهای آن روز به دلار
- تعطیلات : یک بولی که آیا تاریخ تعطیلات ایالات متحده است
- id : یک شناسه سری زمانی (برای پشتیبانی از چندین سری زمانی، به عنوان مثال بر اساس فروشگاه یا محصول). در این حالت، ما به سادگی قصد داریم خریدهای کلی را در یک سری زمانی پیش بینی کنیم، بنابراین id برای هر ردیف روی 0 تنظیم می شود.
3. وارد کردن داده ها
مرحله 1: به Vertex AI Datasets بروید
در منوی Vertex AI از نوار پیمایش سمت چپ Cloud Console به مجموعه داده ها دسترسی پیدا کنید.
مرحله 2: مجموعه داده ایجاد کنید
یک مجموعه داده جدید ایجاد کنید، داده های جدولی و سپس نوع مشکل پیش بینی را انتخاب کنید. نام iowa_daily یا چیز دیگری را که ترجیح می دهید انتخاب کنید.
مرحله 3: وارد کردن داده ها
مرحله بعدی وارد کردن داده ها به مجموعه داده است. گزینه Select a CSV from Cloud Storage را انتخاب کنید. سپس، به فایل CSV در سطل AutoML Demo Alpha بروید و در automl-demo-240614-lcm/iowa_liquor/iowa_daily.csv قرار دهید.
4. مدل قطار
مرحله 1: پیکربندی ویژگی های مدل
پس از چند دقیقه، AutoML به شما اطلاع می دهد که واردات انجام شده است. در آن مرحله، می توانید ویژگی های مدل را پیکربندی کنید.
- ستون شناسه سری زمانی را برای شناسه انتخاب کنید. ما فقط یک سری زمانی در مجموعه داده خود داریم، بنابراین این یک امر رسمی است.
- ستون Time را به عنوان ds انتخاب کنید.
سپس، Generate Statistics را انتخاب کنید. پس از تکمیل فرآیند، آمار Missing % و Distinct مقادیر را مشاهده خواهید کرد. این فرآیند ممکن است چند دقیقه طول بکشد، بنابراین در صورت تمایل میتوانید به مرحله بعدی بروید.
مرحله 2: مدل را آموزش دهید
برای شروع فرآیند آموزش ، Train the Model را انتخاب کنید. مطمئن شوید که AutoML انتخاب شده است و ادامه دهید .
مرحله 3: مدل را تعریف کنید
- ستون Target را y انتخاب کنید. این ارزشی است که ما پیش بینی می کنیم.
- اگر قبلاً تنظیم نشده است، ستون شناسه سری را روی id و ستون Timestamp را روی ds تنظیم کنید.
- Data Granularity را روی Days و افق Forecast را روی 7 تنظیم کنید. این قسمت تعداد دوره هایی را که مدل می تواند در آینده پیش بینی کند را مشخص می کند.
- پنجره Context را روی 7 روز تنظیم کنید. این مدل از داده های 30 روز گذشته برای پیش بینی استفاده می کند. بین پنجرههای کوتاهتر و طولانیتر معاوضههایی وجود دارد و معمولاً انتخاب مقداری بین 1-10 برابر افق پیشبینی توصیه میشود.
- کادر صادرات مجموعه آزمایشی به BigQuery را علامت بزنید. می توانید آن را خالی بگذارید و به طور خودکار یک مجموعه داده و جدول در پروژه شما ایجاد می کند (یا مکان مورد نظر شما را مشخص می کند).
- ادامه را انتخاب کنید.
مرحله 4: گزینه های آموزشی را تنظیم کنید
در این مرحله، میتوانید جزئیات بیشتری در مورد نحوه آموزش مدل را مشخص کنید.
- ستون تعطیلات را در حالت پیشبینی در دسترس قرار دهید، زیرا از قبل میدانیم که آیا تاریخ معین تعطیل است یا خیر.
- هدف بهینه سازی را به MAE تغییر دهید. MAE یا میانگین خطای میانگین نسبت به میانگین مربعات خطا نسبت به مقادیر پرت انعطاف پذیرتر است. از آنجایی که ما با دادههای خرید روزانه کار میکنیم که میتواند دارای نوسانات شدید باشد، MAE معیار مناسبی برای استفاده است.
- ادامه را انتخاب کنید.
مرحله 5: آموزش را آغاز کنید
بودجه مورد نظر خود را تعیین کنید. در این حالت 1 ساعت گره برای آموزش مدل کافی است. سپس، روند آموزش را شروع کنید.
مرحله 6: مدل را ارزیابی کنید
فرآیند آموزش ممکن است 1 تا 2 ساعت طول بکشد تا تکمیل شود (از جمله زمان نصب اضافی). پس از اتمام آموزش، ایمیلی دریافت خواهید کرد. وقتی آماده شد، می توانید دقت مدلی که ایجاد کرده اید را مشاهده کنید.
5. پیش بینی کنید
مرحله 1: پیش بینی های مربوط به داده های آزمون را مرور کنید
برای مشاهده پیشبینیهای دادههای آزمایشی، به کنسول BigQuery بروید. در داخل پروژه شما، یک مجموعه داده جدید به طور خودکار با طرح نامگذاری ایجاد می شود: export_evaluated_data_items + <model name> + <timestamp> . در داخل آن مجموعه داده، جدول valued_data_items را برای بررسی پیشبینیها پیدا خواهید کرد.
این جدول دارای دو ستون جدید است:
- predicted_on_[ستون تاریخ]: تاریخی که پیشبینی انجام شد. برای مثال، اگر predicted_on_ds 11/4 و ds 11/8 باشد، ما 4 روز آینده را پیشبینی میکنیم.
- predicted_[target column].tables.value: مقدار پیش بینی شده
مرحله 2: پیش بینی های دسته ای را انجام دهید
در نهایت، شما می خواهید از مدل خود برای پیش بینی استفاده کنید.
فایل ورودی حاوی مقادیر خالی برای تاریخ های پیش بینی شده به همراه داده های تاریخی است:
ds | تعطیلات | شناسه | y |
20/5/15 | 0 | 0 | 1751315.43 |
20/5/16 | 0 | 0 | 0 |
20/5/17 | 0 | 0 | 0 |
20/5/18 | 0 | 0 | 1612066.43 |
20/5/19 | 0 | 0 | 1773885.17 |
20/5/20 | 0 | 0 | 1487270.92 |
5/21/20 | 0 | 0 | 1024051.76 |
5/22/20 | 0 | 0 | 1471736.31 |
23/5/20 | 0 | 0 | <خالی> |
24/5/20 | 0 | 0 | <خالی> |
25/5/20 | 1 | 0 | <خالی> |
26/5/20 | 0 | 0 | <خالی> |
27/5/20 | 0 | 0 | <خالی> |
5/28/20 | 0 | 0 | <خالی> |
29/5/20 | 0 | 0 | <خالی> |
از آیتم Batch Predictions در نوار ناوبری سمت چپ پلتفرم هوش مصنوعی (یکپارچه)، می توانید یک پیش بینی دسته ای جدید ایجاد کنید.
یک نمونه فایل ورودی برای شما در اینجا در یک سطل ذخیره سازی ایجاد شده است: automl-demo-240614-lcm/iowa_liquor/iowa_daily_automl_predict.csv
شما می توانید این مکان فایل منبع را ارائه دهید. سپس میتوانید پیشبینیهای خود را به یک مکان ذخیرهسازی ابری بهعنوان CSV یا به BigQuery صادر کنید. برای اهداف این آزمایشگاه، BigQuery را انتخاب کنید و شناسه پروژه Google Cloud خود را انتخاب کنید.
فرآیند پیشبینی دستهای چند دقیقه طول خواهد کشید. پس از تکمیل، میتوانید روی کار پیشبینی دستهای کلیک کنید تا جزئیات، از جمله Export Location را مشاهده کنید. در BigQuery، برای دسترسی به پیشبینیها، باید به پروژه / مجموعه داده / جدول در نوار ناوبری سمت چپ بروید.
این کار دو جدول مختلف در BigQuery ایجاد می کند. یکی حاوی هر ردیفی با خطا است و دیگری حاوی پیش بینی ها خواهد بود. در اینجا نمونه ای از خروجی جدول پیش بینی ها آورده شده است:
مرحله 3: نتیجه گیری
تبریک می گویم، شما با موفقیت یک مدل پیش بینی را با AutoML ساخته و آموزش داده اید. در این آزمایشگاه، وارد کردن داده، ساخت مدل و پیشبینی را پوشش دادهایم.
شما آماده ساخت مدل پیش بینی خود هستید!