1. نظرة عامة
في هذا التمرين المعملي، ستنفّذ ما يلي:
- إنشاء مجموعة بيانات مُدارة
- استيراد البيانات من حزمة Google Cloud Storage
- تعديل البيانات الوصفية للعمود لاستخدامها بشكل مناسب مع AutoML
- تدريب نموذج باستخدام خيارات مثل الميزانية وهدف التحسين
- إجراء توقّعات مجمّعة على الإنترنت
2. مراجعة البيانات
يستخدم هذا المختبر بيانات من مجموعة بيانات مبيعات المشروبات الكحولية في ولاية آيوا من مجموعات البيانات المتاحة للجميع في BigQuery. تتألف مجموعة البيانات هذه من عمليات شراء المشروبات الكحولية بالجملة في ولاية آيوا الأمريكية منذ عام 2012.
يمكنك الاطّلاع على البيانات الأولية الأصلية من خلال النقر على عرض مجموعة البيانات. للوصول إلى الجدول، انتقِل في شريط التنقّل الأيمن إلى مشروع bigquery-public-datasets، ثم إلى مجموعة بيانات iowa_liquor_sales، ثم إلى جدول sales. يمكنك النقر على معاينة للاطّلاع على مجموعة من الصفوف من مجموعة البيانات.
لأغراض هذا الدرس التطبيقي، أجرينا بعض المعالجة المسبقة الأساسية للبيانات من أجل تجميع عمليات الشراء حسب اليوم. سنستخدم مقتطف CSV من جدول BigQuery. الأعمدة في ملف CSV هي:
- استبدِل ds بالتاريخ.
- استبدِل y بمجموع كل عمليات الشراء التي تمّت في ذلك اليوم بالدولار الأمريكي.
- holiday: قيمة منطقية تحدّد ما إذا كان التاريخ يوافق عطلة في الولايات المتحدة
- id: معرّف سلسلة زمنية (لإتاحة سلاسل زمنية متعدّدة، مثلاً حسب المتجر أو المنتج) في هذه الحالة، سنقدّم ببساطة توقّعات لعمليات الشراء الإجمالية في سلسلة زمنية واحدة، لذا يتم ضبط المعرّف على 0 لكل صف.
3- استيراد البيانات
الخطوة 1: الانتقال إلى "مجموعات بيانات Vertex AI"
يمكنك الوصول إلى مجموعات البيانات في قائمة Vertex AI من شريط التنقّل الأيمن في Cloud Console.
الخطوة 2: إنشاء مجموعة بيانات
أنشئ مجموعة بيانات جديدة، واختَر البيانات الجدولية، ثم نوع المشكلة التوقّع. اختَر الاسم iowa_daily أو أي اسم آخر تفضّله.
الخطوة 3: استيراد البيانات
الخطوة التالية هي استيراد البيانات إلى مجموعة البيانات. اختَر الخيار "اختيار ملف CSV من Cloud Storage". بعد ذلك، انتقِل إلى ملف CSV في حزمة الإصدار الأوّلي من "عرض AutoML التوضيحي" والصِق automl-demo-240614-lcm/iowa_liquor/iowa_daily.csv.
4. نموذج التدريب
الخطوة 1: ضبط ميزات النموذج
بعد بضع دقائق، ستُعلمك خدمة AutoML بأنّ عملية الاستيراد قد اكتملت. في هذه المرحلة، يمكنك ضبط ميزات النموذج.
- اختَر عمود معرّف السلسلة الزمنية ليكون id. لدينا سلسلة زمنية واحدة فقط في مجموعة البيانات، لذا هذا الإجراء شكلي.
- اختَر عمود الوقت ليكون ds.
بعد ذلك، انقر على إنشاء إحصاءات. بعد اكتمال العملية، ستظهر لك إحصاءات النسبة المئوية للقيم الناقصة والقيم المميزة. قد تستغرق هذه العملية بضع دقائق، لذا يمكنك المتابعة إلى الخطوة التالية إذا أردت.
الخطوة 2: تدريب النموذج
انقر على تدريب النموذج لبدء عملية التدريب. تأكَّد من اختيار AutoML، ثم انقر على متابعة.
الخطوة 3: تحديد النموذج
- اختَر عمود الاستهداف ليكون y. هذه هي القيمة التي نتنبأ بها.
- إذا لم يتم ضبط عمود معرّف السلسلة على id وعمود الطابع الزمني على ds في وقت سابق، اضبطهما الآن.
- اضبط درجة دقة البيانات على أيام والأفق الزمني للتوقّعات على 7. يحدّد هذا الحقل عدد الفترات التي يمكن للنموذج توقّعها في المستقبل.
- اضبط فترة السياق على 7 أيام. سيستخدم النموذج بيانات آخر 30 يومًا لتقديم توقّع. هناك مفاضلات بين الفترات الأقصر والأطول، وننصح عمومًا باختيار قيمة تتراوح بين 1 و10 أضعاف أفق التوقّع.
- ضَع علامة في المربّع تصدير مجموعة البيانات الاختبارية إلى BigQuery. يمكنك ترك هذا الحقل فارغًا، وسيتم إنشاء مجموعة بيانات وجدول تلقائيًا في مشروعك (أو تحديد موقع من اختيارك).
- اختَر متابعة.
الخطوة 4: ضبط خيارات التدريب
في هذه الخطوة، يمكنك تحديد المزيد من التفاصيل حول كيفية تدريب النموذج.
- اضبط عمود العطلة على متاح عند التوقّع، لأنّنا نعرف ما إذا كان تاريخ معيّن هو عطلة مسبقًا.
- غيِّر هدف التحسين إلى MAE. متوسّط الخطأ المطلق (MAE) أكثر مرونة في التعامل مع القيم الشاذة مقارنةً بمتوسّط الخطأ التربيعي. بما أنّنا نتعامل مع بيانات الشراء اليومية التي يمكن أن تشهد تقلّبات كبيرة، فإنّ متوسط الخطأ المطلق هو مقياس مناسب للاستخدام.
- اختَر متابعة.
الخطوة 5: بدء التدريب
حدِّد ميزانية من اختيارك. في هذه الحالة، يكون ساعة واحدة من وقت تشغيل العُقدة كافيًا لتدريب النموذج. بعد ذلك، ابدأ عملية التدريب.
الخطوة 6: تقييم النموذج
قد تستغرق عملية التدريب من ساعة إلى ساعتين (بما في ذلك أي وقت إعداد إضافي). ستصلك رسالة إلكترونية عند اكتمال التدريب. عندما يصبح النموذج جاهزًا، يمكنك الاطّلاع على دقته.
5- التوقّع
الخطوة 1: مراجعة التوقّعات بشأن بيانات الاختبار
انتقِل إلى وحدة تحكّم BigQuery للاطّلاع على التوقّعات بشأن بيانات الاختبار. داخل مشروعك، يتم تلقائيًا إنشاء مجموعة بيانات جديدة باستخدام نظام التسمية التالي: export_evaluated_data_items + <اسم النموذج> + <الطابع الزمني>. وداخل مجموعة البيانات هذه، ستجد جدول evaluated_data_items لمراجعة التوقعات.
يحتوي هذا الجدول على عمودَين جديدَين:
- predicted_on_[date column]: تاريخ إجراء التوقّع. على سبيل المثال، إذا كانت قيمة predicted_on_ds هي 4/11 وقيمة ds هي 8/11، يعني ذلك أنّنا نتوقّع البيانات قبل 4 أيام.
- predicted_[target column].tables.value: القيمة المتوقّعة
الخطوة 2: إجراء توقّعات مجمّعة
أخيرًا، عليك استخدام النموذج لتقديم التوقّعات.
يحتوي ملف الإدخال على قيم فارغة للتواريخ التي سيتم توقّعها، بالإضافة إلى البيانات السابقة:
ds | عطلة | المعرِّف | y |
5/15/20 | 0 | 0 | 1751315.43 |
5/16/20 | 0 | 0 | 0 |
5/17/20 | 0 | 0 | 0 |
5/18/20 | 0 | 0 | 1612066.43 |
5/19/20 | 0 | 0 | 1773885.17 |
5/20/20 | 0 | 0 | 1487270.92 |
5/21/20 | 0 | 0 | 1024051.76 |
5/22/20 | 0 | 0 | 1471736.31 |
2020/5/23 | 0 | 0 | <empty> |
5/24/20 | 0 | 0 | <empty> |
5/25/20 | 1 | 0 | <empty> |
2020/5/26 | 0 | 0 | <empty> |
5/27/20 | 0 | 0 | <empty> |
5/28/20 | 0 | 0 | <empty> |
5/29/20 | 0 | 0 | <empty> |
من العنصر توقّعات مجمّعة في شريط التنقّل الأيمن في AI Platform (Unified)، يمكنك إنشاء توقّع مجمّع جديد.
تم إنشاء مثال لملف إدخال لك هنا في حزمة تخزين: automl-demo-240614-lcm/iowa_liquor/iowa_daily_automl_predict.csv
يمكنك تقديم موقع ملف المصدر هذا. بعد ذلك، يمكنك اختيار تصدير التوقّعات إلى موقع تخزين على السحابة الإلكترونية كملف CSV أو إلى BigQuery. لأغراض هذا المختبر، اختَر BigQuery واختَر رقم تعريف مشروعك على Google Cloud.
ستستغرق عملية التوقّع المجمّع عدة دقائق. بعد اكتمالها، يمكنك النقر على مهمة التوقّع المجمّع لعرض التفاصيل، بما في ذلك موقع التصدير. في BigQuery، عليك الانتقال إلى المشروع أو مجموعة البيانات أو الجدول في شريط التنقل الأيمن للوصول إلى التوقّعات.
ستنشئ المهمة جدولَين مختلفَين في BigQuery. سيحتوي أحدهما على أي صفوف تتضمّن أخطاء، وسيحتوي الآخر على التوقعات. في ما يلي مثال على الناتج من جدول "التوقّعات":
الخطوة 3: الخلاصة
تهانينا، لقد نجحت في إنشاء نموذج توقّع وتدريبه باستخدام AutoML. في هذا التمرين العملي، تناولنا استيراد البيانات وإنشاء النماذج وتقديم التوقعات.
أنت الآن جاهز لإنشاء نموذج التوقعات الخاص بك.