Tentang codelab ini
1. Ringkasan
Dalam lab ini, Anda akan:
- Membuat set data terkelola
- Mengimpor data dari Bucket Google Cloud Storage
- Memperbarui metadata kolom untuk penggunaan yang tepat dengan AutoML
- Latih model menggunakan opsi seperti anggaran dan tujuan pengoptimalan
- Membuat prediksi batch online
2. Meninjau Data
Lab ini menggunakan data dari set data Penjualan Minuman Keras Iowa dari Set Data Publik BigQuery. Set data ini terdiri dari pembelian minuman keras grosir di negara bagian Iowa, AS, sejak tahun 2012.
Anda dapat melihat data mentah asli dengan memilih Lihat Set Data. Untuk mengakses tabel, buka project bigquery-public-datasets di menu navigasi kiri, lalu set data iowa_liquor_sales, dan kemudian tabel sales. Anda dapat memilih Pratinjau untuk melihat pilihan baris dari set data.
Untuk tujuan lab ini, kita telah melakukan beberapa pra-pemrosesan data dasar untuk mengelompokkan pembelian menurut hari. Kita akan menggunakan ekstrak CSV dari tabel BigQuery. Kolom dalam file CSV adalah:
- ds: Tanggal
- y: Jumlah semua pembelian pada hari itu dalam dolar
- holiday: Boolean yang menunjukkan apakah tanggal tersebut adalah hari libur AS
- id: ID deret waktu (untuk mendukung beberapa deret waktu, misalnya menurut toko atau menurut produk). Dalam hal ini, kita hanya akan memperkirakan keseluruhan pembelian dalam satu deret waktu, sehingga id ditetapkan ke 0 untuk setiap baris.
3. Impor Data
Langkah 1: Buka Set Data Vertex AI
Akses Set Data di menu Vertex AI dari panel navigasi kiri Konsol Cloud.
Langkah 2: Buat Set Data
Buat Set Data baru, pilih Data Tabular, lalu jenis masalah Peramalan. Pilih nama iowa_daily atau nama lain yang Anda inginkan.
Langkah 3: Impor Data
Langkah selanjutnya adalah mengimpor data ke dalam set data. Pilih opsi untuk Memilih CSV dari Cloud Storage. Kemudian, buka file CSV di bucket AutoML Demo Alpha dan tempelkan automl-demo-240614-lcm/iowa_liquor/iowa_daily.csv.
4. Latih Model
Langkah 1: Konfigurasi Fitur Model
Setelah beberapa menit, AutoML akan memberi tahu Anda bahwa impor telah selesai. Pada tahap ini, Anda dapat mengonfigurasi fitur model.
- Pilih Kolom ID deret waktu yang akan menjadi ID. Kita hanya memiliki satu deret waktu dalam set data, jadi ini hanya formalitas.
- Pilih Kolom waktu yang akan menjadi ds.
Kemudian, pilih Buat Statistik. Setelah proses selesai, Anda akan melihat statistik %yang hilang dan Nilai unik. Proses ini mungkin memerlukan waktu beberapa menit, jadi Anda dapat melanjutkan ke langkah berikutnya jika ingin.
Langkah 2: Latih Model
Pilih Latih Model untuk memulai proses pelatihan. Pastikan AutoML dipilih, lalu klik Lanjutkan.
Langkah 3: Tentukan Model
- Pilih Target column yang akan menjadi y. Itulah nilai yang kita prediksi.
- Jika belum ditetapkan sebelumnya, tetapkan kolom ID seri ke id dan kolom Stempel waktu ke ds.
- Tetapkan Perincian Data ke Hari dan Horizon perkiraan ke 7. Kolom ini menentukan jumlah periode yang dapat diprediksi model di masa mendatang.
- Tetapkan Jendela konteks ke 7 hari. Model akan menggunakan data dari 30 hari sebelumnya untuk membuat prediksi. Ada pertukaran antara jendela yang lebih pendek dan lebih panjang, dan umumnya memilih nilai antara 1-10x horizon perkiraan direkomendasikan.
- Centang kotak untuk Ekspor set data pengujian ke BigQuery. Anda dapat membiarkannya kosong, dan otomatis membuat set data dan tabel di project Anda (atau menentukan lokasi pilihan Anda).
- Pilih Lanjutkan.
Langkah 4: Tetapkan Opsi Pelatihan
Pada langkah ini, Anda dapat menentukan detail selengkapnya tentang cara Anda ingin melatih model.
- Tetapkan kolom holiday menjadi Available saat prediksi, karena kita mengetahui apakah tanggal tertentu adalah hari libur sebelumnya.
- Ubah Tujuan Pengoptimalan menjadi MAE. MAE, atau error rata-rata, lebih tahan terhadap pencilan dibandingkan dengan error kuadrat rata-rata. Karena kita bekerja dengan data pembelian harian yang dapat mengalami fluktuasi besar, MAE adalah metrik yang tepat untuk digunakan.
- Pilih Lanjutkan.
Langkah 5: Mulai Pelatihan
Tetapkan anggaran pilihan Anda. Dalam hal ini, 1 jam kerja node sudah cukup untuk melatih model. Kemudian, mulai proses pelatihan.
Langkah 6: Evaluasi Model
Proses pelatihan mungkin memerlukan waktu 1-2 jam (termasuk waktu penyiapan tambahan). Anda akan menerima email saat pelatihan selesai. Setelah siap, Anda dapat melihat akurasi model yang Anda buat.
5. Prediksi
Langkah 1: Tinjau prediksi pada data pengujian
Buka konsol BigQuery untuk melihat prediksi pada data pengujian. Di dalam project Anda, set data baru akan otomatis dibuat dengan skema penamaan: export_evaluated_data_items + <nama model> + <stempel waktu>. Di dalam set data tersebut, Anda akan menemukan tabel evaluated_data_items untuk meninjau prediksi.
Tabel ini memiliki beberapa kolom baru:
- predicted_on_[kolom tanggal]: Tanggal saat prediksi dibuat. Misalnya, jika predicted_on_ds adalah 4/11 dan ds adalah 8/11, kita memprediksi 4 hari ke depan.
- predicted_[target column].tables.value: Nilai yang diprediksi
Langkah 2: Lakukan prediksi batch
Terakhir, Anda akan menggunakan model untuk membuat prediksi.
File input berisi nilai kosong untuk tanggal yang akan diprediksi, beserta data historis:
ds | liburan | id | y |
15/5/20 | 0 | 0 | 1751315.43 |
16/5/20 | 0 | 0 | 0 |
17/5/20 | 0 | 0 | 0 |
18/5/20 | 0 | 0 | 1612066.43 |
19/5/20 | 0 | 0 | 1773885.17 |
20/5/2020 | 0 | 0 | 1487270.92 |
21/5/20 | 0 | 0 | 1024051.76 |
22/5/20 | 0 | 0 | 1471736.31 |
23/5/20 | 0 | 0 | <empty> |
24/5/20 | 0 | 0 | <empty> |
25/5/20 | 1 | 0 | <empty> |
26/5/20 | 0 | 0 | <empty> |
27/5/20 | 0 | 0 | <empty> |
28/5/20 | 0 | 0 | <empty> |
29/5/20 | 0 | 0 | <empty> |
Dari item Batch Predictions di panel navigasi kiri AI Platform (Terpadu), Anda dapat membuat prediksi batch baru.
File input contoh dibuat untuk Anda di sini dalam bucket penyimpanan: automl-demo-240614-lcm/iowa_liquor/iowa_daily_automl_predict.csv
Anda dapat memberikan lokasi file sumber ini. Kemudian, Anda dapat memilih untuk mengekspor prediksi ke lokasi penyimpanan cloud sebagai CSV, atau ke BigQuery. Untuk tujuan lab ini, pilih BigQuery, lalu pilih project ID Google Cloud Anda.
Proses prediksi batch akan memerlukan waktu beberapa menit. Setelah selesai, Anda dapat mengklik tugas prediksi batch untuk melihat detailnya, termasuk Lokasi Ekspor. Di BigQuery, Anda harus membuka project / set data / tabel di panel navigasi kiri untuk mengakses prediksi.
Tugas ini akan membuat dua tabel berbeda di BigQuery. Salah satunya akan berisi baris dengan error, dan yang lainnya akan berisi prediksi. Berikut adalah contoh output dari tabel Prediksi:
Langkah 3: Kesimpulan
Selamat, Anda telah berhasil membuat dan melatih model perkiraan dengan AutoML. Di lab ini, kita telah membahas cara mengimpor data, membuat model, dan membuat prediksi.
Anda siap membangun model perkiraan Anda sendiri.