1. Pengantar
Terakhir diperbarui: 10-05-2024
Apa itu Kaggle?
Kaggle adalah platform AI & Komunitas ML, platform terbaik bagi data science dan penggemar machine learning dari semua tingkatan untuk belajar menggunakan teknik dan teknologi terbaru. Temukan repositori luas untuk set data, notebook, dan model terlatih untuk memulai project Anda berikutnya. Berpartisipasi dalam kompetisi, belajar dari kursus, dan terhubung dengan beragam komunitas yang terdiri dari 18 juta lebih pengguna dari seluruh dunia. Baik Anda seorang pemula atau profesional berpengalaman, Kaggle adalah tempat untuk mengasah keterampilan Anda, tetap menjadi yang terdepan, dan berkolaborasi dalam berbagai proyek mutakhir.
Yang akan Anda bangun
Dalam codelab ini, Anda akan membuat, mengonfigurasi, dan meluncurkan kompetisi kaggle. Anda akan menelusuri pengalaman pesaing dan memahami praktik terbaik untuk menjalankan kompetisi yang menarik.
Yang akan Anda pelajari
- Memahami cara membuat dan mengelola kompetisi Kaggle dari sisi {i>host<i}
- Memahami pengalaman pesaing, mulai dari eksplorasi hingga pengiriman
- Pelajari praktik terbaik untuk menjalankan kompetisi yang menarik
Codelab ini berfokus untuk menciptakan kompetisi dengan cepat dan memanfaatkan library kompetisi Kaggle yang terus berkembang.
Yang Anda butuhkan
- Browser web terbaru
- Pengetahuan dasar tentang python
2. Mempersiapkan
Membuat Akun Kaggle
Kunjungi situs web Kaggle (https://www.kaggle.com/) dan klik "Register" untuk membuat akun gratis.
Memverifikasi akun Anda
- Di sudut kanan atas halaman, klik foto profil Anda
- Klik "Profil Anda"
- Klik "Setelan" di sisi kanan konten profil
- Di bagian "Verifikasi Telepon" ikuti petunjuk untuk memverifikasi akun Anda
3. Membuat kompetisi pertama Anda
Memperkenalkan template kompetisi yang dibuat AI
Kompetisi yang Dihasilkan AI adalah fitur baru di Kaggle yang memungkinkan pengguna membuat kompetisi machine learning dengan cepat dan mudah. Model ini memanfaatkan AI untuk menghasilkan set data sintetis yang meniru properti statistik dari set data yang ada tanpa berisi informasi identitas pribadi apa pun.
Berikut caranya:
- Pilih template: Pilih dari daftar template berdasarkan tugas machine learning yang berbeda-beda (misalnya klasifikasi, regresi).
- AI menghasilkan set data: AI Kaggle membuat set data baru untuk pesaing Anda berdasarkan template yang Anda pilih. {i>Dataset<i} ini mirip dengan aslinya tetapi menggunakan subset fitur dan memiliki distribusi fitur yang sedikit berbeda.
- Menyesuaikan persaingan: Masukkan detail dasar seperti nama, deskripsi, dan linimasa kompetisi. Anda juga dapat memilih setelan privasi untuk pesaing Anda.
- Peluncuran: Setelah menyelesaikan detail dan menetapkan peluncuran, Anda siap untuk meluncurkan game pesaing.
Fitur ini menyederhanakan proses pembuatan kompetisi, sehingga dapat diakses oleh lebih banyak pengguna dan memungkinkan mereka untuk berfokus pada aspek machine learning daripada penyiapan set data.
Buat kompetisi
Buka https://www.kaggle.com/competitions/new, lalu pilih "Kompetisi Buatan AI Baru"
Pilih "Regresi dengan Set Data Usia Kepiting" Persaingan.
Detail Persaingan
Isi nama dan subjudul yang deskriptif. Misalnya, Anda dapat menggunakan 'Kompetisi Kepitingan Uji <Your Names>' sebagai judul dan ‘Membuat kompetisi pertama saya untuk melihat cara kerjanya' sebagai {i>subtitle<i}. Perhatikan bahwa URL kompetisi diisi secara otomatis berdasarkan judul.
Visibilitas dan Akses
Sekarang kita perlu menetapkan visibilitas dan akses untuk kompetisi.
Visibilitas
- Publik: Persaingan Anda dapat dilihat oleh siapa saja di Kaggle. Halaman beranda akan muncul di hasil penelusuran, sehingga siapa pun yang tertarik dapat bergabung.
- Pribadi: Persaingan Anda disembunyikan agar tidak dapat dilihat oleh publik. Acara ini tidak akan muncul di penelusuran, dan hanya orang yang Anda undang secara khusus yang dapat berpartisipasi.
Siapa yang Dapat Bergabung
- Siapa saja: Ini seperti kebijakan pintu terbuka. Siapa pun di Kaggle dapat bergabung dengan kompetitor Anda.
- Hanya orang yang memiliki link: Opsi ini lebih eksklusif. Anda akan membuat link khusus, dan hanya orang dengan link tersebut yang dapat bergabung.
- Daftar email yang dibatasi: Ini adalah opsi yang paling terkontrol. Anda memberikan daftar alamat email atau domain tertentu (misalnya @sekolahanda.edu), dan hanya pengguna dengan alamat tersebut yang dapat bergabung.
Kita akan membahas lebih lanjut setelan Aktifkan Notebooks dan Model nanti. Untuk saat ini, pastikan tombol sudah diaktifkan. Untuk contoh persaingan ini, tetapkan setelan ini menjadi Pribadi dan Hanya orang yang memiliki link.
Baca dan setujui persyaratan, lalu klik "Buat Kompetisi".
4. Memahami dan mengonfigurasikan kompetitor Anda
Di balik layar, kami telah menciptakan kompetisi yang benar-benar baru dengan {i>dataset<i} yang unik. Mari kita lakukan tinjauan singkat tentang pengaturan kompetisi.
Tab Host
Tab host berisi semua yang Anda butuhkan sebagai host untuk mengonfigurasi persaingan dengan benar. Secara khusus, lihat daftar halaman di sebelah kanan halaman:
Detail Dasar
Bagian ini mencakup:
- Umum
- Privasi, Akses & Sumber daya
- Linimasa
- Penskoran & Tim
Kita membahas bagian Umum dan Privasi saat meluncurkan kompetisi.
Linimasa
Tanggal akhir kompetisi bergantung pada zona waktu.
Penskoran & Tim
Penskoran & Bagian tim memungkinkan Anda mengontrol berapa banyak orang yang dapat bergabung dalam tim, berapa kali mereka dapat mengirimkan tugas setiap hari, dan berapa banyak kiriman mereka yang harus dipilih untuk evaluasi akhir.
Gambar
Gambar memungkinkan Anda menyesuaikan banner dan thumbnail untuk pesaing Anda. Ini akan mempengaruhi halaman beranda kompetisi serta entri listingan untuk kompetitor Anda.
Penyelenggara
Di sini Anda dapat menambahkan pengguna Kaggle lainnya sebagai tuan rumah untuk kompetisi Anda. Penyelenggara lain akan memiliki akses penuh (termasuk peluncuran) ke pesaing Anda.
Metrik Evaluasi
Tab Metrik Evaluasi adalah pusat kompetisi. Saat membuat kompetisi dari awal, di sini Anda perlu mempertimbangkan dengan cermat metrik evaluasi (atau penskoran) mana yang akan digunakan, mengupload file solusi, menentukan pemisahan pengujian publik/pribadi, dan memberikan contoh kiriman. Namun, karena kita menggunakan persaingan yang dibuat, kami tidak perlu melakukan semua ini!
Metrik Penskoran
Tindakan ini menentukan bagaimana kiriman dinilai berdasarkan file solusi. Setiap metrik memiliki dokumentasi dan kode aktual yang tersedia.
File Solusi
Karena kami menggunakan persaingan yang dibuat, file ini bersifat unik untuk pesaing Anda!
Sampling Solusi memungkinkan Anda menyesuaikan jumlah file solusi yang digunakan untuk menilai kiriman selama kompetisi (papan peringkat publik) vs berapa banyak baris yang digunakan untuk menentukan papan peringkat akhir. Selama kompetisi, pengguna akan diizinkan untuk memilih (berdasarkan setelan Kiriman Pribadi yang Dinilai) kiriman mereka mana yang akan digunakan untuk papan peringkat akhir (disebut Papan Peringkat Pribadi di sini).
Proses ini memastikan bahwa kompetitor tidak diberi hadiah karena {i>overfitting<i} atau membanjiri kiriman.
Pengiriman Sandbox
Hal ini memungkinkan penyelenggara kompetisi memastikan bahwa penilaian berfungsi seperti yang diantisipasi, dan memungkinkan mereka menetapkan "tolok ukur" kiriman untuk para kompetitor untuk dibandingkan. Kiriman hasil tolok ukur tersebut akan muncul di papan peringkat.
Tim & Kiriman
Selama kompetisi, hal ini memungkinkan tuan rumah mendownload semua skor, serta mengelola tim. Sebelum kompetisi dimulai, bagian ini kosong.
Launch Checklist
Pembahasan ini akan dibahas di bagian berikutnya.
5. Meluncurkan kompetitor Anda
Dari bagian atas halaman kompetisi, klik "{i>Launch Checklist<i}" tombol.
Launch Checklist
Checklist Peluncuran menunjukkan langkah-langkah yang harus diambil sebelum meluncurkan kompetisi. Karena kita telah memulai dari {i>template<i} kompetisi, sebagian besar langkah tersebut sudah selesai! Hanya ada dua tugas yang tersisa, menetapkan tenggat waktu dan memperbarui aturan persaingan.
Tetapkan Batas Waktu
Pertama, klik panah di sebelah Tetapkan Batas Waktu. Kompetisi biasanya berlangsung setidaknya beberapa bulan. Panjang maksimum kompetisi adalah satu tahun.
Edit Aturan
Aturan persaingan Anda harus diperbarui dari template default sebelum diluncurkan. Jika Anda menyelenggarakan kompetisi untuk kelas atau grup, ini adalah tempat yang baik untuk memberikan informasi apa pun tentang ekspektasi.
Peluncuran
Kami siap diluncurkan! Maju dan luncurkan kompetisi Anda! Sekarang Anda siap untuk diikuti oleh pesaing!
6. Pengalaman Kompetitor
Sekarang setelah Anda meluncurkan pesaing, mari kita lihat seperti apa pengalaman pesaing. Kami akan membahas cara bergabung dalam kompetisi ini dan mengirimkan kiriman. Untuk itu, Anda dapat mengikuti Kompetisi Demo Google IO di sini: https://www.kaggle.com/competitions/google-io-demo-competition
Bergabung dalam kompetisi
Setelah membuka halaman beranda kompetisi, klik tombol "Gabung ke Kompetisi" di kanan atas, lalu baca dan konfirmasi aturan.
Membuat pengiriman pertama Anda
Buka tab kode dan klik "New Notebook". Langkah ini akan membuka {i>notebook<i} yang memungkinkan Anda mengirimkan hasil kompetisi.
Pertama, kita akan membaca data dalam pelatihan
Ⰳ# membaca data pengujian dan melatih
kereta = pd.read_csv('/kaggle/input/google-io-demo-comrospective/train.csv')
test = pd.read_csv('/kaggle/input/google-io-demo-comrospective/test.csv')
Mari kita lihat datanya.
鰃# lihat beberapa data
train.head()
Mari kita siapkan data untuk pelatihan. Dalam hal ini, kita keluarkan Seks karena itu bukan nilai numerik. (Petunjuk: mencari tahu cara menyertakannya dapat meningkatkan performa model Anda).
Ⰳ # keluarkan hasil dari data pengujian
data = train.drop(columns=[‘Usia', ‘Seks'])
jawaban = melatih[‘Usia']
Kemudian, kita membuat model. Dalam hal ini, kita melakukan model forest acak.
Ⰳ# impor untuk model
dari sklearn.model_selection impor train_test_split
dari sklearn.ensemble import RandomForestRegressor
dari sklearn.metrics mengimpor mean_absolute_error
model = RandomForestRegressor()
# melatih model
model.fit(data, jawaban)
Membuat kiriman:
Ⰳprediksi = model.Predict(test.drop(columns=[‘Sex']))
submission = pd.DataFrame({‘id': test[‘id'], ‘Age': predictions})
delivery.to_csv(‘submission.csv', index=False)
Lalu Anda dapat mengirimkan ke kompetisi dengan memilih "Kirim ke Kompetisi" di menu sebelah kanan.
Tips untuk menyelenggarakan kompetisi yang hebat
- Pastikan untuk menyertakan {i>starter<i} {i>starter<i} untuk pengiriman dasar
- Dorong penggunaan diskusi dan bagikan notebook di awal kompetisi
- Bersenang-senanglah