Tingkatkan kemampuan organisasi Anda dalam ML/AI dengan Kaggle

1. Pengantar

47566e1490c16443.pngS

Terakhir diperbarui: 10-05-2024

Apa itu Kaggle?

Kaggle adalah platform AI & Komunitas ML, platform terbaik bagi data science dan penggemar machine learning dari semua tingkatan untuk belajar menggunakan teknik dan teknologi terbaru. Temukan repositori luas untuk set data, notebook, dan model terlatih untuk memulai project Anda berikutnya. Berpartisipasi dalam kompetisi, belajar dari kursus, dan terhubung dengan beragam komunitas yang terdiri dari 18 juta lebih pengguna dari seluruh dunia. Baik Anda seorang pemula atau profesional berpengalaman, Kaggle adalah tempat untuk mengasah keterampilan Anda, tetap menjadi yang terdepan, dan berkolaborasi dalam berbagai proyek mutakhir.

Yang akan Anda bangun

Dalam codelab ini, Anda akan membuat, mengonfigurasi, dan meluncurkan kompetisi kaggle. Anda akan menelusuri pengalaman pesaing dan memahami praktik terbaik untuk menjalankan kompetisi yang menarik.

Yang akan Anda pelajari

  • Memahami cara membuat dan mengelola kompetisi Kaggle dari sisi {i>host<i}
  • Memahami pengalaman pesaing, mulai dari eksplorasi hingga pengiriman
  • Pelajari praktik terbaik untuk menjalankan kompetisi yang menarik

Codelab ini berfokus untuk menciptakan kompetisi dengan cepat dan memanfaatkan library kompetisi Kaggle yang terus berkembang.

Yang Anda butuhkan

  • Browser web terbaru
  • Pengetahuan dasar tentang python

2. Mempersiapkan

Membuat Akun Kaggle

Kunjungi situs web Kaggle (https://www.kaggle.com/) dan klik "Register" untuk membuat akun gratis.

Memverifikasi akun Anda

  1. Di sudut kanan atas halaman, klik foto profil Anda
  2. Klik "Profil Anda"
  3. Klik "Setelan" di sisi kanan konten profil
  4. Di bagian "Verifikasi Telepon" ikuti petunjuk untuk memverifikasi akun Anda

3. Membuat kompetisi pertama Anda

Memperkenalkan template kompetisi yang dibuat AI

Kompetisi yang Dihasilkan AI adalah fitur baru di Kaggle yang memungkinkan pengguna membuat kompetisi machine learning dengan cepat dan mudah. Model ini memanfaatkan AI untuk menghasilkan set data sintetis yang meniru properti statistik dari set data yang ada tanpa berisi informasi identitas pribadi apa pun.

Berikut caranya:

  1. Pilih template: Pilih dari daftar template berdasarkan tugas machine learning yang berbeda-beda (misalnya klasifikasi, regresi).
  2. AI menghasilkan set data: AI Kaggle membuat set data baru untuk pesaing Anda berdasarkan template yang Anda pilih. {i>Dataset<i} ini mirip dengan aslinya tetapi menggunakan subset fitur dan memiliki distribusi fitur yang sedikit berbeda.
  3. Menyesuaikan persaingan: Masukkan detail dasar seperti nama, deskripsi, dan linimasa kompetisi. Anda juga dapat memilih setelan privasi untuk pesaing Anda.
  4. Peluncuran: Setelah menyelesaikan detail dan menetapkan peluncuran, Anda siap untuk meluncurkan game pesaing.

Fitur ini menyederhanakan proses pembuatan kompetisi, sehingga dapat diakses oleh lebih banyak pengguna dan memungkinkan mereka untuk berfokus pada aspek machine learning daripada penyiapan set data.

Buat kompetisi

Buka https://www.kaggle.com/competitions/new, lalu pilih "Kompetisi Buatan AI Baru"

2629bf77a282a46c.png

Pilih "Regresi dengan Set Data Usia Kepiting" Persaingan.

Detail Persaingan

2dd2228b9d686a6e.pngS

Isi nama dan subjudul yang deskriptif. Misalnya, Anda dapat menggunakan 'Kompetisi Kepitingan Uji <Your Names>' sebagai judul dan ‘Membuat kompetisi pertama saya untuk melihat cara kerjanya' sebagai {i>subtitle<i}. Perhatikan bahwa URL kompetisi diisi secara otomatis berdasarkan judul.

Visibilitas dan Akses

Sekarang kita perlu menetapkan visibilitas dan akses untuk kompetisi.

5c7dcae412ddd574.pngS

Visibilitas

  • Publik: Persaingan Anda dapat dilihat oleh siapa saja di Kaggle. Halaman beranda akan muncul di hasil penelusuran, sehingga siapa pun yang tertarik dapat bergabung.
  • Pribadi: Persaingan Anda disembunyikan agar tidak dapat dilihat oleh publik. Acara ini tidak akan muncul di penelusuran, dan hanya orang yang Anda undang secara khusus yang dapat berpartisipasi.

Siapa yang Dapat Bergabung

  • Siapa saja: Ini seperti kebijakan pintu terbuka. Siapa pun di Kaggle dapat bergabung dengan kompetitor Anda.
  • Hanya orang yang memiliki link: Opsi ini lebih eksklusif. Anda akan membuat link khusus, dan hanya orang dengan link tersebut yang dapat bergabung.
  • Daftar email yang dibatasi: Ini adalah opsi yang paling terkontrol. Anda memberikan daftar alamat email atau domain tertentu (misalnya @sekolahanda.edu), dan hanya pengguna dengan alamat tersebut yang dapat bergabung.

Kita akan membahas lebih lanjut setelan Aktifkan Notebooks dan Model nanti. Untuk saat ini, pastikan tombol sudah diaktifkan. Untuk contoh persaingan ini, tetapkan setelan ini menjadi Pribadi dan Hanya orang yang memiliki link.

Baca dan setujui persyaratan, lalu klik "Buat Kompetisi".

4. Memahami dan mengonfigurasikan kompetitor Anda

Di balik layar, kami telah menciptakan kompetisi yang benar-benar baru dengan {i>dataset<i} yang unik. Mari kita lakukan tinjauan singkat tentang pengaturan kompetisi.

Tab Host

Tab host berisi semua yang Anda butuhkan sebagai host untuk mengonfigurasi persaingan dengan benar. Secara khusus, lihat daftar halaman di sebelah kanan halaman:

bcedd6768cc4f32c.png

Detail Dasar

Bagian ini mencakup:

  • Umum
  • Privasi, Akses & Sumber daya
  • Linimasa
  • Penskoran & Tim

Kita membahas bagian Umum dan Privasi saat meluncurkan kompetisi.

Linimasa

Tanggal akhir kompetisi bergantung pada zona waktu.

7141f4aea90bccb0.pngS

Penskoran & Tim

Penskoran & Bagian tim memungkinkan Anda mengontrol berapa banyak orang yang dapat bergabung dalam tim, berapa kali mereka dapat mengirimkan tugas setiap hari, dan berapa banyak kiriman mereka yang harus dipilih untuk evaluasi akhir.

5efb6387612db941.png

Gambar

Gambar memungkinkan Anda menyesuaikan banner dan thumbnail untuk pesaing Anda. Ini akan mempengaruhi halaman beranda kompetisi serta entri listingan untuk kompetitor Anda.

6dfd442376a1c702.pngS

Penyelenggara

Di sini Anda dapat menambahkan pengguna Kaggle lainnya sebagai tuan rumah untuk kompetisi Anda. Penyelenggara lain akan memiliki akses penuh (termasuk peluncuran) ke pesaing Anda.

8f8c90eb6baa7747.pngS

Metrik Evaluasi

Tab Metrik Evaluasi adalah pusat kompetisi. Saat membuat kompetisi dari awal, di sini Anda perlu mempertimbangkan dengan cermat metrik evaluasi (atau penskoran) mana yang akan digunakan, mengupload file solusi, menentukan pemisahan pengujian publik/pribadi, dan memberikan contoh kiriman. Namun, karena kita menggunakan persaingan yang dibuat, kami tidak perlu melakukan semua ini!

Metrik Penskoran

Tindakan ini menentukan bagaimana kiriman dinilai berdasarkan file solusi. Setiap metrik memiliki dokumentasi dan kode aktual yang tersedia.

File Solusi

Karena kami menggunakan persaingan yang dibuat, file ini bersifat unik untuk pesaing Anda!

89fa1f42d177505a.png

Sampling Solusi memungkinkan Anda menyesuaikan jumlah file solusi yang digunakan untuk menilai kiriman selama kompetisi (papan peringkat publik) vs berapa banyak baris yang digunakan untuk menentukan papan peringkat akhir. Selama kompetisi, pengguna akan diizinkan untuk memilih (berdasarkan setelan Kiriman Pribadi yang Dinilai) kiriman mereka mana yang akan digunakan untuk papan peringkat akhir (disebut Papan Peringkat Pribadi di sini).

Proses ini memastikan bahwa kompetitor tidak diberi hadiah karena {i>overfitting<i} atau membanjiri kiriman.

Pengiriman Sandbox

Hal ini memungkinkan penyelenggara kompetisi memastikan bahwa penilaian berfungsi seperti yang diantisipasi, dan memungkinkan mereka menetapkan "tolok ukur" kiriman untuk para kompetitor untuk dibandingkan. Kiriman hasil tolok ukur tersebut akan muncul di papan peringkat.

Tim & Kiriman

Selama kompetisi, hal ini memungkinkan tuan rumah mendownload semua skor, serta mengelola tim. Sebelum kompetisi dimulai, bagian ini kosong.

Launch Checklist

Pembahasan ini akan dibahas di bagian berikutnya.

5. Meluncurkan kompetitor Anda

50b03df072c02e6a.pngS

Dari bagian atas halaman kompetisi, klik "{i>Launch Checklist<i}" tombol.

Launch Checklist

Checklist Peluncuran menunjukkan langkah-langkah yang harus diambil sebelum meluncurkan kompetisi. Karena kita telah memulai dari {i>template<i} kompetisi, sebagian besar langkah tersebut sudah selesai! Hanya ada dua tugas yang tersisa, menetapkan tenggat waktu dan memperbarui aturan persaingan.

938b9ed7bc4e0597.pngS

Tetapkan Batas Waktu

Pertama, klik panah di sebelah Tetapkan Batas Waktu. Kompetisi biasanya berlangsung setidaknya beberapa bulan. Panjang maksimum kompetisi adalah satu tahun.

Edit Aturan

Aturan persaingan Anda harus diperbarui dari template default sebelum diluncurkan. Jika Anda menyelenggarakan kompetisi untuk kelas atau grup, ini adalah tempat yang baik untuk memberikan informasi apa pun tentang ekspektasi.

Peluncuran

Kami siap diluncurkan! Maju dan luncurkan kompetisi Anda! Sekarang Anda siap untuk diikuti oleh pesaing!

6. Pengalaman Kompetitor

Sekarang setelah Anda meluncurkan pesaing, mari kita lihat seperti apa pengalaman pesaing. Kami akan membahas cara bergabung dalam kompetisi ini dan mengirimkan kiriman. Untuk itu, Anda dapat mengikuti Kompetisi Demo Google IO di sini: https://www.kaggle.com/competitions/google-io-demo-competition

Bergabung dalam kompetisi

Setelah membuka halaman beranda kompetisi, klik tombol "Gabung ke Kompetisi" di kanan atas, lalu baca dan konfirmasi aturan.

Membuat pengiriman pertama Anda

Buka tab kode dan klik "New Notebook". Langkah ini akan membuka {i>notebook<i} yang memungkinkan Anda mengirimkan hasil kompetisi.

Pertama, kita akan membaca data dalam pelatihan

Ⰳ# membaca data pengujian dan melatih

kereta = pd.read_csv('/kaggle/input/google-io-demo-comrospective/train.csv')

test = pd.read_csv('/kaggle/input/google-io-demo-comrospective/test.csv')

Mari kita lihat datanya.

鰃# lihat beberapa data

train.head()

Mari kita siapkan data untuk pelatihan. Dalam hal ini, kita keluarkan Seks karena itu bukan nilai numerik. (Petunjuk: mencari tahu cara menyertakannya dapat meningkatkan performa model Anda).

Ⰳ # keluarkan hasil dari data pengujian

data = train.drop(columns=[‘Usia', ‘Seks'])

jawaban = melatih[‘Usia']

Kemudian, kita membuat model. Dalam hal ini, kita melakukan model forest acak.

Ⰳ# impor untuk model

dari sklearn.model_selection impor train_test_split

dari sklearn.ensemble import RandomForestRegressor

dari sklearn.metrics mengimpor mean_absolute_error

model = RandomForestRegressor()

# melatih model

model.fit(data, jawaban)

Membuat kiriman:

Ⰳprediksi = model.Predict(test.drop(columns=[‘Sex']))

submission = pd.DataFrame({‘id&#39;: test[‘id&#39;], ‘Age&#39;: predictions})

delivery.to_csv(‘submission.csv', index=False)

Lalu Anda dapat mengirimkan ke kompetisi dengan memilih "Kirim ke Kompetisi" di menu sebelah kanan.

1cf17449cae53abe.pngS

Tips untuk menyelenggarakan kompetisi yang hebat

  1. Pastikan untuk menyertakan {i>starter<i} {i>starter<i} untuk pengiriman dasar
  2. Dorong penggunaan diskusi dan bagikan notebook di awal kompetisi
  3. Bersenang-senanglah