Podnieś umiejętności w zakresie ML/AI w swojej organizacji za pomocą Kaggle

1. Wprowadzenie

47566e1490c16443.png

Ostatnia aktualizacja: 10.05.2024

Co to jest Kaggle?

Kaggle to największa sztuczna inteligencja Społeczność ML to najlepsza platforma dla miłośników badania danych i systemów uczących się na każdym poziomie, dzięki której mogą rozwijać się dzięki najnowszym technikom i technologiom. Odkryj ogromne repozytorium zbiorów danych, notatników i już wytrenowanych modeli, aby szybko rozpocząć kolejny projekt. Bierz udział w konkursach, ucz się na kursach i poznawaj zróżnicowaną społeczność liczącą ponad 18 milionów użytkowników z całego świata. Niezależnie od tego, czy dopiero zaczynasz, czy jesteś już profesjonalistą, Kaggle to miejsce, w którym możesz doskonalić swoje umiejętności, wyprzedzać konkurencję i współpracować nad nowatorskimi projektami.

Co utworzysz

W ramach tego ćwiczenia w Codelabs utworzysz, skonfigurujesz i uruchomisz konkurs kaggle. Poznasz działanie konkurencji i poznasz sprawdzone metody prowadzenia ciekawej rywalizacji.

Czego się nauczysz

  • Dowiedz się, jak zorganizować zawody Kaggle i jak nimi zarządzać po stronie gospodarza
  • Poznaj wrażenia konkurencji – od eksploracji po przesłanie
  • Poznaj sprawdzone metody przeprowadzania interesujących konkursów

Skupia się on na szybkim tworzeniu konkursu i wykorzystywaniu coraz większej biblioteki konkursów Kaggle.

Czego potrzebujesz

  • Używasz nowej przeglądarki
  • Podstawowa znajomość języka Python

2. Przygotowanie

Tworzenie konta Kaggle

Odwiedź witrynę Kaggle (https://www.kaggle.com/) i kliknij „Register” (Zarejestruj się). aby utworzyć bezpłatne konto.

Potwierdzanie własności konta

  1. W prawym górnym rogu strony kliknij swoje zdjęcie profilowe.
  2. Kliknij „Twój profil”.
  3. Kliknij „Ustawienia”. przycisk z prawej strony zawartości profilu
  4. W sekcji „Weryfikacja numeru telefonu” postępuje zgodnie z instrukcjami, aby zweryfikować swoje konto

3. Tworzenie pierwszego konkursu

Przedstawiamy szablony konkursowe wygenerowane przez AI

Konkursy wygenerowane przez AI to nowa funkcja w Kaggle, która pozwala użytkownikom szybko i łatwo tworzyć konkursy oparte na systemach uczących się. Wykorzystuje AI do generowania syntetycznych zbiorów danych, które naśladują właściwości statystyczne dotychczasowych zbiorów danych, ale nie zawierają żadnych informacji umożliwiających identyfikację osoby.

Jak to działa:

  1. Wybierz szablon: wybierz szablon z listy szablonów na podstawie różnych zadań systemów uczących się (np. klasyfikacji, regresji).
  2. AI generuje zbiór danych: sztuczna inteligencja Kaggle tworzy nowy zbiór danych dla konkurencji na podstawie wybranego szablonu. Ten zbiór danych jest podobny do oryginału, ale korzysta z podzbioru cech i ma nieco inny rozkład cech.
  3. Dostosowywanie ustawień konkurencji: podaj podstawowe informacje, takie jak nazwa konkursu, opis i oś czasu. Możesz też wybrać ustawienia prywatności dla swojej konkurencji.
  4. Uruchomienie: po określeniu szczegółów i ustawieniu kampanii możesz rozpocząć rywalizację.

Ta funkcja upraszcza proces tworzenia konkursów, dzięki czemu jest dostępna dla większej liczby użytkowników i pozwala im skupić się na systemach uczących się, a nie na przygotowywaniu zbioru danych.

Tworzenie konkursu

Wejdź na stronę https://www.kaggle.com/competitions/new i kliknij „New AI Generated Competition” (Nowy konkurs oparty na AI).

2629bf77a282a46c.png

Wybierz „Regresja ze zbiorem danych o wieku kraba”. Konkurencja.

Szczegóły konkursu

2dd2228b9d686a6e.png

Wpisz opisową nazwę i podtytuł. Możesz na przykład wykorzystać „Konkurs krabów testowych <Twoje imię>” oraz „Tworzenie pierwszego konkursu, aby zobaczyć, jak to działa”. . Pamiętaj, że adres URL konkursu jest automatycznie wypełniany na podstawie tytułu.

Widoczność i dostęp

Teraz trzeba ustawić widoczność i dostęp do konkursu.

5c7dcae412ddd574.png

Widoczność

  • Publiczne: Twoja konkurencja jest widoczna dla każdego w Kaggle. Będzie ona widoczna w wynikach wyszukiwania, aby każdy zainteresowany mógł do niej dołączyć.
  • Prywatne: Twoja konkurencja nie jest widoczna publicznie. Nie będzie ona wyświetlana w wynikach wyszukiwania. Mogą z niej korzystać tylko zaproszone przez Ciebie osoby.

Kto może dołączyć

  • Każdy: działa tak jak zasady otwartych drzwi. Każdy w Kaggle może dołączyć do Twojej rywalizacji.
  • Tylko osoby z linkiem: to ustawienie jest bardziej wyjątkowe. Wygenerujesz specjalny link, do którego dołączyć będą mogły tylko osoby, które go otrzymały.
  • Ograniczona lista e-mailowa: to najbardziej kontrolowana opcja. Podajesz listę konkretnych adresów e-mail lub domen (np. @twoja_szkola.edu) i tylko osoby mające te adresy będą mogły dołączyć.

Więcej informacji o ustawieniu Włącz notatniki i modele omówimy później. Na razie sprawdź, czy ta funkcja jest włączona. W naszej przykładowej konkurencji wybierz ustawienia Prywatne i Tylko osoby mające link.

Przeczytaj i zaakceptuj warunki, a następnie kliknij „Utwórz konkurs”.

4. Poznanie i konfigurowanie konkurencji

W tle stworzyliśmy zupełnie nowy konkurs, w którym wykorzystaliśmy unikalny zbiór danych. Omówmy pokrótce ustawienia konkurencji.

Karta Host

Karta Host zawiera wszystko, czego potrzebujesz jako hosta do prawidłowego skonfigurowania konkurencji. W szczególności sprawdź listę stron po prawej stronie:

bcedd6768cc4f32c.png

Informacje podstawowe

W tej sekcji znajdziesz:

  • Ogólne
  • Prywatność, dostęp i Zasoby
  • Oś czasu
  • Punktacja Zespoły

Podczas rozpoczynania konkursu omówiliśmy sekcje Ogólne i Prywatność.

Oś czasu

Data zakończenia konkursu jest podana w wybranej strefie czasowej.

7141f4aea90bccb0.png

Punktacja Zespół

Punkty Sekcja Zespół pozwala kontrolować, ile osób może dołączyć do zespołu, ile razy dziennie mogą one przesyłać zgłoszenia oraz ile zgłoszeń muszą wybrać do oceny końcowej.

5efb6387612db941.png

Obrazy

Dzięki obrazom możesz dostosować baner i miniaturę swojego konkursu. Będzie to miało wpływ zarówno na stronę główną konkursu, jak i na wpis o konkursie.

6dfd442376a1c702.png

Gospodarze

Tutaj możesz dodać innych użytkowników Kaggle jako gospodarza dla konkurencji. Inni gospodarze będą mieli pełny dostęp do Twojej konkurencji (w tym możliwość uruchamiania aplikacji).

8f8c90eb6baa7747.png

Wskaźnik oceny

Karta Wskaźnik oceny stanowi serce konkurencji. Tworząc konkurs od zera, musisz dokładnie przemyśleć, którego wskaźnika oceny (lub punktacji) użyć, przesłać plik rozwiązania, określić publiczny i prywatny podział testowy oraz przesłać przykładowy raport. Skorzystaliśmy jednak z wygenerowanej konkurencji, więc nie musimy tego robić.

Wskaźnik oceny

Określa sposób oceny zgłoszenia w porównaniu z plikiem rozwiązania. Dla każdego rodzaju danych dostępna jest dokumentacja i rzeczywisty kod.

Plik rozwiązania

Ponieważ korzystamy z wygenerowanego konkursu, ten plik jest unikalny dla Twojej konkurencji.

89fa1f42d177505a.png

Próbkowanie rozwiązań pozwala dostosować ilość pliku rozwiązania używanego do oceny zgłoszeń podczas konkursu (publiczna tabela wyników) względem liczby wierszy wykorzystywanych do określenia ostatecznej tabeli wyników. Podczas zawodów użytkownicy będą mogli wybrać (na podstawie ustawienia Prywatna tabela wyników), które z tych zgłoszeń trafią do ostatecznej tabeli wyników (prywatna tabela wyników).

Dzięki temu konkurenci nie są nagradzani za nadmierne dopasowanie lub zalanie prac.

Zgłoszenia w trybie piaskownicy

Dzięki temu gospodarze rywalizacji mogą mieć pewność, że punktacja jest zgodna z oczekiwaniami, i umożliwia określenie punktu odniesienia. które można porównać konkurencji. Te przesłane treści z testów porównawczych pojawią się w tabeli wyników.

Zespoły Zgłoszenia

Podczas zawodów gospodarze mogą pobrać wszystkie wyniki, a także zarządzać zespołami. To pole jest puste, zanim rozpocznie się konkurs.

Launch Checklist

Omówimy to w następnej sekcji.

5. Promowanie konkurencji

50b03df072c02e6a.png

U góry strony konkursu kliknij link „Lista kontrolna uruchomienia”. Przycisk

Launch Checklist

Lista kontrolna uruchamiania zawiera listę kroków, które należy wykonać przed rozpoczęciem konkursu. Ponieważ rozpoczęliśmy pracę od szablonu konkursu, większość kroków została już wykonana. Zostały już tylko dwa zadania: wyznaczenie terminu i aktualizacja zasad konkursu.

938b9ed7bc4e0597.png

Ustaw termin

Najpierw kliknij strzałkę obok opcji Ustaw termin. Konkursy trwają zwykle co najmniej kilka miesięcy. Maksymalny czas trwania konkursu to jeden rok.

Edytowanie reguł

Przed uruchomieniem musisz zaktualizować reguły konkurencji, używając szablonu domyślnego. Jeśli organizujesz ten konkurs dla klasy lub grupy, w tym miejscu możesz podać wszelkie informacje dotyczące oczekiwań.

Uruchomienie kampanii

Wszystko gotowe do uruchomienia kampanii. Teraz możesz ruszyć z wyprzedzeniem. Wszystko gotowe, by dołączyć do rywalizacji!

6. Ocena konkurencji

Teraz, gdy masz już skonfigurowaną konkurencję, zobaczmy, jak wygląda jej strona. Omówimy udział w konkursie i prześlemy zgłoszenie. Możesz wziąć udział w konkursie demonstracyjnym Google IO: na stronie https://www.kaggle.com/competitions/google-io-demo-competition.

Udział w konkursie

Na stronie głównej konkursu kliknij przycisk „Weź udział w konkursie”. w prawym górnym rogu, a następnie przeczytaj i zaakceptuj zasady.

Tworzenie pierwszego zgłoszenia

Przejdź na kartę kodu i kliknij „New Notebook” (Nowy notatnik). Otworzy się notatnik, w którym będzie można przesłać zgłoszenie do konkursu.

Najpierw odczytamy dane w pociągu i testach

Ⰳ# przeczytaj dane testowe i trenowane

pociąg = pd.read_csv('/kaggle/input/google-io-demo-competition/train.csv')

test = pd.read_csv('/kaggle/input/google-io-demo-competition/test.csv')

Spójrzmy na dane.

🰃# zapoznaj się z niektórymi danymi

train.head()

Przygotujmy dane do trenowania. W tym przypadku pomijamy wartość Płeć, ponieważ nie jest to wartość liczbowa. (Podpowiedź: znalezienie sposobu jego uwzględnienia powinno poprawić wydajność modelu).

🰃 # pozbądź się wyników z danych testowych

data = Train.drop(columns=['Wiek', ‘Płeć'])

odpowiedzi = pociąg['Wiek']

Następnie tworzymy model. W tym przypadku korzystamy z losowego modelu lasu.

🰃# importów dla modelu

z sklearn.model_selection import train_test_split

z sklearn.ensemble importuj RandomForestRegressor

z sklearn.metrics import mean_absolute_error

model = RandomForestRegressor()

# Wytrenuj model

model.fit(dane; odpowiedzi)

Utwórz zadanie:

갃predictions = model.predict(test.drop(columns=['płeć']))

submission = pd.DataFrame({‘id&#39;: test[‘id&#39;], ‘Age&#39;: predictions})

Statement.to_csv(‘submission.csv', index=False)

Następnie możesz przesłać zgłoszenie do konkursu, wybierając opcję „Prześlij do konkursu”. w menu po prawej stronie.

1cf17449cae53abe.png

Wskazówki, jak zorganizować świetny konkurs

  1. Dołącz notatnik początkowy, który pozwoli Ci w prosty sposób przesłać treści
  2. Zachęcaj do dyskusji i udostępniania notatników na wczesnym etapie konkursu.
  3. Baw się dobrze!