Nâng cao kỹ năng cho tổ chức của bạn bằng công nghệ học máy/trí tuệ nhân tạo thông qua Kaggle

1. Giới thiệu

47566e1490c16443.pngS

Lần cập nhật gần đây nhất: ngày 10 tháng 05 năm 2024

Kaggle là gì?

Kaggle là công ty AI lớn nhất và Cộng đồng học máy, nền tảng tuyệt vời dành cho những người đam mê khoa học dữ liệu và học máy ở mọi cấp độ để nâng cấp các kỹ thuật và công nghệ mới nhất. Khám phá kho lưu trữ khổng lồ gồm các tập dữ liệu, sổ tay và mô hình huấn luyện trước để bắt đầu dự án tiếp theo của bạn. Tham gia các cuộc thi, học hỏi từ các khoá học và kết nối với cộng đồng đa dạng gồm hơn 18 triệu người dùng trên toàn cầu. Cho dù bạn là người mới bắt đầu hay một chuyên gia dày dạn kinh nghiệm, Kaggle vẫn là nơi để bạn trau dồi kỹ năng, luôn dẫn đầu và cộng tác trong những dự án tiên tiến.

Sản phẩm bạn sẽ tạo ra

Trong lớp học lập trình này, bạn sẽ tạo, định cấu hình và khởi động một cuộc thi đấu kaggle. Bạn sẽ tìm hiểu trải nghiệm của đối thủ cạnh tranh và hiểu rõ các phương pháp hay nhất để tổ chức một cuộc thi thu hút.

Kiến thức bạn sẽ học được

  • Tìm hiểu cách tạo và quản lý cuộc thi Kaggle từ phía người tổ chức
  • Khám phá trải nghiệm của đối thủ cạnh tranh, từ bước khám phá đến khi gửi biểu mẫu
  • Tìm hiểu các phương pháp hay nhất để tổ chức một cuộc thi hấp dẫn

Lớp học lập trình này tập trung vào việc tạo ra một cuộc thi một cách nhanh chóng và tận dụng thư viện các đối thủ cạnh tranh đang ngày càng phát triển của Kaggle.

Bạn cần có

  • Một trình duyệt web gần đây
  • Kiến thức cơ bản về python

2. Thiết lập

Tạo tài khoản Kaggle

Truy cập vào trang web Kaggle (https://www.kaggle.com/) rồi nhấp vào "Đăng ký" để tạo một tài khoản miễn phí.

Xác minh tài khoản

  1. Ở góc trên bên phải của trang, hãy nhấp vào ảnh hồ sơ của bạn
  2. Nhấp vào "Hồ sơ của bạn"
  3. Nhấp vào phần "Cài đặt" ở bên phải nội dung trang doanh nghiệp
  4. Trong phần "Xác minh qua điện thoại" làm theo hướng dẫn để xác minh tài khoản của bạn

3. Tạo cuộc thi đầu tiên của bạn

Ra mắt mẫu cạnh tranh do AI tạo

Cuộc thi do AI tạo là một tính năng mới trên Kaggle, cho phép người dùng tạo các cuộc thi bằng công nghệ học máy một cách nhanh chóng và dễ dàng. Nền tảng này sử dụng trí tuệ nhân tạo (AI) để tạo tập dữ liệu tổng hợp bắt chước các tính chất thống kê của các tập dữ liệu hiện có mà không chứa bất kỳ thông tin nhận dạng cá nhân nào.

Cách hoạt động như sau:

  1. Chọn mẫu: Chọn trong danh sách các mẫu dựa trên các nhiệm vụ của công nghệ học máy (ví dụ: phân loại, hồi quy).
  2. AI tạo ra một tập dữ liệu: AI của Kaggle tạo một tập dữ liệu mới cho đối thủ cạnh tranh của bạn dựa trên mẫu mà bạn chọn. Tập dữ liệu này tương tự như tập dữ liệu gốc nhưng sử dụng một tập hợp con các tính năng và có cách phân phối tính năng hơi khác.
  3. Tuỳ chỉnh cạnh tranh: Nhập các thông tin chi tiết cơ bản như tên cuộc thi, nội dung mô tả và dòng thời gian. Bạn cũng có thể chọn các chế độ cài đặt quyền riêng tư cho đối thủ cạnh tranh của mình.
  4. Ra mắt: Sau khi hoàn tất các thông tin chi tiết và thiết lập phương thức ra mắt, bạn đã có thể ra mắt đối thủ cạnh tranh của mình.

Tính năng này giúp đơn giản hoá quy trình tạo cuộc thi, giúp nhiều người dùng hơn có thể tiếp cận và cho phép họ tập trung vào các khía cạnh của công nghệ học máy thay vì chuẩn bị tập dữ liệu.

Tạo cuộc thi

Chuyển đến https://www.kaggle.com/competitions/new, rồi chọn "Cạnh tranh mới do AI tạo"

2629bf77a282a46c.pngs

Chọn "Regression with a Crab Age Dataset" (Hồ sơ có tập dữ liệu tuổi Cua) Cạnh tranh.

Thông tin về mức độ cạnh tranh

2dd2228b9d686a6e.png.

Điền tên mô tả và phụ đề. Ví dụ: bạn có thể sử dụng ‘Cuộc thi cua thử nghiệm của <tên của bạn>’ như tiêu đề và "Tạo cuộc thi đầu tiên của tôi để xem cách thức hoạt động" làm phụ đề. Xin lưu ý rằng hệ thống sẽ tự động điền URL của cuộc thi dựa trên tiêu đề.

Khả năng giám sát và truy cập

Bây giờ, chúng ta cần đặt chế độ hiển thị và quyền truy cập cho cuộc thi.

5c7dcae412ddd574.png.

Chế độ hiển thị

  • Công khai: Mọi người trên Kaggle đều thấy cạnh tranh của bạn. Trang này sẽ xuất hiện trong kết quả tìm kiếm, vì vậy, bất kỳ ai quan tâm đều có thể tham gia.
  • Riêng tư: Cuộc thi của bạn bị ẩn khỏi chế độ xem công khai. Nút này sẽ không xuất hiện trong các kết quả tìm kiếm và chỉ những người mà bạn mời cụ thể mới có thể tham gia.

Ai có thể tham gia

  • Bất kỳ ai: Đây giống như chính sách mở. Mọi người trên Kaggle đều có thể tham gia cuộc thi của bạn.
  • Chỉ những người có đường liên kết: Trường hợp này đặc biệt hơn. Bạn sẽ tạo một liên kết đặc biệt và chỉ những người có liên kết đó mới có thể tham gia.
  • Danh sách email bị hạn chế: Đây là tuỳ chọn được kiểm soát nhiều nhất. Bạn cung cấp danh sách các địa chỉ email hoặc miền cụ thể (chẳng hạn như @yourschool.edu) và chỉ những người có những địa chỉ đó mới có thể tham gia.

Chúng ta sẽ nói thêm về chế độ cài đặt Bật máy tính xách tay và mô hình sau. Tạm thời, hãy đảm bảo rằng chế độ này đang ở trạng thái bật. Đối với cuộc thi mẫu, hãy đặt các chế độ cài đặt này thành Riêng tưChỉ những người có đường liên kết.

Đọc và đồng ý với các điều khoản rồi nhấp vào "Tạo cạnh tranh".

4. Hiểu và định cấu hình cạnh tranh

Ở hậu trường, chúng tôi đã tạo ra một cuộc cạnh tranh hoàn toàn mới bằng một tập dữ liệu duy nhất. Hãy cùng xem xét nhanh chế độ cài đặt cạnh tranh.

Thẻ Máy chủ lưu trữ

Thẻ máy chủ lưu trữ chứa mọi thứ bạn cần với vai trò là máy chủ lưu trữ để định cấu hình đối thủ cạnh tranh một cách phù hợp. Cụ thể, hãy xem danh sách trang ở bên phải trang:

bcedd6768cc4f32c.png

Thông tin cơ bản

Phần này bao gồm:

  • Giải pháp chung
  • Quyền riêng tư, quyền truy cập và Tài liệu tham khảo
  • Dòng thời gian
  • Ghi điểm và Nhóm

Chúng tôi đã đề cập đến phần Chung và Quyền riêng tư khi tổ chức cuộc thi.

Mốc thời gian

Ngày kết thúc cuộc thi sẽ biết được múi giờ.

7141f4aea90bccb0.png.

Ghi điểm và Nhóm

Điểm số và Phần nhóm cho phép bạn kiểm soát số người có thể tham gia một nhóm, số lần họ có thể gửi mỗi ngày và số lượng nội dung họ gửi để đưa ra đánh giá cuối cùng.

5efb6387612db941.pngS

Hình ảnh

Hình ảnh giúp bạn tuỳ chỉnh biểu ngữ và hình thu nhỏ cho đối thủ cạnh tranh. Điều này sẽ ảnh hưởng đến trang chủ của cuộc thi cũng như mục thông tin của đối thủ cạnh tranh.

6dfd442376a1c702.pngS

Người tổ chức

Tại đây, bạn có thể thêm những người dùng Kaggle khác làm người tổ chức cho cuộc thi của mình. Những người tổ chức khác sẽ có toàn quyền truy cập (bao gồm cả quyền phát hành) đối với đối thủ cạnh tranh của bạn.

8f8c90eb6baa7747.pngS

Chỉ số đánh giá

Thẻ Chỉ số đánh giá là trọng tâm của cuộc thi. Khi tạo một cuộc thi từ đầu, ở đây, bạn cần suy nghĩ cẩn thận về việc sử dụng chỉ số đánh giá (hoặc tính điểm) nào, tải tệp giải pháp của bạn lên, xác định phần phân tách thử nghiệm công khai/riêng tư và gửi mẫu. Tuy nhiên, vì chúng tôi đã sử dụng một cuộc thi được tạo nên chúng tôi không cần phải thực hiện bất kỳ thao tác nào trong số này!

Chỉ số tính điểm

Công cụ này sẽ xác định điểm số của nội dung bạn nộp dựa trên tệp giải pháp. Mỗi chỉ số đều có tài liệu và mã thực tế có sẵn.

Tệp giải pháp

Vì chúng tôi đang sử dụng một cuộc thi được tạo, nên tệp này chỉ dành riêng cho đối thủ cạnh tranh của bạn!

89fa1f42d177505a.pngS

Việc lấy mẫu giải pháp cho phép bạn điều chỉnh số lượng tệp giải pháp được dùng để tính điểm bài nộp trong cuộc thi (bảng xếp hạng công khai) so với số lượng hàng được dùng để xác định bảng xếp hạng cuối cùng. Trong quá trình thi đấu, người dùng được phép chọn (dựa trên chế độ cài đặt Nội dung gửi riêng tư có tính điểm) nội dung gửi nào họ gửi sẽ được dùng cho bảng xếp hạng cuối cùng (tại đây được gọi là Bảng xếp hạng riêng tư).

Quy trình này đảm bảo rằng các đối thủ cạnh tranh không được đền đáp vì đã đáp ứng quá nhiều nhu cầu hoặc gửi quá nhiều nội dung.

Nội dung gửi đi vào Hộp cát

Điều này cho phép các máy chủ cạnh tranh đảm bảo rằng việc tính điểm hoạt động như dự kiến và cho phép họ đặt "điểm chuẩn" gửi cho đối thủ cạnh tranh để so sánh. Các bài tập đo điểm chuẩn này sẽ xuất hiện trên bảng xếp hạng.

Nhóm và Nội dung bạn gửi

Trong thời gian diễn ra cuộc thi, quyền này cho phép người tổ chức tải xuống tất cả tỷ số cũng như quản lý các đội. Trước khi cuộc thi bắt đầu, trường này trống.

Launch Checklist

Chúng tôi sẽ đề cập đến vấn đề này trong phần tiếp theo!

5. Triển khai cuộc thi

50b03df072c02e6a.pngS

Ở đầu trang cuộc thi, hãy nhấp vào "Danh sách kiểm tra trước khi triển khai" .

Launch Checklist

Danh sách kiểm tra việc ra mắt cho biết các bước cần thực hiện trước khi khởi chạy một cuộc thi. Vì chúng ta đã bắt đầu từ mẫu cạnh tranh, nên hầu hết các bước này đã được hoàn tất! Chỉ còn hai việc cần làm là đặt thời hạn và cập nhật quy tắc cạnh tranh.

938b9ed7bc4e0597.pngS

Đặt thời hạn

Đầu tiên, nhấp vào mũi tên bên cạnh Đặt thời hạn. Các cuộc thi thường kéo dài ít nhất vài tháng. Thời gian tối đa cho một cuộc thi là một năm.

Chỉnh sửa quy tắc

Bạn cần cập nhật quy tắc cạnh tranh từ mẫu mặc định trước khi khởi chạy. Nếu bạn đang tổ chức cuộc thi này cho một lớp hoặc nhóm thì đây là nơi phù hợp để đưa ra bất kỳ thông tin nào về kỳ vọng.

Ra mắt

Chúng tôi đã sẵn sàng ra mắt! Hãy tiếp tục và khởi động cuộc thi của bạn! Bạn đã sẵn sàng để các đối thủ cạnh tranh tham gia!

6. Trải nghiệm của đối thủ cạnh tranh

Sau khi bạn ra mắt đối thủ cạnh tranh, hãy cùng xem trải nghiệm của đối thủ cạnh tranh. Chúng tôi sẽ đề cập đến việc tham gia cuộc thi và gửi bài dự thi. Để làm được điều này, bạn có thể tham gia Cuộc thi minh hoạ IO của Google tại đây: https://www.kaggle.com/competitions/google-io-demo-competition

Tham gia cuộc thi

Sau khi chuyển đến trang chủ của cuộc thi, hãy nhấp vào nút "Tham gia cuộc thi" ở phía trên bên phải rồi đọc và xác nhận các quy tắc.

Gửi lần đầu tiên

Chuyển đến thẻ mã rồi nhấp vào "Sổ tay mới". Thao tác này sẽ mở ra một sổ tay để bạn gửi bài dự thi cho cuộc thi.

Trước tiên, chúng ta sẽ đọc dữ liệu huấn luyện và thử nghiệm

Ⰳ# đọc dữ liệu thử nghiệm và huấn luyện

tàu = PD.read_csv ("kaggle/input/google-io-demo-comrotation/train.csv')

thử nghiệm = PD.read_csv táchối ra

Hãy cùng xem dữ liệu.

🏕️Xem một số dữ liệu

train.head()

Hãy chuẩn bị dữ liệu để huấn luyện. Trong trường hợp này, chúng ta loại bỏ Giới tính vì đó không phải là giá trị số. (Gợi ý: tìm hiểu cách thêm dữ liệu này sẽ cải thiện hiệu suất của mô hình).

Ⰳ # loại bỏ kết quả khỏi dữ liệu thử nghiệm

dữ liệu = Train.drop(columns=["Độ tuổi", "Giới tính"])

câu trả lời = xe lửa["Độ tuổi"]

Sau đó, chúng ta tạo một mô hình. Trong trường hợp này, chúng ta đang tạo một mô hình rừng ngẫu nhiên.

# lần nhập cho mô hình này

từ sklearn.model_selection import Train_test_ ốc

lấy từ sklearn.ensemble import RandomForestRegressor

từ sklearn.metrics

mô hình = RandomForestRegressor()

# huấn luyện mô hình

model.fit(dữ liệu; câu trả lời)

Tạo nội dung gửi:

🥰dự đoán = mô hình.dự đoán(test.drop(cộts=[‘Tình dục’]))

submission = pd.DataFrame({‘id&#39;: test[‘id&#39;], ‘Age&#39;: predictions})

Gửi.to_csv(‘submission.csv'; chỉ mục=False)

Sau đó, bạn có thể gửi đơn đăng ký tham gia cuộc thi bằng cách chọn "Gửi để cạnh tranh" trên trình đơn bên phải.

1cf17449cae53abe.png.

Mẹo để điều hành một cuộc thi hiệu quả

  1. Đừng quên thêm một sổ tay dành cho người mới bắt đầu để thực hiện quy trình gửi cơ bản
  2. Khuyến khích sử dụng các cuộc thảo luận và chia sẻ sổ tay từ sớm trong cuộc thi
  3. Chúc bạn sáng tạo vui vẻ!