1. परिचय
पिछली बार अपडेट किए जाने की तारीख: 10-05-2024
Kaggle क्या है?
Kaggle दुनिया का सबसे बड़ा एआई है और एमएल कम्यूनिटी, डेटा साइंस और मशीन लर्निंग में हर लेवल के शौकीनों के लिए एक बेहतरीन प्लैटफ़ॉर्म है. यहां वे नई तकनीकों और टेक्नोलॉजी का इस्तेमाल करके अगले लेवल पर पहुंच सकते हैं. अपने अगले प्रोजेक्ट को शुरू करने के लिए, डेटासेट, नोटबुक, और पहले से ट्रेन किए गए मॉडल का बहुत बड़ा रिपॉज़िटरी खोजें. प्रतियोगिताओं में हिस्सा लें, कोर्स से सीखें, और दुनिया भर में 1.8 करोड़ लोगों की कम्यूनिटी से जुड़ें. चाहे आपने अभी-अभी महारत हासिल की हो या Kaggle ने आपको नया अनुभव दिया हो, Kaggle पर आपको अपनी स्किल निखारने का मौका मिलता है, दूसरों से आगे रहना होता है, और नए-नए प्रोजेक्ट पर साथ मिलकर काम करना होता है.
आपको क्या बनाना होगा
इस कोडलैब में, कागल मुकाबला बनाएं, कॉन्फ़िगर करें, और लॉन्च करें. आपको प्रतिस्पर्धी के अनुभव के बारे में जानकारी मिलेगी. साथ ही, आपको एक दिलचस्प मुकाबला चलाने के सबसे सही तरीकों के बारे में भी पता चलेगा.
आपको इनके बारे में जानकारी मिलेगी
- होस्ट की ओर से, Kaggle प्रतियोगिता बनाने और उसे मैनेज करने के तरीके के बारे में जानें
- एक्सप्लोरेशन से लेकर सबमिशन तक, प्रतिस्पर्धी के अनुभव को जानें
- दिलचस्प मुकाबला चलाने के सबसे सही तरीके जानें
यह कोडलैब, तेज़ी से कॉम्पटिशन तैयार करने पर फ़ोकस करता है. साथ ही, यह Kaggle की बढ़ती हुई प्रतिस्पर्धा वाली लाइब्रेरी का इस्तेमाल करता है.
आपको इन चीज़ों की ज़रूरत होगी
- हाल ही का वेब ब्राउज़र
- Python के बारे में बुनियादी जानकारी
2. सेट अप किया जा रहा है
Kaggle खाता बनाना
Kaggle की वेबसाइट (https://www.kaggle.com/) पर जाएं और "रजिस्टर करें" पर क्लिक करें मुफ़्त खाता बनाने के लिए.
अपने खाते की पुष्टि करना
- पेज के सबसे ऊपर दाएं कोने में, अपनी प्रोफ़ाइल फ़ोटो पर क्लिक करें
- "आपकी प्रोफ़ाइल" पर क्लिक करें
- "सेटिंग" पर क्लिक करें प्रोफ़ाइल के कॉन्टेंट की दाईं ओर मौजूद बटन
- "फ़ोन नंबर की पुष्टि" सेक्शन में आपके खाते की पुष्टि करने के लिए निर्देशों का पालन करता है
3. अपनी पहली प्रतियोगिता तैयार करना
पेश है एआई (AI) तकनीक से जनरेट किए गए कॉम्पिटिशन टेंप्लेट
AI जनल - प्रतियोगिता, Kaggle पर एक नई सुविधा है. इसकी मदद से उपयोगकर्ता, तेज़ी और आसानी से मशीन लर्निंग की प्रतियोगिताएं बना सकते हैं. यह एआई की मदद से, ऐसे सिंथेटिक डेटासेट जनरेट करता है जो मौजूदा डेटासेट के आंकड़ों की नकल करते हैं. इसमें व्यक्तिगत पहचान से जुड़ी जानकारी शामिल नहीं होती.
यह इस तरह से काम करता है:
- टेंप्लेट चुनना: अलग-अलग मशीन लर्निंग टास्क (जैसे, क्लासिफ़िकेशन, रिग्रेशन) के आधार पर टेंप्लेट की सूची से कोई टेंप्लेट चुनें.
- एआई, डेटासेट जनरेट करता है: Kaggle का एआई आपके चुने हुए टेंप्लेट के आधार पर, आपके प्रतिस्पर्धी के लिए एक नया डेटासेट बनाता है. यह डेटासेट ओरिजनल डेटासेट जैसा ही है, लेकिन इसमें कुछ सुविधाओं का इस्तेमाल किया गया है. साथ ही, इसमें सुविधाओं के डिस्ट्रिब्यूशन का तरीका थोड़ा अलग है.
- अपनी प्रतिस्पर्धा को पसंद के मुताबिक बनाना: प्रतियोगिता का नाम, ब्यौरा, और टाइमलाइन जैसी बुनियादी जानकारी डालें. आप अपने मुकाबले के लिए तय की गई निजता सेटिंग भी चुन सकते हैं.
- लॉन्च करना: जानकारी तय करने और लॉन्च सेट करने के बाद, अपना मुकाबला लॉन्च करने के लिए तैयार हो जाएं.
यह सुविधा, मुकाबला बनाने की प्रोसेस को आसान बनाती है. इससे ज़्यादा से ज़्यादा लोग इसका इस्तेमाल कर पाते हैं. साथ ही, उन्हें डेटासेट तैयार करने के बजाय मशीन लर्निंग के पहलुओं पर ज़्यादा ध्यान देने में मदद मिलती है.
प्रतियोगिता बनाना
https://www.kaggle.com/competitions/new पर जाएं. इसके बाद, "एआई से बनाया गया नया मुकाबला" चुनें
"क्रैब की उम्र के डेटासेट के साथ रिग्रेशन" चुनें मुकाबला.
प्रतियोगिता की जानकारी
जानकारी देने वाला नाम और सबटाइटल भरें. उदाहरण के लिए, आप ‘<Your Name> की Test Crab Competition' का इस्तेमाल कर सकते हैं टाइटल और ‘यह कैसे काम करता है, यह देखने के लिए अपना पहला मुकाबला बनाना' दिया जा सकता है. ध्यान दें कि टाइटल के आधार पर, प्रतिस्पर्धी का यूआरएल अपने-आप भर जाता है.
विज़िबिलिटी और ऐक्सेस
अब हमें प्रतियोगिता के लिए दृश्यता और ऐक्सेस सेट करना होगा.
किसको दिखाई दे
- सार्वजनिक: आपका मुकाबला Kaggle पर सभी को दिखेगा. यह खोज के नतीजों में दिखेगा, ताकि इसमें दिलचस्पी रखने वाला कोई भी व्यक्ति शामिल हो सके.
- निजी: आपका मुकाबला सार्वजनिक तौर पर नहीं दिखेगा. यह खोज के नतीजों में नहीं दिखेगा. इसमें सिर्फ़ वे लोग हिस्सा ले सकते हैं जिन्हें आपने न्योता भेजा है.
कौन शामिल हो सकता है
- कोई भी: यह 'सभी के लिए उपलब्ध कॉन्टेंट' से जुड़ी नीति है. Kaggle का कोई भी व्यक्ति आपकी प्रतियोगिता में शामिल हो सकता है.
- सिर्फ़ वे लोग जिनके पास लिंक है: यह ज़्यादा खास होता है. इससे एक खास लिंक जनरेट होगा और सिर्फ़ वे लोग शामिल हो पाएंगे जिनके पास उसका लिंक होगा.
- प्रतिबंधित ईमेल सूची: यह सबसे ज़्यादा कंट्रोल किया जाने वाला विकल्प है. ईमेल पते या डोमेन (जैसे, @yourschool.edu) की सूची दें और सिर्फ़ वे लोग शामिल हो सकते हैं जिनके पास ये ईमेल पते हैं.
बाद में, हम नोटबुक और मॉडल चालू करें सेटिंग के बारे में बात करेंगे. फ़िलहाल, यह पक्का करें कि यह टॉगल चालू हो. उदाहरण के लिए, हमारी प्रतिस्पर्धा के लिए इन सेटिंग को निजी और सिर्फ़ वे लोग जिनके पास लिंक है पर सेट करें.
शर्तें पढ़ें और उनसे सहमत हों और "प्रतियोगिता बनाएं" पर क्लिक करें.
4. अपनी प्रतिस्पर्धा को समझना और उसे कॉन्फ़िगर करना
पर्दे के पीछे हमने एक यूनीक डेटासेट के साथ एक बिलकुल नई प्रतिस्पर्धा बनाई है. आइए, प्रतिस्पर्धा से जुड़ी सेटिंग की फटाफट समीक्षा करते हैं.
होस्ट टैब
एक होस्ट के तौर पर, आपको अपनी प्रतिस्पर्धा को सही तरीके से कॉन्फ़िगर करने के लिए, होस्ट टैब में वह सब कुछ मिलता है जिसकी ज़रूरत आपको होती है. खास तौर पर, पेज की दाईं ओर मौजूद पेज सूची देखें:
बुनियादी जानकारी
इस सेक्शन में शामिल हैं:
- सामान्य
- निजता, ऐक्सेस, और रिसोर्स
- टाइमलाइन
- स्कोरिंग और टीमें
इस प्रतियोगिता को लॉन्च करते समय, हमने सामान्य और निजता वाले सेक्शन को शामिल किया.
टाइमलाइन
प्रतियोगिता खत्म होने की तारीख समय क्षेत्र से जुड़ी हुई है.
स्कोरिंग और टीम
द स्कोरिंग ऐंड टीम सेक्शन की मदद से, यह कंट्रोल किया जा सकता है कि किसी टीम में कितने लोग शामिल हो सकते हैं, वे हर दिन कितनी बार सबमिट कर सकते हैं, और आखिरी आकलन के लिए उन्हें कितने असाइनमेंट चुनने होंगे.
इमेज
इमेज से, आपको अपने मुकाबले के लिए बैनर और थंबनेल पसंद के मुताबिक बनाने की सुविधा मिलती है. इससे आपकी प्रतियोगिता के होम पेज के साथ-साथ आपकी प्रतियोगिता की एंट्री पर भी असर पड़ेगा.
होस्ट
यहां Kaggle के अन्य उपयोगकर्ताओं को आपके मुकाबले के होस्ट के तौर पर जोड़ा जा सकता है. अन्य होस्ट के पास आपके मुकाबले का पूरा ऐक्सेस (इसमें लॉन्च के साथ-साथ) भी होगा.
आकलन मेट्रिक
इवैलुएशन मेट्रिक टैब, प्रतिस्पर्धा का सबसे अहम हिस्सा होता है. शुरुआत से प्रतियोगिता तैयार करते समय, आपको इस बारे में सोच-विचार करना होगा कि किस इवैलुएशन (या स्कोरिंग) मेट्रिक का इस्तेमाल करना है, अपनी समाधान फ़ाइल अपलोड करें, सार्वजनिक/निजी टेस्ट स्प्लिट तय करें, और सैंपल सबमिशन उपलब्ध कराएं. हालांकि, हमने जनरेट की गई प्रतियोगिता का इस्तेमाल किया है, इसलिए हमें इनमें से कुछ भी करने की ज़रूरत नहीं है!
स्कोरिंग मेट्रिक
इससे यह तय होता है कि समाधान वाली फ़ाइल के लिए, किसी सबमिशन को स्कोर कैसे दिया जाता है. हर मेट्रिक में दस्तावेज़ और असल कोड उपलब्ध होते हैं.
सलूशन फ़ाइल
हम जनरेट की गई प्रतिस्पर्धा का इस्तेमाल कर रहे हैं, इसलिए यह फ़ाइल आपके मुकाबले के लिए खास है!
सलूशन सैंपलिंग की मदद से, समाधान वाली उस फ़ाइल की संख्या में बदलाव किया जा सकता है जिसका इस्तेमाल, प्रतियोगिता (सार्वजनिक लीडरबोर्ड) के दौरान सबमिशन को स्कोर करने के लिए किया जाता है. साथ ही, फ़ाइनल लीडरबोर्ड तय करने के लिए इस्तेमाल की जाने वाली लाइनों की संख्या में भी बदलाव किया जा सकता है. प्रतियोगिता के दौरान, लोग चुन सकते हैं कि 'स्कोर किए गए निजी सबमिशन की सेटिंग' के आधार पर, उनके कौनसे सबमिशन फ़ाइनल लीडरबोर्ड के लिए इस्तेमाल किए जाएं. इसे यहां निजी लीडरबोर्ड कहा जाता है.
इस प्रोसेस से यह पक्का होता है कि आपके प्रतिस्पर्धियों को ज़्यादा असाइनमेंट सबमिट करने या ज़रूरत से ज़्यादा सामान सबमिट करने के लिए इनाम नहीं मिलेगा.
सैंडबॉक्स सबमिशन
इनकी मदद से, प्रतिस्पर्धा करने वाले होस्ट यह पक्का कर पाते हैं कि स्कोर उम्मीद के मुताबिक काम कर रहा है. साथ ही, उन्हें "मानदंड" सेट करने में मदद मिलती है इससे तुलना की जा सकती है. मानदंड के तौर पर सबमिट की गई ये चीज़ें, लीडरबोर्ड पर दिखेंगी.
टीम और सबमिट किए गए दस्तावेज़
इससे होस्ट, सभी स्कोर डाउनलोड कर सकते हैं. साथ ही, टीमों को मैनेज कर सकते हैं. प्रतियोगिता शुरू होने से पहले, यह फ़ील्ड खाली है.
लॉन्च चेकलिस्ट
इसके बारे में अगले सेक्शन में बताया जाएगा!
5. मुकाबले की शुरुआत करना
प्रतियोगिता पेज पर सबसे ऊपर, "लॉन्च चेकलिस्ट" पर क्लिक करें बटन.
लॉन्च चेकलिस्ट
लॉन्च करने से जुड़ी चेकलिस्ट में, किसी प्रतियोगिता को लॉन्च करने से पहले ज़रूरी कदम उठाने के बारे में जानकारी मिलती है. हमने पहले ही कॉम्पिटिशन टेंप्लेट से शुरुआत कर दी है. इसलिए, इनमें से ज़्यादातर चरण पहले ही पूरे हो चुके हैं! सिर्फ़ दो टास्क बचे हैं. समयसीमा सेट करना और प्रतियोगिता के नियमों को अपडेट करना.
समीक्षा करने की आखिरी तारीख सेट करें
पहले, समयसीमा सेट करें के बगल में मौजूद ऐरो पर क्लिक करें. आम तौर पर, प्रतियोगिताएं कम से कम कुछ महीनों तक चलती हैं. प्रतियोगिता के लिए, ज़्यादा से ज़्यादा एक साल का समय दिया जा सकता है.
नियमों में बदलाव करना
लॉन्च से पहले, प्रतियोगिता के नियमों को डिफ़ॉल्ट टेंप्लेट से अपडेट करना ज़रूरी है. अगर आप यह प्रतियोगिता किसी क्लास या ग्रुप के लिए चला रहे हैं, तो उम्मीदों के बारे में कोई भी जानकारी देने के लिए यह एक अच्छी जगह है.
लॉन्च करें
हम लॉन्च के लिए तैयार हैं! आगे बढ़ें और अपना मुकाबला शुरू करें! अब आप मुकाबले के लिए तैयार हैं!
6. प्रतिस्पर्धी का अनुभव
अब जबकि आपने अपना मुकाबला लॉन्च कर लिया है, तो चलिए एक नज़र डालते हैं कि आपके प्रतिस्पर्धी का अनुभव कैसा रहा. हम प्रतियोगिता में शामिल होने और सबमिशन सबमिट करने के बारे में जानकारी देंगे. इसके लिए, आप यहां से Google IO Demo Competition में शामिल हो सकते हैं: https://www.kaggle.com/competitions/google-io-demo-competition
प्रतियोगिता में शामिल होना
प्रतियोगिता के होम पेज पर जाने के बाद, "प्रतियोगिता में शामिल हों" पर क्लिक करें ऊपर दाईं ओर मौजूद बटन पर क्लिक करें. इसके बाद, नियमों को पढ़ें और स्वीकार करें.
अपना पहला कॉन्टेंट सबमिट करना
कोड टैब पर जाएं और "नई नोटबुक" पर क्लिक करें. इससे एक नोटबुक खुल जाएगी, जिसकी मदद से प्रतियोगिता में शामिल होने के लिए अनुरोध किया जा सकेगा.
सबसे पहले हम ट्रेन में और टेस्ट के डेटा को पढ़ेंगे
ః# टेस्ट और ट्रेन का डेटा पढ़ें
ट्रेन = pd.read_csv('/kaggle/input/google-io-demo-competition/train.csv')
परीक्षण = pd.read_csv('/kaggle/input/google-io-demo-competition/test.csv')
आइए डेटा पर एक नज़र डालते हैं.
# कुछ डेटा पर एक नज़र डालें
train.head()
आइए, ट्रेनिंग के लिए डेटा तैयार करते हैं. इस मामले में हम सेक्स को छोड़ देते हैं, क्योंकि यह संख्या वाली वैल्यू नहीं है. (संकेत: इसे शामिल करने का तरीका जानना, आपके मॉडल की परफ़ॉर्मेंस को बेहतर करना चाहिए).
Ⰳ # टेस्ट डेटा से मिले नतीजों को ड्रॉप करें
डेटा = Trainer.drop(columns=[‘उम्र', ‘सेक्स'])
जवाब = ट्रेन[‘उम्र']
इसके बाद, हम एक मॉडल बनाते हैं. इस मामले में, हम किसी भी क्रम में फ़ॉरेस्ट मॉडल बना रहे हैं.
# मॉडल के लिए इंपोर्ट
sklearn.model_selection संपर्कों में जुड़ने के लिए Trainer_test_split से
sklearn.ensemable आयात से चाहें
sklearn.metric इंपोर्ट सेमीन_absolute_error
मॉडल = ऐसे
# मॉडल को ट्रेनिंग दें
Model.fit(डेटा, जवाब)
सबमिशन बनाएं:
Ⰳpredictions = Model.predict(test.drop(columns=[‘Sex']))
submission = pd.DataFrame({‘id': test[‘id'], ‘Age': predictions})
सबमिशन.to_csv(‘submission.csv', index=False)
फिर आप "प्रतिस्पर्धा में सबमिट करें" का चयन करके प्रतियोगिता में सबमिट कर सकते हैं पर क्लिक करें.
बेहतरीन प्रतियोगिता चलाने के लिए सलाह
- पक्का करें कि इसमें एक स्टार्टर नोटबुक शामिल हो, जो बेसिक सबमिशन करता है
- प्रतियोगिता के शुरुआती दौर में होने वाली चर्चाओं और नोटबुक शेयर करने के लिए, दर्शकों को प्रेरित करें
- आनंद लें!