TensorFlow, Keras, और डीप लर्निंग, लेकिन पीएचडी के बिना

123 मिनट बाकी हैं

इस कोडलैब (कोड बनाना सीखने के लिए ट्यूटोरियल) के बारे में जानकारी

पिछली बार जून 25, 2021 को अपडेट किया गया

किसी Googler ने लिखा है

इस पेज का अनुवाद Cloud Translation API से किया गया है.

1. खास जानकारी

यह ट्यूटोरियल Tensorflow 2.2 के लिए अपडेट किया गया है !

इस कोडलैब में, आपको हाथ से लिखे गए अंकों की पहचान करने वाला न्यूरल नेटवर्क बनाने और उसे ट्रेनिंग देने का तरीका पता चलेगा. इस प्रोसेस में, 99% सटीक हासिल करने के लिए न्यूरल नेटवर्क को बेहतर बनाने पर, आपको उन टूल के बारे में भी पता चलेगा जिनका इस्तेमाल, डीप लर्निंग के प्रोफ़ेशनल अपने मॉडल को बेहतर तरीके से ट्रेनिंग देने के लिए करते हैं.

यह कोडलैब MNIST डेटासेट का इस्तेमाल करता है. इसमें 60, 000 लेबल किए गए अंक होते हैं,जिन्होंने करीब दो दशकों से पीएचडी की पीढ़ियों को व्यस्त रखा है. Python / TensorFlow कोड की 100 से कम लाइनों का इस्तेमाल करके, सवाल हल करें.

आप इन चीज़ों के बारे में जानेंगे

न्यूरल नेटवर्क क्या है और इसे कैसे ट्रेनिंग दें
tf.keras का इस्तेमाल करके, एक लेयर वाला बुनियादी न्यूरल नेटवर्क बनाने का तरीका
और लेयर जोड़ने का तरीका
सीखने की दर का शेड्यूल सेट अप करने का तरीका
कॉन्वलूशनल न्यूरल नेटवर्क बनाने का तरीका
रेगुलराइज़ेशन तकनीकों को इस्तेमाल करने का तरीका: ड्रॉपआउट, बैच नॉर्मलाइज़ेशन
ओवरफ़िटिंग क्या है

आपको इनकी ज़रूरत होगी

बस एक ब्राउज़र. इस वर्कशॉप को पूरी तरह से Google Colaboratory के साथ चलाया जा सकता है.

सुझाव, राय या शिकायत

अगर आपको इस लैब में कोई गड़बड़ी दिखती है या आपको लगता है कि इसमें सुधार किया जाना चाहिए, तो कृपया हमें बताएं. हम GitHub से जुड़ी समस्याओं के ज़रिए सुझाव, शिकायत या राय मैनेज करते हैं [ feedback link].

2. Google Colaboratory क्विक स्टार्ट

यह लैब, Google Colaboratory का इस्तेमाल करता है और इसके लिए आपको कोई सेटअप नहीं करना होता. इसे Chromebook से चलाया जा सकता है. कृपया नीचे दी गई फ़ाइल खोलें और Colab notebook के बारे में जानने के लिए, सेल एक्ज़ीक्यूट करें.

Welcome to Colab.ipynb

कुछ और निर्देश यहां दिए गए हैं:

जीपीयू बैकएंड चुनें

hsy7H7O5qJNvKcRnHRiZoyh0IznlzmrO60wR1B6pqtfdc8Ie7gLsXC0f670zsPzGsNy3QAJuZefYv9CwTHmjiMyywG2pTpnMCE6VredEmlkf3K1

Colab मेन्यू में, रनटाइम > रनटाइम का टाइप बदलें और जीपीयू चुनें. पहली बार एक्ज़ीक्यूशन करने पर, रनटाइम से कनेक्शन अपने-आप हो जाएगा. इसके अलावा, आपके पास "कनेक्ट करें" का इस्तेमाल करने का भी विकल्प है बटन पर क्लिक करें.

नोटबुक चलाना

evlBKSO15ImjocdEcsIo8unzEe6oDGYnKFe8CoHS_7QiP3sDbrs2jB6lbyitEtE7Gt_1UsCdU5dJA-_2IgBWh9ofYf4yVDE740PwJ6kiQwuXNOLkgktzzf0E_k5VN5mq29ZXI5wb7Q

सेल पर क्लिक करके और Shift-ENTER का इस्तेमाल करके एक-एक करके सेल एक्ज़ीक्यूट करें. रनटाइम > सभी को चलाएं

विषय सूची

OXeYYbtKdLCNnw_xovSMeMwSdD7CL_w25EfhnpRhhhO44bYp3zZpU72J5tKaSuo8wpas0GK5B2sTBlIMiFmdGxFRQ9NmwJ7JIRYy5XtpWKQCPdxQVRPy_0J_LshGIKjtw8P9fXozaA

सभी नोटबुक में विषय सूची होती है. इसे खोलने के लिए, बाईं ओर मौजूद काले रंग के ऐरो का इस्तेमाल करें.

छिपे हुए सेल

GXTbXUO8xpPFKiGc6Q-cFwFHxHvOa105hHg3vk77EDpStyhU4AQMN3FYenbiBusHXUSk-yGXbRDcK-Cwx18XbDtyqB5WRr3_2jhnLvFxW8a7H_4cGvVDKrEMto_QxhfTeO0hwmrfng

कुछ सेल में सिर्फ़ उनका टाइटल दिखेगा. यह notebook की सुविधा है, जो खास तौर पर Colab के लिए बनाई गई है. अंदर का कोड देखने के लिए उन पर दो बार क्लिक करें, लेकिन आम तौर पर यह बहुत दिलचस्प नहीं होता. आम तौर पर, सहायता या विज़ुअलाइज़ेशन फ़ंक्शन. अंदर के फ़ंक्शन को परिभाषित करने के लिए, आपको अब भी इन सेल को चलाना होगा.

3. न्यूरल नेटवर्क को ट्रेनिंग दें

हम सबसे पहले न्यूरल नेटवर्क ट्रेन देखेंगे. कृपया नीचे दी गई नोटबुक खोलें और सभी सेल में चलाएं. अभी कोड पर ध्यान न दें, हम बाद में इसके बारे में समझाएंगे.

keras_01_mnist.ipynb

नोटबुक को एक्ज़ीक्यूट करते समय, विज़ुअलाइज़ेशन पर फ़ोकस करें. ज़्यादा जानकारी के लिए नीचे देखें.

ट्रेनिंग के लिए डेटा

हमारे पास हाथ से लिखे गए अंकों का डेटासेट है, जिसे लेबल किया गया है. इससे हमें पता चलता है कि हर तस्वीर में क्या है, जैसे कि 0 और 9 के बीच की कोई संख्या. नोटबुक में, आपको एक उद्धरण दिखेगा:

हम जो न्यूरल नेटवर्क बनाएंगे वह हाथ से लिखे अंकों को उनकी 10 क्लास (0, .., 9) में अलग-अलग कैटगरी में बांटता है. ऐसा करने के लिए, डेटा की कैटगरी इंटरनल पैरामीटर के आधार पर तय की जाती है. इसके लिए, डेटा की कैटगरी तय करने के लिए सही वैल्यू का होना ज़रूरी है. यह "सही वैल्यू" ट्रेनिंग प्रोसेस के ज़रिए हासिल की जाती है, जिसके लिए "लेबल वाले डेटासेट" की ज़रूरत होती है इमेज और उनसे जुड़े सही जवाबों के साथ.

हमें कैसे पता चलेगा कि ट्रेन किया गया न्यूरल नेटवर्क अच्छा परफ़ॉर्म कर रहा है या नहीं? नेटवर्क की जांच करने के लिए ट्रेनिंग डेटासेट का इस्तेमाल करना, धोखा हो सकता है. यह पहले ही देखा जा चुका है कि ट्रेनिंग के दौरान डेटासेट को कई बार इस्तेमाल किया जाता है और यह इस पर काफ़ी अच्छा परफ़ॉर्म करता है. "असल दुनिया" का मूल्यांकन करने के लिए हमें लेबल किए गए ऐसे दूसरे डेटासेट की ज़रूरत होती है जो ट्रेनिंग के दौरान कभी नहीं दिखा नेटवर्क की परफ़ॉर्मेंस. इसे "पुष्टि करने के लिए इस्तेमाल होने वाला डेटासेट" कहा जाता है

ट्रेनिंग

ट्रेनिंग के दौरान, एक बार में ट्रेनिंग डेटा का एक बैच, इंटरनल मॉडल पैरामीटर अपडेट होता है. साथ ही, मॉडल मैन्युअल रूप से लिखे गए अंकों की पहचान बेहतर तरीके से करता है. इसे ट्रेनिंग ग्राफ़ पर देखा जा सकता है:

दाईं ओर, "सटीक" होना चाहिए सिर्फ़ सही तरह से पहचाने गए अंकों का प्रतिशत होता है. ट्रेनिंग के आगे बढ़ने के साथ-साथ यह अच्छी बात है.

बाईं ओर, हमें "नुकसान" दिख सकता है. इस ट्रेनिंग को पूरा करने के लिए, हम "नुकसान" के बारे में बताएंगे फ़ंक्शन का इस्तेमाल करता है, जो यह दिखाता है कि सिस्टम अंकों को कितनी अच्छी तरह से पहचानता है और फिर इसे छोटा करने की कोशिश करता है. यहां सिर्फ़ यह दिख रहा है कि जैसे-जैसे ट्रेनिंग आगे बढ़ती है, ट्रेनिंग और पुष्टि करने वाला डेटा, दोनों खराब हो जाते हैं: यह अच्छी बात है. इसका मतलब है कि न्यूरल नेटवर्क लर्निंग मोड में है.

X-ऐक्सिस, "epoch" की संख्या दिखाता है या पूरे डेटासेट में बार-बार इस्तेमाल किया जा सकता है.

अनुमान

इस मॉडल को ट्रेनिंग देने के बाद, हम इसका इस्तेमाल हाथ से लिखे गए अंकों को पहचानने के लिए कर सकते हैं. अगला विज़ुअलाइज़ेशन दिखाता है कि यह स्थानीय फ़ॉन्ट (फ़र्स्ट लाइन) से रेंडर किए गए कुछ अंकों और पुष्टि करने वाले डेटासेट के 10,000 अंकों पर कितना अच्छा परफ़ॉर्म कर रहा है. अनुमानित क्लास हर अंक के नीचे, अगर गलत था, तो लाल रंग में दिखती है.

जैसा कि आपको दिख रहा है, यह शुरुआती मॉडल ज़्यादा अच्छा नहीं है. हालांकि, फिर भी कुछ अंकों की सही पहचान करता है. इसकी पुष्टि करने पर मिली आखिरी सटीक जानकारी करीब 90% है. यह उस सामान्य मॉडल के लिए बहुत बुरा नहीं है जिसके साथ हम शुरुआत कर रहे हैं. हालांकि, इसका मतलब है कि इसकी पुष्टि के लिए 10,000 में से 1,000 अंक छूट जाते हैं. स्क्रीन पर सबसे ज़्यादा नतीजे दिखाए जा सकते हैं. इसलिए, ऐसा लगता है कि सभी जवाब गलत हैं (लाल रंग).

सेंसर

डेटा को मैट्रिक्स में सेव किया जाता है. 28x28 पिक्सल की ग्रेस्केल इमेज, 28x28 के 2-डाइमेंशन वाले मैट्रिक्स में फ़िट हो जाती है. हालांकि, कलर इमेज के लिए हमें ज़्यादा डाइमेंशन की ज़रूरत होती है. हर पिक्सल में तीन रंगों की वैल्यू (लाल, हरा, नीला) होती है. इसलिए, डाइमेंशन वाली थ्री-डाइमेंशन वाली टेबल बनानी होगी [28, 28, 3]. साथ ही, 128 कलर इमेज का बैच स्टोर करने के लिए, डाइमेंशन के साथ चार-डाइमेंशन वाली टेबल चाहिए [128, 28, 28, 3].

इन बहु-आयामी टेबल को "टेंसर" कहा जाता है और उनके डाइमेंशन की सूची उनका "आकार" होता है.

4. [जानकारी]: न्यूरल नेटवर्क 101

कम शब्दों में

अगर अगले पैराग्राफ़ में बोल्ड में दिए गए सभी शब्द पहले से ही आपके बारे में हैं, तो अगले अभ्यास पर जाएं. अगर आपने अभी डीप लर्निंग शुरू की है, तो आपका स्वागत है. कृपया आगे पढ़ें.

न्यूरल नेटवर्क क्लासिफ़ायर न्यूरॉन की कई अलग-अलग लेयर से बना होता है. इमेज क्लासिफ़िकेशन के लिए, ये गहन हो सकते हैं या कई बार, कंवेंशनल लेयर भी हो सकती हैं. आम तौर पर, इन्हें relu ऐक्टिवेशन फ़ंक्शन से चालू किया जाता है. आखिरी लेयर, क्लास में उतने ही न्यूरॉन का इस्तेमाल करती है जितने की क्लास होती हैं. इसे सॉफ़्टमैक्स के साथ ऐक्टिवेट किया जाता है. डेटा को अलग-अलग कैटगरी में बांटने के लिए, क्रॉस-एंट्रॉपी सबसे ज़्यादा इस्तेमाल किया जाने वाला लॉस फ़ंक्शन है. यह फ़ंक्शन, वन-हॉट कोड में बदले गए लेबल (यानी सही जवाब) की तुलना न्यूरल नेटवर्क की ओर से पहले से अनुमान लगाई गई संभावनाओं से करता है. नुकसान को कम करने के लिए, एक ऐसा ऑप्टिमाइज़र चुनना सही रहेगा जो तेज़ी से काम करे. उदाहरण के लिए, ऐडम को चुनें और ट्रेनिंग के लिए इस्तेमाल होने वाली इमेज और लेबल के बैच के हिसाब से ट्रेनिंग दें.

Keras लेयर के क्रम के तौर पर बनाए गए मॉडल के लिए, सिक्वेंशियल एपीआई उपलब्ध कराया जाता है. उदाहरण के लिए, तीन सघन लेयर वाले इमेज क्लासिफ़ायर को Keras में इस तरह लिखा जा सकता है:

model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=[28, 28, 1]),
    tf.keras.layers.Dense(200, activation="relu"),
    tf.keras.layers.Dense(60, activation="relu"),
    tf.keras.layers.Dense(10, activation='softmax') # classifying into 10 classes
])

# this configures the training of the model. Keras calls it "compiling" the model.
model.compile(
  optimizer='adam',
  loss= 'categorical_crossentropy',
  metrics=['accuracy']) # % of correct answers

# train the model
model.fit(dataset, ... )

एक सघन परत

MNIST डेटासेट में हाथ से लिखे गए अंक 28x28 पिक्सल वाली ग्रेस्केल इमेज होते हैं. उन्हें वर्गीकृत करने का सबसे आसान तरीका यह है कि एक लेयर वाले न्यूरल नेटवर्क के लिए इनपुट के तौर पर 28x28=784 पिक्सल का इस्तेमाल किया जाए.

Screen Shot 2016-07-26 पर 12.32.24.png

न्यूरल नेटवर्क में हर "न्यूरॉन", अपने सभी इनपुट के वेटेज (महत्व) का योग करता है और "बायस" नाम का कॉन्स्टेंट जोड़ता है और फिर कुछ नॉन-लीनियर "ऐक्टिवेशन फ़ंक्शन" की मदद से नतीजे को फ़ीड करता है. "वेट" और "पक्षपात" ऐसे पैरामीटर हैं जिन्हें ट्रेनिंग के ज़रिए तय किया जाएगा. शुरुआत में, उन्हें किसी भी वैल्यू से शुरू किया जाता है.

ऊपर दिया गया चित्र 10 आउटपुट न्यूरॉन वाले 1-लेयर न्यूरल नेटवर्क को दिखाता है, क्योंकि हम अंकों को 10 क्लास (0 से 9) में बांटना चाहते हैं.

आव्यूहों के गुणा किए जाने पर

यहां बताया गया है कि कैसे न्यूरल नेटवर्क लेयर, इमेज के कलेक्शन को प्रोसेस करती है. इसे मैट्रिक्स गुणा करके दिखाया जा सकता है:

वज़न मैट्रिक्स W में वज़न के पहले कॉलम का इस्तेमाल करके, हम पहली इमेज के सभी पिक्सल के वेटेड योग का पता लगाते हैं. यह योग पहले न्यूरॉन से मेल खाता है. भार के दूसरे कॉलम का उपयोग करके, हम दूसरे न्यूरॉन के लिए यही प्रक्रिया करते हैं और यही क्रम 10वें न्यूरॉन के लिए भी करते हैं. फिर हम शेष 99 छवियों के लिए कार्रवाई दोहरा सकते हैं. यदि हम X को अपनी 100 छवियों वाला आव्यूह कहते हैं, तो 100 छवियों पर परिकलित, हमारे 10 न्यूरॉन के लिए सभी भारित योग केवल X.W होते हैं, जो एक आव्यूह गुणन है.

अब प्रत्येक न्यूरॉन को अपना पूर्वाग्रह (एक स्थिर) जोड़ना होगा. चूंकि हमारे पास 10 न्यूरॉन हैं, इसलिए हमारे 10 पूर्वाग्रह स्थिर हैं. हम 10 मानों b के इस वेक्टर को कॉल करेंगे. इसे पहले से कंप्यूट किए गए मैट्रिक्स की हर लाइन में जोड़ा जाना चाहिए. "ब्रॉडकास्ट करना" नाम के जादू का इस्तेमाल करना तो हम इसे एक सरल प्लस चिह्न के साथ लिखेंगे.

"ब्रॉडकास्ट करना" Python और numpy में इस्तेमाल की जाने वाली एक स्टैंडर्ड ट्रिक है. यह वैज्ञानिक कंप्यूटेशन लाइब्रेरी है. यह फ़ंक्शन, काम न करने वाले डाइमेंशन वाले मैट्रिक्स पर सामान्य ऑपरेशन के काम करने के तरीके को बढ़ाता है. "ब्रॉडकास्ट करने वाला ऐड" इसका मतलब है, "अगर दो मैट्रिक्स को जोड़ा जा रहा है, लेकिन ऐसा नहीं किया जा सकता, क्योंकि उनके डाइमेंशन साथ काम नहीं करते, तो छोटे आव्यूह की नकल करने की कोशिश करें, ताकि वह सही से काम करे."

आखिर में, हम ऐक्टिवेशन फ़ंक्शन लागू करते हैं, जैसे कि "softmax" (नीचे बताया गया है) और 100 इमेज पर लागू 1-लेयर न्यूरल नेटवर्क का ब्यौरा देने वाला फ़ॉर्मूला पाएं:

Screen Shot 2016-07-26 पर 16.02.36.png

Keras में

Keras जैसी हाई-लेवल न्यूरल नेटवर्क लाइब्रेरी के लिए, हमें यह फ़ॉर्मूला लागू करने की ज़रूरत नहीं है. हालांकि, यह समझना ज़रूरी है कि न्यूरल नेटवर्क लेयर, गुणा और योग का सिर्फ़ एक सेट है. Keras में, घनी लेयर को इस तरह लिखा जाएगा:

tf.keras.layers.Dense(10, activation='softmax')

ज़्यादा जानें

न्यूरल नेटवर्क लेयर की चेन बनाना आसान है. पहली लेयर, पिक्सल के वेटेड योग को कैलकुलेट करती है. बाद वाली लेयर, पिछली लेयर के आउटपुट के कुल योग का हिसाब लगाती हैं.

न्यूरॉन की संख्या के अलावा, अंतर सिर्फ़ ऐक्टिवेशन फ़ंक्शन के विकल्प में है.

ऐक्टिवेशन फ़ंक्शन: relu, softmax, और sigmoid

आम तौर पर, "relu" ऐक्टिवेशन फ़ंक्शन के अलावा सभी लेयर के लिए ऐक्टिवेशन फ़ंक्शन. क्लासिफ़ायर में आखिरी लेयर, "सॉफ़्टमैक्स" का इस्तेमाल करेगी चालू करना.

फिर से, एक "न्यूरॉन" अपने सभी इनपुट के भारित योग का पता लगाता है, और "बायस" नाम की एक वैल्यू जोड़ता है और ऐक्टिवेशन फ़ंक्शन से नतीजे को फ़ीड करता है.

सुधारी गई लीनियर यूनिट के लिए, ऐक्टिवेशन का सबसे लोकप्रिय फ़ंक्शन "RELU" है. यह एक बहुत ही आसान फ़ंक्शन है, जिसे ऊपर दिए गए ग्राफ़ में देखा जा सकता है.

न्यूरल नेटवर्क में, ऐक्टिवेशन का पारंपरिक फ़ंक्शन "sigmoid" था, लेकिन "relu" था करीब हर जगह पर बेहतर कनवर्जेंस प्रॉपर्टी दिखाई गई थी और अब इसे प्राथमिकता दी जाती है.

कैटगरी तय करने के लिए Softmax ऐक्टिवेशन

हमारे न्यूरल नेटवर्क की आखिरी लेयर में 10 न्यूरॉन हैं, क्योंकि हम हाथ से लिखे अंकों को 10 क्लास (0,..9) में बांटना चाहते हैं. इसमें 0 और 1 के बीच की 10 संख्याएं होनी चाहिए, जो इस अंक के 0, 1, 2 वगैरह होने की संभावना को दिखाती है. इसके लिए, आखिरी लेयर पर, हम "softmax" नाम के ऐक्टिवेशन फ़ंक्शन का इस्तेमाल करेंगे.

किसी वेक्टर पर सॉफ़्टमैक्स को लागू करने के लिए, हर एलिमेंट का एक्स्पोनेंशियल लिया जाता है और फिर वेक्टर को नॉर्मलाइज़ किया जाता है. आम तौर पर, वेक्टर को "L1" से भाग दिया जाता है नॉर्मल (यानी निरपेक्ष वैल्यू का योग) ताकि नॉर्मलाइज़ की गई वैल्यू में 1 जोड़ा जा सके और उन्हें प्रॉबबिलिटी के रूप में समझा जा सके.

ऐक्टिवेशन से पहले, आखिरी लेयर के आउटपुट को कभी-कभी "logits" कहा जाता है. अगर यह वेक्टर L = [L0, L1, L2, L3, L4, L5, L6, L7, L8, L9] है, तो:

"सॉफ़्टमैक्स" क्यों है? सॉफ़्टमैक्स को कैसे कहते हैं? चरघातांकी फलन का काफ़ी तेज़ी से बढ़ने वाला है. इससे न्यूरॉन आउटपुट के बीच अंतर बढ़ जाएगा. इसके बाद, जब वेक्टर को नॉर्मलाइज़ किया जाता है, तो सबसे बड़े एलिमेंट, जो स्टैंडर्ड पर हावी होते हैं, को 1 के करीब की वैल्यू पर नॉर्मलाइज़ किया जाएगा. वहीं, बाकी सभी एलिमेंट को एक बड़ी वैल्यू से भाग देकर, 0 के आस-पास के लिए नॉर्मलाइज़ किया जाएगा. नतीजे के तौर पर मिलने वाला वेक्टर साफ़ तौर पर दिखाता है कि कौनसी क्लास विजेता है, यानी सबसे ज़्यादा वैल्यू. हालांकि, वैल्यू "सॉफ़्ट" हैं, लेकिन वैल्यू की ओरिजनल वैल्यू में कोई बदलाव नहीं हुआ है.

क्रॉस-एंट्रॉपी लॉस

अब जब हमारा न्यूरल नेटवर्क इनपुट इमेज से अनुमान लगाता है, तो हमें यह मापना होता है कि वे कितने अच्छे हैं, यानी कि नेटवर्क हमें जो जानकारी देता है और सही जवाबों के बीच की दूरी, उन्हें अक्सर "लेबल" कहा जाता है. याद रखें कि डेटासेट में मौजूद सभी इमेज के लिए, हमारे पास सही लेबल हैं.

किसी भी दूरी से काम किया जा सकता है. हालांकि, अलग-अलग कैटगरी में बांटने से जुड़ी समस्याओं के लिए, तथाकथित "क्रॉस-एंट्रॉपी दूरी" सबसे ज़्यादा असरदार है. हम इसे अपनी गड़बड़ी या "लॉस" कहेंगे फ़ंक्शन:

"वन-हॉट" कोड में बदलने का मतलब है कि आप "यह अंक 3 है" लेबल को दिखाते हैं इसके लिए, 10 वैल्यू के वेक्टर का इस्तेमाल किया जाता है. इसमें तीसरे वैल्यू (1) को छोड़कर, बाकी सभी शून्य होते हैं. यह वेक्टर, "3 अंक" होने की संभावना 100% दिखाता है. हमारा न्यूरल नेटवर्क भी अपने अनुमान को 10 प्रॉबबिलिटी वैल्यू के वेक्टर के रूप में दिखाता है. इनकी तुलना करना आसान होता है.

ग्रेडिएंट डिसेंट

"ट्रेनिंग" न्यूरल नेटवर्क का मतलब है, ट्रेनिंग इमेज और लेबल का इस्तेमाल करके वज़न और पक्षपात को अडजस्ट करना, ताकि क्रॉस-एंट्रॉपी लॉस फ़ंक्शन को कम किया जा सके. यह सुविधा इस तरह से काम करती है.

क्रॉस-एंट्रॉपी में वज़न, पक्षपात, ट्रेनिंग इमेज के पिक्सल, और उसकी क्लास की जानकारी होती है.

अगर हम सभी वेट और सभी पूर्वाग्रहों के सापेक्ष क्रॉस-एंट्रॉपी के आंशिक डेरिवेटिव का हिसाब लगाते हैं, तो हमें दी गई इमेज, लेबल, और भार और पक्षपात के मौजूदा मान के लिए एक "ग्रेडिएंट" मिलता है. याद रखें कि हमारे पास लाखों वज़न और पूर्वाग्रह हो सकते हैं, इसलिए ग्रेडिएंट की गणना करना बहुत बड़ा काम है. अच्छी बात यह है कि TensorFlow हमारे लिए है. ग्रेडिएंट की गणितीय प्रॉपर्टी यह है कि यह "ऊपर" को पॉइंट करता है. चूंकि हम वहां जाना चाहते हैं जहां क्रॉस-एंट्रॉपी कम है, इसलिए हम इसके विपरीत दिशा में जाते हैं. हम ग्रेडिएंट के एक अंश के द्वारा वज़न और पूर्वाग्रह अपडेट करते हैं. इसके बाद, हम ट्रेनिंग लूप में, ट्रेनिंग की इमेज और लेबल के अगले बैच का इस्तेमाल करके, इस काम को बार-बार करते हैं. उम्मीद है कि यह ऐसी जगह इकट्ठा होता है जहां क्रॉस-एंट्रॉपी बहुत कम होती है. हालांकि, इस बात की गारंटी नहीं है कि यह कम से कम यूनीक होगा.

ग्रेडिएंट descent2.png

"लर्निंग रेट": हर बार दोहराए जाने पर, ग्रेडिएंट की पूरी लंबाई के हिसाब से अपने वेट और बायस को अपडेट नहीं किया जा सकता. ऐसा लगता है कि सात लीग वाले बूट पहनकर, घाटी के निचले हिस्से में जाने की कोशिश की जा रही है. ऐसा हो सकता है कि आप घाटी के एक से दूसरे हिस्से पर जाएं. सबसे नीचे जाने के लिए, आपको छोटे चरण करने होंगे, यानी कि ग्रेडिएंट के सिर्फ़ एक अंश का इस्तेमाल करना होगा, जो आम तौर पर 1/1000 वाली रेंज में होता है. इस अंश को "शिक्षण दर" कहा जाता है.

मिनी बैचिंग और मोमेंटम

आप सिर्फ़ एक उदाहरण इमेज पर अपने ग्रेडिएंट का हिसाब लगा सकते हैं और महत्व और पक्षपात को तुरंत अपडेट कर सकते हैं, लेकिन उदाहरण के लिए, 128 इमेज के बैच पर ऐसा करने से ग्रेडिएंट मिलता है, जो अलग-अलग उदाहरण वाली इमेज के ज़रिए लागू किए गए कंस्ट्रेंट को बेहतर तरीके से दिखाता है और इससे समाधान ज़्यादा तेज़ी से जुड़ सकता है. मिनी-बैच के साइज़ में बदलाव किया जा सकता है.

इस तकनीक को "स्टोकैस्टिक ग्रेडिएंट डिसेंट" भी कहा जाता है इसका दूसरा और व्यावहारिक फ़ायदा है: बैच के साथ काम करने का मतलब है बड़े मैट्रिक्स पर काम करना. आम तौर पर, इन्हें जीपीयू और टीपीयू पर ऑप्टिमाइज़ करना आसान होता है.

हालांकि, अब भी कुछ गड़बड़ हो सकती है और ग्रेडिएंट वेक्टर के सभी शून्य होने पर यह रुक भी सकता है. क्या इसका मतलब यह है कि हमें कम से कम इतना डेटा मिल गया है? हमेशा नहीं. ग्रेडिएंट कॉम्पोनेंट, कम से कम या ज़्यादा से ज़्यादा शून्य हो सकता है. लाखों तत्वों वाले ग्रेडिएंट वेक्टर के साथ, अगर वे सभी शून्य हैं, तो इस बात की संभावना है कि हर शून्य एक न्यूनतम बिंदु से मेल खाता है और उनमें से कोई भी अधिकतम बिंदु से नहीं जुड़ा है. कई डाइमेंशन के क्षेत्र में, सैडल पॉइंट काफ़ी आम हो गए हैं और हम इन पर ही नहीं रुकना चाहते.

इलस्ट्रेशन: सैडल पॉइंट. ग्रेडिएंट 0 है लेकिन यह सभी दिशाओं में कम से कम नहीं है. (इमेज एट्रिब्यूशन Wikimedia: by Nicoguro - अपना काम, CC BY 3.0)

इसका समाधान है कि ऑप्टिमाइज़ेशन एल्गोरिदम में कुछ चीज़ें जोड़ी जाएं, ताकि यह बिना किसी रुकावट के सैडल पॉइंट से आगे बढ़ सके.

शब्दावली

बैच या मिनी-बैच: ट्रेनिंग, हमेशा ट्रेनिंग डेटा और लेबल के बैच पर की जाती है. ऐसा करने से एल्गोरिदम को एक जैसी चीज़ों के बारे में जानने में मदद मिलती है. "बैच" डाइमेंशन आम तौर पर, डेटा टेंसर का पहला डाइमेंशन होता है. उदाहरण के लिए, आकार के टेंसर [100, 192, 192, 3] में 192x192 पिक्सल की 100 इमेज होती हैं, जिनमें हर पिक्सल (RGB) में तीन वैल्यू होती हैं.

क्रॉस-एंट्रॉपी लॉस: एक खास लॉस फ़ंक्शन जिसका इस्तेमाल अक्सर क्लासिफ़ायर में किया जाता है.

गहन लेयर: न्यूरॉन की एक लेयर, जहां हर न्यूरॉन, पिछली लेयर में मौजूद सभी न्यूरॉन से जुड़ा होता है.

सुविधाएं: न्यूरल नेटवर्क के इनपुट को कभी-कभी "सुविधाएं" कहा जाता है. "फ़ीचर इंजीनियरिंग", यह पता लगाने की कला को "फ़ीचर इंजीनियरिंग" कहा जाता है. इसकी मदद से यह पता लगाया जा सकता है कि बेहतर अनुमान पाने के लिए, न्यूरल नेटवर्क में डेटासेट के किन हिस्सों या हिस्सों के कॉम्बिनेशन को फ़ीड किया जाए.

लेबल: "क्लास" के लिए एक और नाम या निगरानी में रखे गए क्लासिफ़िकेशन की समस्या में दिए गए जवाबों को सही करना

लर्निंग रेट: ग्रेडिएंट का वह हिस्सा जिसके हिसाब से ट्रेनिंग लूप में होने वाली हर प्रोसेस पर वेट और बायस को अपडेट किया जाता है.

logits: ऐक्टिवेशन फ़ंक्शन लागू होने से पहले, न्यूरॉन की एक लेयर के आउटपुट को "लॉगिट" कहा जाता है. यह शब्द "लॉजिस्टिक फ़ंक्शन" से आता है "सिगमॉइड फ़ंक्शन" जो सबसे लोकप्रिय ऐक्टिवेशन फ़ंक्शन हुआ करता था. "लॉजिस्टिक फ़ंक्शन से पहले न्यूरॉन आउटपुट" को छोटा करके "logits" कर दिया गया.

लॉस: गड़बड़ी का फ़ंक्शन, न्यूरल नेटवर्क आउटपुट की तुलना सही जवाबों से करता है

न्यूरॉन: यह अपने इनपुट के भारित योग का आकलन करता है, पूर्वाग्रह जोड़ता है और ऐक्टिवेशन फ़ंक्शन के ज़रिए नतीजे को फ़ीड करता है.

वन-हॉट एन्कोडिंग: 5 में से 3 क्लास को 5 एलिमेंट के वेक्टर के तौर पर एन्कोड किया जाता है. इसमें तीसरे एलिमेंट को छोड़कर, बाकी सभी शून्य होते हैं, यानी कि 1.

relu: सुधारी गई लीनियर यूनिट. न्यूरॉन के लिए एक लोकप्रिय ऐक्टिवेशन फ़ंक्शन.

sigmoid: ऐक्टिवेशन का एक और ऐसा फ़ंक्शन जो पहले लोकप्रिय हुआ था और खास मामलों में अब भी काम का है.

सॉफ़्टमैक्स: यह एक खास ऐक्टिवेशन फ़ंक्शन है, जो वेक्टर पर काम करता है. यह सबसे बड़े कॉम्पोनेंट और बाकी सभी के बीच के अंतर को बढ़ाता है. साथ ही, वेक्टर को 1 का योग करने के लिए नॉर्मलाइज़ करता है, ताकि इसे प्रॉबबिलिटी के वेक्टर के रूप में समझा जा सके. इसका इस्तेमाल क्लासिफ़ायर में आखिरी चरण के तौर पर किया जाता है.

टेन्सर: एक "टेंसर" आव्यूह की तरह होता है, लेकिन डाइमेंशन की संख्या आर्बिट्रेरी होती है. 1-डाइमेंशन वाला टेंसर एक वेक्टर होता है. 2-डाइमेंशन टेंसर एक मैट्रिक्स होता है. इसके बाद, आपके पास 3, 4, 5 या उससे ज़्यादा डाइमेंशन वाले टेंसर हो सकते हैं.

5. चलिए, सीधे कोड के बारे में जानते हैं

स्टडी नोटबुक पर वापस जाएं और इस बार, कोड को पढ़ें.

keras_01_mnist.ipynb

चलिए, इस notebook के सभी सेल देखते हैं.

सेल "पैरामीटर"

बैच का साइज़, ट्रेनिंग की अवधि की संख्या, और डेटा फ़ाइलों की जगह की जानकारी यहां दी गई है. डेटा फ़ाइलें Google Cloud Storage (GCS) बकेट में होस्ट की जाती हैं. इसलिए, उनका पता gs:// से शुरू होता है

सेल "इंपोर्ट"

यहां सभी ज़रूरी Python लाइब्रेरी इंपोर्ट की जाती हैं. इनमें TensorFlow और विज़ुअलाइज़ेशन के लिए matplotlib शामिल है.

सेल "विज़ुअलाइज़ेशन यूटिलिटी [RUN ME]"

इस सेल में ऐसा विज़ुअलाइज़ेशन कोड है जिसमें दिलचस्पी नहीं है. यह डिफ़ॉल्ट रूप से छोटा हो जाता है. हालांकि, जब आपको समय मिले, तब कोड पर दो बार क्लिक करके इसे देखा जा सकता है.

सेल "tf.data.Dataset: फ़ाइलें पार्स करें और ट्रेनिंग और पुष्टि करने वाले डेटासेट तैयार करें"

MNIST डेटासेट को लोड करने के लिए, इस सेल ने tf.data.Dataset API का इस्तेमाल किया है. इससे डेटा फ़ाइलें बनाई जा सकती हैं. इस सेल पर ज़्यादा समय देने की ज़रूरत नहीं है. अगर आपकी tf.data.Dataset API में आपकी दिलचस्पी है, तो यहां एक ट्यूटोरियल दिया गया है. इसमें, इस बारे में जानकारी दी गई है: TPU-स्पीड डेटा पाइपलाइन. फ़िलहाल, बुनियादी बातें ये हैं:

एमएनआईएसटी डेटासेट से ली गई इमेज और लेबल (सही जवाब), चार फ़ाइलों में तय लंबाई के रिकॉर्ड में सेव किए जाते हैं. फ़ाइलों को फ़िक्स्ड रिकॉर्ड फ़ंक्शन के साथ लोड किया जा सकता है:

imagedataset = tf.data.FixedLengthRecordDataset(image_filename, 28*28, header_bytes=16)

अब हमारे पास इमेज बाइट का एक डेटासेट है. उन्हें इमेज में डिकोड करना ज़रूरी है. इसके लिए हम एक फ़ंक्शन तय करते हैं. इमेज को कंप्रेस नहीं किया गया है. इसलिए, फ़ंक्शन को कुछ भी डिकोड करने की ज़रूरत नहीं है (decode_raw बुनियादी तौर पर कुछ नहीं करता). इसके बाद, इमेज को 0 और 1 के बीच के फ़्लोटिंग-पॉइंट वैल्यू में बदल दिया जाता है. हम यहां इसे 2D इमेज के रूप में नया आकार दे सकते हैं. हालांकि, असल में हम इसे 28*28 साइज़ के पिक्सल के सपाट अरे के तौर पर रखते हैं, क्योंकि हमारी शुरुआती सघनता वाली लेयर यही उम्मीद करती है.

def read_image(tf_bytestring):
    image = tf.io.decode_raw(tf_bytestring, tf.uint8)
    image = tf.cast(image, tf.float32)/256.0
    image = tf.reshape(image, [28*28])
    return image

हम .map का इस्तेमाल करके, इस फ़ंक्शन को डेटासेट पर लागू करते हैं और इमेज का डेटासेट हासिल करते हैं:

imagedataset = imagedataset.map(read_image, num_parallel_calls=16)

हम लेबल को एक ही तरह से पढ़ने और डिकोड करने का काम करते हैं और हम इमेज और लेबल को एक साथ .zip करते हैं:

dataset = tf.data.Dataset.zip((imagedataset, labelsdataset))

अब हमारे पास पेयर (इमेज, लेबल) का डेटासेट है. हमारा मॉडल ऐसा ही उम्मीद करता है. हम अभी इसे ट्रेनिंग फ़ंक्शन में इस्तेमाल करने के लिए तैयार नहीं हैं:

dataset = dataset.cache()
dataset = dataset.shuffle(5000, reshuffle_each_iteration=True)
dataset = dataset.repeat()
dataset = dataset.batch(batch_size)
dataset = dataset.prefetch(tf.data.experimental.AUTOTUNE)

tf.data.Dataset API में डेटासेट तैयार करने के लिए सभी ज़रूरी यूटिलिटी फ़ंक्शन मौजूद हैं:

.cache, डेटासेट को रैम में कैश करता है. यह एक छोटा डेटासेट है. इसलिए, यह काम करेगा. .shuffle इसे 5000 एलिमेंट के बफ़र के साथ शफ़ल करता है. यह ज़रूरी है कि ट्रेनिंग डेटा अच्छी तरह से शफ़ल किया जा रहा हो. .repeat, डेटासेट को लूप करता है. हम इस पर कई बार ट्रेनिंग देंगे (कई युगों) .batch की मदद से, कई इमेज और लेबल को मिनी बैच में बनाया जा सकता है. आखिर में, जीपीयू पर मौजूदा बैच को ट्रेनिंग देने के दौरान, .prefetch अगला बैच तैयार करने के लिए, सीपीयू का इस्तेमाल कर सकता है.

पुष्टि करने वाला डेटासेट भी इसी तरह से तैयार किया जाता है. अब हम मॉडल बनाने और इसे ट्रेनिंग देने के लिए, इस डेटासेट का इस्तेमाल करने के लिए तैयार हैं.

सेल "Keras Model"

हमारे सभी मॉडल, लेयर के सीधे क्रम में होंगे, ताकि हम उन्हें बनाने के लिए tf.keras.Sequential स्टाइल का इस्तेमाल कर सकें. शुरुआत में यहां, यह एक सघन लेयर है. इसमें 10 न्यूरॉन हैं, क्योंकि हम हाथ से लिखे अंकों को 10 क्लास में बांट रहे हैं. यह "सॉफ़्टमैक्स" का इस्तेमाल करता है को ऐक्टिवेट करता है, क्योंकि यह क्लासिफ़ायर में आखिरी लेयर है.

Keras मॉडल के इनपुट का आकार जानने की भी ज़रूरत होती है. इसे तय करने के लिए, tf.keras.layers.Input का इस्तेमाल किया जा सकता है. यहां, इनपुट वेक्टर, 28*28 लंबाई वाले पिक्सल वैल्यू वाले फ़्लैट वेक्टर होते हैं.

model = tf.keras.Sequential(
  [
    tf.keras.layers.Input(shape=(28*28,)),
    tf.keras.layers.Dense(10, activation='softmax')
  ])

model.compile(optimizer='sgd',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

# print model layers
model.summary()

# utility callback that displays training curves
plot_training = PlotTraining(sample_rate=10, zoom=1)

मॉडल को कॉन्फ़िगर करने का काम, model.compile फ़ंक्शन का इस्तेमाल करके Keras में किया जाता है. यहां हम बेसिक ऑप्टिमाइज़र 'sgd' (स्टोकेस्टिक ग्रेडिएंट डिससेंट) का इस्तेमाल करते हैं. क्लासिफ़िकेशन मॉडल को क्रॉस-एंट्रॉपी लॉस फ़ंक्शन की ज़रूरत होती है, जिसे Keras में 'categorical_crossentropy' कहा जाता है. आखिर में, हम मॉडल को 'accuracy' मेट्रिक का हिसाब लगाने के लिए कहते हैं, जो कि सही कैटगरी में रखी गई इमेज का प्रतिशत है.

Keras एक बहुत अच्छी model.summary() सुविधा देता है जो आपके बनाए गए मॉडल की जानकारी को प्रिंट करती है. आपके शिक्षक ने PlotTraining सुविधा जोड़ी है. इस सुविधा के बारे में "विज़ुअलाइज़ेशन यूटिलिटी" सेल में बताया गया है. यह ट्रेनिंग के दौरान, अलग-अलग ट्रेनिंग कर्व दिखाएगा.

"मॉडल को ट्रेन करना और उसकी पुष्टि करना" सेल

यहां model.fit को कॉल करके ट्रेनिंग दी जाती है. इसके बाद, ट्रेनिंग और पुष्टि करने वाले डेटासेट, दोनों को पास किया जाता है. डिफ़ॉल्ट रूप से, Keras हर epoch के आखिर में पुष्टि करने का राउंड चलाता है.

model.fit(training_dataset, steps_per_epoch=steps_per_epoch, epochs=EPOCHS,
          validation_data=validation_dataset, validation_steps=1,
          callbacks=[plot_training])

Keras में कॉलबैक का इस्तेमाल करके, ट्रेनिंग के दौरान पसंद के मुताबिक व्यवहार जोड़ा जा सकता है. इस तरह, इस वर्कशॉप के लिए, डाइनैमिक तौर पर अपडेट होने वाले ट्रेनिंग प्लॉट को लागू किया गया था.

"विज़ुअलाइज़ करने के सुझाव" सेल

मॉडल तैयार हो जाने के बाद, हम model.predict() को कॉल करके इसका अनुमान लगा सकते हैं:

probabilities = model.predict(font_digits, steps=1)
predicted_labels = np.argmax(probabilities, axis=1)

यहां हमने टेस्ट के तौर पर, लोकल फ़ॉन्ट से रेंडर किए गए प्रिंट किए गए अंकों का एक सेट तैयार किया है. याद रखें कि न्यूरल नेटवर्क अपने आखिरी "सॉफ़्टमैक्स" से 10 प्रॉबबिलिटी का वेक्टर दिखाता है. लेबल पाने के लिए, हमें यह पता लगाना होगा कि कौनसी संभावना सबसे ज़्यादा है. np.argmax की मदद से ऐसा किया जा सकता है.

यह समझने के लिए कि axis=1 पैरामीटर की ज़रूरत क्यों है, कृपया याद रखें कि हमने 128 इमेज के बैच को प्रोसेस किया है. इसलिए, यह मॉडल प्रॉबबिलिटी के 128 वेक्टर दिखाता है. आउटपुट टेंसर का आकार [128, 10] है. हम हर इमेज के लिए दी गई 10 संभावनाओं के लिए, आर्गमैक्स का हिसाब लगा रहे हैं. इस तरह, axis=1 (पहला ऐक्सिस 0 है).

यह सरल मॉडल पहले से ही 90% अंकों को पहचानता है. अच्छा नहीं है, लेकिन अब आप इसमें काफ़ी सुधार करेंगे.

6. लेयर जोड़ना

हम न्यूरल नेटवर्क में ज़्यादा लेयर जोड़ेंगे, ताकि पहचानने को ज़्यादा सटीक बनाया जा सके.

स्क्रीन शॉट 27-07-2016 को 15.36.55.png पर

हम सॉफ़्टमैक्स को आखिरी लेयर पर ऐक्टिवेशन फ़ंक्शन के तौर पर रखते हैं, क्योंकि डेटा की कैटगरी तय करने के लिए यही सबसे सही तरीका है. हालांकि, इंटरमीडिएट लेयर पर हम सबसे क्लासिकल ऐक्टिवेशन फ़ंक्शन का इस्तेमाल करेंगे: सिगमॉइड:

हैंड्स ऑन:

कृपया "sigmoid" के साथ चालू की गई कुछ इंटरमीडिएट लेयर जोड़ें आपके "सॉफ़्टमैक्स" से पहले लेयर. उनमें न्यूरॉन की संख्या 784 (इनपुट पिक्सल की संख्या) से 10 (आउटपुट न्यूरॉन की संख्या) के बीच कुछ भी हो सकती है. इसके बाद, मॉडल को ट्रेनिंग दें.

चेतावनी: फिर से ट्रेनिंग देने के लिए, आपको "Keras मॉडल" को फिर से चलाना होगा सेल का इस्तेमाल करें, फिर ट्रेनिंग सेल चुनें. ट्रेनिंग सेल को फिर से चलाने से, आपके पिछले मॉडल की ट्रेनिंग जारी रहेगी.

उदाहरण के लिए, आपका मॉडल ऐसा दिख सकता है (कॉमा न भूलें, tf.keras.Sequential कॉमा लगाकर अलग की गई लेयर की सूची लेता है):

model = tf.keras.Sequential(
  [
      tf.keras.layers.Input(shape=(28*28,)),
      tf.keras.layers.Dense(200, activation='sigmoid'),
      tf.keras.layers.Dense(60, activation='sigmoid'),
      tf.keras.layers.Dense(10, activation='softmax')
  ])

"खास जानकारी" देखें मॉडल हो सकता है. अब इसमें कम से कम 10 गुना ज़्यादा पैरामीटर हैं. यह 10 गुना बेहतर होना चाहिए! हालांकि, किसी वजह से ऐसा नहीं होता है ...

ऐसा लगता है कि गला घोड़ा, छत से भी गया है. कुछ गड़बड़ है.

7. डीप नेटवर्क के लिए खास देखभाल

आपको अभी न्यूरल नेटवर्क का अनुभव हुआ है, जैसा कि 80 और 90 के दशक में लोग उन्हें डिज़ाइन करते थे. इसमें कोई हैरानी की बात नहीं है कि तथाकथित "एआई सर्दियों" की शुरुआत करने के बाद, उन्होंने इस विचार को छोड़ दिया. वाकई, जैसे-जैसे लेयर जोड़ी जाती हैं, न्यूरल नेटवर्क में एक जैसी मुश्किलें बढ़ती जाती हैं.

यह बात सच है कि कई लेयर वाले डीप न्यूरल नेटवर्क बहुत अच्छे से काम कर सकते हैं (आज 20, 50, यहां तक कि 100 भी) वे साथ मिलकर काम करने के लिए गणित के कुछ गंदे तरीके उपलब्ध कराते हैं. इन आसान तरीकों की खोज, 2010 के दशक में डीप लर्निंग को फिर से शुरू करने की वजहों में से एक है.

RELU ऐक्टिवेशन

डीप नेटवर्क में, सिगमॉइड ऐक्टिवेशन फ़ंक्शन असल में काफ़ी समस्या पैदा करता है. यह 0 से 1 के बीच की सभी वैल्यू को हटा देता है और जब ऐसा बार-बार किया जाता है, तो न्यूरॉन आउटपुट और उनके ग्रेडिएंट पूरी तरह से गायब हो सकते हैं. इसका ज़िक्र ऐतिहासिक वजहों से किया गया था, लेकिन मॉडर्न नेटवर्क, RELU (रेक्टिफ़ाइड लीनियर यूनिट) का इस्तेमाल करते हैं. यह इस तरह दिखता है:

सिगमॉइड समस्या क्यों होती है? देखो कि यह अलग-अलग तरफ़ कैसे काम करता है: यह सपाट हो जाता है.

इसका मतलब है कि डेरिवेटिव शून्य के करीब है. ग्रेडिएंट का पालन करके याद रखें कि ट्रेनिंग किस तरह आगे बढ़ती है, जो डेरिवेटिव का वेक्टर होता है. सिगमॉइड ऐक्टिवेशन के साथ, खास तौर पर तब, जब कई लेयर हों, ग्रेडिएंट बहुत छोटा हो सकता है और ट्रेनिंग की स्पीड धीमी और धीमी हो सकती है.

दूसरी ओर, रेलू के दाईं ओर 1 का डेरिवेटिव होता है. RELU ऐक्टिवेशन के साथ, भले ही कुछ न्यूरॉन से आने वाले ग्रेडिएंट शून्य हों, लेकिन नॉन-ज़ीरो ग्रेडिएंट देने वाले अन्य लोग हमेशा अच्छी रफ़्तार से जारी रख सकते हैं.

बेहतर ऑप्टिमाइज़र

यहां जैसे बहुत ऊंचे डाइमेंशन वाले स्पेस में — "सैडल पॉइंट", 10 हज़ार वज़न और पक्षपात को ध्यान में रखकर बनाए गए हैं अक्सर होते हैं. ये ऐसे बिंदु होते हैं जो लोकल मिनिमा नहीं होते, लेकिन जहां ग्रेडिएंट फिर भी शून्य होता है और ग्रेडिएंट डिसेंट ऑप्टिमाइज़र वहां रहता है. TensorFlow के पास कई उपलब्ध ऑप्टिमाइज़र मौजूद हैं. इनमें कुछ ऐसे ऑप्टिमाइज़र भी शामिल हैं जो बहुत ज़्यादा इनर्शिया के साथ काम करते हैं और सैडल पॉइंट से आगे सुरक्षित रहते हैं.

किसी भी क्रम में लगाना

ट्रेनिंग से पहले, अलग-अलग मापदंडों के आधार पर भेदभाव न करने का तरीका भी रिसर्च का हिस्सा है. साथ ही, इस विषय पर कई पेपर पब्लिश किए गए हैं. Keras में उपलब्ध सभी शुरू करने वालों को यहां देखा जा सकता है. अच्छी बात यह है कि Keras डिफ़ॉल्ट रूप से सही काम करता है और 'glorot_uniform' शुरू करने वाले टूल का इस्तेमाल करता है, जो करीब सभी मामलों में सबसे बेहतर होता है.

आपको कुछ करने की ज़रूरत नहीं है, क्योंकि Keras पहले से ही सही काम कर रहे हैं.

नैन \

क्रॉस-एंट्रॉपी फ़ॉर्मूला में लॉगारिद्म (लघुगणक) और Log(0) कोई संख्या नहीं है (NaN, अगर आप चाहें तो एक संख्यात्मक क्रैश) है. क्या क्रॉस-एंट्रॉपी का इनपुट 0 हो सकता है? यह इनपुट, सॉफ़्टमैक्स से आता है, जो ज़रूरी तौर पर एक एक्स्पोनेंशियल होता है और एक्सपोनेन्शियल कभी भी शून्य नहीं होता. इसलिए, हम सुरक्षित हैं!

वाकई? गणित की इस सुंदर दुनिया में, हम सुरक्षित रहेंगे, लेकिन कंप्यूटर की दुनिया में, exp(-150), जो float32 प्रारूप में दिखाया जाता है, उतना ही शून्य है जितना इसे मिलता है और क्रॉस-एंट्रॉपी क्रैश हो जाता है.

अच्छी बात यह है कि यहाँ आपको कुछ करने की ज़रूरत नहीं है, क्योंकि Keras इस बात का ध्यान रखता है और क्रॉस-एंट्रॉपी के बाद सॉफ़्टमैक्स को कंप्यूट करता है. ऐसा, अंकों की स्थिरता पक्का करने और खतरनाक NaNs से बचने के लिए किया जाता है.

हो गया?

अब आपका लक्ष्य 97% सही है. इस वर्कशॉप का लक्ष्य 99% से ज़्यादा हासिल करना है, इसलिए आगे बढ़ना जारी रखें.

अगर आपको कोई समस्या आ रही है, तो उसका हल यहां दिया गया है:

keras_02_mnist_dense.ipynb

8. लर्निंग रेट का नुकसान

शायद हम तेज़ी से ट्रेनिंग करने की कोशिश करें? ऐडम ऑप्टिमाइज़र में सीखने की डिफ़ॉल्ट दर 0.001 है. आइए, इसे बढ़ाने की कोशिश करते हैं.

हैंड्स ऑन:

लर्निंग रेट को उसकी डिफ़ॉल्ट वैल्यू 0.001 से बढ़ाकर 0.01 करें. इसके लिए, आपको पहले से तय 'adam' ऑप्टिमाइज़र को ऐडम ऑप्टिमाइज़र के असल इंस्टेंस से बदलना होगा, ताकि आपके पास इसके कॉन्फ़िगरेशन पैरामीटर का ऐक्सेस रहे:

optimizer=tf.keras.optimizers.Adam(lr=0.01)

PlotTraining में, ज़ूम फ़ैक्टर को भी 5 पर सेट करें. यह आपको नुकसान होने पर 0 और सटीक होने पर 1 ज़ूम करता है, ताकि आपको गड़बड़ी का पता चल सके: PlotTraining(sample_rate=10, zoom=5)

ऐसा लगता है कि तेज़ी से आगे बढ़ने से ज़्यादा मदद नहीं मिल रही है और बस इतना ही शोर है?

ट्रेनिंग कर्व में बहुत शोर होता है और वे दोनों पुष्टि करने वाले कर्व को देखते हैं: वे धीरे-धीरे ऊपर-नीचे जा रहे हैं. इसका मतलब है कि हम बहुत तेज़ी से जा रहे हैं. हम अपनी पिछली स्पीड पर वापस जा सकते थे, लेकिन अब एक बेहतर तरीका है.

आवाज़ कम करो

इसका सबसे अच्छा हल यह है कि आप तेज़ी से शुरुआत करें और सीखने की दर में तेज़ी से गिरावट लाएं. Keras में tf.keras.callbacks.LearningRateScheduler कॉलबैक की मदद से ऐसा किया जा सकता है.

कॉपी-पेस्ट करने के लिए उपयोगी कोड:

# lr decay function
def lr_decay(epoch):
  return 0.01 * math.pow(0.6, epoch)

# lr schedule callback
lr_decay_callback = tf.keras.callbacks.LearningRateScheduler(lr_decay, verbose=True)

# important to see what you are doing
plot_learning_rate(lr_decay, EPOCHS)

बनाए गए lr_decay_callback का इस्तेमाल करना न भूलें. इसे model.fit में कॉलबैक की सूची में जोड़ें:

model.fit(...,  callbacks=[plot_training, lr_decay_callback])

यह छोटा सा बदलाव शानदार है. आपको दिख रहा है कि ज़्यादातर गै़र-ज़रूरी चीज़ें हटा दी गई हैं. साथ ही, अब लंबे समय तक 98% से ज़्यादा सटीक जांच हो चुकी है.

9. ड्रॉपआउट, ओवरफ़िटिंग

ऐसा लगता है कि मॉडल अब बेहतर रूप से बदल रहा है. आइए, थोड़ा और समझने की कोशिश करते हैं.

हैंड्स ऑन:

अगर आपने अभी तक ऐसा नहीं किया है, तो कृपया मॉडल की डेप्थ को कम से कम 4 सघन लेयर तक बढ़ाएं और फिर से ट्रेनिंग दें. लेयर में न्यूरॉन की इस संख्या का इस्तेमाल किया जा सकता है: 200, 100, 60, 10.

PlotTraining में, ज़ूम फ़ैक्टर को भी 10 पर सेट करें. यह आपको नुकसान होने पर 0 और सटीक होने पर 1 ज़ूम करता है, ताकि आपको गड़बड़ी का पता चल सके: PlotTraining(sample_rate=10, zoom=10)

क्या इससे मदद मिलेगी?

असल में, सटीक होने की संभावना अब भी 98% पर ही बनी रहती है और पुष्टि करने में होने वाली गड़बड़ियों को देखें. आपकी उम्मीद बढ़ती जा रही है! लर्निंग एल्गोरिदम, सिर्फ़ ट्रेनिंग के डेटा पर काम करता है और उसी हिसाब से ट्रेनिंग में होने वाले नुकसान को ऑप्टिमाइज़ करता है. यह कभी भी पुष्टि करने वाला डेटा नहीं देखता, इसलिए इसमें हैरानी की कोई बात नहीं है कि कुछ समय के बाद इसके काम से पुष्टि न हो पाने पर कोई असर नहीं पड़ता. यह पुष्टि होना बंद हो जाती है और कभी-कभी बैक अप भी चला जाती है.

इससे आपके मॉडल की वास्तविक दुनिया में पहचान करने की क्षमताओं पर तुरंत कोई असर नहीं पड़ता, लेकिन यह आपको कई बार दोहराने से रोक देगा और आम तौर पर इस बात का संकेत है कि अब प्रशिक्षण का सकारात्मक प्रभाव नहीं पड़ रहा है.

इस डिसकनेक्ट को आम तौर पर "ओवरफ़िटिंग" कहा जाता है और जब आपको वह दिखे, तो रेगुलराइज़ेशन तकनीक को लागू करने की कोशिश करें. इस तकनीक को "ड्रॉपआउट" कहते हैं. ड्रॉपआउट तकनीक हर ट्रेनिंग दोहराने पर रैंडम न्यूरॉन को शूट करती है.

ड्रॉपआउट, डीप लर्निंग में रेगुलराइज़ेशन की सबसे पुरानी तकनीकों में से एक है. हर ट्रेनिंग के दौरान, यह प्रॉबबिलिटी p (आम तौर पर 25% से 50%) के साथ नेटवर्क से रैंडम न्यूरॉन को हटा देता है. व्यावहारिक तौर पर, न्यूरॉन आउटपुट शून्य पर सेट होता है. कुल नतीजा यह है कि इस बार ये न्यूरॉन, लॉस कंप्यूटेशन में हिस्सा नहीं लेंगे और उन्हें वज़न की जानकारी नहीं मिलेगी. हर ट्रेनिंग के दौरान अलग-अलग न्यूरॉन भेजे जाएंगे.

La8YMod1QGZtaDyYw1EjKpj5UbD1TFPpDMOjObk0o8Y_QQVtxIrPKlFkT63cWwElgko1D03UuaRFyDQ-xHgyr5P99k0J5Lsxec6HC9BHRFYyqb8whYD6LJjlyoBA5aZDQ84z-UfVNA

अपने नेटवर्क की परफ़ॉर्मेंस की जांच करते समय, सभी न्यूरॉन को वापस लाया जाता है (ड्रॉपआउट दर=0). Keras अपने-आप यह काम करता है. इसलिए, आपको बस एक tf.keras.layers.Dropout लेयर जोड़ना होगा. यह ट्रेनिंग के दौरान और आकलन के समय अपने-आप सही होगा.

यह सुविधा क्यों काम करती है ? सिद्धांत यह है कि न्यूरल नेटवर्क अपनी कई परतों के बीच इतना स्वतंत्रता रखते हैं कि किसी परत के खराब व्यवहार का विकास करना और अगली परत की भरपाई करना पूरी तरह से संभव है. यह न्यूरॉन का सही इस्तेमाल नहीं है. सर्वे बीच में छोड़ने पर, इस बात की संभावना बहुत ज़्यादा होती है कि न्यूरॉन "ठीक हो जाएगा" समस्या दी गई ट्रेनिंग राउंड में तो नहीं है. आपत्तिजनक लेयर की खराब परफ़ॉर्मेंस साफ़ तौर पर दिखने लगती है और उसका असर बेहतर होता जाता है.

क्या इसने काम किया?

शोर दोबारा दिखने लगता है (इस पर हैरानी की बात नहीं है कि ड्रॉपआउट कैसे काम करता है). ऐसा नहीं लगता कि पुष्टि की प्रोसेस आगे बढ़ रही है. हालांकि, यह संख्या पिछले 9 से 15 साल के बीच हुई है. साथ ही, पुष्टि करने की प्रोसेस थोड़ी कम हो गई है. यह बहुत ही निराशाजनक नतीजा है.

ऐसा लगता है कि ड्रॉप-आउट सही समाधान नहीं था या शायद "ओवरफ़िटिंग" हो रही थी ज़्यादा जटिल सिद्धांत है और इसकी कुछ वजहें "ड्रॉपआउट" के तौर पर स्वीकार नहीं की जा सकतीं ठीक करें?

"ओवरफ़िटिंग" क्या है? ओवरफ़िटिंग तब होती है, जब न्यूरल नेटवर्क "खराब तरीके से" सीखने में मदद करता है. यह ट्रेनिंग के उदाहरणों के लिए सही तरीके से काम करता है, लेकिन असल दुनिया के डेटा के मामले में ऐसा नहीं होता. नियमित तौर पर कुछ करने की कुछ तकनीकें हैं, जैसे कि ड्रॉप-आउट

बेसिक ओवरफ़िटिंग तब होती है, जब समस्या के लिए न्यूरल नेटवर्क में बहुत ज़्यादा इंडिपेंडेंट नेटवर्क होते हैं. कल्पना करें कि हमारे पास इतने सारे न्यूरॉन हैं कि नेटवर्क उनमें हमारी सभी ट्रेनिंग इमेज स्टोर कर सकता है और फिर पैटर्न मैचिंग की मदद से उनकी पहचान कर सकता है. यह कोड असल दुनिया के डेटा के साथ पूरी तरह से काम नहीं कर पाएगा. न्यूरल नेटवर्क कुछ हद तक सीमित होना चाहिए, ताकि वह ट्रेनिंग के दौरान सीखी जाने वाली चीज़ों को सामान्य तरीके से पेश कर सके.

अगर आपके पास ट्रेनिंग का बहुत कम डेटा है, तो एक छोटा नेटवर्क भी इसे पूरी तरह समझ सकता है और आपको "ओवरफ़िट हो रहा है" दिखेगा. आम तौर पर, न्यूरल नेटवर्क को ट्रेनिंग देने के लिए, आपको हमेशा बहुत सारे डेटा की ज़रूरत होती है.

अंत में, अगर आपने किताब के मुताबिक सब कुछ कर लिया है, तो अलग-अलग साइज़ के नेटवर्क के साथ प्रयोग करके यह पक्का किया है कि उसकी आज़ादी के स्तर सीमित हैं, उसे बीच में ही छोड़ दिया गया है, और बहुत सारे डेटा के लिए ट्रेन किया गया है. शायद आप अब भी उस परफ़ॉर्मेंस के स्तर पर अटक जाएं जिसे बेहतर बनाने की कोई उम्मीद नहीं है. इसका मतलब है कि आपका न्यूरल नेटवर्क अपने मौजूदा आकार में, आपके डेटा से ज़्यादा जानकारी नहीं निकाल सकता, जैसा कि हमारे मामले में है.

याद है कि हम किसी एक वेक्टर में अपनी इमेज का इस्तेमाल कैसे करते हैं? यह सच में बहुत बुरा आइडिया था. हाथ से लिखे गए अंक आकारों से बने होते हैं और पिक्सल को फ़्लैट करते समय हमने आकार की जानकारी को छोड़ दिया. हालांकि, एक ऐसा न्यूरल नेटवर्क है जो आकार की जानकारी का फ़ायदा ले सकता है: कॉन्वलूशनल नेटवर्क. आइए उन्हें आज़माने दें.

अगर आपको कोई समस्या आ रही है, तो उसका हल यहां दिया गया है:

keras_03_mnist_dense_lrdecay_dropout.ipynb

10. [INFO] कॉन्वोलूशनल नेटवर्क

कम शब्दों में

अगर अगले पैराग्राफ़ में बोल्ड में दिए गए सभी शब्द पहले से ही आपके बारे में हैं, तो अगले अभ्यास पर जाएं. अगर आपने कॉन्वलूशनल न्यूरल नेटवर्क के साथ शुरुआत ही की है, तो कृपया आगे पढ़ें.

इलस्ट्रेशन: किसी इमेज को 4x4x3=48 सीखने लायक वज़न से बने दो फ़िल्टर के साथ फ़िल्टर करना.

कॉन्वोलूशनल न्यूरल नेटवर्क इनपुट इमेज में सीखने लायक फ़िल्टर की सीरीज़ लागू करते हैं. कॉन्वोलूशनल लेयर को फ़िल्टर (या कर्नेल) के साइज़, लगाए गए फ़िल्टर की संख्या, और स्ट्राइड से तय किया जाता है. कॉन्वोलूशनल लेयर के इनपुट और आउटपुट, हर एक में तीन डाइमेंशन (चौड़ाई, ऊंचाई, चैनलों की संख्या) होते हैं. इसकी शुरुआत इनपुट इमेज (चौड़ाई, ऊंचाई, आरजीबी चैनल) से होती है. कॉन्वोलूशनल लेयर को स्टैक करते समय, आउटपुट की चौड़ाई और ऊंचाई को स्ट्राइड >1 का इस्तेमाल करके या मैक्स-पूलिंग ऑपरेशन की मदद से किया जा सकता है. आउटपुट की डेप्थ (चैनलों की संख्या) में ज़्यादा या कम फ़िल्टर का इस्तेमाल करके बदलाव किया जाता है.

Keras में ऐसा सिंपल कॉन्वलूशन न्यूरल नेटवर्क दिखता है:

model = tf.keras.Sequential([
    tf.keras.layers.Reshape(input_shape=(28*28,), target_shape=(28, 28, 1)),
    tf.keras.layers.Conv2D(kernel_size=3, filters=12, activation='relu'),
    tf.keras.layers.Conv2D(kernel_size=6, filters=24, strides=2, activation='relu'),
    tf.keras.layers.Conv2D(kernel_size=6, filters=32, strides=2, activation='relu'),
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(10, activation='softmax')
])

कॉन्वलूशनल नेटवर्क की लेयर में, एक "न्यूरॉन" सिर्फ़ इमेज के छोटे से क्षेत्र में, इसके ठीक ऊपर पिक्सल का वेटेड योग करता है. यह पूर्वाग्रह जोड़ता है और ऐक्टिवेशन फ़ंक्शन के ज़रिए योग को फ़ीड करता है, जैसा कि किसी नियमित सघन परत में मौजूद न्यूरॉन करता है. फिर यह कार्रवाई एक ही वेट का इस्तेमाल करके पूरी इमेज में दोहराई जाती है. याद रखें कि घनी लेयर में, हर एक न्यूरॉन का अपना वज़न होता है. यहाँ, एक "पैच" दोनों दिशाओं में इमेज पर वज़न की स्लाइड (एक "संकलन") का इस्तेमाल करें. आउटपुट में उतनी वैल्यू होती हैं जितनी इमेज में पिक्सल होती हैं. हालांकि, किनारों पर कुछ पैडिंग (जगह) ज़रूरी है. यह एक फ़िल्टर करने की कार्रवाई है. ऊपर दिए गए उदाहरण में, 4x4x3=48 मोटाई वाले फ़िल्टर का इस्तेमाल किया गया है.

हालांकि, 48 भार काफ़ी नहीं होंगे. ज़्यादा आज़ादी की कार्रवाई जोड़ने के लिए, हम इसी कार्रवाई को एक नए सेट के साथ दोहराते हैं. इससे, फ़िल्टर आउटपुट का एक नया सेट बनता है. इसे "चैनल" कहते हैं आउटपुट के लिए, इनपुट इमेज में R,G,B चैनल से जुड़े हैं.

Screen Shot 2016-07-29: 16.02.37.png

कोई नया डाइमेंशन जोड़कर, वज़न के दो या उससे ज़्यादा सेट को एक टेंसर के तौर पर जोड़ा जा सकता है. इससे हमें कॉन्वलूशन लेयर के लिए, वेट टेंसर का सामान्य आकार मिलता है. इनपुट और आउटपुट चैनल की संख्या पैरामीटर हैं. इसलिए, हम कॉन्वोलूशनल लेयर को स्टैक और चेन करना शुरू कर सकते हैं.

इलस्ट्रेशन: कॉन्वलूशनल न्यूरल नेटवर्क, "क्यूब्स" को बदल देता है डेटा को दूसरे "क्यूब" में बदल देते हैं का डेटा इस्तेमाल किया जाता है.

स्टैंडेड कॉन्वोलूशन, ज़्यादा से ज़्यादा पूल करना

2 या 3 की चाल के साथ कन्वर्ज़न करने पर, हम मिलने वाले डेटा क्यूब को हॉरिज़ॉन्टल डाइमेंशन में छोटा भी कर सकते हैं. इसे करने के दो सामान्य तरीके हैं:

स्ट्राइड कनवलूशन: ऊपर की तरह स्लाइडिंग फ़िल्टर, लेकिन स्ट्राइड >1 के साथ
अधिकतम पूलिंग: MAX ऑपरेशन लागू करने वाली स्लाइड करने वाली विंडो (आम तौर पर 2x2 पैच पर, हर 2 पिक्सेल में दोहराया जाता है)

इलस्ट्रेशन: कंप्यूटिंग विंडो को तीन पिक्सल स्लाइड करने से आउटपुट वैल्यू कम हो जाती हैं. स्ट्राइड्ड कन्वर्ज़न या मैक्स पूलिंग, हॉरिज़ॉन्टल डाइमेंशन में डेटा क्यूब को छोटा करने का एक तरीका है. मैक्स पूलिंग का मतलब है कि विंडो को 2x2 वाली विंडो के एक हिस्से से दूसरे बार स्लाइड करना होगा.

"मैक्स-पूलिंग" यह समझने में हमारी मदद कर सकता है कि कॉन्वलूशनल नेटवर्क कैसे काम करते हैं: अगर ट्रेनिंग के दौरान, वेट के पैच ऐसे फ़िल्टर में बदल जाते हैं जो बुनियादी आकारों (हॉरिज़ॉन्टल और वर्टिकल लाइन, कर्व, ...) की पहचान करते हैं, तो काम की जानकारी को लेयर के ज़रिए हम तक पहुंचा देते हैं. इससे आउटपुट की सबसे ज़्यादा इंटेंसिटी के साथ शेप की पहचान की जाती है. व्यावहारिक तौर पर, मैक्स-पूल लेयर न्यूरॉन आउटपुट में, 2x2 के ग्रुप में प्रोसेस किया जाता है और सिर्फ़ सबसे बड़ी वैल्यू ही रखी जाती है.

आखिरी लेयर

आखिरी कॉन्वोलूशन लेयर के बाद, डेटा "क्यूब" के रूप में होता है. इस आखिरी लेयर में इसे दो तरीकों से फ़ीड किया जा सकता है.

पहला तरीका है, डेटा के क्यूब को किसी वेक्टर में फ़्लैट करना और फिर उसे सॉफ़्टमैक्स लेयर में फ़ीड करना. कभी-कभी, सॉफ़्टमैक्स लेयर से पहले, सघन लेयर भी जोड़ी जा सकती है. वज़न की संख्या के हिसाब से यह महंगा लग रहा है. कॉन्वलूशनल नेटवर्क के आखिर में एक सघन लेयर में, पूरे न्यूरल नेटवर्क का वज़न आधा हो सकता है.

एक महंगी लेयर का इस्तेमाल करने के बजाय, हम आने वाले डेटा "क्यूब" को भी अलग-अलग कर सकते हैं डेटा को कई हिस्सों में बांटा जा सकता है. साथ ही, उसकी वैल्यू का औसत किया जा सकता है और सॉफ़्टमैक्स ऐक्टिवेशन फ़ंक्शन की मदद से उन्हें फ़ीड किया जा सकता है. क्लासिफ़िकेशन हेड बनाने के इस तरीके में कोई वज़न नहीं होगा. Keras में, इसके लिए एक लेयर है: tf.keras.layers.GlobalAveragePooling2D().

कॉन्वोलूशनल न्यूरल नेटवर्क, चीज़ों की लोकेशन का पता लगाते हैं. जब कोई फ़िल्टर किसी सुविधा का पूरी तरह से जवाब देता है, तो वह ऐसा एक खास (x, y) जगह पर करता है. आप क्या करना चाहते हैं, इसके आधार पर न्यूरल नेटवर्क को इस जगह की जानकारी के डेटा को इस्तेमाल करने या खारिज करने के लिए ट्रेनिंग दी जा सकती है. ग्लोबल ऐवरेज पूलिंग का इस्तेमाल करने से, जगह की जानकारी का पूरा डेटा साफ़ तौर पर खारिज हो जाता है. यह फूलों की कैटगरी तय करने वाले टूल के लिए ठीक हो सकता है. हालांकि, यह शायद दूसरे कामों के लिए काम न करे, जैसे कि इमेज में फूलों की गिनती करना. डिवाइस का इस्तेमाल सावधानी से करें.

अगले सेक्शन पर जाएं और अपनी समस्या से जुड़ा एक कॉन्वोलूशनल नेटवर्क बनाएं.

11. कॉन्वोलूशनल नेटवर्क

हमें हाथ से लिखे अंकों की पहचान के लिए कॉन्वोलूशनल नेटवर्क बनाने दें. हम सबसे ऊपर तीन कॉन्वोल्यूशन लेयर का इस्तेमाल करेंगे. सबसे नीचे दी गई हमारी परंपरागत सॉफ़्टमैक्स रीडआउट लेयर और उन्हें पूरी तरह से कनेक्ट की गई एक लेयर से कनेक्ट करेगा:

ध्यान दें कि दूसरी और तीसरी कॉन्वोल्यूशन लेयर में स्ट्राड की दो लाइन होती हैं. इसकी वजह से यह पता चलता है कि वे आउटपुट वैल्यू की संख्या को 28x28 से कम करके 14x14 और फिर 7x7 क्यों करती हैं.

चलिए, Keras कोड लिखते हैं.

पहली कॉन्वलूशनल लेयर से पहले, खास ध्यान देने की ज़रूरत होती है. वाकई, इसे 3D 'क्यूब' की उम्मीद है हालाँकि, हमारे डेटासेट को अब तक सघन लेयर के लिए सेट अप किया गया है और इमेज के सभी पिक्सल वेक्टर में फ़्लैट कर दिए गए हैं. हमें उन्हें 28x28x1 इमेज में फिर से आकार देना होगा (ग्रेस्केल इमेज के लिए 1 चैनल):

tf.keras.layers.Reshape(input_shape=(28*28,), target_shape=(28, 28, 1))

अभी तक आपके पास मौजूद tf.keras.layers.Input लेयर के बजाय, इस लाइन का इस्तेमाल किया जा सकता है.

Keras में, 'relu'-चालू कॉन्वलूशनल लेयर के लिए सिंटैक्स है:

tf.keras.layers.Conv2D(kernel_size=3, filters=12, padding='same', activation='relu')

अलग-अलग पहलुओं की समस्या से बचने के लिए, आपको यह लिखना होगा:

tf.keras.layers.Conv2D(kernel_size=6, filters=24, padding='same', activation='relu', strides=2)

डेटा के किसी घन को सदिश (वेक्टर) में फ़्लैट करने के लिए, ताकि उसे सघन परत के ज़रिए इस्तेमाल किया जा सके:

tf.keras.layers.Flatten()

और सघन लेयर के लिए, सिंटैक्स में बदलाव नहीं हुआ है:

tf.keras.layers.Dense(200, activation='relu')

हैंड्स ऑन:

अपने मॉडल को कॉन्वलूशनल मॉडल में बदलने के लिए उसमें बदलाव करें. इसे साइज़ देने के लिए, ऊपर मौजूद ड्रॉइंग में दी गई वैल्यू का इस्तेमाल किया जा सकता है. लर्निंग रेट में गिरावट बनी रहेगी. हालांकि, ऐसी स्थिति में कृपया खाता छोड़ने की दर को हटाएं.

PlotTraining में, ज़ूम फ़ैक्टर को भी 16 पर सेट करें. यह आपको नुकसान होने पर 0 और सटीक होने पर 1 ज़ूम करता है, ताकि आपको गड़बड़ी का पता चल सके: PlotTraining(sample_rate=10, zoom=16)

क्या आपके मॉडल ने 99% सटीक जानकारी वाली रुकावट को तोड़ा? काफ़ी पास... लेकिन पुष्टि करने में होने वाले नुकसान का कर्व देखें. क्या यह घंटी बजती है?

अनुमानों पर भी नज़र डालें. पहली बार, आपको दिखेगा कि ज़्यादातर 10,000 टेस्ट अंकों की अब सही पहचान हो चुकी है. डेटा की गलत पहचान करने वाली लाइन में से करीब 41⁄2 लाइनें बची हैं (10,000 में से करीब 110 अंक)

अगर आपको कोई समस्या आ रही है, तो उसका हल यहां दिया गया है:

keras_04_mnist_convolutional.ipynb

12. फिर से ड्रॉप आउट किया गया

पिछली ट्रेनिंग में ओवरफ़िटिंग के साफ़ लक्षण नज़र आए थे (और अभी भी 99% सटीक नहीं है). क्या हमें परीक्षा छोड़ने की फिर से कोशिश करनी चाहिए?

हैंड्स ऑन:

अपने नेटवर्क में दो सघन लेयर के बीच ड्रॉपआउट लेयर जोड़ें. 40% (=0.4) की ड्रॉपआउट दर का इस्तेमाल करें:

tf.keras.layers.Dropout(0.4)

कॉन्वोलूशनल लेयर पर ड्रॉपआउट लागू किया जा सकता है, लेकिन यह थोड़ा अलग तरीके से काम करता है. आम तौर पर, यह उतना असरदार नहीं होता, क्योंकि कॉन्वलूशनल लेयर में कम वेट होता है. इस वजह से, साथ मिलकर गलत तरीके से लागू होने की संभावना कम हो जाती है. हम इसके बारे में नहीं जानेंगे.

इस बार आपका अनुभव कैसा रहा?

ऐसा लगता है कि इस बार क्लास छोड़ने वाले लोगों ने काम किया. अब पुष्टि करने की प्रोसेस आगे नहीं बढ़ रही है और आखिर में ज़्यादा सटीक होने की संभावना 99% से ज़्यादा होनी चाहिए. बधाई हो!

जब पहली बार हमने ड्रॉपआउट लागू करने की कोशिश की, तो हमें लगा कि हम बहुत ज़्यादा बड़ी समस्या का सामना कर रहे हैं, जबकि असल में समस्या न्यूरल नेटवर्क की आर्किटेक्चर में थी. हम कॉन्वलूशनल लेयर के बिना और आगे नहीं बढ़ सकते. साथ ही, हम इस बारे में कुछ नहीं कर सकते.

इस बार, ऐसा लगता है कि ज़्यादा कसरत करना समस्या की वजह थी और स्कूल को बीच में छोड़ने वाले लोगों ने वाकई मदद की. याद रखें कि ऐसी कई चीज़ें हैं जिनकी वजह से, ट्रेनिंग और पुष्टि में अंतर आने की कई वजहें हो सकती हैं और पुष्टि करने की प्रोसेस में समय से ज़्यादा कमी आ सकती है. ओवरफ़िटिंग (बहुत ज़्यादा आज़ादी, जिसका नेटवर्क खराब तरीके से इस्तेमाल करता है) इनमें से एक है. अगर आपका डेटासेट बहुत छोटा है या आपके न्यूरल नेटवर्क का आर्किटेक्चर काफ़ी नहीं है, तो आपको लॉस कर्व पर ऐसा ही व्यवहार दिख सकता है. हालांकि, ड्रॉप-आउट से आपको मदद नहीं मिलेगी.

13. बैच नॉर्मलाइज़ेशन

oggEbikl2I6_sOo7FlaX2KLdNeaYhJnVSS8GyG8FHXid75PVJX73CRiOynwpMZpLZq6_xAy69wgyez5T-ZlpuC2XSlcmjk7oVcOzefKKTFhTEoLO3kljz2RDyKcaFtHvtTey-I4VpQ

आखिर में, बैच नॉर्मलाइज़ेशन जोड़ने की कोशिश करते हैं.

बैच नॉर्मलाइज़ेशन क्या है?

संक्षेप में, बैच मानदंड इस समस्या को हल करने की कोशिश करता है कि न्यूरॉन आउटपुट, न्यूरॉन के ऐक्टिवेशन फ़ंक्शन के सापेक्ष कैसे वितरित होते हैं. ऐक्टिवेशन से पहले, ट्रेनिंग डेटा के मिनी-बैच में, न्यूरॉन आउटपुट के ये डिस्ट्रिब्यूशन हो सकते हैं:

zmr3jO6E-N5hGCeor77HnMAv4mLn4XM4wHnVFGBkdXg_An-zc98Elxx5WpyzizAxl6s1uf6WY246mUjosC8bR75lf2MELcLPRT_StiNWZ3CCnQj4KMyu7dgv__PHLaHoKoQ71waRyQ

बहुत बाईं ओर, सिगमॉइड चालू करने के बाद, यह न्यूरॉन आम तौर पर हमेशा 0 आउटपुट देता है.

elT17KcIiCOqDJ6qhIJv4Szn6UNA0x-Rgt5S04msp4ge6mRWaD-SKp0ks9bnEl-bbYc_NGfzL77c9CGxneE23jaY5BLsLo0JP63lIMTygBK3LQAFYNJv64qDgkaIEVnhuiAZwBlkmQ

बहुत कम होने की वजह से, इस न्यूरॉन की वैल्यू कभी भी 0 या 1 नहीं होती.

10YpnDuAXOuDbBFhR0YzIL9tko_9JcACgBZI_gq7lKE1qCDeRr75b4pcJv5Ucl6GQqcmk9Vv_2z8lo8qv2X6l139v5T0yhgxHKhwDyEBC5sq7PbAcfjXBdj7Z02trb5pl22wzZE9hQ

यह बहुत खराब नहीं है. इन मिनी-बैच में न्यूरॉन का व्यवहार काफ़ी हद तक अलग-अलग होता है.

इसे ठीक करने के लिए, बैच मानदंड, डेटा के एक ट्रेनिंग बैच में न्यूरॉन आउटपुट को नॉर्मलाइज़ करता है.इसका मतलब है कि यह औसत को घटाता है और मानक विचलन से भाग देता है. हालांकि, ऐसा करना भी बहुत खतरनाक होगा. हर जगह पूरी तरह से केंद्रित और सामान्य रूप से व्यापक वितरण के साथ, सभी न्यूरॉन का एक जैसा व्यवहार होगा. यह चाल प्रति न्यूरॉन, Alpha और χ, और गणना करने के लिए, दो अतिरिक्त सीखने लायक पैरामीटर पेश करना है:

Alpha . नॉर्मलाइज़ की गई_आउट + गड़बड़ी

और फिर ऐक्टिवेशन फ़ंक्शन (sigmoid, relu, ...) लागू करें. इस तरह, नेटवर्क मशीन लर्निंग के ज़रिए यह तय करता है कि हर न्यूरॉन पर कितना सेंटरिंग और रीस्केलिंग लागू करना है. इसे पढ़ने वालों के लिए एक कसरत के तौर पर रखा जाता है, ताकि इसकी वैल्यू से यह पुष्टि की जा सके कि फ़ायदा पाने और गड़बड़ी की वैल्यू मौजूद हैं. अगर ऐसा करना सही है, तो नॉर्मलाइज़ेशन को पूरी तरह से हटाया जा सकता है.

व्यावहारिक रूप से, वेद और सूचक, दोनों की हमेशा ज़रूरत नहीं होती है. Keras में, इन्हें "स्केल" कहा जाता है और "बीच में" और अपने हिसाब से इनमें से किसी एक का इस्तेमाल किया जा सकता है, उदाहरण के लिए:

tf.keras.layers.BatchNormalization(scale=False, center=True)

बैच मानदंड के साथ समस्या यह है कि पूर्वानुमान के समय, आपके पास प्रशिक्षण बैच नहीं हैं जिन पर आप अपने न्यूरॉन आउटपुट के आंकड़ों की गणना कर सकें. लेकिन आपको उन वैल्यू की अब भी ज़रूरत है. यह हिस्सा थोड़ा हैरानी भरा है. ट्रेनिंग के दौरान, "सामान्य" न्यूरॉन आउटपुट औसत और मानक विचलन की गणना "पर्याप्त" के आधार पर की जाती है बैच की संख्या, व्यावहारिक रूप से चल रहे चर घातांकी औसत का उपयोग करते हुए. इसके बाद, इन आंकड़ों का इस्तेमाल अनुमान के समय किया जाता है.

अच्छी खबर यह है कि Keras में tf.keras.layers.BatchNormalization लेयर का इस्तेमाल किया जा सकता है और यह सारा काम अपने-आप हो जाएगा.

यही सिद्धांत है, व्यावहारिक रूप से, बस कुछ नियमों को याद रखें:

"किताब के हिसाब से बैच" नियम:

बैच नॉर्मलाइज़ेशन, लेयर के आउटपुट और उसके ऐक्टिवेशन फ़ंक्शन के बीच होता है.
अगर बैच मानदंड में center=True का इस्तेमाल किया जाता है, तो आपको अपनी लेयर में पक्षपात की ज़रूरत नहीं है. बैच नॉर्म ऑफ़सेट एक बायस की भूमिका निभाता है.
अगर किसी ऐसे ऐक्टिवेशन फ़ंक्शन का इस्तेमाल किया जाता है जो स्केल-इनवैरिएंट है, यानी कि ज़ूम करने पर इसका आकार नहीं बदलता है, तो scale=False को सेट किया जा सकता है. Relu स्केल-इनवैरिएंट है. सिगमॉइड नहीं है.

हालांकि, यही सिद्धांत है कि इन नियमों को तोड़ने का फ़ैसला बुरा है या नहीं, इसका पता लगाने का यही एक तरीका है.

फ़िलहाल, किताब के हिसाब से कॉन्टेंट चलाएं और हर न्यूरल नेटवर्क लेयर पर बैच नॉर्म लेयर जोड़ें, लेकिन आखिरी लेयर. इसे आखिरी "सॉफ़्टमैक्स" में न जोड़ें लेयर. यह वहां उपयोगी नहीं होगा.

# Modify each layer: remove the activation from the layer itself.
# Set use_bias=False since batch norm will play the role of biases.
tf.keras.layers.Conv2D(..., use_bias=False),
# Batch norm goes between the layer and its activation.
# The scale factor can be turned off for Relu activation.
tf.keras.layers.BatchNormalization(scale=False, center=True),
# Finish with the activation.
tf.keras.layers.Activation('relu'),

अब वीडियो कितना सटीक है?

थोड़े-बहुत ट्वीट करके (BATCH_SIZE=64, लर्निंग रेट डिके पैरामीटर 0.666, सघन लेयर 0.3 पर ड्रॉपआउट रेट) और किस्मत की थोड़ी कोशिश करके, आप 99.5% तक पहुंच सकते हैं. लर्निंग रेट और स्कूल छोड़ने वाले लोगों की संख्या में बदलाव, "सबसे सही तरीकों" का पालन करके किए गए बैच मानदंड का इस्तेमाल करने के लिए:

बैच मानदंड की मदद से, न्यूरल नेटवर्क को आपस में कनेक्ट करने में मदद मिलती है. साथ ही, आम तौर पर इसकी मदद से ज़्यादा तेज़ी से ट्रेनिंग की जा सकती है.
बैच मानदंड एक रेगुलराइज़र है. आम तौर पर, स्कूल बीच में छोड़ने वाले लोगों की संख्या को कम किया जा सकता है या ज़रूरत पड़ने पर बिलकुल भी उनका इस्तेमाल नहीं किया जा सकता.

सलूशन नोटबुक में 99.5% ट्रेनिंग रन है:

keras_05_mnist_batch_norm.ipynb

14. बेहतरीन हार्डवेयर: AI Platform की मदद से, क्लाउड में ट्रेनिंग लें

आपको GitHub पर mlengine फ़ोल्डर में कोड का क्लाउड-रेडी वर्शन मिलेगा. साथ ही, आपको Google Cloud AI Platform पर कोड चलाने के निर्देश भी मिलेंगे. इस हिस्से को चलाने से पहले, आपको Google Cloud खाता बनाना होगा और बिलिंग की सुविधा चालू करनी होगी. लैब को पूरा करने के लिए ज़रूरी संसाधन कुछ डॉलर से कम होने चाहिए. यह मानते हुए कि एक जीपीयू पर ट्रेनिंग का समय एक घंटा है. अपना खाता तैयार करने के लिए:

Google Cloud Platform प्रोजेक्ट बनाएं ( http://cloud.google.com/console).
बिलिंग चालू करें.
GCP कमांड लाइन टूल इंस्टॉल करें ( GCP SDK यहां देखें).
Google Cloud Storage बकेट बनाएं (us-central1 क्षेत्र में डाला गया). इसका इस्तेमाल, ट्रेनिंग कोड को स्टेज करने और आपके प्रशिक्षित मॉडल को स्टोर करने के लिए किया जाएगा.
ज़रूरी एपीआई चालू करें और ज़रूरी कोटा पाने का अनुरोध करें (ट्रेनिंग कमांड को एक बार चलाएं. इससे आपको गड़बड़ी के मैसेज मिलेंगे, जिनमें बताया जाएगा कि क्या चालू करना है).

15. बधाई हो!

आपने अपना पहला न्यूरल नेटवर्क बना लिया है और इसे 99% सटीक बनाने की ट्रेनिंग दी है. इस दौरान सीखी गई तकनीकें, MNIST डेटासेट के लिए खास नहीं हैं. असल में, न्यूरल नेटवर्क के साथ काम करते समय इन तकनीकों का इस्तेमाल बड़े पैमाने पर किया जाता है. अलग-अलग उपहार के तौर पर, ये रहे "क्लिफ़ के नोट" लैब के लिए एक कार्ड है. इसका इस्तेमाल यह याद रखने के लिए किया जा सकता है कि आपने क्या सीखा:

क्लिफ़ के नोट tensorflow lab.png

अगले चरण

पूरी तरह से कनेक्ट और कॉन्वोलूशनल नेटवर्क के बाद, आपको बार-बार चलने वाले न्यूरल नेटवर्क पर नज़र डालना चाहिए.
डिस्ट्रिब्यूट किए गए इन्फ़्रास्ट्रक्चर पर क्लाउड में आपकी ट्रेनिंग या अनुमान लगाने के लिए, Google Cloud एआई प्लैटफ़ॉर्म उपलब्ध कराता है.
आखिर में, हमें सुझाव, राय या शिकायत ज़रूर भेजें. अगर आपको इस लैब में कोई गड़बड़ी दिखती है या आपको लगता है कि इसमें सुधार किया जाना चाहिए, तो कृपया हमें बताएं. हम GitHub से जुड़ी समस्याओं के ज़रिए सुझाव, शिकायत या राय मैनेज करते हैं [ feedback link].

मार्टिन गॉर्नर आईडी छोटा.jpg लेखक: मार्टिन गॉर्नरTwitter: @martin_gorner

इस लैब कॉपीराइट में मौजूद सभी कार्टून इमेज: alexpokusay / 123RF स्टॉक फ़ोटो

गलती की शिकायत करें

TensorFlow, Keras, और डीप लर्निंग, लेकिन पीएचडी के बिना

इस कोडलैब (कोड बनाना सीखने के लिए ट्यूटोरियल) के बारे में जानकारी

आप इन चीज़ों के बारे में जानेंगे

आपको इनकी ज़रूरत होगी

सुझाव, राय या शिकायत

जीपीयू बैकएंड चुनें

नोटबुक चलाना

विषय सूची

छिपे हुए सेल

ट्रेनिंग के लिए डेटा

ट्रेनिंग

अनुमान

सेंसर

कम शब्दों में

एक सघन परत

आव्यूहों के गुणा किए जाने पर

Keras में

ज़्यादा जानें

ऐक्टिवेशन फ़ंक्शन: relu, softmax, और sigmoid

कैटगरी तय करने के लिए Softmax ऐक्टिवेशन

क्रॉस-एंट्रॉपी लॉस

ग्रेडिएंट डिसेंट

मिनी बैचिंग और मोमेंटम

शब्दावली

सेल "पैरामीटर"

सेल "इंपोर्ट"

सेल "विज़ुअलाइज़ेशन यूटिलिटी [RUN ME]****"

सेल "tf.data.Dataset: फ़ाइलें पार्स करें और ट्रेनिंग और पुष्टि करने वाले डेटासेट तैयार करें"

सेल "Keras Model"

"मॉडल को ट्रेन करना और उसकी पुष्टि करना" सेल

"विज़ुअलाइज़ करने के सुझाव" सेल

RELU ऐक्टिवेशन

बेहतर ऑप्टिमाइज़र

किसी भी क्रम में लगाना

नैन \

हो गया?

कम शब्दों में

स्टैंडेड कॉन्वोलूशन, ज़्यादा से ज़्यादा पूल करना

आखिरी लेयर

अगले चरण

सेल "विज़ुअलाइज़ेशन यूटिलिटी [RUN ME]"