Geoffrey Hinton के न्यूरल नेटवर्क ब्रेकथ्रूज़ — आसान भाषा में

Geoffrey Hinton के न्यूरल नेटवर्क ब्रेकथ्रूज़ — आसान भाषा में | Koder.ai

Geoffrey Hinton क्यों महत्वपूर्ण हैं

यह मार्गदर्शिका जिज्ञासु, गैर-तकनीकी पाठकों के लिए है जो अक्सर सुनते हैं कि “न्यूरल नेटवर्क्स ने सब कुछ बदल दिया” और वे यह साफ़, धरातलीय समझ चाहते हैं—बिना कलन या प्रोग्रामिंग की ज़रूरत के।

इस लेख में आप क्या सीखेंगे

आपको Geoffrey Hinton द्वारा आगे बढ़ाए गए विचारों का एक सामान्य-भाषाई दौरा मिलेगा, कि वे उस समय क्यों मायने रखते थे, और वे आज के एआई उपकरणों से कैसे जुड़े हैं। इसे ऐसे समझिए जैसे कंप्यूटरों को उदाहरणों से पैटर्न—शब्द, तस्वीरें, आवाज़ें—सीखाने के बेहतर तरीकों की कहानी।

बिना अतिशयोक्ति के Hinton का महत्व

Hinton ने "AI" का आविष्कार नहीं किया, और न ही किसी एक व्यक्ति ने आधुनिक मशीन लर्निंग को पूरा बनाया। उनकी अहमियत इस बात में है कि उन्होंने बार-बार न्यूरल नेटवर्क्स को व्यवहार में काम करने योग्य बनाया जब कई शोधकर्ता उन्हें बेकार मान चुके थे। उन्होंने मुख्य अवधारणाएँ, प्रयोग और एक ऐसा शोध-संस्कृति दी जिसने प्रतिनिधित्व सीखने (उपयोगी आंतरिक फीचर्स) को केंद्रीय समस्या माना—हाथ से नियम लिखने के बजाय।

जिन ब्रेकथ्रूज़ की यहाँ चर्चा होगी, उनकी त्वरित झलक

आगे के सेक्शनों में हम खोलेंगे:

बैकप्रोपेगेशन—एक व्यावहारिक तरीका जिससे नेटवर्क अपनी गलतियों से सुधरता है
बोल्ट्ज़मान मशीनें और ऊर्जा-आधारित सीखना—डेटा से संरचना सीखने का एक शुरुआती रास्ता
प्रतिनिधित्व सीखना और क्यों “अच्छे फीचर्स” को इंजीनियर करने की बजाय सीखा जा सकता है
डीप बलीफ नेटवर्क्स, ड्रॉपआउट और वे ट्रेनिंग ट्रिक्स जिनसे गहरे मॉडल व्यवहार में संभव हुए
AlexNet और वह क्षण जब न्यूरल नेटवर्क्स ने असली दुनिया के पैमाने पर अपनी ताकत दिखाई

यहाँ “ब्रेकथ्रू” का क्या मतलब है?

इस लेख में, ब्रेकथ्रू का मतलब है वह बदलाव जिसने न्यूरल नेटवर्क्स को अधिक उपयोगी बनाया: वे विश्वसनीय रूप से ट्रेन होने लगे, बेहतर फीचर सीखने लगे, नए डेटा पर बेहतर सामान्यीकरण दिखाया, या कठिन कामों पर स्केल कर सके। यह एक चमकदार डेमो से ज़्यादा, एक विचार को भरोसेमंद विधि में बदलने का मामला है।

वह समस्या जिसे न्यूरल नेटवर्क हल करने की कोशिश कर रहे थे

न्यूरल नेटवर्क्स को "प्रोग्रामर्स की जगह लेने" के लिए नहीं बनाया गया था। उनका मूल वादा अधिक विशिष्ट था: ऐसे मशीन बनाना जो गंदे वास्तविक-विश्व इनपुट—तस्वीरें, भाषण, और टेक्स्ट—से उपयोगी आंतरिक प्रतिनिधित्व सीख सकें, बिना इंजीनियर हर नियम हाथ से लिखे।

कच्चे इनपुट से अर्थ तक

एक फोटो केवल लाखों पिक्सल मान होते हैं। एक आवाज़ रिकॉर्डिंग दबाव के मापों की एक धारा है। चुनौती इन कच्चे अंकों को उन अवधारणाओं में बदलने की है जिनकी लोगों को परवाह है: किनारे, आकार, फोनिम्स, शब्द, वस्तुएँ, इरादा।

इससे पहले कि न्यूरल नेटवर्क्स व्यवहार में आएं, कई सिस्टम हस्तनिर्मित फीचर्स पर निर्भर थे—ध्यान से डिज़ाइन किए गए माप जैसे “एज डिटेक्टर” या “टेक्सचर डिस्क्रिप्टर”। यह संकुचित सेटिंग्स में काम करता था, पर रोशनी बदलने, उच्चारण अलग होने, या जटिल वातावरण में अक्सर टूट जाता था।

न्यूरल नेटवर्क्स का लक्ष्य इसे स्वचालित करना था: डेटा से परत दर परत फीचर सीखकर। अगर सिस्टम सही मध्यवर्ती बिल्डिंग ब्लॉक्स खुद खोज ले, तो वह बेहतर सामान्यीकरण कर सकता है और नए टास्क के लिए कम मैन्युअल इंजीनियरिंग के साथ अनुकूल हो सकता है।

यह दशकों तक कठिन क्यों रहा

विचार आकर्षक था, लेकिन कई बाधाएँ थीं जो न्यूरल नेट्स को लंबे समय तक सफल होने से रोकती रहीं:

कम्प्यूट: ट्रेनिंग के लिए बहुत सारी गणनाएँ चाहिए थीं। 1980s और 1990s में अधिकांश लैब्स के पास बड़े मॉडल चलाने की शक्ति नहीं थी।
डेटा: बड़े, लेबल्ड डेटासेट जो सीखने को भरोसेमंद बनाते हैं, 2000s तक व्यापक रूप से उपलब्ध नहीं थे।
ट्रेनिंग स्थिरता: शुरुआती मल्टी‑लेयर नेटवर्क्स को अच्छे से ट्रेन करना कठिन था; प्रगति एल्गोरिद्म और व्यावहारिक ट्रिक्स पर निर्भर थी जो तब तक परिपक्व नहीं हुए थे।

लगातार पर काम करना एक रणनीति थी

जब न्यूरल नेटवर्क्स अनफ़ैशनेबल थे—खासकर 1990s और 2000s के आरम्भिक हिस्सों में—तो Geoffrey Hinton जैसे शोधकर्ताओं ने प्रतिनिधित्व सीखने पर लगातार काम जारी रखा। उन्होंने विचार पेश किए (मध्य-1980s से) और पुराने विचारों (जैसे ऊर्जा-आधारित मॉडल) को बार-बार देखा जब तक कि हार्डवेयर, डेटा, और तरीके साथ नहीं आ गए।

उस निरंतरता ने मूल लक्ष्य—मशीनें जो सही प्रतिनिधित्व सीखती हैं—को जीवित रखा, सिर्फ़ अंतिम उत्तर नहीं।

बैकप्रोपेगेशन, आसान भाषा में

बैकप्रोपेगेशन (अक्सर “बैकप्रॉप” कहा जाता है) वह तरीका है जिससे एक न्यूरल नेटवर्क अपनी गलतियों से सुधरता है। नेटवर्क एक भविष्यवाणी करता है, हम मापते हैं कि वह कितना गलत था, और फिर नेटवर्क के अंदरूनी "नॉब्स" (वज़न) को समायोजित करते हैं ताकि अगली बार वह थोड़ा बेहतर करे।

गलतियों को ठीक कर सीखना

किसी फोटो को "बिल्ली" या "कुत्ता" लेबल करने की कोशिश करते हुए कल्पना कीजिए। नेटवर्क ने अनुमान लगाया "बिल्ली", पर सही उत्तर "कुत्ता" था। बैकप्रोप उस अंतिम त्रुटि से शुरू होता है और नेटवर्क की परतों के माध्यम से पीछे काम करते हुए यह पता लगाता है कि किस वज़न ने गलत उत्तर में कितना योगदान दिया।

व्यावहारिक दृष्टिकोण से:

Forward pass: अनुमान लगाइए।
Loss: त्रुटि निकालिए (अनुमान कितना दूर है)।
Backward pass: परतों में "दोष" बाँटिए।
Update: वज़नों को दबाइए ताकि अगली बार त्रुटि कम हो।

ये समायोजन आमतौर पर ग्रैडिएंट डिसेंट के साथ होते हैं, जिसका अर्थ है "त्रुटि के ढलान पर छोटे कदम लेना"।

बैकप्रॉप ने क्या सुलभ बनाया

बैकप्रॉप अपनाने से पहले, मल्टी‑लेयर नेटवर्क्स को ट्रेन करना अविश्वसनीय और धीमा था। बैकप्रॉप ने कई परतों को साथ‑साथ ट्यून करने का एक व्यवस्थित, दोहराने योग्य तरीका दिया—केवल अंतिम परत को ट्वीक करने या अनुमान लगा कर समायोजन करने के बजाय।

यह बदलाव आगे के ब्रेकथ्रूज़ के लिए महत्वपूर्ण था: एक बार आप कई परतें प्रभावी रूप से ट्रेन कर सकते हैं, नेटवर्क अधिक समृद्ध फीचर सीख सकते हैं (उदा., किनारे → आकार → वस्तुएं)।

आम गलतफ़हमियाँ

बैकप्रॉप नेटवर्क का "सोचना" या इंसान की तरह "समझना" नहीं है। यह गणित-संचालित फ़ीडबैक है: पैमानों को समायोजित करने का एक तरीका ताकि उदाहरणों के साथ बेहतर मिलान हो।

साथ ही, बैकप्रॉप कोई एक मॉडल नहीं है—यह एक प्रशिक्षण विधि है जिसे कई प्रकार के न्यूरल नेटवर्क्स पर लागू किया जा सकता है।

यदि आप नेटवर्क की संरचना पर एक मधुर गहराई चाहते हैं, तो देखें /blog/neural-networks-explained.

बोल्ट्ज़मान मशीनें और ऊर्जा-आधारित सीखना

बोल्ट्ज़मान मशीनें Geoffrey Hinton के उन कदमों में से एक थीं जिसने न्यूरल नेटवर्क्स को उपयोगी आंतरिक प्रतिनिधित्व सीखने की दिशा दी—सिर्फ़ उत्तर देने तक सीमित न रहकर।

मूल विचार: हर संभावना के लिए एक "ऊर्जा" स्कोर

एक बोल्ट्ज़मान मशीन सरल यूनिट्स का नेटवर्क है जो ऑन/ऑफ़ हो सकते हैं (या आधुनिक वर्ज़न में वास्तविक मान लेते हैं)। यह सीधे आउटपुट का अनुमान लगाने के बजाय यूनिट्स के पूरे कॉन्फ़िगरेशन को एक ऊर्जा देता है। कम ऊर्जा का मतलब है "यह कॉन्फ़िगरेशन अर्थपूर्ण है।"

एक उपयोगी रूपक एक मेज़ है जिसमें छोटे गड्ढे और घाटियाँ हों। अगर आप सतह पर एक मार्बल गिराते हैं, तो वह रोल करेगा और निचले बिंदु में टिक जाएगा। बोल्ट्ज़मान मशीन कुछ ऐसा ही करती हैं: आंशिक जानकारी (कई बार डेटा द्वारा सेट कुछ विज़िबल यूनिट्स) देने पर, नेटवर्क अपने आंतरिक यूनिट्स को "हिलाता" है जब तक कि वे उन स्थितियों में न रुक जाएँ जिन्हें उसने अधिक संभाव्य माना हुआ है।

क्यों यह मायने रखता था (भले ही धीमा था)

क्लासिक बोल्ट्ज़मान मशीन के प्रशिक्षण में मॉडल की मान्यताओं और डेटा के बीच के फर्क का अनुमान लगाने के लिए कई संभावित स्टेट्स को बार-बार सैम्पल करना पड़ता था। यह सैम्पलिंग बड़े नेटवर्क्स के लिए बेहद धीमा हो सकता था।

फिर भी, यह दृष्टिकोण प्रभावशाली था क्योंकि इसने:

सीखने को संभाव्यता वितरण को आकार देने के रूप में फ़्रेम किया
फील्ड को अनसुपरवाइज़्ड लर्निंग की तरफ़ धकेला
कॉन्ट्रास्टिव डायवर्जेंस जैसे व्यावहारिक शॉर्टकट और बाद के ऊर्जा-आधारित तरीकों को प्रेरित किया

आज के डीप नेट्स से तुलना

आज अधिकांश उत्पाद फ़ीडफॉरवर्ड डीप नेटवर्क्स और बैकप्रॉप के साथ प्रशिक्षित होते हैं क्योंकि वे तेज़ और स्केल करने में आसान हैं।

बोल्ट्ज़मान मशीनों की विरासत ज़्यादातर वैचारिक है: यह विचार कि अच्छे मॉडल दुनिया की "पसंदीदा स्थितियाँ" सीखते हैं—और सीखना उन कम‑ऊर्जा घाटियों की ओर संभावना को ले जाना है।

प्रतिनिधित्व सीखना: ब्रेकथ्रूज़ के पीछे का मूल विचार

न्यूरल नेटवर्क्स केवल कर्व फिट करने में बेहतर नहीं हुए—वे सही फीचर्स आविष्कृत करने में बेहतर हुए। यही "प्रतिनिधित्व सीखना" है: इंसान द्वारा हाथ से डिज़ाइन करने के बजाय, मॉडल ऐसे आंतरिक विवरण सीखता है जो टास्क को आसान बनाते हैं।

"प्रतिनिधित्व" क्या होते हैं

एक प्रतिनिधित्व मॉडल का अपना तरीका है कच्चे इनपुट को सारांशित करने का। यह अभी लेबल नहीं है जैसे "बिल्ली"; यह उपयोगी संरचना है वहाँ तक पहुँचने का—ऐसे पैटर्न जो ज़रूरत के हिसाब से मायने रखते हैं। शुरुआती परतें सरल संकेतों पर प्रतिक्रिया कर सकती हैं, जबकि बाद की परतें उन्हें अधिक सार्थक अवधारणाओं में जोड़ती हैं।

इसने वास्तविक दुनिया के प्रदर्शन को क्यों बदला

इस शिफ्ट से पहले, कई सिस्टम विशेषज्ञ-डिज़ाइन किए फीचर्स पर निर्भर थे: इमेज के लिए एज डिटेक्टर, भाषण के लिए हाथ से बनाए संकेत, या टेक्स्ट के लिए सावधानी से तैयार सांख्यिकीय फीचर। वे काम करते थे, पर बदलते हालात में अक्सर टूट जाते थे।

प्रतिनिधित्व सीखना मॉडल को खुद डेटा के अनुसार फीचर्स अनुकूलित करने देता है, जिससे सटीकता बढ़ती है और सिस्टम असली, गंदे इनपुट पर अधिक लचीला बनता है।

एक विचार, कई डोमेन्स

विज़न: पिक्सल अधिक संरचित दृश्य अवधारणाओं में बदलते हैं।
स्पीच: साउंड वेव्स फोनिम-जैसे पैटर्न और फिर शब्दों में बदलती हैं।
भाषा: टोकन वाक्यांशों, अर्थों और विचारों के रिश्तों में बदलते हैं।

साझा धागा है पदानुक्रम: सरल पैटर्न मिलकर समृद्ध पैटर्न बनाते हैं।

एक साधारण उदाहरण: किनारे → आकार → वस्तुएँ

छवि मान्यता में, एक नेटवर्क सबसे पहले किनारे-जैसे पैटर्न सीख सकता है (रोशनी‑से‑अँधेरा परिवर्तन)। फिर यह किनारों को मिलाकर कोनों और वक्रों में, उसके बाद पहियों या आँखों जैसे हिस्सों में, और अंत में "साइकिल" या "चेहरा" जैसी पूरी वस्तुओं में बदल सकता है।

Hinton के ब्रेकथ्रूज़ ने इस परत‑दर‑परत फीचर‑निर्माण को व्यवहारिक बनाया—और यही एक बड़ी वजह है कि डीप लर्निंग ने उन टास्क्स पर जीतना शुरू किया जिनकी लोगों को वाकई परवाह थी।

डीप बलीफ नेटवर्क्स और गहराई की ओर रास्ता

कोड पोर्टेबल रखें

सोर्स कोड पाएं ताकि आपकी टीम उसे देख, बदल और अपना बना सके।

कोड निर्यात करें

डीबीएन (Deep Belief Networks) उन महत्वपूर्ण स्टेप्स में से थे जिन्होंने आज हम जो गहरे न्यूरल नेटवर्क देखते हैं, उन्हें संभव बनाया। उच्च‑स्तर पर, एक DBN परतों का स्टैक है जहाँ हर परत नीचे की परत को प्रतिनिधित्व करना सीखती है—कच्चे इनपुट से शुरू करके धीरे‑धीरे अधिक सार्थक "कॉन्सेप्ट" बनाते हुए।

अवधारणात्मक रूप से एक DBN क्या है

कल्पना कीजिए कि आप हैंडराइटिंग पहचानने की प्रणाली सिखा रहे हैं। DBN एक बार में सब कुछ सीखने की बजाय पहले सरल पैटर्न (जैसे किनारे और स्ट्रोक) सीखता है, फिर उन पैटर्नों के संयोजन (लूप्स, कोनों) सीखते हैं, और अंत में ऐसे उच्च‑स्तरीय आकृतियाँ बनती हैं जो अंकों के हिस्सों जैसी दिखती हैं।

प्रमुख विचार यह है कि हर परत बिना सही उत्तर बताए अपनी इनपुट संरचना का मॉडल बनाने की कोशिश करती है। फिर, जब स्टैक ने ये उपयोगी प्रतिनिधित्व सीख लिए, आप पूरे नेटवर्क को किसी विशेष टास्क के लिए फाइन‑ट्यून कर सकते हैं।

परत-दर-परत प्रीट्रेनिंग क्यों मायने रखती थी

पहले गहरे नेटवर्क्स अक्सर यादृच्छिक इनिशियलाइज़ेशन पर अच्छे से ट्रेन नहीं होते थे। ट्रेनिंग सिग्नल कई परतों से होकर कमज़ोर या अस्थिर हो सकता था, और नेटवर्क अनउपयोगी सेटिंग्स में अटक सकता था।

लेयर‑बाय‑लेयर प्रीट्रेनिंग ने मॉडल को "वॉर्म स्टार्ट" दिया। हर परत ने डेटा की संरचना की एक समझ के साथ शुरू किया, इसलिए पूरा नेटवर्क अँधा खोज नहीं कर रहा था।

इससे गहरे मॉडल्स कितने सुविधाजनक हुए

प्रीट्रेनिंग ने हर समस्या का जादू से हल नहीं किया, पर यह उस समय गहराई को व्यावहारिक बनाने में मददगार साबित हुआ जब डेटा, कम्प्यूट और ट्रेनिंग ट्रिक्स आज जितने परिष्कृत नहीं थे।

DBNs ने यह दिखाया कि कई परतों में अच्छे प्रतिनिधित्व सीखना काम कर सकता है—और कि गहराई सिर्फ़ सिद्धांत नहीं, बल्कि उपयोगी राह थी।

ड्रॉपआउट और ओवरफिटिंग से संघर्ष

न्यूरल नेटवर्क्स कभी-कभी "परीक्षा की तैयारी" में अजीब तरह से माहिर होते हैं: वे ट्रेनिंग डेटा को याद कर लेते हैं बजाय कि उस में निहित पैटर्न सीखने के—इसी समस्या को ओवरफिटिंग कहा जाता है।

ओवरफिटिंग, एक रोज़मर्रा की मिसाल

कल्पना कीजिए आप ड्राइविंग परीक्षा के लिए उसी सटीक मार्ग को याद कर रहे हैं जो पिछली बार प्रयोग हुआ था—हर मोड़, हर स्टॉप सिग्नल, हर गड्ढा। अगर परीक्षा वही मार्ग रखती है तो आप बढ़िया करेंगे। पर अगर मार्ग बदल जाए तो प्रदर्शन गिर जाएगा क्योंकि आपने सामान्य ड्राइविंग कौशल नहीं सीखा, एक विशेष स्क्रिप्ट सीख ली।

यही ओवरफिटिंग है: परिचित उदाहरणों पर अधिक सटीकता, नए उदाहरणों पर कमजोर परिणाम।

ड्रॉपआउट: एक साधारण, असरदार विचार

ड्रॉपआउट को Geoffrey Hinton और सहयोगियों ने लोकप्रिय बनाया। प्रशिक्षण के दौरान, नेटवर्क हर पास पर यादृच्छिक रूप से कुछ यूनिट्स को "बंद" (drop out) कर देता है।

यह मॉडल को किसी एक रास्ते या "पसंदीदा" फीचर सेट पर निर्भर रहने से रोकता है। इसके बजाय, इसे कई कनेक्शनों में सूचना फैलानी पड़ती है और ऐसे पैटर्न सीखने पड़ते हैं जो तब भी टिके रहें जब नेटवर्क का कुछ हिस्सा गायब हो।

एक सहायक मानसिक मॉडल: यह ऐसा है जैसे पढ़ाई करते समय कभी‑कभी आपकी नोट्स के यादृच्छिक पन्ने अनुपलब्ध हो जाएँ—तो आप किसी एक वाक्य को याद करने की बजाय अवधारणा को समझने के लिए बाध्य होते हैं।

ड्रॉपआउट ने क्या सुधारा

मुख्य लाभ बेहतर सामान्यीकरण है: नेटवर्क नए, न देखे गए डेटा पर अधिक विश्वसनीय बनता है। व्यवहार में, ड्रॉपआउट ने बड़े नेटवर्क्स को ऐसा ट्रेन करने में मदद की कि वे केवल चतुर यादशीक्षा में न फंसें, और यह कई डीप लर्निंग सेटअप्स में एक मानक उपकरण बन गया।

AlexNet: जब डीप लर्निंग मुख्यधारा में आई

सुरक्षा जाल के साथ इटरेट करें

नए बदलावों के साथ प्रयोग करते समय स्नैपशॉट बनाएं और सुरक्षित रूप से रोल बैक करें।

स्नैपशॉट्स का उपयोग करें

इमेज बेंचमार्क्स का महत्व

AlexNet से पहले, "इमेज रिकग्निशन" सिर्फ़ एक दिलचस्प डेमो नहीं था—यह मापा जाने वाला प्रतिस्पर्धात्मक क्षेत्र था। ImageNet जैसे बेंचमार्क्स ने सरल सवाल पूछा: एक फोटो दीजिए, क्या आपकी व्यवस्था बता सकती है कि उसमें क्या है?

कठिनाई थी स्केल में: लाखों चित्र और हजारों श्रेणियाँ। यह आकार महत्वपूर्ण था क्योंकि इसने छोटे प्रयोगों में अच्छे दिखने वाले विचारों को उन तरीकों से अलग किया जो वास्तविक दुनिया की गड़बड़ी में टिकते थे।

प्रगति आम तौर पर धीरे-धीरे होती रही। फिर AlexNet (Alex Krizhevsky, Ilya Sutskever, और Geoffrey Hinton द्वारा निर्मित) आया और परिणामों को किसी आरामदायक चढ़ाई की तरह नहीं बल्कि एक बड़ा छलांग की तरह दिखाया।

AlexNet ने असल में क्या दिखाया

AlexNet ने दिखाया कि एक गहरा कन्वोल्यूशनल न्यूरल नेटवर्क सर्वश्रेष्ठ पारंपरिक कंप्यूटर विज़न पाइपलाइनों को हरा सकता है जब तीन तत्व मिलते हैं:

कन्वोल्यूशन (विशेष परतें जो इमेज की संरचना का लाभ उठाती हैं)
GPUs (बड़े मॉडल को वाजिब समय में ट्रेन करने के लिए)
बहुत सारा लेबल्ड डेटा (ImageNet का स्केल)

यह केवल "बड़ा मॉडल" नहीं था। यह गहरे नेटवर्क्स को असल‑दुनिया के टास्क्स पर प्रभावी रूप से ट्रेन करने की एक व्यावहारिक विधि थी।

कन्वोल्यूशन को गणित के बिना दृश्य रूप में समझाना

कल्पना कीजिए कि आप फोटो पर एक छोटा "विंडो" सरकाते हैं—जैसे टिकट‑स्टाम्प को इमेज पर घसीटना। उस विंडो के अंदर नेटवर्क किसी सरल पैटर्न की तलाश करता है: एक किनारा, एक कोना, एक पट्टी। वही पैटर्न‑चेक हर जगह दोहराया जाता है, इसलिए यह पाता है कि "किनारे‑जैसे चीज़" चाहे इमेज के किस हिस्से में हों।

इन परतों को स्टैक करिए और आपको एक पदानुक्रम मिलता है: किनारे बनते हैं बनावट, बनावट बनते हैं हिस्से (जैसे पहिये), और हिस्से बनते हैं वस्तुएँ (जैसे साइकिल)।

इसने उद्योग का ध्यान क्यों खींचा

AlexNet ने डीप लर्निंग को भरोसेमंद और निवेशयोग्य दिखाया। अगर गहरे नेट्स एक कठिन सार्वजनिक बेंचमार्क पर हावी हो सकते हैं, तो वे उत्पादों में भी सुधार ला सकते हैं—सर्च, फोटो टैगिंग, कैमरा फीचर, पहुँच संबंधी टूल्स और बहुत कुछ।

इसने न्यूरल नेटवर्क्स को "वादा करने वाला शोध" से वास्तविक सिस्टम बनाने की निश्चित दिशा में बदल दिया।

क्या बदला: डेटा, कंप्यूट और व्यवहारिक ट्रेनिंग

डीप लर्निंग अचानक नहीं आई। यह तब नाटकीय दिखी जब कुछ आवश्यक तत्व साथ आ गए—कई सालों के पहले के कामों के बाद जो विचारों को आशाजनक परन्तु स्केल करने में कठिन दिखाते थे।

तीन तत्व जिनसे यह क्लिक हुआ

ज़्यादा डेटा. वेब, स्मार्टफ़ोन और बड़े लेबल्ड डेटासेट (जैसे ImageNet) ने नेटवर्क्स को लाखों उदाहरणों से सीखने के काबिल बनाया। छोटे डेटासेट्स पर बड़े मॉडल ज़्यादातर याद कर लेते थे बजाय कि सीखने के।

ज़्यादा कम्प्यूट (खासकर GPUs). एक गहरे नेटवर्क को प्रशिक्षित करना अरबों बार वही गणित करने जैसा है। GPUs ने इसे सस्ता और तेज़ बना दिया। जो पहले हफ्तों लेता था, अब दिनों या घंटों में होने लगा—इससे शोधकर्ता अधिक आर्किटेक्चर और हाइपरपैरामीटर आजमा सके।

बेहतर ट्रेनिंग ट्रिक्स. व्यावहारिक सुधारों ने "यह ट्रेन होता है… या नहीं" जैसी अनियमितता को कम किया:

बेहतर इनिशियलाइज़ेशन और ऑप्टिमाइज़ेशन विकल्प
नॉर्मलाइज़ेशन और साफ़ इनपुट पाइपलाइंस
ड्रॉपआउट जैसे रेगुलराइज़ेशन तरीके
बेहतर एक्टिवेशन फ़ंक्शन्स और आर्किटेक्चरल पैटर्न

इनमें से कोई भी कोर विचार नहीं बदला; बदल गया कि उन्हें भरोसेमंद तरीके से काम में कैसे लाया जाए।

प्रगति अचानक क्यों दिखी

एक बार कंप्यूट और डेटा ने एक सीमा पार की, सुधार एक के ऊपर एक जुड़ने लगे। बेहतर परिणामों ने अधिक निवेश आकर्षित किया, जिसने और बड़े डेटासेट और तेज़ हार्डवेयर को वित्तपोषित किया, जिसने और बेहतर परिणाम दिए। बाहर से यह छलांग जैसा दिखता है; अंदर से इसे संयोजित प्रगति कहना बेहतर है।

ट्रेड‑ऑफ: बड़े मॉडल, बड़े खर्च

स्केल बढ़ाना वास्तविक लागतें लाता है: अधिक ऊर्जा उपयोग, महंगे ट्रेनिंग रन, और मॉडल को कुशलतापूर्वक तैनात करने की अधिक मेहनत। यह छोटे टीमों और पर्याप्त संसाधनों वाली लैब्स के बीच के अंतर को भी बढ़ाता है।

ये विचार उत्पादों में कैसे दिखते हैं

Hinton के प्रमुख विचार—डेटा से उपयोगी प्रतिनिधित्व सीखना, गहरे नेटवर्क्स को भरोसेमंद तरीके से ट्रेन करना, और ओवरफिटिंग रोकना—ऐसी "फीचर" नहीं हैं जिन्हें किसी ऐप में सीधे इंगित किया जा सके। ये वजहें हैं कि कई रोज़मर्रा की चीज़ें तेज़, अधिक सटीक और कम निराशाजनक महसूस होती हैं।

सर्च और रिकमेंडेशंस

आधुनिक सर्च केवल कीवर्ड मैच नहीं करती। वे क्वेरी और सामग्री के प्रतिनिधित्व सीखती हैं ताकि “best noise-canceling headphones” जैसी क्वेरी उन पन्नों को ला सके जो बिल्कुल वही वाक्यांश नहीं दोहराते। यही प्रतिनिधित्व सीखना उस तरह के सिफारिश फ़ीड्स में मदद करता है जो दो आइटम्स को "समान" समझते हैं भले ही उनकी डिस्क्रिप्शन अलग हो।

अनुवाद और टेक्स्ट टूल्स

मशीन अनुवाद में बड़ा सुधार तब आया जब मॉडल परतों के पैटर्न सीखने में बेहतर हुए (चर → शब्द → अर्थ)। भले ही मॉडल का प्रकार विकसित हुआ हो, प्रशिक्षण का नुस्खा—बड़े डेटासेट, सावधान ऑप्टिमाइज़ेशन, और रेगुलराइज़ेशन—आज भी विश्वसनीय भाषा फीचर बनाने के तरीके को आकार देता है।

वॉयस और स्पीच‑टू‑टेक्स्ट

वॉयस असिस्टेंट और डिक्टेशन उन न्यूरल नेटवर्क्स पर निर्भर करते हैं जो गंदे ऑडियो को साफ़ टेक्स्ट में बदलते हैं। बैकप्रोप यहाँ वर्कहॉर्स है, जबकि ड्रॉपआउट जैसी तकनीकें मॉडलों को किसी एक स्पीकर या माइक्रोफ़ोन की विचित्रताओं को याद करने से रोकती हैं।

फ़ोटो: टैगिंग, ग्रुपिंग, और "इमेज से खोज"

फोटो ऐप्स चेहरों को पहचान सकती हैं, समान दृश्यों को समूहित कर सकती हैं, और आपको बिना मैनुअल टैगिंग के "बीच" तलाशने दे सकती हैं। यह प्रतिनिधित्व सीखने का व्यावहारिक रूप है: सिस्टम विज़ुअल फीचर्स (किनारे → बनावट → वस्तुएँ) सीखता है जो टैगिंग और रिट्रीवल को स्केल पर काम करने लायक बनाते हैं।

टीमों में ये विचार कहाँ उपयोग होते हैं

भले ही आप मॉडल को स्क्रैच से ट्रेन्ड न कर रहे हों, ये सिद्धांत रोज़मर्रा के उत्पाद कार्य में दिखते हैं: अक्सर प्रीट्रेंड मॉडल से शुरू करिए, ट्रेनिंग और मूल्यांकन को स्थिर करिए, और जब सिस्टम बेंचमार्क याद करने लगे तो रेगुलराइज़ेशन का उपयोग कीजिए।

यह भी कारण है कि आधुनिक "vibe-coding" टूल्स इतना सक्षम महसूस कर सकते हैं। प्लेटफ़ॉर्म जैसे Koder.ai मौजूदा पीढ़ी के LLMs और एजेंट वर्कफ़्लोज़ के ऊपर बैठकर टीमों को सामान्य भाषा के स्पेक से वेब, बैकएंड, या मोबाइल ऐप जल्दी बनाने में मदद करते हैं—अक्सर पारंपरिक पाइपलाइनों से तेज़—और फिर भी स्रोत कोड एक्सपोर्ट और परम्परागत तैनाती की अनुमति देते हैं।

यदि आप ट्रेनिंग की उच्च‑स्तरीय समझ चाहते हैं, तो देखें /blog/backpropagation-explained.

Hinton और न्यूरल नेटवर्क्स के बारे में आम मिथक

साधारण विचार से बनाएं

चैट में बताकर न्यूरल नेटवर्क के बारे में जो आपने सीखा उसे एक काम करने वाले ऐप में बदलें।

मुफ्त में शुरू करें

बड़े ब्रेकथ्रूज़ अक्सर सरल कहानियों में बदल दिए जाते हैं। यह याद रखना आसान बनाता है—पर साथ ही ऐसे मिथक भी बनते हैं जो असल घटनाओं और आज क्या मायने रखता है उसे छिपा देते हैं।

मिथक: “एक व्यक्ति ने आधुनिक AI का आविष्कार किया”

Hinton एक केंद्रीय आंकड़ा हैं, पर आधुनिक न्यूरल नेटवर्क कई दशकों के काम का परिणाम हैं: ऑप्टिमाइज़ेशन मेथड्स विकसित करने वाले शोधकर्ता, डेटासेट बनाने वाले लोग, ट्रेनिंग के लिए GPUs को व्यवहारिक बनाने वाले इंजीनियर, और बड़े पैमाने पर सिद्ध करने वाली टीमें।

Hinton के काम में भी उनके स्टूडेंट्स और सहयोगियों की बड़ी भूमिका रही। वास्तविक कहानी योगदानों की एक कड़ी है जो अंततः साथ आ गई।

मिथक: "न्यूरल नेट्स बिल्कुल नए हैं"

न्यूरल नेटवर्क पर शोध मध्य‑20वीं सदी से हो रहा है, उत्तेजना और निराशा के दौरों के साथ। जो बदला वह विचारों का अस्तित्व नहीं था, बल्कि बड़े मॉडल को विश्वसनीय तरीके से ट्रेन करने और वास्तविक समस्याओं पर स्पष्ट जीत दिखाने की क्षमता थी।

"डीप लर्निंग युग" एक पुनरुत्थान है, अचानक अविष्कार नहीं।

मिथक: "ज़्यादा परतें हमेशा बेहतर होती हैं"

गहरे मॉडल मदद कर सकते हैं, पर वे जादू नहीं हैं। ट्रेनिंग समय, लागत, डेटा गुणवत्ता, और घटती उपादेयता वास्तविक सीमा हैं। छोटे मॉडल कभी‑कभी बड़े मॉडलों को मात दे देते हैं क्योंकि वे ट्यून करना आसान होते हैं, शोर के प्रति कम संवेदनशील होते हैं, या टास्क के लिए बेहतर मिलते हैं।

मिथक: "बैकप्रोप मानव सीखने के बराबर है"

बैकप्रोप मॉडल पैरामीटर समायोजित करने का एक व्यावहारिक तरीका है जो लेबल्ड फ़ीडबैक का उपयोग करता है। इंसान कम उदाहरणों से सीखते हैं, समृद्ध पूर्वज्ञान का उपयोग करते हैं, और उसी तरह के स्पष्ट त्रुटि‑सिग्नल पर निर्भर नहीं होते।

न्यूरल नेट्स जैविक प्रेरणा से प्रभावित हो सकते हैं, पर वे मस्तिष्क के सटीक अनुकरण नहीं हैं।

आगे के लिए सबक

Hinton की कहानी सिर्फ़ आविष्कारों की सूची नहीं है। यह एक पैटर्न है: एक सरल सीखने का विचार रखें, उसे लगातार परखें, और आसपास की आवश्यक चीज़ों (डेटा, कम्प्यूट, ट्रेनिंग ट्रिक्स) को अपडेट करते जाएँ जब तक वह बड़े पैमाने पर काम न करे।

आज के निर्माताओं के लिए नकल करने योग्य बातें

सबसे हस्तांतरित करने योग्य आदतें व्यावहारिक हैं:

छोटे-छोटे चक्र में इटरेट करें। हर रन को एक छोटा प्रयोग मानें: एक चीज़ बदलिए, परिणाम रिकॉर्ड कीजिए, दोहराइए।
जिसकी परवाह है वही मापिए। एक स्पष्ट मेट्रिक (सटीकता, त्रुटि दर, लेटेंसी, प्रति‑क्वेरी लागत) ट्रैक कीजिए और बेसलाइन से तुलना कीजिए। “बेहतर” का अर्थ संख्या होनी चाहिए।
व्याख्या सरल रखें। अगर आप गैर‑विशेषज्ञ सहकर्मी को अपने सिस्टम का लक्ष्य, इनपुट और फेल्योर मोड नहीं समझा सकते, तो संभवतः आप उसे सुरक्षित रूप से शिप नहीं कर पाएंगे।

क्या न करें

शीर्षक पाठ से प्रेरित होकर यह सोचना आकर्षक है कि "बड़े मॉडल ही जीतते हैं।" यह अधूरा है।

बिना स्पष्ट लक्ष्यों के आकार की दौड़ अक्सर ले जाती है:

उपयोगकर्ता‑दृष्टि से दिखाई न देने वाले महंगे संसाधन खर्च
समस्याएँ आने पर कठिन डीबगिंग
टीमें जो बेंचमार्क्स को उत्पाद परिणामों पर प्राथमिकता देने लगती हैं

एक बेहतर डिफ़ॉल्ट है: छोटे से शुरू करें, मूल्य सिद्ध करें, फिर स्केल करें—और केवल उसी हिस्से को स्केल करें जो स्पष्ट रूप से प्रदर्शन सीमित कर रहा हो।

सुझी गई अगली पढाई

यदि आप इन सबक को रोज़मर्रा के अभ्यास में बदलना चाहते हैं, तो ये उपयोगी पढ़ें:

/blog/ai-model-evaluation
/blog/how-to-reduce-overfitting
/blog/representation-learning-explained

याद रखने योग्य एक कहानी रेखा

बैकप्रोप के बेसिक नियम से लेकर, अर्थ पकड़ने वाले प्रतिनिधित्वों, ड्रॉपआउट जैसे व्यावहारिक ट्रिक्स, और AlexNet जैसे ब्रेकथ्रू डेमो तक—कहानी एक समान है: डेटा से उपयोगी फीचर्स सीखिए, ट्रेनिंग को स्थिर बनाइए, और असली नतीजों से प्रगति का सत्यापन कीजिए।

यही प्लेबुक है जिसे रखना चाहिए।

अक्सर पूछे जाने वाले प्रश्न

अगर Geoffrey Hinton ने AI का आविष्कार नहीं किया तो वे क्यों मायने रखते हैं?

Geoffrey Hinton इसलिए महत्वपूर्ण हैं क्योंकि उन्होंने बार-बार उन तरीकों को व्यावहारिक बनाया जब कई शोधकर्ता न्यूरल नेटवर्क को बुहत ही कमज़ोर रास्ता मानते थे।

“एआई का आविष्कार” करने के बजाय, उनका योगदान इस बात में है कि उन्होंने प्रतिनिधित्व सीखने (डेटा से सुविधाएँ सीखना), प्रशिक्षण विधियों में सुधार और एक ऐसी रिसर्च संस्कृति को बढ़ावा दिया जो हाथ से नियम लिखने के बजाय डेटा से फीचर सीखने पर केंद्रित थी।

इस गाइड में न्यूरल नेटवर्क का क्या "ब्रेकथ्रू" माना जाता है?

यहाँ “ब्रेकथ्रू” का मतलब यह है कि न्यूरल नेटवर्क अधिक भरोसेमंद और उपयोगी बन गए: वे बेहतर तरीके से ट्रेन होते हैं, बेहतर आंतरिक फीचर सीखते हैं, नए डेटा पर बेहतर सामान्यीकरण करते हैं, या कठिन कामों पर पैमाना बढ़ा पाए।

यह किसी एक चमकदार डेमो के बारे में कम है और किसी विचार को ऐसे प्रयोगिक तरीके में बदलने के बारे में ज़्यादा है जिस पर टीमें भरोसा कर सकें।

न्यूरल नेटवर्क मूल रूप से किस समस्या को हल करने की कोशिश कर रहे थे?

न्यूरल नेटवर्क का लक्ष्य गन्दे कच्चे इनपुट (पिक्सल, ऑडियो वेवफॉर्म, टेक्स्ट टोकन) को उपयोगी प्रतिनिधित्व में बदलना है—आंतरिक फीचर जो मायने रखते हैं।

इंजीनियर हर फीचर हाथ से बनवाने की बजाय, मॉडल उदाहरणों से परत दर परत फीचर सीखता है, जिससे यह सामान्य परिस्थितियों में (लाइटिंग, उच्चारण, शब्दों के बदलने) अधिक मजबूत बनता है।

बैकप्रोपेशन (साधारण भाषा में) क्या है?

बैकप्रोप (backpropagation) एक प्रशिक्षण विधि है जो नेटवर्क को उसकी गलतियों से बेहतर बनाती है:

अनुमान लगाइए (forward pass)
त्रुटि नापिए (loss)
परतों के माध्यम से "दोष" वापस भेजिए (backward pass)
भविष्य में त्रुटि कम करने के लिए वज़नों को थोड़ा समायोजित कीजिए

यह ग्रैडिएंट डिसेंट जैसे एल्गोरिदम के साथ काम करता है, जो त्रुटि को कम करने की दिशा में छोटे-छोटे कदम उठाता है।

गहरी लर्निंग के लिए बैकप्रोपेशन इतना बड़ा बदलाव क्यों था?

बैकप्रोप ने कई परतों को एक साथ व्यवस्थित तरीके से ट्यून करने को संभव बना दिया।

यह महत्वपूर्ण इसलिए है क्योंकि गहरी नेटवर्क्स फीचर हायरेरकी (उदा., किनारे → आकार → वस्तु) बना पाते हैं। बिना भरोसेमंद तरीके के कई परतों को ट्रेन करना अक्सर असफल रहा करता था, और बैकप्रोप ने वही भरोसेमंद प्रक्रिया दी।

बोल्ट्ज़मान मशीनें क्या हैं, और वे क्यों महत्वपूर्ण थीं?

बोल्ट्ज़मान मशीनें ऐसे नेटवर्क थीं जो किसी भी यूनिट कॉन्फ़िगरेशन को एक ऊर्जा स्कोर देती हैं; कम ऊर्जा मतलब "यह कॉन्फ़िगरेशन अधिक संभाव्य है"।

वे महत्वपूर्ण थीं क्योंकि वे:

सीखने को एक probability distribution को आकार देने के रूप में दिखाती थीं, सिर्फ़ लेबल फिट करने के बजाय
अनसुपरवाइज़्ड लर्निंग को बढ़ावा दिया—डेटा से बिना स्पष्ट उत्तरों के संरचना सीखना
कॉन्ट्रास्टिव डायवर्जेंस जैसे व्यावहारिक शॉर्टकट और बाद के ऊर्जा-आधारित विचारों को प्रेरित किया

क्लासिक प्रशिक्षण अक्सर धीमा था, इसलिए ये आज के प्रोडक्ट्स में कम सामान्य हैं, पर वैचारिक रूप से इनका प्रभाव बड़ा रहा।

रिप्रेजेंटेशन लर्निंग क्या है, और इसने प्रदर्शन क्यों बदला?

रिप्रेजेंटेशन लर्निंग का अर्थ है कि मॉडल अपने आंतरिक फीचर (प्रतिनिधित्व) सीखता है जो टास्क को आसान बनाते हैं, न कि हाथ से बनाए गए फीचर पर निर्भर रहना।

व्यावहारिक रूप से, इससे रोबस्टनेस बढ़ती है: सिखाए गए फीचर असली डेटा विविधता (शोर, अलग कैमरे, अलग स्पीकर्स) के अनुरूप ढल जाते हैं जबकि मनुष्य-निर्मित pipelines अक्सर भंगुर होते हैं।

डीप बलीफ नेटवर्क क्या हैं, और उन्होंने कौन सी समस्या हल की?

डीप बलीफ नेटवर्क (DBN) ने परत-दर-परत प्रीट्रेनिंग का उपयोग करके गहराई को व्यावहारिक बनाया।

प्रत्येक परत पहले अपने इनपुट की संरचना बिना लेबल के सीखती है, जिससे पूरे नेटवर्क को "वॉर्म स्टार्ट" मिलता है। फिर वह पूरा स्टैक किसी विशेष टास्क (जैसे क्लासिफिकेशन) के लिए फाइन‑ट्यून किया जाता है।

ड्रॉपआउट ओवरफिटिंग को कैसे कम करता है?

ड्रॉपआउट ओवरफिटिंग से इस तरह लड़ता है कि प्रशिक्षण के दौरान नेटवर्क पर यादृच्छिक रूप से कुछ यूनिट्स "बंद" कर दिए जाते हैं।

यह नेटवर्क को किसी एक पाथ या फीचर सेट पर अत्यधिक निर्भर होने से रोकता है और इसे ऐसे फीचर सीखने के लिए मजबूर करता है जो तब भी काम करें जब मॉडल का कुछ हिस्सा गायब हो—अक्सर नए, असतत डेटा पर सामान्यीकरण में सुधार होता है।

AlexNet गहरी लर्निंग के लिए एक मोड़ क्यों था?

AlexNet ने दिखाया कि गहरी convolutional नेटवर्क्स, GPUs और बड़ी लेबल्ड डाटासेट (ImageNet) के संयोजन से पारंपरिक कंप्यूटर विज़न पाइपलाइनों को हराया जा सकता है।

यह केवल "बड़ा मॉडल" नहीं था—यह एक व्यावहारिक नुस्खा था जिसने यह विश्वास दिलाया कि गहरे नेटवर्क्स असल दुनिया की समस्याओं पर स्थायी रूप से बेहतर काम कर सकते हैं, और इसी ने उद्योग का ध्यान खींचा।