जानिए आर्टिफिशियल जनरल इंटेलिजेंस का वास्तविक मतलब, LLMs कैसे काम करते हैं, और क्यों वर्तमान टेक्स्ट‑आधारित मॉडल शायद कभी सच्चे AGI तक न पहुँचें।

अगर आप टेक न्यूज़, निवेशक प्रेज़ेंटेशन या प्रोडक्ट पेज पढ़ते हैं, तो आप देखेंगे कि इंटेलिजेंस शब्द को बहुत फ़ैलाया जा रहा है। चैटबॉट्स “लगभग मानव” हैं, कोडिंग सहायक “करीब‑करीब जूनियर इंजीनियर” हैं, और कुछ लोग शक्तिशाली बड़े भाषा मॉडलों (LLMs) को सहजता से आर्टिफिशियल जनरल इंटेलिजेंस (AGI) की पहली सीढ़ियाँ मान लेते हैं।
यह लेख जिज्ञासु प्रैक्टिशनर्स, संस्थापकों, प्रोडक्ट लीडर्स और तकनीकी पाठकों के लिये है जो GPT‑4 या Claude जैसे टूल्स का उपयोग करते हैं और आश्चर्य करते हैं: क्या यह AGI जैसा दिखता है—या कुछ महत्वपूर्ण गायब है?
LLMs वाकई प्रभावशाली हैं। वे:
अधिकांश गैर‑विशेषज्ञों के लिये यह “सामान्य बुद्धिमत्ता” से असंबद्ध महसूस होता है। जब कोई मॉडल एक ही सत्र में कांट के ऊपर निबंध लिख सकता है, आपका TypeScript एरर ठीक कर सकता है, और कानूनी मेमो का मसौदा तैयार कर सकता है, तो यह मान लेना स्वाभाविक है कि हम AGI के क़रीब हैं।
लेकिन यह धारणा चुपचाप भाषा में कुशल होने को सामान्य बुद्धिमत्ता होने के बराबर मान लेती है। यही मुख्य भ्रम है जिसे यह लेख खोलकर बताएगा।
विकसित किया गया तर्क यह है:
वर्तमान LLMs टेक्स्ट और कोड पर अत्यंत सक्षम पैटर्न‑लर्नर हैं, पर उनकी आर्किटेक्चर और प्रशिक्षण नीति से यह असंभाव्य है कि वे केवल स्केल या फाइन‑ट्यूनिंग से सच्चे AGI तक पहुंच जाएँ।
वे और बेहतर, वृहद और उपयोगी होते रहेंगे। वे AGI‑समान प्रणालियों का हिस्सा हो सकते हैं। फिर भी वहाँ गहरे कारण हैं—दुनिया के साथ ग्राउंडिंग, एजेंसी, स्मृति, एम्बोडिमेंट, और आत्म‑मॉडल के बारे में—क्यों "बड़े LLM" का रास्ता शायद "सामान्य बुद्धिमत्ता" तक नहीं पहुँचता।
यह एक अभिप्रेत रायपूर्ण यात्रा है, पर शोध, LLMs की वर्तमान क्षमताओं और विफलताओं, और उन खुले सवालों पर आधारित है जिन पर गंभीर वैज्ञानिक काम कर रहे हैं—हाइप या भय‑उद्घोष नहीं।
जब लोग AGI कहते हैं, तो वे शायद एक ही बात नहीं कहते। बहस को स्पष्ट करने के लिये कुछ मूल अवधारणाएँ अलग करना मदद करता है।
AI (कृत्रिम बुद्धिमत्ता) वह व्यापक क्षेत्र है जो उन प्रणालियों का निर्माण करता है जो “बुद्धिमत्ता जैसा” व्यवहार करने वाले कार्य कर सकें: भाषण पहचानना, फ़िल्में सुझाना, गो खेलना, कोड लिखना और भी बहुत कुछ।
आज जो अधिकांश मौजूद है वह संकुचित AI (या कमज़ोर AI) है: सिस्टम विशेष कार्यों और परिस्थितियों के लिये डिज़ाइन और प्रशिक्षित किए जाते हैं। एक इमेज क्लासीफ़ायर जो बिल्लियों और कुत्तों को लेबल करता है, या बैंकिंग‑कहाँनों के लिये ट्यून किया गया ग्राहक‑सहायता चैटबॉट, अपने निच में बेहद सक्षम हो सकता है पर बाहर बहुत खराब प्रदर्शन करता है।
Artificial General Intelligence (AGI) बहुत अलग है। यह उस प्रणाली को दर्शाता है जो:
एक व्यवहारिक नियम: AGI सिद्धांततः किसी भी बौद्धिक रूप से मांग वाले मानव काम को सीख सकता है, समय और संसाधन मिलने पर, बिना हर नए काम के लिये अलग डिजाइन किए।
निकट‑संबंधी शब्द अक्सर उपयोग होते हैं:
इसके विपरीत, आधुनिक चैटबॉट्स और इमेज मॉडल संकुचित ही रहते हैं: प्रभावशाली, पर विशेष डेटा पैटर्न्स के लिये अनुकूलित, न कि खुली‑अंत की क्रॉस‑डोमेन बुद्धिमत्ता के लिये।
आधुनिक AGI का सपना एलन ट्यूरिंग के 1950 के प्रस्ताव से शुरू होता है: अगर मशीन बातचीत में इंसान से अलग न पहचानी जा सके (ट्यूरिंग टेस्ट), तो क्या वह बुद्धिमान मानी जाएगी? इसने सामान्य बुद्धिमत्ता को व्यवहार के संदर्भ—खासकर भाषा और तर्क—में ढांचा दिया।
1950s से 1980s तक शोधकर्ता AGI के लिये प्रतीकात्मक AI या "GOFAI" (Good Old‑Fashioned AI) के माध्यम से आगे बढ़े। बुद्धिमत्ता को स्पष्ट प्रतीकों को तार्किक नियमों के अनुसार मनिपुलेट करने के रूप में देखा गया। थ्योरम प्रूफ़िंग, गेम‑प्लेइंग, और एक्सपर्ट सिस्टम्स ने कुछ लोगों को लगा दिया कि मानव‑स्तरीय तर्क निकट है।
पर GOFAI धारणा में परसेप्शन, सामान ज्ञान और गंदे वास्तविक‑दुनिया डेटा के साथ संघर्ष कर गया। सिस्टम तार्किक पहेलियाँ हल कर सकते थे पर एक बच्चा जो आसान मानता है वे उसमें विफल रहते थे। इस अंतर ने पहले बड़े‑स्तरीय AI विंटर और AGI के प्रति अधिक सतर्क दृष्टि को जन्म दिया।
डेटा और कंप्यूट बढ़ने के साथ, AI ने हैंड‑क्राफ्टेड नियमों से उदाहरणों से सीखने की ओर रुख किया। सांख्यिकीय मशीन‑लर्निंग और फिर डीप‑लर्निंग ने प्रगति को फिर से परिभाषित किया: ज्ञान एन्कोड करने के बजाय सिस्टम बड़े डेटासेट से पैटर्न सीखते हैं।
IBM का DeepBlue (शतरंज) और बाद में AlphaGo (गो) जैसी उपलब्धियों को सामान्य बुद्धिमत्ता की ओर कदम माना गया। असलियत में वे अत्यंत विशिष्ट थे: प्रत्येक ने केवल एक गेम के नियमों के तहत महारत हासिल की, और रोज़मर्रा की तर्कशक्ति में कोई सामान्य हस्तांतरण नहीं था।
GPT श्रृंखला ने भाषा में एक और बड़ा छलांग लगाई। GPT‑3 और GPT‑4 निबंध लिख सकते हैं, कोड बना सकते हैं, और शैलियों का नकल कर सकते हैं, जिससे AGI के नज़दीक होने की अटकलें बढ़ीं।
फिर भी ये मॉडल अभी भी टेक्स्ट पर पैटर्न‑लर्नर हैं। वे लक्ष्य नहीं बनाते, ग्राउंडेड विश्व मॉडल नहीं बनाते, और स्वायत्त रूप से अपनी क्षमताएँ नहीं बढ़ाते।
प्रति‑लहर—प्रतीकात्मक AI, क्लासिक मशीन‑लर्निंग, डीप‑लर्निंग, और अब बड़े भाषा मॉडल—के दौरान AGI का सपना संकुचित उपलब्धियों पर प्रोजेक्ट किया गया और उनकी सीमाएँ स्पष्ट होने पर संशोधित हुआ।
बड़े भाषा मॉडल (LLMs) टेक्स्ट के विशाल संग्रह पर प्रशिक्षित पैटर्न‑लर्नर हैं: किताबें, वेबसाइट्स, कोड, फोरम और अधिक। उनका उद्देश्य भ्रामक रूप से सरल है: दिए गए कुछ टेक्स्ट के आधार पर अगला टोकन (छोटा टेक्स्ट हिस्सा) क्या होगा यह भविष्यवाणी करना।
प्रशिक्षण से पहले, टेक्स्ट को टोकनों में बाँटा जाता है: ये पूरे शब्द (cat), शब्द‑टुकड़े ( inter, esting ), या यहां‑वहां विराम‑चिह्न हो सकते हैं। प्रशिक्षण के दौरान मॉडल बार‑बार ऐसे अनुक्रम देखता है:
"The cat sat on the ___"
और संभावित अगले टोकनों (mat, sofa) को उच्च प्रायिकता और अप्रासंगिक टोकन (presidency) को कम प्रायिकता देना सीखता है। ट्रिलियनों टोकनों पर यह प्रक्रिया अरबों (या उससे अधिक) आंतरिक पैरामीटर आकार देती है।
आधार में, मॉडल बहुत बड़ी एक फ़ंक्शन है जो टोकन अनुक्रम को अगले टोकन के लिये प्रायिकता वितरण में बदल देती है। प्रशिक्षण ग्रेडिएंट डिसेंट का उपयोग करके पैरामीटर को धीरे‑धीरे समायोजित कर के बेहतर पूर्वानुमान करवाता है।
"Scaling laws" एक नियमितता बताते हैं: जब आप मॉडल का आकार, डेटा का आकार और कंप्यूट बढ़ाते हैं, प्रदर्शन एक अनुमानित तरीके से सुधारता है। बड़े मॉडल और अधिक टेक्स्ट पर प्रशिक्षित होने पर आम तौर पर भविष्यवाणी में बेहतर होते हैं—जब तक डेटा, कंप्यूट और प्रशिक्षण‑स्थिरता की व्यावहारिक सीमाएँ न मिलें।
LLMs तथ्यों को डेटाबेस की तरह संग्रहित नहीं करते और न ही मनुष्य की तरह तर्क करते हैं। वे सांख्यिकीय नियमितताओं को एन्कोड करते हैं: कौन‑से शब्द, वाक्यांश और संरचनाएँ किस संदर्भ में साथ आती हैं।
उनका ग्राउंडेड अवधारणाओं से कोई सम्बन्ध नहीं होता—दर्शन या भौतिक अनुभव से नहीं। एक LLM "लाल" या "भारीपन" के बारे में केवल उस रूप में बोल सकता है जैसे उन शब्दों का उपयोग टेक्स्ट में हुआ है, न कि रंग देखकर या वस्तु उठाकर।
इसीलिए मॉडल ज्ञानवान सुनाई दे सकते हैं पर फिर भी आत्मविश्वासी गलतियाँ कर सकते हैं: वे पैटर्न का विस्तार कर रहे होते हैं, वास्तविकता की जांच नहीं कर रहे।
प्री‑ट्रेनिंग वह लंबा आरम्भिक चरण है जहां मॉडल बड़े टेक्स्ट कॉर्पस पर अगले‑टोकन की भविष्यवाणी करके सामान्य भाषा पैटर्न सीखता है। यहीं अधिकांश क्षमताएँ उभरती हैं।
उसके बाद, फाइन‑ट्यूनिंग प्रीट्रेन्ड मॉडल को संकुचित लक्ष्यों के लिये जोड़ता है: निर्देशों का पालन करना, कोड लिखना, अनुवाद करना, या विशिष्ट डोमेन में सहायता। मॉडल को वांछित व्यवहार के क्यूरेट किए गए उदाहरण दिखाए जाते हैं और हल्के समायोजन होते हैं।
मानव प्रतिक्रिया से रिइन्फोर्समेंट लर्निंग (RLHF) एक और परत जोड़ता है: इंसान मॉडल आउटपुट्स को रेट या तुलना करते हैं, और मॉडल को लोगों की पसंद के अनुसार उत्तर देने के लिये अनुकूलित किया जाता है (जैसे अधिक सहायक, कम हानिकारक, अधिक ईमानदार)। RLHF मॉडल को नई इंद्रियाँ या गहरी समझ नहीं देता; यह मुख्यतः उस सामग्री के प्रस्तुतीकरण और फ़िल्टरिंग को आकार देता है जो मॉडल पहले ही सीख चुका होता है।
मिलकर, ये चरण ऐसी प्रणालियाँ बनाते हैं जो सांख्यिकीय पैटर्नों का उपयोग करके प्रवाही टेक्स्ट जेनरेट करने में बेहद अच्छे हैं—पर उनके पास ग्राउंडेड ज्ञान, लक्ष्य या चेतना नहीं होती।
बड़े भाषा मॉडल प्रभावशाली लगते हैं क्योंकि वे कई ऐसे कार्य कर सकते हैं जो कभी मशीनों के लिये दूर की बात लगते थे।
LLMs कार्यात्मक कोड स्निपेट जनरेट कर सकते हैं, मौजूदा कोड को रिफैक्टर कर सकते हैं, और अज्ञात लाइब्रेरीज़ को सामान्य भाषा में समझा सकते हैं। कई डेवलपर्स के लिये ये पहले से ही एक कुशल पेयर‑प्रोग्रामर की तरह काम करते हैं: किन‑किन किनारे‑के मामलों का सुझाव देते हैं, स्पष्ट बग पकड़ते हैं, और पूरे मॉड्यूल की रूपरेखा बना देते हैं।
वे सारांशण में भी माहिर हैं। लंबे रिपोर्ट, पेपर, या ईमेल थ्रेड को दिए जाने पर, LLM मुख्य बिंदु संक्षेप कर सकता है, क्रिया‑आइटम हाइलाइट कर सकता है, या विभिन्न दर्शकों के लिये स्वर समायोजित कर सकता है।
अनुवाद भी एक शक्ति है। आधुनिक मॉडल दर्जनों भाषाओं को संभालते हैं, अक्सर शैली और रजिस्टर के सूक्ष्म आयामों को भी पर्याप्त रूप से पकड़ लेते हैं।
जैसे‑जैसे मॉडल स्केल होते हैं, नई क्षमताएँ ‘‘कहीं से भी" प्रकट होती सी लगती हैं: लॉजिक पहेलियाँ हल करना, पेशेवर परीक्षाएँ पास करना, या मल्टी‑स्टेप निर्देशों का पालन करना जिनमें पुराने वर्ज़न विफल थे। मानकीकृत बेंचमार्क्स—गणित शब्द‑समस्याएँ, बार परीक्षा के प्रश्न, मेडिकल क्विज़—पर शीर्ष LLMs अब औसत मानव स्कोर तक पहुंचते या उसे पार कर लेते हैं।
ये उभरते व्यवहार लोगों को यह कहने के लिये लुभाते हैं कि मॉडल "तर्क" या "समझ" रहे हैं जैसे मनुष्य करते हैं। प्रदर्शन ग्राफ और लीडरबोर्ड इस विचार को मज़बूत करते हैं कि हम AGI के नज़दीक हैं।
LLMs को इस तरह प्रशिक्षित किया जाता है कि वे पाठ को ऐसे आगे बढ़ाएँ जो डेटा में देखे गए पैटर्न से मेल खाता हो। यह प्रशिक्षण उद्देश्य, साथ में स्केल, विशेषज्ञता और एजेंसी का अनुकरण करने के लिये काफी है: वे आत्मविश्वासी लगते हैं, सत्र के भीतर संदर्भ याद रखते हैं, और अपने उत्तरों का प्रवाहपूर्ण बहाना दे सकते हैं।
पर यह समझ का भ्रम है। मॉडल यह नहीं जानता कि कोई कोड चलाने पर क्या करेगा, कोई मेडिकल निदान रोगी के लिये क्या अर्थ रखता है, या किसी योजना से किस शारीरिक कार्रवाई के परिणाम निकलेंगे। उसका दुनिया से कोई ग्राउंडिंग नहीं है।
इन्सानी परीक्षाओं पर अच्छा प्रदर्शन—यहाँ तक कि मनुष्यों के लिये बनाई गई परीक्षाएँ भी—स्वयं‑सिद्ध AGI नहीं दर्शाता। यह दिखाता है कि विशाल टेक्स्ट डेटा पर पैटर्न‑लर्निंग कई विशिष्ट कौशलों का सन्निकटन कर सकती है, पर वह लचीली, ग्राउंडेड, क्रॉस‑डोमेन बुद्धिमत्ता नहीं है जिसे सामान्यतौर पर "Artificial General Intelligence" कहा जाता है।
बड़े भाषा मॉडल असाधारण टेक्स्ट‑पूर्वानुमानक हैं, पर वही डिज़ाइन उनकी कुछ कठोर सीमाएँ भी तय करता है।
LLMs देखने, सुनने, हिलने‑डुलने या वस्तुएँ नियंत्रित करने में सक्षम नहीं होते। उनका दुनिया से एक मात्र संपर्क टेक्स्ट है (और कुछ नए मॉडलों में स्थिर छवियाँ या छोटे क्लिप)। उनके पास कोई सतत संवेदी स्ट्रीम, शरीर, या परिणामों का अवलोकन करके सीखने का तरीका नहीं है।
सेंसर्स और एम्बोडिमेंट के बिना वे एक ग्राउंडेड, निरंतर अपडेट होने वाला वास्तविकता मॉडल नहीं बना सकते। "भारी", "चिपचिपा" या "नाज़ुक" जैसे शब्द केवल टेक्स्ट में पड़ने वाले सह‑संबंध हैं, न कि जीवंत बाध्यताएँ। इससे समझ का नकल तो संभव होता है, पर प्रत्यक्ष संपर्क के बिना वे पूर्व विवरणों को दोहराने और जोड़ने तक ही सीमित रह जाते हैं।
एक LLM अनुक्रम को बढ़ाने के लिये प्रशिक्षित है, इसलिए यह उस तरह का निरंतरता उत्पन्न करता है जो उसके सीखे पैटर्न के अनुरूप सबसे अच्छा बैठता है, न कि जो सत्य हो। जब डेटा पतला या विरोधाभासी हो, तो यह सहज‑लगे परिकल्पनाओं से रिक्त स्थलों को भर देता है।
मॉडल के पास कोई स्थायी विश्वास‑स्थिति नहीं होती। हर प्रतिक्रिया ताज़ा जनरेशन होती है—प्रॉम्प्ट और वज़नों से; कोई अंतर्निहित खाता नहीं है कि "मैं किन तथ्यों को मानता/मानती हूँ"। दीर्घकालिक मेमोरी फीचर्स बाहरी स्टोरेज के रूप में जोड़ी जा सकती हैं, पर मूल सिस्टम मानवों जैसे विश्वासों का क्रमिक संशोधन नहीं करता।
LLM का प्रशिक्षण एक ऑफ़लाइन, संसाधन‑गहन बैच प्रक्रिया है। इसे अपडेट करने का अर्थ आम तौर पर नए डेटा पर पुनःप्रशिक्षण या फाइन‑ट्यूनिंग है, ना कि हर इंटरैक्शन से चिकनी तरह सीखना।
इससे महत्वपूर्ण सीमा आती है: मॉडल तेजी से बदलती दुनिया को लगातार ट्रैक नहीं कर सकता, अपने अवधारणाओं को सतत अनुभव के आधार पर अनुकूलित नहीं कर सकता, या गहरी गलतफहमियों को धीरे‑धीरे सुधार नहीं सकता। सर्वश्रेष्ठ स्थिति में, यह हालज़ाँदा प्रॉम्प्ट या जुड़े टूल्स के आधार पर ऐसा अनुक्रियाशील अनुकरण कर सकता है।
LLMs शब्दों के सह‑घटन और वाक्य संरचनाओं जैसी सांख्यिकीय नियमितताओं को पकड़ने में माहिर हैं। पर यह उस तरह की समझ नहीं है जो बताती हो कि दुनिया कैसे और क्यों काम करती है।
कारणात्मक समझ में परिकल्पनाएँ बनाना, हस्तक्षेप करना, क्या बदलता है देखना, और जब पूर्वानुमान गलत हों तो आंतरिक मॉडलों को अपडेट करना शामिल है। केवल टेक्स्ट‑पूर्वानुमान करने वाला कोई प्रत्यक्ष तरीका नहीं रखता कि वह हस्तक्षेप करे या आश्चर्य का अनुभव करे। यह एक प्रयोग का वर्णन कर सकता है पर खुद उसे कर नहीं सकता। यह कारणात्मक भाषा का अनुकरण कर सकता है पर उसके आंतरिक तंत्र में क्रिया‑परिणाम से जुड़े मॉडलों का अभाव रहता है।
जब तक कोई प्रणाली केवल पिछले टेक्स्ट से टेक्स्ट की भविष्यवाणी तक सीमित है, वह बुनियादी रूप से पैटर्न‑लर्नर बनी रहती है। यह तर्क का नकल कर सकती है, कारणों का वर्णन कर सकती है, और "दृष्टिकोण बदलने" का नाटक कर सकती है, पर वह साझा दुनिया में निवास नहीं करती जहाँ उसकी "मान्यताओं" का परिक्षण परिणामों से हो। यही अंतर है कि क्यों केवल भाषा‑कुशलता AGI तक पहुँचने के लिये पर्याप्त नहीं लगती।
भाषा बुद्धिमत्ता का शक्तिशाली इंटरफ़ेस है, पर बुद्धिमत्ता का पदार्थ नहीं। जो सिस्टम संभावित वाक्यांशों की भविष्यवाणी करता है, वह उस एजेंट से बहुत अलग है जो दुनिया में समझता, योजना बनाता और कार्रवाई करता है।
मनुष्य अवधारणाएँ देखकर, छूकर, हिलाकर और चीज़ों को नियंत्रित करके सीखते हैं। "कप" केवल उस शब्द का वाक्य उपयोग नहीं है; यह कोई चीज़ है जिसे आप पकड़ सकते हैं, भर सकते हैं, गिरा सकते हैं या तोड़ सकते हैं। मनोवैज्ञानिक इसे ग्राउंडिंग कहते हैं: अवधारणाएँ परसेप्शन और क्रिया से जुड़ी होती हैं।
एक कृत्रिम सामान्य बुद्धिमत्ता को संभवतः इसी तरह की ग्राउंडिंग की ज़रूरत होगी। विश्वसनीय सामान्यीकरण के लिए उसे प्रतीकों (शब्दों या आंतरिक प्रतिनिधित्वों) को भौतिक और सामाजिक दुनिया की स्थिर नियमितताओं से जोड़ना होगा।
मानक LLMs केवल टेक्स्ट से सीखते हैं। उनका "कप" की समझ मात्र सांख्यिकीय है: अरबों वाक्यों में शब्दों के सह‑प्रकट रहने के सहसंबंध। यह बातचीत और कोडिंग के लिये शक्तिशाली है, पर परिचित पैटर्न से बाहर दबाकर परीक्षण करने पर नाज़ुक हो जाता है—खासतौर पर ऐसे डोमेन में जहां प्रत्यक्ष इंटरैक्शन महत्वपूर्ण है।
सामान्य बुद्धिमत्ता में समय के ऊपर निरंतरता भी शामिल है: दीर्घकालिक स्मृति, ठोस लक्ष्य, और अपेक्षाकृत स्थिर प्राथमिकताएँ। मनुष्य महीनों और वर्षों में अनुभव जोड़ते हैं, मान्यताओं को संशोधित करते हैं, और परियोजनाओं का पीछा करते हैं।
LLMs के पास अपना अंतर्निहित स्थायी स्मरण नहीं होता और न ही स्वाभाविक लक्ष्य। कोई भी निरंतरता या "व्यक्तित्व" बाहरी टूल्स (डाटाबेस, प्रोफाइल, सिस्टम‑प्रॉम्प्ट) के द्वारा जोड़नी पड़ती है। डिफ़ॉल्ट रूप में हर क्वेरी एक ताज़ा पैटर्न‑मैचिंग अभ्यास है, न कि जीवन‑इतिहास का एक सुसंगत कदम।
AGI को अक्सर विस्तृत‑दायरे के कार्यों को हल करने की क्षमता के रूप में परिभाषित किया जाता है—जिसमें नवीन कार्य भी शामिल हैं—जो कारण और प्रभाव के बारे में सोचकर और पर्यावरण में हस्तक्षेप करके हासिल किया जाता है। इसका मतलब है:
LLMs एजेंट नहीं हैं; वे अनुक्रम में अगले टोकन जेनरेट करते हैं। वे योजनाओं का वर्णन कर सकते हैं या कारणों के बारे में बात कर सकते हैं क्योंकि ऐसे पैटर्न टेक्स्ट में मौजूद हैं, पर वे स्वाभाविक रूप से कार्रवाई नहीं करते, परिणामों को नहीं देखते और अपने आंतरिक मॉडलों को समायोजित नहीं करते।
एक LLM को एक क्रियाशील प्रणाली में बदलने के लिए इंजीनियरों को इसे परसेप्शन, स्मृति, टूल उपयोग और नियंत्रण के बाहरी घटकों में लपेटना पड़ता है। भाषा मॉडल सुझाव और मूल्यांकन के लिये एक शक्तिशाली मॉड्यूल बना रहता है, न कि एक स्वयं‑सम्पूर्ण सामान्य बुद्धिमत्ता वाला एजेंट।
संक्षेप में: सामान्य बुद्धिमत्ता के लिये ग्राउंडेड अवधारणाएँ, द्रुत स्मृति, कारणात्मक मॉडल और दुनिया के साथ अनुकूलनात्मक इंटरैक्शन चाहिए। भाषा‑कुशलता—यद्यपि बहुत उपयोगी—उस बड़े चित्र का केवल एक हिस्सा है।
जब लोग प्रवाही मॉडल से बातचीत करते हैं, तो यह स्वाभाविक लगता है कि सामने कोई मन है। यह भ्रम मजबूत है, पर यह भ्रम ही है।
शोधकर्ता इस बात पर असहमत हैं कि क्या कृत्रिम सामान्य बुद्धिमत्ता को चेतन होना चाहिए।
हमारे पास अभी कोई परीक्षणीय सिद्धांत नहीं है जो इसे तय करे। इसलिए यह जल्दबाजी होगी कि AGI को होना चाहिए या नहीं। फिलहाल महत्वपूर्ण यह है कि हम स्पष्ट हों कि वर्तमान LLMs में क्या कमी है।
एक बड़ा भाषा मॉडल अगले‑टोकन की सांख्यिकीय भविष्यवाणी करने वाला स्नैपशॉट है। इसके पास सत्रों के पार या यहां तक कि टर्न‑टू‑टर्न किसी स्थिर पहचान का निर्वाह नहीं होता, सिवाय इसके जो प्रॉम्प्ट और छोटा‑समय संदर्भ में एन्कोड हो।
जब LLM "मैं" कहता है, तो वह केवल डेटा से सीखे हुए भाषाई रीतियों का पालन कर रहा होता है, न कि किसी आंतरिक विषय का संदर्भ दे रहा होता है।
चेतन प्राणी अनुभव रखते हैं: दर्द, उबाऊपन, जिज्ञासा, संतोष। उनके पास आंतरिक लक्ष्य और परवाहें होती हैं—वे बाहरी पुरस्कारों से स्वतंत्र रूप से किसी चीज़ की परवाह करते हैं।
LLMs इसके विपरीत:
उनका "व्यवहार" पैटर्न‑मैचिंग का परिणाम है जो प्रशिक्षण और प्रॉम्प्टिंग द्वारा नियंत्रित होता है, न कि आंतरिक जीवन की अभिव्यक्ति।
भाषा हमारे लिए अन्य मनों तक पहुँचने की मुख्य खिड़की है, इसलिए प्रवाही संवाद व्यक्तित्व का दृश्यमान संकेत देता है। पर LLMs के साथ यही जगह हमें सबसे अधिक गुमराह करती है।
LLMs को व्यक्तिसमान मानना:
LLMs को लोगों जैसा व्यवहार देना वास्तविकता और अनुकरण के बीच की रेखा धुंधला कर देता है। AGI और वर्तमान AI जोखिमों के बारे में साफ़ सोचने के लिये हमें याद रखना होगा कि प्रभावशाली प्रदर्शन का मतलब अस्तित्वगत व्यक्तित्व नहीं होता।
अगर हमने कभी वास्तविक AGI बनाया, तो हम कैसे जानेंगे कि वह असली है और सिर्फ़ बेहद विश्वसनीय चैटबोट नहीं है?
ट्यूरिंग‑शैली परीक्षण। क्लासिक और आधुनिक ट्यूरिंग परीक्षण पूछते हैं: क्या प्रणाली मानव‑समान बातचीत कर सकती है इतनी कि लोगों को धोखा दे? LLMs पहले से ही यह काफी अच्छे से कर लेते हैं, जो दिखाता है कि यह कसौटी कितनी कमज़ोर है। चैट कौशल शैली नापता है, गहराई या वास्तविक‑विश्व दक्षता नहीं।
ARC‑शैली मूल्यांकन। Alignment Research Center (ARC) से प्रेरित कार्यों में नवीन तर्क पहेलियाँ, मल्टी‑स्टेप निर्देश और टूल उपयोग पर ध्यान होता है। वे जांचते हैं कि क्या सिस्टम अनदेखी समस्याएँ कौशलों को संयोजित करके हल कर सकता है। LLMs कुछ ऐसे कार्य कर सकते हैं—पर अक्सर सावधानी से तैयार प्रॉम्प्ट, बाहरी टूल्स और मानव निगरानी की ज़रूरत होती है।
एजेंसी परीक्षण। "एजेंट" परीक्षण यह पूछते हैं कि क्या प्रणाली समय के साथ खुले‑अंत लक्ष्य का पीछा कर सकती है: उप‑लक्ष्यों में बांटना, योजनाएं संशोधित करना, व्यवधानों का सामना करना, और परिणामों से सीखना। वर्तमान LLM‑आधारित एजेंट ऐसा दिखा सकते हैं पर भीतर से वे नाजुक स्क्रिप्टिंग और मानव‑निर्देश पर निर्भर होते हैं।
जब हम किसी चीज़ को वास्तविक AGI मानेंगे, तो कम से कम यह देखना चाहेंगे:
स्वायत्तता. यह खुद उप‑लक्ष्य तय करे, प्रगति मॉनिटर करे, और विफलताओं से बिना लगातार मानव मार्गदर्शन के उबर सके।
डोमेनों के पार ट्रांसफर. एक क्षेत्र में सीखी कौशलें बिना लाखों नए उदाहरणों के दूसरे बेहद अलग क्षेत्रों में भी प्रभावी हों।
वास्तविक‑दुनिया दक्षता. यह गंदे, अनिश्चित भौतिक, सामाजिक और डिजिटल पर्यावासों में योजना बना कर और कार्य कर सके जहाँ नियम अधूरे हों और परिणाम वास्तविक हों।
LLMs, यहाँ तक कि एजेंट फ्रेमवर्क में लिपटे हुए भी, सामान्यतः:
इसलिए सिर्फ़ चैट‑आधारित परीक्षण या संकुचित बेंचमार्क पास करना पर्याप्त नहीं है। असली AGI को पहचानने के लिये बातचीत की गुणवत्ता से आगे जाकर सतत स्वायत्तता, क्रॉस‑डोमेन सामान्यीकरण, और विश्वसनीय दुनिया में कार्रवाई देखनी होगी—वे क्षेत्र जहाँ वर्तमान LLMs को भागीक रूप से भी काफी स्कैफ़ोल्डिंग की ज़रूरत है।
अगर हम AGI को गंभीरता से लेते हैं, तो "एक बड़ा टेक्स्ट मॉडल" केवल एक घटक है, पूरा सिस्टम नहीं। अधिकांश वर्तमान शोध जो "AGI की ओर" लगता है, असल में LLMs को समृद्ध आर्किटेक्चरों के भीतर लपेटने के बारे में है।
एक प्रमुख दिशा है LLM‑आधारित एजेंट्स: ऐसे सिस्टम जो LLM को तर्क और योजना के कोर के रूप में उपयोग करते हैं, पर उसे घेरे होते हैं:
यहाँ LLM पूरा "बुद्धिमत्ता" नहीं रहता, बल्कि एक भाषा इंटरफ़ेस के रूप में व्यापक निर्णय‑निर्माण मशीन के अंदर एक लचीला घटक बन जाता है।
टूल‑यूज़िंग सिस्टम LLM को सर्च इंजन, डेटाबेस, कोड इंटरप्रेटर, या डोमेन‑विशेष API कॉल करने देते हैं। इससे यह फ़ायदा होता है:
यह कुछ टेक्स्ट‑केवल पैरों की कमजोरी ठीक कर सकता है, पर समस्या यह बदल देता है: समग्र बुद्धिमत्ता का भरोसा ऑर्केस्ट्रेशन और टूल डिज़ाइन पर होता है, सिर्फ़ मॉडल पर नहीं।
एक और रास्ता है मल्टीमॉडल मॉडल जो टेक्स्ट, इमेज, ऑडियो, वीडियो और कभी‑कभार सेंसर डेटा प्रोसेस करते हैं। ये मानवों के तरह परसेप्शन और भाषा को एकीकृत करने के करीब पहुँचते हैं।
एक कदम आगे बढ़कर LLMs को रोबोट्स या सिम्युलेटेड बॉडीज़ नियंत्रित करने पर रखा जाता है। ये सिस्टम फिजिकल फ़ीडबैक से सीख सकते हैं, कार्रवाई कर सकते हैं, और कारण‑सम्बन्धी और ग्राउंडिंग‑सम्बन्धी कुछ कमी को दूर कर सकते हैं।
इन सभी मार्गों से हम क़रीब AGI‑समान क्षमतियाँ ला सकते हैं, पर वे लक्ष्य को बदल भी देते हैं। अब प्रश्न नहीं है, “क्या एक अकेला LLM AGI बन सकता है?” बल्कि “क्या एक जटिल सिस्टम जिसमें LLM, टूल्स, स्मृति, परसेप्शन और एम्बोडिमेंट हो AGI‑समा़न व्यवहार का अनुकरण कर सकता है?”
यह फर्क महत्वपूर्ण है। एक LLM एक शक्तिशाली टेक्स्ट प्रेडिक्टर है। AGI—यदि संभव है—एक पूरा एकीकृत सिस्टम होगा, जिसमें भाषा केवल एक हिस्सा होगा।
वर्तमान बड़े भाषा मॉडलों को "AGI" कहना सिर्फ़ शब्दों का नुकसान नहीं है। यह प्रेरणाएँ विकृत कर देता है, सुरक्षा‑अंधदर्शिता पैदा करता है, और उन लोगों को भ्रमित करता है जिन्हें AI के बारे में वास्तविक निर्णय लेने होते हैं।
जब डेमो को "प्रारम्भिक AGI" के रूप में फ्रेम किया जाता है, तो उम्मीदें उन सीमाओं से बहुत आगे चल जाती हैं:
यदि उपयोगकर्ता सोचते हैं कि वे कुछ "सामान्य" या "लगभग मानव" से बात कर रहे हैं, तो वे:
अधिभरोसा साधारण बग और गलतियों को कहीं अधिक खतरनाक बना देता है।
नियामक और व्यापक जनसंख्या पहले से ही AI क्षमताओं को समझने में संघर्ष कर रही है। जब हर मजबूत ऑटोकम्पली को AGI के रूप में बाज़ार पर उतारा जाता है, तो कई समस्याएँ आती हैं:
सटीक शब्द—LLM, narrow model, AGI‑रिसर्च दिशा—अपेक्षाओं को वास्तविकता के अनुरूप रखने में मदद करते हैं। क्षमताओं और सीमाओं के बारे में स्पष्टता:
LLMs असाधारण पैटर्न मशीन हैं: वे विशाल मात्रा में टेक्स्ट को संपीड़ित करते हैं और संभावित निरंतरता की भविष्यवाणी करते हैं। यह उन्हें लेखन मदद, कोड सहायता, डेटा अन्वेषण और विचार परीक्षण के लिये शक्तिशाली बनाता है। पर यह आर्किटेक्चर फिर भी संकुचित है। इसमें स्व‑सम्पूर्ण आत्म, ग्राउंडेड समझ, दीर्घ‑अवधि लक्ष्य, या उस बहु‑डोमेन लर्निंग की लचीलेपन की कमी है जो AGI को परिभाषित करते हैं।
LLMs:
ये संरचनात्मक सीमाएँ बताती हैं कि केवल टेक्स्ट मॉडल्स को स्केल करने से सच्चा AGI उभरने की संभावना कम है। आप बेहतर प्रवाहिता, अधिक ज्ञान‑रिकॉल और तर्क के प्रभावी सिमुलेशन पा सकते हैं—पर न तो यह स्व‑जागरूकता देगा और न ही कोई वास्तविक चाहत या परवाह।
LLMs का प्रयोग वहां करें जहाँ पैटर्न‑पूर्वानुमान चमकता है:
मानव को निश्चित रूप से सर्किट में रखें जब भी:
आउटकम को सत्यापित करने के लिये उन्हें परिकल्पनाएँ मानें, सत्य मान कर नहीं।
LLMs को "AGI" कहना उनकी वास्तविक सीमाओं को छुपाता है और अति‑निर्भरता, नियामक भ्रम, और अप्रयोजित भय को बढ़ावा देता है। उन्हें उन्नत सहायक के रूप में देखना अधिक ईमानदार और सुरक्षित है—मानव वर्कफ़्लो में एम्बेडेड सहायक।
यदि आप व्यावहारिक उपयोगों और ट्रेड़‑ऑफ़्स में और गहराई से जाना चाहते हैं, तो हमारे /blog पर संबंधित लेख देखें। हमारी LLM‑संचालित टूल्स के पैकेज और मूल्य निर्धारण की जानकारी के लिये देखें /pricing।
AGI (Artificial General Intelligence) का मतलब एक ऐसी प्रणाली से है जो:
एक सरल नियम: सिद्धांततः AGI किसी भी बौद्धिक रूप से मांग करने वाले इंसानी काम को सीख सकता है, यदि उसे समय और संसाधन मिले, और हर नए काम के लिये अलग आर्किटेक्चर की ज़रूरत न पड़े।
आधुनिक LLMs:
ये व्यापक ज्ञान और तर्क का अनुकरण कर सकते हैं क्योंकि भाषा में मानव विशेषज्ञता का बहुत सारा भंडार होता है। पर ये:
लोग अक्सर फ्लुएंट भाषा को सामान्य बुद्धिमत्ता से जोड़ देते हैं क्योंकि:
इनसे "समझ" और एजेंसी का भ्रम बन जाता है। वास्तविकता में सिस्टम अभी भी डेटा में पैटर्न के आधार पर टेक्स्ट की भविष्यवाणी कर रहा है, न कि एक ग्राउंडेड विश्व मॉडल बनाकर अपने लक्ष्य स्वतंत्र रूप से आगे बढ़ा रहा है।
LLM को आप इस तरह सोच सकते हैं:
महत्वपूर्ण बिंदु:
LLMs तब अच्छा प्रदर्शन करते हैं जब काम ज्यादातर टेक्स्ट या कोड पर पैटर्न‑भविष्यवाणी के बारे में हो, जैसे:
वे कठिनाइयों या जोखिम में तब पड़ते हैं जब कामों को चाहिए:
“स्केलिंग लॉज़” दिखाते हैं कि मॉडल का आकार, डेटा और कंप्यूट बढ़ाने पर कई बेंचमार्कों पर प्रदर्शन स्थिर रूप से सुधरता है। पर स्केलिंग अकेले संरचनात्मक कमी नहीं भरती:
ज़्यादा स्केल देता है:
LLMs को शक्तिशाली सहायक की तरह उपयोग करें, न कि अधिकार वाले स्रोत की तरह:
डिज़ाइन नीति:
LLMs को “AGI” कहना कई समस्याएँ उत्पन्न करता है:
ठीक शब्दावली—"LLM", "narrow model", "LLMs का उपयोग करने वाले agentic सिस्टम"—अपेक्षाओं और जोखिमों को सुस्पष्ट करने में मदद करती है।
अगर हम वास्तव में AGI बनाते हैं, तो इसे सिर्फ अच्छा चैटबोट समझ लेने से अलग कैसे पहचानें?
एक व्यवहार्य मानदंड सेट में ये शामिल होंगे:
शोधकर्ता ऐसे व्यापक सिस्टम खोज रहे हैं जहाँ LLMs केवल घटक हों, पूरे बुद्धिमत्ता का समूचा हिस्सा नहीं:
ये दिशा‑रास्ते ग्राउंडिंग, कारणात्मकता और स्थायी स्थिति जोड़कर AGI‑समान क्षमताओं की ओर बढ़ती हैं। साथ ही वे प्रश्न को बदल देते हैं: अब सवाल नहीं रहता “क्या एक LLM अकेले AGI बन सकता है?”, बल्कि “क्या जटिल सिस्टम जो LLMs को शामिल करते हैं AGI‑समान व्यवहार का अनुकरण कर सकते हैं?”
इसलिए LLMs शक्तिशाली संकुचित (narrow) पैटर्न‑लर्नर हैं, न कि स्व‑सम्पूर्ण सामान्य बुद्धिमत्ता वाले एजेंट।
जो कुछ भी तर्क या स्मृति जैसा दिखता है, वह अगले‑टोकन उद्देश्य, स्केल और फाइन‑ट्यूनिंग से उभर रहा है, न कि स्पष्ट प्रतीकात्मक तर्क या स्थायी मान्यताओं से।
इन क्षेत्रों में इन्हें मजबूत मानव‑देखरेख और बाहरी टूल्स (सर्च, कैलकुलेटर, सिमुलेटर) की ज़रूरत होती है।
पर यह अपने आप सामान्य, स्वायत्त बुद्धिमत्ता नहीं बना देता। इसके लिये नए आर्किटेक्चरल अवयव और सिस्टम‑स्तरीय डिज़ाइन चाहिए।
वर्तमान LLMs, यहाँ तक कि एजेंट परत के साथ भी, इन बिंदुओं के लिये अक्सर भारी मानवीय स्क्रिप्टिंग और टूल ऑर्केस्ट्रेशन पर निर्भर रहते हैं—फिर भीrobustness और सामान्यता में पीछे हैं।