सर्गेई ब्रिन के पथ को जानें—प्रारम्भिक गूगल सर्च एल्गोरिदम से आज के जनरेटिव एआई तक—और स्केलिंग, उत्पाद प्रभाव, तथा खुले प्रश्नों पर मुख्य विचार समझें।

सर्गेई ब्रिन की कहानी सेलिब्रिटी या कंपनी ट्रिविया की वजह से महत्वपूर्ण नहीं है, बल्कि इसलिए कि यह सीधे तरीके से क्लासिक सर्च समस्याओं (खुले वेब पर सबसे अच्छा उत्तर कैसे ढूँढ़ें?) से आज की आधुनिक एआई की चुनौतियों (सहायक आउटपुट कैसे जनरेट करें बिना सटीकता, गति या भरोसे को खोए?) तक का मार्ग दर्शाती है। उनका काम एल्गोरिदम, डेटा और सिस्टम के प्रतिच्छेदन पर बैठता है—ठीक वहीं जहां सर्च और जनरेटिव एआई मिलते हैं।
यह माइलस्टोन का एक कांसेप्ट-फर्स्ट टूर है: PageRank जैसे विचारों ने प्रासंगिकता कैसे बदली, मशीन लर्निंग ने हाथ से बने नियमों की जगह कैसे ली, और क्यों डीप लर्निंग ने भाषा की समझ में सुधार किया। यह गॉसिप, आंतरिक ड्रामा, या हेडलाइन की टाइमलाइन नहीं है। लक्ष्य यह समझाना है क्यों ये बदलाव मायने रखते थे और उन्होंने लोगों के इस्तेमाल के उत्पादों को कैसे आकार दिया।
जनरेटिव एआई तब “स्केल पर” बनता है जब उसे सर्च की तरह काम करना होता है: लाखों उपयोगकर्ता, कम विलम्ब, अनुमानित लागत, और लगातार गुणवत्ता। इसका मतलब सिर्फ एक स्मार्ट मॉडल डेमो नहीं है. इसमें शामिल है:
अंत तक, आपको सर्च युग को आज के चैट-स्टाइल उत्पादों से जोड़ने में सक्षम होना चाहिए, समझना चाहिए कि रिट्रीवल और जेनरेशन क्यों मिल रहे हैं, और उत्पाद टीमों के लिए मापन, प्रासंगिकता, सिस्टम डिज़ाइन, और जिम्मेदार तैनाती जैसे व्यावहारिक सिद्धांत उधार ले सकेंगे—जो दोनों दुनिया में लागू होते हैं।
सर्गेई ब्रिन का सर्च में मार्ग अकादमिक पृष्ठभूमि से शुरू हुआ, जहाँ मुख्य सवाल “एक वेबसाइट बनाना” नहीं थे, बल्कि सूचना के अतिभार का प्रबंधन कैसे करें, ये थे। गूगल कंपनी बनने से पहले, ब्रिन कंप्यूटर साइंस रिसर्च में डूबे हुए थे—डाटाबेस सिस्टम, डेटा माइनिंग और सूचना पुनर्प्राप्ति जैसे क्षेत्रों में—जो यह पूछते हैं कि बड़े मात्रा के डेटा को कैसे संग्रहीत करें और उपयोगी उत्तर milliseconds में कैसे लौटाएँ।
ब्रिन ने अंडरग्रेजुएट में गणित और कंप्यूटर साइंस पढ़ा और बाद में स्टैनफोर्ड में ग्रेजुएट वर्क किया, जो वेब के उभरते पैमाने पर रिसर्च का केंद्र था। शोधकर्ता पहले से ही उन समस्याओं से जूझ रहे थे जो आज भी परिचित लगती हैं: गंदा डेटा, अनिश्चित गुणवत्ता, और जो लोग टाइप करते हैं और वे वास्तव में क्या मतलब रखते हैं उसके बीच का अंतर।
1990 के दशक के अंत में सर्च मुख्यतः कीवर्ड मिलान और बुनियादी रैंकिंग संकेतों से संचालित था। जब वेब छोटा था तो यह काम कर गया, लेकिन पन्नों के बढऩे और क्रिएटर्स के सिस्टम को गेम करना सीखने के साथ यह घट गया। सामान्य चुनौतियों में शामिल थे:
प्रेरक विचार सरल था: अगर वेब एक विशाल पुस्तकालय है, तो परिणामों को रैंक करने के लिए सिर्फ टेक्स्ट मिलान से अधिक की आवश्यकता है—आपको विश्वसनीयता और महत्ता को दिखाने वाले संकेत चाहिए। वेब जानकारी को व्यवस्थित करने के लिए ऐसे तरीके चाहिए थे जो सिर्फ पृष्ठ पर शब्दों से नहीं, बल्कि वेब की संरचना से उपयोगिता का अनुमान लगा सकें।
ये शुरुआती शोध प्राथमिकताएँ—गुणवत्ता को मापना, हेरफेर का सामना करना, और चरम स्केल पर काम करना—बाद के सर्च और एआई परिवर्तनों की नींव बनीं, जिनमें मशीन लर्निंग–आधारित रैंकिंग और अंततः जनरेटिव दृष्टिकोण शामिल हैं।
सर्च का लक्ष्य साउंड करता है: जब आप कोई प्रश्न टाइप करते हैं तो सबसे उपयोगी पृष्ठ शीर्ष पर आना चाहिए। 1990 के दशक के अंत में यह उतना आसान नहीं था। वेब तेजी से बढ़ रहा था, और कई शुरुआती सर्च इंजिन भारी रूप से उन बातों पर निर्भर करते थे जो पृष्ठ अपने बारे में कहता था—उसका टेक्स्ट, कीवर्ड, और मेटा टैग। इससे परिणाम गेमिंग आसान हो गया और उपयोगकर्ता अनुभव अक्सर निराशाजनक था।
सर्गेई ब्रिन और लैरी पेज का मुख्य अंतर्ज्ञान था कि वेब की लिंक संरचना को एक संकेत के रूप में माना जाए। अगर एक पृष्ठ दूसरे को लिंक करता है, तो वह एक तरह का “वोट” दे रहा है। सभी वोट एक जैसे नहीं होते: एक अच्छी मानी जाने वाली साइट से लिंक किसी अज्ञात साइट से लिंक से अधिक मायने रखता है।
वैचारिक रूप से, PageRank महत्ता को इस तरह मापता है: कौन से पृष्ठ अन्य महत्वपूर्ण पृष्ठों द्वारा संदर्भित किए जाते हैं? यह परस्पर प्रश्न वेब स्केल पर गणितीय रैंकिंग बन जाता है। नतीजा प्रासंगिकता का “उत्तर” नहीं था—लेकिन एक शक्तिशाली नया घटक था।
PageRank को गूगल की प्रारम्भिक सफलता का पूरा श्रेय देना आसान है, पर व्यवहार में रैंकिंग एक रेसिपी है: एल्गोरिदम कई संकेतों (टेक्स्ट मैचिंग, ताज़गी, स्थान, गति, और अधिक) को मिलाते हैं ताकि यह अनुमान लगाया जा सके कि व्यक्ति वास्तव में क्या चाहता है।
और प्रेरणाएँ जटिल हैं। जैसे ही रैंकिंग मायने रखती है, स्पैम अनुसरण करता है—लिंक फार्म्स, कीवर्ड स्टफिंग और अन्य चालें जो दिखने में प्रासंगिक होती हैं पर मददगार नहीं होतीं। सर्च एल्गोरिदम एक चलती-फिरती विरोधी खेल बन गए: प्रासंगिकता सुधारो, हेरफेर का पता लगाओ, और सिस्टम समायोजित करो।
वेब बदलता है, भाषा बदलती है, और उपयोगकर्ता अपेक्षाएँ बदलती हैं। हर सुधार नए किनारे के मामलों को जन्म देता है। PageRank ने सर्च को खत्म नहीं किया—यह क्षेत्र को साधारण कीवर्ड मिलान से आधुनिक सूचना पुनर्प्राप्ति की ओर मोड़ दिया, जहाँ प्रासंगिकता को लगातार मापा, परखा और परिष्कृत किया जाता है।
एक होशियार रैंकिंग विचार उस समय पर्याप्त नहीं है जब आपका “डेटाबेस” पूरा वेब हो। शुरुआती गूगल सर्च को अलग महसूस कराने वाली बात सिर्फ प्रासंगिकता नहीं थी—बल्कि वह यह क्षमता थी कि वह वह प्रासंगिकता लाखों लोगों के लिए तेज़ी और निरंतरता के साथ दे सके।
इंटरनेट-स्केल पर सर्च क्रॉलिंग से शुरू होता है: पृष्ठों की खोज, उन्हें दोबारा विजिट करना, और एक ऐसी वेब का सामना करना जो कभी नहीं रुकती। फिर आता है इंडेक्सिंग: गंदे, विविध कंटेंट को उन संरचनाओं में बदलना जिन्हें मिलीसेकंड में क्वेरी किया जा सके।
छोटे पैमाने पर आप भण्डारण और कंप्यूट को एक single-machine समस्या की तरह समझ सकते हैं। बड़े पैमाने पर हर चुनाव एक सिस्टम ट्रेडऑफ बन जाता है:
उपयोगकर्ता सर्च गुणवत्ता को रैंकिंग स्कोर के रूप में नहीं देखते—वे इसे ऐसे परिणाम पृष्ठ के रूप में अनुभव करते हैं जो हर बार तुरंत लोड होता है। अगर सिस्टम बार-बार फेल हो, परिणाम टाइमआउट हों, या ताज़गी पीछे रहे, तो शानदार प्रासंगिकता वाले मॉडल भी व्यवहार में खराब लगते हैं।
इसीलिए अपटाइम, ग्रेसफुल डिग्रेडेशन, और लगातार प्रदर्शन के लिए इंजीनियरिंग रैंकिंग से अनिवार्य रूप से जुड़ी हुई है। 200ms में भरोसेमंद रूप से मिलने वाला थोड़ा कम-परफेक्ट परिणाम अक्सर देर या अनियमित रूप से आने वाले बेहतर परिणाम से बेहतर होता है।
स्केल पर आप "बस शिप" नहीं कर सकते। सर्च उन पाइपलाइनों पर निर्भर करता है जो संकेत (क्लिक्स, लिंक, भाषा पैटर्न) इकट्ठा करती हैं, मूल्यांकन चलाती हैं, और परिवर्तनों को धीरे-धीरे रोल आउट करती हैं। लक्ष्य प्रारम्भिक चरण में ही regressions पकड़ना है—इससे पहले कि वे सभी को प्रभावित करें।
एक लाइब्रेरी कैटलॉग मानता है कि किताबें स्थिर, क्यूरेटेड और धीरे-धीरे बदलती हैं। वेब एक ऐसी लाइब्रेरी है जहाँ किताबें खुद को फिर से लिखती हैं, शेल्फ चलते हैं, और नए कमरे लगातार दिखाई देते हैं। इंटरनेट-स्केल सर्च वही मशीनरी है जो उस गतिशील लक्ष्य के लिए उपयोगी कैटलॉग बनाए रखती है—तेज़, भरोसेमंद और लगातार अपडेटेड।
प्रारम्भिक सर्च रैंकिंग नियमों पर काफी निर्भर थी: अगर पृष्ठ में शीर्षक में सही शब्द हैं, अगर वह बार-बार लिंक हुआ है, अगर वह जल्दी लोड होता है, इत्यादि। ये संकेत मायने रखते थे—पर यह भी कि हर संकेत का कितना वजन होना चाहिए यह अक्सर मैन्युअल कला थी। इंजीनियर वज़न समायोजित कर सकते थे, प्रयोग चला सकते थे, और पुनरावृत्ति कर सकते थे। यह काम करता था, पर वेब और उपयोगकर्ता अपेक्षाओं के फैलने पर इसकी एक सीमा आ गई।
“लर्निंग टू रैंक” का मतलब है कि एक सिस्टम यह सीखता है कि अच्छे परिणाम कैसे दिखते हैं, बहुत सारे उदाहरणों का अध्ययन करके।
लंबी चेकलिस्ट लिखने की बजाय, आप मॉडल को कई पुराने सर्च और परिणाम खिलाते हैं—जैसे उपयोगकर्ता किन परिणामों का चयन करते थे, किन्हें जल्दी छोड़ देते थे, और किन पृष्ठों को मानव समीक्षकों ने सहायक माना। समय के साथ, मॉडल बेहतर हो जाता है कि कौन से परिणाम ऊँचे होने चाहिए।
सरल उपमा: शिक्षक हर क्लास के लिए सीटिंग प्लान लिखने की बजाय देखता है कि कौन सी व्यवस्था बेहतर चर्चा लाती है और स्वतः समायोजन करता है।
यह परिवर्तन क्लासिक संकेतों जैसे लिंक या पृष्ठ गुणवत्ता को मिटा नहीं देता—बल्कि यह बदल देता है कि उन्हें कैसे संयोजित किया जाता है। “शांत” हिस्से का अर्थ है कि उपयोगकर्ता के दृष्टिकोण से सर्च बॉक्स वैसा ही दिख सकता है; पर अंदर, गुरुत्व केंद्र हस्तनिर्मित स्कोरिंग फॉर्मूलों से डेटा-प्रशिक्षित मॉडलों की ओर बढ़ गया।
जब मॉडेल्स डेटा से सीखते हैं तो मापन मार्गदर्शक बन जाता है।
टीमें प्रासंगिकता मेट्रिक्स (क्या परिणाम क्वेरी संतुष्ट करते हैं?), ऑनलाइन A/B टेस्ट (क्या बदलाव वास्तविक उपयोगकर्ता व्यवहार सुधारता है?), और मानवीय फीडबैक (क्या परिणाम सटीक, सुरक्षित और उपयोगी हैं?) पर निर्भर करती हैं। कुंजी यह है कि मूल्यांकन को लगातार माना जाए—क्योंकि लोग क्या खोजते हैं और “अच्छा” क्या दिखता है, बदलता रहता है।
नोट: विशिष्ट मॉडल डिज़ाइन्स और आंतरिक संकेत समय के साथ भिन्न होते हैं और सार्वजनिक नहीं होते; महत्वपूर्ण सीखने योग्य बात मनोवृत्ति का परिवर्तन है—डेटा-समर्थित सीखने वाली प्रणालियाँ जिनका परीक्षण कठोरता से होता है।
डीप लर्निंग बहु-स्तरीय न्यूरल नेटवर्क्स से बनी मैथड्स का समूह है। नियम-आधारित शर्तें लिखने के बजाय ("अगर क्वेरी में X है तो Y बढ़ाओ"), ये मॉडल बड़े डेटा से पैटर्न सीधे सीखते हैं। यह परिवर्तन सर्च के लिए महत्वपूर्ण था क्योंकि भाषा गन्दा है: लोग गलती से टाइप करते हैं, संदर्भ निहित करते हैं, और एक ही शब्द का अलग अर्थ हो सकता है।
पारंपरिक रैंकिंग संकेत—लिंक, एंकर, ताज़गी—शक्तिशाली हैं, पर वे यह नहीं समझते कि क्वेरी वास्तव में क्या हासिल करना चाहती है। डीप लर्निंग मॉडल प्रतिनिधित्व सीखने में अच्छे हैं: शब्दों, वाक्यों और यहां तक कि छवियों को घनत्व वेक्टर में बदलना जो अर्थ और समानता को पकड़ते हैं।
व्यवहार में, इससे सक्षम हुआ:
डीप लर्निंग मुफ़्त नहीं है। न्यूरल मॉडल्स का प्रशिक्षण और सेवा महंगी हो सकती है, विशेष हार्डवेयर और सावधान इंजीनियरिंग की जरूरत होती है। उन्हें डेटा चाहिए—साफ़ लेबल्स, क्लिक संकेत और मूल्यांकन सेट—अन्यथा वे गलत शॉर्टकट सीख सकते हैं।
व्याख्यात्मकता भी चुनौती है। जब कोई मॉडल रैंकिंग बदलता है, तो यह सरल वाक्य में बताना कठिन होता है कि उसने परिणाम A को B पर क्यों चुना, जो डिबगिंग और भरोसे को जटिल बनाता है।
सबसे बड़ा परिवर्तन तकनीकी से अधिक संगठनात्मक था: न्यूरल मॉडल्स अब साइड एक्सपेरिमेंट नहीं रहे और वे उस चीज़ का हिस्सा बन गए जो उपयोगकर्ता “सर्च गुणवत्ता” के रूप में अनुभव करते हैं। प्रासंगिकता बढ़ते हुए सीखने वाले मॉडलों पर निर्भर हुई—मापा गया, परखा गया, और शिप किया गया—केवल संकेतों के मैनुअल ट्यूनिंग पर नहीं।
क्लासिक सर्च एआई ज्यादातर रैंकिंग और भविष्यवाणी के बारे में था। एक क्वेरी और पृष्ठों के सेट को देखकर सिस्टम यह भविष्यवाणी करता था कि कौन से परिणाम सबसे अधिक प्रासंगिक हैं। भले ही मशीन लर्निंग ने नियमों की जगह ली हो, लक्ष्य वही रहा: “अच्छा मैच”, “स्पैम” या “उच्च गुणवत्ता” जैसे स्कोर असाइन करके उन्हें सॉर्ट करना।
जनरेटिव एआई आउटपुट को बदल देता है। मौजूदा दस्तावेज़ों में से चुनने के बजाय, मॉडल पाठ, कोड, सारांश और यहां तक कि छवियाँ भी पैदा कर सकता है। इसका मतलब उत्पाद एक ही प्रतिक्रिया में उत्तर दे सकता है, ईमेल ड्राफ्ट कर सकता है, या कोड का स्निपेट लिख सकता है—उपयोगी, पर मौलिक रूप से लिंक लौटाने से अलग।
ट्रांसफ़ॉर्मर्स ने यह व्यावहारिक बनाया कि मॉडल पूरे वाक्य और दस्तावेज़ में रिश्तों पर ध्यान दें, न कि केवल पास के शब्दों पर। पर्याप्त प्रशिक्षण डेटा के साथ, ये मॉडल भाषा और तर्क-समान व्यवहार के व्यापक पैटर्न सीख लेते हैं: पराफ्रेज़िंग, अनुवाद, निर्देशों का पालन, और विभिन्न विषयों को जोड़ना।
बड़े मॉडलों में ज़्यादा डेटा और कंप्यूट अक्सर बेहतर प्रदर्शन देते हैं: कम स्पष्ट गलतियाँ, मज़बूत लेखन, और बेहतर निर्देश-अनुपालन। पर रिटर्न अंतहीन नहीं होते। लागत तेजी से बढ़ती है, प्रशिक्षण डेटा की गुणवत्ता बाधा बन जाती है, और कुछ प्रकार की विफलताएँ केवल मॉडल बड़ा करने से गायब नहीं होतीं।
जनरेटिव सिस्टम्स तथ्यों का “हैलुसीनेट” कर सकते हैं, प्रशिक्षण डेटा में मौजूद पक्षपात को प्रतिबिंबित कर सकते हैं, या हानिकारक कंटेंट बनाने के लिए प्रेरित किए जा सकते हैं। वे निरंतरता में भी संघर्ष करते हैं: दो बहुत मिलते-जुलते प्रॉम्प्ट अलग उत्तर दे सकते हैं। क्लासिक सर्च की तुलना में चुनौती शिफ्ट होती है: “क्या हमने सबसे अच्छा स्रोत रैंक किया?” से बदलकर “क्या जेनरेट किया गया उत्तर सटीक, ग्राउंडेड और सुरक्षित है?” बन जाता है।
जनरेटिव एआई डेमो में जादुई लग सकता है, पर इसे लाखों (या करोड़ों) रिक्वेस्ट्स के लिए चलाना उतना ही गणित और संचालन की समस्या है जितना कि रिसर्च। यहीं सर्च युग से मिली सीखें—दक्षता, विश्वसनीयता और कठोर मापन—अभी भी लागू होती हैं।
बड़े मॉडल का प्रशिक्षण असल में मैट्रिक्स गुणा के लिए फैक्टरी लाइन की तरह है। “स्केल” आम तौर पर GPU या TPU के बेड़े का मतलब होता है, जिन्हें वितरित प्रशिक्षण में वायर्ड किया जाता है ताकि हजारों चिप्स एक सिस्टम की तरह काम करें।
इससे व्यावहारिक सीमाएँ सामने आती हैं:
सर्विंग प्रशिक्षण से अलग है: उपयोगकर्ता अधिकतम सटीकता पर नहीं बल्कि प्रतिक्रिया समय और संगति पर ध्यान देते हैं। टीमें संतुलन बिठाती हैं:
क्योंकि मॉडल का व्यवहार प्रायिक है, मॉनिटरिंग केवल “सर्वर चालू है?” से बहुत आगे है। यह गुणवत्ता ड्रिफ्ट, नए फेल्योर मोड, और मॉडल/प्रॉम्प्ट अपडेट के बाद के सूक्ष्म रिग्रेशनों को ट्रैक करना है। इसमें अक्सर मानवीय समीक्षा लूप्स के साथ ऑटोमेटेड टेस्ट शामिल होते हैं।
लागत को सामान्य रखने के लिए टीमें कंप्रेशन, डिस्टिलेशन (एक छोटे मॉडल को बड़े मॉडल की नकल सिखाना), और रूटिंग (आसान क्वेरीज को सस्ती मॉडल पर भेजना और ज़रूरत पर ही बड़े मॉडल को उठाना) पर भरोसा करती हैं। ये बिना चमकदार परिर्वतन, वे उपकरण हैं जो जनरेटिव एआई को वास्तविक उत्पादों में व्यवहार्य बनाते हैं।
सर्च और चैट अक्सर प्रतिस्पर्धी दिखते हैं, पर इन्हें अलग उपयोगकर्ता लक्ष्यों के लिए अनुकूलित इंटरफेस के रूप में समझना बेहतर है।
क्लासिक सर्च तेज, सत्यापन योग्य नेविगेशन के लिए अनुकूलित है: “X के लिए सबसे अच्छा स्रोत ढूँढ़ो” या “मुझे सही पृष्ठ पर पहुँचा दो।” उपयोगकर्ता कई विकल्पों की उम्मीद करते हैं, शीर्षक स्कैन कर सकते हैं, और विश्वसनीयता को परखी हुई cues (प्रकाशक, तारीख, स्निपेट) से आकलित कर लेते हैं।
चैट संश्लेषण और खोज के लिए अनुकूलित है: “मुझे समझाइए,” “तुलना करें,” “ड्राफ्ट करें,” या “अगला क्या करना चाहिए?” मूल्य केवल पृष्ठ ढूँढ़ना नहीं है—बल्कि बिखरी जानकारी को सारगर्भित उत्तर में बदलना, स्पष्ट करने वाले प्रश्न पूछना, और बातचीत में संदर्भ बनाए रखना है।
अधिकतर व्यावहारिक उत्पाद अब दोनों को मिलाते हैं। एक सामान्य तरीका है रिट्रीवल-ऑगमेंटेड जेनरेशन (RAG): सिस्टम पहले भरोसेमंद इंडेक्स (वेब पृष्ठ, डॉक्यूमेंट, नॉलेज बेस) से रिट्रीव करता है, फिर जो मिला उसके आधार पर उत्तर जनरेट करता है।
इस ग्राउंडिंग का महत्व इसलिए है क्योंकि यह सर्च की ताकत (ताज़गी, कवरिज़, ट्रेसबिलिटी) और चैट की ताकत (सारांश, तर्क, संवादात्मक प्रवाह) के बीच पुल बनाता है।
जब जेनरेशन शामिल हो, UI को "बस यहाँ उत्तर है" पर रुकना नहीं चाहिए। मजबूत डिज़ाइन जोड़ते हैं:
उपयोगकर्ता जल्दी नोटिस करते हैं जब सहायक खुद से विरोधाभास करता है, बीच में नियम बदलता है, या यह नहीं बता पाता कि जानकारी कहाँ से आई। सुसंगत व्यवहार, स्पष्ट स्रोत-प्रस्तुतीकरण, और प्रत्याशित नियंत्रण blended सर्च+चैट अनुभव को भरोसेमंद बनाते हैं—खासकर तब जब उत्तर वास्तविक निर्णयों को प्रभावित करता हो।
जिम्मेदार एआई को समझना सबसे आसान तब है जब उसे परिचालन लक्ष्यों के रूप में रखा जाए, न कि नारे के रूप में। जनरेटिव प्रणालियों के लिए यह आम तौर पर अर्थ रखता है: सुरक्षा (हानिकारक निर्देश या उत्पीड़न न देना), गोपनीयता (संवेदी डेटा या निजी जानकारी याद न करना), और निष्पक्षता (समूहों के साथ प्रणालीगत हानि न करना)।
क्लासिक सर्च का मूल्यांकन एक साफ़ "आकार" रखता था: एक क्वेरी दीजिए, दस्तावेज़ रैंक करें, फिर मापिए कि कितनी बार उपयोगकर्ता अपनी ज़रूरत पाए। भले ही प्रासंगिकता विषयक हो सकती थी, आउटपुट सीमित था—मौजूदा स्रोतों के लिंक।
जनरेटिव एआई अनगिनत संभव उत्तर उत्पन्न कर सकता है, जिनमें सूक्ष्म विफलताएँ हो सकती हैं:
इसलिए मूल्यांकन किसी एक स्कोर के बजाय टेस्ट सूट्स की तरह होता है: तथ्यों की जाँच, विषाक्तता और पक्षपात जाँच, अस्वीकार व्यवहार, और डोमेन-विशिष्ट अपेक्षाएँ (स्वास्थ्य, वित्त, कानूनी)।
कई एज मामलों की अनंतता के कारण टीमें अक्सर कई चरणों पर मानवीय इनपुट का उपयोग करती हैं:
क्लासिक सर्च से मुख्य अंतर यह है कि सुरक्षा केवल “बुरी साइट फ़िल्टर” नहीं है। यह तब मॉडल के व्यवहार को डिजाइन करना और सबूत के साथ साबित करना है कि वे व्यवहार बड़े पैमाने पर टिकते हैं।
सर्गेई ब्रिन की शुरुआती गाथा याद दिलाती है कि ब्रेकथ्रू एआई उत्पाद आम तौर पर तेज़ डेमो से नहीं, बल्कि एक स्पष्ट काम और हकीकत को मापने की आदत से शुरू होते हैं। इन आदतों में से कई आज भी तब लागू होते हैं जब आप जनरेटिव एआई के साथ काम कर रहे हों।
सर्च सफल हुआ क्योंकि टीमों ने गुणवत्ता को ऐसी चीज माना जिसे आप निहार सकते हैं, सिर्फ बहस नहीं कर सकते। उन्होंने अनगिनत प्रयोग चलाए, स्वीकार किया कि छोटे सुधार जोड़कर बड़े परिणाम लाते हैं, और उपयोगकर्ता के इरादे को केंद्र में रखा।
एक उपयोगी मानसिक मॉडल: अगर आप यह बताने में असमर्थ हैं कि उपयोगकर्ता के लिए “बेहतर” का क्या मतलब है, तो आप इसे भरोसेमंद तरीके से सुधार नहीं कर सकते। यह रैंकिंग वेब पृष्ठों के लिए जितना सत्य था, उतना ही मॉडल-प्रस्तावित उत्तरों के लिए भी सच है।
क्लासिक सर्च गुणवत्ता अक्सर प्रासंगिकता और ताज़गी तक घटाकर देखी जा सकती थी। जनरेटिव एआई नया आयाम जोड़ता है: सटिकता, टोन, पूर्णता, सुरक्षा, उद्धरण व्यवहार, और यहाँ तक कि संदर्भ-विशिष्ट “सहायकता”। दो उत्तर विषय के हिसाब से समान हो सकते हैं पर भरोसे के लिहाज से बहुत अलग।
इसका मतलब है कि आपको कई मूल्यांकन चाहिए—ऑटोमैटेड चेक, मानव समीक्षा, और वास्तविक दुनिया का फीडबैक—क्योंकि कोई एक स्कोर पूरे उपयोगकर्ता अनुभव को पकड़ नहीं पाता।
सर्च से सबसे अधिक हस्तांतरित होने वाला पाठ संगठनात्मक है: स्केल पर गुणवत्ता के लिए कड़ा सहयोग चाहिए। प्रोडक्ट यह परिभाषित करता है कि “अच्छा” क्या है, एमएल मॉडल्स को सुधारता है, इंफ्रास्ट्रक्चर लागत और लेटेंसी को नियंत्रित रखता है, लीगल और नीति सीमाएँ तय करते हैं, और सपोर्ट वास्तविक उपयोगकर्ता दर्द को उभारे।
यदि आप इन सिद्धांतों को असली उत्पाद में बदलना चाहते हैं, तो एक व्यावहारिक तरीका यह है कि आप जल्दी ही पूरा लूप प्रोटोटाइप करें—UI, रिट्रीवल, जेनरेशन, इवैल्यूएशन हुक्स और डिप्लॉयमेंट। Koder.ai जैसे प्लेटफ़ॉर्म ऐसी “बिल्ड फास्ट, मेज़र फास्ट” वर्कफ़्लो के लिए डिज़ाइन किए गए हैं: आप चैट इंटरफेस के माध्यम से वेब, बैकएंड, या मोबाइल ऐप बना सकते हैं, प्लानिंग मोड में जल्दी पुनरावृत्ति कर सकते हैं, और जब प्रयोग गड़बड़ हों तो स्नैपशॉट/रोलबैक का उपयोग कर सकते हैं—यह तब बेहद उपयोगी होता है जब आप प्रॉबैबिलिस्टिक सिस्टम शिप कर रहे हों जो सावधान रोलआउट मांगते हैं।
सर्गेई ब्रिन की कहानी एक स्पष्ट चाप दिखाती है: सुरुचिपूर्ण एल्गोरिदम (PageRank और लिंक विश्लेषण) से शुरू करें, फिर मशीन-लर्न्ड रैंकिंग की ओर शिफ्ट करें, और अब उन जनरेटिव सिस्टम्स की ओर बढ़ें जो केवल पन्नों की ओर इशारा करने के बजाय उत्तर ड्राफ्ट कर सकते हैं। हर कदम ने क्षमता बढ़ाई—और विफलता के सतह को भी फैलाया।
क्लासिक सर्च ज्यादातर आपको स्रोत खोजने में मदद करता था। जनरेटिव एआई अक्सर सारांश करता है और निर्णय लेता है, जो कठिन प्रश्न उठाता है: सच्चाई को हम कैसे मापते हैं? हम स्रोतों का उद्धरण ऐसा कैसे करें कि उपयोगकर्ता वाकई भरोसा करें? और हम अनिश्चितता—मेडिकल सलाह, कानूनी संदर्भ, या ब्रेकिंग न्यूज़—को ऐसे कैसे संभालें कि आत्मविश्वासी लगने वाले टेक्स्ट में अनिश्चितता बदल न जाए?
स्केल केवल इंजीनियरिंग का दिखावा नहीं; यह आर्थिक सीमा भी है। प्रशिक्षण रन भारी कंप्यूट मांगते हैं, और सर्विंग लागत हर उपयोगकर्ता क्वेरी के साथ बढ़ती है। इससे दबाव पड़ता है कि कोनों काटे जाएँ (छोटा context, छोटे मॉडल, कम सुरक्षा जांच) या क्षमता कुछ बड़ी कंपनियों के बीच केंद्रीकृत हो जाए।
जैसे-जैसे सिस्टम कंटेंट जनरेट करते हैं, गवर्नेंस सिर्फ सामग्री मॉडरेशन से आगे बढ़ जाता है। इसमें पारदर्शिता (मॉडल को किस डेटा ने आकार दिया), जवाबदेही (हानि के लिए कौन जिम्मेदार होगा), और प्रतिस्पर्धात्मक गतिशीलताएँ (खुले बनाम बंद मॉडल, प्लेटफ़ॉर्म लॉक-इन, और अनपेक्षित रूप से कुछ खिलाड़ियों को फ़ायदा पहुँचाने वाला नियम शामिल है)।
जब आप एक चकाचौंध डेमो देखते हैं, तो पूछें: कठिन एज मामलों पर क्या होता है? क्या यह स्रोत दिखा सकता है? जब इसे पता न हो तो यह कैसे बर्ताव करता है? वास्तविक ट्रैफ़िक स्तरों पर लेटेंसी और लागत क्या होंगी—प्रयोगशाला नहीं?
अगर आप गहराई में जाना चाहते हैं, तो सिस्टम स्केलिंग और सुरक्षा जैसे संबंधित विषयों का अन्वेषण /blog पर करना उपयोगी होगा.
वह एक उपयोगी लेंस हैं जो परम्परागत सूचना पुनर्प्राप्ति की समस्याओं (प्रासंगिकता, स्पैम-प्रतिरोध, स्केल) को आज के जनरेटिव एआई मुद्दों (ग्राउंडिंग, लेटेंसी, सुरक्षा, लागत) से जोड़ने में मदद करते हैं। मकसद जीवनी नहीं है—बल्कि यह दिखाना है कि सर्च और आधुनिक एआई एक ही मूल बाधाओं को साझा करते हैं: विशाल पैमाने पर भरोसा बनाए रखना।
सर्च तब “एट स्केल” होता है जब उसे लाखों क्वेरी कम विलम्ब, उच्च अपटाइम और लगातार अपडेटेड डेटा के साथ भरोसेमंद तरीके से संभालना पड़ता है.
जनरेटिव एआई तब “एट स्केल” होता है जब उसे वही करना होता है — परंतु आउटपुट बनाने के साथ। इससे अतिरिक्त बाधाएँ आती हैं जैसे:
1990 के दशक के अंत में सर्च मुख्यतः कीवर्ड मिलान और सरल संकेतों पर निर्भर थी, जो वेब के विस्फोट के साथ असफल हो गई।
सामान्य विफलताएँ थीं:
PageRank ने लिंक को एक तरह के आत्मविश्वास के वोट के रूप में माना, और लिंक देने वाले पृष्ठ की महत्ता के अनुसार वोट का वजन बदल दिया।
व्यवहार में, इसने:
क्योंकि रैंकिंग ध्यान और पैसे को प्रभावित करती है, यह एक विरोधात्मक (adversarial) प्रणाली बन जाती है। जैसे ही कोई सिग्नल काम करता है, लोग उसे exploite करने की कोशिश करते हैं।
इसलिए निरंतर पुनरावृत्ति ज़रूरी है:
वेब-स्केल पर, “गुणवत्ता” में सिस्टम प्रदर्शन भी शामिल होता है। उपयोगकर्ता गुणवत्ता को इस तरह अनुभव करते हैं:
200ms में लगातार मिलने वाला थोड़ा कम-ऑप्टिमल परिणाम उस बेहतर परिणाम से बेहतर हो सकता जो लेट या अनियमित रूप से आता है।
रैंकिंग सीखना ("learning to rank") हाथ से लिखे स्कोरिंग नियमों की जगह डाटा पर प्रशिक्षित मॉडल ले आता है (क्लिक व्यवहार, मानव निर्णायक, और अन्य संकेत)।
हाथ से तय करने के बजाय कि हर संकेत का कितना वजन होगा, मॉडल उन संयोजनों को सीखता है जो “सहायक परिणाम” की बेहतर भविष्यवाणी करते हैं। UI पर फर्क कम दिखता है, पर अंदरूनी व्यवस्था अधिक डेटा-प्रेरित और मूल्यांकन-निर्भर हो जाती है।
डीप लर्निंग ने अर्थ प्रतिनिधित्व (representations) बेहतर किए, जिससे सिस्टम:
व्यापारिक लागतें भी बढ़ीं: अधिक कंप्यूट, ज़्यादा डेटा और रैंकिंग परिवर्तन को समझना कठिन हुआ।
क्लासिक सर्च मुख्यतः मौजूदा दस्तावेज़ों का चयन और रैंकिंग करता है। जनरेटिव एआई पाठ पैदा करता है, जो विफलता के मोड बदल देता है।
नए जोखिमों में शामिल हैं:
केंद्रित प्रश्न बदलकर बन जाता है: “क्या जेनरेट किया गया उत्तर सटीक, ग्राउंडेड और सुरक्षित है?”
रिट्रीवल-ऑगमेंटेड जनरेशन (RAG) पहले भरोसेमंद स्रोतों से सामग्री खींचता है, फिर उन स्रोतों के आधार पर उत्तर जनरेट करता है।
प्रोडक्ट में इसे सही करने के लिए टीमें आम तौर पर जोड़ती हैं:
ज़िम्मेदार एआई ऑपरेशनल लक्ष्यों के रूप में समझना आसान है: सुरक्षा (हानिकारक निर्देश न देना), गोपनीयता (संवेदी डेटा न उजागर करना), और निष्पक्षता (समूहों के साथ प्रणालीगत रूप से हानिकारक व्यवहार न करना)।
जनरेटिव मूल्यांकन कठिन है क्योंकि आउटपुट अनंत संभावनाएँ पैदा कर सकता है। इसलिए टीमें अक्सर इन चीज़ों पर मानव-इन-लूप उपयोग करती हैं:
ब्रिन की शुरुआत हमें याद दिलाती है कि सफल एआई प्रोडक्ट्स आमतौर पर चमकीले डेमो से नहीं, बल्कि एक स्पष्ट कार्य और हकीकत को मापने की आदत से शुरू होते हैं।
कई प्राचीन आदतें—मापना, लगातार प्रयोग, और उपयोगकर्ता के उद्देश्य पर ध्यान—जनरेटिव एआई पर भी लागू होती हैं।
प्रैक्टिकल चेकलिस्ट:
हर कदम ने क्षमता बढ़ाई और विफलताओं के सतह को भी बड़ा किया। आगे के खुले प्रश्नों में शामिल हैं:
यदि आप गहराई में जाना चाहें तो सिस्टम स्केलिंग और सुरक्षा जैसे संबंधित विषय /blog पर पढ़ सकते हैं।
सुरक्षा केवल “बुरी साइट फ़िल्टर करना” नहीं है—यह मॉडल के व्यवहार को डिज़ाइन करना और प्रमाण देना है कि वह बड़े पैमाने पर टिकेगा।
टीम स्किल्स: गुणवत्ता-एट-स्केल केवल एमएल नहीं है—प्रोडक्ट, इन्फ्रास्ट्रक्चर, लीगल/नीति, और सपोर्ट का कडा सहयोग चाहिए।
Koder.ai जैसे प्लेटफ़ॉर्म अक्सर “तेज़ बनाओ, तेज़ मापो” वर्कफ़्लो के लिए उपयोगी होते हैं—UI, रिट्रीवल, जेनरेशन, इवैल्यूएशन हुक और रोलबैक सुविधाओं के साथ।