ऐसे एजेंटिक सिस्टम डिज़ाइन करना जो प्रोडक्शन में न टूटें

Q: How do I make an agent predictable and easy to debug?

LLM को एक फ़्री‑फॉर्म लूप के भीतर छोड़ने के बजाय उसे एक स्पष्ट संरचना के अंदर चलाएँ: - एजेंट को एक स्टेट मशीन के रूप में मॉडल करें, जिसमें सीमित स्टेट्स और अनुमत ट्रांज़िशन हों। - LLM का उपयोग केवल स्थानीय विकल्पों के लिए करें (जैसे अगला टूल कौन सा चुनना, पैरामीटर कैसे भरना), न कि मनमाने ढंग से पूरी प्रक्रियाएँ उत्पन्न करने के लिए। - स्टेट को बाहरी रूप से परसिस्ट करें ताकि हर ट्रांज़िशन रिप्लेबल और ऑडिटेबल हो। - एजेंटों को छोटा और केन्द्रित रखें: एक मुख्य काम, एक प्राथमिक सफलता मैट्रिक। इससे आप व्यवहार को चरण-दर-चरण समझा, टेस्ट और डिबग कर पाएँगे, बजाय इसके कि अस्पष्ट “एजेंट सोच” वाले लूप का पीछा करना पड़े।

लॉग इन शुरू करें

ऐसे एजेंटिक सिस्टम डिज़ाइन करना जो प्रोडक्शन में न टूटें | Koder.ai

शानदार डेमो से लेकर प्रोडक्शन में नाज़ुक एजेंट्स तक

एजेंटिक सिस्टम वे एप्लिकेशन हैं जहाँ एक LLM केवल प्रॉम्प्ट का उत्तर नहीं देता, बल्कि आगे क्या करना है तय करता है: कौन से टूल कॉल करने हैं, कौन सा डेटा लाना है, कौन से स्टेप चलाने हैं और कब काम पूरा हुआ माना जाए। ये एक मॉडल, टूल्स (APIs, डेटाबेस, सेवाएँ), एक प्लानिंग/एक्सेक्यूशन लूप, और उन सबको जोड़ने वाली इन्फ्रास्ट्रक्चर का संयोजन होते हैं।

डेमो में यह जादुई लगता है: एक एजेंट योजना बनाता है, कुछ टूल कॉल करता है, और एक परिपूर्ण परिणाम लौटाता है। हैप्पी‑पाथ छोटा होता है, लैटेंसी कम होती है, और कुछ भी एक साथ फेल नहीं होता।

क्यों डेमो काम करते हैं और प्रोडक्शन टूटता है

असल वर्कलोड में वही एजेंट उन तरहों से तनाव में आता है जो डेमो ने कभी नहीं देखे:

APIs टाइमआउट होते हैं, आंशिक डेटा लौटाते हैं, या कॉन्ट्रैक्ट बदल जाते हैं।
कई अनुरोध साझा संसाधनों के लिए रेस करते हैं और स्टेट करप्ट हो जाती है।
लंबी चलने वाली बातचीत मेमोरी बढ़ा देती है और कॉन्टेक्स्ट लिमिट पार कर देती है।
सूक्ष्म मॉडल त्रुटियाँ कई टूल कॉल्स में जोड़कर बड़ी समस्याएँ बना देती हैं।

परिणाम: फ़्लैकी व्यवहार जिसे पुनःप्रजनन करना कठिन है, चुप्पी से हुए डेटा करप्शन, और उपयोगकर्ता फ्लोज़ जो कभी‑कभी हैंग या अनंत लूप में पड़ जाते हैं।

असली बिज़नेस प्रभाव

फ़्लैकी एजेंट केवल “डिलाइट” को चोट नहीं पहुँचाते। वे:

घटनाओं और ऑन‑कॉल पन्नों को ट्रिगर करते हैं।
गलत उत्तर उत्पन्न करते हैं जो डाउनस्ट्रीम सिस्टम में चले जाते हैं।
उपयोगकर्ता भरोसा कम करते हैं: लोग धीरे‑धीरे उस फीचर पर निर्भर होना बंद कर देते हैं।
रिट्राई और रनअवे लूप्स के कारण क्लाउड बिल बढ़ा देते हैं।

यह मार्गदर्शिका किस पर केंद्रित है

यह लेख इंजीनियरिंग पैटर्न्स के बारे में है, "बेहतर प्रॉम्प्ट्स" के बारे में नहीं। हम स्टेट मशीनें, स्पष्ट टूल कॉन्ट्रैक्ट्स, रिट्राई और विफलता‑हैंडलिंग रणनीतियाँ, मेमोरी और समवर्तीता नियंत्राण, और वे ऑब्ज़र्वेबिलिटी पैटर्न देखेंगे जो एजेंटिक सिस्टम्स को लोड के तहत पूर्वानुमेय बनाते हैं — न कि सिर्फ़ मंच पर प्रभावित करने वाले।

क्यों अधिकांश एजेंट आर्किटेक्चर स्केल पर टूटते हैं

अधिकांश एजेंट सिस्टम एकल हैप्पी‑पाथ डेमो में ठीक लगते हैं। वे तब विफल होते हैं जब ट्रैफ़िक, टूल्स और एज‑केसेस साथ आते हैं।

नाज़ुक व्यवहार: लूप्स, स्टाल, आंशिक काम, चुप्पी से हुई त्रुटियाँ

नैव ऑर्केस्ट्रेशन मानता है कि मॉडल एक या दो कॉल में "सही" करेगा। असली उपयोग में, आप निम्न पैटर्न बार‑बार देखते हैं:

लूप्स: एजेंट बार‑बार प्लान बनाता या वही टूल कॉल करता रहता है क्योंकि वह कभी कम्पलीशन या विफलता को पहचानता ही नहीं।
स्टाल्स: एजेंट किसी टूल या सबटास्क पर बिना टाइमआउट के इंतजार करता है, जिससे उपयोगकर्ता सत्र हैंग हो जाते हैं।
आंशिक काम: एजेंट वर्कफ़्लो का आधा भाग पूरा करता है (उदाहरण के लिए, ईमेल ड्राफ्ट करता है पर कभी भेजता नहीं, या योजना बनाता है पर कदम निष्पादित नहीं करता)।
चुप्पी से हुई त्रुटियाँ: टूल फेल होते हैं या स्कीमा मैच नहीं करते, पर एजेंट आत्मविश्वास से सम्भाव्य उत्तर लौटाता है जिसमें डेटा गायब या गलत होता है।

बिना स्पष्ट स्टेट्स और समाप्ति शर्तों के ये व्यवहार अनिवार्य हैं।

छिपा हुआ नॉन‑डिटरमिनिज़्म और टूल अस्थिरता

LLM सैंपलिंग, लेटेंसी वैरिएबिलिटी, और टूल टाइमिंग छिपे हुए नॉन‑डिटरमिनिज़्म पैदा करते हैं। वही इनपुट अलग‑अलग ब्रांच से गुज़र सकता है, अलग टूल्स को कॉल कर सकता है, या टूल परिणामों को अलग तरह से इंटरप्रेट कर सकता है।

स्केल पर, टूल समस्याएँ प्रमुख हो जाती हैं:

अपस्ट्रीम APIs और डेटाबेस से टाइमआउट्स और फ़्लैकिनेस
टूल कॉन्ट्रैक्ट और सेवाएँ जो वास्तव में लौटाती हैं के बीच स्कीमा ड्रिफ्ट
एजेंट जिसे संभालना नहीं सीखता, उन असंगत एरर फ़ॉर्मैट्स

इनमें से हर एक स्प्यूरियस लूप्स, रिट्राईज़, या गलत अंतिम उत्तर में बदल जाता है।

समवर्तीता एज‑केसेस और प्रोडक्ट‑मिसमैच को बढ़ाती है

10 RPS पर दुर्लभ जो टूटता है, 1,000 RPS पर लगातार टूटेगा। समवर्तीता प्रकट करती है:

साझा स्टेट या कैश पर रेस कंडीशंस
समाप्त रेट‑लिमिट्स जो कैस्केडिंग टूल फेल्यर्स पैदा करते हैं
रिट्राईज़ का थंडरिंग हर्ड्स जो एक निर्भरता के ब्लिप से ट्रिगर होते हैं

उत्पादन टीमें अक्सर निर्धारक वर्कफ़्लो, स्पष्ट SLA, और ऑडिटेबिलिटी की उम्मीद करती हैं। एजेंट, बिना सीमाओं के छोड़े जाएँ, प्रोबैबिलिस्टिक, बेस्ट‑एफ़र्ट व्यवहार देते हैं जिनमें कमजोर गारंटियाँ होती हैं।

जब आर्किटेक्चर इस मिसमैच को नज़रअंदाज़ करते हैं—एजेंट्स को पारंपरिक सेवाओं की तरह मानते हुए न कि स्टोकेस्टिक प्लानर्स की तरह—तो सिस्टम सबसे ज़रूरीReliability की जरूरतों में अनिश्चित व्यवहार करने लगते हैं।

प्रोडक्शन‑ग्रेड एजेंटिक सिस्टम डिज़ाइन सिद्धांत

प्रोडक्शन‑रेडी एजेंट्स "स्मार्ट प्रॉम्प्ट्स" से अधिक अनुशासित सिस्टम डिज़ाइन के बारे में होते हैं। एक उपयोगी सोच यह है कि उन्हें छोटे, पूर्वानुमेय मशीनों के रूप में सोचें जो कभी‑कभी LLM को कॉल करते हैं, न कि रहस्यमयी LLM ब्लॉबस के रूप में जो कभी‑कभी आपके सिस्टमों को छूते हैं।

क्या चीज़ें एक एजेंट को प्रोडक्शन‑रेडी बनाती हैं?

चार गुण सबसे ज़्यादा मायने रखते हैं:

सुरक्षा (Safety): एजेंट को डेटा एक्सेस, साइड‑इफेक्ट्स और उपयोगकर्ता वादों के चारों ओर प्रतिबंधों का सम्मान करना चाहिए। इसका अर्थ है स्पष्ट अनुमतियाँ, टूल्स पर गार्डरेल, और अविश्वसनीय आउटपुट्स का सावधानीपूर्वक हैंडलिंग।
पूर्वानुमेयता (Predictability): एक ही इनपुट्स और स्टेट दिए जाने पर एजेंट अपेक्षित सीमा के भीतर व्यवहार करे। आपको यह समझाने में सक्षम होना चाहिए कि यह क्या कर सकता है और क्या नहीं।
डिबग्गेबिलिटी (Debuggability): जब कुछ गलत हो, आप ट्रेस कर सकें: कौन‑सा स्टेट, कौन‑सा निर्णय, कौन‑सा टूल, कौन‑सा मॉडल कॉल। कोई छिपे हुए लूप्स नहीं, कोई अस्पष्ट "सोच" बिना संरचना के नहीं।
परिवर्तन‑सहनशीलता (Change‑tolerance): आप मॉडल, टूल या रणनीतियाँ अपग्रेड कर सकें बिना पूरे सिस्टम को फिर से लिखे।

ये गुण केवल प्रॉम्प्ट्स से नहीं मिलते; आपको संरचना चाहिए।

फ्री‑फॉर्म लूप्स की बजाय स्पष्ट वर्कफ़्लोज़ को प्राथमिकता दें

कई टीमें जो पैटर्न यूज़ करती हैं वह है: “while not done, call the model, let it think, maybe call a tool, repeat”. यह प्रोटोटाइप करने में आसान है पर ऑपरेट करने में कठिन।

एक सुरक्षित पैटर्न यह है कि एजेंट को एक स्पष्ट वर्कफ़्लो के रूप में प्रदर्शित करें:

सीमित स्टेट्स परिभाषित करें (उदा., COLLECTING_INPUT, PLANNING, EXECUTING_STEP, WAITING_ON_HUMAN, DONE).
परिभाषित करें कि कौन‑सी ट्रांज़िशन किस स्टेट्स के बीच संभव हैं।
LLM का उपयोग मुख्यतः लोकल निर्णयों के लिए करें: अगला स्टेट चुनना, टूल चुनना, या पैरामीटर भरना।

यह एजेंट को एक स्टेट मशीन में बदल देता है जहाँ हर चरण निरीक्षण योग्य, परीक्षण योग्य और रिप्लेबल होता है। फ्री‑फॉर्म लूप्स लचीले लगते हैं, पर स्पष्ट वर्कफ़्लोज़ ही होते हैं जो इंस्टेंन्ट्स को डिबग्गेबल और व्यवहार को ऑडिटेबल बनाते हैं।

“गॉड एजेंट” को छोटे कौशलों में बाँटें

मोनोलिथिक एजेंट जो "सब कुछ" करते हैं आकर्षक होते हैं, पर वे असंबंधित जिम्मेदारियों के बीच कड़ी कपलिंग पैदा करते हैं: प्लानिंग, रिट्रीवल, बिज़नेस लॉजिक, UI ऑर्केस्ट्रेशन इत्यादि।

बदले में, छोटे, अच्छी तरह परिभाषित एजेंट्स/स्किल्स तैयार करें:

एक प्लानर जो कार्यों को डीकोम्पोज़ करता है।
एक एक्सेक्यूटर जो ठोस स्टेप्स चलाता है।
हर डोमेन (बिलिंग, सपोर्ट, एनालिटिक्स आदि) के लिए एक स्पेशलिस्ट।

हर स्किल अपनी स्टेट मशीन, टूल्स और सुरक्षा नियम रख सकती है। कम्पोज़िशन लॉजिक तब एक उच्च‑स्तरीय वर्कफ़्लो बन जाता है, न कि एक एकल एजेंट के अंदर बढ़ता हुआ प्रॉम्प्ट।

यह मॉड्यूलैरिटी हर एजेंट को सरल रखने में मदद करती है और आपको एक क्षमता को बिना बाकी को प्रभावित किए विकसित करने देती है।

नीति, स्टेट, और टूल्स को अलग रखें

एक उपयोगी मानसिक मॉडल एजेंट को तीन लेयर्स में विभाजित करना है:

निर्णय नीति (LLM प्रॉम्प्ट्स + मॉडल)
यह encapsulate करता है कि एजेंट अगला एक्शन कैसे चुनता है, सख्त प्रतिबंधों के तहत। आपको मॉडल बदलने, टेम्परेचर समायोजित करने, या प्रॉम्प्ट परिष्कृत करने में सक्षम होना चाहिए बिना सिस्टम वायरिंग को छेड़े।
स्टेट मशीन / वर्कफ़्लो इंजन
यह नियंत्रित करता है कि आप प्रक्रिया में कहाँ हैं, कौन‑से ट्रांज़िशन संभव हैं, और प्रगति कैसे परसिस्ट की जाती है। नीति एक मूव सुझाव देती है; स्टेट मशीन उसे वैध ठहराती और लागू करती है।
टूलिंग लेयर
यह धरती पर क्या हो सकता है वह लागू करता है: APIs, डेटाबेस, क्यूज़, बाहरी सेवाएँ। टूल्स संकुचित, अच्छी‑टाइप्ड कॉन्ट्रैक्ट्स एक्सपोज़ करें और प्राधिकरण, रेट‑लिमिट्स और इनपुट वैलिडेशन लागू करें।

इस विभाजन से आप प्रॉम्प्ट्स या टूल विवरणों में बिज़नेस लॉजिक छिपाने की गलती से बचते हैं। LLM एक स्पष्ट, निर्धारित खोल के अंदर एक निर्णय घटक बनकर काम करता है, न कि खुद खोल बन जाता है।

छोटेपन और स्पष्टता के लिए डिज़ाइन करें

सबसे भरोसेमंद एजेंटिक सिस्टम सबसे शानदार डेमो नहीं होते—वे वे होते हैं जिनके व्यवहार आप वाइटबोर्ड पर समझा सकते हैं।

व्यवहारिक रूप से:

हर एजेंट को एक काम और एक मुख्य सफलता मैट्रिक पर केंद्रित रखें।
वर्कफ़्लो और स्टेट ट्रांज़िशन को prose में नहीं बल्कि स्पष्ट तरीके से एन्कोड करें।
LLMs को अच्छी‑परिभाषित विकल्पों के बीच चुनने दें, न कि पूरी प्रक्रियाएँ खुद से आविष्कार करने दें।

छोटे, कंपोज़ेबल और सुव्यवस्थित एजेंट्स की यह प्रवृत्ति सिस्टम को उसकी जटिलता के कारण ढहने से रोकती है और स्कोप के साथ सुरक्षित रूप से बढ़ने देती है।

एजेंट वर्कफ़्लोज़ को स्पष्ट स्टेट मशीन के रूप में मॉडल करना

अधिकांश एजेंट कार्यान्वयन एक LLM कॉल के चारों ओर "सोचो, काम करो, अवलोकन करो" लूप के रूप में शुरू होते हैं। यह डेमो के लिए ठीक है, पर जल्दी ही यह अस्पष्ट और नाज़ुक बन जाता है। एक बेहतर दृष्टिकोण है कि एजेंट को एक स्पष्ट स्टेट मशीन के रूप में माना जाए: सीमित स्टेट्स का सेट, जिनमें टाइप्ड इवेंट्स द्वारा ट्रांज़िशन होते हैं।

स्टेट्स और ट्रांज़िशन के रूप में एजेंट फ्लोज़ को प्रतिनिधित्व करना

मॉडल को यह तय करने देने की बजाय कि आगे क्या करना है, एक छोटा स्टेट डायाग्राम परिभाषित करें:

PLAN – उपयोगकर्ता अनुरोध को इंटरप्रेट करें, स्टेप्स में तोड़ें, टूल चुनें।
CALL_TOOL – सत्यापित इनपुट्स के साथ एक टूल कॉल (या बैच) 실행 करें।
VERIFY – सरल इनवेरियंट्स या अतिरिक्त मॉडल चेक्स के खिलाफ टूल आउटपुट्स की जाँच करें।
RECOVER – त्रुटियों को संभालें: रिट्राई, फ़ॉलबैक, या एस्केलेट करें।
DONE – अंतिम उत्तर लौटाएँ और वर्कफ़्लो बन्द करें।
FAILED – स्पष्ट कारण और संदर्भ के साथ टर्मिनल एरर।

इन स्टेट्स के बीच ट्रांज़िशन टाइप्ड इवेंट्स द्वारा ट्रिगर होते हैं जैसे UserRequestReceived, ToolCallSucceeded, ToolValidationFailed, TimeoutExceeded, या HumanOverride. हर इवेंट और वर्तमान स्टेट मिलकर अगला स्टेट और कार्रवाई तय करते हैं।

यह रिट्राईज़ और टाइमआउट्स को सरल बनाता है: आप व्यक्तिगत स्टेट्स (उदा., CALL_TOOL 3 बार एक्सपोनेंशियल बैकऑफ़ के साथ रिट्राई कर सकता है, पर PLAN शायद बिल्कुल रिट्राई न करे) पर नीतियाँ संलग्न करते हैं, बजाय इसके कि रिट्राई लॉजिक को कोडबेस भर में बिखेर दें।

लचीलापन और स्केल के लिए स्टेट बाहरीकरण

वर्तमान स्टेट और न्यूनतम संदर्भ को बाहरी स्टोर (डेटाबेस, क्यू, या वर्कफ़्लो इंजन) में परसिस्ट करें। एजेंट तब एक शुद्ध फ़ंक्शन बन जाता है:

next_state, actions = transition(current_state, event, context)

यह सक्षम बनाता है:

रेज़िलिएन्स – अगर एक वर्कर रन के बीच मर जाए तो दूसरा अंतिम परसिस्टेड स्टेट से पुनः आरम्भ कर सकता है।
हॉरिज़ॉन्टल स्केलिंग – स्टेटलेस वर्कर्स इवेंट्स खपत करते हैं, स्टेट अपडेट करते हैं, और अगले इवेंट्स इमिट करते हैं।
रिप्ले और कंपेंसेशंस – आप एक रन को पुनर्निर्मित कर सकते हैं, किसी भी स्टेट से उसे फिर से चला सकते हैं, या फ्लो को रोलबैक करते समय प्रतिपूर्ति क्रियाएँ चला सकते हैं।

लॉजिक और ऑडिट के लिए लाभ

स्टेट मशीन के साथ, एजेंट के व्यवहार का हर चरण स्पष्ट होता है: वह किस स्टेट में था, कौन‑सा इवेंट आया, कौन‑सा ट्रांज़िशन फायर हुआ, और कौन‑से साइड‑इफेक्ट्स उत्पन्न हुए। यह स्पष्टता डिबगिंग को तेज बनाती है, घटना जाँच को सरल करती है, और अनुपालन समीक्षाओं के लिए स्वाभाविक ऑडिट ट्रेल बनाती है। आप लॉग्स और स्टेट इतिहास से यह प्रमाणित कर सकते हैं कि कुछ जोखिमपूर्ण क्रियाएँ केवल विशिष्ट स्टेट्स और परिभाषित शर्तों के तहत ही उठाई जाती हैं।

एजेंट्स के लिए भरोसेमंद टूल कॉन्ट्रैक्ट डिज़ाइन करना

जब टूल्स "प्रॉम्प्ट में छिपे APIs" की तरह नहीं बल्कि स्पष्ट गारंटी देने वाले इंटरफेस की तरह दिखते हैं, तो एजेंट अधिक पूर्वानुमेय रूप से व्यवहार करते हैं।

केवल प्रॉम्प्ट नहीं, कॉन्ट्रैक्ट परिभाषित करें

हर टूल का कॉन्ट्रैक्ट निम्न को कवर करना चाहिए:

इनपुट स्कीमा: आवश्यक फील्ड्स, प्रकार, एन्स, कंस्ट्रेंट्स, डिफॉल्ट्स।
आउटपुट स्कीमा: सफलता पेलोड, नलफ़ेबल फील्ड्स, और "कोई परिणाम नहीं" का अर्थ।
एरर मॉडल: टाइप्ड एरर्स (उदा., InvalidInput, NotFound, RateLimited, TransientFailure) साफ़ अर्थों के साथ।
SLA: लेटेंसी अपेक्षाएँ, उपलब्धता लक्ष्य, और रेट‑लिमिट्स।

इस कॉन्ट्रैक्ट को मॉडल के पास संरचित दस्तावेज़ के रूप में एक्सपोज़ करें, न कि लंबे टेक्स्ट की दीवार के रूप में। एजेंट प्लानर को पता होना चाहिए कि कौन‑सी त्रुटियाँ रिट्राय‑योग्य हैं, किसके लिए उपयोगकर्ता हस्तक्षेप चाहिए, और किससे वर्कफ़्लो रोका जाना चाहिए।

सख्त JSON, सख्त वैलिडेशन

टूल I/O को किसी भी अन्य प्रोडक्शन API की तरह ट्रीट करें:

इनपुट्स और आउटपुट्स के लिए कठोर JSON स्कीमा (उदा., OpenAPI, JSON Schema) का उपयोग करें।
कॉल से पहले वैलिडेट करें (मॉडल की गलतियों को पकड़ने के लिए) और बाद में भी (टूल में रिग्रेशन पकड़ने के लिए)।
मामूली समस्याओं को ऑटो‑रिपेयर करें (उदा., टाइप कोएर्शन) पर उन्हें बाद में ट्यूनिंग के लिए लॉग करें।

यह प्रॉम्प्ट्स को सरल बनाता है: विस्तृत निर्देशों की बजाय स्कीमा‑ड्रिवन मार्गदर्शन पर निर्भर करें। स्पष्ट प्रतिबंध हलुसिनेटेड आर्ग्यूमेंट्स और निरर्थक टूल अनुक्रमों को कम कर देते हैं।

वर्शनिंग और संगतता

टूल्स समय के साथ विकसित होते हैं; एजेंट हर बार टूटना नहीं चाहिए:

टूल कॉन्ट्रैक्ट्स को वर्शन करें (v1, v1.1, v2) और एजेंट्स को एक वर्शन पर पिन करें।
फ़ील्ड्स को क्रमिक रूप से डिप्रीकेट करें; पुराने फ़ील्ड कुछ समय के लिए पठनीय रखें।
बैकवर्ड‑कम्पैटिबल तरीके से फ़ील्ड जोड़ें; अर्थ को चुपके से बदलने से बचें।

ताकि प्लानिंग लॉजिक अलग‑अलग परिपक्वता वाले एजेंट्स और टूल्स को सुरक्षित रूप से मिलाकर इस्तेमाल कर सके।

विफलता और डिग्रेडेड मोड्स संभालना

कॉन््ट्रैक्ट्स को आंशिक विफलता को ध्यान में रखकर डिज़ाइन करें:

प्रति‑आइटम त्रुटि विवरणों के साथ आंशिक परिणाम की अनुमति दें।
एक डिग्रेडेड रिस्पॉन्स परिभाषित करें (जैसे कैश किया हुआ, अनुमानित, या स्टेल डेटा) बजाय कड़े फ़ेल्यर के।
बताइए कि कौन‑से फील्ड "बेस्ट‑एफ़र्ट" हैं और कौन‑से "मस्ट‑हैव"।

फिर एजेंट अनुकूलित कर सकता है: सीमित कार्यक्षमता के साथ वर्कफ़्लो जारी रखें, उपयोगकर्ता से पुष्टिकरण माँगें, या किसी फ़ॉलबैक टूल पर स्विच करें।

सुरक्षा और प्राधिकरण सीमाएँ

टूल कॉन्ट्रैक्ट्स सुरक्षा सीमाओं को कोडित करने के लिए प्राकृतिक स्थान हैं:

यह परिभाषित करें कि टूल क्या पढ़ या संशोधित कर सकता है।
संवेदनशील क्रियाओं के लिए स्पष्ट पैरामीटर आवश्यक करें (उदा., confirm: true)।
उपयोगकर्ता‑स्कोप्ड और सिस्टम‑स्कोप्ड ऑपरेशंस अलग रखें।

इन्हें सर्वर‑साइड चेक्स के साथ मिलाएँ; कभी केवल मॉडल पर भरोसा न करें कि वह "ठीक" रहेगा।

क्यों अच्छे कॉन्ट्रैक्ट एजेंटों को सरल बनाते हैं

जब टूल्स के पास स्पष्ट, वैलिडेटेड, वर्शनड कॉन्ट्रैक्ट्स होते हैं तो प्रॉम्प्ट्स छोटे हो जाते हैं, ऑर्केस्ट्रेशन लॉजिक सरल होता है, और डिबगिंग काफी आसान हो जाती है। आप जटिलता को नाज़ुक नैचुरल‑लैंग्वेज इंस्ट्रक्शन्स से deterministic स्कीम्स और नीतियों में शिफ्ट कर देते हैं, जिससे हलुसिनेटेड टूल कॉल और अनपेक्षित साइड‑इफेक्ट्स घटते हैं।

रिट्राईज़, इडेम्पोटेंसी और विफलता‑हैंडलिंग पैटर्न

कठोर टूल कॉन्ट्रैक्ट परिभाषित करें

भरोसेमंद टूल कॉल के लिए स्पष्ट स्कीमा और वैलिडेशन के साथ Go बैकएंड जनरेट करें.

बैकएंड बनाएं

भरोसेमंद एजेंटिक सिस्टम मान लेते हैं कि सब कुछ कभी‑न‑कभी फेल होगा: मॉडल्स, टूल्स, नेटवर्क, यहाँ तक कि आपका समन्वय लेयर भी। लक्ष्य यह नहीं है कि विफलता से बचा जाए, बल्कि इसे सस्ता और सुरक्षित बनाया जाए।

इडेम्पोटेंसी: सुरक्षित रिट्राईज़ की नींव

इडेम्पोटेंसी का मतलब है: उसी अनुरोध को दोहराने से बहिर्मुख रूप से वही प्रभाव होगा जैसा एक बार करने से होता। यह LLM एजेंट्स के लिए महत्वपूर्ण है, जो आंशिक विफलताओं या अस्पष्ट प्रतिक्रियाओं के बाद अक्सर टूल कॉल दोहराते हैं।

टूल्स को इस प्रकार बनायें कि वे इडेम्पोटेंट हों:

रिक्वेस्ट IDs: हर टूल कॉल में एक स्थिर request_id हो। टूल इसे स्टोर करे और वही परिणाम लौटाये यदि यह ID फिर से देखा गया।
अपसर्ट्स बनाम इंसर्ट्स: प्राकृतिक या सिंथेटिक बिज़नेस की पर आधारित "create‑or‑update" semantics का प्रयोग करें, न कि ऑटो‑इंक्रीमेंट ID।
चेकसम और वर्शनिंग: कंटेंट हैश या वर्शन नंबर जोड़ें ताकि टूल डुप्लिकेट, स्टेल राइट्स, या कॉन्फ्लिक्ट्स का पता लगा सके।

लागत न फुलाने वाली रिट्राई रणनीतियाँ

ट्रांज़िएंट विफलताओं (टाइमआउट, रेट‑लिमिट्स, 5xx) के लिए संरचित रिट्राईज़ का उपयोग करें: एक्सपोनेंशियल बैकऑफ़, थिर्र (jitter) ताकि थंडरिंग हर्ड्स से बचा जा सके, और सख्त मैक्स अटेम्प्ट्स। हर प्रयास को कॉरिलेशन IDs के साथ लॉग करें ताकि आप एजेंट व्यवहार को ट्रेस कर सकें।

स्थायी त्रुटियों (4xx, वैलिडेशन एरर्स, बिज़नेस रूल उल्लंघन) के लिए रिट्राई न करें। एक संरचित एरर एजेंट नीति तक पहुँचाएँ ताकि वह योजना संशोधित करे, उपयोगकर्ता से पूछे, या अलग टूल चुने।

सर्किट ब्रेकर्स और फ़ॉलबैक

एजेंट और टूल लेयर दोनों पर सर्किट ब्रेकर्स लागू करें: बार‑बार विफलता होने पर उस टूल को अस्थायी रूप से ब्लॉक करें और फेल‑फास्ट करें। इसे स्पष्ट फ़ॉलबैक्स से जोड़ें: डिग्रेडेड मोड, कैश्ड डेटा, या वैकल्पिक टूल्स।

एजेंट लूप से अंधाधुंध रिट्राईज़ से बचें। बिना इडेम्पोटेंट टूल्स और स्पष्ट फेल्यर क्लासेस के, आप केवल साइड‑इफेक्ट्स, लेटेंसी और लागत को गुणा कर देंगे।

एजेंट्स के लिए मेमोरी, स्टेट और डेटा कन्सिस्टेंसी प्रबंधन

भरोसेमंद एजेंट स्पष्ट सोच से शुरू होते हैं कि "कौन‑सा स्टेट है" और "यह कहाँ रहता है"।

शॉर्ट‑टर्म स्टेट बनाम लॉन्ग‑टर्म मेमोरी

एजेंट को ऐसे समझें जैसे आप एक अनुरोध हैंडल करने वाली सेवा को समझते हैं:

शॉर्ट‑टर्म स्टेट: वर्तमान कार्य या उप‑कार्य को पूरा करने के लिए आवश्यक हर चीज़। इसमें सक्रिय लक्ष्य, वर्तमान स्टेप, टूल आउटपुट्स, आंशिक निर्णय, और कंट्रोल वेरिएबल्स (बचे हुए रिट्राई, चुना गया ब्रांच आदि) शामिल हैं। इसे मजबूती से परिभाषित रखें और वर्कफ़्लो पूरा होने पर डिस्पोज कर दें।
लॉन्ग‑टर्म मेमोरी: वह जानकारी जो रन और सत्रों के पार बचनी चाहिए: उपयोगकर्ता प्रोफ़ाइल, प्राथमिकताएँ, पूर्व निर्णय, प्रोजेक्ट इतिहास, और सीखे गए शॉर्टकट्स।

इनको मिलाने से भ्रम और बग होते हैं — उदाहरण के लिए, अस्थायी टूल परिणामों को "मेमोरी" में डाल देने से एजेंट भविष्य की बातचीत में stale संदर्भ दुबारा उपयोग कर सकता है।

स्टेट कहाँ स्टोर करें

आपके पास तीन मुख्य विकल्प हैं:

इन‑कॉन्टेक्स्ट (सिर्फ प्रॉम्प्ट) – सरल, कम लेटेंसी, पर सीमित और अस्थायी। एक ही रन के भीतर शॉर्ट‑टर्म स्टेट के लिए उत्तम।
बाहरी स्टोर – डेटाबेस, कैश, या वेक्टर स्टोर। लॉन्ग‑टर्म मेमोरी और किसी भी स्टेट के लिए जो रिस्टार्ट्स या वर्कर्स के बीच समन्वय करना चाहिए।
हाइब्रिड – अधिकारिक स्टेट बाहरी रखें; केवल जरूरत का हिस्सा अगले स्टेप के लिए कंटेक्स्ट में लोड करें।

एक अच्छा नियम: LLM एक स्पष्ट स्टेट ऑब्जेक्ट पर स्टेटलेस फ़ंक्शन है। वह ऑब्जेक्ट मॉडल के बाहर परसिस्ट करें और उससे प्रॉम्प्ट्स पुनर्निर्मित करें।

"लॉग्स को मेमोरी" के एंटी‑पैटर्न से बचें

एक सामान्य विफलता पैटर्न है बातचीत लॉग्स, ट्रेसेस, या रॉ प्रॉम्प्ट्स को डि‑फैक्टो मेमोरी बना देना।

समस्याएँ:

रिट्रीवल एड‑हॉक और नाज़ुक हो जाती है।
महत्वपूर्ण तथ्य लंबे टेक्स्ट में दब जाते हैं।
कई रन एक‑दूसरे से विरोध कर सकते हैं बिना स्पष्ट "लास्ट‑राइट‑विन्स" नीति के।

इसके बजाय, संरचित मेमोरी स्कीम्स परिभाषित करें: user_profile, project, task_history आदि। लॉग्स को स्टेट से व्युत्पन्न करें, विपरीत नहीं।

साझा डेटा और टूल्स के साथ कन्सिस्टेंसी

जब कई टूल्स या एजेंट्स एक ही एंटिटी को अपडेट करते हैं (उदा., CRM रिकॉर्ड या टास्क स्टेट), तो आपको बुनियादी कन्सिस्टेंसी नियंत्रण चाहिए:

प्रमुख एंटिटीज़ के लिए एकल स्रोत‑सत्य रखो (उदा., ऑर्डर, टिकट, दस्तावेज़)।
इडेम्पोटेंट टूल कॉन्ट्रैक्ट्स पसंद करो: टूल्स को स्थिर IDs और "upsert" semantics के साथ रिट्राई से सुरक्षित बनाओ।
जब एजेंट्स एक ही रिकॉर्ड अपडेट करने की रेस में हों तो ऑप्टिमिस्टिक कन्सकरेंसी (वर्शन नंबर, टाइमस्टैम्प्स) लागू करो।

उच्च‑मूल्य ऑपरेशंस के लिए, एक संवादी लॉग से अलग निर्णय लॉग रिकॉर्ड करो: क्या बदला, क्यों, और किस इनपुट्स के आधार पर।

स्नैपशॉट्स और फिर से शुरू करने योग्य निष्पादन

क्रैश, डिप्लॉइस और रेट‑लिमिटिंग से बचने के लिए, वर्कफ़्लोज़ को रिज़्यूमेबल बनाना चाहिए:

हर महत्वपूर्ण कदम کے बाद एक स्टेट स्नैपशॉट परसिस्ट करें: वर्तमान स्टेप, इनपुट्स, टूल परिणाम, और पेंडिंग एक्शंस।
अपनी स्टेट मशीन की हर ट्रांज़िशन को स्नैपशॉट से रिप्ले करने योग्य बनाएं।
फ़ेल्यर या रिस्टार्ट पर, अंतिम स्नैपशॉट लोड करें और फिर से शुरू करें बजाय शुरुआत से दोबारा शुरू करने के।

यह "टाइम‑ट्रैवल डिबगिंग" भी सक्षम बनाता है: आप उस सटीक स्टेट का निरीक्षण और रिप्ले कर सकते हैं जिसने खराब निर्णय को जन्म दिया।

प्राइवेसी, रिटेंशन, और न्यूनतम मेमोरी

मेमोरी एक संपत्ति जितनी कि एक दायित्व है। प्रोडक्शन एजेंट्स के लिए:

स्पष्ट रूप से मॉडल करें कि क्या कभी स्टोर नहीं करना चाहिए (उदा., सीक्रेट्स, कच्चे दस्तावेज़, संवेदनशील PII)। जहाँ उपयुक्त हो, रेडैक्शन या हैशिंग का प्रयोग करें।
हर मेमोरी प्रकार के लिए रिटेंशन नीतियाँ परिभाषित करें (सत्र‑स्तर, 30 दिन, कानूनी होल्ड आदि)।
उपयोगकर्ताओं को उनकी लॉन्ग‑टर्म मेमोरी देखने और हटाने के नियंत्रण दें।
तब से पूरी प्रॉम्प्ट्स या टूल इनपुट्स स्टोर करने से बचें जब एक छोटा, संरचित सारांश पर्याप्त हो।

मेमोरी को एक उत्पाद सतह की तरह डिज़ाइन, वर्शन और शासित करें — सिर्फ़ एजेंट से चिपका हुआ एक बढ़ता हुआ टेक्स्ट डंप नहीं।

एजेंट सिस्टम में समवर्तीता, रेट‑लिमिट्स, और बैकप्रेशर

एजेंट्स श्वेतपट पर क्रमिक दिखते हैं पर असली लोड में वितरित सिस्टम की तरह व्यवहार करते हैं। जैसे ही कई समवर्ती उपयोगकर्ता, टूल्स और बैकग्राउंड जॉब्स आते हैं, आप रेस कंडीशंस, डुप्लिकेट काम, और ऑर्डरिंग समस्याओं से जूझते हैं।

एजेंट वर्कफ़्लोज़ में समवर्ती खतरे

सामान्य विफलता मोड:

रेस कंडीशंस: दो एजेंट निष्पादन एक ही टिकट/कार्ट/दस्तावेज़ को समवर्ती रूप से अपडेट कर सकते हैं, एक दूसरे को ओवरराइट कर देते हैं।
डुप्लिकेट वर्क: रिट्राईज़ या गलत कॉन्फ़िगर्ड वर्कर्स एक ही टास्क को दो बार प्रोसेस कर सकते हैं (उदा., भुगतान का दोहराव)।
आउट‑ऑफ‑ऑर्डर प्रभाव: टूल कॉल की समाप्ति अनपेक्षित क्रम में होती है, तो पुराना परिणाम नए की जगह लिख देता है।

इन्हें रोका जा सकता है इडेम्पोटेंट टूल कॉन्ट्रैक्ट्स, स्पष्ट वर्कफ़्लो स्टेट, और डेटालेयर पर ऑप्टिमिस्टिक/पेसीमिस्टिक लॉकिंग से।

क्यू बनाम सिंक्रोनस फ्लो

सिंक अनुरोध–प्रतिक्रिया फ्लोज़ सरल पर नाज़ुक हैं: हर निर्भरता उप, रेट‑लिमिट के भीतर, और तेज होनी चाहिए। जब एजेंट कई टूल्स या पैरेलल सब‑टास्क में फैले, तो लंबे चलने वाले या साइड‑इफ़ेक्ट वाले स्टेप्स को क्यू के पीछे ले जाएँ।

क्यू‑आधारित ऑर्केस्ट्रेशन आपको सक्षम बनाता है:

वर्कर पूल्स के साथ समवर्तीता नियंत्रित करने में
रिट्राईज़ और डीडुप्लिकेशन केंद्रित करने में
उपयोगकर्ता‑सामने वाले लेटेंसी से स्लो या फ़्लैकी टूल्स को अलग करने में

रेट‑लिमिट्स और बैकप्रेशर

एजेंट्स सामान्यतः तीन प्रकार की सीमाओं से टकराते हैं:

मॉडल्स: प्रति मिनट टोकन्स, अनुरोध प्रति मिनट, कंटेक्स्ट साइज
टूल्स: आंतरिक सेवाओं के QPS या CPU प्रतिबंध
अपस्ट्रीम APIs: थर्ड‑पार्टी कोटा और हार्ड कैप्स

आपको एक स्पष्ट रेट‑लिमिट लेयर चाहिए जिसमें प्रति‑उपयोगकर्ता, प्रति‑टेनेंट, और ग्लोबल थ्रॉटल्स हों। पॉलिसी लागू करने के लिए टोकन बकेट या लीकी बकेट का उपयोग करें, और स्पष्ट एरर टाइप एक्सपोज़ करें (उदा., RATE_LIMIT_SOFT, RATE_LIMIT_HARD) ताकि एजेंट शांतिपूर्वक बैक ऑफ कर सके।

बैकप्रेशर सिस्टम को तनाव के दौरान खुद को बचाने का तरीका है। रणनीतियाँ शामिल हैं:

गैर‑महत्पूर्ण ट्रैफ़िक पहले shed करना
फीचर को degrade करना (छोटा कंटेक्स्ट, कम टूल कॉल्स)
कम‑प्राथमिकता क्यूज़ को रोक देना जबकि क्रिटिकल फ्लोज़ चलते रहें

क्यू डैप्थ, वर्कर उपयोग, मॉडल/टूल एरर रेट्स, और लेटेंसी प्रतिशतILES की निगरानी करें। बढ़ती कतारें और बढ़ती लेटेंसी या 429/503 एरर्स शुरुआती चेतावनी हैं कि एजेंट्स अपने वातावरण को ओवररन कर रहे हैं।

ऑब्ज़र्वेबिलिटी: एजेंट व्यवहार के लिए ट्रेसिंग, मैट्रिक्स और लॉग्स

बिल्ड से डिप्लॉय तक जाएँ

जब वर्कफ़्लो स्थिर और टेस्ट हो जाए, तो अपने एजेंट ऐप को डिप्लॉय और होस्ट करें.

अब डिप्लॉय करें

अगर आप इन दो प्रश्नों का उत्तर जल्दी नहीं दे सकते: उसने क्या किया? और उसने ऐसा क्यों किया?—तो आप एजेंट को भरोसेमंद बना नहीं सकते। एजेंटिक सिस्टम्स के लिए ऑब्ज़र्वेबिलिटी का मतलब है उन उत्तरों को सस्ता और सटीक बनाना।

आपको क्या देखना चाहिए

डिज़ाइन ऐसा करें कि एक ही टास्क का ट्रेस निम्न चीज़ों से गुज़रे:

हर एजेंट स्टेप और स्टेट ट्रांज़िशन
हर टूल कॉल और उसका रिस्पॉन्स
हर मॉडल इन्वोकेशन और प्रॉम्प्ट वेरिएंट

उस ट्रेस में महत्वपूर्ण निर्णयों के लिए संरचित लॉग्स और वॉल्यूम/हेल्थ के लिए मैट्रिक्स जोड़ें।

एक उपयोगी ट्रेस आमतौर पर शामिल करता है:

टास्क मेटाडेटा: टेनेंट, उपयोगकर्ता, चैनल, प्राथमिकता
एजेंट स्टेट: वर्तमान स्टेट नाम, अगला स्टेट, रिट्राई काउंट
टूल I/O: इनपुट्स, आउटपुट्स, लेटेंसी, एरर्स, सर्किट‑ब्रेकर स्थिति
मॉडल कॉल: प्रॉम्प्ट टेम्पलेट ID, मॉडल नाम, टोकन‑काउंट, लेटेंसी

लॉगिंग और रेडैक्शन

प्रॉम्प्ट्स, टूल इनपुट्स और आउटपुट्स को संरचित रूप में लॉग करें, पर उन्हें पहले एक रेडक्शन लेयर से गुज़ारें:

PII और सीक्रेट्स को मास्क करें
अत्यधिक बड़े पेलोड्स को ट्रंकेट करें और कॉरिलेशन के लिए हैश रखें
फील्ड्स को संवेदनशीलता स्तर के साथ मार्क करें ताकि रिटेंशन और एक्सेस नियंत्रित हो सके

रॉ कंटेंट को लोअर एन्वाइरनमेंट में फीचर फ्लैग्स के पीछे रखें; प्रोडक्शन में डिफ़ॉल्ट रूप से रेडैक्टेड व्यू रखें।

वास्तव में मायने रखने वाले मैट्रिक्स

कम से कम ट्रैक करें:

टास्क सफलता/विफलता दर एजेंट और उपयोग‑केस द्वारा
प्रति टास्क औसत और P95 स्टेप गणना
लेटेंसी: एंड‑टू‑एंड और प्रति टूल/मॉडल
प्रति टास्क लागत (टोकन, टूल खर्च) और प्रति सफल परिणाम लागत

घटनाओं के दौरान, अच्छे ट्रेसेस और मैट्रिक्स आपको "एजेंट फ़्लैकी लग रहा है" से एक सटीक कथन तक पहुँचाने देते हैं जैसे: “P95 टास्क ToolSelection में 2 रिट्राई के बाद फेल कर रहे हैं क्योंकि billing_service में नया स्कीमा आया है,” जिससे निदान घंटे के बजाय मिनटों में हो सके और आपको व्यवहार संशोधित करने के ठोस लीवर मिलें।

एजेंटिक सिस्टम्स के लिए टेस्टिंग और मूल्यांकन रणनीतियाँ

एजेंट्स का परीक्षण उन टूल्स और उन फ्लोज़ दोनों का परीक्षण करना होता है जो उन्हें जोड़ते हैं। इसे केवल प्रॉम्प्ट ट्वीक करने की तरह न मानें—इसे वितरण प्रणाली के टेस्ट जैसा मानें।

यूनिट टेस्ट्स: प्रॉम्प्ट्स नहीं, टूल कॉन्ट्रैक्ट्स

शुरुआत टूल बॉउन्ड्री पर यूनिट टेस्ट्स से करें:

स्कीमा वैलिडेट करें: आवश्यक फील्ड्स, एन्स, रेंज और इनवारिएंट्स।
इडेम्पोटेंसी और एरर सेमैटिक्स की जाँच करें (कौन‑सी एरर्स, कौन‑सा कोड, क्या रिट्राय‑योग्य है)।
सुनिश्चित करें कि टूल्स malformed इनपुट्स को ग्रेसफुली हैंडल करें और संरचित फेल्यर लौटाएँ।

ये टेस्ट्स कभी LLM पर निर्भर नहीं होने चाहिए। आप टूल को सीधे सिंथेटिक इनपुट्स के साथ कॉल करें और सटीक आउटपुट या एरर कॉन्ट्रैक्ट का असर्ट करें।

इंटीग्रेशन टेस्ट्स: फ्लोज़ और मल्टी‑स्टेप व्यवहार

इंटीग्रेशन टेस्ट्स एजेंट वर्कफ़्लो को एंड‑टू‑एंड पर परखते हैं: LLM + टूल्स + ऑर्केस्ट्रेशन।

इन्हें सीनारियो‑आधारित टेस्ट्स के रूप में मॉडल करें:

मुख्य उपयोगकर्ता यात्राओं के हैप्पी‑पाथ (बुकिंग, रिफंड, एस्केलेशन आदि)।
एज केस: मISSING डेटा, आंशिक टूल फेल्यर, टाइमआउट्स, रेट‑लिमिट्स।
क्रॉस‑टूल इंटरैक्शंस: जब टूल A का आउटपुट टूल B को फ़ीड करे।

ये टेस्ट्स यह असर्ट करें कि कौन‑से टूल्स कॉल हुए, किस आर्ग्युमेंट्स के साथ, किस क्रम में, और एजेंट ने किस अंतिम स्टेट/परिणाम तक पहुँचा।

LLM और टूल्स के लिए डिटर्मिनिस्टिक फिक्स्चर

टेस्ट्स को रिप्रोड्यूसिबल रखने के लिए LLM रिस्पॉन्स और टूल आउटपुट फिक्स्चर करें:

एक बार LLM रिस्पॉन्स रिकॉर्ड करें (प्रॉम्प्ट + मॉडल + कॉन्फ़िग) और उन्हें JSON फिक्स्चर्स के रूप में रखें।
बाहरी सिस्टम्स को टूल्स के पीछे मॉक करें ताकि टेस्ट्स लाइव सेवाओं को न हिट करें।
टेस्ट्स में स्पष्ट सीड और फिक्स्ड‑टेम्परेचर कॉन्फ़िग का उपयोग करें।

एक सामान्य पैटर्न:

with mocked_llm(fixtures_dir="fixtures/llm"), mocked_tools():
    result = run_agent_scenario(input_case)
    assert result.state == "COMPLETED"

प्रॉम्प्ट्स और स्कीमास के लिए रिग्रेशन सूट

हर प्रॉम्प्ट या स्कीमा परिवर्तन पर एक अनिवार्य रिग्रेशन रन रखें:

इनपुट के क्यूरेटेड कॉर्पस के साथ अपेक्षित स्टेट्स, टूल ट्रेसेस या क्लासिफिकेशंस।
इन्हें गोल्डन फाइल के रूप में लॉक करें; डिफ्स महत्वपूर्ण व्यवहारिक बदलाव दिखाते हैं।
यदि आप स्कीमा बदल रहे हैं (फ़ील्ड जोड़ना/कठोर बनाना), तो इसकी पकड़ के लिए अलग रिग्रेशन केसेस रखें।

रोलआउट से पहले ऑफ़लाइन मूल्यांकन

कोई नया मॉडल, नीति, या राउटिंग रणनीति सीधे प्रोडक्शन ट्रैफ़िक पर मत भेजें।

इसके बजाय:

अपना रिग्रेशन कॉर्पस नए कॉन्फ़िग पर ऑफ़लाइन चलाएँ।
ऐतिहासिक इंटरैक्शंस पर रिप्ले टेस्ट चलाएँ।
स्वचालित मैट्रिक्स (टास्क सफलता, टूल एरर दर, लेटेंसी, लागत) गणना करें और जहाँ जरूरत हो वहाँ सैंपल पर मानव मूल्यांकन लें।

ऑफ़लाइन गेट्स पास करने के बाद ही नया वेरिएंट प्रोडक्शन पर जाए, आदर्श रूप से फीचर फ्लैग्स और क्रमिक रोलआउट के पीछे।

टेस्ट डेटा प्रबंधन और अनोनिमाइजेशन

एजेंट लॉग्स अक्सर संवेदनशील उपयोगकर्ता डेटा रखते हैं। परीक्षण में इसका सम्मान करें:

टेस्ट डाटासेट्स अनोनिमाइज़्ड या सिंथेटिक इनपुट्स से बनाएं।
पहचानों, फ्री‑टेक्स्ट PII और सीक्रेट्स को हटाएँ/हैश करें इससे पहले कि आप लॉग्स या फिक्स्चर्स स्टोर करें।
एक्सेस को सेगमेंट करें: इंजीनियर्स व्यवहार ट्रेसेस देख सकें पर कच्चे उपयोगकर्ता सीक्रेट्स नहीं।

इन नियमों को CI पाइपलाइन का हिस्सा बनाएं ताकि कोई भी टेस्ट आर्टिफैक्ट बिना अनोनिमाइजेशन के जनरेट या स्टोर न हो सके।

प्रोडक्शन में एजेंट्स का ऑपरेटिंग, मॉनिटरिंग और विकास

लूप्स को स्टेट मशीन में बदलें

बिल्ड करने से पहले प्लानिंग मोड में स्टेट्स, ट्रांज़िशन और टूल कॉल मैप करें.

प्लानिंग आज़माएँ

प्रोडक्शन में एजेंट्स चलाना स्थिर मॉडल भेजने जैसा नहीं है; यह एक विकसित होते हुए सेवा को चलाने जैसा है। आपको रोलआउट कंट्रोल्स, स्पष्ट विश्वसनीयता लक्ष्य, और अनुशासित परिवर्तन प्रबंधन चाहिए।

सुरक्षित रोलआउट रणनीतियाँ

नए एजेंट या व्यवहार को धीरे‑धीरे परिचित कराएँ:

शैडो मोड: एजेंट को मौजूदा सिस्टम के साथ साथ चलाएँ, उसके निर्णय लॉग करें पर उपयोगकर्ताओं पर लागू न करें। आउटपुट्स का ऑफ़लाइन तुलना करें।
कैनरीज़: ट्रैफ़िक का छोटा, परिभाषित हिस्सा (1–5%) नए वर्जन को दें। त्रुटि दर, लेटेंसी और गुणवत्ता देखें।
A/B टेस्ट्स: उपयोगकर्ता‑सामने वाले फ्लोज़ पर नए बनाम पुराने एजेंट को बिज़नेस KPIs पर मापें।

इन सबका समर्थन फीचर फ्लैग्स और कॉन्फ़िग‑ड्रिवन नीतियों से करें: राउटिंग नियम, सक्षम टूल्स, टेम्परेचर, सुरक्षा सेटिंग्स। बदलाव को कोड नहीं बल्कि कॉन्फ़िग से deploy और रीवर्ट करें।

SLOs और incident वर्कफ़्लो

ऐसे SLOs परिभाषित करें जो सिस्टम हेल्थ और उपयोगकर्ता वैल्यू दोनों को दर्शाते हों:

विश्वसनीयता: टास्क/टूल कॉल/एंड‑टू‑एंड वर्कफ़्लो की सफलता दर
लेटेंसी: क्रिटिकल पाथ के लिए p50/p95
गुणवत्ता: ऑटो‑इवैल्यूएशन स्कोर, ह्यूमन रेटिंग डिस्ट्रिब्यूशन, या कार्य‑विशिष्ट सफलता मैट्रिक्स

इन्हें अलर्ट में बाँधें और घटनाओं को उसी तरह संभालें जैसे किसी भी प्रोडक्शन सेवा को: स्पष्ट मालिक, ट्रायेज रनबुक, और मानक शमन कदम (रोलबैक फ्लैग, ट्रैफ़िक ड्रेन, सेफ़‑मोड)।

सतत सुधार और परिवर्तन नियंत्रण

लॉग्स, ट्रेसेस, और ट्रांसक्रिप्ट्स का उपयोग करके प्रॉम्प्ट्स, टूल्स और नीतियों को परिष्कृत करें। हर परिवर्तन को वर्शनड आर्टिफैक्ट मानें जिसमें समीक्षा, अनुमोदन और रोलबैक क्षमता हो।

चुपके से प्रॉम्प्ट या टूल परिवर्तन करने से बचें। बिना परिवर्तन‑नियंत्रण के, आप रिग्रेशन्स को किसी विशेष एडिट से नहीं जोड़ पाएँगे और घटना प्रतिक्रिया अनुमान पर निर्भर कर जाएगी बजाय इंजीनियरिंग के।

भरोसेमंद एजेंटिक सिस्टम के लिए संदर्भ आर्किटेक्चर

एक प्रोडक्शन‑रेडी एजेंटिक सिस्टम स्पष्ट जिम्मेदारियों के पृथक्करण से लाभान्वित होता है। लक्ष्य यह है कि एजेंट निर्णयों में स्मार्ट रहे, पर इन्फ्रास्ट्रक्चर में मूर्ख (dumb) रहे।

मूल घटक

1. गेटवे / API एज
क्लाइंट्स (ऐप्स, सर्विसेज, UIs) के लिए सिंगल एंट्री पॉइंट। यह संभालता है:

ऑथेन्टीकेशन और ऑथराइज़ेशन (यूज़र, सर्विस, टेनेंट)
रेट‑लिमिट्स और कोटास
रिक्वेस्ट शेपिंग (स्कीमास, साइज लिमिट्स, बेसिक वैलिडेशन)

2. ऑर्केस्ट्रेटर
ऑर्केस्ट्रेटर "ब्रेनस्टेम" है, न कि पूरा ब्रेन। यह समन्वय करता है:

प्लानर: उपयोगकर्ता इच्छ Intent को वर्कफ़्लो या स्टेट मशीन में अनुवादित करता है
स्टेट ऑर्केस्ट्रेटर: उस वर्कफ़्लो को निष्पादित करता है, स्टेट ट्रैक करता है, रिट्राईज़ और टाइमआउट को संभालता है
पॉलिसी इंजन: सुरक्षा, अनुपालन, अनुमत टूल्स, PII नियम, और लागत बजट लागू करता है

LLMs ऑर्केस्ट्रेटर के पीछे रहते हैं, प्लानर और उन विशेष टूल्स द्वारा उपयोग किए जाते हैं जिन्हें भाषा समझ की आवश्यकता होती है।

3. टूलिंग और स्टोरेज लेयर
बिज़नेस लॉजिक मौजूदा माइक्रोसर्विसेज, क्यूज़ और डेटा सिस्टमों में रहता है। टूल्स पतले रैपर होते हैं जो:

आंतरिक HTTP/gRPC सेवाएँ
डेटाबेस, वेक्टर स्टोर्स, कैशेस
बाहरी APIs

ऑर्केस्ट्रेटर टूल्स को सख्त कॉन्ट्रैक्ट्स के माध्यम से कॉल करता है, जबकि स्टोरेज सिस्टम्स सत्यता का स्रोत बने रहते हैं।

इंटीग्रेशन, नियंत्रण और टेलीमेट्री

गेटवे पर ऑथ और कोटास लागू करें; ऑर्केस्ट्रेटर में सुरक्षा, डेटा एक्सेस और नीति लागू करें। सभी कॉल्स (LLM और टूल्स) संरचित टेलीमेट्री इमिट करें जो पाइपलाइन को खिलाती है और वह पाइपलाइन आगे चलकर देती है:

स्टेप‑बाय‑स्टेप व्यवहार के लिए ट्रेसेस
SLOs और रेट‑लिमिट्स के लिए मैट्रिक्स
सुरक्षा और अनुपालन के लिए ऑडिट लॉग्स
उपयोगकर्ता, प्रोजेक्ट और टूल के हिसाब से लागत लेखांकन

सरल वास्तुकला (गेटवे → एकल ऑर्केस्ट्रेटर → टूल्स) ऑपरेशन में आसान है; अलग‑अलग प्लानर्स, पॉलिसी इंजन और मॉडल गेटवे जोड़ना लचीलापन बढ़ाता है पर समन्वय, लेटेंसी और ऑपरेशनल जटिलता भी बढ़ाता है।

सब कुछ जोड़कर और आपकी टीम के लिए अगले कदम

अब आपके पास वे मुख्य सामग्री हैं जिनसे एजेंट लोड के तहत पूर्वानुमेय व्यवहार करेंगे: स्पष्ट स्टेट मशीनें, स्पष्ट टूल कॉन्ट्रैक्ट्स, अनुशासित रिट्राईज़, और गहरी ऑब्ज़र्वेबिलिटी। अंतिम कदम इन विचारों को आपकी टीम के लिए एक दोहराने योग्य अभ्यास में बदलना है।

एक तस्वीर में मुख्य पैटर्न्स

प्रत्येक एजेंट को एक स्टेटफुल वर्कफ़्लो के रूप में सोचें:

एक स्टेट मशीन कानूनी कदमों (plan → gather → act → summarize, आदि) और उनके बीच ट्रांज़िशन को परिभाषित करती है।
टूल कॉन्ट्रैक्ट्स हर एक क्रिया क्या कर सकती है यह परिभाषित करते हैं, सख्त स्कीमास, टाइमआउट्स, और एरर सर्फेस के साथ।
रिट्राईज़ और इडेम्पोटेंसी हर बाहरी इंटरैक्शन की रक्षा करते हैं ताकि रिप्ले सुरक्षित हों और साइड‑इफेक्ट्स दोहराए न जाएँ।
ऑब्ज़र्वेबिलिटी (ट्रेसेस, मैट्रिक्स, लॉग्स) हर निर्णय और टूल कॉल को समझने योग्य और डिबग‑योग्य बनाती है।

जब ये टुकड़े एक साथ आते हैं, तो आपको ऐसे सिस्टम मिलते हैं जो एज‑केसेस में धीरे‑धीरे degrade करते हैं बजाय इसके कि ढह जाएँ।

एक हल्का चेकलिस्ट — एजेंट को प्रोडक्शन में डालने से पहले

प्रोटोटाइप एजेंट को असली उपयोगकर्ताओं पर भेजने से पहले सुनिश्चित करें:

वर्कफ़्लो: स्टेट्स और ट्रांज़िशन स्पष्ट हैं; कोई छुपा हुआ लूप नहीं, कोई अनिश्चित टूल चेन नहीं।
कॉन्ट्रैक्ट्स: हर टूल के पास टाइप्ड इनपुट/आउटपुट, स्पष्ट विफलता मोड्स, और टाइमआउट्स हैं।
सुरक्षा: इनपुट्स, आउटपुट्स और क्रियाओं पर गार्डरेल (रेट‑लिमिट्स, अलाव‑लिस्ट्स, कोटास)।
रिट्राईज़: पॉलिसियाँ हर टूल के लिए परिभाषित हैं; सभी साइड‑इफेक्टिंग कॉल्स के लिए इडेम्पोटेंसी कीज़ मौजूद हैं।
स्टेट: मेमोरी और स्थायी स्टेट स्कोप्ड, वर्शनड, और रिकवर होने योग्य हैं।
ऑब्ज़र्वेबिलिटी: आप किसी भी उपयोगकर्ता सत्र के लिए "क्या हुआ" का उत्तर एक ही ट्रेस में दे सकें।
टेस्टिंग: आपके पास सीनारियो‑आधारित टेस्ट्स और रिग्रेशन सूट्स हैं प्रॉम्प्ट्स, टूल्स, और पॉलिसीज़ के लिए।

यदि कोई आइटम गायब है, तो आप अभी भी प्रोटोटाइप मोड में हैं।

टीमें स्वामित्व कैसे बाँट सकती हैं

एक स्थायी सेटअप आमतौर पर अलग करता है:

प्रोडक्ट टीमें: एजेंट व्यवहार, प्रॉम्प्ट्स, उनके फीचर‑क्षेत्र के टूल्स, और मूल्यांकन डेटा सेट्स की जिम्मेदारी उठाती हैं।
प्लॅटफ़ॉर्म / इन्फ्रा टीमें: स्टेट‑मशीन फ्रेमवर्क, सामान्य टूल SDKs, लॉगिंग और ट्रेसिंग, पॉलिसी प्रवर्तन, और साझा मूल्यांकन इन्फ्रास्ट्रक्चर का स्वामित्व रखती हैं।

यह उत्पाद टीमों को तेज़ी से बदलने देता है जबकि प्लेटफ़ॉर्म टीमें विश्वसनीयता, सुरक्षा और लागत नियंत्रण सुनिश्चित करती हैं।

भविष्य के विस्तार और सुरक्षित итरेशन

एक बार नींव स्थिर हो जाए, आप इनका अन्वेषण कर सकते हैं:

लर्निंग‑आधारित नीतियाँ: लॉग किए गए ट्रेसेस का उपयोग करके राउटिंग, टूल चयन और फॉलबैक रणनीतियों को बेहतर बनाना।
रिइनफ़ोर्समेंट लर्निंग: लंबी अवधि के परिणामों (जैसे कार्य पूरा होना या राजस्व) के लिए नीति का अनुकूलन।
सेल्फ‑ट्यूनिंग वर्कफ़्लोज़: प्रदर्शन के आधार पर स्वतः टेम्परेचर, टूल्स, या सब‑फ्लोज़ समायोजित करना।

यहाँ प्रगति क्रमिक होनी चाहिए: नए लर्निंग घटकों को फीचर फ्लैग्स के पीछे लाएँ, ऑफ़लाइन मूल्यांकन और मजबूत गार्डरेल्स के साथ।

सारे सिद्धांत एक ही विषय से बंधे हैं: विफलता के लिए डिज़ाइन करें, चतुराई पर स्पष्टता को प्राथमिकता दें, और जहाँ आप ऑब्ज़र्व कर सकते हैं और तुरंत रोलबैक कर सकते हैं वहाँ क्रमिक रूप से इटरेशन करें। इन प्रतिबंधों के साथ, एजेंटिक सिस्टम डरावने प्रोटोटाइप नहीं रह जाते बल्कि ऐसा इन्फ्रास्ट्रक्चर बन जाते हैं जिस पर आपकी संस्था निर्भर कर सकती है।

अक्सर पूछे जाने वाले प्रश्न

What is an agentic system, and how is it different from a normal LLM app?

एक एजेंटिक सिस्टम वह एप्लिकेशन है जहाँ एक LLM केवल एक प्रॉम्प्ट का उत्तर नहीं देता बल्कि आगे क्या करना है तय करता है: कौन से टूल कॉल करने हैं, कौन सा डेटा लाना है, वर्कफ़्लो का कौन सा स्टेप चलाना है और कब काम समाप्त हुआ माना जाए.

एक साधारण चैट कंप्लीशन के उलट, एक एजेंटिक सिस्टम निम्न चीज़ों का संयोजन होता है:

एक निर्णय नीति (LLM + प्रॉम्प्ट)
एक वर्कफ़्लो या स्टेट मशीन जो प्रगति को ट्रैक करती है
टूल्स का एक सेट (APIs, डेटाबेस, सेवाएँ)
रिट्राई, स्टेट परसिस्टेंस, लॉगिंग और ऑब्ज़र्वेबिलिटी के लिए इन्फ्रास्ट्रक्चर

प्रोडक्शन में, LLM पूरे सिस्टम का केंद्र नहीं रहता बल्कि एक निर्णय घटक बनकर एक बड़े, निर्धारित खोल के अंदर काम करता है।

Why do agents that look great in demos often fail in production?

डेमो आमतौर पर एक ही हैप्पी‑पाथ पर चलते हैं: एक उपयोगकर्ता, आदर्श टूल व्यवहार, कोई टाइमआउट नहीं, कोई स्कीमा ड्रिफ्ट नहीं और छोटे संवाद। प्रोडक्शन लोड में एजेंटों को निम्न समस्याओं का सामना करना पड़ता है:

अस्थिर टूल्स: टाइमआउट, 5xx त्रुटियाँ और बदलते उत्तर प्रारूप
समवर्तीता: कई उपयोगकर्ता साझा संसाधनों और रेट‑लिमिट्स के लिए प्रतिस्पर्धा करते हैं
लंबी चलने वाली सत्रें: बढ़ा हुआ कंटेक्स्ट, मेमोरी उलझन और स्टेट ड्रिफ्ट
मॉडल त्रुटियों का संचयन: छोटे गलत कदम कई टूल कॉल में बढ़कर बड़ा असर डालते हैं

यदि स्पष्ट वर्कफ़्लो, कॉन्ट्रैक्ट और विफलता‑हैंडलिंग न हों, तो ये कारक लूप, स्टॉल, आंशिक काम और चुप्पी से हुई त्रुटियाँ पैदा करते हैं जो डेमो वातावरण में दिखाई नहीं देतीं।

How do I make an agent predictable and easy to debug?

LLM को एक फ़्री‑फॉर्म लूप के भीतर छोड़ने के बजाय उसे एक स्पष्ट संरचना के अंदर चलाएँ:

एजेंट को एक स्टेट मशीन के रूप में मॉडल करें, जिसमें सीमित स्टेट्स और अनुमत ट्रांज़िशन हों।
LLM का उपयोग केवल स्थानीय विकल्पों के लिए करें (जैसे अगला टूल कौन सा चुनना, पैरामीटर कैसे भरना), न कि मनमाने ढंग से पूरी प्रक्रियाएँ उत्पन्न करने के लिए।

What does it mean to model an agent as a state machine?

एजेंट को एक वर्कफ़्लो के रूप में मॉडल करें जिसमें नामित स्टेट्स और टाइप्ड इवेंट्स हों, न कि while not done: call LLM जैसा लूप।

सामान्य स्टेट्स हो सकते हैं:

How should I design tool contracts for my agents?

टूल्स को प्रॉम्प्ट के prose की तरह नहीं बल्कि सही प्रोडक्शन APIs की तरह डिज़ाइन करें। हर टूल को निम्न कॉन्ट्रैक्ट होना चाहिए:

How do I handle failures, retries, and idempotency in agent workflows?

मान लीजिए कि हर बाहरी कॉल कभी‑न‑कभी फेल होगी और उसी के चारों ओर डिज़ाइन करें.

मुख्य पैटर्न्स:

What is the right way to manage memory and state for agents?

LLM के पास स्वयं कोई स्थायी राज्य नहीं होना चाहिए — स्पष्ट रूप से शॉर्ट‑टर्म स्टेट और लॉन्ग‑टर्म मेमोरी अलग रखें।

शॉर्ट‑टर्म स्टेट में शामिल करें: सक्रिय लक्ष्य, वर्तमान स्टेप, टूल आउटपुट्स, आंशिक फैसले और कंट्रोल वेरिएबल्स (सभी रिट्राई काउंट्स, चुना गया ब्रांच आदि)। ये वर्कफ़्लो के पूरा होते ही डिस्पोजेबल होने चाहिए।
लॉन्ग‑टर्म मेमोरी में रखें: उपयोगकर्ता प्रोफ़ाइल, प्राथमिकता, पूर्व निर्णय, प्रोजेक्ट इतिहास और सीखे गए शॉर्टकट्स — इन्हें बाहरी स्टोरेज में संरचित रूप से रखें।

LLM को एक स्पष्ट स्टेट ऑब्जेक्ट के ऊपर स्टेटलेस फ़ंक्शन के रूप में व्यवहार करें: प्रासंगिक स्टेट लोड करें, प्रॉम्प्ट बनायें, मॉडल कॉल करें, फिर अपडेटेड स्टेट परसिस्ट करें।

How should I deal with concurrency, rate limits, and backpressure in agent systems?

एजेंट्स पर असल दुनिया में कई समवर्ती अनुरोध आने पर वे एक वितरित सिस्टम की तरह व्यवहार करते हैं। भेदभाव के बिना:

रेस कंडीशंस: दो एजेंट एक ही टिकट/कार्ट/दस्तावेज़ को समवर्ती रूप से अपडेट कर सकते हैं और एक दूसरे को ओवरराइट कर सकते हैं।
डुप्लिकेट वर्क: रिट्राईज़ या मिस‑कनफ़िगर्ड वर्कर्स एक ही टास्क को दो बार प्रोसेस कर सकते हैं (जैसे भुगतान दो बार चार्ज होना)।
आउट‑ऑफ‑ऑर्डर प्रभाव: टूल कॉल अनपेक्षित क्रम में पूर्ण होती हैं तो पुराना परिणाम नए को ओवरराइट कर दे सकता है।

इनकी रोकथाम के लिए इडेम्पोटेंट टूल कॉन्ट्रैक्ट्स, स्पष्ट वर्कफ़्लो स्टेट और डेटालेयर में ऑप्टिमिस्टिक/पेसीमिस्टिक लॉकिंग का उपयोग करें।

What observability do I need to run agents safely in production?

आपको यह जल्दी सटीकता से उत्तर देना चाहिए: "उसने क्या किया?" और "उसने ऐसा क्यों किया?"— किसी भी टास्क के लिए. ऑब्ज़र्वेबिलिटी को ऐसे डिजाइन करें कि एक ही टास्क का ट्रेस निम्न बातों को कवर करे:

प्रत्येक एजेंट स्टेप और स्टेट ट्रांज़िशन
हर टूल कॉल और उसका रिस्पॉन्स
हर मॉडल इन्वोकेशन और प्रॉम्प्ट वेरिएंट

ट्रेस के भीतर स्ट्रक्चर्ड लॉग्स जोड़ें (मुख्य निर्णय, प्लान संशोधन, गार्डरेल ट्रिगर) और वॉल्यूम व हेल्थ के लिए मैट्रिक्स।

उपयोगी ट्रेस में सामान्यतः ये शामिल होते हैं:

What testing and evaluation strategies should I use for agentic systems?

एजेंट टेस्टिंग का मतलब है उन टूल्स का और उन फ्लोज़ का टेस्ट करना जो उन्हें जोड़ते हैं। इसे डिस्ट्रिब्यूटेड सिस्टम टेस्टिंग की तरह मानें, केवल प्रॉम्प्ट ट्वीकिंग नहीं।

योजना:

How should teams roll out and operate agentic systems safely over time?

प्रोडक्शन में एजेंट्स चलाना एक विकसित होते हुए डिस्ट्रिब्यूटेड सिस्टम की तरह है—रोलआउट, विश्वसनीयता लक्ष्य और बदलाव नियंत्रण की ज़रूरत होती है।

सुरक्षित रोलआउट के तरीके:

शैडो मोड: नया एजेंट साथ‑साथ चलाएँ, उसके निर्णय लॉग करें पर यूज़र‑इम्पैक्ट न होने दें; आउटपुट्स को ऑफ़लाइन तुलना करें।
कैनरीज़: ट्रैफ़िक का छोटा हिस्सा (1–5%) नए वर्जन को दें और त्रुटि दर, लेटेंसी व गुणवत्ता देखें।
A/B टेस्ट्स: उपयोगकर्ता‑फेसिंग फ्लोज़ पर नए बनाम पुराने एजेंट को बिज़नेस KPIs के आधार पर तुलना करें, केवल मॉडल‑मेट्रिक्स पर नहीं।