जब AI प्रोटोटाइप को प्रोडक्शन की ज़रूरत हो: संकेत और अगले कदम

Q: What reliability and fallback patterns should we build in?

Design for bad days with explicit reliability behaviors: - Track uptime and p95/p99 latency (not just averages) - Use hard timeouts with clear user messaging - Add safe retries and a circuit breaker to stop hammering failing providers - Implement fallbacks: cached answers, cheaper/smaller model, or human handoff The goal is graceful degradation, not random errors.

Q: What security and privacy work is required before we expose real customer data?

Map data flows end-to-end and remove unknowns: - Identify what inputs, outputs, and logs contain (including chat history and files) - Minimize data sent to models/tools; avoid “just in case” prompting - Set retention and deletion rules - Enforce least-privilege access with audit trails - Redact PII/secrets from logs by default Also explicitly mitigate prompt injection, data leakage across users, and unsafe tool actions.

Q: What’s a safe roadmap to move from prototype to production?

Run a staged launch with reversibility: - Pilot to a small cohort behind feature flags - Test a kill switch that disables the AI path immediately - Increase traffic in steps (e.g., 5% → 25% → 50% → 100%) with go/no-go checks - Version prompts/models/retrieval configs and make rollbacks easy - Assign clear owners (product, AI quality, security, support) and an incident playbook If rollback is hard or nobody owns it, you’re not production-ready yet.

लॉग इन शुरू करें

प्रोटोटाइप बनाम प्रोडक्शन: क्या बदलता है और क्यों

एक प्रोटोटाइप एक सवाल का जवाब देता है: “क्या यह विचार आगे बढ़ाने लायक है?” यह गति, सीखने और एक विश्वसनीय अनुभव दिखाने के लिए अनुकूलित होता है। एक प्रोडक्शन सिस्टम अलग सवाल का जवाब देता है: “क्या हम इसे असली उपयोगकर्ताओं के लिए—बार-बार, सुरक्षित और निश्चित तरीके से—चलाएँगे?”

प्रोटोटाइप और प्रोडक्शन में क्या गिना जाता है

एक प्रोटोटाइप एक नोटबुक, UI में एक प्रॉम्प्ट, या एक पतला ऐप हो सकता है जो न्यूनतम गार्डरेल के साथ LLM को कॉल करता है। अगर यह थोड़ा मैनुअल है (कोई ऐप रीसेट करता है, आउटपुट हाथ से सुधारता है, या विफल कॉल्स को दोबारा भेजता है) तो भी ठीक है।

एक प्रोडक्शन AI फीचर एक प्रतिबद्धता है: इसे कई उपयोगकर्ताओं में लगातार व्यवहार करना होगा, किनारे के मामलों को संभालना होगा, संवेदनशील डेटा की सुरक्षा करनी होगी, बजट में रहना होगा, और तब भी काम करना चाहिए जब मॉडल API धीमा हो, डाउन हो, या बदल जाए।

क्यों “डेमो में चलता है” असली उपयोगकर्ताओं पर फेल हो जाता है

डेमो नियंत्रित होते हैं: चुने हुए प्रॉम्प्ट, अनुमानित इनपुट, और धैर्यवान दर्शक। असली उपयोग messy होते हैं।

उपयोगकर्ता लंबे दस्तावेज़ चिपकाएंगे, अस्पष्ट प्रश्न पूछेंगे, सिस्टम को “टूट” करने की कोशिश करेंगे, या अनजाने में आवश्यक संदर्भ नहीं देंगे। LLMs छोटे इनपुट परिवर्तनों के प्रति संवेदनशील होते हैं, और आपका प्रोटोटाइप उन धारणाओं पर निर्भर कर सकता है जो स्केल पर सत्य नहीं रहती—जैसे स्थिर लेटेंसी, उदार रेट लिमिट, या एक ही मॉडल वर्ज़न का हमेशा एक जैसा आउटपुट देना।

इतना ही महत्वपूर्ण: एक डेमो अक्सर मानवीय मेहनत छिपाता है। अगर कोई टीममेट चुपचाप प्रॉम्प्ट दोबारा चलाता है, शब्द बदलता है, या सबसे अच्छा आउटपुट चुनता है, तो वह फीचर नहीं—यह एक वर्कफ़्लो है जिसे आपको ऑटोमेट करना होगा।

अपेक्षाएँ सेट करना: समय और अगले कदम तय करना

प्रोडक्शन में जाना UI को पॉलिश करने के बारे में नहीं है। यह AI व्यवहार को एक विश्वसनीय उत्पाद क्षमता में बदलने के बारे में है।

एक उपयोगी नियम: यदि फीचर ग्राहक निर्णयों को प्रभावित करता है, निजी डेटा को छूता है, या आप इसे किसी कोर मेट्रिक की तरह मापना चाहते हैं, तो मन बदल कर “प्रॉम्प्टिंग” से AI सिस्टम इंजीनियरिंग पर भेजें—स्पष्ट सफलता मानदंड, मूल्यांकन, निगरानी, और सुरक्षा जांच के साथ।

यदि आप तेजी से बना रहे हैं, तो प्लेटफ़ॉर्म जैसे Koder.ai आपको विचार से काम करने वाले ऐप तक तेज़ी से पहुँचने में मदद कर सकते हैं (React वेब, Go + PostgreSQL बैकएंड, Flutter मोबाइल)। कुंज़ी यह है कि इस गति को प्रोटोटाइप के लाभ के रूप में रखें—न कि प्रोडक्शन हार्डेनिंग छोड़ने का कारण। एक बार जब उपयोगकर्ता इससे निर्भर हो जाते हैं, तब भी आपको नीचे दिए गए विश्वसनीयता, सुरक्षा और संचालन नियंत्रण की ज़रूरत होगी।

वे 5 ट्रिगर जो बताते हैं कि आप प्रोटोटाइप से बाहर आ गए हैं

प्रोटोटाइप सीखने के लिए होता है: “क्या यह काम करता है और क्या उपयोगकर्ता परवाह करते हैं?” प्रोडक्शन भरोसे के लिए होता है: “क्या हम इसे रोज़ाना भरोसे के साथ चला सकते हैं, वास्तविक परिणामों के साथ?” ये पांच ट्रिगर सबसे स्पष्ट संकेत हैं कि आपको प्रोडक्शनाइज़ेशन शुरू करना चाहिए।

1) उपयोगकर्ता संख्या (या उपयोग आवृत्ति) बढ़ने लगती है

अगर डेली एक्टिव यूज़र्स, दोहराया उपयोग, या ग्राहक-सामना एक्सपोज़र बढ़ रहा है, तो आपने अपना ब्लास्ट रेडियस बढ़ा दिया है—जब AI गलत, धीमा, या अनुपलब्ध हो तो प्रभावित लोगों की संख्या।

निर्णय बिंदु: वृद्धि आपके मुद्दों को ठीक करने की क्षमता से आगे निकलने से पहले इंजीनियरिंग समय reliability काम के लिए आरक्षित करें।

2) बिज़नेस आउटपुट पर निर्भर हो जाता है

जब टीमें AI परिणामों को ग्राहक ईमेल, कॉन्ट्रैक्ट, निर्णय, या वित्तीय रिपोर्टिंग में कॉपी करने लगती हैं, तो विफलताएँ असली लागत बन जाती हैं।

पूछें: अगर यह फीचर 24 घंटे के लिए बंद हो जाए तो क्या टूटता है? अगर उत्तर है “एक कोर वर्कफ़्लो रुक जाता है,” तो यह अब प्रोटोटाइप नहीं है।

3) अनुपालन, गोपनीयता, या सुरक्षा आवश्यकताएँ उभरती हैं

जैसे ही आप नियंत्रित डेटा, व्यक्तिगत डेटा, या ग्राहक गुप्त जानकारी को हैंडल करते हैं, आपको औपचारिक नियंत्रण (एक्सेस, रिटेंशन, वेंडर रिव्यू, ऑडिट ट्रेल) चाहिए।

निर्णय बिंदु: विस्तार रोक दें जब तक आप यह साबित न कर सकें कि क्या डेटा भेजा, संग्रहीत और लॉग किया जा रहा है।

4) आपके नियंत्रण के बाहर परिवर्तन व्यवहार को प्रभावित करने लगते हैं

छोटे प्रॉम्प्ट एडिट्स, टूल बदलाव, या मॉडल प्रदाता अपडेट आउटपुट रातोंरात बदल सकते हैं। अगर आपने कभी कहा है “यह कल काम कर रहा था,” तो आपको वर्जनिंग, मूल्यांकन, और रोलबैक योजनाओं की जरूरत है।

5) ड्रिफ्ट दिखाई देता है: नए उपयोगकर्ता, नया कंटेंट, नए failure मोड

जैसे-जैसे इनपुट बदलते हैं (सीज़नैलिटी, नए प्रोडक्ट्स, नई भाषाएँ), सटीकता चुपचाप घट सकती है।

निर्णय बिंदु: सफलता/विफलता मीट्रिक परिभाषित करें और स्केल करने से पहले एक मॉनिटरिंग बेसलाइन सेट करें।

व्यावहारिक संकेत: उपयोगकर्ता, बिज़नेस, और इंजीनियरिंग

एक प्रोटोटाइप तब तक “काफी अच्छा” लग सकता है जब तक वह असली उपयोगकर्ताओं, असली पैसे, या असली ऑपरेशन्स को प्रभावित न करने लगे। प्रोडक्शन में बदलाव आमतौर पर एक ही मीट्रिक से ट्रिगर नहीं होता—यह तीन दिशाओं से संकेतों का पैटर्न होता है।

उपयोगकर्ता ट्रस्ट संकेत

जब उपयोगकर्ता सिस्टम को एक खिलौना मानते हैं, तो गलतियों को सहन किया जाता है। जब वे उस पर निर्भर होते हैं, तो छोटी गलतियाँ महंगी हो जाती हैं।

नज़र रखें: गलत या असंगत उत्तरों की शिकायतें, सिस्टम क्या कर सकता है और क्या नहीं पर भ्रम, बार-बार “नहीं, मेरा मतलब यही नहीं था” सुधार, और सपोर्ट टिकटों की बढ़ती धारा। एक मज़बूत संकेत है जब उपयोगकर्ता वर्कअराउंड बनाते हैं (“मैं हमेशा इसे तीन बार फिर से कहता/कहती हूँ”)—वह छिपा हुआ घर्षण अपनाने को रोक देगा।

बिज़नेस संकेत

बिज़नेस क्षण आता है जब आउटपुट राजस्व, अनुपालन, या ग्राहक प्रतिबद्धताओं को प्रभावित करता है।

नज़र रखें: ग्राहक SLA माँगना, सेल्स फीचर को अंतर बताकर पेश करना, टीमें सिस्टम पर डेडलाइन पूरा करने के लिए निर्भर होना, या लीडरशिप का अपेक्षा रखना कि प्रदर्शन और लागत अनुमानित हों। अगर “अस्थायी” किसी महत्वपूर्ण वर्कफ़्लो का हिस्सा बन गया है, तो आप पहले से ही प्रोडक्शन में हैं—भले ही सिस्टम तैयार न हो।

इंजीनियरिंग संकेत

इंजीनियरिंग दर्द अक्सर सबसे स्पष्ट संकेत होता है कि आप तकनीकी ऋण का ब्याज चुका रहे हैं।

नज़र रखें: विफलताओं के बाद मैनुअल फिक्सेस, आपातकालीन रूप से प्रॉम्प्ट ट्वीक, fragile glue code जो API बदलते ही टूटता है, और पुनरावर्ती मूल्यांकन का अभाव (“यह कल काम कर रहा था”)। अगर केवल एक ही व्यक्ति इसे चलाए रख सकता है, तो यह उत्पाद नहीं—यह एक लाइव डेमो है।

संकेतों को क्रियाओं में बदलने का सरल तरीका

निबद्ध अवलोकनों को ठोस हार्डेनिंग कार्यों में बदलने के लिए एक हल्का टैबल उपयोग करें:

Signal	Risk	Required hardening step
Rising support tickets for wrong answers	Trust erosion, churn	Add guardrails, improve evaluation set, tighten UX expectations
Customer asks for SLA	Contract risk	Define uptime/latency targets, add monitoring + incident process
Weekly prompt hotfixes	Unpredictable behavior	Version prompts, add regression tests, review changes like code
Manual “cleanup” of outputs	Operational drag	Automate validation, add fallback paths, improve data handling

अगर आप इस टेबल को वास्तविक उदाहरणों से भर सकते हैं, तो आप संभवतः प्रोटोटाइप से बाहर आ चुके हैं—और अब आप प्रोडक्शन कदमों की योजना बनाने के लिए तैयार हैं।

प्रोडक्शन-ग्रेड सफलता और विफलता मानदंड तय करें

एक प्रोटोटाइप कुछ डेमो में काम कर के “काफी अच्छा” लग सकता है। प्रोडक्शन अलग है: आपको स्पष्ट पास/फेल नियम चाहिए जो आपको आत्मविश्वास से शिप करने दें—और जब जोखिम बहुत अधिक हो तो रोक दें।

बिज़नेस शब्दों में सफलता परिभाषित करें

3–5 मीट्रिक्स से शुरू करें जो असली मूल्य को दर्शाते हों, न कि भावनाओं को। सामान्य प्रोडक्शन मीट्रिक्स में शामिल हैं:

सठिकता / कार्य सफलता दर (क्या उपयोगकर्ताओं को सही परिणाम मिला?)
प्रति कार्य बचाया गया समय (पुराने वर्कफ़्लो के मुकाबले मिनट में कमी)
प्रति कार्य लागत (मॉडल + टूलिंग लागत प्रति पूर्ण उपयोगकर्ता कार्य)
उपयोगकर्ता संतुष्टि (CSAT, अंगूठा ऊपर दर, या “क्या आप फिर इस्तेमाल करेंगे?”)

लक्ष्य ऐसे सेट करें जिन्हें साप्ताहिक मापा जा सके, सिर्फ एक बार नहीं। उदाहरण: “हमारे इवैल्यूएशन सेट पर ≥85% कार्य सफलता और दो सप्ताह बाद ≥4.2/5 CSAT।”

विफलता मीट्रिक्स और “नही-हुइये” नियम परिभाषित करें

विफलता मानदंड उतने ही महत्वपूर्ण हैं। LLM ऐप्स के लिए सामान्य हैं:

हानिकारक आउटपुट दर (पॉलिसी उल्लंघन, उत्पीड़न, असुरक्षित सलाह)
अस्वीकृति दर (कितनी बार वैध अनुरोधों को इंकार किया गया)
हल्लुसीनेशन दर (आत्मविश्वास से गलत दावे, गलत उद्धरण, बनावटी कार्रवाइयाँ)

स्पष्ट must-not-happen नियम जोड़ें (उदा., “PII उजागर न हो,” “रिफंड का आविष्कार न हो,” “ऐसी कार्रवाई का दावा न किया जाए जो नहीं हुई”)। ये स्वचालित ब्लॉकिंग, सुरक्षित फॉलबैक, और इनसिडेंट समीक्षा ट्रिगर करें।

इवैल्यूएशन सेट और उसकी जिम्मेदारी दस्तावेज़ करें

लिखें:

इवैल्यूएशन डेटा सेट (गोल्ड आंसर, एज केस, रेड-टीम प्रॉम्प्ट)
इन्हें कैसे वर्ज़न किया और अपडेट किया जाता है
मालिकाना: कौन नए केस जोड़ता है—घटना, सपोर्ट टिकट, या प्रोडक्ट बदलाव के बाद

इवैल्यूएशन सेट को एक उत्पाद संपत्ति की तरह ट्रीट करें: अगर कोई इसका मालिक नहीं है, क्वालिटी ड्रिफ्ट करेगी और विफलताएँ चौंकाएंगी।

विश्वसनीयता: लेटेंसी, अपटाइम, और फॉलबैक प्लान

एक प्रोटोटाइप “काफी अच्छा” हो सकता है जब कोई मानव उसे देख रहा हो। प्रोडक्शन को अनुमानित व्यवहार चाहिए जब कोई नहीं देख रहा—खासकर बुरे दिनों में।

व्यवहार में विश्वसनीयता का क्या अर्थ है

अपटाइम यह है कि फीचर उपलब्ध है या नहीं। ग्राहक-सामना AI असिस्टेंट के लिए, आम तौर पर एक स्पष्ट लक्ष्य चाहिए (उदा., “माहिक 99.9%”) और यह परिभाषा कि क्या “डाउन” माना जाएगा (API त्रुटियाँ, टाइमआउट, या उपयोगी धीमापन)।

लेटेंसी वह समय है जो उपयोगकर्ता इंतजार करते हैं। सिर्फ औसत को नहीं, बल्कि धीमी पूँछ (अक्सर p95/p99) को ट्रैक करें। सामान्य प्रोडक्शन पैटर्न एक हार्ड टाइमआउट सेट करना है (उदा., 10–20 सेकंड) और तय करना कि तब क्या होगा—क्योंकि हमेशा इंतज़ार करना नियंत्रित फॉलबैक से बदतर है।

टाइमआउट हैंडलिंग में शामिल होना चाहिए:

स्पष्ट उपयोगकर्ता संदेश (“अभी काम चल रहा है…” बनाम “फिर कोशिश करें”)
सुरक्षित रिट्राइज़ (गलती से एक महँगा अनुरोध तीन बार न चल जाएँ)
सर्किट ब्रेकर (अगर मॉडल प्रदाता फेल कर रहा है तो उसे बार-बार न मारें)

भरोसेमंद फॉलबैक व्यवहार जो आपको भरोसेमंद रखें

एक प्राथमिक पाथ और कम से कम एक फॉलबैक की योजना बनाएं:

आम प्रश्नों के लिए कैश किए हुए उत्तर (यहां तक कि प्रदाता समस्याओं के दौरान भी तुरंत उत्तर देने के लिए)
जब सर्वश्रेष्ठ मॉडल ओवरलोड हो तो सरल/सस्ता मॉडल
उच्च-जोखिम फ्लोज़ के लिए मानव हैंडऑफ़ (बिलिंग, मेडिकल, खाता एक्सेस) या जब आत्मविश्वास कम हो

यह ग्रेसफुल डिग्रेडेशन है: अनुभव सरल होता है, टूटा हुआ नहीं। उदाहरण: अगर “फुल” असिस्टेंट समय पर दस्तावेज़ पुनःप्राप्त नहीं कर पाता, तो वह एक संक्षिप्त उत्तर देता है + शीर्ष स्रोतों के लिंक और एस्केलेशन की पेशकश—बजाय कि एक त्रुटि लौटाने के।

रेट लिमिट, concurrency, और क्यूज़ (साधारण शब्दों में)

ट्रैफिक नियंत्रण पर निर्भरता भी reliability को प्रभावित करती है। रेट लिमिट्स अचानक spikes को रोकते हैं। कंकरेन्सी यह है कि आप एक साथ कितनी रिक्वेस्ट हैंडल करते हैं; बहुत अधिक होने पर उत्तर सभी के लिए धीमे हो जाते हैं। क्यूज़ रिक्वेस्ट्स को तुरंत फेल होने के बजाय थोड़ी देर लाइन में इंतज़ार करने देती हैं, जिससे आपको स्केल करने या फॉलबैक पर स्विच करने का समय मिलता है।

सुरक्षा और गोपनीयता: लॉन्च से पहले क्या सत्य होना चाहिए

कोड का पूरा मालिकाना रखें

गहरे प्रोडक्शन नियंत्रण और रिव्यू के लिए तैयार होने पर स्रोत कोड निर्यात करें.

कोड निर्यात करें

यदि आपका प्रोटोटाइप असली ग्राहक डेटा को छूता है, तो “बाद में ठीक कर लेंगे” विकल्प बंद हो जाता है। लॉन्च से पहले आपको यह स्पष्ट चित्र चाहिए कि AI फीचर क्या देख सकता है, कहाँ जाता है, और किसे एक्सेस मिल सकता है।

संवेदनशील डेटा फ़्लोज़ का मानचित्र बनाएं (end to end)

एक साधारण डायग्राम या तालिका से शुरू करें जो हर रास्ता ट्रैक करे:

Inputs: प्रॉम्प्ट, चैट हिस्ट्री, अपलोड की गई फाइलें, पेस्ट किए गए स्क्रीनशॉट, फॉर्म फ़ील्ड
Identifiers: यूज़र आईडी, ईमेल, अकाउंट नंबर, डिवाइस आईडी, IP
Outputs: मॉडल रिस्पॉन्स, उद्धरण, जेनरेट की गई फाइलें
Storage/telemetry: लॉग्स, एनालिटिक्स ईवेंट्स, एरर ट्रेसेस, सपोर्ट टिकट
Third parties: मॉडल APIs, वेक्टर DBs, सर्च/टूल्स, मॉडरेशन सर्विसेस

लक्ष्य है “अज्ञात” गंतव्यों को समाप्त करना—खासकर लॉग्स में।

गोपनीयता मूल बातें जो लागू करनी चाहिए

डेटा मिनिमाइज़ेशन: केवल वही इकट्ठा करें जो फीचर को चाहिए। “ज़रूरत पड़ने पर” पूरा रिकॉर्ड प्रॉम्प्ट में डालने से बचें।
रिटेंशन नियम: यह परिभाषित करें कि प्रॉम्प्ट, फाइलें, और आउटपुट कितनी देर तक स्टोर किए जाएँ। यूज़र/अकाउंट के अनुसार हटाना आसान बनाएं।
एक्सेस कंट्रोल: किसे बातचीत और अटैचमेंट देख सकते हैं उसे सीमित करें (इंजीनियरिंग, सपोर्ट, वेंडर्स)। least-privilege और ऑडिटेड एक्सेस का उपयोग करें।
रेडक्शन: लॉग्स से डिफ़ॉल्ट तौर पर सीक्रेट्स और PII हटाएँ (API कीज़, टोकन, ईमेल, पते)। मॉडल प्रॉम्प्ट को संभावित संवेदनशील मानें।

ख़तरे जिन्हें स्पष्ट रूप से कम करना चाहिए

प्रॉम्प्ट इंजेक्शन: मान लें कि उपयोगकर्ता (या पुनःप्राप्त सामग्री) निर्देशों को ओवरराइड करने और छिपा डेटा निकालने की कोशिश कर सकता है।
डेटा लीक: मॉडल को अन्य उपयोगकर्ताओं की सामग्री, सिस्टम प्रॉम्प्ट, या आंतरिक टूल्स प्रकट करने से रोकें।
असुरक्षित टूल कॉल्स: कार्रवाइयों (पेमेंट्स, डिलीट, एक्सपोर्ट) को सीमित करें। पुष्टि, अलाउलिस्ट और स्कोप्ड परमिशन्स की आवश्यकता रखें।

हल्का सुरक्षा रिव्यू चेकलिस्ट (कॉपी/पेस्ट)

Data flow documented (inputs, storage, vendors, logs)
PII/secrets redaction in logs and analytics
Retention + deletion policy implemented
Vendor terms and data usage verified (training, storage, region)
Prompt injection defenses (tool allowlists, content boundaries, “never reveal” rules tested)
Tool permissions scoped per user; high-risk actions gated
Abuse monitoring + incident plan (who responds, how to disable feature)

इसे एक रिलीज गेट के रूप में ट्रीट करें—हर बार चलाने के लिए छोटा और आश्चर्य रोकने के लिए पर्याप्त सख्त।

परीक्षण और मूल्यांकन: डेमो प्रॉम्प्ट से रेग्रेशन सूइट तक

एक प्रोटोटाइप अक्सर इसलिए “काम करता है” क्योंकि आपने कुछ दोस्ताना प्रॉम्प्ट आजमाए। प्रोडक्शन अलग है: उपयोगकर्ता गंदे, अस्पष्ट प्रश्न पूछेंगे, संवेदनशील डेटा डालेंगे, और लगातार व्यवहार की उम्मीद करेंगे। इसका मतलब है कि आपको क्लासिक यूनिट टेस्ट्स से परे टेस्ट चाहिए।

यूनिट टेस्ट्स अभी भी मायने रखते हैं (API कॉन्ट्रैक्ट्स, auth, इनपुट वैलिडेशन, कैशिंग), लेकिन वे यह नहीं बताते कि मॉडल मददगार, सुरक्षित और सटीक बना रहेगा जैसे प्रॉम्प्ट, टूल, और मॉडल बदलते हैं।

ऑफलाइन मूल्यांकन: एक गोल्ड सेट बनाएँ जिसे आप फिर चला सकें

एक छोटा गोल्ड सेट से शुरू करें: 50–300 प्रतिनिधि क्वेरीज जिनके अपेक्षित परिणाम हों। “अपेक्षित” का मतलब हमेशा एक परफ़ेक्ट उत्तर नहीं; यह एक रूब्रिक हो सकता है (सहीपन, टोन, उद्धरण आवश्यक, अस्वीकार व्यवहार)।

दो विशेष श्रेणियाँ जोड़ें:

रेग्रेशन टेस्ट्स: लॉग (एनोनिमाइज़्ड) से असली उपयोगकर्ता प्रश्न जो पहले फेल हुए, ताकि आप पुराने बग्स दोबारा न लौटा दें।
रेड-टीम प्रॉम्प्ट्स: आक्रामक इनपुट (प्रॉम्प्ट इंजेक्शन, पॉलिसी बाईपास, संवेदनशील डेटा निकालना, असुरक्षित निर्देश)। ये आपकी सुरक्षा यूनिट टेस्ट्स हैं।

इस सूट को हर महत्वपूर्ण परिवर्तन पर चलाएँ: प्रॉम्प्ट एडिट्स, टूल राउटिंग लॉजिक, रिकवरी सेटिंग्स, मॉडल अपग्रेड्स, और पोस्ट-प्रोसेसिंग।

ऑनलाइन मूल्यांकन: असली ट्रैफ़िक के साथ सुरक्षित तौर पर साबित करें

ऑफलाइन स्कोर्स भ्रामक हो सकते हैं, इसलिए नियंत्रित रोलआउट पैटर्न से प्रोडक्शन में मान्य करें:

शैडो मोड: नया वर्ज़न पैरेलल में चलता है और आउटपुट लॉग करता है, लेकिन उपयोगकर्ता सिर्फ पुराना वर्ज़न देखते हैं।
कैनरी रिलीज़: 1–5% ट्रैफ़िक नए वर्ज़न को जाता है कड़े मॉनिटरिंग और तत्काल रोलबैक के साथ।
A/B टेस्ट: उपयोगकर्ता आउटपुट पर प्रभाव मापें (टास्क कम्पलीशन, डिफ्लेक्शन रेट, टाइम-टू-रिज़ॉल्यूशन, एस्केलेशन रेट), सिर्फ “अंगूठा ऊपर” नहीं।

प्रॉम्प्ट/मॉडल बदलावों को मंजूरी देना (हल्का पर सख्त)

एक सरल गेट परिभाषित करें:

परिवर्तन अनुरोध में इरादा, उदाहरण प्रॉम्प्ट, और जोखिम नोट शामिल हों।
ऑफ़लाइन गोल्ड सेट + रेड-टीम थ्रेशहोल्ड पास होना चाहिए।
कैनरी या शैडो परिणामों की छोटी मीट्रिक चेकलिस्ट के खिलाफ समीक्षा हो।
अंतिम मंजूरी एक ओनर द्वारा (प्रोडक्ट + इंजीनियरिंग, और उच्च-जोखिम फीचर्स के लिए सुरक्षा) हो।

यह “डेमो में बेहतर लग रहा था” को एक दोहराने योग्य रिलीज प्रक्रिया में बदल देता है।

ऑब्ज़र्वेबिलिटी: लॉगिंग, मॉनिटरिंग, और अलर्टिंग

अपने AI फीचर को ब्रांडेड लॉन्च करें

इंटरनल पायलट या कस्टमर-फेसिंग ट्रायल के लिए कस्टम डोमेन के तहत लॉन्च करें.

डोमेन जोड़ें

एक बार असली उपयोगकर्ता आपके AI फीचर पर निर्भर करने लगें, आपको जल्दी से ये बुनियादी प्रश्नों का जवाब देना होगा: क्या हुआ? कितनी बार? किसको? किस मॉडल वर्ज़न ने? बिना ऑब्ज़र्वेबिलिटी के हर घटना अनुमान बन जाएगी।

क्या लॉग करें (बिना सीक्रेट्स कलेक्ट किए)

व्यवहार को फिर से बनाने के लिए पर्याप्त विवरण लॉग करें, लेकिन उपयोगकर्ता डेटा को रेडियोएक्टिव समझें।

इनपुट्स और आउटपुट्स: प्रॉम्प्ट और प्रतिक्रियाएँ तब ही स्टोर करें जब आप संवेदनशील फ़ील्ड (नाम, ईमेल, आईडी, भुगतान जानकारी) को मास्क/रेडैक्ट कर सकें। जब आप नहीं कर सकते, तो हैश, समरी, या “सुरक्षित अंश” स्टोर करें।
मॉडल और कॉन्फ़िगरेशन: मॉडल नाम, प्रदाता, टेम्परेचर, मैक्स टोकन्स, सिस्टम प्रॉम्प्ट वर्ज़न, एम्बेडिंग इंडेक्स वर्ज़न—जो भी व्यवहार बदलता है।
टूल एक्शन्स: किस टूल को कॉल किया गया (सर्च, DB, कैलेंडर, पेमेंट्स), पैरामीटर (मास्क्ड), रिस्पॉन्स कोड, और प्रत्येक टूल का टाइमिंग।
डिसिजन पॉइंट्स: गार्डरेल आउटकम (blocked/allowed), पॉलिसी मैच, फॉलबैक पाथ, और क्या मानव हैंडऑफ़ हुआ।

एक सहायक नियम: अगर यह व्यवहार समझाता है, तो उसे लॉग करें; अगर यह निजी है, तो मास्क करें; अगर आपको इसकी ज़रूरत नहीं, तो स्टोर न करें।

ऐसे डैशबोर्ड जो खुद का खर्च निकाल दें

एक छोटी सेट डैशबोर्ड का लक्ष्य रखें जो हेल्थ एक नज़र में दिखाए:

एरर रेट: फेल हुए टूल कॉल, टाइमआउट, पार्सिंग फेल्योर, “कह नहीं सकता” दर
लेटेंसी: p50/p95 end-to-end साथ में प्रति-टूल लेटेंसी, ताकि आप जानें समय कहाँ लगाया जा रहा है
कॉस्ट: प्रति रिक्वेस्ट टोकन्स, प्रति उपयोगकर्ता/सेशन लागत, और रिलीज के बाद कॉस्ट स्पाइक्स
क्वालिटी प्रॉक्सी: अंगूठा ऊपर/नीचे दर, “उपयोगकर्ता ने तुरंत फिर से कहा” रेट, मानव को एस्केलेशन दर, और दोहराए गए रिट्राइज़

क्वालिटी को एक मीट्रिक में पूरी तरह कैप्चर नहीं किया जा सकता, इसलिए कुछ प्रॉक्सी मिलाएं और सैंपल्स की समीक्षा करें।

अलर्टिंग: पेज बनाम टिकट

हर ब्लिप किसी को जगाना नहीं चाहिए।

पेज (तुरंत): जब उपयोगकर्ता ब्लॉक हो रहे हों या नुकसान संभव हो: लगातार उच्च failure rate, प्रमुख लेटेंसी रिग्रेशन, टूल कॉल गलत परमिशन लौटाना, सेफ्टी फ़िल्टर फेल होना, या रनअवे कॉस्ट।
टिकट (अगले व्यावसायिक दिन): उन degrations के लिए जो कोर फ्लो नहीं तोड़ते: थोड़ी बढ़ी “मालूम नहीं” दर, मामूली कॉस्ट ड्रिफ्ट, या किसी एक सेगमेंट में छोटी क्वालिटी डिप।

शोरगुल अलर्ट्स से बचने के लिए थ्रेशहोल्ड्स और न्यूनतम अवधि (उदा., "10 मिनट से ऊपर") परिभाषित करें।

उपयोगकर्ता फीडबैक लूप्स को जिम्मेदारी से संभालना

उपयोगकर्ता फीडबैक सोना है, पर यह निजी डेटा लीक कर सकता है या बायस को मजबूत कर सकता है।

फीडबैक को पहचान से अलग रखें जहां संभव हो; एक संदर्भ ID स्टोर करें, कच्चे व्यक्तिगत विवरण नहीं।
रीट्रेनिंग से पहले समीक्षा करें: फीडबैक को साफ़ करने, डीडुप्लिकेट करने, और बायस चेक करने की आवश्यकता है।
पारदर्शी रहें: उपयोगकर्ताओं को बताएं कि फीडबैक कैसे उपयोग होगा और कैसे ऑप्ट-आउट करें।
लूप बंद करें: फीडबैक को मॉडल/वर्ज़न के साथ टैग करें ताकि आप पुष्टि कर सकें कि बदलाव ने समस्या हल की या नहीं।

अगर आप स्केल करने से पहले यह परिभाषित करना चाहते हैं कि “काफी अच्छा” क्या है, तो इसे स्पष्ट सफलता मानदंडों के साथ संरेखित करें (देखें /blog/set-production-grade-success-and-failure-criteria)।

संचालनात्मक-readiness: वर्जनिंग, रिलीज़, और रोलबैक

एक प्रोटोटाइप "जो भी कल काम किया" सहन कर सकता है। प्रोडक्शन नहीं। संचालनात्मक-readiness का मतलब है परिवर्तनों को सुरक्षित, ट्रेस करने योग्य, और reversible बनाना—खासकर जब आपके व्यवहार का आधार प्रॉम्प्ट्स, मॉडल्स, टूल्स, और डेटा पर निर्भर हो।

जो भी व्यवहार बदलता है उसे वर्ज़न करें

LLM ऐप्स के लिए, “कोड” सिस्टम का केवल हिस्सा है। इन्हें फर्स्ट-क्लास वर्ज़नड आर्टिफैक्ट मानें:

प्रॉम्प्ट्स और टेम्पलेट्स (सिस्टम मैसेजेस, टूल इंस्ट्रक्शंस, few-shot उदाहरण सहित)
मॉडल और पैरामीटर (मॉडल नाम, टेम्परेचर, मैक्स टोकन्स, फंक्शन/टूल स्कीमा)
एंबेडिंग्स और रिट्रीवल सेटिंग्स (एंबेडिंग मॉडल, चंकिング रणनीति, top-k, फ़िल्टर्स)
डेटासेट्स और नॉलेज सोर्सेस (दस्तावेज़, लेबल, इवैल सेट, रेड-टीम प्रॉम्प्ट)
टूल्स और इंटीग्रेशन्स (API कांट्रैक्ट्स, परमिशन्स, रेट लिमिट्स)

यह संभव बनाएं कि आप उत्तर दे सकें: “किस सटीक प्रॉम्प्ट + मॉडल + retrieval config ने यह आउटपुट बनाया?”

बिल्ड्स को reproducible बनाएं

Reproducibility उन “घोस्ट बग्स” को कम करती है जहाँ वातावरण बदलने से व्यवहार बदल जाता है।

डिपेंडेंसीज़ पिन करें (lockfiles), रनटाइम एनवायरनमेंट्स रिकॉर्ड रखें (कंटेनर इमेजेज़, OS, Python/Node वर्ज़न), और सीक्रेट्स/कॉन्फ़िग को कोड से अलग रखें। अगर आप मैनेज्ड मॉडल एंडपॉइंट्स का उपयोग करते हैं, तो प्रदाता, रीजन, और उपलब्ध होने पर सटीक मॉडल वर्ज़न लॉग करें।

एक असली रिलीज फ्लो का उपयोग करें

एक सरल पाइपलाइन अपनाएँ: dev → staging → production, स्पष्ट अनुमोदनों के साथ। स्टेजिंग को प्रोडक्शन के जितना संभव हो उतना दर्शाना चाहिए (डेटा एक्सेस, रेट लिमिट्स, ऑब्ज़र्वेबिलिटी) जबकि सुरक्षित टेस्ट अकाउंट का उपयोग हो।

जब आप प्रॉम्प्ट्स या रिट्रीवल सेटिंग्स बदलते हैं, तो इसे एक रिलीज की तरह इलाज करें—न कि एक त्वरित संपादन।

रोलबैक की योजना पहले से बनाएं

एक घटना प्लेबुक बनाएं जिसमें:

Rollback steps (पहला प्रॉम्प्ट/मॉडल/कॉन्फ़िग; फीचर फ्लैग बंद करने का स्विच)
Owner roles (कौन निर्णय लेता है, कौन निष्पादित करता है, कौन संचार करता है)
Triggers (एरर रेट्स, कॉस्ट स्पाइक्स, हानिकारक कंटेंट, सपोर्ट वॉल्यूम)

अगर रोलबैक कठिन है, तो आपके पास रिलीज प्रक्रिया नहीं—आपके पास एक जुआ है।

यदि आप तेज़-निर्माण प्लेटफ़ॉर्म का उपयोग कर रहे हैं, तो ऐसे संचालनात्मक फीचर्स देखें जो reversibility को आसान बनाते हैं। उदाहरण के लिए, Koder.ai स्नैपशॉट और रोलबैक, deployment/hosting और कस्टम डोमेन्स सपोर्ट करता है—वह उपयोगी प्रिमिटिव्स हैं जब आपको जल्दी, कम-जोखीम रिलीज़ की ज़रूरत हो (खासकर कैनरीज के दौरान)।

लागत और प्रदर्शन: स्केल होने से पहले बजट बनाना

एक प्रोटोटाइप सस्ता लगता है क्योंकि उपयोग कम है और विफलताओं को सहन किया जाता है। प्रोडक्शन इसे उलट देता है: वही प्रॉम्प्ट चेन जो डेमो में कुछ डॉलर खर्च करती थी, हजारों उपयोगकर्ताओं पर रोज़ाना मटेरियल लाइन आइटम बन सकती है।

जानें कि वास्तव में खर्च क्या चलाता है

अधिकांश LLM लागत उपयोग-आकृति वाली होती है, फीचर-आकृति वाली नहीं। मुख्य चालक होते हैं:

टोकन्स: लंबे सिस्टम प्रॉम्प्ट्स, verbose आउटपुट, और मल्टी-टर्न चैट्स
टूल कॉल्स: वेब सर्च, कोड एक्ज़ीक्यूशन, DB क्वेरीज, और पेड APIs
रिट्रीवल: एंबेडिंग जनरेशन, वेक्टर DB रीड्स, और बड़े दस्तावेज़ों की फेचिंग
रिट्राइज़: टाइमआउट्स, मॉडल एरर्स, और “फिर प्रयास करें” लूप्स
लॉन्ग कॉन्टेक्स्ट: हर अनुरोध में पूरा हिस्ट्री या दस्तावेज़ भेजना

बजट को प्रोडक्ट शब्दों में डालें

ऐसे बजट सेट करें जो आपके बिज़नेस मॉडल से जुड़ें, सिर्फ "मासिक खर्च" नहीं। उदाहरण:

प्रति रिक्वेस्ट लागत (उदा., $0.02 औसत, $0.10 p95)
प्रति सक्रिय उपयोगकर्ता प्रति दिन लागत
प्रति वर्कफ़्लो लागत (उदा., “रिपोर्ट तैयार करना” $0.50 से कम रहना चाहिए)

सरल नियम: अगर आप एक अनुरोध ट्रेस से लागत का अनुमान नहीं लगा सकते, तो आप इसे नियंत्रित नहीं कर सकते।

गुणवत्ता बिगाड़े बिना ऑप्टिमाइज़ेशन लीवर्स

छोटे बदलाव मिलाकर अक्सर महत्वपूर्ण बचत मिलती है:

कैशिंग: दोहराए हुए प्रश्नों और निर्धारकीय टूल परिणामों के लिए उत्तर reuse करें
ट्रंकेशन & समरीज़ेशन: केवल वही रखें जो मॉडल को चाहिए (और हिस्ट्री को summarize करें)
छोटे मॉडल: “आसान” कार्य सस्ते मॉडलों को रूट करें; बड़े मॉडल को कठिन मामलों के लिए रखें
बैचिंग: जहां लेटेंसी अनुमति दे, आइटम्स को बैच में प्रोसेस करें

आश्चर्यजनक बिल्स को रोकें

रनअवे व्यवहार के खिलाफ गार्डरेल डालें: टूल-कॉल काउंट्स को कैप करें, रिट्राइज़ सीमित करें, मैक्स टोकन्स लागू करें, और लूप्स को रोकें जब प्रगति रुक जाये। अगर आपके पास मॉनिटरिंग कहीं और है, तो कॉस्ट को एक फर्स्ट-क्लास मीट्रिक बनाएं (देखें /blog/observability-basics) ताकि फ़ाइनेंस आश्चर्य reliability incidents न बनें।

लोग और प्रक्रिया: ऑनरशिप, सपोर्ट, और गवर्नेंस

पहले दिन से प्रोडक्शन की योजना बनाएं

उपयोग बढ़ाने से पहले सफलता के मेट्रिक्स, विफलता नियम और रोलआउट चरण परिभाषित करें.

योजना का उपयोग करें

प्रोडक्शन केवल तकनीकी माइलस्टोन नहीं—यह एक संगठनात्मक प्रतिबद्धता है। जब असली उपयोगकर्ता किसी AI फीचर पर निर्भर करते हैं, तो आपको स्पष्ट मालिकाना, एक सपोर्ट पाथ, और एक गवर्नेंस लूप चाहिए ताकि सिस्टम “किसी का काम नहीं” न बन जाये।

किसका क्या मालिकाना है तय करें

भूमिकाएँ नामित कर के शुरू करें (एक व्यक्ति एकाधिक hatt पहन सकता है, पर जिम्मेदारियाँ स्पष्ट होनी चाहिए):

प्रोडक्ट ओनर: उपयोगकर्ताओं के लिए “अच्छा” क्या है तय करता है, फिक्सेस बनाम फीचर्स को प्राथमिकता देता है, और व्यवहार परिवर्तन को मंजूरी देता है
ML/AI ओनर: मॉडल चयन, प्रॉम्प्ट बदलाव, मूल्यांकन परिणाम, और समग्र AI गुणवत्ता के लिए जिम्मेदार
सिक्योरिटी ओनर: डेटा हैंडलिंग, एक्सेस कंट्रोल, थर्ड-पार्टी सर्विसेस, और इनसिडेंट रिस्पॉन्स रेडीनेस रिव्यू करता है
सपोर्ट लीड: टिकट्स, एस्केलेशन्स, और उपयोगकर्ता फॉलो-अप के वर्कफ़्लो के मालिक
लीगल/कम्प्लायंस पार्टनर: उपयोगकर्ता-सामना दावों, डिस्क्लेमर्स, और किसी भी नियंत्रित-डेटा हैंडलिंग को मंजूरी देता है

सपोर्ट मॉडल तय करें

शिप करने से पहले मुद्दों के लिए डिफ़ॉल्ट रूट चुनें: कौन उपयोगकर्ता रिपोर्ट्स प्राप्त करता है, क्या “तत्काल” माना जाता है, और कौन फीचर को रो or pause कर सकता है। एक एस्केलेशन चेन परिभाषित करें (support → product/AI owner → security/legal अगर ज़रूरी) और उच्च-प्रभाव फेल्योर के लिए अपेक्षित प्रतिक्रिया समय बताएं।

उपयोगकर्ताओं के साथ जल्दी संवाद करें

संक्षिप्त, सरल भाषा में गाइड लिखें: AI क्या कर सकता है और क्या नहीं, सामान्य failure मोड, और अगर कुछ गलत दिखे तो उपयोगकर्ता क्या करें। उन जगहों पर दृश्यमान डिस्क्लेमर्स जोड़ें जहाँ निर्णय गलत समझे जा सकते हैं, और उपयोगकर्ताओं को समस्या रिपोर्ट करने का तरीका दें।

परिवर्तन-प्रबंधन की तालिका सेट करें

AI व्यवहार पारंपरिक सॉफ़्टवेयर से तेज़ी से बदलता है। एक आवर्ती तालिका (उदा., मासिक) स्थापित करें ताकि घटनाओं की समीक्षा, प्रॉम्प्ट/मॉडल परिवर्तनों का ऑडिट, और किसी भी उपयोगकर्ता-सामना व्यवहार को प्रभावित करने वाले अपडेट्स की पुनः-प्रमाणीकरण हो सके।

एक सरल रोडमैप: कैसे हार्डन और सुरक्षित लॉन्च करें

एक अच्छा प्रोडक्शन लॉन्च आमतौर पर शांत, चरणबद्ध रोलआउट का परिणाम होता है—न कि एक हीरोइक “शिप इट” पल। यहां एक व्यावहारिक पथ है जो काम करने वाले डेमो से कुछ ऐसा बनने तक ले जाता है जिसे आप असली उपयोगकर्ताओं के साथ भरोसे से चला सकें।

स्टेप 1: प्रोटोटाइप → “सत्य-खोज”

प्रोटोटाइप को लचीला रखें, पर वास्तविकता कैप्चर करना शुरू करें:

AI का एकल काम लिखें जो उसे करना चाहिए (और क्या नहीं करना चाहिए)।
असली उपयोगकर्ता इनपुट का छोटा सेट इकट्ठा करें (अनुमति के साथ) और लेबल करें कि “अच्छा” क्या दिखता है।
बुनियादी परिणाम ट्रैक करें: सहायक/नासमझ, सुरक्षित/असुरक्षित, सही/गलत।

स्टेप 2: पायलट → “नियंत्रित एक्सपोज़र”

पायलट वह जगह है जहाँ आप अनजान जोखिमों को कम करते हैं:

सीमित समूह (उदा., 1–5% उपयोगकर्ताओं या एक आंतरिक टीम) पर लॉन्च करें।
AI को फीचर फ्लैग्स के पीछे रखें ताकि आप बिना redeploy किए क्षमताओं को ऑन/ऑफ कर सकें।
एक किल स्विच रखें जो तुरंत AI पाथ को अक्षम कर दे और एक सुरक्षित डिफ़ॉल्ट पर वापस जाए।
ऑपरेटर नियम परिभाषित करें: कब मानव को एस्केलेट करना है, कब ब्लॉक करना है, और घटनाओं पर कैसे प्रतिक्रिया देनी है।

स्टेप 3: प्रोडक्शन → “दोहराने योग्य ऑपरेशन्स”

केवल तब विस्तार करें जब आप इसे एक उत्पाद की तरह चला सकें, न कि एक साइंस प्रोजेक्ट की तरह:

ट्रैफ़िक चरणबद्ध बढ़ाएँ (5% → 25% → 50% → 100%) और हर चरण पर गो/नो-गो जांचें।
रिलीज़ reversible रखें: छोटे बदलाव शिप करें, मॉनिटर करें, और रोलबैक के लिए तैयार रहें।
फिक्स्ड टेस्ट सेट के खिलाफ नियमित मूल्यांकन चलाएँ ताकि गुणवत्ता ड्रिफ्ट न हो।

Readiness चेकलिस्ट (संक्षेप)

रोलआउट बढ़ाने से पहले सुनिश्चित करें:

स्पष्ट सफलता/विफलता मानदंड लिखे और मापने योग्य हैं।
फीचर फ्लैग्स और किल स्विच टेस्ट किए गए हैं (सिर्फ योजना नहीं)।
फॉलबैक व्यवहार उपयोगकर्ताओं और सपोर्ट के लिए स्वीकार्य है।
प्रमुख जोखिम कवर हैं: गोपनीयता, प्रॉम्प्ट इंजेक्शन, और संवेदनशील डेटा हैंडलिंग।
मॉनिटरिंग यह जवाब देती है: “क्या यह काम कर रहा है? क्या यह सुरक्षित है? क्या यह बिगड़ रहा है?”
किसी के पास सिस्टम का उत्पादन में मालिकाना है (on-call, घटना प्लेबुक, एस्केलेशन पाथ)।

अगर आप पैकेजिंग और रोलआउट विकल्पों की योजना बनाना चाहते हैं, तो बाद में /pricing या /blog पर समर्थन गाइड्स लिंक कर सकते हैं।

अक्सर पूछे जाने वाले प्रश्न

What’s the practical difference between an AI prototype and a production AI feature?

A prototype is optimized for speed and learning: it can be manual, fragile, and “good enough” for a controlled demo.

Production is optimized for repeatable outcomes: predictable behavior, safe handling of real data, defined success/failure criteria, monitoring, and fallbacks when models/tools fail.

What are the clearest signs we’ve outgrown a prototype?

Treat it as a production trigger when one or more of these show up:

Usage is climbing (higher blast radius)
Teams depend on outputs for real decisions or customer commitments
Privacy/compliance/security requirements appear
Model/provider/tool updates change behavior (“it worked yesterday”)
New inputs cause drift and new failure modes

If any of these are true, plan hardening work before you scale further.

Why does “works in a demo” often fail with real users?

Demos hide chaos and human glue.

Real users will submit long/ambiguous inputs, try edge cases, and expect consistency. Prototypes often rely on assumptions that break at scale (stable latency, unlimited rate limits, one model version, a human silently re-running prompts). In production, that hidden manual effort must become automation and safeguards.

What production success metrics should we set for an LLM feature?

Define success in business terms and make it measurable weekly. Common metrics include:

Task success rate / accuracy
Time saved per task
Cost per task (model + tools)
User satisfaction (CSAT, thumbs-up rate)

Set explicit targets (e.g., “≥85% task success on the eval set for 2 weeks”) so shipping decisions aren’t based on vibes.

How do we define failure criteria and safety rules before launch?

Write “must-not-happen” rules and attach automated enforcement. Examples:

Must not reveal PII or secrets
Must not invent actions taken (refunds issued, emails sent)
Must not provide unsafe advice in restricted domains

Track rates for harmful outputs, hallucinations, and inappropriate refusals. When a rule is hit, trigger blocking, safe fallback, and incident review.

What does “testing” mean for production LLM apps beyond unit tests?

Start with a rerunnable offline suite, then validate online:

Gold set (50–300 cases): representative prompts with expected outcomes or a rubric
Regression cases: anonymized real failures from logs/tickets
Red-team prompts: injection, policy bypass, sensitive data extraction

Use shadow mode, canaries, or A/B tests to roll out changes safely, and gate releases on passing thresholds.

What reliability and fallback patterns should we build in?

Design for bad days with explicit reliability behaviors:

Track uptime and p95/p99 latency (not just averages)
Use hard timeouts with clear user messaging
Add safe retries and a circuit breaker to stop hammering failing providers
Implement fallbacks: cached answers, cheaper/smaller model, or human handoff

The goal is graceful degradation, not random errors.

What security and privacy work is required before we expose real customer data?

Map data flows end-to-end and remove unknowns:

Identify what inputs, outputs, and logs contain (including chat history and files)
Minimize data sent to models/tools; avoid “just in case” prompting
Set retention and deletion rules
Enforce least-privilege access with audit trails
Redact PII/secrets from logs by default

Also explicitly mitigate prompt injection, data leakage across users, and unsafe tool actions.

What should we log and monitor so incidents aren’t guesswork?

Log enough to explain behavior without storing unnecessary sensitive data:

Model/config versions (prompt version, model name, parameters, retrieval settings)
Tool calls (what ran, timing, masked parameters, response codes)
Guardrail and fallback decisions (blocked/allowed, handoff taken)
Quality proxies (rephrase rate, escalation rate, thumbs up/down)

Alert on sustained spikes in errors/latency, safety failures, or runaway cost; route minor degradations to tickets instead of paging.

What’s a safe roadmap to move from prototype to production?

Run a staged launch with reversibility:

Pilot to a small cohort behind feature flags
Test a kill switch that disables the AI path immediately
Increase traffic in steps (e.g., 5% → 25% → 50% → 100%) with go/no-go checks
Version prompts/models/retrieval configs and make rollbacks easy
Assign clear owners (product, AI quality, security, support) and an incident playbook

If rollback is hard or nobody owns it, you’re not production-ready yet.

जब AI प्रोटोटाइप को प्रोडक्शन की ज़रूरत हो: संकेत और अगले कदम | Koder.ai