वितरित डेटाबेस: स्थिरता बनाम उपलब्धता का व्यापार-ऑफ़

Q: Does CAP theorem really mean you can only pick two out of three?

यह हमेशा "दो में से दो चुनें" जैसा नहीं है। इसका मतलब है: जब विभाजन हो , आप दोनों— - Consistency (हर कोई आखिरी स्वीकार किए गए लिखे को देखे), और - Availability (हर रिक्वेस्ट को जवाब मिले) को एक साथ गारंटी नहीं दे सकते। विभाजन के बाहर कई सिस्टम अक्सर दोनों के साथ अच्छी तरह दिखते हैं—जब तक नेटवर्क गलत न हो जाए।

Q: How do quorums (N, R, W) help balance consistency and availability?

क्वोरम रेप्लिकाओं के बीच वोटिंग का एक व्यावहारिक तरीका है: - N = रेप्लिकाओं की संख्या - W = कितनी रेप्लिका लिखने की पुष्टि करें - R = पढ़ने के लिए कितनी रेप्लिका पूछी जाती हैं सामान्य मार्गदर्शक: R + W N तो हर पढ़ाई कम-से-कम एक ऐसी रेप्लिका से ओवरलैप करेगी जिसमें नवीनतम सफल लिखाई मौजूद है। क्वोरम विभाजन समस्याओं को ख़त्म नहीं करते; वे यह तय करते हैं कि किस तरफ प्रगति कर सकती है (जैसे बहुमत वाला साइड)।

लॉग इन शुरू करें

वितरित डेटाबेस: स्थिरता बनाम उपलब्धता का व्यापार-ऑफ़ | Koder.ai

व्यवहार में स्थिरता और उपलब्धता का क्या अर्थ है

जब कोई डेटाबेस कई मशीनों (रेप्लिकाओं) में बँट जाता है, तो आपको गति और प्रतिरोधकता मिलती है—पर साथ ही ऐसे समय भी आते हैं जब ये मशीनें पूरी तरह सहमत नहीं रहतीं या उनका आपस में भरोसेमंद संवाद नहीं होता।

स्थिरता (साधारण अर्थ)

स्थिरता का मतलब है: एक सफल लिखाई के बाद, हर कोई वही मान पढ़ता है। यदि आप अपना प्रोफ़ाइल ईमेल अपडेट करते हैं, तो अगली पढ़ाई—चाहे कोई भी रेप्लिका जवाब दे—नया ईमेल लौटाती है।

व्यवहार में, जो सिस्टम स्थिरता को प्राथमिकता देते हैं वे विफलताओं के दौरान कुछ अनुरोधों को देरी कर सकते हैं या अस्वीकार कर सकते हैं ताकि विरोधी उत्तर न लौटें।

उपलब्धता (साधारण अर्थ)

उपलब्धता का मतलब है: सिस्टम हर रिक्वेस्ट का जवाब देता है, भले ही कुछ सर्वर डाउन हों या अलग हों। आपको नवीनतम डेटा न मिल सकता हो, पर आपको जवाब मिल जाएगा।

व्यवहार में, उपलब्धता-प्राथमिक सिस्टम लेखन स्वीकार कर सकते हैं और पढ़ाइयाँ परोस सकते हैं भले ही रेप्लिकाएँ असहमत हों, और बाद में मतभेद सुलझाते हैं।

वास्तविक ऐप्स के लिए व्यापार-ऑफ़ का मतलब

एक ट्रेड-ऑफ़ का मतलब है कि हर विफलता पर दोनों लक्ष्यों को अधिकतम नहीं किया जा सकता। अगर रेप्लिकाएँ समन्वय नहीं कर सकतीं, तो डेटाबेस को या तो:

एक सहमति-सत्य की रक्षा के लिए कुछ अनुरोधों को इंतजार/रद्द करना (स्थिरता को तरजीह), या
उपयोगकर्ताओं को जवाब देना जारी रखना, भले ही पुराना या विरोधी डेटा आ जाए (उपलब्धता को तरजीह)

एक सरल उदाहरण: शॉपिंग कार्ट बनाम बैंक ट्रांसफर

शॉपिंग कार्ट: अगर आपके कार्ट की गिनती किसी दूसरे डिवाइस पर थोड़ी देर के लिए एक कम/ज्यादा दिखे, तो यह आमतौर पर सहनीय है। कई टीमें उच्च उपलब्धता चुनती हैं और बाद में सुलह करती हैं।
बैंक ट्रांसफर: अगर आप $500 ट्रांसफर करते हैं और आपका बैलेंस अस्थायी रूप से दो अलग उत्तर दिखा दे, तो यह गंभीर समस्या है। यहाँ मजबूत स्थिरता अक्सर कुछ "कृपया पुनः प्रयास करें" विफलताओं के लायक होती है।

कोई एक सर्वोत्तम विकल्प नहीं

सही संतुलन उस पर निर्भर करता है कि आप किस प्रकार की गलतियों को सहन कर सकते हैं: एक छोटा आउटेज, या एक छोटा समय जिसमें डेटा गलत/पुराना दिखे। अधिकांश वास्तविक सिस्टम बीच का कोई बिंदु चुनते हैं—और ट्रेड-ऑफ़ को स्पष्ट करते हैं।

क्यों वितरण नियम बदल देता है

जब एक डेटाबेस डेटा कई मशीनों (नोड्स) पर संग्रहीत और परोसा जाता है, तो वह "वितरित" कहलाता है। एप्लिकेशन के लिए यह अभी भी एक डेटाबेस जैसा दिख सकता है—पर अंदर, अनुरोध अलग-अलग नोड्स से हैंडल हो सकते हैं।

रिप्लिकेशन: टीमें नोड क्यों जोड़ती हैं

अधिकांश वितरित डेटाबेस डेटा की प्रतिकृतियाँ रखते हैं: वही रिकॉर्ड कई नोड्स पर स्टोर होता है। टीमें ऐसा इसलिए करती हैं ताकि वे:

किसी मशीन के मरने पर सेवा चलती रहे
निकटवर्ती नोड से उपयोगकर्ताओं को सर्विंग करके लेटेंसी घटे
पढ़ने (और कभी-कभी लिखने) को अधिक हार्डवेयर पर स्केल कर सकें

रिप्लिकेशन शक्तिशाली है, पर यह तुरंत एक सवाल उठाता है: अगर दो नोड्स के पास एक ही डेटा की कॉपी है, तो आप कैसे सुनिश्चित करें कि वे हमेशा सहमत रहें?

आंशिक विफलता सामान्य है, अपवाद नहीं

एक ही सर्वर पर "डाउन" आमतौर पर स्पष्ट होता है: मशीन चालू है या नहीं। पर वितरित सिस्टम में विफलता अक्सर आंशिक होती है। एक नोड ज़िंदा पर धीमा हो सकता है। एक नेटवर्क लिंक पैकेट ड्रॉप कर सकता है। एक पूरा रैक कनेक्टिविटी खो सकता है जबकि बाकी क्लस्टर चलता रहे।

यह इसलिए महत्वपूर्ण है क्योंकि नोड्स तुरंत नहीं जान पाते कि कोई दूसरा नोड सचमुच डाउन है, अस्थायी रूप से पहुंच से बाहर है, या बस देरी में है। जब वे यह पता लगाने के लिए इंतज़ार कर रहे होते हैं, तो उन्हें इनकमिंग पढ़ने और लिखने के साथ क्या करना है यह निर्णय लेना पड़ता है।

संचार गारंटीकृत न होने पर गारंटियाँ बदल जाती हैं

एक सर्वर के साथ, एक स्रोत-तथ्य होता है: हर पढ़ाई नवीनतम सफल लिखाई देखती है।

कई नोड्स के साथ, "नवीनतम" समन्वय पर निर्भर होता है। अगर एक लिखाई नोड A पर सफल हो जाती है पर नोड B पहुँच से दूर है, तो क्या डेटाबेस:

B की पुष्टि होने तक लिखाई को ब्लॉक करे (स्थिरता की रक्षा), या
लिखाई को फिर भी स्वीकार कर ले (उपलब्धता की रक्षा)?

यह तनाव—जो असंपूर्ण नेटवर्कों से वास्तविक होता है—ही वितरण के नियम बदलने का कारण है।

नेटवर्क विभाजन: मूल समस्या

नेटवर्क विभाजन संचार में टूट का वह स्थिति है जहाँ वे नोड्स जो एक डेटाबेस के रूप में काम करने चाहिए, संदेश भरोसेमंद तरीके से एक्सचेंज नहीं कर पाते। नोड्स अभी भी रन कर सकते हैं और स्वस्थ दिख सकते हैं, पर स्विच फेल, लोडेड लिंक, गलत राउटिंग, फ़ायरवॉल मिसकन्फिग, या क्लाउड में शोर करने वाले पड़ोसी जैसी वजहों से वे संदेश नहीं भेज पाते।

बड़े पैमाने पर विभाजन अनिवार्य क्यों हैं

जब सिस्टम कई मशीनों में फैला होता है (अक्सर रैक, ज़ोन, या रीजन में), तो आप उन सभी हॉप्स पर नियंत्रण नहीं रखते। नेटवर्क पैकेट ड्रॉप करते हैं, देरी डालते हैं, और कभी-कभी "आइलैंड" बना लेते हैं। छोटे पैमाने पर ये घटनाएँ दुर्लभ हो सकती हैं; बड़े पैमाने पर ये रूटीन बन जाती हैं। एक छोटा व्यवधान भी महत्वपूर्ण हो सकता है, क्योंकि डेटाबेस को यह तय करने के लिए लगातार समन्वय की ज़रूरत होती है कि क्या हुआ।

विभाजन कैसे विवादित "नवीनतम" डेटा बनाते हैं

विभाजन के दौरान, दोनों पक्ष अनुरोध पाते रहते हैं। अगर उपयोगकर्ता दोनों तरफ लिख सकते हैं, तो हर तरफ ऐसे अपडेट स्वीकार किये जा सकते हैं जिन्हें दूसरी तरफ नहीं दिखते।

उदाहरण: नोड A किसी उपयोगकर्ता का पता "New Street" कर देता है। उसी समय, नोड B उसे "Old Street Apt 2" कर देता है। हर साइड अपनी लिखाई को सबसे हालिया मानती है—क्योंकि वे वास्तविक समय में नोट्स की तुलना नहीं कर सकतीं।

उपयोगकर्ता-स्तर के लक्षण

विभाजन साफ़ एरर मैसेज की तरह नहीं दिखता; यह भ्रमित करने वाले व्यवहार के रूप में दिखता है:

टाइमआउट्स: डेटाबेस दूसरे नोड की पुष्टि के लिए इंतज़ार करता है।
स्टेल रीड्स: आप रिफ्रेश करते हैं और अभी भी पुराना डेटा देखते हैं क्योंकि आप उस रेप्लिका से जुड़े हैं जिसने अपडेट मिस कर दिया।
स्प्लिट-ब्रेन व्यवहार: अलग उपयोगकर्ता अलग "सत्य" देखते हैं, यह इस बात पर निर्भर करता है कि वे किस साइड पहुंचे।

यह वह दबाव बिंदु है जो एक निर्णय को मजबूर करता है: जब नेटवर्क संचार सुनिश्चित नहीं कर सकता, तो एक वितरित डेटाबेस को स्थिरता या उपलब्धता में से किसी एक को प्राथमिकता देनी होगी।

CAP प्रमेय बिना जार्गन के

CAP सपाट तरीके से बताता है कि जब डेटाबेस कई मशीनों में फैला हो तो क्या होता है।

तीन शब्द (साधारण अंग्रेज़ी)

Consistency (C): एक बार आप कोई वैल्यू लिख दें, कोई भी बाद की पढ़ाई वही वैल्यू लौटाए।
Availability (A): हर रिक्वेस्ट को एक गैर-एरर प्रतिक्रिया मिले, भले ही कुछ सर्वर परेशानी में हों।
Partition tolerance (P): सिस्टम तब भी चलता रहे जब नेटवर्क बँट जाए और सर्वर विश्वसनीय रूप से बात न कर सकें।

मुख्य संकल्पना

जब कोई विभाजन नहीं है, कई सिस्टम दोनों—स्थिरता और उपलब्धता—प्रदर्शित कर सकते हैं।

जब विभाजन हो, आपको प्राथमिकता चुननी होगी:

स्थिरता चुनें: कुछ रिक्वेस्ट अस्वीकार/देरी कर दें ताकि सर्वर सहमत हो सकें।
उपलब्धता चुनें: विभाजन के दोनों तरफ रिक्वेस्ट स्वीकार करें, भले ही उत्तर अस्थायी रूप से भिन्न हों।

एक साधारण टाइमलाइन

10:00 क्लाइंट सर्वर A पर balance = 100 लिखता है।
10:01 नेटवर्क विभाजन: सर्वर A सर्वर B तक नहीं पहुँच पा रहा।
10:02 क्लाइंट सर्वर B से पढ़ता है।
- अगर आप स्थिरता को प्राथमिकता देते हैं, तो सर्वर B को इनकार करना या इंतजार करना होगा।
- अगर आप उपलब्धता को प्राथमिकता देते हैं, तो सर्वर B जवाब दे देगा, पर वह कह सकता है balance = 80।

सामान्य भ्रांति

CAP यह नहीं कहता कि "हमेशा के लिए केवल दो चुनें"। इसका मतलब है जब विभाजन होता है, तब आप दोनों Consistency और Availability की गारंटी एक साथ नहीं दे सकते। विभाजन के बाहर, कई सिस्टम अक्सर दोनों के काफी नज़दीक दिखते हैं—जब तक नेटवर्क सही रहता है।

स्थिरता चुनना: आप क्या पाते और क्या खोते हैं

स्थिरता चुनने का मतलब है सिस्टम "हर कोई एक ही सत्य देखे" को प्राथमिकता देता है बजाय कि हमेशा जवाब देने के। व्यवहार में, यह अक्सर मजबूत स्थिरता की ओर इशारा करता है, जिसे कभी-कभी लिनियराइज़ेबल कहा जाता है: एक बार लिखाई स्वीकार हो जाने पर कोई भी बाद की पढ़ाई (कहीं से भी) वह वैल्यू वापस करती है, जैसे कि एक ही अद्यतन कॉपी हो।

विभाजन के दौरान क्या होता है

जब नेटवर्क बँट जाता है और रेप्लिकाएँ आपस में भरोसेमंद रूप से बात नहीं कर सकतीं, एक मजबूत स्थिरता वाला सिस्टम स्वतंत्र रूप से दोनों तरफ अपडेट सुरक्षित रूप से स्वीकार नहीं कर सकता। सहीपन की रक्षा के लिए यह आमतौर पर:

रिक्वेस्ट ब्लॉक करता है जबकि समन्वय का इंतजार करता है, या
रिक्वेस्ट अस्वीकार कर देता है यदि आवश्यक रेप्लिकाओं/लीडर तक नहीं पहुँच पाया जा सकता।

उपयोगकर्ता के नज़रिये से यह तब ऐसा लग सकता है जैसे आउटेज हो, भले ही कुछ मशीनें चल रही हों।

आप क्या जीतते हैं

मुख्य लाभ है सरल सोच। एप्लिकेशन को ऐसा व्यवहार करने के लिए लिखा जा सकता है जैसे वह एक ही डेटाबेस से बात कर रही हो, न कि कई रेप्लिकाओं से जिनमें मतभेद हो सकते हैं। इससे उन अजीब परिस्थितियों की संख्या घटती है जैसे:

सफल अपडेट के तुरंत बाद पुराना डेटा पढ़ना
अलग रेप्लिकाओं के आधार पर एक ही रिकॉर्ड के दो अलग मान देखना
समकक्षता (invariants) खोना (जैसे ओवरसेल्लिंग इन्वेंटरी) क्योंकि विरोधाभासी लेखन हो गए

आपको ऑडिटिंग, बिलिंग और किसी भी ऐसी चीज़ के लिए साफ़ मानसिक मॉडल मिलते हैं जिसे पहली बार में सही होना चाहिए।

आप क्या खोते हैं

स्थिरता की असली कीमतें हैं:

ऊँचा लेटेंसी: कई ऑपरेशंस समन्वय का इंतज़ार करते हैं (अक्सर मशीनों या रीजन के पार)।
विफलताओं के दौरान अधिक एरर: विभाजन, धीमे रेप्लिका, या लीडर समस्याएँ टाइमआउट्स या "बाद में प्रयास करें" में बदल सकती हैं।

अगर आपका प्रोडक्ट आंशिक आउटेज के दौरान विफल रिक्वेस्ट को सहन नहीं कर सकता, तो मजबूत स्थिरता महंगी लग सकती है—भले ही यह सही विकल्प हो।

उपलब्धता चुनना: आप क्या पाते और क्या खोते हैं

जो आपने बनाया है उसे सहेजें

जब प्रोटोटाइप सही लगे, तो स्रोत निर्यात करें और इसे प्रोडक्शन में विकसित करें।

कोड निर्यात करें

उपलब्धता चुनने का मतलब है आप एक सरल वादा ऑप्टिमाइज़ करते हैं: सिस्टम जवाब देता है, भले ही इंफ्रास्ट्रक्चर का कुछ हिस्सा अस्वस्थ हो। व्यवहार में, "उच्च उपलब्धता" का अर्थ यह नहीं कि "कभी त्रुटि नहीं"—बल्कि यह कि नोड फेल, ओवरलोडेड रेप्लिका, या टूटे नेटवर्क लिंक के दौरान भी अधिकांश रिक्वेस्ट का जवाब मिल जाता है।

नेटवर्क विभाजन के दौरान क्या होता है

जब नेटवर्क बँट जाता है, रेप्लिकाएँ आपस में भरोसेमंद रूप से बात नहीं कर सकतीं। उपलब्धता-प्राथमिक डेटाबेस आमतौर पर पहुँच योग्य साइड से ट्रैफ़िक परोसना चालू रखता है:

रीड्स स्थानीय रूप से उस रेप्लिका के डेटा से उत्तर देते हैं।
राइट्स स्थानीय रूप से स्वीकार कर ली जाती हैं और कनेक्टिविटी लौटने पर कतार/रिप्लिकेट की जाती हैं।

यह एप्लिकेशन को चलाता रखता है, पर इसका अर्थ है कि अलग-अलग रेप्लिकाएँ अस्थायी रूप से अलग सत्य स्वीकार कर सकती हैं।

आप क्या जीतते हैं

आपको बेहतर अपटाइम मिलता है: उपयोगकर्ता अभी भी ब्राउज़ कर सकते हैं, कार्ट में आइटम डाल सकते हैं, कमेंट पोस्ट कर सकते हैं, या इवेंट रिकॉर्ड कर सकते हैं—even अगर कोई रीजन आंशिक रूप से अलग पड़ा हो।

आपको तनाव के दौरान बेहतर यूएक्स भी मिलता है। टाइमआउट्स के बजाय आपकी ऐप व्यवहार को जारी रख सकती है ("आपका अपडेट सेव हो गया") और बाद में सिंक कर सकती है। कई कंज़्यूमर और एनालिटिक्स वर्कलोड के लिए यह ट्रेड-ऑफ़ उपयुक्त होता है।

आप क्या खोते हैं

कीमत यह है कि डेटाबेस स्टेल रीड्स दे सकता है। कोई उपयोगकर्ता एक रेप्लिका पर प्रोफ़ाइल अपडेट कर सकता है, और तुरंत दूसरे रेप्लिका से पढ़ते समय पुराना मान देख सकता है।

आपको राइट कॉन्फ्लिक्ट्स का जोखिम भी है: विभाजन के दौरान विभिन्न साइड्स पर एक ही रिकॉर्ड पर अलग उपयोगकर्ता अपडेट कर सकते हैं। विभाजन ठीक होने पर सिस्टम को अलग इतिहासों को सुलझाना होगा। नियमों के आधार पर, एक लिखाई जीत सकती है, फील्ड्स मर्ज हो सकते हैं, या कॉन्फ्लिक्ट ऐप्लिकेशन लॉजिक की मांग कर सकता है।

उपलब्धता-प्रथम डिज़ाइन अस्थायी असहमति को स्वीकार करने के बारे में है ताकि उत्पाद जवाब देता रहे—और फिर आप यह निवेश करते हैं कि असहमति का पता कैसे लगाना और मरम्मत कैसे करना है।

क्वोरम और वोटिंग: एक मध्य मार्ग

क्वोरम कई प्रतिलिपि डेटाबेस में स्थिरता और उपलब्धता के बीच संतुलन के लिए उपयोग की जाने वाली एक व्यावहारिक वोटिंग तकनीक है। एक रेप्लिका पर भरोसा करने के बजाय, सिस्टम पर्याप्त रेप्लिकाओं से सहमति मांगता है।

(N, R, W) विचार

आप अक्सर क्वोरम में तीन संख्याएँ देखेंगे:

N: किसी डेटा के लिए कितनी रेप्लिकाएँ मौजूद हैं
W: कितनी रेप्लिकाओं का लिखने की पुष्टि करना आवश्यक है ताकि लिखाई सफल मानी जाए
R: पढ़ने के लिए कितनी रेप्लिकाओं से पूछा जाता है

एक सामान्य नियम यह है: यदि R + W > N, तो हर पढ़ाई कम-से-कम एक ऐसी रेप्लिका के साथ ओवरलैप करेगी जिसमें नवीनतम सफल लिखाई है, जिससे स्टेल रीड की संभावना घटती है।

सहज उदाहरण

यदि आपके पास N=3 रेप्लिकाएँ हैं:

सिंगल-रेप्लिका अप्रोच (R=1, W=1): तेज़ और बहुत उपलब्ध, पर आप आसानी से आउट-ऑफ-डेट रेप्लिका पढ़ सकते हैं।
मेज़ॉरिटी वोटिंग (R=2, W=2): एक लिखाई को 2 रेप्लिकाओं तक पहुँचना चाहिए, और पढ़ाई 2 रेप्लिकाओं से पूछती है। इससे संभावना बढ़ती है कि आप नवीनतम वैल्यू देखें क्योंकि पढ़ने और लिखने के सेट ओवरलैप करते हैं।

कुछ सिस्टम W=3 (सभी रेप्लिकाएँ) जैसी सेटिंग्स चुनते हैं मजबूत स्थिरता के लिए, पर इससे किसी भी रेप्लिका के धीमे/डाउन होने पर अधिक लिखाई-फेलियर हो सकते हैं।

विभाजनों के दौरान क्वोरम क्या करते हैं

क्वोरम विभाजन समस्याओं को ख़त्म नहीं करते—वे परिभाषित करते हैं किसे प्रगति करने की अनुमति है। यदि नेटवर्क 2–1 में बँट गया है, तो उस साइड के पास जिसका आकार 2 है वह R=2 और W=2 को पूरा कर सकता है, जबकि अलग-थलग एकल रेप्लिका नहीं कर सकती। इससे विरोधी अपडेट्स कम होते हैं, पर कुछ क्लाइंट्स को एरर या टाइमआउट का सामना करना पड़ सकता है।

ट्रेड-ऑफ़

क्वोरम आमतौर पर अधिक लेटेंसी (अधिक नोड्स से संपर्क), अधिक लागत (क्रॉस-नोड ट्रैफ़िक), और अधिक जटिल फेलियर व्यवहार (टाइमआउट्स अनुपलब्धता जैसा लग सकता है) का मतलब होते हैं। लाभ यह है कि यह एक समायोज्य मध्य मार्ग देता है: आप R और W को ताज़ा पढ़ाइयों या उच्च लेखन सफलता की ओर घुमा सकते हैं, जो जरूरी हो।

अंतिम स्थिरता और सामान्य विसंगतियाँ

अंततः स्थिरता का मतलब है रेप्लिकाएँ अस्थायी रूप से असंगत रहने की अनुमति देती हैं, बशर्ते वे बाद में एक ही मान पर मिल जाएँ।

एक ठोस उपमाना

इसे एक कॉफी शॉप श्रृंखला की तरह सोचें जो साझा "सोल्ड आउट" साइन अपडेट करती है। एक स्टोर उसे सोल्ड आउट बताता है, पर अपडेट दूसरे स्टोर्स तक कुछ मिनट बाद पहुँचता है। उस विंडो के दौरान, कोई और स्टोर अभी भी "उपलब्ध" दिखा सकता है और आख़िरी आइटम बेच सकता है। सिस्टम "टूटी" नहीं है—अपडेट्स बस पकड़ रहे होते हैं।

आप किन विसंगतियों को देखेंगे

जब डेटा अभी फैल रहा होता है, क्लाइंट्स ऐसे व्यवहार देख सकते हैं जो चौंकाने वाले लगते हैं:

स्टेल रीड्स: आप उन रेप्लिकाओं से पुराना डेटा पढ़ते हैं जिन्हें नया लिखाई नहीं मिली है।
रीड-योर-राइट्स गैप: आप एक अपडेट लिखते हैं, फिर तुरंत दूसरे रेप्लिका से पढ़ते हैं और अपनी ही परिवर्तन नहीं देखते।
आउट-ऑफ-ऑर्डर अपडेट्स: दो अपडेट्स अलग क्रम में अलग रेप्लिकाओं पर पहुँचते हैं, जो अस्थायी असंगति पैदा करते हैं।

रेप्लिकाओं को मिलाने में मदद करने वाली तकनीकें

अंततः स्थिरता सिस्टम असंगति विंडो घटाने के लिए पृष्ठभूमि मैकेनिज़्म जोड़ते हैं:

रीड रिपेयर: अगर पढ़ने पर रेप्लिकाएँ नहीं मेल खातीं तो सिस्टम बैकग्राउंड में स्टेल रेप्लिकाओं को अपडेट कर देता है।
हिंटेड हैंडऑफ़: यदि कोई रेप्लिका डाउन है, तो दूसरी नोड अस्थायी रूप से लिखाइयों के "हिंट" रखता है ताकि लौटने पर आगे भेज सके।
एंटी-एन्ट्रॉपी (सिंक): मर्कल ट्रीज़ या चेकसम जैसी तकनीकों से नियमित मेल-जोल करके ड्रिफ्ट ढूंढना और ठीक करना।

कब अंतिम स्थिरता अच्छी तरह काम करती है

यह उन मामलों के लिए उपयुक्त है जहाँ उपलब्धता का महत्व वर्तमान सटीकता से ज्यादा है: एक्टिविटी फीड्स, व्यू काउंटर, सिफारिशें, कैश्ड प्रोफ़ाइल, लॉग/टेलीमेट्री, और अन्य गैर-क्रिटिकल डेटा जहाँ "कुछ समय में सही" स्वीकार्य है।

संघर्ष समाधान: विभेदित लेखन कैसे सुलझता है

जल्दी तैनात करें और निगरानी करें

वर्किंग प्रोटोटाइप को होस्टेड वातावरण में भेजकर लोड में व्यवहार जांचें।

अब तैनात करें

जब डेटाबेस कई रेप्लिकाओं पर लेखन स्वीकार करता है, तो अंततः संघर्ष हो सकता है: एक ही आइटम पर अलग-अलग नोड्स पर स्वतंत्र रूप से हुए अपडेट्स जब वे बाद में मिलते हैं तो तुलना में टकराते हैं।

क्लासिक उदाहरण है: एक उपयोगकर्ता एक डिवाइस पर शिपिंग पता बदल रहा है और दूसरे पर फोन नंबर—अगर हर अपडेट अलग रेप्लिका पर जाता है तो विभाजन के दौरान दोनों अलग-अलग स्वीकार हो सकते हैं।

लास्ट-राइट-विन्स (LWW): सरल पर जोखिम भरा

कई सिस्टम last-write-wins से शुरू करते हैं: जो अपडेट नया टाइमस्टैम्प रखता है वह बाकियों को ओवरराइट कर देता है।

यह आकर्षक है क्योंकि इसे लागू करना आसान है और गणना तेज़ है। कमी यह है कि यह मौन रूप से डेटा खो सकता है। "नवीनतम" जीतने का मतलब यह हो सकता है कि एक पुराना परंतु महत्वपूर्ण परिवर्तन हट जाए—यह तब भी हो सकता है जब दोनों अपडेट अलग फील्ड्स को छू रहे हों।

यह यह भी मानता है कि क्लॉक भरोसेमंद हैं। मशीनों (या क्लाइंट्स) के बीच क्लॉक स्क्यू गलत अपडेट को जीतने दे सकता है।

इतिहास रखना: वर्शन वेक्टर और संबंधित विचार

सुरक्षित संघर्ष-हैंडलिंग आमतौर पर कारणात्मक इतिहास को ट्रैक करने की मांग करती है।

सैद्धांतिक रूप से, वर्शन वेक्टर (और सरल वैरिएंट) हर रिकॉर्ड के साथ थोड़ा मेटाडेटा जोड़ते हैं जो सारांश करता है "किस रेप्लिका ने कौन से अपडेट देखे हैं।" जब रेप्लिकाएँ वर्शन एक्सचेंज करती हैं, तो डेटाबेस पता लगा सकता है कि क्या एक वर्शन दूसरे को शामिल करता है (कोई संघर्ष नहीं) या वे विभेदित हैं (सुलह की ज़रूरत)।

कुछ सिस्टम लॉजिकल टाइमस्टैम्प (जैसे लैम्पोर्ट क्लॉक्स) या हाइब्रिड लॉजिकल क्लॉक्स का उपयोग करते हैं ताकि वॉल-क्लॉक समय पर कम निर्भरता रहे पर फिर भी क्रम का संकेत मिले।

ओवरराइट करने के बजाय मर्ज करना

एक बार संघर्ष का पता चलने पर आपके पास विकल्प होते हैं:

ऐप-स्तर मर्ज: आपकी एप्लिकेशन फ़ील्ड्स को कैसे मिलाये, उपयोगकर्ता से कैसे पूछे, या दोनों वर्शन रखें—यह तय करती है।
CRDTs (Conflict-Free Replicated Data Types): डेटा संरचनाएँ जो स्वतः और निर्धारिक रूप से मर्ज होती हैं (काउंटर, सेट, सहयोगी टेक्स्ट आदि के लिए उपयोगी)। वे अक्सर "विनर-टेक्स-ऑल" व्यवहार से बचते हुए उच्च उपलब्धता बनाए रखती हैं।

सर्वश्रेष्ठ तरीका आपके डेटा के लिए "सही" क्या है उस पर निर्भर करता है—कभी-कभी एक लिखाई खो जाना स्वीकार्य होता है, और कभी-कभी यह व्यापारिक रूप से गंभीर बग होता है।

आपके उपयोग केस के लिए कैसे चुनें

कंसिस्टेंसी/उपलब्धता मुद्रा कोई दार्शनिक बहस नहीं है—यह एक उत्पाद निर्णय है। शुरू करें यह पूछकर: क्षणिक रूप से गलत होने की लागत क्या है, और "बाद में फिर से कोशिश करें" कहने की लागत क्या है?

व्यापार जोखिम को स्थिरता जरूरतों से मैप करें

कुछ डोमेन को लिखने के समय एक एकल अधिकारिक उत्तर चाहिए क्योंकि "लगभग सही" भी गलत है:

पैसा और बिलिंग: डबल-चार्ज, ओवरड्राफ्ट, और रिफंड अक्सर मजबूत स्थिरता मांगते हैं।
पहचान और अनुमतियाँ: लॉगिन, पासवर्ड रिसेट, एक्सेस कंट्रोल और भूमिका परिवर्तन स्प्लिट-ब्रेन से बचने चाहिए।
इन्वेंटरी और क्षमता: अगर ओवर्सेलिंग अस्वीकार्य है (टिकट, सीमित स्टॉक), तो स्थिरता की ओर झुकें—या स्पष्ट आरक्षण डिज़ाइन करें।

यदि अस्थायी असंगति का प्रभाव कम या उलट होने योग्य है, तो आप आमतौर पर अधिक उपलब्धता की ओर झुक सकते हैं।

तय करें कि कितना स्टेल डेटा सहन कर सकते हैं

कई यूएक्स थोड़े पुराने रीड के साथ ठीक काम कर लेते हैं:

फीड्स और टाइमलाइन्स: किसी पोस्ट का कुछ सेकंड बाद दिखना आमतौर पर स्वीकार्य है।
एनालिटिक्स और डैशबोर्ड: बैची या देरी वाले नंबर आम हैं और अपेक्षित हैं।
कैशेस और सर्च इंडेक्स: उपयोगकर्ता "अभी अपडेट नहीं हुआ" को स्वीकार करते हैं यदि यह तेज और स्थिर हो।

स्पष्ट बताएं कि कितना पुराना ठीक है: सेकंड, मिनट, या घंटे। यह टाइम बजट आपकी रिप्लिकेशन और क्वोरम पसंदें तय करेगा।

चुनें कि उपयोगकर्ता किस विफलता मोड से सबसे ज्यादा नफरत करेगा

जब रेप्लिकाएँ सहमत नहीं हो पातीं, तो आमतौर पर UX तीन में से एक होता है:

स्पिनर / इंतज़ार (सहीपन प्राथमिक, धीमा लग सकता है)
एरर / रीट्राई (ईमानदार, पर विघटनकारी)
स्टेल परिणाम (मुलायम, पर कभी-कभी हैरान करने वाला)

फ़ीचर के हिसाब से सबसे कम हानिकारक विकल्प चुनें, न कि वैश्विक रूप से।

त्वरित चेकलिस्ट

यदि: गलत परिणाम वित्तीय/कानूनी जोखिम, सुरक्षा मुद्दे, या अपरिवर्तनीय क्रिया बना देता है—तो C की ओर झुकें।

यदि: उपयोगकर्ता प्रतिक्रियाशीलता को महत्व देते हैं, स्टेल डेटा सहनीय है, और कॉन्फ्लिक्ट्स बाद में सुरक्षित तरीके से तय किए जा सकते हैं—तो A की ओर झुकें।

संदेह होने पर, सिस्टम को विभाजित करें: महत्वपूर्ण रिकॉर्ड्स को मजबूत स्थिर रखें, और व्युत्पन्न व्यूज़ (फीड्स, कैश, एनालिटिक्स) को उपलब्धता के लिए अनुकूल बनायें।

ट्रेड-ऑफ़ के दर्द को कम करने के डिज़ाइन पैटर्न

पार्टिशन आसानी से सिमुलेट करें

पार्टिशन, स्टेल रीड्स और कॉन्फ्लिक्ट दिखाने के लिए एक न्यूनतम रेप्लिका सिमुलेशन बनाएं।

Koder आज़माएँ

आपको शायद पूरे सिस्टम के लिए एक ही "स्थिरता सेटिंग" चुननी ही नहीं पड़ेगी। कई आधुनिक वितरित डेटाबेस प्रति-ऑपरेशन स्थिरता चुनने देते हैं—और स्मार्ट एप्लिकेशन इसका फायदा उठाती हैं ताकि यूएक्स को चिकना रखा जा सके बिना यह दिखाये कि ट्रेड-ऑफ़ मौजूद नहीं है।

प्रति-ऑपरेशन स्थिरता स्तरों का उपयोग करें

स्थिरता को एक डायल की तरह समझें जिसे आप उपयोगकर्ता की क्रिया के आधार पर घुमा सकते हैं:

क्रिटिकल अपडेट्स (भुगतान, इन्वेंटरी डेक्रिमेंट, पासवर्ड चेंज): मजबूत स्थिरता (उदा., क्वोरम/लिनियराइज़ेबल राइट्स)।
गैर-क्रिटिकल रीड्स (फीड्स, डैशबोर्ड, "आख़िरी देखे"): कमजोर रीड्स (लोकल/एक रेप्लिका/एंड-स्टेट) ताकि गति और लचीलापन मिले।

यह हर चीज़ पर सबसे मजबूत स्थिरता लागत चुकाने से बचाता है, फिर भी उन ऑपरेशनों को सुरक्षित रखता है जिन्हें वास्तव में चाहिए।

एक ही फ्लो में मजबूत और कमजोर मिलाएँ

एक आम पैटर्न है लिखने के लिए मजबूत, पढ़ने के लिए कमजोर:

सख्त स्तर के साथ लिखें ताकि सिस्टम के पास एक अधिकारिक रिकॉर्ड हो।
ढीले स्तर से पढ़ें, और अगर कुछ "गलत" लगे (मिसिंग आइटम, स्टेल काउंटर), तो एक मजबूत रीड के साथ रिफ्रेश करें या उपयोगकर्ता को "अभी अपडेट हो रहा है" सूचित करें।

कुछ मामलों में उल्टा भी काम करता है: तेज़ लेखन (कतारबद्ध/अंततः) और मजबूत रीड्स जब परिणाम की पुष्टि करनी हो ("क्या मेरा ऑर्डर प्लेस हुआ?")।

री-ट्राइज़ के लिए डिज़ाइन: आइडेम्पोटेंसी

नेटवर्क डगमगाने पर क्लाइंट री-ट्राइ करेगा। री-ट्राइज़्स को सुरक्षित बनाएं आइडेम्पोटेंसी कीज़ के साथ ताकि "ऑर्डर सबमिट" दो बार चलने पर दो ऑर्डर न बने। समान की देखने पर पहला परिणाम स्टोर करें और फिर उपयोग करें।

लंबे वर्कफ़्लो: सागाज़ और क्षतिपूर्ति

सर्विसेज़ के पार बहु-कदम क्रियाओं के लिए, सागा का उपयोग करें: हर कदम के लिए एक कम्पेन्सेटिंग कार्रवाई हो (रिफंड, रिज़र्वेशन रिलीज़, शिपमेंट रद्द)। इससे सिस्टम बहालनीय रहता है भले ही कुछ हिस्से अस्थायी रूप से असहमत या फेल हों।

स्थिरता बनाम उपलब्धता के लिए परीक्षण और निगरानी

अगर आप इसे देख नहीं सकते तो आप ट्रेड-ऑफ़ का प्रबंधन नहीं कर सकते। प्रोडक्शन समस्याएँ अक्सर "रैंडम फेलियर्स" जैसी दिखती हैं जब तक आप सही मीट्रिक्स और टेस्ट न जोड़ें।

क्या मापें (और क्यों)

एक छोटे सेट से शुरू करें जो सीधे उपयोगकर्ता प्रभाव से जुड़ा हो:

लेटेंसी (p50/p95/p99): फेलओवर, लीडर चेंज, या क्वोरम री-ट्राई के दौरान स्पाइक देखें।
एरर रेट: "हार्ड" एरर (टाइमआउट, 5xx) और "सॉफ्ट" एरर (फॉलबैक से सर्व) अलग करें।
स्टेल रीड रेट: उन रीड्स का प्रतिशत जो आपके लक्ष्य से पुराने हैं (उदा., 2 सेकंड से पुराने)।
कन्फ्लिक्ट रेट: कितनी बार समकालिक लेखन सुलह मांगते हैं (LWW ओवरराइट्स सहित)।

यदि संभव हो, मीट्रिक्स को कंसिस्टेंसी मोड (क्वोरम बनाम लोकल) और रीजन/ज़ोन के हिसाब से टैग करें ताकि कहीं व्यवहार अलग दिखे तो पकड़ा जा सके।

जानबूझकर विभाजन परीक्षण करें

वास्तविक आउटेज का इंतज़ार न करें। स्टेजिंग में कैओस प्रयोग चलाएँ जो यह सिमुलेट करें:

रेप्लिकाओं के बीच पैकेट ड्रॉप और उच्च लेटेंसी
एक रीजन पहुँच से बाहर होना
आंशिक विभाजन जहाँ केवल कुछ नोड्स बात कर पाते हैं

सिर्फ़ यह सत्यापित न करें कि "सिस्टम चालू रहता है", पर यह भी देखें कि कौन सी गारंटियाँ बनी रहती हैं: क्या रीड्स ताज़ा रहते हैं, क्या राइट्स ब्लॉक होते हैं, क्या क्लाइंट्स को स्पष्ट एरर मिलते हैं?

जल्दी पकड़ने के लिए अलर्टिंग

अलर्ट जोड़ें:

आपके सहन्य स्टेलनेस विंडो से अधिक रिप्लिकेशन लैग
क्वोरम फेलियर्स (पर्याप्त रेप्लिकाएँ न पहुँच पाना) और बढ़ते री-ट्राई काउंट
बढ़ते लिखाई कॉन्फ्लिक्ट्स या सुलह बैकलॉग

अंत में, गारंटियाँ स्पष्ट रखें: अपने सिस्टम का कागजी वादा दस्तावेज़ करें कि सामान्य ऑपरेशन और विभाजन के दौरान क्या वादा किया गया है, और प्रोडक्ट व सपोर्ट टीम्स को यह सिखाएँ कि उपयोगकर्ता क्या देख सकते हैं और कैसे जवाब दें।

CAP विकल्पों का तेज़ प्रोटोटाइप (बिना सब कुछ फिर से बनाने के)

यदि आप नए प्रोडक्ट में इन ट्रेड-ऑफ़ की खोज कर रहे हैं, तो मान्य करना जल्दी सहायक होता है—खासकर विफलता मोड्स, री-ट्राय व्यवहार, और UI में "स्टेल" कैसा दिखता है।

एक व्यावहारिक तरीका है वर्कफ़्लो का छोटा प्रोटोटाइप बनाना (राइट पाथ, रीड पाथ, री-ट्राय/आइडेम्पोटेंसी, और एक सुलह जॉब) इससे पहले कि आप पूर्ण आर्किटेक्चर अपनाएँ। Koder.ai जैसे उपकरणों से टीमें चैट-ड्रिवन वर्कफ़्लो के ज़रिए वेब ऐप्स और बैकएंड जल्दी स्पिन अप कर सकती हैं, डेटा मॉडल और API पर जल्दी इटरेट कर सकती हैं, और अलग-अलग स्थिरता पैटर्न (उदा., कड़े राइट्स + ढीले रीड्स) बिना पारंपरिक बिल्ड पाइपलाइन के ओवरहेड के टेस्ट कर सकती हैं। जब प्रोटोटाइप वांछित व्यवहार से मेल खाता है, तो आप सोर्स को एक्सपोर्ट करके इसे प्रोडक्शन में विकसित कर सकते हैं।

अक्सर पूछे जाने वाले प्रश्न

Why do distributed databases face a consistency vs availability trade-off?

एक प्रतिलिपिकृत डेटाबेस में "एक ही" डेटा कई मशीनों (नोड्स) पर रहता है। यह लचीलापन और कम लेटेंसी देता है, लेकिन समन्वय की समस्या भी लाता है: नोड धीमे हो सकते हैं, पहुँच से बाहर हो सकते हैं, या नेटवर्क द्वारा अलग हो सकते हैं, इसलिए वे हमेशा तुरंत एक ही नवीनतम लेखन पर सहमत नहीं हो पाते।

What does “consistency” mean in plain terms?

स्थिरता का मतलब है: एक सफल लेखन के बाद, किसी भी बाद की पढ़ाई उसी वैल्यू को लौटाए—चाहे कोई भी रेप्लिका सेवा दे रहा हो। व्यवहार में, सिस्टम अक्सर पढ़ने/लिखने को तब तक रोकते या अस्वीकार करते हैं जब तक पर्याप्त रेप्लिका (या लीडर) अपडेट की पुष्टि न कर दें।

What does “availability” mean in plain terms?

उपलब्धता का मतलब है कि सिस्टम हर रिक्वेस्ट को एक गैर-एरर प्रतिक्रिया लौटाता है, भले ही कुछ नोड्स डाउन हों या संवाद न कर पा रहे हों। प्रतिक्रिया पुरानी या आंशिक हो सकती है, या स्थानीय जानकारी पर आधारित हो सकती है, लेकिन सिस्टम विफलताओं के दौरान उपयोगकर्ताओं को ब्लॉक नहीं करता।

What is a network partition, and why does it matter so much?

एक नेटवर्क विभाजन वह घटना है जहाँ उन नोड्स के बीच संचार टूट जाता है जो एक ही सिस्टम की तरह काम करने चाहिए। नोड्स स्वस्थ रह सकते हैं, पर संदेश भरोसेमंद तरीके से पार नहीं जा पाते—जिससे डेटाबेस को चुनना पड़ता है:

एक सत्य को बचाने के लिए रिक्वेस्ट को ब्लॉक/अस्वीकार करना (स्थिरता), या
हर साइड पर रिक्वेस्ट का जवाब देना और बाद में सुलह करना (उपलब्धता)।

What do users actually experience during partitions or replica disagreement?

विभाजन के दौरान दोनों साइडें अपडेट स्वीकार कर सकती हैं जिन्हें वे तुरंत साझा नहीं कर पातीं। इससे हो सकता है:

टाइमआउट (दूरस्थ रेप्लिका का इंतजार),
स्टेल रीड्स (पीछे चल रही रेप्लिका से पढ़ना),
स्प्लिट-ब्रेन व्यवहार (अलग उपयोगकर्ता अलग “सत्य” देखते हैं)

ये सब उपयोगकर्ता-स्तर पर दिखाई देने वाले लक्षण हैं जब रेप्लिकासा अस्थायी रूप से समन्वय नहीं कर पातीं।

Does CAP theorem really mean you can only pick two out of three?

यह हमेशा "दो में से दो चुनें" जैसा नहीं है। इसका मतलब है: जब विभाजन हो, आप दोनों—

Consistency (हर कोई आखिरी स्वीकार किए गए लिखे को देखे), और
Availability (हर रिक्वेस्ट को जवाब मिले)

को एक साथ गारंटी नहीं दे सकते। विभाजन के बाहर कई सिस्टम अक्सर दोनों के साथ अच्छी तरह दिखते हैं—जब तक नेटवर्क गलत न हो जाए।

How do quorums (N, R, W) help balance consistency and availability?

क्वोरम रेप्लिकाओं के बीच वोटिंग का एक व्यावहारिक तरीका है:

N = रेप्लिकाओं की संख्या
W = कितनी रेप्लिका लिखने की पुष्टि करें
R = पढ़ने के लिए कितनी रेप्लिका पूछी जाती हैं

सामान्य मार्गदर्शक: R + W > N तो हर पढ़ाई कम-से-कम एक ऐसी रेप्लिका से ओवरलैप करेगी जिसमें नवीनतम सफल लिखाई मौजूद है। क्वोरम विभाजन समस्याओं को ख़त्म नहीं करते; वे यह तय करते हैं कि किस तरफ प्रगति कर सकती है (जैसे बहुमत वाला साइड)।

What is eventual consistency, and what anomalies should I expect?

अंततः स्थिरता का मतलब है कि रेप्लिका अस्थायी रूप से असमंजस में रहे सकती हैं, बशर्ते वे बाद में एक-दूसरे से मेल खा लें। सामान्य असंगतियों में शामिल हैं:

स्टेल रीड्स
अपनी-लिखी-को पढ़ने का गैप (आप तुरंत अपनी ही अपडेट नहीं देखते)
आदेश-बगैर अपडेट्स

सिस्टम इन्हें कम करने के लिए , , और नियमित जैसी पृष्ठभूमि प्रक्रियाएँ चलाते हैं।

How are conflicting writes reconciled after a partition heals?

विभाजन ठीक होने पर संघर्ष तब होते हैं जब अलग-अलग रेप्लिका ने एक ही आइटम पर स्वतंत्र रूप से अलग लिखाई स्वीकार कर ली हो। समाधान के तरीके:

Last-write-wins (LWW): नया टाइमस्टैम्प जीत जाता है—सरल पर डेटा चुपचाप खो सकता है।
वर्शन वेक्टर / कारणिक मेटाडेटा: यह पता लगाते हैं कि क्या एक वर्शन दूसरे को शामिल करता है या वे विभेदित हैं।
मर्ज / CRDTs: कुछ डेटा प्रकारों के लिए स्वतः और निर्धारिक रूप से मर्ज करने वाले संरचनाएं।

सही रणनीति आपके डेटा के लिए "सही" क्या है उस पर निर्भर करती है।

How do I choose the right consistency vs availability posture for my application?

निर्णय आपके उत्पाद जोखिम और उपयोगकर्ता पर प्रभाव पर आधारित होना चाहिए:

मजबूत स्थिरता चुनें जहाँ गलत परिणाम से वित्तीय/कानूनी/अपरिवर्तनीय नुकसान हो (मनी, परमिशन, इन्वेंटरी)।
उपलब्धता चुनें जहाँ प्रतिक्रियाशीलता अधिक मायने रखती है और असंगति बाद में ठीक की जा सके (फ़ीड, एनालिटिक्स, कैश)।

व्यावहारिक पैटर्न: प्रति-ऑपरेशन स्थिरता स्तर, आइडेम्पोटेंसी की योजना बनाना, और मल्टी-स्टेप वर्कफ़्लो के लिए सागाज़/कम्पेन्सेशन।