Mark Russinovich और Windows Internals: निगरानी (Observability) और विश्वसनीयता

Q: मुझे Task Manager के बजाय कब Process Explorer का उपयोग करना चाहिए?

Process Explorer का उपयोग तब करें जब आपको यह पहचाननी हो कि कौन ज़िम्मेदार है। यह तेज़ उत्तरों के लिए उपयुक्त है जैसे: - कौन सा प्रोसेस CPU/मेमोरी उपयोग कर रहा है - पैरेंट/चाइल्ड रिश्ते (किसने लॉन्च किया) - थ्रेड-स्तरीय हॉटस्पॉट और वेट्स - प्रोसेस किन DLLs/हैंडल्स को ओपन किए रखता है

लॉग इन शुरू करें

Mark Russinovich और Windows Internals: निगरानी (Observability) और विश्वसनीयता | Koder.ai

क्यों Mark Russinovich अभी भी Windows संचालन के लिए मायने रखते हैं

अगर आप प्रोडक्शन में विंडोज़ चलाते हैं—लैपटॉप, सर्वर, VDI, या क्लाउड VMs—तो Mark Russinovich का काम रोज़मर्रा के ऑपरेशन्स में दिखता है। यह न सिर्फ़ पर्सनैलिटी या नॉस्टाल्जिया की वजह से है, बल्कि इसलिए कि उन्होंने ट्रबलशूटिंग में "सबूत-प्रथम" अप्रोच लोकप्रिय की: देखें कि OS असल में क्या कर रहा है, फिर लक्षणों की व्याख्या प्रमाण के साथ करें।

तीन सीधे-सीधे विचार

Observability का मतलब है कि आप सिस्टम के द्वारा उत्पन्न संकेतों (इवेंट्स, ट्रेसेस, काउंटर) से "अभी क्या हो रहा है?" का उत्तर दे सकें। जब कोई सर्विस धीमी पड़ती है या लॉगऑन हैंग होता है, तो observability अनुमान और जानने के बीच का फर्क है।

Debugging अस्पष्ट समस्या ("यह फ्रीज़ हो गया") को एक विशिष्ट मैकेनिज़्म में बदलना है ("यह थ्रेड I/O पर ब्लॉक है", "यह प्रोसेस पेज फ़ाइल को थ्रैश कर रहा है", "यह DLL इंजेक्शन व्यवहार बदल गया")।

Reliability तनाव के दौरान काम जारी रखने और पूर्वानुमेय रूप से रिकवर करने की क्षमता है—कम incidents, तेज़ restores, और सुरक्षित परिवर्तन।

क्यों इंटर्नल्स ज्ञान घटनाओं को तेज़ करता है

अधिकांश "रहस्यमयी आउटेज" असल में रहस्य नहीं होते—वे विंडोज़ व्यवहार होते हैं जिन्हें आपने अभी तक मैप नहीं किया: हैंडल लीक, runaway चाइल्ड प्रोसेसेज़, अटके ड्राइवर, DNS टाइमआउट, टूटे ऑटो-स्टार्ट एंट्रियाँ, या सिक्योरिटी टूलिंग जो ओवरहेड जोड़ती है। विंडोज़ इंटर्नल्स का बुनियादी ज्ञान (प्रोसेसेज़, थ्रेड्स, हैंडल, सर्विसेज़, मेमोरी, I/O) आपको पैटर्न जल्दी पहचानने और समस्या गायब होने से पहले सही सबूत इकट्ठा करने में मदद करता है।

यह लेख आपको क्या करने में मदद करेगा

हम व्यावहारिक, ऑपरेशन्स-फ्रेंडली वर्कफ़्लो पर ध्यान देंगे:

Sysinternals टूल्स (खासकर Process Explorer और Process Monitor) तेज़, कम बाधा वाली विजिबिलिटी के लिए
ETW ट्रेसिंग जब लॉग्स पर्याप्त नहीं होते और आपको उच्च-निष्ठता "क्या हुआ" टाइमलाइन चाहिए
WinDbg और क्रैश/हैंग डंप्स विफलताओं को actionable रूट कॉज़ में बदलने के लिए

लक्ष्य आपको कर्नेल इंजीनियर बनाने का नहीं है। उद्देश्य यह है कि विंडोज़ घटनाएँ छोटी, शांत और समझाने में आसान हों—ताकि फिक्स सुरक्षित और दोहराने योग्य हों।

Troubleshooting सुपरपावर के रूप में Windows Internals

विंडोज़ "इंटर्नल्स" उन मैकेनिज़्म का सेट है जिनसे विंडोज़ काम करता है: थ्रेड शेड्यूलिंग, मेमोरी प्रबंधन, सर्विसेज़ स्टार्ट करना, ड्राइवर लोड करना, फ़ाइल और रजिस्ट्री गतिविधि हैंडल करना, और सिक्योरिटी बाउंड्री लागू करना। व्यावहारिक वादा साफ़ है: जब आप समझते हैं कि OS क्या कर रहा है, आप अनुमान लगाना बंद करते हैं और समझाना शुरू करते हैं।

यह मायने रखता है क्योंकि अधिकांश ऑपरेशनल लक्षण अप्रत्यक्ष होते हैं। "मशीन स्लो है" CPU कंटेंशन, एक हॉट थ्रेड, ड्राइवर इंटरप्ट स्टॉर्म, पेजिंग प्रेशर, या एंटीवायरस फिल्टर हो सकता है। "यह हैंग है" डेडलॉक, अटका नेटवर्क कॉल, स्टोरेज टाइमआउट, या किसी सर्विस का किसी निर्भरता पर इंतज़ार हो सकता है। इंटर्नल्स ज्ञान अस्पष्ट शिकायतों को टेस्टेबल हाइपोथेसिस में बदल देता है।

यूजर मोड बनाम कर्नेल मोड (उपयोगी स्तर तक)

उच्च स्तर पर, यूजर मोड वह जगह है जहाँ ज्यादातर ऐप्स और सर्विसेज़ चलते हैं। जब वे क्रैश होते हैं, तो आमतौर पर केवल वे ही डाउन होते हैं। कर्नेल मोड वह जगह है जहाँ विंडोज़ खुद और ड्राइवर चलते हैं; वहाँ की समस्याएँ पूरे सिस्टम को फ्रीज़ कर सकती हैं, बगचेक (ब्लू स्क्रीन) ट्रिगर कर सकती हैं, या चुपचाप विश्वसनीयता घटा सकती हैं।

आपको गहरा थियोरी नहीं चाहिए—बस इतना कि आप सबूत चुन सकें। एक ऐप जो CPU पीक कर रहा है अक्सर यूजर मोड में होता है; बार-बार स्टोरेज रिसेट्स या नेटवर्क ड्राइवर मुद्दे अक्सर कर्नेल मोड की ओर इशारा करते हैं।

सबूत-प्रथम ट्रबलशूटिंग

Russinovich का माइंडसेट—जो Sysinternals और Windows Internals में झलकता है—है "सबूत-प्रथम"। सेटिंग्स बदलने, अंधाधुंध रीबूट करने, या रीइंस्टॉल करने से पहले, कैप्चर करें कि सिस्टम क्या कर रहा है: कौन सा प्रोसेस, कौन सा थ्रेड, कौन सा हैंडल, कौन सी रजिस्ट्री कुंजी, कौन सा नेटवर्क कनेक्शन, कौन सा ड्राइवर, कौन सा इवेंट।

जब आप जवाब दे सकें कि "विंडोज़ अभी क्या कर रहा है, और क्यों," तो फिक्स छोटे, सुरक्षित और जस्टिफायबल बन जाते हैं—और रिलायबिलिटी काम प्रतिक्रियात्मक फायरफाइटिंग बंद कर देता है।

Sysinternals दृष्टिकोण: अदृश्य को दृश्यमान बनाएं

Sysinternals को सबसे अच्छी तरह "विंडोज़ के लिए विजिबिलिटी टूलकिट" के रूप में समझा जा सकता है: छोटे, पोर्टेबल उपयोगिताएँ जो सिस्टम के वास्तविक व्यवहार को खोलती हैं—प्रोसेस-बाय-प्रोसेस, हैंडल-बाय-हैंडल, रजिस्ट्री-कुंजी-बाय-कुंजी। विंडोज़ को ब्लैक बॉक्स समझने के बजाय, Sysinternals आपको उन व्यवहारों का निरीक्षण करने देता है जो "ऐप स्लो है", "CPU हाई है", या "सर्वर कनेक्शंस ड्रॉप कर रहा है" जैसे लक्षणों के पीछे हैं।

भरोसा करें पर सत्यापित करें: अनुमान न लगाएँ, मापें

ऑपरेशनल दर्द का बहुत हिस्सा वाजिब-अवाज वाले अनुमान से आता है: यह DNS होगा, शायद एंटीवायरस, Windows Update फिर अटका। Sysinternals माइंडसेट सरल है: अपनी अंतर्ज्ञान को हाइपोथेसिस बनाने तक भरोसा करें, फिर प्रमाण के साथ सत्यापित करें।

जब आप देख सकते हैं कि कौन सा प्रोसेस CPU खा रहा है, कौन सा थ्रेड वेट कर रहा है, कौन सा फ़ाइल पथ हम्मर्ड हो रहा है, या कौन सी रजिस्ट्री वैल्यू बार-बार री-राइट हो रही है—तो आप बहसों को छोड़कर कारणों को संकुचित करना शुरू कर देते हैं। यही बदलाव—कहानियों से माप तक—इंटर्नल्स ज्ञान को व्यावहारिक बनाता है।

लाइव घटनाओं में Sysinternals क्यों चमकता है

ये टूल्स "सब कुछ जल रहा है" क्षण के लिए बनाए गए हैं:

कम घर्षण: कई टूल इंस्टॉलेशन के बिना चलते हैं और जल्दी लॉन्च होते हैं।
तेज़ फीडबैक: आप मिनटों में सिद्धांत को मान्य या अस्वीकार कर सकते हैं।
फ़ोकस्ड विजिबिलिटी: हर उपयोगिता एक विशिष्ट प्रश्न वर्ग का उत्तर देती है (प्रोसेसेज़, स्टार्टअप आइटम, नेटवर्क एंडपॉइंट्स, मेमोरी उपयोग)।

जब आप लंबे सेटअप, भारी एजेंट रोलआउट, या बेहतर डेटा इकट्ठा करने के लिए रीबूट बर्दाश्त नहीं कर सकते तो यह मायने रखता है।

सुरक्षित उपयोग सिद्धांत

Sysinternals शक्तिशाली है, और शक्ति के साथ गाइडरेंस आती है:

ज़रूरत के अनुसार चलाएँ: पढ़ने-केवल अवलोकन से शुरू करें; आवश्यकता होने पर ही प्रिविलेज बढ़ाएँ।
जो करें उसका दस्तावेज़ रखें: टाइमस्टैम्प, फ़िल्टर, और कोई कार्रवाई रिकॉर्ड करें ताकि निष्कर्ष दोहराए जा सकें।
खलल कम रखें: तथ्य इकट्ठा करना (स्क्रीनशॉट, लॉग, एक्सपोर्टेड ट्रेसेस) "मिड-इंसिडेंट फिक्स" से प्राथमिकता दें।
सावधानी से बदलें: अगर आपको सेटिंग बदलनी या प्रोसेस को मारना है, तो कारण और अपेक्षित नतीजा नोट करें, फिर परिणाम सत्यापित करें।

इस तरह उपयोग होने पर, Sysinternals एक अनुशासित तरीका बन जाता है: अदृश्य का निरीक्षण करें, सत्य मापें, और ऐसे परिवर्तन करें जो जस्टिफायबल हों—न कि उम्मीद पर आधारित।

Process Explorer & Process Monitor: रोज़मर्रा का डिबग पेयर

अगर आप अपने एडमिन टूलकिट में सिर्फ़ दो Sysinternals टूल रखें, तो वे हों Process Explorer और Process Monitor। साथ मिलकर ये सबसे सामान्य "विंडोज़ अभी क्या कर रहा है?" सवालों का उत्तर देते हैं बिना एजेंट, रीबूट, या भारी सेटअप के।

Process Explorer: सेकंडों में तेज़ उत्तर

Process Explorer Task Manager का एक्स-रे वर्ज़न है। जब मशीन स्लो या अस्थिर हो, यह आपको बताने में मदद करता है कि कौन सा प्रोसेस जिम्मेदार है और वह किसके साथ जुड़ा है।

यह विशेष रूप से उपयोगी है:

CPU और थ्रेड्स: कौन सा प्रोसेस CPU जला रहा है, और क्या यह एक हॉट थ्रेड है या कई?\n- पैरेंट/चाइल्ड संबंध: प्रोसेस किसने लॉन्च किया (सर्विस, शेड्यूल्ड टास्क, अपडेटर, या यूज़र कार्रवाई)?\n- DLLs और हैंडल्स: कौन सी मॉड्यूल लोड हैं, और प्रोसेस किन फ़ाइलों/रजिस्ट्री कीज़/पाइप्स को ओपन किए रखता है?

अंतिम बिंदु एक विश्वसनीयता सुपरपावर है: "मैं यह फ़ाइल क्यों डिलीट नहीं कर पा रहा?" अक्सर बन जाता है "यह सर्विस उसके ऊपर ओपन हैंडल रखे है।"

Process Monitor: पूरा एक्टिविटी ट्रेल

Process Monitor (Procmon) फ़ाइल सिस्टम, रजिस्ट्री, और प्रोसेस/थ्रेड गतिविधियों पर विस्तृत इवेंट्स कैप्चर करता है। यह उस प्रश्न के लिए टूल है जैसे: "ऐप के हैंग होने पर क्या बदला?" या "हर 10 मिनट पर डिस्क कौन पीट रहा है?"

Capture शुरू करने से पहले प्रश्न को फ्रेम करें:

लक्षण क्या है (धीमा लॉगऑन, हाई डिस्क, क्रैश, एक्सेस डिनाइड)?
यह कब होता है (स्टार्टअप पर, 09:00 पर, स्लीप के बाद)?
कौन सी मशीन और उपयोगकर्ता संदर्भ (केवल एक सर्वर, केवल एक यूज़र प्रोफ़ाइल, केवल VPN पर)?

केवल आवश्यक चीज़ कैप्चर करें (शोर दुश्मन है)

Procmon आपको तब उलाहना कर सकता है जब तक आप आक्रामक रूप से फ़िल्टर न करें। शुरुआत में:

विशेष Process Name या PID पर फ़िल्टर करें।
उस पाथ के लिए Include नियम इस्तेमाल करें जिसकी आपको परवाह है और बाकी को exclude करें।
लक्षण के आसपास एक छोटा विंडो कैप्चर करें, फिर रोक दें।

इससे आपको क्या मिलता है

आम नतीजे बहुत व्यावहारिक होते हैं: बार-बार क्वेरी करने वाली एक मिसबिहेविंग सर्विस जो एक खोई हुई रजिस्ट्री कुंजी को पूछ रही हो, एक रनअवे "रियल-टाइम" फ़ाइल स्कैन जो हज़ारों फ़ाइलों को छू रहा हो, या एक मिसिंग DLL लोड प्रयास ("NAME NOT FOUND") जो समझाता है कि एक ऐप एक मशीन पर क्यों नहीं शुरु हो रहा पर दूसरे पर चल रहा है।

Autoruns, TCPView, RAMMap: भारी सेटअप बिना तेज़ सुराग

डंप्स को ट्रायज करना आसान बनाएं

क्रैश, हैंग डंप और ट्रायज चेकलिस्ट के लिए एक सरल इनटेक टूल बनाएं।

मुफ्त आज़माएँ

जब एक विंडोज़ मशीन "अजीब महसूस" करती है, तो अक्सर आपको पूरी मॉनिटरिंग स्टैक की ज़रूरत नहीं होती। कुछ Sysinternals टूल्स जल्दी से तीन व्यावहारिक प्रश्नों का उत्तर दे सकते हैं: क्या ऑटोमैटिक शुरू होता है? कौन नेटवर्क पर बात कर रहा है? मेमोरी कहाँ गई?

Autoruns: विश्वसनीयता बूट से शुरू होती है

Autoruns सबसे तेज़ तरीका है यह समझने का कि सब कुछ क्या शुरू हो सकता है बिना यूज़र के सक्रिय रूप से उसे चलाने के—सर्विसेज़, शेड्यूल्ड टास्क, शेल एक्सटेंशन्स, ड्राइवर, और अधिक।

विश्वसनीयता के लिए क्यों मायने रखता है: स्टार्टअप आइटम अक्सर धीमे बूट, अनियमित हैंग, और लॉगिन के बाद दिखाई देने वाले CPU स्पाइक्स के स्रोत होते हैं। एक अस्थिर अपडेटर, लेगसी ड्राइवर हेल्पर, या टूटा शेल एक्सटेंशन पूरे सिस्टम को डाउन कर सकता है।

व्यावहारिक टिप: उन एंट्रीज़ पर ध्यान दें जो unsigned, हाल में जुड़ी हुई, या लोड होने में विफल हों। यदि किसी आइटम को अक्षम करने से बॉक्स स्थिर हो जाता है, तो आपने अस्पष्ट लक्षण को एक विशिष्ट कंपोनेंट में बदल दिया है जिसे आप अपडेट/हट/रिप्लेस कर सकते हैं।

TCPView: कौन सुन रहा है, कौन बात कर रहा है पुष्टि करें

TCPView आपको एक्टिव कनेक्शंस और लिसनर्स का तात्कालिक नक्शा देता है, जो प्रोसेस नामों और PIDs से जुड़ा होता है। यह त्वरित सत्यापन के लिए आदर्श है:

अनपेक्षित LISTENING पोर्ट (खासकर उन सर्वरों पर जो शांत रहने चाहिए)
एक प्रोसेस के पास असामान्य रूप से अधिक कनेक्शंस होना
तेज़ कनेक्शन चर्न जो CPU या लेटेंसी शिकायतों के साथ तालमेल खाता हो

यहां तक कि नॉन-सिक्योरिटी जाँचों के लिए भी यह रनअवे एजेंट्स, गलत कॉन्फ़िगर किए गए प्रॉक्सी, या "रिट्राई स्टॉर्म्स" का पता लगा सकता है जहाँ ऐप धीमा दिखता है पर मूल कारण नेटवर्क व्यवहार होता है।

RAMMap: बिना अनुमान के मेमोरी प्रेशर

RAMMap आपको दिखाता है कि RAM वास्तव में कहाँ एलोकेट है।

एक उपयोगी बेसलाइन भेद:

Working sets: चल रहे प्रोसेसेज़ द्वारा सक्रिय रूप से उपयोग की जा रही मेमोरी
Cache / standby: विंडोज़ डेटा को तेज़ी से उपलब्ध कराने के लिए रखता है (स्वाभाविक रूप से "खराब" नहीं)

यदि उपयोगकर्ता "लो मेमोरी" रिपोर्ट करते हैं जबकि Task Manager भ्रमित दिखता है, RAMMap यह पुष्टि कर सकता है कि क्या यह असली प्रोसेस ग्रोथ है, भारी फ़ाइल कैश है, या कोई ड्राइवर नॉनपेज्ड मेमोरी खा रहा है।

वैकल्पिक: हैंडल और VMMap जब लीक संदिग्ध हों

अगर कोई ऐप दिनों में स्लो होता जा रहा है, तो Handle हैंडल काउंट्स के बढ़ने का खुलासा कर सकता है (क्लासिक लीक पैटर्न)। VMMap तब मदद करता है जब मेमोरी उपयोग अजीब हो—फ्रैगमेंटेशन, बड़े रिज़र्व्ड रीज़न, या ऐसी एलोकेशन्स जो सादे "private bytes" में नहीं दिखतीं।

पहले 15 मिनट की दोहराने योग्य चेकलिस्ट

Autoruns: नए/unsigned एंट्रीज़ स्कैन करें; एक संदिग्ध आइटम एक-एक करके अक्षम करें।
TCPView: अपेक्षित लिसनर्स सत्यापित करें; टॉप कनेक्शन ओनर्स पहचानें।
RAMMap: जाँचें कि प्रेशर वर्किंग सेट वृद्धि बनाम कैश/स्टैंडबाय में है।
यदि लक्षण समय-आधारित हैं: जल्दी "पहले/बाद" स्नैपशॉट लें (काउंट्स, पोर्ट्स, मेमोरी टोटल)।
यदि वृद्धि स्पष्ट है: लीक पैटर्न की पुष्टि के लिए Handle/VMMap उपयोग करें।
संदिग्ध कंपोनेंट और सबूत लिखें ताकि फिक्स लक्षित हो, अनुमान नहीं।

लॉग्स से ETW तक: विंडोज़ पर असल ऑब्ज़रवेबिलिटी बनाना

विंडोज़ ऑपरेशन्स अक्सर वही शुरू होता है जो पकड़ना आसान हो—Event Viewer और Task Manager के कुछ स्क्रीनशॉट। यह breadcrumbs के लिए ठीक है, पर विश्वसनीय incident response को तीन परस्पर पूरक संकेत प्रकार चाहिए: लॉग्स (क्या हुआ), मेट्रिक्स (कितना बुरा था), और ट्रेसेस (सिस्टम किस पल-दर-पल क्या कर रहा था)।

इवेंट लॉग्स: बढ़िया सुराग, असंतृत कवरेज

विंडोज़ इवेंट लॉग्स पहचान, सर्विस लाइफसाइकिल, पॉलिसी परिवर्तन, और ऐप-लेवल त्रुटियों के लिए शानदार हैं। वे असमान भी होते हैं: कुछ कंपोनेंट्स समृद्ध रूप से लॉग करते हैं, दूसरे कम, और संदेश टेक्स्ट अस्पष्ट हो सकता है ("The application stopped responding")। इन्हें एक टाइमलाइन एंकर के रूप में लें, पूरे कहानी के रूप में नहीं।

आम जीतें:

सर्विस स्टार्ट/स्टॉप और क्रैश इवेंट्स
प्रमाणिकरण और अधिकरण इवेंट्स
एप्लीकेशन अपवाद (जब ऐप इन्हें लॉग करता है)

आउटेज के दौरान मेट्रिक्स: कुछ जो आमतौर पर मायने रखते हैं

परफ़ॉर्मेंस काउंटर (और समान स्रोत) जवाब देते हैं, "क्या मशीन हेल्दी है?" आउटेज के दौरान निम्न से शुरू करें:

CPU: लगातार उच्च CPU, ready time (VMs), प्रति-प्रोसेस CPU
Disk: क्यू लंबाई, रीड/राइट लेटेंसी, IOPS, फ्री स्पेस
Memory: committed bytes, commit limit, hard faults/sec, pool usage
Network: retransmits, errors, bytes/sec, connection counts

मेट्रिक्स आपको नहीं बताएंगे कि क्यों स्पाइक हुआ, पर वे बताएंगे कब यह शुरू हुआ और क्या यह सुधर रहा है।

ETW साधारण शब्दों में: संरचित, उच्च-वॉल्यूम ट्रेसिंग

Event Tracing for Windows (ETW) विंडोज़ का बिल्ट-इन फ्लाइट रिकॉर्डर है। रैंडम टेक्स्ट संदेशों के बजाय, ETW कर्नेल, ड्राइवर, और सर्विसेज़ से उच्च वॉल्यूम में संरचित इवेंट्स उत्सर्जित करता है—प्रोसेस/थ्रेड गतिविधि, फ़ाइल I/O, रजिस्ट्री एक्सेस, TCP/IP, शेड्यूलिंग, और अधिक। कई "रहस्यमयी स्टॉल्स" इसी स्तर पर समझ में आने लगते हैं।

संकेतों का चयन (सब कुछ इकट्ठा करने के बिना)

व्यावहारिक नियम:

लॉग्स डिस्क्रीट इवेंट्स के लिए (क्रैश, रीस्टार्ट, ऑथ फेलियर)।
मेट्रिक्स प्रभाव का पता लगाने और परिमाण करने के लिए (लेटेंसी, संतृप्ति)।
ETW जब आपको कारण चाहिए (कौन ब्लॉक कर रहा था, कौन सा I/O, कौन सा कॉल पाथ)।

"सब कुछ हमेशा के लिए चालू कर दें" से बचें। एक छोटा हमेशा-ऑन बेसलाइन रखें (कुंजी लॉग्स + कोर मेट्रिक्स) और घटनाओं के दौरान लक्ष्यित, अल्पकालिक ETW कैप्चर का प्रयोग करें।

समय-संरेखण सुपरपावर है

सबसे तेज निदान तीन घड़ियों को मिलाने से आते हैं: उपयोगकर्ता रिपोर्ट्स ("10:42 पर यह फ्रीज़ हुआ"), मेट्रिक इन्फ्लेक्शन्स (CPU/disk स्पाइक), और लॉग/ETW इवेंट्स उन्हीं टाइमस्टैम्प्स पर। एक बार जब आपका डेटा एक सुसंगत समय आधार साझा करता है, तो आउटेज अनुमान नहीं बल्कि सत्यापित कथाओं में बदल जाते हैं।

Sysmon टेलीमेट्री: सिक्योरिटी सिग्नल जो विश्वसनीयता में भी मदद करते हैं

विंडोज़ के डिफ़ॉल्ट इवेंट लॉग उपयोगी हैं, पर अक्सर वे "क्यों अब" के विवरण को मिस कर देते हैं जो ऑपरेटरों को चाहिए जब कुछ अनपेक्षित बदलता है। Sysmon इस गैप को भरता है—यह उच्च-निष्ठा प्रोसेस और सिस्टम गतिविधि रिकॉर्ड करता है, खासकर लॉन्च, पर्सिस्टेंस, और ड्राइवर व्यवहार के आसपास।

Sysmon क्या जोड़ता है (डिफ़ॉल्ट लॉग्स से आगे)

Sysmon की ताकत संदर्भ है। सिर्फ़ "एक सर्विस स्टार्ट हुई" के बजाय, आप अक्सर देख पाएँगे किस प्रोसेस ने उसे शुरू किया, पूरा कमांड लाइन, पैरेंट प्रोसेस, हैश, उपयोगकर्ता अकाउंट, और समन्वय के लिए साफ़ टाइमस्टैम्प।

यह रिलायबिलिटी काम के लिए मूल्यवान है क्योंकि कई incidents छोटे बदलावों से शुरू होते हैं: एक नया शेड्यूल्ड टास्क, एक साइलेंट अपडेटर, एक भटका हुआ स्क्रिप्ट, या एक ड्राइवर जो खराब व्यवहार करने लगा।

न्यूनतम कॉन्फ़िग: जानबूझकर संकुचित शुरुआत

"सब कुछ लॉग करें" Sysmon कॉन्फ़िग आमतौर पर अच्छी पहली चाल नहीं है। एक न्यूनतम, विश्वसनीयता-केंद्रित सेट से शुरू करें और तभी विस्तार करें जब स्पष्ट सवाल हों।

अच्छे शुरुआती उम्मीदवार:

Process creation (अनपेक्षित लॉन्च, संदिग्ध कमांड लाइन)
Driver load (नया या बदलता कर्नेल कंपोनेंट)
Image/DLL load (डिपेंडेंसी समस्याओं के लिए चयनात्मक रूप से)
Service और scheduled-task गतिविधि (पर्सिस्टेंस और बैकग्राउंड परिवर्तन)
Network connections / DNS (वॉल्यूम प्रबंधित करने के लिए विशिष्ट जांचों पर ही चालू करें)

लक्ष्यित include नियम (महत्वपूर्ण पाथ, ज्ञात सर्विस अकाउंट, की सर्वर) और सावधानीपूर्वक exclude नियम (शोर वाले अपडेटर्स, भरोसेमंद प्रबंधन एजेंट) के साथ ट्यून करें ताकि सिग्नल पठनीय रहे।

आप वास्तव में जो विश्वसनीयता उपयोग-मामले देखेंगे

Sysmon अक्सर सामान्य "रहस्यमयी परिवर्तन" परिदृश्यों की पुष्टि या खंडन करने में मदद करता है:

CPU स्पाइक से ठीक पहले किसी सर्विस अकाउंट के तहत नया हेल्पर प्रोसेस स्पॉन्स करना
पैच चक्र के बाद सर्विस बाइनरी पाथ या स्टार्ट टाइप बदल जाना
नए हैंग्स, बगचेक्स, या स्टोरेज/नेटवर्क रिसेट्स के साथ ड्राइवर अपडेट का तालमेल

प्रचालन सावधानियाँ

प्रतिनिधि मशीनों पर पहले प्रभाव टेस्ट करें। Sysmon डिस्क I/O और इवेंट वॉल्यूम बढ़ा सकता है, और केंद्रित संग्रह महँगा हो सकता है।

कमांड लाइन, उपयोगकर्ता नाम, और पाथ जैसे फ़ील्ड्स संवेदनशील माने जाएँ। व्यापक रोलआउट से पहले एक्सेस कंट्रोल, रिटेंशन सीमाएँ, और फ़िल्टरिंग लागू करें।

पूरक है, प्रतिस्थापन नहीं

Sysmon को उच्च-मूल्य ब्रेडक्रंब के रूप में उपयोग करें। गहन प्रदर्शन सवालों के लिए ETW, ट्रेंड डिटेक्शन के लिए मेट्रिक्स, और घटनाओं को जोड़ने के लिए अनुशासितincident नोट्स के साथ इसका साथ दें ताकि आप बदलने को क्या तोड़ा के साथ जोड़ सकें—और आपने कैसे ठीक किया।

WinDbg और डंप: क्रैश और हैंग्स को उत्तर में बदलना

एक आंतरिक ऑप्स डैशबोर्ड लॉन्च करें

मेट्रिक्स, लिंक और घटना स्थिति के लिए React और Go में एक डैशबोर्ड लॉन्च करें।

ऐप बनाएं

जब कुछ "बस क्रैश हो जाता है", तो सबसे मूल्यवान आर्टिफैक्ट अक्सर एक डंप फ़ाइल होती है: मेमोरी का स्नैपशॉट और पर्याप्त निष्पादन स्थिति ताकि आप उस क्षण पर क्या हो रहा था पुनर्निर्मित कर सकें। लॉग्स के विपरीत, डंप्स के लिए आपको पहले सही संदेश का अनुमान लगाने की ज़रूरत नहीं—वे बाद में साक्ष्य कैप्चर कर लेते हैं।

क्रैश डंप क्या हैं (और क्यों चाहिए)

ऐप क्रैश डंप (यूजर-मोड) एक ही प्रक्रिया रिकॉर्ड करते हैं। जब एक सर्विस मरती है पर मशीन ज़िंदा रहती है, वे आदर्श होते हैं।
कर्नेल डंप (सिस्टम-वाइड) बगचेक (BSOD) के लिए उपयोग होते हैं और OS-स्तर की स्थिति, ड्राइवर, और कर्नेल थ्रेड्स कैप्चर करते हैं।

डंप एक विशिष्ट मॉड्यूल, कॉल पाथ, और विफलता प्रकार (access violation, heap corruption, deadlock, driver fault) की ओर इशारा कर सकते हैं, जो लक्षणों से अनुमान लगाना कठिन है।

WinDbg मूल बातें: symbols, stacks, और "क्या फेल हुआ"

WinDbg एक डंप को कहानी में बदलता है। आवश्यक बातें:

Symbols कच्चे एड्रेस को फ़ंक्शन नाम और लाइन जानकारी से मैप करते हैं। सही symbols के बिना विश्लेषण जल्द ही अनुमान बन जाता है।
Stack traces क्रैश या फंसे थ्रेड तक पहुंचने वाले कॉल अनुक्रम दिखाते हैं।
लक्ष्य यह पहचानना है कि फेलिंग कंपोनेंट कौन था: आपका कोड, कोई डिपेंडेंसी DLL, ड्राइवर, एंटीवायरस शिम, ग्राफ़िक्स स्टैक, आदि।

एक सामान्य वर्कफ़्लो: डंप खोलें → symbols लोड करें → स्वचालित विश्लेषण चलाएँ → शीर्ष स्टैक्स और शामिल मॉड्यूल देखकर सत्यापित करें।

क्रैश बनाम BSOD बनाम हैंग: श्रेणियाँ मत मिलाएँ

Bugcheck (BSOD): पूरा सिस्टम रुक जाता है। कर्नेल डंप और ड्राइवर/रूट-कारण कार्य की उम्मीद करें।
ऐप क्रैश: एक प्रक्रिया समाप्त होती है। यूजर-मोड डंप और एक्सेप्शन कोड की अपेक्षा रखें।
हैंग: कुछ क्रैश नहीं होता, पर कार्य रुक जाता है। आपको यह साबित करने की जरूरत है कि थ्रेड्स किस पर इंतज़ार कर रहे हैं।

हैंग्स को सबूत चाहिए: स्टैक्स, वेट्स, और लॉक

"यह फ्रीज़ है" एक लक्षण है, निदान नहीं। हैंग्स के लिए, प्रतिक्रिया रहते हुए डंप कैप्चर करें और जाँचें:

थ्रेड स्टैक्स ताकि हर थ्रेड क्या कर रहा है दिखाई दे।
वेट कारण (I/O, RPC, mutex/critical section, नेटवर्क)।
लॉक्स/कॉन्टेंशन पैटर्न—अक्सर "हंग" UI थ्रेड किसी वर्कर थ्रेड पर वेट कर रहा होता है जो कहीं और फंसा होता है।

यथार्थवादी अपेक्षाएँ: स्व-डायग्नोज़ बनाम एस्केलेशन

आप अक्सर स्पष्ट मुद्दों का स्वयं निदान कर सकते हैं (किसी मॉड्यूल में बार-बार क्रैश, स्पष्ट डेडलॉक्स, किसी विशिष्ट DLL/ड्राइवर से मजबूत सहसंबंध)। जब डंप तीसरे-पक्ष ड्राइवर्स/सिक्योरिटी सॉफ़्टवेयर, कर्नेल कंपोनेंट्स, या symbols/source एक्सेस की कमी को इंगित करें—तो एस्केलेशन आवश्यक हो सकता है; तब विक्रेता या Microsoft को पूरी चेन व्याख्या करने के लिए बुलाएँ।

सामान्य विफलता पैटर्न और इंटर्नल्स उनका तरीका समझाता है

कई "रहस्यमयी विंडोज़ मुद्दे" एक ही पैटर्न दोहराते हैं। अनुमान और ठीक करने में फर्क यह है कि आप OS क्या कर रहा है समझते हैं—और Internals/Sysinternals मानसिक मॉडल आपको यह देखने में मदद करता है।

मेमोरी लीक: वर्किंग सेट बनाम कमिट

जब लोग कहते हैं "ऐप मेमोरी लीक कर रहा है", वे अक्सर दो चीज़ों में से एक का मतलब रखते हैं।

Working set वह फ़िजिकल RAM है जो वर्तमान में प्रोसेस को बैक कर रही है। यह विंडोज़ द्वारा प्रेशर के दौरान ऊपर-नीचे हो सकता है।

Commit उस वर्चुअल मेमोरी की मात्रा है जिसे सिस्टम ने रैम या पेज फ़ाइल के साथ बैक करने का वचन दिया है। अगर commit लगातार बढ़ता रहता है, तो असली लीक जोखिम है: अंततः आप commit लिमिट पर पहुंचते हैं और अलोकेशन्स फेल होने लगते हैं या होस्ट अस्थिर हो जाता है।

एक सामान्य लक्षण: Task Manager "available RAM" दिखा रहा है, पर मशीन फिर भी स्लो हो रही है—क्योंकि प्रतिबंध commit है, खाली RAM नहीं।

हैंडल लीक: धीमा फेल जो रैन्डम दिखता है

एक हैंडल OS ऑब्जेक्ट (फ़ाइल, रजिस्ट्री की, ईवेंट, सेक्शन, आदि) का संदर्भ है। अगर एक सर्विस हैंडल लीक करती है, तो यह घंटे या दिन तक ठीक चल सकती है, फिर अजीब त्रुटियों के साथ फेल होने लगती है (फ़ाइलें खोल नहीं पा रही, थ्रेड्स नहीं बना पा रही, कनेक्शंस स्वीकार नहीं कर पा रही) क्योंकि प्रति-प्रोसेस हैंडल काउंट बढ़ता जाता है।

Process Explorer में हैंडल काउंट ट्रेंड्स देखें। एक सतत ऊपर की ओर ढलान यह मजबूत संकेत है कि सर्विस कुछ बंद करना भूल रही है।

डिस्क और फ़ाइल सिस्टम मुद्दे: लेटेंसी, retries, फ़िल्टर ड्राइवर

स्टोरेज समस्याएँ अधिकतर थ्रूपुट के रूप में नहीं दिखतीं; वे अक्सर उच्च लेटेंसी और रिट्राईज़ के रूप में आती हैं। Process Monitor में देखें:

बार-बार CreateFile/ReadFile ऑपरेशन्स
लंबी-अवधि वाले I/O इवेंट्स
NAME NOT FOUND / PATH NOT FOUND शोर (गलत कॉन्फ़िगर पाथ)

फ़िल्टर ड्राइवरों (AV, बैकअप, DLP) पर भी ध्यान दें। वे फ़ाइल I/O पाथ में खुद को जोड़कर देरी या विफलताएँ डाल सकते हैं बिना कि एप्लिकेशन कुछ "गलत" कर रहा हो।

CPU स्पाइक्स: एक हॉट प्रोसेस बनाम कंटेंशन

एकल हॉट प्रोसेस सीधा है: एक executable CPU जला रहा है।

सिस्टम-व्यापी कंटेंशन मुश्किल है: CPU हाई है क्योंकि कई थ्रेड्स runnable हैं और लॉक, डिस्क, या मेमोरी के लिए झगड़ रहे हैं। इंटर्नल्स सोच आपको पूछने पर मजबूर करती है: "क्या CPU उपयोग उपयोगी काम कर रहा है, या कहीं और ब्लॉक होने पर spinning कर रहा है?"

नेटवर्क समस्याएँ: कनेक्शन किसका है?

जब टाइमआउट होते हैं, तो process → connection को TCPView या Process Explorer से मैप करें। अगर गलत प्रोसेस सॉकेट का मालिक है, तो आप ठोस कारण पा चुके हैं। अगर सही प्रोसेस है, तो पैटर्न देखें: SYN retries, लंबे समय से स्थापित कनेक्शंस जो idle हैं, या शॉर्ट-लाइव्ड आउटबाउण्ड प्रयासों का विस्फोट जो DNS/firewall/proxy समस्या सुझाते हैं बजाय कि "ऐप डाउन"।

एक व्यावहारिक वर्कफ़्लो: Observe → Capture → Explain → Fix

छोटे से शुरू करें और स्केल करें

फ्री टियर से शुरू करें और जैसे-जैसे आपकी रिलायबिलिटी टूलिंग बढ़े, अपग्रेड करें।

मुफ्त शुरू करें

रिलायबिलिटी काम आसान होता है जब हर इन्सिडेंट एक ही पथ का पालन करता है। लक्ष्य यह नहीं कि "ज़्यादा टूल चलाएँ"—बल्कि यह है कि सुसंगत साक्ष्य के साथ बेहतर निर्णय लें।

1) Reproduce (या ट्रिगर परिभाषित करें)

एक वाक्य में लिखें कि "खराब" क्या दिखता है: "बड़ा फ़ाइल सेव करते समय ऐप 30–60 सेकंड के लिए फ्रीज़ हो जाता है" या "हर 10 मिनट पर CPU 100% पर जाता है"। अगर आप दोहराकर प्रदर्शित कर सकते हैं तो करें; अगर नहीं, तो ट्रिगर परिभाषित करें (टाइम विंडो, वर्कलोड, यूज़र एक्शन)।

2) Observe (हल्का अवलोकन पहले)

भारी डेटा लेने से पहले लक्षण और दायरे की पुष्टि करें:

क्या यह एक मशीन है या कई?\n- एक प्रोसेस या पूरा होस्ट?\n- परफ़ॉर्मेंस इश्यू, क्रैश, या हैंग?

यहां त्वरित चेक्स (Task Manager, Process Explorer, बुनियादी काउंटर) आपको अगले चरण के लिए मार्गदर्शन देते हैं।

3) Capture (एक अच्छा केस फ़ाइल बनाएं)

ऐसा सबूत कैप्चर करें जैसे आप उसे किसी teammate को दे रहे हों जो वहां नहीं था। एक अच्छी केस फ़ाइल आमतौर पर शामिल करती है:

टाइमस्टैम्प्स (शुरू/बंद, टाइम ज़ोन, फ़्रीक्वेंसी)\n- वर्ज़न्स (Windows build, ऐप वर्ज़न, ड्राइवर वर्ज़न)\n- कॉन्फ़िगरेशन (फ़ीचर फ्लैग्स, पॉलिसीज़, एन्वाइरोनमेंट वेरिएबल्स, सिक्योरिटी टूलिंग)\n- ट्रेसिस (Procmon फ़िल्टर, ETW सेशन नाम, अवधि)\n- डंप्स (हैंग/क्रैश: फुल बनाम मिनी, कौन सा प्रोसेस, कैसे ट्रिगर हुआ)

कैप्चर छोटा और लक्षित रखें। 60-सेकंड का ट्रेस जो फेलियर विंडो को कवर करता है, 6 घंटे के कैप्चर से बेहतर है जिसे कोई खोल नहीं सकता।

4) Explain (डेटा को कहानी में बदलें)

आपने जो इकट्ठा किया उसे सरल कथा में अनुवाद करें:

क्या बदला? (नया बिल्ड, पॉलिसी, ड्राइवर, लोड)\n- सिस्टम क्या कर रहा है बजाय इसके कि क्या होना चाहिए? (रिट्राईज़, कंटेंशन, ब्लॉक्ड I/O, टाइमआउट)\n- संभावित कारण क्या है? (एक या दो हाइपोथेसिस, रैंक किए हुए)

अगर आप इसे सरलता से समझा नहीं पा रहे, संभवतः आपको एक साफ़ कैप्चर या संक्रीर्ण हाइपोथेसिस चाहिए।

5) Fix, confirm, और अगली बार MTTR घटाएँ

सबसे छोटा सुरक्षित फिक्स लागू करें, फिर उसी पु rúoduction स्टेप्स और "पहले बनाम बाद" कैप्चर के साथ पुष्टि करें।

MTTR घटाने के लिए प्लेबुक्स को मानकीकृत करें और उबाऊ भागों को ऑटोमेट करें:

एक स्क्रिप्ट/कमान्ड से ट्रेस स्टार्ट, एक से स्टॉप और ज़िप
सुसंगत फ़ोल्डर संरचना और नामकरण कन्वेंशन
लक्षण के प्रकार के अनुसार क्या संग्रह करना है उसकी चेकलिस्ट (क्रैश बनाम हैंग बनाम स्लोडाउन)

पोस्ट-इन्सिडेंट सीख: गायब सिग्नल जोड़ें

समाधान के बाद पूछें: "कौन सा संकेत इसे पहले ही स्पष्ट कर देता?" वह सिग्नल जोड़ें—Sysmon इवेंट, ETW प्रोवाइडर, एक परफ़ काउंटर, या हल्का हेल्थ चेक—ताकि अगली बार घटना छोटी और शांत रहे।

इसे टिकाऊ बनाना: सुरक्षित फिक्स और दीर्घकालिक विश्वसनीयता

विंडोज़ इंटर्नल्स काम का मकसद कोई डिबग जीतना नहीं है—यह देखा हुआ बदलकर ऐसे परिवर्तन करना है जो घटना वापस न आएं।

निष्कर्षों को ठोस कार्रवाइयों में बदलें

इंटर्नल्स टूल्स अक्सर समस्या को छोटे लीवर तक संकुचित करते हैं। अनुवाद स्पष्ट रखें:

कॉन्फ़िग परिवर्तन: सर्विस अकाउंट परमिशन, रजिस्ट्री वैल्यू, पूल साइज़, शेड्यूल्ड टास्क कैडेंस।\n- पैच: OS क्यूम्यूलेटिव अपडेट, .NET अपडेट, या वेन्डर हॉटफिक्स जो कॉल स्टैक/ड्राइवर वर्ज़न से मेल खाता हो।\n- ड्राइवर अपडेट (या रोलबैक): अगर Procmon/ETW स्टॉल्स ड्राइवर के आस-पास दिखाते हैं, तो ड्राइवर वर्ज़न को प्रथम-श्रेणी निर्भरता मानें।\n- Rollback: अगर फिक्स जोखिम भरा है, तो जल्दी revert करने की योजना रखें (ज्ञात-गुड पैकेज, पिछला GPO, पुराना ड्राइवर बंडल)।

"क्यों" लिखें: "हमने X बदला क्योंकि हमने Process Monitor / ETW / डंप्स में Y देखा।" वह वाक्य जनमानस ज्ञान को भटकने से रोकता है।

गार्डरेल्स: परिवर्तन विंडो, सत्यापन, रोलबैक

अपने परिवर्तन प्रक्रिया को ब्लास्ट रेडियस के अनुरूप बनाएं:

यदि संभव हो तो change window रखें जिसमें ट्रैफ़िक कम हो।\n- Validation steps परिभाषित करें (कौन से काउंटर, इवेंट IDs, या यूज़र जर्नीज़ को बेहतर होना चाहिए)।\n- एक स्पष्ट rollback plan रखें जिसके लिए मालिक और समय सीमा निर्धारित हो ("यदि 15 मिनट में त्रुटियाँ नहीं घटतीं, revert करें").

लागू करने लायक विश्वसनीयता पैटर्न

जड़ कारण विशिष्ट हो सकता है, पर टिकाऊपन अक्सर दोहराए जाने योग्य पैटर्न से आता है:

Timeouts ताकि थ्रेड स्टावेशन और फंसी निर्भरता चेन से बचा जा सके।\n- Rate limiting/backoff ताकि retry storms रोकी जा सकें।\n- Service recovery options (restart actions, failure reset period) अपेक्षित अस्थायी दोषों के लिए।\n- Health checks जो सिर्फ क्रैश नहीं बल्कि हैंग्स भी पकड़ें।

कैप्चर और टेलीमेट्री के लिए डेटा हाइजीन

जो चाहिए वही रखें, और जो नहीं रखना चाहिए उसे सुरक्षित रखें।

Procmon फ़िल्टर्स को संदिग्ध प्रोसेसेज़ तक सीमित रखें, साझा करने से पहले पाथ/यूज़रनेम स्क्रब करें, ETW/Sysmon डेटा के लिए रिटेंशन सेट करें, और जब तक आवश्यक न हो नेटवर्क-पेलोड भारी कैप्चर से बचें।

प्लेबुक्स को ऑपरेशनल बनाना (जहाँ Koder.ai मदद कर सकता है)

एक बार जब आपके पास एक दोहराने योग्य वर्कफ़्लो हो, अगला कदम उसे पैकेज करना है ताकि दूसरों आसानी से चला सकें। यहाँ एक vibe-coding प्लेटफ़ॉर्म जैसे Koder.ai उपयोगी हो सकता है: आप अपनी इन्सिडेंट चेकलिस्ट को एक छोटे आंतरिक वेब ऐप में बदल सकते हैं (React UI, Go बैकएंड PostgreSQL के साथ) जो रेस्पॉन्डर्स को "observe → capture → explain" गाइड करे, टाइमस्टैम्प और आर्टिफैक्ट स्टोर करे, और नामकरण और केस-फ़ाइल संरचना को स्टैंडर्ड करे।

Koder.ai चैट-आधारित एजेंट आर्किटेक्चर के ज़रिये ऐप्स बनाता है, इसलिए टीमें तेज़ी से इटरेट कर सकती हैं—"start ETW session" बटन, Procmon फ़िल्टर टेम्पलेट लाइब्रेरी, स्नैपशॉट/रोलबैक ऑफ़ चेंजेस, या एक्सपोर्टेबल रनबुक जेनरेटर जोड़ने जैसे—बिना पारंपरिक डेव्ह पाइपलाइन में सब कुछ फिर से बनाने के। अगर आप आंतरिक विश्वसनीयता प्रैक्टिस शेयर कर रहे हैं, तो Koder.ai सोर्स-कोड एक्सपोर्ट और कई टियर (फ्री से एंटरप्राइज़) सपोर्ट करता है, ताकि आप छोटे से शुरू करके बाद में गवर्नेंस स्केल कर सकें।

छोटे साप्ताहिक अभ्यास की योजना

सप्ताह में एक बार एक टूल और 15-मिनट का व्यायाम चुनें: Procmon से स्लो ऐप स्टार्ट ट्रेस करें, Process Explorer में एक सर्विस ट्री निरीक्षण करें, Sysmon इवेंट वॉल्यूम रिव्यू करें, या एक क्रैश डंप लें और फेलिंग मॉड्यूल पहचानें। छोटे रेप्स वह मसल मेमोरी बनाते हैं जो असली घटनाओं को तेज़—और सुरक्षित—बनाती है।

अक्सर पूछे जाने वाले प्रश्न

आज भी विंडोज़ ऑपरेशन्स के लिए मार्क रुसिनोविच क्यों महत्वपूर्ण हैं?

मार्क रुसिनोविच ने विंडोज़ ट्रबलशूटिंग में "सबूत-प्रथम" दृष्टिकोण लोकप्रिय किया और ऐसे टूल दिए/प्रभावित किए जिनसे ओएस व्यवहारिक रूप से दिखाई देता है।

यदि आपने कभी Windows Internals न पढ़ा हो, तब भी आप संभवतः Sysinternals, ETW, और डंप विश्लेषण से बने वर्कफ़्लो पर भरोसा कर रहे हैं जो घटनाओं को छोटा और दोहराने योग्य बनाते हैं।

विंडोज़ ऑपरेशन्स के संदर्भ में “observability” का क्या अर्थ है?

ऑब्ज़रवेबिलिटी वह क्षमता है जिससे आप सिस्टम सिग्नलों से "अभी क्या हो रहा है?" का जवाब दे सकते हैं।

विंडोज़ में यह आमतौर पर इनका संयोजन होता है:

घटना लॉग (Event logs) — डिस्क्रीट सिस्टम/ऐप इवेंट के लिए
मेट्रिक्स (परफ़ काउंटर) — प्रभाव और संतृप्ति मापने के लिए
ट्रेसेस (ETW) — उच्च-निष्ठता कारण-प्रदर्शन और टाइमलाइन के लिए

इंटर्नल्स ज्ञान MTTR कैसे घटाता है?

इंटर्नल्स ज्ञान अस्पष्ट लक्षणों को परीक्षण योग्य परिकल्पनाओं में बदल देता है।

उदाहरण के लिए, “सर्वर स्लो है” को आप घटकों की संक्षेप सूची में बदल देंगे: CPU कन्झेशन बनाम पेजिंग प्रेशर बनाम I/O विलंबता बनाम ड्राइवर/फ़िल्टर ओवरहेड। इससे ट्रायज तेज़ होता है और आप समस्या गायब होने से पहले सही सबूत इकट्ठा कर लेते हैं।

मुझे Task Manager के बजाय कब Process Explorer का उपयोग करना चाहिए?

Process Explorer का उपयोग तब करें जब आपको यह पहचाननी हो कि कौन ज़िम्मेदार है।

यह तेज़ उत्तरों के लिए उपयुक्त है जैसे:

कौन सा प्रोसेस CPU/मेमोरी उपयोग कर रहा है
पैरेंट/चाइल्ड रिश्ते (किसने लॉन्च किया)
थ्रेड-स्तरीय हॉटस्पॉट और वेट्स
प्रोसेस किन DLLs/हैंडल्स को ओपन किए रखता है

Process Monitor (Procmon) किन समस्याओं को हल करने में सबसे अच्छा है?

Process Monitor तब उपयोगी है जब आपको फ़ाइल, रजिस्ट्री और प्रोसेस/थ्रेड ऑपरेशनों का अक्टिविटी ट्रेल चाहिए।

व्यावहारिक उदाहरण:

NAME NOT FOUND जैसी निर्भरता असफलताओं को ढूँढना जो ऐप स्टार्ट को तोड़ती हैं
यह साबित करना कि Access Denied पाथ/परमिशन समस्या है, न कि “ऐप डाउन”
अवधि अनुसार डिस्क हैममरिंग और ठीक-ठीक पाथ पहचानना

मैं Procmon शोर से कैसे बचूँ और फिर भी उपयोगी सबूत पाऊँ?

शोर से बचने के लिए फ़िल्टर कड़ा रखें और केवल विफलता विंडो कैप्चर करें।

एक अच्छी शुरुआत:

पहले Process Name या PID से फ़िल्टर करें
जिन पाथ/कीज़ की जरूरत है उनके लिए Include नियम जोड़ें
लक्षण के आसपास 30–120 सेकंड के लिए कैप्चर करें और फिर रोक दें

कोई भी बड़ा कैप्चर जिसकी जांच न हो, किसी छोटे विश्लेषण योग्य ट्रेस से बेहतर है।

Autoruns विश्वसनीयता और बूट/लॉगऑन समस्याओं में कैसे मदद करता है?

Autoruns बताता है “क्या ऑटोमैटिकली शुरू होता है?”—सर्विसेज़, शेड्यूल्ड टास्क, ड्राइवर, शेल एक्सटेंशन्स, आदि।

यह खासकर उपयोगी है:

धीमी बूट/लॉगऑन के लिए
अनियमित पोस्ट-लॉगिन CPU स्पाइक्स के लिए
पृष्ठभूमि में चलने वाली रहस्यमयी प्रक्रियाओं के लिए

पहले उन एंट्रीज़ पर ध्यान दें जो unsigned, हाल में जोड़ी गई, या लोड होने में विफल हो रही हों; एक-एक करके अक्षम करें और नोट रखें।

मुझे कब लॉग/मेट्रिक्स से ETW ट्रेसिंग पर जाना चाहिए?

ETW (Event Tracing for Windows) विंडोज़ का उच्च-वॉल्यूम, संरचित "फ़्लाइट रिकॉर्डर" है।

लॉग और मेट्रिक्स आपको क्या गलत है बता देते हैं, पर क्यों नहीं—ऐसे मामलों में ETW उपयोग करें: I/O विलंबता, शेड्यूलिंग देरी, ड्राइवर व्यवहार, या निर्भरता टाइमआउट जैसी समस्याओं के कारणों के लिए।

कैप्चर छोटे, लक्षित और रिपोर्ट किए गए लक्षण के साथ समय-संबंधित रखें।

Sysmon विश्वसनीयता जांचों में (सिक्योरिटी के अलावा) कैसे सहायक है?

Sysmon उच्च-संदर्भ टेलीमेट्री (पैरेंट/चाइल्ड प्रोसेस, कमांड लाइन, हैश, ड्राइवर लोड) जोड़ता है जो मदद करता है “क्या बदला?” का जवाब देने में।

विश्वसनीयता के लिए यह उपयोगी है:

स्पाइक्स से ठीक पहले नए हेल्पर प्रोसेसेज़ का दिखना
नए हैंग/बगचेक्स के साथ ड्राइवर लोड का समन्वय
पैच साइकिल के बाद अनपेक्षित बाइनरी/पाथ बदलना

मिनिमल कॉन्फ़िग से शुरू करें और इवेंट वॉल्यूम/लागत नियंत्रित करने के लिए include/exclude ट्यून करें।

क्रैश, BSOD और हैंग की जाँच में WinDbg के साथ व्यवहारिक अंतर क्या है?

डंप अक्सर क्रैश और हैंग्स के लिए सबसे मूल्यवान आर्टिफैक्ट होते हैं क्योंकि वे विफलता के पल की निष्पादन स्थिति कैप्चर करते हैं।

ऐप क्रैशेस: यूजर-मोड डंप कैप्चर करें; एक्सेप्शन कोड और स्टैक्स विश्लेषण करें।
BSODs: कर्नेल डंप चाहिए; ड्राइवर और कर्नेल स्थिति पर ध्यान दें।
हैंग्स: जब ऐप फंस गया हो तो डंप लें; थ्रेड स्टैक्स, वेट्स और लॉक कंटेंशन देखें।

WinDbg डंप्स को कहानियों में बदलता है, पर सही symbols अनिवार्य हैं ताकि स्टैक्स और मॉड्यूल सही दिखें।