مارك روسينوفيتش وداخليات ويندوز: المراقبة والموثوقية

Q: ما المشاكل التي يحلها Process Monitor (Procmon) بشكل أفضل؟

استعمل Process Monitor عندما تحتاج إلى مسار النشاط عبر نظام الملفات والسجل والعمليات/الخيوط. أمثلة عملية: - إيجاد فشل تبعية “NAME NOT FOUND” الذي يكسر بدء التطبيق - إثبات أن “تم رفض الوصول” هو مشكلة أذونات/مسار وليس «التطبيق معطل» - تحديد عمليات قصافية دورية على القرص والمسار الدقيق المتأثر

تسجيل الدخول ابدأ الآن

لماذا لا يزال مارك روسينوفيتش مهمًا لعمليات ويندوز

إذا كنت تشغّل ويندوز في بيئة إنتاج—على لابتوبات أو خوادم أو VDI أو آلات افتراضية بالسحابة—فأعمال مارك روسينوفيتش ما زالت تظهر في العمليات اليومية. ليس بسبب شخصية أو حنين، بل لأنه ساعد في تعميم نهج «الأدلة أولًا» لحل المشكلات: انظر إلى ما يفعله نظام التشغيل فعليًا، ثم فسّر الأعراض بدليل.

ثلاث أفكار واضحة

المراقبة (Observability) تعني أن بإمكانك الإجابة عن «ما الذي يحدث الآن؟» باستخدام الإشارات التي ينتجها النظام (أحداث، تتبعات، عدادات). عندما يتباطأ خدمة أو يتعطل تسجيل الدخول، فالمراقبة هي الفرق بين التخمين والمعرفة.

التصحيح (Debugging) هو تحويل مشكلة غامضة («تجمّد») إلى آلية محددة («هذا الخيط محجوز على I/O»، «هذه العملية تستخدم ملف الصفحة بشكل مفرط»، «حقن DLL غيّر السلوك»).

الموثوقية هي القدرة على الاستمرار في العمل تحت الضغط والتعافي بشكل متوقع—حوادث أقل، استعادة أسرع، وتغييرات أكثر أمانًا.

لماذا معرفة الداخليات تسرّع التعامل مع الحوادث

معظم "انقطاعات الغموض" ليست غامضة—إنها سلوكيات ويندوز لم تُحدَّد بعد: تسريبات مقابض، عمليات أطفال خارجة عن السيطرة، برامج تشغيل عالقة، انتهاء مهلة DNS، إدخالات بدء تلقائي تالفة، أو أدوات أمنية تضيف حملًا. فهم أساسي لداخليات ويندوز (عمليات، خيوط، مقابض، خدمات، ذاكرة، I/O) يساعدك على التعرف على الأنماط بسرعة وجمع الأدلة الصحيحة قبل أن يختفي السبب.

ما الذي سيساعدك عليه هذا المقال

سنركز على سير عمل عملي وصديق للتشغيل باستخدام:

أدوات Sysinternals (خاصة Process Explorer وProcess Monitor) لرؤية سريعة ومنخفضة الاحتكاك
تتبّع ETW عندما لا تكفي السجلات وتحتاج تسلسلات زمنية عالية الدقة لما حدث
WinDbg ودرامات التعطل/التجمّد لتحويل الفشل إلى أسباب جذرية قابلة للعمل

الهدف ليس تحويلك إلى مهندس نواة، بل جعل حوادث ويندوز أقصر، أكثر هدوءًا، وأسهل في الشرح—حتى تصبح التصحيحات أكثر أمانًا وقابلة للتكرار.

الداخليات كقوة خارقة لحل المشكلات

"داخليات" ويندوز هي ببساطة مجموعة الآليات التي يستخدمها ويندوز لإنجاز العمل الحقيقي: جدولة الخيوط، إدارة الذاكرة، بدء الخدمات، تحميل برامج التشغيل، التعامل مع نشاط الملفات والسجل، وفرض حدود الأمان. الوعد العملي واضح: عندما تفهم ما يفعله نظام التشغيل، تتوقف عن التخمين وتبدأ في الشرح.

هذا مهم لأن معظم الأعراض التشغيلية غير مباشرة. "الآلة بطيئة" قد تعني ت contention على CPU، خيط ساخن واحد، عاصفة مقاطعات لبرنامج تشغيل، ضغط على الصفحة، أو مرشح مضاد فيروسات يعرقل I/O للملفات. "يتجمد" قد يكون قفلًا ميتًا، نداء شبكة عالق، مهلة تخزين، أو خدمة تنتظر تبعية. معرفة الداخليات تحول الشكاوى الغامضة إلى فرضيات قابلة للاختبار.

وضع المستخدم مقابل وضع النواة (قدر ما يلزم)

بشكل عام، وضع المستخدم هو حيث تعمل معظم التطبيقات والخدمات. عندما تتعطل، عادةً ما تنهار العملية فقط. وضع النواة هو حيث يعمل ويندوز نفسه وبرامج التشغيل؛ قد تؤدي المشكلات هناك إلى تجميد النظام بأكمله، أو حدوث bugcheck (شاشة زرقاء)، أو تدهور هادئ في الموثوقية.

لا تحتاج نظرية عميقة—فقط ما يكفي لاختيار الأدلة. عملية تستهلك CPU عادةً تكون في وضع المستخدم؛ إعادة تهيئة التخزين المتكررة أو مشكلات برنامج تشغيل الشبكة عادةً تشير إلى وضع النواة.

منهجية الأدلة أولاً

عقلية روسينوفيتش—المنعكسة في أدوات مثل Sysinternals وفي كتاب Windows Internals—هي "الأدلة أولًا." قبل تغيير إعدادات، أو إعادة التشغيل عشوائيًا، أو إعادة التثبيت، التقط ما يفعله النظام: أي عملية، أي خيط، أي مقبض، أي مفتاح سجل، أي اتصال شبكي، أي برنامج تشغيل، وأي حدث.

ما أن تستطيع الإجابة عن "ما الذي يفعله ويندوز الآن، ولماذا"، تصبح التصحيحات أصغر، أكثر أمانًا، وأسهل للتبرير—وتتوقف أعمال الموثوقية عن كونها إطفاء حرائق تفاعليًا.

نهج Sysinternals: اجعل ما هو مخفي مرئيًا

يمكن فهم Sysinternals كـ"طقم أدوات للرؤية" على ويندوز: أدوات صغيرة ومحمولة تكشف ما يفعله النظام فعلًا—عملية تلو الأخرى، مقبضًا تلو الآخر، مفتاح سجل تلو الآخر. بدلًا من معاملة ويندوز كصندوق أسود، تتيح لك أدوات Sysinternals ملاحظة السلوك وراء أعراض مثل "التطبيق بطيء" أو "CPU عالٍ" أو "الخادم يقطع الاتصالات."

ثق وتحقق: لا تخمن، قِس

كثير من الألم التشغيلي ينبع من تخمينات تبدو معقولة: لابد أنها DNS، ربما مضاد الفيروس، تحديث ويندوز معطل مجددًا. عقلية Sysinternals بسيطة: ثق بحدسك بما يكفي لتكوين فرضية، ثم تحقق منها بالأدلة.

عندما ترى أي عملية تستهلك CPU، أي خيط ينتظر، أي مسار ملف يتعرض للضرب، أو أي قيمة سجل يعاد كتابتها، تتوقف عن مناقشة الآراء وتبدأ في تضييق الأسباب. هذا التحول—من السرد إلى القياس—هو ما يجعل معرفة الداخليات عملية، لا أكاديمية.

لماذا تتألق Sysinternals أثناء الحوادث الحية

تُبنى هذه الأدوات للحظة "كل شيء يحترق":

قليل الاحتكاك: العديد منها يعمل دون تثبيت ويُشغّل بسرعة.
ردود سريعة: يمكنك التحقّق من فرضية أو رفضها في دقائق.
رؤية مركّزة: كل أداة تجيب فئة محددة من الأسئلة (عمليات، عناصر بدء التشغيل، نقاط نهاية الشبكة، استخدام الذاكرة).

هذا مهم عندما لا تستطيع دفع دورة إعداد طويلة، أو نشر عميل ثقيل، أو إعادة تشغيل لمجرد جمع بيانات أفضل.

مبادئ استخدام آمن

Sysinternals قوية، والقوة تحتاج ضوابط:

شغّل عند الحاجة: ابدأ بالمراقبة للقراءة فقط؛ ارتقِ بالصلاحيات فقط عند الضرورة.
وثّق ما تفعل: سجّل الطوابع الزمنية، الفلاتر، وأي إجراءات تمت لتكون النتائج قابلة للتكرار.
قِلّل الاضطراب: فضّل جمع الأدلة (لقطات شاشة، سجلات، تتبعات مصدرة) على "تجربة تصحيحات" أثناء الحادث.
غيّر بحذر: إذا اضطررت لتعديل إعداد أو قتل عملية، سجّل السبب والنتيجة المتوقعة، ثم تحقّق من النتائج.

باستخدام هذه القواعد، تصبح أدوات Sysinternals منهجًا منضبطًا: راقب ما هو مخفي، وازن الحقيقة، وأجرِ تغييرات مبررة لا متمنّيات.

Process Explorer & Process Monitor: زوج التصحيح اليومي

إذا احتفظت بأدوات Sysinternals اثنتين فقط في مجموعة أدوات المسؤول، فلتكن Process Explorer وProcess Monitor. معًا تجيبان عن أكثر الأسئلة شيوعًا "ما الذي يفعله ويندوز الآن؟" دون الحاجة لوكيل أو إعادة تشغيل أو إعداد ثقيل.

Process Explorer: إجابات سريعة في ثوانٍ

Process Explorer هو مدير المهام بعين إشعاعية. عندما تكون الآلة بطيئة أو غير مستقرة، يساعدك على تحديد أية عملية مسؤولة وما الذي ترتبط به.

مفيد خصوصًا لـ:

CPU وخيوط: أي عملية تحرق CPU، وهل هي خيط ساخن واحد أم عدة؟
علاقات الأب/الابن: ما الذي أطلق العملية (خدمة، مهمة مجدولة، محدث، أو إجراء مستخدم)؟
DLLs والمقابض: ما الوحدات المحمّلة، وما الملفات/مفاتيح السجل/الأنابيب التي تحملها العملية مفتوحة؟

النقطة الأخيرة قوة موثوقية: "لماذا لا أستطيع حذف هذا الملف؟" غالبًا تصبح "هذه الخدمة تحمل مقبضًا مفتوحًا إليه."

Process Monitor: سجل النشاط الكامل

Process Monitor (Procmon) يلتقط أحداثًا مفصلة عبر نظام الملفات، السجل، ونشاط العملية/الخيط. هو الأداة للأسئلة مثل: "ما الذي تغير عندما تجمّد التطبيق؟" أو "ما الذي يضرب القرص كل 10 دقائق؟"

قبل أن تضغط Capture، ضع السؤال في إطار:

ما هو العَرَض (تسجيل دخول بطيء، قرص مرتفع، تعطل، وصول مرفوض)؟
متى يحدث (عند الإقلاع، في 09:00، بعد السبات)؟
أي جهاز وسياق المستخدم (خادم واحد فقط، بروفايل مستخدم واحد، فقط على VPN)؟

التقط فقط ما تحتاجه (الضجيج عدو)

Procmon قد يطغى عليك ما لم فلترته بعنف. ابدأ بـ:

فلترة باسم Process Name أو PID محدد.
استخدم قواعد Include للمسار المهتم به واستبعد الباقي.
التقط لفترة قصيرة حول العرض، ثم أوقف.

ماذا تحصل منه

نتائج شائعة عملية: تحديد خدمة تتصرف بشكل سيئ وتستعلم عن مفتاح سجل مفقود تكرارًا، اكتشاف ماسح لحظي يلمس آلاف الملفات، أو العثور على محاولة تحميل DLL مفقود ("NAME NOT FOUND") يشرح لماذا لا يبدأ التطبيق على جهاز واحد بينما يعمل على آخر.

Autoruns, TCPView, RAMMap: دلائل سريعة بدون إعداد ثقيل

أتمت أول 15 دقيقة

حوّل قائمة المراجعة "راقب‑التقط‑اشرح" إلى سير عمل موجه للمستجيب.

ابنِ عبر الدردشة

عندما "يشعر" جهاز ويندوز بأنه غير سليم، غالبًا لا تحتاج إلى كومة مراقبة كاملة للحصول على تقدم. مجموعة صغيرة من أدوات Sysinternals تجيب بسرعة على ثلاثة أسئلة عملية: ما الذي يبدأ تلقائيًا؟ من يتحدث على الشبكة؟ أين ذهبت الذاكرة؟

Autoruns: الموثوقية تبدأ عند الإقلاع

Autoruns أسرع طريقة لفهم كل شيء يمكن أن يُشغّل دون تشغيل صريح من المستخدم: خدمات، مهام مجدولة، ملحقات شل، برامج تشغيل، والمزيد.

لماذا يهم للموثوقية: عناصر بدء التشغيل مصدر شائع للإقلاعات البطيئة، التعليقات المتقطعة، وقفزات CPU التي تظهر فقط بعد تسجيل الدخول. محدث واحد غير مستقر، أو برنامج تشغيل مساعد قديم، أو ملحق شل تالف يمكن أن يضر النظام بأكمله.

نصيحة عملية: ركز على الإدخالات غير الموقعة، المضافة حديثًا، أو الفاشلة في التحميل. إذا أدى تعطيل عنصر إلى استقرار الجهاز، فقد حولت عرضًا غامضًا إلى مكوّن محدد يمكن تحديثه أو إزالته أو استبداله.

TCPView: تأكد من من يستمع ومن يبادل البيانات

TCPView يعطيك خريطة فورية للاتصالات والمستمعين النشطين، مرتبطة بأسماء العمليات وPIDs. مثالي لفحوصات الصحة السريعة:

منافذ LISTENING غير المتوقعة
عملية واحدة تملك عددًا غير معتاد من الاتصالات
تقلب اتصال سريع يرتبط بقضايا CPU أو الكمون

حتى في التحقيقات غير الأمنية، هذا يكشف عوامل مثل عملاء خارجة عن السيطرة، بروكسيات خاطئة الإعداد، أو "عواصف إعادة المحاولة" حيث التطبيق يبدو بطيئًا لكن السبب في الشبكة.

RAMMap: ضغط الذاكرة بدون تخمينات

RAMMap يساعدك على تفسير ضغط الذاكرة عبر إظهار أين تُخصص الذاكرة فعليًا.

تمييز قاعدة مفيد:

Working sets: الذاكرة الفيزيائية المستخدمة فعليًا بواسطة العمليات
Cache / standby: ويندوز يحتفظ بالبيانات لتسريع الأداء (ليست بالضرورة "سيئة")

إذا أبلغ المستخدمون عن "ذاكرة منخفضة" بينما يبدو Task Manager مربكًا، RAMMap يمكنه التأكيد ما إذا كان لديك نمو حقيقي في العمليات، أو ذاكرة مخبأ كثيفة، أو برنامج تشغيل يستهلك الذاكرة غير القابلة للترحيل.

اختياري: Handle وVMMap عندما يشتبه في تسريبات

إذا تباطأ التطبيق خلال أيام، Handle قد يكشف أعداد مقابض متزايدة بلا حدود (نمط تسريب كلاسيكي). VMMap مفيد عندما يكون استخدام الذاكرة غريبًا—تجزؤ، مناطق محجوزة كبيرة، أو تخصيصات لا تظهر كـ "private bytes" بسيطة.

قائمة مراجعة قابلة للتكرار لأول 15 دقيقة

Autoruns: افحص إدخالات جديدة/غير موقعة؛ عطّل عنصرًا مريبًا واحدًا في كل مرة.
TCPView: تحقّق من المستمعين المتوقعين؛ حدد مالكي الاتصالات الأعلى.
RAMMap: راجع ما إذا كان الضغط ناتجًا عن نمو working set أم كاش/standby.
إذا كانت الأعراض زمنية: التقط صورة «قبل/بعد» سريعة (العدّادات، المنافذ، إجماليات الذاكرة).
إذا كان النمو واضحًا: استخدم Handle/VMMap لتأكيد نمط تسريب.
اكتب المكوّن المشتبه والدليل حتى يكون التصحيح مستهدفًا لا تخمينًا.

من السجلات إلى ETW: بناء مراقبة حقيقية على ويندوز

تشغيل ويندوز غالبًا يبدأ بما يسهل التقاطه: Event Viewer وبعض لقطات Task Manager. هذا جيد لبقايا الأدلة، لكن استجابة الحوادث الموثوقة تحتاج ثلاثة أنواع مكملة من الإشارات: سجلات (ما حدث)، مقاييس (مدى سوءه)، وتتبعات (ما كان النظام يفعله لحظة بلحظة).

سجلات الأحداث: دلائل رائعة لكن بتغطية غير كاملة

سجلات ويندوز ممتازة للهوية، دورة حياة الخدمات، تغييرات السياسات، والأخطاء على مستوى التطبيق. لكنها متفاوتة: بعض المكونات تسجل بغزارة، وبعضها نادر، ونص الرسالة قد يكون غامضًا ("التطبيق توقف عن الاستجابة")، فاعتبرها مرساة زمنية، لا القصة كاملة.

الانتصارات الشائعة:

أحداث بدء/إيقاف الخدمة والتعطل
أحداث المصادقة والتفويض
استثناءات التطبيقات (عندما تسجل التطبيقات ذلك)

المقاييس أثناء الانقطاعات: القليل الذي عادة ما يهم

عدادات الأداء (وما شابه) تجيب "هل الآلة صحية؟" أثناء الانقطاع، ابدأ بـ:

CPU: ارتفاع مستمر في CPU، وقت جاهزية (لـ VMs)، CPU حسب العملية
القرص: طول الطابور، وقت استجابة القراءة/الكتابة، IOPS، المساحة الحرة
الذاكرة: committed bytes، commit limit، hard faults/sec، استخدام المجمع
الشبكة: إعادة الإرسال، الأخطاء، بايت/ثانية، عدد الاتصالات

المقاييس لن تخبرك لماذا حدث ارتفاع، لكنها ستخبرك متى بدأ وما إذا كان يتحسّن.

ETW ببساطة: تتبع منظم وعالي الحجم

Event Tracing for Windows (ETW) هو مسجل الرحلة المدمج. بدلًا من رسائل نصية ارتجالية، يصدر ETW أحداثًا مُهيكلة من النواة، وبرامج التشغيل، والخدمات بمعدلات عالية—نشاط العمليات/الخيوط، I/O للملفات، وصول للسجل، TCP/IP، الجدولة، والمزيد. عند هذا المستوى تُصبح كثير من "التوقفات الغامضة" قابلة للتفسير.

اختيار الإشارات (بدون جمع كل شيء)

قاعدة عملية:

استخدم السجلات للأحداث المتقطعة (تعطل، إعادة تشغيل، فشل مصادقة).
استخدم المقاييس لاكتشاف وقياس التأثير ( الكمون، التشبع).
استخدم ETW عندما تحتاج سببية (ما الذي كان يعيق، أي I/O، أي مسار استدعاء).

تجنّب "تشغيل كل شيء إلى الأبد." احتفظ بخط قواعد أصغر دائم التشغيل (السجلات الأساسية + المقاييس الأساسية) واستخدم ETW قصير المدى أثناء الحوادث.

محرك القوة: مطابقة الزمن

أسرع التشخيصات تأتي من محاذاة ثلاث ساعات: تقارير المستخدم ("تجمد عند 10:42"), انعطافات المقاييس (قفزة CPU/القرص), وأحداث السجل/ETW عند نفس الطابع الزمني. عندما تشترك بياناتك في قاعدة زمنية متسقة، تتوقف التخمينات وتبدأ القصص التي يمكنك التحقق منها.

Sysmon كتلقيTelemetry: إشارات أمنية تفيد الموثوقية أيضًا

سجلات ويندوز الافتراضية مفيدة لكنها غالبًا تفترض تفاصيل "لماذا الآن؟" التي يحتاجها المشغلون عند تغير شيء مفاجئ. Sysmon (System Monitor) يملأ هذه الفجوة بتسجيل نشاط العملية والنظام بدقة أعلى—خاصة حول الإطلاقات والاستمرارية وسلوك برامج التشغيل.

ما الذي يضيفه Sysmon (فوق السجلات الافتراضية)

قوة Sysmon في السياق. بدلًا من "خدمة بدأت فقط"، يمكنك غالبًا رؤية أي عملية أطلقتها مع سطر الأوامر الكامل، عملية الوالد، الهاشات، حساب المستخدم، والطوابع الزمنية النظيفة للمطابقة.

هذا مفيد للموثوقية لأن كثيرًا من الحوادث تبدأ كتغييرات صغيرة: مهمة مجدولة جديدة، محدث صامت، سكربت طائش، أو برنامج تشغيل يتصرف بشكل سيئ.

تكوين بسيط: ابدأ ضيقًا بقصد

تكوين Sysmon الذي "يسجل كل شيء" نادرًا ما يكون خيارًا جيدًا كبداية. ابدأ بمجموعة حد أدنى تركز على الموثوقية ووسّع فقط عندما تكون لديك أسئلة واضحة.

مرشحات مبكرة جيدة:

إنشاء العمليات (إطلاقات غير متوقعة، سطور أوامر مشبوهة)
تحميل برامج التشغيل (مكونات نواة جديدة أو متغيرة)
تحميل الصور/DLL (استخدمها انتقائيًا لمشاكل التبعيات)
نشاط الخدمة والمهام المجدولة (الاستمرارية والتغييرات الخلفية)
اتصالات الشبكة / DNS (فَعِّلها فقط للتحقيقات المحددة للتحكم في الحجم)

نقّح بقواعد include المستهدفة (مسارات حرجة، حسابات خدمة معروفة، خوادم رئيسية) وقواعد exclude مُختارة (محدثون صاخبون، عملاء إدارة موثوق بهم) حتى تظل الإشارة قابلة للقراءة.

حالات استخدام موثوقية عملية

Sysmon غالبًا يساعد في تأكيد أو استبعاد سيناريوهات "تغيير غامض" شائعة:

عملية مساعدة جديدة تظهر تحت حساب خدمة قبل قفزات CPU
ملف خدمة يتغير أو نوع بدء تشغيل يتبدل بعد دورة تصحيح
تحديث برنامج تشغيل يتزامن مع تعليقات جديدة أو bugchecks

تحذيرات تشغيلية

اختبر التأثير على آلات ممثلة أولًا. Sysmon قد يزيد I/O للقرص وحجم الأحداث، وجمعها مركزيًا قد يصبح مكلفًا بسرعة.

تعامل أيضًا مع حقول مثل سطور الأوامر وأسماء المستخدمين والمسارات كبيانات حسّاسة. ضع ضوابط وصول وحدود احتفاظ وتصفية قبل الانتشار الشامل.

تكامل، لا استبدال، لبقية المراقبة

Sysmon أفضل كفتات قيمة عالية. استخدمه مع ETW لأسئلة الأداء العميقة، والمقاييس للكشف عن الاتجاهات، وملاحظات الحوادث المنظمة لربط ما تغير بما تعطل وكيف أصلحت ذلك.

WinDbg ودرامات: تحويل التعطلات والتجمّد إلى إجابات

حوّل سيناريوهات التشغيل إلى تطبيق

أنشئ تطبيق سير عمل للحوادث على Windows داخل المحادثة وشاركه مع فريقك.

ابدأ مجانًا

عندما "يتعطل شيء"، الأثر الأكثر قيمة غالبًا هو ملف دراما: لقطة للذاكرة مع حالة تنفيذ كافية لإعادة بناء ما كان يفعله العملية (أو نظام التشغيل) لحظة الفشل. على عكس السجلات، الدرامات لا تتطلب منك توقع الرسالة الصحيحة مسبقًا—إنها تلتقط الدليل بعد الحدث.

ما هي درامات التعطل (ولماذا تريدها)

درامات تعطل التطبيق (وضع المستخدم) تسجل عملية واحدة. مثالية عندما تموت خدمة واحدة لكن الجهاز يبقى قيد التشغيل.
درامات النواة (على مستوى النظام) تستخدم لحالات bugcheck (BSOD) وتلتقط حالة النواة وخيوط برامج التشغيل.

الدرامات قد تشير إلى وحدة محددة، مسار استدعاء، ونوع الفشل (انتهاك وصول، تلف heap، قفل ميت، عطل برنامج تشغيل)، وهو ما يصعب استنتاجه من الأعراض فقط.

أساسيات WinDbg: الرموز، السلالم، و"ما فشل"

WinDbg يحول الدرامة إلى قصة. الأساسيات:

الرموز (symbols) تربط العناوين الخام بأسماء الدوال ومعلومات الأسطر. بدون رموز صحيحة، التحليل يصبح تخمينًا.
سلاسل الستاك تظهر تسلسل الاستدعاء الذي أدى للتعطل أو حالة الخيط الحالية في حالة "التعليق".
الهدف هو تحديد المكوّن الفاشل: كودك، DLL تابع، برنامج تشغيل طرف ثالث، شيم مضاد فيروسات، أو مكدس الرسوم.

سير العمل النموذجي: افتح الدرامة → حمّل الرموز → شغّل تحليل آلي → تحقّق بالاطلاع على السلالم العليا والوحدات المعنية.

تعطل vs BSOD vs تعليق: لا تخلط الفئات

Bugcheck (BSOD): يتوقف النظام بأكمله. توقّع درامات نواة وعمل على برامج التشغيل والسبب الجذري.
تعطل التطبيق: تنهي عملية واحدة. توقّع درامات وضع المستخدم ورمز استثناء.
تعليق: لا شيء يتعطل، لكن العمل يتوقف. تحتاج دليلًا على ما الذي كانت الخيوط تنتظره.

التعليقات تحتاج دليلًا: سلاسل، انتظار، وأقفال

"جمّد" عرض، ليس تشخيصًا. لالتقاط تعليق، التقط درامة أثناء عدم الاستجابة وافحص:

سلاسل الخيوط لمعرفة ما يفعله كل خيط.
أسباب الانتظار (I/O، RPC، mutex/critical section، شبكة).
أنماط الأقفال/الاحتقان—غالبًا خيط واجهة المستخدم المعلقة ينتظر خيط عامل محجوز في مكان آخر.

توقعات واقعية: التشخيص الذاتي مقابل التصعيد

غالبًا ما يمكنك تشخيص مشكلات واضحة بنفسك (تعطل متكرر في وحدة واحدة، أقفال ميتة واضحة، ترابط قوي إلى DLL/برنامج تشغيل محدد). اصعد عندما تشير الدرامات إلى برامج تشغيل طرف ثالث/أدوات أمنية، مكونات النواة، أو عندما تكون الرموز/الوصول للمصدر مفقودين—حينها قد يحتاج الأمر لبائع أو Microsoft لتفسير السلسلة كاملة.

أنماط فشل شائعة وكيف تشرحها الداخليات

كثير من "مشكلات ويندوز الغامضة" تكرر نفس الأنماط. الفرق بين التخمين والإصلاح هو فهم ما يفعله النظام—ونموذج ذهني Internals/Sysinternals يساعدك على رؤيته.

تسريبات الذاكرة: working set مقابل commit

عندما يقول الناس "التطبيق يتسرب ذاكرة" غالبًا يقصدون أحد شيئين.

Working set هي الذاكرة الفيزيائية الحالية المدعومة للعملية. يمكن أن ترتفع وتنخفض عندما يقتطعها ويندوز تحت الضغط.

Commit هي كمية الذاكرة الافتراضية التي وعد النظام بتوفيرها إما برام أو ملف الصفحة. إذا استمر commit في الصعود، لديك خطر تسريب حقيقي: في النهاية تصل لحد الالتزام وتفشل عمليات التخصيص أو يصبح المضيف غير مستقر.

عرض شائع: يعرض Task Manager "RAM متاحة"، لكن الجهاز يتباطأ—لأن الالتزام، وليس الذاكرة الحرة، هو القيد.

تسريبات المقابض: فشل بطيء يبدو عشوائيًا

المقبض (handle) هو مرجع لكائن نظام (ملف، مفتاح سجل، حدث، قسم، إلخ). إذا تسربت المقابض في خدمة، قد تعمل لساعات أو أيام، ثم تبدأ بالفشل بأخطاء غريبة (لا تستطيع فتح ملفات، لا تستطيع إنشاء خيوط، لا تستطيع قبول اتصالات) مع تزايد عدد المقابض لكل عملية.

في Process Explorer، راقب اتجاهات عدد المقابض مع الزمن. ارتفاع مستمر دليل قوي أن الخدمة "تنسى أن تغلق" شيئًا.

مشكلات القرص ونظام الملفات: الكمون، الإعادات، مرشحات

مشكلات التخزين لا تظهر دائمًا كمعدل نقل مرتفع؛ غالبًا تظهر كـ كمون مرتفع وإعادات. في Process Monitor، ابحث عن:

عمليات CreateFile/ReadFile المتكررة
أحداث I/O طويلة المدة
الكثير من ضوضاء NAME NOT FOUND / PATH NOT FOUND (مسارات خاطئة)

وانتبه إلى مرشحات برامج التشغيل (AV، نسخ احتياطي، DLP). يمكن أن تدخل في مسار I/O وتضيف تأخيرًا أو فشلاً دون أي خطأ من التطبيق.

قفزات CPU: عملية ساخنة واحدة مقابل احتقان

عملية ساخنة واحدة سهلة: تنفيذ واحد يحرق CPU.

الاحتقان على مستوى النظام أكثر تعقيدًا: CPU عالٍ لأن العديد من الخيوط قابلة للتشغيل وتتصارع على أقفال أو قرص أو ذاكرة. التفكير الداخلي يدفعك للسؤال: "هل المعالج يقوم بعمل مفيد، أم يدور في حلقة أثناء انتظار شيء آخر؟"

مشاكل الشبكة: من يملك الاتصال؟

عند حدوث مهلات، مَجِّد عملية → اتصال باستخدام TCPView أو Process Explorer. إذا كانت العملية الخاطئة تملك المقبس، فقد وجدت المذنب. إذا كانت العملية الصحيحة تملكه، ابحث عن أنماط: محاولات SYN متكررة، اتصالات قديمة عالقة خامدة، أو انفجار من محاولات الصادرة القصيرة الذي يشير إلى DNS/جدار ناري/بروكسي خاطئ بدلًا من "التطبيق معطل".

سير عمل عملي: راقب → التقط → اشرح → أصلح

شارك ما تبنيه

أنشئ محتوى عن عملك واكسب أرصدة على المنصة لحسابك.

اكسب أرصدة

تسهل أعمال الموثوقية عندما يتبع كل حادث نفس المسار. الهدف ليس "تشغيل المزيد من الأدوات"—إنما اتخاذ قرارات أفضل بأدلة ثابتة.

1) أعد إنتاج المشكلة (أو حدِّد المشغّل)

اكتب ما يبدو "سيئًا" في جملة واحدة: "التطبيق يتجمد 30–60 ثانية عند حفظ ملف كبير" أو "CPU يقفز إلى 100% كل 10 دقائق." إذا كان بالإمكان إعادة الإنتاج، افعل ذلك عند الطلب؛ إذا لم يكن، حدّد المشغّل (نافذة زمنية، حمل عمل، إجراء مستخدم).

2) راقب (خفيف أولًا)

قبل جمع بيانات كثيفة، أكد العرض والنطاق:

هل جهاز واحد أم عدة؟
عملية واحدة أم الجهاز كله؟
مشكلة أداء، تعطل، أم تعليق؟

هنا تساعد الفحوصات السريعة (Task Manager، Process Explorer، عدادات أساسية) في اختيار ما ستلتقطه بعد ذلك.

3) التقط (ابنِ ملف حالة جيد)

التقط الأدلة كما لو كنت ستحيلها لزميل لم يكن حاضرًا. ملف الحالة الجيد عادة يتضمن:

الطوابع الزمنية (بداية/نهاية، المنطقة الزمنية، التكرار)
الإصدارات (بناء ويندوز، إصدار التطبيق، إصدارات البرامج التشغيلية)
التكوين (علمات ميزات، سياسات، متغيرات بيئة، أدوات أمان)
التتبعات (فلاتر Procmon، اسم جلسة ETW، المدة)
الدرامات (تعليقات/تعطلات: كاملة مقابل صغيرة، أي عملية، كيف أُحدثت)

اجعل اللقطات قصيرة ومحددة. تتبّع لمدة 60 ثانية يغطي نافذة الفشل يفوق تتبُّعًا لست ساعات لا يستطيع أحد فتحه.

4) اشرح (حوّل البيانات إلى قصة)

حوّل ما جمعت إلى سرد بسيط:

ما الذي تغير؟ (بناء جديد، سياسة، برنامج تشغيل)
ماذا يفعل النظام بدلًا من ذلك؟ (إعادات، احتقان، I/O محجوز، مهلات)
ما السبب المرجح؟ (فرضيتان أو ثلاث، مرتّبة)

إذا لم تستطع شرحه ببساطة، ربما تحتاج لالتقاط أنظف أو فرضية أضيق.

5) أصلح، أكد، وخفّض MTTR في المرة القادمة

طبق أصغر تصحيح آمن، ثم أكد باستخدام نفس خطوات إعادة الإنتاج والتقاط "قبل مقابل بعد".

لتقليل MTTR، قيِّم الإجراءات وجمّع المهام الروتينية:

سكربت واحد لبدء تتبُّع، وآخر لإيقافه وضغط النتائج
هيكل مجلدات وتسمية ثابت
قائمة تحقق لما يجمع لكل عرض (تعطل مقابل تعليق مقابل بطء)

التعلم بعد الحادث: أضف الإشارة المفقودة

بعد الحل، واسأل: "أي إشارة كانت ستجعل هذا واضحًا مبكرًا؟" أضِف تلك الإشارة—حدث Sysmon، مقدم ETW، عداد أداء، أو فحص صحة خفيف—حتى تكون المرة القادمة أقصر وأكثر هدوءًا.

جعلها عادة: تصحيحات أكثر أمانًا وموثوقية طويلة الأمد

هدف عمل الداخليات ليس "الفوز" بجلسة تتبع—بل تحويل ما رأيته إلى تغييرات تمنع عودة الحادث.

حوّل النتائج إلى إجراءات ملموسة

أدوات الداخليات عادة تضيق المشكلة إلى مجموعة صغيرة من الرافعات. احتفظ بالترجمة صريحة:

تغيير تكوين: حساب خدمة، قيمة سجل، حجم تجمع، تكرار مهمة مجدولة.
تصحيح: تحديث تراكمي لنظام التشغيل، تحديث .NET، أو Hotfix بائع يتطابق مع الستاك الذي رايته.
تحديث/تراجع برنامج تشغيل: إذا أظهر Procmon/ETW توقفات حول برامج تشغيل/شبكة/فلتر، اعتبر إصدارات برامج التشغيل كتبعية من الدرجة الأولى.
تراجع: إذا كان التصحيح محفوفًا بالمخاطر، خطط للتراجع السريع (حزمة معروفة جيدة، GPO سابق، رزمة برنامج تشغيل أقدم).

اكتب جملة "بسبب": «غيّرنا X لأننا رصدنا Y في Process Monitor / ETW / الدرامات.» هذه الجملة تمنع تآكل المعرفة القبلية.

ضوابط: نوافذ تغيير، تحقق، وتراجع

اجعل عملية التغيير تتناسب مع نصف القنبلة:

استخدم نافذة تغيير مع حمل مخفّض إذا أمكن.
حدد خطوات التحقق (أي عدّادات، معرفات أحداث، أو تدفقات مستخدم يجب أن تتحسن).
حضِّر خطة تراجع واضحة مع مسؤول ووقت محدد ("إذا لم تنخفض الأخطاء خلال 15 دقيقة، ارجع").

أنماط موثوقية قابلة للتطبيق مرارًا

حتى إن كان السبب الجذري خاصًا، غالبًا ما تأتي الديمومة من أنماط قابلة لإعادة الاستخدام:

مهلات لمنع تجميد الخيوط وسلاسل التبعيات العالقة.
حدود معدل / تراجع لوقف عواصف الإعادة.
خيارات استرداد الخدمة (إجراءات إعادة التشغيل، فترة إعادة تعيين الفشل) للأخطاء العابرة المتوقعة.
فحوصات صحة تكتشف التعليقات، لا التعطلات فقط.

نظافة البيانات لعمليات الالتقاط والقياس

احتفظ بما تحتاجه، واحمِ ما لا ينبغي جمعه.

قَصّر فلاتر Procmon على العمليات المشتبه بها، ازل مسارات/أسماء مستخدمين عند المشاركة، عيّن احتفاظًا لتتبعات ETW/Sysmon، وتجنّب الالتقاط الثقيل للشبكة إلا للضرورة.

تشغيل قوائم التشغيل (حيث تساعد Koder.ai)

عندما تمتلك سير عمل قابل للتكرار، الخطوة التالية هي تغليفه ليتمكن الآخرون من تشغيله باستمرار. هنا قد تكون منصة مثل Koder.ai مفيدة: تحوّل قائمة فحص الحادث إلى تطبيق داخلي صغير (واجهة React، خلفية Go مع PostgreSQL) يوجّه المستجيبين خلال "راقب → التقط → اشرح"، يخزن الطوابع الزمنية والوثائق، ويطبق تسمية ومخططات منظمة.

بما أن Koder.ai يبني تطبيقات عبر دردشة باستخدام بنية عوامل، يمكن للفرق التكرار بسرعة—إضافة زر "ابدأ جلسة ETW"، مكتبة قوالب فلاتر Procmon، لقطات/تراجع للتغييرات، أو مولد runbook قابل للتصدير—دون إعادة بناء كاملة في خط أنابيب تطوير تقليدي. إذا تشارك ممارسات داخلية للموثوقية، Koder.ai يدعم تصدير الشيفرة ومقاييس مستويات متعددة (مجاني إلى مؤسسي)، لذا يمكنك البدء صغيرًا وتوسيع الحوكمة لاحقًا.

خطة ممارسة أسبوعية صغيرة

مرة في الأسبوع، اختر أداة واحدة وتمرين 15 دقيقة: تتبّع بدء تطبيق بطيء مع Procmon، فحص شجرة خدمة في Process Explorer، مراجعة حجم أحداث Sysmon، أو أخذ دراما تعطل واحدة وتحديد الوحدة الفاشلة. التكرار الصغير يبني ذاكرة عضلية تجعل الحوادث الحقيقية أسرع—and أكثر أمانًا.

الأسئلة الشائعة

لماذا لا يزال مارك روسينوفيتش مهمًا لعمليات ويندوز اليوم؟

مارك روسينوفيتش شاع منهجية «الأدلة أولاً» لحل مشكلات ويندوز وقدم (وأثر في) أدوات تجعل النظام قابلاً للرصد عمليًا.

حتى لو لم تقرأ كتاب Windows Internals، فربما تعتمد يوميًا على طرق عمل تشكلت بفضل Sysinternals وETW وتحليل الدرامات لتقصير مدة الحوادث وجعل التصحيحات قابلة للتكرار.

ماذا يعني مصطلح “المراقبة” في سياق تشغيل ويندوز؟

المراقبة هي قدرتك على الإجابة عن «ما الذي يحدث الآن؟» من خلال إشارات النظام.

على ويندوز، يعني ذلك عادة الجمع بين:

سجلات الأحداث لأحداث النظام/التطبيق المتقطعة
المقاييس (عدادات الأداء) لقياس التأثير والإشباع
التتبعات (ETW) للحصول على علاقة سببية ذات دقة عالية وتسلسل زمني

كيف تخفّض معرفة داخليات ويندوز وقت الاستجابة للحوادث (MTTR)؟

معرفة داخليات النظام تساعدك على تحويل أعراض غامضة إلى فرضيات قابلة للاختبار.

مثال: «الخادم بطيء» يمكن تضييقها إلى مجموعة محدودة من الآليات: ت contention للمعالج مقابل ضغط الترحيل إلى القرص مقابل تأخرات I/O مقابل تأثير مرشحات/أدوات الأمان. هذا يسرع عملية التثليث ويساعدك على التقاط الأدلة الصحيحة قبل اختفاء الموقف.

متى أستخدم Process Explorer بدلًا من Task Manager؟

استخدم Process Explorer عندما تريد معرفة من المسؤول.

هو مفيد للحصول على إجابات سريعة مثل:

أي عملية تستهلك وحدة المعالجة/الذاكرة
علاقات الأب/الابن (من الذي أطلقها)
نقاط الاحتكاك على مستوى الخيط والانتظار
أي وحدات DLL/مقابض الذين يملكهم العملية

ما المشاكل التي يحلها Process Monitor (Procmon) بشكل أفضل؟

استعمل Process Monitor عندما تحتاج إلى مسار النشاط عبر نظام الملفات والسجل والعمليات/الخيوط.

أمثلة عملية:

إيجاد فشل تبعية “NAME NOT FOUND” الذي يكسر بدء التطبيق
إثبات أن “تم رفض الوصول” هو مشكلة أذونات/مسار وليس «التطبيق معطل»
تحديد عمليات قصافية دورية على القرص والمسار الدقيق المتأثر

كيف أتجنب ضجيج Procmon وما زلت أحصل على دليل مفيد؟

قَلِّل الضجيج واحتفظ بالتقاط نافذة الفشل فقط.

سير عمل جيد كبداية:

فلتر حسب اسم العملية أو PID أولًا
أضف قواعد Include للمسارات/المفاتيح ذات الصلة
التقط لمدة 30–120 ثانية حول العرض، ثم أوقف

أثرٌ أصغر يمكنك تحليله أفضل من أثر هائل لا يستطيع أحد فتحه.

كيف يساعد Autoruns في الموثوقية ومشاكل الإقلاع/تسجيل الدخول؟

Autoruns يجيب على سؤال «ما الذي يبدأ تلقائيًا؟»—خدمات، مهام مجدولة، ملحقات الشل، برامج تشغيل وغيرها.

مفيد بشكل خاص لـ:

بطء الإقلاع/تسجيل الدخول
قفزات CPU متقطعة بعد تسجيل الدخول
عمليات خلفية غامضة

ركز أولًا على الإدخالات غير الموقعة، المضافة حديثًا، أو وعطّل عنصرًا مثيرًا واحدًا في كل مرة مع تدوين السبب.

متى يجب أن أصعد من السجلات/المقاييس إلى تتبع ETW؟

ETW (Event Tracing for Windows) هو مسجل الرحلة المدمج في ويندوز.

استعمل ETW عندما تخبرك السجلات والمقاييس أن هناك مشكلة لكنها لا تخبرك لماذا—مثل حالات التوقف الناتجة عن تأخيرات I/O أو تأجيلات الجدولة أو سلوك برنامج تشغيل.

احفظ التسجيلات قصيرة وموجهة ووقتيًا مع عرض المستخدم.

كيف يمكن لـ Sysmon تحسين تحقيقات الموثوقية (وليس الأمن فقط)؟

Sysmon يضيف سياقًا عالي القيمة (عملية الوالد/الابن، سطور الأوامر، هاشات الملفات، عمليات تحميل برامج التشغيل) الذي يساعد على الإجابة عن «ما الذي تغير؟»

للموثوقية، مفيد لتأكيد:

عمليات مساعدة جديدة تظهر قبل القفزات
تحميل برامج تشغيل مصاحبة لتعليق/خطأ نظام
تغييرات ثنائية/مسارات غير متوقعة بعد دورة تصحيح

ابدأ بتكوين محدود ودرِّج قواعد include/exclude للتحكم في حجم الأحداث والتكلفة.

ما الفرق العملي بين التحقيق في تعطل، BSOD، وتعليق باستخدام WinDbg؟

الدرامات (dumps) غالبًا ما تكون أثرًا ذا قيمة عند وقوع التعطل لأنها تلتقط حالة التنفيذ في لحظة الفشل.

تعطل التطبيق: التقط درامات وضع المستخدم؛ حلل رموز الاستثناء والسلاسل.
BSOD: التقط درامات النواة؛ ركز على برامج التشغيل وحالة النواة.
التعليق (hang): التقط دراما أثناء التوقف؛ افحص سلاسل الخيوط، أسباب الانتظار، وأنماط القفل.

WinDbg يحول الدراما إلى إجابات، لكن الرموز الصحيحة ضرورية لسلاسل ومطابقة الوحدات.

مارك روسينوفيتش وداخليات ويندوز: المراقبة والموثوقية | Koder.ai