كيفية بناء تطبيق ويب لتتبّع الحوادث وإدارة تقارير ما بعد الحادث

Q: كيف نعرّف "حادث" بحيث لا يصبح التطبيق غير قابل للاستخدام أو غير متسق؟

ابدأ بكتابة تعريف واضح يتفق عليه فريقكم: - ماذا يُصنّف كثّافة (تأثير على العملاء، أمان، خرق SLA/SLO، قضية داخلية)؟ - متى يبدأ/ينتهي الحدث (أول إنذار مقابل التأكيد البشري؛ مُعالَج مقابل تحت المراقبة)؟ - ما الحقول الإلزامية (الخدمة، الشدة، المالك، الطوابع الزمنية، الحالة)؟ يجب أن يرتبط هذا التعريف مباشرة بحالات سير العمل والحقول المطلوبة حتى تبقى البيانات متسقة دون أن تكون مرهقة.

Q: ما الذي ينبغي أن يتضمنه "إدارة تقارير ما بعد الحادث" في منتج الإصدار الأول؟

عامل تقارير ما بعد الحادث كمسار عمل بدلاً من مستند وحسب: - قرر أي الحوادث تتطلب تقريراً (كل الحوادث أم Sev-1/2 فقط) - استخدم قالبًا افتراضيًا واملأه تلقائيًا من بيانات الحادث (الخط الزمني، المشاركون، المرفقات) - أضف حالة مراجعة (مسودة → قيد المراجعة → موافق عليه → منشور) - اجعل عناصر الإجراءات كيانات أولية حتى يصبح المتابعة قابلة للقياس إذا توقّعون حدوث تغيير، فأنت بحاجة إلى تتبع عناصر الإجراءات وتذكيرات—ليس مجرد تخزين المستندات.

Q: ما هي الميزات الأساسية اللازمة للإصدار الأول من تطبيق تتبع الحوادث؟

- استمارة استقبال الحوادث (عنوان، خدمة، شدة، المبلّغ؛ الباقي اختياري) - تحديثات سريعة (الحالة، ملخص التأثير، ملاحظات أساسية، الخطوات التالية) - خط زمني موحّد (تغييرات مُلتَقطة آليًا + أحداث يدوية) - أدوار/ملكية أساسية (قائد الحادث/المالك ظاهِر) - إنشاء تقرير ما بعد الحادث مرتبط بإغلاق الحادث - عناصر إجراءات مع مالك، تاريخ استحقاق، وحالة تجنّب الأتمتة المتقدّمة حتى تعمل هذه التدفقات بسلاسة تحت الضغط.

Q: ما الأدوار التي يجب أن يدعمها التطبيق، وكيف نحافظ على وضوح المسؤوليات؟

نمذِج بعض الأدوار الواضحة واربِطها بصلاحيات: - Reporter: ينشئ الحادث ويضيف السياق الابتدائي - Responder: يضيف التحديثات، أحداث الخط الزمني، إجراءات التخفيف - Incident Commander: يعيّن المستجيبين، يوافق على الشدة، يتحكم في تحديثات أصحاب المصلحة - Reviewer: يدير جودة وموافقة تقرير ما بعد الحادث اجعل المالك/القائد الحالي واضحًا في واجهة المستخدم وسمح بالتفويض (إعادة التعيين، تدوير القائد).

Q: ما الكيانات البيانية التي ينبغي نمذجتها، وما العلاقات الأهم؟

حافظ على نموذج بيانات صغير لكن منظم: - Incident - Service - Update (داخلي مقابل موجّه لأصحاب المصلحة) - Timeline Event (حقائق مختومة زمنيًا) - Action Item - Postmortem استخدم معرفات ثابتة (UUIDs) زائد مفتاح ودود للإنسان مثل . اعتبر التعديلات تاريخًا عبر created at/created by وسجل تدقيق للتغييرات.

Q: كيف نتعامل مع الملاحظات الداخلية مقابل تحديثات الحالة الموجّهة لأصحاب المصلحة؟

افصل بين تيّارين وطبق قواعد مختلفة: - التحديثات الداخلية: تكتيكية، عالية الحجم، يمكن أن تكون فوضوية - تحديثات أصحاب المصلحة: مُنسّقة، مؤرّخة زمنياً، غالبًا بموافقة القائد نفّذ قوالب/رؤية مختلفة واحتفظ بكليهما في سجل الحادث حتى تتمكن من إعادة بناء القرارات لاحقًا دون تسريب معلومات حساسة.

Q: كيف نضمن اكتمال عناصر إجراءات تقرير ما بعد الحادث فعليًا؟

عامل عناصر الإجراءات كسجلات منظمة، لا نص حر: - Owner: شخص واحد مسؤول - Due date - Priority - Status (Open/In progress/Blocked/Done/Won’t do) - Verification criteria قدّم آراء عامة (متأخر، مستحق هذا الأسبوع، محجوز) وتذكيرات خفيفة وتصعيدات حتى لا تختفي المتابعات بعد الاجتماع.

تسجيل الدخول ابدأ الآن

كيفية بناء تطبيق ويب لتتبّع الحوادث وإدارة تقارير ما بعد الحادث | Koder.ai

توضيح الأهداف، المستخدمين، ومقاييس النجاح

قبل أن ترسم الشاشات أو تختار قاعدة بيانات، اتفقوا على ما يعنيه فريقكم بـ تطبيق تتبّع الحوادث — وما الذي يجب أن تحققه "إدارة تقارير ما بعد الحادث". كثير من الفرق تستخدم نفس المصطلحات بطرق مختلفة: لفريقٍ ما الحادث هو أي مشكلة أبلغ عنها العميل؛ ولآخر قد يعني فقط انقطاع من المستوى العالي مع تصعيد للمناوبة.

حدّد "تتبّع الحادث" لفريقك

اكتب تعريفًا قصيرًا يجيب عن:

ما الذي يؤهل كحادث (تأثير على الخدمة، تأثير داخلي فقط، أحداث أمنية، خرق SLAs)؟
متى يبدأ الحادث ومتى ينتهي (أول إنذار مقابل التأكيد البشري؛ ثابت مقابل تحت المراقبة)؟
ما البيانات الإلزامية (الخدمة المتأثرة، الشدة، المالك، الطوابع الزمنية، تحديثات الحالة)؟

يدفع هذا التعريف سير عمل الاستجابة للحوادث ويمنع أن يصبح التطبيق صارمًا جدًا (لا أحد يستخدمه) أو مرنًا جدًا (البيانات غير متسقة).

حدّد "إدارة تقارير ما بعد الحادث" (ولماذا تفعلونها)

قرّر ما هو تقرير ما بعد الحادث في منظمتكم: ملخص خفيف لكل حادث، أم تحليل جذري كامل للحوادث شديدة الشدة؟ أوضح ما إذا كان الهدف هو التعلم، الامتثال، تقليل تكرار الحوادث، أو كل ما سبق.

قاعدة مفيدة: إذا توقّعون أن ينتج عن تقرير ما بعد الحادث تغيّرًا، فعلى أداتكم دعم تتبع عناصر الإجراءات، لا الاكتفاء بتخزين الوثائق.

اذكر المشكلات التي تحلونها

معظم الفرق تبني هذا النوع من التطبيقات لإصلاح مجموعة صغيرة من نقاط الألم المتكررة:

الرؤية: "ما الذي يحدث الآن؟" "كم مرة تتعطل هذه الخدمة؟"
التنسيق: ملكية واضحة، تسليم المهام، وخط زمني مشترك للحادث
التعلّم: قوالب RCA متسقة وعملية مراجعة تحدث فعلاً
المتابعة: عناصر الإجراءات لا تختفي بعد الاجتماع

حافظ على هذه القائمة ضيقة. كل ميزة تضيفها يجب أن تُطابق واحدة على الأقل من هذه المشاكل.

اختر مقاييس نجاح تطابق السلوك

اختر بضعة مقاييس يمكنك قياسها تلقائيًا من نموذج بيانات التطبيق:

زمن الكشف، الاعتراف، التخفيف، والحل (يجب أن يلتقطها خطكم الزمني للحادث)
التكرار بحسب الشدة، الخدمة، وفئة السبب الجذري
معدل إغلاق عناصر الإجراءات والوسيط لزمن الإغلاق
إشارات جودة: نسبة الحوادث التي أُنجز لها تقرير ما بعد الحادث خلال N أيام؛ نسبة الحوادث مع مالك واضح وتحديثات حالة

تصبح هذه مقاييسكم التشغيلية و"تعريف الإنجاز" للإصدار الأول.

وضّح مستخدميك (وما يحتاجه كل منهم)

نفس التطبيق يخدم أدوارًا مختلفة في عمليات المناوبة:

مهندس المناوبة: إدخال سريع، حقول حد أدنى، تحديثات حالة سهلة
قائد الحادث: عرض تنسيقي، الحالة الحالية، المالكون، نقاط التحقق
المدراء: اتجاهات، قضايا متكررة، متابعة عناصر الإجراءات
أصحاب المصلحة: تحديثات حالة واضحة بدون ضوضاء داخلية

إذا صمّمت للجميع دفعة واحدة، ستبني واجهة فوضوية. بدلًا من ذلك، اختر مستخدمًا أساسيًا للإصدار الأول—وتأكد أن الآخرين يمكن أن يحصلوا على ما يحتاجون إليه عبر عروض مخصَّصة، لوحات تحكم، وصلاحيات لاحقًا.

صمم سير العمل والأدوار للحادث

سير واضح للعمل يمنع وضعين شائعين من الفشل: حوادث تتوقف لأن لا أحد يعرف "ما التالي"، وحوادث تبدو "مكتملة" لكنها لا تنتج تعلمًا. ابدأ برسم دورة الحياة من البداية إلى النهاية ثم ربط الأدوار والصلاحيات بكل خطوة.

ارسم دورة حياة الحادث

معظم الفرق تتبع قوسًا بسيطًا: كشف → فرز → تخفيف → حل → تعلّم. يجب أن يعكس تطبيقك هذا بمجموعة صغيرة من الخطوات المتوقعة، لا قائمة خيارات لا تنتهي.

عرّف ما يعنيه "مكتمل" لكل مرحلة. على سبيل المثال، قد يعني التخفيف إيقاف تأثير العميل، حتى لو ظل السبب الجذري مجهولًا.

حدّد الأدوار والمسؤوليات

اجعل الأدوار واضحة حتى يتصرف الناس دون انتظار الاجتماعات:

المبلغ: ينشئ الحادث، يضيف السياق الابتدائي، يرفق روابط/سجلات.
المستجيب: يحقق، يضيف تحديثات، ينفّذ إجراءات التخفيف.
قائد الحادث: يملك التنسيق، يعيّن المستجيبين، يعتمد الشدة، يتحكم في تحديثات أصحاب المصلحة.
المراجع: يقود مراجعة ما بعد الحادث، ويضمن جودة التقرير.

ينبغي أن تُظهر واجهة المستخدم "المالك الحالي" بوضوح، وينبغي للسير أن يدعم التفويض (إعادة التعيين، إضافة مستجيبين، تدوير القائد).

الحالات والانتقالات

اختر حالات مطلوبة والانتقالات المسموح بها، مثل Investigating → Mitigated → Resolved. أضف ضوابط:

اشترط وجود شدة قبل الانتقال بعد الفرز.
اشترط ملخص حل قبل وسم الحالة Resolved.
منع الانتقال من “Resolved → Investigating” ما لم يُسجّل سبب إعادة الفتح.

خطط قنوات الاتصال

فصّل التحديثات الداخلية (سريعة، تكتيكية، قد تكون فوضوية) عن تحديثات أصحاب المصلحة (مُنسّقة، مؤرخة زمنياً، مُختارة). ابنِ تيارين للتحديثات بقوالب ورؤية وقواعد موافقة مختلفة—غالبًا ما يكون القائد هو الناشر الوحيد لتحديثات أصحاب المصلحة.

نمذجة البيانات: الكيانات، العلاقات، والتاريخ

أداة حوادث جيدة تبدو "بسيطة" في الواجهة لأن نموذج البيانات تحتها متسق. قبل بناء الشاشات، قرّر ما الكائنات التي توجد، كيف ترتبط، وما الذي يجب أن يظل دقيقًا تاريخيًا.

الكيانات الأساسية (الكائنات التي تخزنها)

ابدأ بمجموعة صغيرة من الكيانات الأساسية:

Incident: الحاوية لكل ما حدث.
Service: ما تديرونه (API، قاعدة بيانات، تطبيق جوال)، يستخدم للتأثير والتقارير.
Update: تحديثات حالة قابلة للقراءة البشرية (للملاحظات الداخلية والتحديثات الخارجية).
Timeline Event: حقائق مختومة زمنيًا دقيقة ("إطلاق الإنذار", "تم التراجع", "تم تطبيق التخفيف").
Action Item: المتابعات مع مالكين وتواريخ استحقاق.
Postmortem: الكتابة المهيكلة (التأثير، تحليل السبب الجذري، الدروس، الروابط).

العلاقات والمعرّفات

معظم العلاقات واحد إلى متعدد:

حادث واحد → عدة تحديثات / عدة أحداث خط زمنية / عدة عناصر إجراءات
حادث واحد → تقرير ما بعد الحادث واحد (أو صفر)
حادث واحد ↔ عدة خدمات (عادة متعدد-إلى-متعدد عبر جدول الربط "affected_services")

استخدم معرّفات ثابتة (UUIDs) للحوادث والأحداث. يحتاج البشر إلى مفتاح ودود مثل INC-2025-0042 يمكنك توليده من تسلسل.

بيانات وصفية ستحتاجها لاحقًا

نمذج هذه مبكرًا حتى تتمكن من التصفية والبحث والتقارير:

الشدة، الحالة (open/mitigated/resolved)، الوسوم
وقت البدء، وقت الانتهاء، وقت الكشف
قائد الحادث، فريق المالك، برنامج المناوبة (اختياري)
الخدمات المتأثرة، ملخص تأثير العميل

التاريخ، الاحتفاظ، وقابلية التدقيق

بيانات الحوادث حساسة وغالبًا ما تُراجع لاحقًا. عامل التعديلات كبيانات—لا كمحاولات للكتابة فوقها:

خزّن created_at/created_by على كل سجل.
للاقتباسات، احتفظ بسجل تدقيق (تغييرات الحقول + الفاعل + الطابع الزمني)، أو نسخ مهمة من الوثائق (postmortem، التحديثات).
قرّر سياسة الاحتفاظ مقدمًا (مثال: الاحتفاظ بالحوادث للأبد، حذف محادثات الدردشة بعد N يوم).

هذه البنية تجعل ميزات لاحقة—البحث، المقاييس، والصلاحيات—أسهل للتنفيذ دون إعادة عمل.

بناء استقبال الحوادث، التحديثات، والخط الزمني

عندما ينهار شيء، مهمة التطبيق هي تقليل الكتابة وزيادة الوضوح. يغطي هذا القسم "مسار الكتابة": كيف ينشئ الناس حادثًا، كيف يحدثونه، وكيف تُعاد تركيب القصة لاحقًا.

استقبال الحوادث: حقول قليلة، إعدادات افتراضية ذكية

حافظ على نموذج الاستقبال قصيرًا بما يكفي لإنهائه أثناء التحري. مجموعة الحقول الإلزامية الجيدة الافتراضية:

العنوان (لغة بسيطة: "أخطاء الدفع على الجوال")
الخدمة/النظام (اختر من قائمة لتجنب اختلافات الإملاء)
الشدة (افتراضي بناءً على الخدمة أو الوقت، لكن قابل للتحرير)
المبلّغ (ملء تلقائي من المستخدم المسجل)

كل شيء آخر اختياري عند الإنشاء (التأثير، روابط تذاكر العملاء، سبب مشتبه به). استخدم إعدادات افتراضية ذكية: ضع وقت البدء على "الآن"، اختر فريق المناوبة للمستخدم مسبقًا، وقدم إجراءًا بنقرة واحدة "أنشئ وافتح غرفة الحادث".

تحديثات سريعة: الحالة، التأثير، الخطوات التالية

يجب تحسين واجهة التحديث للتكرار والقصيرة. قدّم لوحة تحديث مدمجة مع:

الحالة (Investigating / Identified / Mitigated / Resolved)
ملخص التأثير (جملة أو جملتان)
الملاحظات الرئيسية (ما تغيّر منذ آخر تحديث)
الخطوات التالية (ما يتم فعله الآن، ومن المسؤول)

اجعل التحديثات قابلة للإضافة: كل تحديث يصبح مدخلاً مختومًا زمنيًا، لا كتابة فوق النص السابق.

الخط الزمني: تاريخ آلي بالإضافة إلى أحداث يدوية

ابنِ خطًا زمنيًا يخلط بين:

الأحداث الملتقطة آليًا: تغييرات الحقول (الشدة، الحالة)، المعينون، الروابط المضافة، وقت الحل
الأحداث اليدوية: "نشر تصحيح سريع", "تم التراجع", "بدء التبديل لقاعدة البيانات"

هذا يخلق سردًا موثوقًا دون إجبار الناس على تذكّر تسجيل كل نقرة.

التصميم للسرعة على الجوال

أثناء الانقطاع، تحدث الكثير من التحديثات من الهاتف. أعط الأولوية لشاشة سريعة وقليلة الاحتكاك: نقاط لمس كبيرة، صفحة تمرير واحدة، مسودات صديقة للعمل بدون اتصال، وإجراءات بنقرة واحدة مثل "نشر تحديث" و"نسخ رابط الحادث".

أضِف الشدة، القوائم المرجعية، والسياق الداعم

الشدة هي "زر السرعة" لاستجابة الحوادث: تخبر الناس بمدى العجلة، مدى انتشار الاتصالات، وما التنازلات المقبولة.

حدّد مستويات الشدة (وماذا تعني)

تجنّب تسميات غامضة مثل "عالية/متوسطة/منخفضة". اجعل كل مستوى شدة يربط بتوقعات تشغيلية واضحة—خاصة زمن الاستجابة وتواتر الاتصالات.

مثال:

SEV1 (حرج): انقطاع للمستخدم أو خطر أمني رئيسي. نادي فورًا، افتح جسر/دردشة للحادث، حدّث أصحاب المصلحة كل 15–30 دقيقة، وفكّر في تحديث عام للحالة.
SEV2 (كبير): انقطاع جزئي أو تدهور شديد. استجب بسرعة، نسق في الدردشة، حدّث أصحاب المصلحة كل 30–60 دقيقة.
SEV3 (صغير): تأثير محدود، حل مؤقت متوفر. تعامل أثناء ساعات العمل إن لزم، حدّث عند نقاط رئيسية.
SEV4 (معلوماتي): لا تأثير فوري؛ تتبع كقضية تشغيلية.

اجعل هذه القواعد مرئية في واجهة المستخدم أينما تُختار الشدة، حتى لا يحتاج المستجيبون للبحث في الوثائق.

أضف قوائم مرجعية للمستجيبين تتناسب مع سير عملكم

تقلل القوائم المرجعية العبء الإدراكي عند الضغط. اجعلها قصيرة، قابلة للتنفيذ، ومرتبطة بالأدوار.

نمط مفيد هو بضعة أقسام:

الفرز: تأكيد تأثير العميل، تحديد نطاق الانكشاف، ضبط الشدة، تعيين قائد الحادث.
التخفيف: تحقق من إجراءات التراجع/أعلام الميزة، تحقق من إشارات الاسترداد، راقب الرجوع.
الاتصالات: إخطار الدعم، نشر تحديث داخلي، اتخاذ قرار حول /status update، صياغة رسالة للعميل.

اجعل عناصر القائمة مُختومة زمنياً ومنسوبة، بحيث تصبح جزءًا من سجل الحادث.

اربط المستندات المساندة (حتى لا يفقد السياق)

نادراً ما يعيش الحادث في أداة واحدة. يجب أن يسمح تطبيقك للمستجيبين بإرفاق روابط إلى:

لوحات القيادة ومخططات محددة
استعلامات السجل
التذاكر/المهام
محادثات الدردشة أو قنوات غرفة الحرب
أدلة التشغيل وplaybooks

فضّل الروابط "المُصنّفة" (مثلاً، Runbook، Ticket) حتى يمكن تصفيتها لاحقًا.

سجّل تأثير SLA/SLO عند الاقتضاء

إذا كانت مؤسستك تتبع أهداف موثوقية، أضف حقولًا خفيفة مثل هل تأثر SLO (نعم/لا)، تقدير استهلاك ميزانية الخطأ، وخطر خرق SLA للعميل. اجعلها اختيارية—لكن سهلة الملء أثناء الحادث أو مباشرة بعده.

أنشئ قوالب تقارير ما بعد الحادث وتدفق المراجعة

أطلق الإصدار الأول

أنشئ الاستقبال والتحديثات والجدول الزمني والتقارير النهائية دون أسابيع من الإعداد.

ابنِ الإصدار الأول الآن

تقرير ما بعد الحادث الجيد سهل البدء، يصعب نسيانه، ومتّسق عبر الفرق. أبسط طريقة للوصول لذلك هي تقديم قالب افتراضي (بحقول مطلوبة قليلة) وملؤه تلقائيًا من سجل الحادث حتى يقضي الناس وقتهم في التفكير بدلًا من إعادة الكتابة.

قالب عملي لتقرير ما بعد الحادث (ما الذي يجب تضمينه)

قالبكم الافتراضي يجب أن يوازن بين البنية والمرونة:

الملخّص: ما الذي حدث بلغة بسيطة (2–5 جمل).
التأثير: من/ما الذي تأثر، المدة، أعراض مرئية للمستخدم، وتأثير العمل (طلبات مؤجلة، ارتفاع معدلات الأخطاء، خروقات SLAs).
السبب الجذري: السبب التقني/الإجرائي الأساسي. اجعله وقائعيًا، لا إلقاء لوم.
العوامل المساهمة: مشاكل ثانوية (ثغرات في المراقبة، غموض الملكية، توقيت تغييرات خطرة).
ما سار جيدًا / ما سار بشكل خاطئ / أين كنّا محظوظين: حوافز لإنتاج انعكاسات صادقة وقابلة للتنفيذ.

اجعل "السبب الجذري" اختياريًا في البداية إذا أردت نشرًا أسرع، لكن اشترطه قبل الموافقة النهائية.

اربط التقرير تلقائيًا بخط زمني الحادث

لا يجب أن يكون التقرير مستندًا منفصلًا يطفو في العدم. عند إنشاء تقرير ما بعد الحادث، اربط تلقائيًا:

الخط الزمني للحادث (التحديثات الرئيسية، تغييرات الحالة، خطوات التخفيف)
المشاركين (قائد الحادث، المستجيبون، فريق الاتصالات)
المرفقات (التذاكر ذات الصلة، لوحات القيادة، روابط السجلات—مخزنة كمرجع)

استخدم هذه العناصر لملء أجزاء من القالب. على سبيل المثال، يمكن أن يبدأ قسم "التأثير" بأوقات بدء/انتهاء الحادث والشدة الحالية، بينما يمكن لسجل "ما قمنا به" أن يجلب مدخلات من أحداث الخط الزمني.

تدفق المراجعة والموافقة الذي يدعم التعلّم

أضف مسار عمل خفيف حتى لا تتوقف التقارير:

مسودة (تُنشأ تلقائيًا عند إغلاق الحادث، أو يدويًا)
قيد المراجعة (مراجِعون معينون—غالبًا قائد الحادث + مالك الخدمة)
موافق عليه (خلاصة مغلقة + ملاحظات القرار محفوظة)
منشور (مشترك داخليًا؛ اختياريًا مرتبط بتحديث موجه للعميل)

في كل خطوة، سجّل ملاحظات القرار: ما الذي تغيّر، ولماذا، ومن وافق. هذا يمنع "التعديلات الصامتة" ويجعل المراجعات المستقبلية أو التدقيق أسهل بكثير.

إذا رغبت في واجهة أبسط، عالج المراجعات كتعليقات مع نتائج صريحة (Approve / Request changes) واحفظ الموافقة النهائية كسجل غير قابل للتغيير.

للفرق التي تحتاج ذلك، اربط حالة "منشور" بتدفّق تحديثات الحالة الخاص بكم (انظر /blog/integrations-status-updates) دون نسخ المحتوى يدويًا.

تعقب عناصر الإجراءات حتى الاكتمال

تقارير ما بعد الحادث تقلل الحوادث المستقبلية فقط إذا نُفّذت أعمال المتابعة فعلاً. عامل عناصر الإجراءات ككيانات أساسية في التطبيق—لا كفقرة في أسفل المستند.

عرّف عناصر الإجراءات كسجلات مهيكلة

يجب أن يحتوي كل عنصر إجراء على حقول متسقة حتى يمكن تتبعه وقياسه:

Owner (شخص مسؤول واحد، حتى لو كان التنفيذ مشتركًا)
Due date (واختياريًا "لا يبدأ قبل")
Priority (مثلاً P0–P3 أو عالية/متوسطة/منخفضة)
Status (Open, In progress, Blocked, Done, Won’t do)
معايير التحقق (كيف ستتأكد أن الإصلاح نجح)

أضف بيانات وصفية صغيرة ومفيدة: وسوم (مثلاً "مراقبة"، "توثيق"), مكوّن/خدمة، و"منشأ من" (معرّف الحادث ومعرّف تقرير ما بعد الحادث).

اجعل العمل سهل العثور عليه عبر الحوادث

لا تحصر عناصر الإجراءات داخل صفحة تقرير واحد. قدّم:

بحث عام بالمالك، الخدمة، الوسوم، والحالة
مرشحات مثل "متأخر", "مستحق هذا الأسبوع", "محجوز", "أولوية عالية"
تقارير بسيطة: عدّاد حسب الفريق/الخدمة، معدل الإتمام، ومتوسط زمن الإغلاق

هذا يحوّل المتابعات إلى طابور تشغيل بدلاً من ملاحظات متناثرة.

العمل المتكرر والروابط الخارجية (اختياري)

بعض المهام متكررة (تجارب اللعب الربعية، مراجعات أدلة التشغيل). ادعم قالبًا متكررًا يولد عناصر جديدة بجدول زمني، مع إبقاء كل تكرار قابلاً للتتبع بشكل مستقل.

إذا كان الفريق يستخدم متعقّب أعمال خارجيًا، اسمح لعنصر الإجراء بأن يتضمن رابط مرجعي خارجي ومعرّف خارجي، مع إبقاء تطبيقك مصدر الارتباط والتحقق للحوادث.

التذكيرات وقواعد التصعيد

ابنِ تذكيرات خفيفة: أبلغ المالكين مع اقتراب تاريخ الاستحقاق، علّم القائد عند تأخر الأعمال، واطرح أنماط التأخر المزمنة في التقارير. اجعل القواعد قابلة للتكوين حتى تتوافق مع واقع عمليّات المناوبة وعبء العمل.

الصلاحيات، التحكم في الوصول، وقابلية التدقيق

استخدم قاعدة تقنية مُجرّبة

احصل على واجهة React وخلفية بـ Go وPostgreSQL من محادثة واحدة.

إنشاء البنية

غالبًا ما تحتوي الحوادث وتقارير ما بعد الحادث على تفاصيل حساسة—معرّفات عملاء، عناوين داخلية، نتائج تحقيقات أمنية، أو مشاكل مع موردين. قواعد وصول واضحة تحافظ على فائدة الأداة للتعاون دون أن تتحول إلى مصدر تسريب بيانات.

حدّد مستويات الصلاحية

ابدأ بمجموعة صغيرة ومفهومة من الأدوار:

عرض فقط (أصحاب المصلحة): يقرأون ملخصات الحوادث، الخطوط الزمنية، والتقارير النهائية، لكن لا يحررون. مناسب للقيادة، دعم العملاء، والفرق الشريكة.
محرّرون (المستجيبون): يمكنهم إنشاء الحوادث، إضافة تحديثات، إدارة الخطوط الزمنية، وصياغة التقارير.
مشرفون (المالكون): يديرون الأدوار، يكوّنون القوالب، يربطون التكاملات، ويحلون نزاعات الوصول.

إذا كان لديكم فرق متعددة، فكر في تقنين الأدوار بحسب الخدمة/الفريق (مثال: "محرّرو المدفوعات") بدلًا من منح وصول شامل عالمي.

قرر ما هو خاص مقابل ما يمكن مشاركته

صنّف المحتوى مبكرًا، قبل أن يعتاد الناس عادات:

حقول داخلية فقط: معرّفات العملاء، ملاحظات تحقيقات أمنية، سجلات خام، محادثات داخلية
حقول قابلة للمشاركة: تأثير عالٍ المستوى، أوقات البدء/الانتهاء، إجراءات التخفيف، تحديثات حالة عامة

نمط عملي هو وسم الأقسام كـ داخلي أو قابل للمشاركة وفرض ذلك عند التصدير وصفحات الحالة. قد تتطلب الحوادث الأمنية نوع حادث منفصل مع إعدادات افتراضية أكثر صرامة.

سجلات تدقيق يمكن الوثوق بها

لكل تغيير على الحوادث والتقارير، سجّل: من غيّره، ماذا غيّر، ومتى. تضمّن تعديلات الشدة، الطوابع الزمنية، التأثير، والموافقات النهائية. اجعل سجلات التدقيق قابلة للبحث وغير قابلة للتحرير.

المصادقة وسلامة الجلسات

ادعم مصادقة قوية خارج الصندوق: البريد الإلكتروني + MFA أو رابط سحري، وأضف SSO (SAML/OIDC) إن توقع المستخدمون ذلك. استخدم جلسات قصيرة العمر، كوكيز آمنة، حماية CSRF، وإبطال الجلسات تلقائيًا عند تغيّر الأدوار. لمزيد من اعتبارات النشر، انظر /blog/testing-rollout-continuous-improvement.

تجربة المستخدم: لوحات القيادة، البحث، والتنقل

عندما يكون الحادث نشطًا، يقوم الناس بالمسح — لا بالقراءة. يجب أن تُظهر تجربة المستخدم الحالة الحالية بوضوح خلال ثوانٍ، مع السماح للمستجيبين بالغوص في التفاصيل دون أن يتوهوا.

الشاشات الأساسية لتصميمها أولًا

ابدأ بثلاث شاشات تغطي معظم تدفقات العمل:

قائمة الحوادث (لوحة): جدول أو قائمة بطاقات تُظهر شارة الحالة، الشدة، العنوان، الخدمة المتأثرة، المالك/قائد الحادث، آخر وقت تحديث، والمدة.
تفاصيل الحادث: قاعدة لكل شيء حول حادث واحد—الملخّص، الحالة الحالية، الروابط الأساسية، المشاركون، ولوحة الإجراءات.
عرض الخط الزمني: تغذية زمنية للتحديثات والأحداث (إنذارات، ملاحظات يدوية، تغييرات الحالة)، مع طوابع زمنية كبيرة وقابلة للقراءة.

قاعدة بسيطة: صفحة تفاصيل الحادث يجب أن تُجيب على "ما الذي يحدث الآن؟" في الأعلى، و"كيف وصلنا إلى هنا؟" أسفلها.

التصفية والبحث التي يستخدمها المستجيبون فعلاً

تتراكم الحوادث بسرعة، لذا اجعل الاكتشاف سريعًا ومتسامحًا:

مرشحات سريعة: الخدمة, الشدة, الحالة (open/mitigating/resolved/postmortem due), الوسم, نطاق التاريخ, المالك.
ابحث عبر: العنوان، معرّف الحادث، المكوّنات المتأثرة، والوسوم.

قدّم طرق عرض محفوظة مثل الحوادث المفتوحة الخاصة بي أو Sev-1 هذا الأسبوع حتى لا يعيد مهندسو المناوبة بناء المرشحات في كل نوبة.

شارات الحالة واتساق "الحالة الحالية"

استخدم شارات متناسقة وآمنة من ناحية الألوان عبر التطبيق (وتجنّب درجات دقيقة تفشل تحت الضغط). احتفظ بنفس مفردات الحالة في كل الأماكن: القائمة، رأس التفاصيل، وأحداث الخط الزمني.

بنظرة سريعة، يجب أن يرى المستجيبون:

الحالة الحالية + الشدة
آخر وقت تحديث (ومن نشره)
نقطة التحقق التالية (مثلاً، "التحديث التالي مستحق خلال 8 دقائق" إذا دعمتم وتيرة التحديث)

قابلية القراءة تحت الضغط

أعطِ أولوية لتيسير المسح:

طوابع زمنية كبيرة وعناوين أقسام واضحة
رأس حادث ثابت أثناء التمرير
أقسام قابلة للطي للبيانات الصاخبة (إنذارات خام، سجلات طويلة)
تنقّل صديق للوحة المفاتيح (/, n/p للحادث التالي/السابق)

صمِّم للحظة الأسوأ: إن كان شخص نائمًا على استدعاء ويتصفح عبر هاتفه، يجب أن توجهه الواجهة بسرعة إلى الإجراء الصحيح.

التكاملات: التنبيهات، الدردشة، التذاكر، وتحديثات الحالة

التكاملات هي ما يحوّل متعقّب الحوادث من "مكان لكتابة ملاحظات" إلى النظام الذي تُدار به الحوادث فعليًا. ابدأ بسرد الأنظمة التي يجب ربطها: المراقبة/الرصد (PagerDuty/Opsgenie, Datadog, CloudWatch)، الدردشة (Slack/Teams)، البريد الإلكتروني، نظام التذاكر (Jira/ServiceNow)، وصفحة الحالة.

اختر أسلوب التكامل

ينتهي الأمر بمعظم الفرق بمزيج:

ويبهوكات واردة للتنبيهات وأوامر الدردشة (سريع، شبه لحظي، تكلفة تشغيل منخفضة).
استطلاع (Polling) عندما لا يمكن للأداة الدفع بالأحداث، لكن اجعل الفترات محافظة وفعّل التخزين المؤقت.
الربط اليدوي كخيار احتياطي (لصق رابط تنبيه، إدخال مفتاح تذكرة)، الذي يحميك عند تعطل APIs.

منع إنشاء حوادث مكررة (idempotency)

التنبيهات مزعجة، وتُعاد المحاولة، وغالبًا ما تصل خارج الترتيب. عرّف مفتاح "عدم التكرار" المستقر لكل حدث مزوّد (مثلاً: provider + alert_id + occurrence_id)، وخزّنه مع قيد فريد. لتمييز التكرار، قرّر قواعد مثل "نفس الخدمة + نفس البصمة خلال 15 دقيقة" يجب أن تُضاف إلى حادث قائم بدل إنشاء واحد جديد.

حدّد الحدود وحالات الفشل

كن صريحًا بشأن ما يملكه تطبيقك وما يبقى في الأداة المصدر:

يملك تطبيقك سجل الحوادث، الخط الزمني، الأدوار، والتقارير.
قد يملك نظام التذاكر تنفيذ العمل والموافقات.

عندما يتعطل تكامل، تدهور بلطف: قوّم محاولات إعادة، أظهر تحذيرًا في الحادث ("نشر Slack متأخر"), واسمح للمشغلين بالمتابعة يدويًا دائمًا.

تحديثات الحالة بدون عمل إضافي

عامل تحديثات الحالة كمخرَج أساسي: يجب أن يكون إجراء "Update" المهيكل في واجهة المستخدم قادرًا على النشر إلى الدردشة، الإضافة إلى خط زمني الحادث، والمزامنة اختياريًا إلى صفحة الحالة—دون إجبار المستجيب على كتابة نفس الرسالة ثلاث مرات.

البنية التقنية وخيارات التقنية

شغّله كأداة حقيقية

انتقل من النموذج الأولي إلى بيئة مستضافة عندما تكون جاهزًا للاختبار.

انشر التطبيق

أداة الحوادث هي نظام "أثناء الانقطاع"، لذا فضّل البساطة والموثوقية على الحداثة. أفضل ستاك عادةً ما يكون الذي يستطيع فريقك بناؤه وتشغيله وإصلاحه بثقة في الثانية صباحًا.

اختر ستاك يستطيع فريقك امتلاكه

ابدأ بما تُنتجه مهندسوكم بالفعل. إطار ويب شائع (Rails, Django, Laravel, Spring, Express/Nest, ASP.NET) عادةً خيار آمن أفضل من إطار جديد يفهمه شخص واحد فقط.

بالنسبة للتخزين، قاعدة بيانات علائقية (PostgreSQL/MySQL) تناسب سجلات الحوادث جيدًا: الحوادث، التحديثات، المشاركون، عناصر الإجراءات، والتقارير تستفيد من المعاملات والعلاقات الواضحة. أضف Redis فقط إذا كنت تحتاج حقًا للتخزين المؤقت، قوائم الانتظار، أو أقفال عابرة.

يمكن أن يكون الاستضافة بسيطة كمنصة مُدارة (مثل Render/Fly/Heroku) أو سحابتكم الحالية (AWS/GCP/Azure). فضّل قواعد بيانات مُدارة ونسخ احتياطي مُدارة إن أمكن.

الوقت الحقيقي: WebSockets مقابل تحديث دوري

الحوادث النشطة تبدو أفضل مع تحديثات وقت-حقيقي، لكنك لا تحتاج دائمًا WebSockets منذ البداية.

التحديث الدوري (Polling) أسهل للتنفيذ والتشغيل. لتحديثات الخط الزمني كل 10–30 ثانية غالبًا ما تكون "جيدة بما يكفي".
WebSockets/SSE تصبح ذات قيمة عندما يكون لديك مشاهدون متعددون متزامنون، تحديثات سريعة الحركة، أو رغبة بتعاون شبيه بالدردشة.

نمط عملي: صمّم API/أحداث بحيث يمكنك البدء بالاستطلاع ومن ثم الترقية إلى WebSockets لاحقًا دون إعادة كتابة الواجهة.

قابلية المراقبة لأداة تتبع الحوادث نفسها

إذا فشل هذا التطبيق أثناء حادث، فسيصبح جزءًا من الحادث. أضف:

سجلات مهيكلة (من غيّر ماذا وسياق الطلب)
مقاييس (زمن الاستجابة، معدل الأخطاء، عمق قوائم الانتظار، اتصالات WebSocket)
تتبّع الأخطاء (استثناءات غير معالجة، تقارير تعطل الواجهة الأمامية)

النسخ الاحتياطي، الهجرات، وخطط التعافي من الكوارث

عامل هذا كنظام إنتاجي:

نسخ احتياطي يومي تلقائي (واجري اختبارات استعادة منتظمة)
هجرات مخطّطة بأمان (أنماط توسعة/انكماش، فحوصات CI لهجرات)
خطة DR بسيطة: كيف تشغّله في منطقة/حساب جديد، وكيف تصل للبيانات إذا تعطل البيئة الأساسية

طريقة أسرع للنموذج الأولي (دون الالتزام بالتصميم الخاطئ)

إذا أردت التحقق من سير العمل والشاشات قبل الاستثمار في بناء كامل، يمكن استخدام نهج تجريبي: استخدم أداة مثل Koder.ai لتوليد نموذج أولي عامل من مواصفات دردشة مفصّلة، ثم كرر مع المستجيبين خلال تمارين الطاولة. لأن Koder.ai يمكنه إنتاج واجهات React فعلية مع backend بـ Go + PostgreSQL (ويدعم تصدير الشيفرة المصدرية)، يمكنك اعتبار الإصدارات المبكرة "نماذج قابلة للتصرف" أو كنقطة انطلاق ليتقوّى عليها فريقكم—دون فقدان الدروس التي جمعتوها من المحاكاة.

الاختبار، النشر، والتحسين المستمر

إطلاق تطبيق تتبع الحوادث دون بروفة مخاطرة. أفضل الفرق تعامل الأداة كأي نظام تشغيلي آخر: اختبر المسارات الحرجة، نفّذ تدريبات واقعية، انشر تدريجيًا، وواصل الضبط حسب الاستخدام الحقيقي.

اختبر المسارات الحرجة نهاية إلى نهاية

ركّز أولًا على التدفقات التي يعتمد عليها الناس تحت ضغط:

إنشاء حادث، تعيين الشدة، وإخطار المستجيبين
نشر تحديثات (بما في ذلك تغييرات الحالة)، التحقق من ترتيبها في الخط الزمني، وضمان وسم التعديلات بوضوح
حل وإغلاق الحادث، ثم توليد تقرير ما بعد الحادث من الحالة النهائية
تأكيد بقاء الروابط والمرجعيات (الخدمات، المالكين، التذاكر، محادثات الدردشة) سليمة طوال العملية

أضف اختبارات انحدار تتحقق مما لا ينبغي أن ينكسر: الطوابع الزمنية، المناطق الزمنية، وترتيب الأحداث. الحوادث هي سرد—إذا كان الخط الزمني خاطئًا، يفقد الناس الثقة.

تحقق من الصلاحيات وقابلية التدقيق

أخطاء الصلاحيات هي مخاطر تشغيلية وأمنية. اكتب اختبارات تثبت:

فقط الأدوار المصرح لها يمكنها تغيير الشدة، تعديل الحقول المهمة، أو إغلاق الحوادث
المستخدمون بعرض فقط لا يمكنهم الوصول إلى الحوادث المقيدة
كل إجراء حساس يترك أثرًا في سجل التدقيق (من، ماذا، متى)، ولا يمكن تعديل سجل التدقيق

اختبر أيضًا "الحالات القريبة": مثل فقدان المستخدم الوصول منتصف الحادث أو تغيّر عضوية الفريق.

نفّذ تمارين طاولة مع المستجيبين الحقيقيين

قبل النشر الواسع، نفّذ محاكاة طاولة باستخدام تطبيقكم كمصدر الحقيقة. اختر سيناريوهات معروفة للمنظمة (انقطاع جزئي، تأخير بيانات، فشل طرف ثالث). راقب الاحتكاك: حقول مربكة، سياق مفقود، نقرات كثيرة، غموض في الملكية.

سجّل الملاحظات فورًا وحوّلها لتحسينات صغيرة وسريعة.

انشر بتجربة ميدانية واحصل على حلقة تغذية راجعة

ابدأ بفريق تجريبي واحد وبعض القوالب الجاهزة (أنواع الحوادث، قوائم مرجعية، صيغ تقارير). قدّم تدريبًا قصيرًا ودليلًا صفحياً "كيف ندير الحوادث" مرتبطًا من التطبيق (مثلاً /docs/incident-process).

تابع مقاييس الاعتماد وحرِّك قائمة الاختناقات: وقت الإنشاء، نسبة الحوادث التي تحتوي تحديثات، معدل إتمام تقارير ما بعد الحادث، وزمن إغلاق عناصر الإجراءات. اعتبر هذه مقاييس منتج—لا مقاييس امتثال—وواصل التحسين في كل إصدار.

الأسئلة الشائعة

كيف نعرّف "حادث" بحيث لا يصبح التطبيق غير قابل للاستخدام أو غير متسق؟

ابدأ بكتابة تعريف واضح يتفق عليه فريقكم:

ماذا يُصنّف كثّافة (تأثير على العملاء، أمان، خرق SLA/SLO، قضية داخلية)؟
متى يبدأ/ينتهي الحدث (أول إنذار مقابل التأكيد البشري؛ مُعالَج مقابل تحت المراقبة)؟
ما الحقول الإلزامية (الخدمة، الشدة، المالك، الطوابع الزمنية، الحالة)؟

يجب أن يرتبط هذا التعريف مباشرة بحالات سير العمل والحقول المطلوبة حتى تبقى البيانات متسقة دون أن تكون مرهقة.

ما الذي ينبغي أن يتضمنه "إدارة تقارير ما بعد الحادث" في منتج الإصدار الأول؟

عامل تقارير ما بعد الحادث كمسار عمل بدلاً من مستند وحسب:

قرر أي الحوادث تتطلب تقريراً (كل الحوادث أم Sev-1/2 فقط)
استخدم قالبًا افتراضيًا واملأه تلقائيًا من بيانات الحادث (الخط الزمني، المشاركون، المرفقات)
أضف حالة مراجعة (مسودة → قيد المراجعة → موافق عليه → منشور)
اجعل عناصر الإجراءات كيانات أولية حتى يصبح المتابعة قابلة للقياس

إذا توقّعون حدوث تغيير، فأنت بحاجة إلى تتبع عناصر الإجراءات وتذكيرات—ليس مجرد تخزين المستندات.

ما هي الميزات الأساسية اللازمة للإصدار الأول من تطبيق تتبع الحوادث؟

استمارة استقبال الحوادث (عنوان، خدمة، شدة، المبلّغ؛ الباقي اختياري)
تحديثات سريعة (الحالة، ملخص التأثير، ملاحظات أساسية، الخطوات التالية)
خط زمني موحّد (تغييرات مُلتَقطة آليًا + أحداث يدوية)
أدوار/ملكية أساسية (قائد الحادث/المالك ظاهِر)
إنشاء تقرير ما بعد الحادث مرتبط بإغلاق الحادث
عناصر إجراءات مع مالك، تاريخ استحقاق، وحالة

تجنّب الأتمتة المتقدّمة حتى تعمل هذه التدفقات بسلاسة تحت الضغط.

كيف ينبغي تصميم حالات الحادث والانتقالات بينها؟

استخدم عددًا قليلاً من المراحل المتوقعة والمتوافقة مع طريقة عمل الفرق:

Detect → Triage → Mitigate → Resolve → Learn

عرّف ما الذي يعنيه "مكتمل" لكل مرحلة، ثم أضف حواجز أو متطلبات:

اشتراط تحديد الشدة قبل إنهاء الفرز
اشتراط ملخص حل قبل وسم الحادث كمُحل
اشتراط سبب إعادة الفتح للانتقال من Resolved → Investigating

هذا يمنع توقف الحوادث ويحسّن جودة التحليل لاحقًا.

ما الأدوار التي يجب أن يدعمها التطبيق، وكيف نحافظ على وضوح المسؤوليات؟

نمذِج بعض الأدوار الواضحة واربِطها بصلاحيات:

Reporter: ينشئ الحادث ويضيف السياق الابتدائي
Responder: يضيف التحديثات، أحداث الخط الزمني، إجراءات التخفيف
Incident Commander: يعيّن المستجيبين، يوافق على الشدة، يتحكم في تحديثات أصحاب المصلحة
Reviewer: يدير جودة وموافقة تقرير ما بعد الحادث

اجعل المالك/القائد الحالي واضحًا في واجهة المستخدم وسمح بالتفويض (إعادة التعيين، تدوير القائد).

ما الكيانات البيانية التي ينبغي نمذجتها، وما العلاقات الأهم؟

حافظ على نموذج بيانات صغير لكن منظم:

Incident
Service
Update (داخلي مقابل موجّه لأصحاب المصلحة)
Timeline Event (حقائق مختومة زمنيًا)
Action Item
Postmortem

استخدم معرفات ثابتة (UUIDs) زائد مفتاح ودود للإنسان مثل INC-2025-0042. اعتبر التعديلات تاريخًا عبر created_at/created_by وسجل تدقيق للتغييرات.

كيف نتعامل مع الملاحظات الداخلية مقابل تحديثات الحالة الموجّهة لأصحاب المصلحة؟

افصل بين تيّارين وطبق قواعد مختلفة:

التحديثات الداخلية: تكتيكية، عالية الحجم، يمكن أن تكون فوضوية
تحديثات أصحاب المصلحة: مُنسّقة، مؤرّخة زمنياً، غالبًا بموافقة القائد

نفّذ قوالب/رؤية مختلفة واحتفظ بكليهما في سجل الحادث حتى تتمكن من إعادة بناء القرارات لاحقًا دون تسريب معلومات حساسة.

كيف ينبغي تعريف واستخدام مستويات الشدة في التطبيق؟

عرّف مستويات الشدة مع توقعات واضحة (عجلة الاستجابة وتواتر الاتصالات). مثال:

SEV1: اتصال فوري؛ تحديث كل 15–30 دقيقة
SEV2: استجابة سريعة؛ تحديث كل 30–60 دقيقة
SEV3: أثر محدود؛ تحديثات عند نقاط رئيسية
SEV4: معلوماتي

اعرض القواعد في واجهة المستخدم عند اختيار الشدة حتى لا يحتاج المستجيبون للرجوع إلى وثائق خارجية أثناء الانقطاع.

كيف نضمن اكتمال عناصر إجراءات تقرير ما بعد الحادث فعليًا؟

عامل عناصر الإجراءات كسجلات منظمة، لا نص حر:

Owner: شخص واحد مسؤول
Due date
Priority
Status (Open/In progress/Blocked/Done/Won’t do)
Verification criteria

قدّم آراء عامة (متأخر، مستحق هذا الأسبوع، محجوز) وتذكيرات خفيفة وتصعيدات حتى لا تختفي المتابعات بعد الاجتماع.

كيف نمنع التكاملات (تنبيهات/ويبهوك) من إنشاء حوادث مكررة؟

استخدم مفاتيح عدم التكرار الخاصة بالمزوّد وقواعد إلغاء التكرار:

خزّن مفتاحًا فريدًا مثل provider + alert_id + occurrence_id
قرّر متى تضاف التنبيهات إلى حادث قائم مقابل إنشاء حادث جديد (مثال: نفس الخدمة + نفس البصمة خلال 15 دقيقة)
تعامل مع وصول الأحداث خارج الترتيب وعمليات إعادة المحاولة بجعل معالجة الويبهوك متسقة

دائمًا وفّر ربطًا يدويًا كخيار احتياطي عندما تتعطل واجهات برمجة التطبيقات أو التكاملات.