دروس في سير اختبار انحياز الذكاء الاصطناعي من Joy Buolamwini، مع عملية مراجعة مبسطة يمكن للفرق إجراؤها قبل الإطلاق لتقليل الأذى المتجنب.

بالنسبة لمعظم المستخدمين، لا يبدو «الانحياز» كحوار إحصائي. يظهر على شكل منتج يعمل لبعض الأشخاص ويفشل مع آخرين: ميزات فتح القفل بالوجه التي لا تتعرف عليك، شاشة توظيف ترفض مرشحين مؤهلين لأسماء معينة، أو بوت دعم محترم مع مجموعة وغير ودود مع أخرى. النتيجة أخطاء غير متساوية، استبعاد، ورسالة واضحة أن المنتج لم يُصنع مع وضعك في الاعتبار.
الفرق يكون غافلًا عن ذلك لأن الاختبارات المبكرة غالبًا ما تبدو كعرض تجريبي: مجموعة بيانات صغيرة، أمثلة مُنتقاة، وتمرير سريع "تعمل لدي" من الأشخاص الأقرب إلى البناء. إذا كان كل من في الغرفة من خلفيات أو أجهزة أو لكنات أو ظروف إضاءة أو أساليب كتابة متقاربة، فقد ينتهي بك المطاف بالتدريب والاختبار لشريحة ضيقة من الواقع.
تغيرت التوقعات. لم يعد كافيًا القول "الدقة عالية." يسأل أصحاب المصلحة الآن: من يفشل، كم مرة، وماذا يحدث عند الفشل؟ يُحاسب المنتج ليس فقط على الأداء المتوسط، بل على الأداء غير المتكافئ والتكلفة الحقيقية للأخطاء.
أصبح اختبار الانحياز مطلبًا لذات السبب الذي جُعلت له اختبارات الأمان: بعد حالات الفشل العامة، "لم نفكر في ذلك" لم تعد إجابة مقبولة. حتى الفرق الصغيرة يُتوقع منها إظهار عناية أساسية.
سير عملي وعملي لا يحتاج مختبرًا أو لجنة. يحتاج إلى أربعة أشياء يمكنك تكرارها: عرّف من تتأثر به الميزة وكيف يمكن أن تفشل، اختبر مجموعة صغيرة من الحالات الواقعية عبر مجموعات مستخدمين مختلفة، قرر أي الفشل غير مقبول وما هو المسار البديل، ووثّق القرار حتى لا يبدأ الإصدار التالي من الصفر.
Joy Buolamwini باحثة في علوم الحاسوب وناشطة ساعدت في دفع اختبار الانحياز إلى الضوء العام. أظهر عملها في نتائج Gender Shades نمطًا بسيطًا ومزعجًا: بعض أنظمة تحليل الوجه أدت أداءً أفضل بكثير على الرجال ذوي البشرة الفاتحة مقارنة بالنساء ذوات البشرة الداكنة.
الدرس الرئيسي ليس "الذكاء الاصطناعي متحيز دائمًا." بل أن رقمًا وحيدًا عامًا، مثل الدقة الإجمالية، يمكن أن يخفي فجوات كبيرة. يمكن لفريق أن يقول بصدق "يعمل بنسبة 95%" بينما تحصل مجموعة أصغر على تجربة أسوأ بكثير. إذا لمس منتجك التوظيف أو فحوص الهوية أو السلامة أو الرعاية الصحية أو الوصول إلى الخدمات، فهذه الفجوة ليست خطأً طفيفًا. إنها المنتج.
بعد مثل هذه الحالات، أصبحت الأسئلة أكثر حدّة. يسأل المستخدمون ما إذا كان سيعمل لأشخاص يشبهونهم. يريد العملاء دليلًا على أنك اختبرت عبر مجموعات. الصحافة والتنظيم يسأل من يتضرر عند الفشل، وماذا فعلت لمنع الأذى المتوقع.
لا تحتاج مختبر أبحاث لتتعلم من هذه الإخفاقات. عليك اختبار الأماكن التي يتركز فيها الضرر، لا حيث يكون القياس أسهل. حتى فحص بسيط مثل "هل تتجمع الأخطاء حسب لون البشرة، أو اللكنة، أو الفئة العمرية، أو أصل الاسم، أو جودة الجهاز؟" يمكن أن يكشف مشاكل مبكرًا.
يصبح اختبار الانحياز حقيقيًا عندما تتعامل معه مثل أي متطلب منتج آخر: شرط يجب أن يكون صحيحًا قبل الشحن.
بمصطلحات المنتج، يعني اختبار الانحياز التحقق مما إذا كان النظام يتصرف بشكل مختلف لمجموعات مختلفة بطرق يمكن أن تمنع الوصول، تسبب ضررًا، أو تخلق نتائج غير عادلة. كما يعني كتابة ما يمكن للنظام فعله وما لا يمكنه فعله، حتى لا يبقى المستخدمون وفرق الدعم يتخمنون.
يمكن لمعظم الفرق ترجمة ذلك إلى بعض المتطلبات الواضحة:
اختبار الانحياز ليس خانة تُشطب مرة واحدة. النماذج تتغير، والبيانات تنحرف، وتظهر شرائح مستخدمين جديدة. هدفك ليس العدالة الكاملة، بل المخاطر المعروفة، الفجوات المقيسة، وحواجز واقعية.
نادرًا ما تظهر مشاكل الانحياز كرقم واحد سيء على لوحة معلومات. تظهر عندما يغيّر مخرج الذكاء الاصطناعي ما يمكن لشخص فعله بعد ذلك: الوصول، التكلفة، السلامة، الكرامة، أو الوقت.
ترتفع المخاطر في المجالات ذات الأثر العالي، خاصة عندما لا يمكن للناس الاعتراض بسهولة: أنظمة الهوية (التحقق بالوجه أو الصوت)، أدوات التوظيف والعمل، القرارات المتعلقة بالإقراض والتأمين، فحص الرعاية الصحية أو الخدمات الاجتماعية، وفحص التعليم أو الإسكان.
كما ترتفع المخاطر عندما يُفضي مخرج النموذج إلى إجراءات مثل الرفض/الموافقة، الوسم/الإزالة، الترتيب/التوصيات، التسعير/الحدود، أو تسميات مثل "خطر" أو "سخافة".
طريقة بسيطة لإيجاد أماكن الاختبار هي رسم رحلة المستخدم وتحديد اللحظات التي يخلق فيها التنبؤ الخاطئ طريقًا مسدودًا. توصية سيئة مزعجة. علمٌ خاطئ بالاحتيال يقفل حوالة راتب ليلة الجمعة هو أزمة.
راقب أيضًا "المستخدمين الخفيين" الذين يتصرفون على مخرجات النموذج دون سياق: دعم العملاء يثق في درجة مخاطرة داخلية، فرق العمليات تغلق التذاكر آليًا، أو الشركاء يرون وسمًا مثل "مشكوك" ويتعاملون معه كحقيقة. هذه المسارات غير المباشرة هي حيث يمكن للانحياز أن ينتقل أبعد ما يمكن، لأن المتضرر قد لا يعرف ما حدث أو كيف يصلح الأمر.
قبل أن تناقش الدقة أو درجات العدالة، قرر ماذا يعني "سيء" للناس الحقيقيين. تأطير المخاطر البسيط يمنع الفريق من الاختباء خلف أرقام تبدو علمية لكنها تفوت الهدف.
ابدأ بتسمية handful من مجموعات المستخدمين التي توجد فعلًا في منتجك. التسميات العامة مثل "العرق" أو "الجنس" قد تكون مهمة، لكنها نادرًا ما تكفي لوحدها. إذا كنت تبني أداة توظيف، قد تكون المجموعات: "المحولون مهنيًا"، "غير الناطقين باللغة الأم"، و"أصحاب فترات فراغ في السيرة". اختر 3 إلى 5 يمكنك وصفها بلغة بسيطة.
بعد ذلك، اكتب عبارات ضرر قصيرة ومحددة: من يتأذى، كيف، ولماذا يهم ذلك. على سبيل المثال: "المتحدثون غير الأصليين يحصلون على اقتراحات أقل جودة، فيبطئون الإطلاق ويفقدون الثقة." هذه العبارات تخبرك بما يجب التحقق منه.
ثم عرّف النجاح والفشل بمصطلحات المستخدم. أي قرار يؤثر عليه النظام، وما تكلفة الخطأ؟ ما النتيجة الجيدة لكل مجموعة؟ أي إخفاقات ستضر بالمال أو الوصول أو السلامة أو الكرامة أو الثقة؟
أخيرًا، قرر ما الذي لن تفعله واكتبه. تحديد النطاق يمكن أن يكون مسؤولًا عند كونه صريحًا، مثل "لن نستخدم هذه الميزة للتحقق من الهوية"، أو "المخرجات مجرد اقتراحات وليست قرارات نهائية."
الفرق المبكرة لا تحتاج عملية ثقيلة. تحتاج روتينًا قصيرًا يحدث قبل البناء، ومرة أخرى قبل الإصدار. يمكنك تشغيل هذا في حوالي ساعة، ثم تكراره كلما تغير النموذج أو البيانات أو واجهة المستخدم.
اكتب جملة واحدة: ما حالة الاستخدام، وأي قرار يؤثر فيه النموذج (حجب الوصول، ترتيب الأشخاص، وسم المحتوى، توجيه الدعم، تسعير عرض)؟ ثم اذكر من يتأثر، بما في ذلك الأشخاص الذين لم يوافقوا صراحةً.
التقط سيناريوهين: أفضل حالة (يساعد النموذج) وأسوأ حالة (يفشل بطريقة مهمة). اجعل الأسوأ محددًا، مثل "يُحرم المستخدم من الوصول" أو "يُستبعد مرشح عن وظيفة."
اختر شرائح تقييم تتطابق مع الظروف الحقيقية: مجموعات، لغات، أجهزة، إضاءة، لكنات، فئات عمرية، واحتياجات إمكانية الوصول. شغّل مجموعة اختبار صغيرة لكل شريحة وتتبّع أنواع الأخطاء، لا الدقة فقط (الرفض الخاطئ، القبول الخاطئ، الوسم الخاطئ، مخرج غير آمن، نغمة مفرطة الثقة).
قارن الشرائح جنبًا إلى جنب. اسأل أي شريحة تحصل على تجربة أسوأ بشكل مهم، وكيف سيظهر ذلك في المنتج.
ضع بوابات إطلاق كقواعد منتج. أمثلة: "لا تزيد أي شريحة عن X أسوأ من معدل الخطأ العام"، أو "الأخطاء ذات التأثير العالي يجب أن تكون أقل من Y." قرر أيضًا ماذا يحدث إذا فشلت: إيقاف الإصدار، تقييد الميزة، طلب مراجعة بشرية، أو إطلاق جمهور أصغر.
للأخطاء ذات التأثير العالي، غالبًا ما يكون "إعادة المحاولة" غير كافٍ. عرّف البديل: افتراضي آمن، مسار مراجعة بشرية، استئناف، أو طريقة تحقق بديلة.
بعد ذلك، اكتب "ملاحظة استخدام النموذج" من صفحة واحدة للفريق: ما الذي لا يجب استخدام الميزة لأجله، نقاط الضعف المعروفة، ما الذي ستراقبه بعد الإطلاق، ومن يتم إخطاره عندما يبدو أن هناك خطأ. هذا يمنع أن يصبح الخطر تفاصيل ML مخفية.
مجموعة اختبار انحياز لا تحتاج أن تكون ضخمة لتكون مفيدة. بالنسبة لفريق مبكر، غالبًا ما تكفي 50 إلى 200 مثالًا لكشف الإخفاقات المهمة.
ابدأ من نية المنتج الحقيقية، لا ما هو الأسهل لجمعه. إذا كانت الميزة تؤثر على الموافقات أو الرفض أو الترتيب أو الوسم، يجب أن تشبه مجموعة الاختبار القرارات التي سيتخذها منتجك فعلاً، بما في ذلك حالات الحافة الفوضوية.
ابنِ المجموعة ببعض الحركات المتعمدة: غطِّ أهم أفعال المستخدمين وأنماط الفشل الرئيسية، أدرج حالات الحافة (مدخلات قصيرة، لغات مختلطة، صور بإضاءة منخفضة، مدخلات مرتبطة بإمكانية الوصول)، وأضف أمثلة قريبة الفروقات (أمثلة متشابهة لكن يجب أن تنتج نتائج مختلفة). استخدم بيانات بموافقة عندما أمكن؛ إذا لم تتوافر، استخدم أمثلة مصطنعة أو مسرحية. تجنّب جمع بيانات حساسة بشكل عشوائي مثل الوجوه، الصحة، الأطفال، أو الشؤون المالية.
جمّد المجموعة وعاملها كعنصر منتج: ضع نسخة، وغيّرها فقط مع ملاحظة تشرح السبب.
عند الوسم، اجعل القواعد بسيطة. لكل مثال، سجّل المخرج المتوقع، لماذا يتوقع هذا المخرج، وأي خطأ سيكون الأسوأ. ثم قارن الأداء حسب الشريحة ونوع الخطأ. الدقة وحدها يمكن أن تخفي الفرق بين خطأ بلا ضرر وخطأ ضار.
يفشل اختبار الانحياز عادةً لأسباب بسيطة، لا لسوء نية.
خطأ شائع هو قياس الدقة الإجمالية واعتبارها "جيدة بما فيه الكفاية." رقم 95% على لوحة التحكم قد يخفي فجوة 20 نقطة لمجموعة أصغر.
فخ آخر هو استخدام تسميات ديموغرافية لا تتطابق مع واقع المنتج. إن لم يطلب تطبيقك العرق أو الجنس، قد تختبر باستخدام تسميات من مجموعات بيانات عامة لا تعكس كيف يظهر المستخدمون فعليًا أو كيف يعرفون أنفسهم أو ما يهم للمهمة.
تتجاهل الفرق أيضًا الحالات التقاطعية والسياقية. الإخفاقات الحقيقية تظهر غالبًا في التركيبات: بشرة أغمق مع إضاءة منخفضة، كلام بلكنة مع ضوضاء خلفية، مستخدم يلبس كمامة، أو شخص مؤطر بشكل مختلف أمام الكاميرا.
عند إصلاح الفرق لهذه المشاكل، عادةً ما تكون التغييرات مباشرة: فك النتائج حسب الشرائح التي قد تضر، عرّف فئات بناءً على منتجك والمنطقة، أضف حالات "الوضع الصعب" إلى كل مجموعة اختبار، لا تشحن بدون بديل، وتعامل مع الذكاء الاصطناعي من طرف ثالث مثل أي اعتماد آخر باختباراتك الخاصة.
قبل الإصدار مباشرة، اجعل المراجعة الأخيرة ملموسة. الهدف ليس العدالة الكاملة. إنه معرفة ما يمكن لنظامك فعله، أين يفشل، وكيف يُحمى الناس عند الفشل.
احتفظ بخمس أسئلة في مكان واحد:
سيناريو سريع يبقي الفرق صادقة: إذا فشل التحقق بالوجه أكثر لدى درجات لون بشرة داكنة، فـ"إعادة المحاولة" ليست كافية. تحتاج مسارًا بديلًا (مراجعة يدوية أو طريقة تحقق مختلفة) وطريقة لقياس ما إذا كان هذا المسار البديل يُستخدم بشكل غير متساوٍ.
فريق صغير يبني تطبيق مجتمع بميزات ذكاء اصطناعي: التحقق بالوجه لاسترداد الحساب والإشراف الآلي للتعليقات. يتحركون بسرعة، لذا أجروا مراجعة خفيفة قبل الإطلاق العام.
كتبوا ما قد يخطئ بلغة بسيطة. للتحقق بالوجه، الخطر هو رفض خاطئ يقفل شخصًا ما. للإشراف، الخطر هو وسم المحتوى البريء أو توجيه تحذير غير عادل لمستخدم.
حدّدوا القرارات ("السماح مقابل رفض المطابقة الوجهية" و"عرض التعليق مقابل إخفاؤه"), اختاروا الشرائح التي يجب معالجتها بعدل (درجات لون البشرة، الجنس، الفئات العمرية؛ اللهجات والشتائم المستعادَة ضمن السياق)، بنوا مجموعة اختبار صغيرة مع ملاحظات حول حالات الحافة، وسجلوا الرفض الخاطئ والوسم الخاطئ حسب الشريحة. كما قرروا ماذا يفعل المنتج عند انخفاض الثقة.
وجدوا مشكلتين واضحتين: رفض التحقق بالوجه للمستخدمين ذوي البشرة الأغمق أكثر، خصوصًا في الإضاءة المنخفضة، ولهجة معينة تُعلَّم بأنها "عدوانية" أكثر من الإنجليزية القياسية حتى عندما تكون النبرة ودّية.
كانت استجابات المنتج عملية. للتحقق بالوجه، أضافوا مسار استرداد بديل (مراجعة يدوية أو طريقة أخرى) وحدودوا الميزة لاسترداد الحساب بدلاً من فحوصات تسجيل الدخول المتكررة. للإشراف، ضيّقوا الحالة لإخفاء السمية ذات الثقة العالية فقط، أضافوا مسار استئناف، وتعاملوا مع الحالات الهامشية بعقوبات أخف.
"جيد بما فيه الكفاية الآن" يعني أنك تستطيع شرح المخاطر المعروفة، لديك بديل آمن، وستُعيد تشغيل اختبارات الشرائح بعد أي تغيير في النموذج أو المطالبة أو البيانات، خصوصًا عند التوسع إلى دول ولغات جديدة.
تفحّصات الانحياز والمخاطر تعمل فقط عندما تحدث مبكرًا، كما الأداء والأمان. إذا جاءت المحادثة الخطرة الأولى بعد أن تعتبر الميزة "مكتملة"، فإن الفرق إما تشحن مع فجوات معروفة أو تتخطى المراجعة.
اختر لحظة ثابتة في إيقاعك: عند الموافقة على ميزة، عند اقتراح تغيير نموذج، أو عند قطع إصدار. اجعل الآثار صغيرة وسهلة المسح: ملاحظة مخاطر من صفحة واحدة، ملخص قصير لما اختبرت (وما لم تختبره)، وسجل قرار الإصدار.
حدِّد الملكية بوضوح. المنتج مسؤول عن سيناريوهات الضرر وقواعد الاستخدام المقبول. الهندسة مسؤولة عن الاختبارات وبوابات الإصدار. الدعم مسؤول عن مسارات التصعيد والإشارات التي تُشغل المراجعة. القانون أو الامتثال يُستدعى عندما تُشير ملاحظة المخاطر إلى ذلك.
إذا كنت تبني في Koder.ai (koder.ai)، فإن طريقة بسيطة للحفاظ على الخفة هي إبقاء ملاحظة المخاطر بجانب خطة الميزة في Planning Mode، واستخدام اللقطات والتراجع لمقارنة السلوك عبر الإصدارات عند تغيير المطالبات أو النماذج أو العتبات.
يظهر الانحياز على شكل فشل غير متكافئ في المنتج: مجموعة واحدة تُحرم من الوصول، تُرفض، تُوسم، أو تُعامل بشكل أسوأ رغم أنها لم تفعل خطأً. قد تبدو الدقة المتوسطة "جيدة" بينما تعاني مجموعة أصغر من معدل خطأ أعلى بكثير.
إذا كان المخرج يؤثر على الوصول أو المال أو السلامة أو الكرامة، فإن تلك الفجوات تصبح عيبًا في المنتج، لا مجرد نقاش تجريبي حول العدالة.
لأن أصحاب المصلحة يسألون الآن "من يفشل وماذا يحدث عند فشلهم"، وليس فقط "ما هي الدقة الإجمالية". كما رفعت حالات الفشل العامة التوقعات: يُتوقع من الفرق إظهار العناية الأساسية، مثل اختبار شرائح المستخدمين الرئيسية ووجود مسار للتعافي.
الأمر أصبح شبيهًا بكيف صار الأمن غير اختياري بعد وقوع حوادث كافية.
أظهرت النتائج أن رقمًا وحيدًا عامًا يمكن أن يخفي تفاوتات كبيرة بين المجموعات. يمكن لنظام أن يعمل جيدًا بالمجمل بينما يفشل كثيرًا لدى أشخاص ذوي درجات لون بشرة أغمق، خصوصًا النساء.
الدرس العملي: فكك النتائج حسب الشرائح ذات الصلة بدلًا من الاعتماد على مقياس موحّد.
عاملها كبوابة شحن: عرّف المجموعات التي قد تتأثر، اختبر شرائح تمثيلية، ضع قواعد لـ"الفشل غير المقبول"، واطلب وجود بديل للأخطاء ذات التأثير العالي.
يشمل ذلك توثيق الحدود حتى لا يظل الدعم والمستخدمون يخمنون قدرات النظام.
ابدأ حيث يغير مخرج النموذج ما يمكن للشخص فعله لاحقًا:
الخطر أعلى عندما لا توجد وسيلة اعتراض سهلة.
اختر 3–5 مجموعات موجودة فعلًا في سياق منتجك، بصياغة بسيطة. أمثلة:
تجنّب الفئات العامة التي لا تتوافق مع رحلة المستخدم أو ما يمكنك اختباره فعليًا.
كرّر هذا في حلقة قصيرة:
بالنسبة للفرق المبكرة، يمكن أن تكشف 50–200 مثالًا عن الأخطاء المهمة. ركّز على الواقعية:
جمّد المجموعة وعلِّمها بالإصدار حتى تتمكن من المقارنة عبر الإصدارات.
الأخطاء الشائعة:
الحل غالبًا بسيط: فك النتائج حسب الشرائح، أضف حالات صعبة، واجعل البدائل إلزامية.
اجعل الفحص الأخير ملموسًا. الهدف ليس إنصاف مثالي، بل معرفة ما يمكن للنظام فعله، أين يفشل، وكيف يُحمى الناس عند الفشل.
احتفظ بخمس أسئلة في مكان واحد:
سيناريو سريع يبقي الفريق صادقًا: إذا كان التحقق بالصورة يفشل أكثر عند درجات لون بشرة داكنة، فـ"إعادة المحاولة" لا تكفي — تحتاج مسارًا بديلًا ليدوي أو طريقة تحقق أخرى، وطريقة لقياس ما إذا كان هذا المسار البديل يُستخدم بشكل غير متناسب.
مثال واقعي: فريق صغير يبني تطبيق مجتمع بميزتين ذكائيتين: التحقق بالوجه لاسترداد الحساب والاشراف الآلي للتعليقات. أجروا مراجعة خفيفة قبل الإطلاق العام.
دوّنوا الأخطار ببساطة. للتحقق بالوجه، الخطر هو الرفض الخاطئ الذي يقفل الحساب. للإشراف، الخطر هو وسم المحتوى البريء أو تحذير المستخدمين ظلماً.
اختاروا القرارات، وحددوا الشرائح التي يجب المعاملة العادلة لها، وبنوا مجموعة اختبار صغيرة وسجلوا الرفض الخاطئ والوسم الخاطئ حسب الشريحة. قرروا أيضًا ماذا يفعل المنتج عند انخفاض الثقة.
وجدوا مشكلتين واضحين: التحقق بالوجه يرفض مستخدمين بدرجات لون بشرة أغمق أكثر، خاصة في الإضاءة المنخفضة، ولهجة معينة تُوسم كـ"عدوانية" أكثر حتى عندما تكون ودّية.
ردودهم العملية: للتحقق بالوجه، أضافوا مسار استرداد بديل (مراجعة بشرية أو طريقة تحقق أخرى) وحدّوا استخدام الميزة لاسترداد الحساب فقط. للإشراف، ضيّقوا الحالة لاخفاء المحتوى ذا السمية العالية فقط، أضافوا مسار استئناف، وتعاملوا مع الحالات الهامشية بتساهل أكبر.
"جيد بما فيه الكفاية الآن" يعني أن بإمكانك شرح المخاطر المعروفة، لديك بديل آمن، وستعيد تشغيل اختبارات الشرائح بعد أي تغيير في النموذج أو المطالبة أو البيانات، خصوصًا عند التوسع لبلدان ولغات جديدة.
تنجح فحوصات الانحياز والمخاطر فقط عندما تحدث مبكرًا، كما هو الحال مع الأداء والأمن. إذا جاءت المحادثة الخطرة الأولى بعد أن تُعتبر الميزة "مكتملة"، فإما تُشحن الميزة مع فجوات معروفة أو يتخطى الفريق المراجعة.
اختر لحظة ثابتة في إيقاعك: عند الموافقة على ميزة، عند اقتراح تغيير في نموذج، أو عند قطع إصدار. اجعل الآثار صغيرة وسهلة المسح: ملاحظة مخاطر من صفحة واحدة، ملخّص قصير لما اختبرت (وما لم تختبره)، وسجل قرار الإصدار.
اجعل الملكية واضحة. المنتج يملك سيناريوهات الضرر وقواعد الاستخدام المقبول. الهندسة تملك الاختبارات وبوابات الإصدار. الدعم يملك مسارات التصعيد والإشارات التي تُشغل المراجعة. القانون أو الامتثال يُستدعى عند حاجة الملاحظة لذلك.
إذا كنت تبني في Koder.ai (koder.ai)، فطريقة بسيطة للحفاظ على الخفة هي وضع ملاحظة المخاطر بجانب خطة الميزة في Planning Mode، واستخدام اللقطات والتراجع لمقارنة السلوك عبر الإصدارات عند تغيير المطالبات أو النماذج أو العتبات.