ਮਾਰਗਰੇਟ ਹੈਮਿਲਟਨ ਦੀਆਂ ਅਪੋਲੋ ਸਿਖਿਆਵਾਂ: ਅੱਜ ਦੇ ਭਰੋਸੇਯੋਗ ਸੌਫਟਵੇਅਰ ਲਈ

Q: What’s the simplest change-control setup that improves reliability?

ਚੇਂਜ ਕੰਟਰੋਲ ਨੂੰ ਇੱਕ ਸੁਰੱਖਿਆ ਵਿਸ਼ੇਸ਼ਤਾ ਸਮਝੋ: - ਬਦਲਾਅ ਛੋਟੇ ਤੇ ਸਮੀਖਿਆਯੋਗ ਰੱਖੋ - ਪੀਅਰ ਰਿਵਿਊ ਅਤੇ ਟ੍ਰੇਸੇਬਿਲਿਟੀ ਲਾਜ਼ਮੀ ਕਰੋ (ਟਿਕਟ/ਇੰਸੀਡੈਂਟ/ਲੋੜ ਨਾਲ ਲਿੰਕ) - ਹਰ ਬਦਲਾਅ ਵਾਪਸ ਕਰਨ ਯੋਗ ਹੋਵੇ (ਰੋਲਬੈਕ/ਰੀਵਰਟ/ਫੀਚਰ ਫਲੈਗ) - ਮੈਨ ਬ੍ਰਾਂਚ ਨੂੰ ਪ੍ਰੋਟੈਕਟ ਕਰੋ ਅਤੇ ਮਰਜ ਤੋਂ ਪਹਿਲਾਂ ਆਟੋਮੈਟਿਕ ਚੈਕ ਲਗਾਓ ਮਕਸਦ ਇਹ ਹੈ ਕਿ ਰਿਲੀਜ਼ ਸਮੇਂ "ਅਣਜਾਣ ਵਿਹਾਰ" ਘਟੇ।

Q: Which testing layers matter most for reliability, and why?

ਅਲੱਗ-ਅਲੱਗ ਤਹਿ ਦੀਆਂ ਟੈਸਟਿੰਗ ਲੇਅਰਾਂ ਵਰਤੋ: - Unit tests: ਛੋਟੇ ਲੋਜਿਕ ਪੀਸੇ ਜਾਂਚਣ ਲਈ - Integration tests: ਕੰਪੋਨੈਂਟ ਮਿਲ ਕੇ ਕਿਵੇਂ ਕੰਮ ਕਰਦੇ ਹਨ ਵੇਖਣ ਲਈ - System tests: ਪੂਰੇ ਐਪ ਨੂੰ ਕੰਟਰੋਲਡ ਵਾਤਾਵਰਣ ਵਿੱਚ ਵੇਰਵੇ ਨਾਲ ਚੈੱਕ ਕਰਨ ਲਈ - E2E tests: ਯੂਜ਼ਰ ਜਰਨੀਆਂ ਦੀ ਨਕਲ ਕਰਨ ਲਈ ਜਿੱਥੇ ਨੁਕਸਾਨ ਜ਼ਿਆਦਾ ਮਹਿੰਗਾ ਹੋਵੇ (ਭੁਗਤਾਨ, ਆਥੰਟੀਕੇਸ਼ਨ, ਡੇਟਾ ਇੰਟੇਗ੍ਰਿਟੀ), ਉਥੇ ਵੱਧ ਨਿਵੇਸ਼ ਕਰੋ।

Q: What are the most useful defensive design techniques in production systems?

ਅਸਲ ਤੇ ਯਥਾਰਥਕ ਡਿਜ਼ਾਇਨ: - ਇਨਪੁੱਟ ਦੀ ਜਾਂਚ ਕਰੋ ਅਤੇ ਅਣਪਛਾਤੇ ਹਾਲਤਾਂ ਸਹਿਣਯੋਗ ਬਣਾਓ - ٹਾਈਮਆਊਟ ਲਗਾਓ ਤਾਂ ਕਿ ਡਿਪੈਂਡੈਂਸੀ ਦੇ ਲਈ ਖ਼ਤਮ ਨਾ ਹੋਵੋ - ਨਿਯੰਤਰਿਤ ਰੀਟ੍ਰਾਈ (ਸੰਖਿਆ ਹੱਦ, ਬੈਕਆਫ) ਵਰਤੋ ਤਾਂ ਕਿ ਸਿਸਟਮ ਤੇ ਭਾਰੀ ਲੋਡ ਨਾ ਬਣੇ - ਲਿਮਿਟਜ਼ (ਰੇਟ/ਸਾਈਜ਼/ਕਨਕਰੰਸੀ) ਜੋੜੋ ਤਾਂ ਕਿ ਇੱਕ ਬੁਰਾ ਰਿਕਵੇਸਟ ਸਾਰਾ ਕੁਝ ਖੱਟ ਨਾ ਕਰ ਦੇ ਗੁਰਦੇਸ: ਜਦੋਂ ਕੁਝ ਗਲਤ ਹੋਵੇ ਤਾਂ ਡਿਗਰੇਡੇਸ਼ਨ ਨਾਲ ਅਹੰਕਾਰ ਥੋੜ੍ਹਾ ਕੰਮ ਚਲਦਾ ਰਹੇ।

Q: When should a system fail-closed vs fail-open?

ਖਤਰੇ ਦੇ ਆਧਾਰ 'ਤੇ ਫੈਸਲਾ ਕਰੋ: - Fail-closed ਜਦੋਂ ਸਹੀਪਣ/ਸੁਰੱਖਿਆ ਮਹੱਤਵਪੂਰਨ ਹੋਵੇ (auth, payments) - Fail-open ਜਦੋਂ ਉਪਲੱਬਧਤਾ ਜ਼ਰੂਰੀ ਹੋਵੇ ਅਤੇ ਪ੍ਰਭਾਵ ਘੱਟ ਹੋਵੇ (ਕੁਝ ਗੈਰ-ਮਹੱਤਵਪੂਰਨ ਫੀਚਰ) ਇਹ ਫੈਸਲਾ ਪਹਿਲਾਂ ਹੀ ਲਿਖੋ ਅਤੇ ਮਾਨੀਟਰੀੰਗ ਇਹ ਦਿਖਾਏ ਕਿ fallback ਮੋਡ ਕਦੋਂ ਸਰਗਰਮ ਹੈ।

Q: What does a good incident response process look like for a small team?

ਇਕ ਛੋਟੀ ਟੀਮ ਲਈ: - ਰੁਟੀਨ ਬਣਾਓ: on-call ਸ਼ੈਡਿਊਲ ਤੇ escalation paths - ਛੋਟੇ, ਖੋਜਯੋਗ runbooks ਰੱਖੋ - ਘਟਨਾ ਵਿੱਚ ਭੂਮਿਕਾਵਾਂ ਨਿਰਧਾਰਤ ਕਰੋ (incident commander, comms, SMEs) - Blameless postmortems ਕਰੋ ਅਤੇ ਕਾਰਵਾਈਆਂ ਟਰੈਕ ਕਰੋ ਕਾਮਯਾਬੀ ਨੂੰ ਮਾਪੋ: ਪਤਾ ਲੱਗਣ ਦਾ ਸਮਾਂ, ਨਿਯੰਤ੍ਰਣ ਲਾਉਣ ਦਾ ਸਮਾਂ, ਅਤੇ ਕੀ ਸੋਧ ਦੁਹਰਾਈ ਨਹੀਂ ਹੁੰਦੀਆਂ।

ਲੌਗ ਇਨ ਸ਼ੁਰੂ ਕਰੋ

ਮਾਰਗਰੇਟ ਹੈਮਿਲਟਨ ਦੀਆਂ ਅਪੋਲੋ ਸਿਖਿਆਵਾਂ: ਅੱਜ ਦੇ ਭਰੋਸੇਯੋਗ ਸੌਫਟਵੇਅਰ ਲਈ | Koder.ai

ਕਿਉਂ Margaret Hamilton ਅਜੇ ਵੀ ਭਰੋਸੇਯੋਗਤਾ ਲਈ ਅਹਿਮ ਹੈ

Margaret Hamilton ਨੇ MIT ਦੀ Instrumentation Laboratory (ਜੋ ਬਾਅਦ ਵਿੱਚ Draper Laboratory ਬਣੀ) ਵਿੱਚ NASA ਦੇ Apollo ਮਿਸ਼ਨਾਂ ਲਈ ਬੋਰਡ-ਆਨ ਫ਼ਲਾਈਟ ਸੌਫਟਵੇਅਰ ਬਣਾਉਣ ਵਾਲੀ ਟੀਮ ਦੀ ਅਗਵਾਈ ਕੀਤੀ। ਉਹ ਇਕੱਲੀ ਵਿਅਕਤੀ ਵਜੋਂ ਆਧੁਨਿਕ ਸੌਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ ਦਾ ਬਣਾਉਣ ਵਾਲਾ ਨਹੀਂ ਸੀ, ਪਰ ਉਹਦੀ ਕੰਮ ਅਤੇ ਨੇਤ੍ਰਿਤਵ ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ ਕਿਵੇਂ ਅਨੁਸ਼ਾਸ਼ਤ ਅਭਿਆਸ ਪਰੇਸ਼ਾਨੀ ਦੇ ਸਮੇਂ ਵਿੱਚ ਜਟਿਲ ਸਿਸਟਮਾਂ ਨੂੰ ਭਰੋਸੇਯੋਗ ਰੱਖਦੇ ਹਨ।

ਭਰੋਸੇਯੋਗਤਾ, ਸਧਾਰਨ ਲਫ਼ਜ਼ਾਂ ਵਿੱਚ

ਸੌਫਟਵੇਅਰ ਭਰੋਸੇਯੋਗਤਾ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਤੁਹਾਡਾ ਉਤਪਾਦ ਉਮੀਦਾਂ ਅਨੁਸਾਰ ਕੰਮ ਕਰਦਾ ਹੈ—ਅਤੇ ਉਹਨਾਂ ਹਾਲਤਾਂ ਵਿੱਚ ਵੀ ਕੰਮ ਕਰਨਾ ਜਾਰੀ ਰੱਖਦਾ ਹੈ ਜਦੋਂ ਹਾਲਤਾਂ ਗੜਬੜ ਹਨ: ਵੱਧ ਟ੍ਰੈਫਿਕ, ਖਰਾਬ ਇਨਪੁੱਟ, ਅੰਸ਼ਿਕ ਠਹਿਰਾਵ, ਮਨੁੱਖੀ ਗਲਤੀਆਂ, ਅਤੇ ਹੈਰਾਨ ਕਰਨ ਵਾਲੇ ਏਜ ਕੇਸ। ਇਹ ਸਿਰਫ "ਘੱਟ ਬੱਗ" ਨਹੀਂ; ਇਹ ਐਸਾ ਵਿਸ਼ਵਾਸ ਹੈ ਕਿ ਸਿਸਟਮ ਪੇਸ਼ ਕੋਈ ਅਚਾਨਕ ਵਿਹਾਰ ਨਹੀਂ ਕਰੇਗਾ, ਸੁਰੱਖਿਅਤ ਤਰੀਕੇ ਨਾਲ ਫੇਲ ਹੋਵੇਗਾ ਅਤੇ ਤੇਜ਼ੀ ਨਾਲ ਵਾਪਸ ਆਵੇਗਾ।

ਕਿਉਂ ਅਪੋਲੋ ਇਕ ਲਾਭਦਾਇਕ ਕੇਸ-ਸਟਡੀ ਹੈ

ਅਪੋਲੋ ਦੇ ਪਾਬੰਧ ਨਹੀਂ ਦਿਨਦਾਰ ਸਾਫਲਤਾ ਲਈ ਦਿਸ਼ਾ ਸਪਸ਼ਟ ਕਰਦੇ ਸਨ: ਸੀਮਿਤ ਕંપਿੂਟਿੰਗ ਪਾਵਰ, ਮਿਡ-ਫਲਾਈਟ "ਹੌਟਫਿਕਸ" ਦੀ ਅਸਮਰਥਾ, ਅਤੇ ਨੁਕਸਾਨ ਦੇ ਤੁਰੰਤ ਤੇ ਭਾਰੀ ਨਤੀਜੇ। ਇਹ ਪਾਬੰਧ ਟੀਮਾਂ ਨੂੰ ਅਜਿਹੇ ਆਦਤਾਂ ਵੱਲ ਧੱਕਦੇ ਰਹੇ ਜੋ ਅਜੇ ਵੀ ਲਾਗੂ ਹੁੰਦੀਆਂ ਹਨ: ਨਿੱਕੀ-ਨਿੱਖਰੀਆਂ ਲੋੜਾਂ, ਧਿਆਨ ਨਾਲ ਚੇਂਜ ਕੰਟਰੋਲ, ਪਰਤਦਾਰ ਟੈਸਟਿੰਗ, ਅਤੇ "ਕੀ ਗਲਤ ਹੋ ਸਕਦਾ ਹੈ" ਤੇ ਇਕ ਜੋਰ।

ਤੁਹਾਨੂੰ ਰਾਕੇਟ ਬਣਾਉਣ ਦੀ ਲੋੜ ਨਹੀਂ ਕਿ ਇਹ ਸਬਕ ਲਾਗੂ ਹੋਣ। ਆਧੁਨਿਕ ਟੀਮਾਂ ਹਰ ਰੋਜ਼ ऐसे ਸਿਸਟਮ ਛੱਡਦੀਆਂ ਹਨ ਜਿਨ੍ਹਾਂ ਤੇ ਲੋਕ ਨਿਰਭਰ ਕਰਦੇ ਹਨ—ਭੁਗਤਾਨ, ਹੈਲਥਕੇਅਰ ਪੋਰਟਲ, ਲੌਜਿਸਟਿਕਸ, ਕਸਟਮਰ ਸਪੋਰਟ ਟੂਲ, ਜਾਂ ਮਾਰਕੀਟਿੰਗ ਸਪੀਕ ਦੇ ਦੌਰਾਨ ਸਾਇਨਅਪ ਫਲੋ। ਦਾਅਵੇ ਵੱਖ-ਵੱਖ ਹੋ ਸਕਦੇ ਹਨ, ਪਰ ਪੈਟਰਨ ਇੱਕੋ ਹੈ: ਭਰੋਸੇਯੋਗਤਾ ਆਖਰੀ ਮਿੰਟ ਦਾ ਟੈਸਟ ਨਹੀਂ; ਇਹ ਇਕ ਇੰਜੀਨੀਅਰਿੰਗ ਦਾ ਢੰਗ ਹੈ ਜੋ ਚੰਗੇ ਨਤੀਜੇ ਦੁਹਰਾ ਸਕੇ।

ਅਪੋਲੋ ਦੇ ਪਾਬੰਧ ਅਤੇ ਕਿਉਂ ਉਹ ਨੇ ਅਨੁਸ਼ਾਸ਼ਨ ਮਜਬੂਰ ਕੀਤਾ

ਅਪੋਲੋ ਸੌਫਟਵੇਅਰ ਸਬ ਤੋਂ ਸਿੱਧੇ ਤੌਰ 'ਤੇ ਸੇਫਟੀ-ਕ੍ਰਿਟੀਕਲ ਸੀ: ਇਹ ਸਿਰਫ ਕਿਸੇ ਬਿਜਨਸ ਪ੍ਰਕਿਆ ਨੂੰ ਸਹਾਇਤਾ ਨਹੀਂ ਕਰ ਰਿਹਾ ਸੀ—ਇਹ ਅਸਟਰੋਨੌਟਾਂ ਦੀ ਜ਼ਿੰਦਗੀ ਨਿਭਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰ ਰਿਹਾ ਸੀ, ਜਦੋਂ ਕਿ ਵਾਹਨ ਨੂੰ ਨੈਵੀਗੇਟ, ਉਤਰਾਈ ਅਤੇ ਡਾਕਿੰਗ ਕਰਵਾਈ ਜਾਂਦੀ ਸੀ। ਇੱਕ ਗਲਤ ਮੁੱਲ, ਇੱਕ ਛੁੱਟਿਆ ਟਾਈਮਿੰਗ ਵਿੰਡੋ, ਜਾਂ ਇੱਕ ਗੁੰਝਲਦਾਰ ਡਿਸਪਲੇ ਇੱਕ ਛੋਟੀ ਗਲਤੀ ਨਹੀਂ ਸੀ; ਇਹ ਮਿਸ਼ਨ ਦੇ ਨਤੀਜੇ ਬਦਲ ਸਕਦਾ ਸੀ।

ਉਹ ਪਾਬੰਧ ਜਿਨ੍ਹਾਂ ਨੇ "ਬਾਅਦ ਵਿੱਚ ਠੀਕ ਕਰਾਂਗੇ" ਲਈ ਕੋਈ ਥਾਂ ਨਹੀਂ ਛੱਡੀ

ਅਪੋਲੋ ਦੇ ਕੰਪਿਊਟਰਾਂ ਦੇ ਕੋਲ ਬਹੁਤ ਹੀ ਸੀਮਿਤ ਕੰਪਿਊਟਿੰਗ ਪਾਵਰ ਅਤੇ ਮੈਮੋਰੀ ਸੀ। ਹਰ ਫੀਚਰ ਕੰਗਾਲ ਰਿਸੋਰਸ ਲਈ ਮੁਕਾਬਲਾ ਕਰਦਾ ਸੀ, ਅਤੇ ਹਰ ਇਕ ਵਾਧੂ ਹਦਾਇਤ ਦੀ ਇੱਕ ਅਸਲੀ ਲਾਗਤ ਸੀ। ਟੀਮਾਂ ਇਨਫ਼ੀਸ਼ਨਸੀਜ਼ ਨੂੰ ਵੱਡੇ ਸਰਵਰ ਜਾਂ ਹੋਰ RAM ਨਾਲ ਛੁਪਾ ਨਹੀਂ ਸਕਦੀਆਂ ਸਨ।

ਇਸ ਤੋਂ ਵੀ ਮਹੱਤਵਪੂਰਣ, ਮਿਡ-ਫਲਾਈਟ ਪੈਚ ਕਰਨਾ ਆਮ ਵਿਕਲਪ ਨਹੀਂ ਸੀ। ਜਦੋਂ ਵਾਹਨ ਰਸਤੇ 'ਤੇ ਹੁੰਦਾ, ਅਪਡੇਟਸ ਖਤਰਨਾਕ ਅਤੇ ਪ੍ਰਕਿਰਿਆਵਾਂ, ਕਮਿਊਨੀਕੇਸ਼ਨ ਸੀਮਾਵਾਂ, ਅਤੇ ਮਿਸ਼ਨ ਟਾਈਮਿੰਗ ਨਾਲ ਸੀਮਿਤ ਹੁੰਦੀਆਂ। ਭਰੋਸੇਯੋਗਤਾ ਨੂੰ ਲਾਂਚ ਤੋਂ ਪਹਿਲਾਂ ਡਿਜ਼ਾਇਨ ਕਰਨਾ ਅਤੇ ਦਿਖਾਉਣਾ ਲਾਜ਼ਮੀ ਸੀ।

ਨੁਕਸਾਨ ਦੀ ਲਾਗਤ ਨੇ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਰੂਪ ਦਿੱਤਾ

ਜਦੋਂ ਨੁਕਸਾਨ ਮਹਿੰਗਾ ਹੋਵੇ—ਮਾਨਵ ਸੁਰੱਖਿਆ, ਮਿਸ਼ਨ ਦੀ ਹਾਨੀ, ਅਤੇ ਰਾਸ਼ਟਰੀ ਭਰੋਸੇਯੋਗਤਾ ਵਿੱਚ—ਤਾਂ ਅਨੁਸ਼ਾਸ਼ਨ ਬੇ-ਵਿਕਲਪ ਹੋ ਜਾਂਦਾ ਹੈ। ਸਪਸ਼ਟ ਲੋੜਾਂ, ਧਿਆਨ ਨਾਲ ਚੇਂਜ ਕੰਟਰੋਲ, ਅਤੇ ਕੜੀ ਟੈਸਟਿੰਗ ਕੋਈ ਬਿਊਰੋਕਰੈਸੀ ਨਹੀਂ ਸਨ; ਇਹ ਅਨਿਸ਼ਚਿਤਤਾ ਘਟਾਉਣ ਲਈ ਵਾਜਿਬ ਔਜ਼ਾਰ ਸਨ।

ਅਪੋਲੋ ਟੀਮਾਂ ਨੂੰ ਇਹ ਵੀ ਮੰਨਨਾ ਪਿਆ ਕਿ ਤਣਾਅ ਹੇਠ ਮਨੁੱਖ ਸਿਸਟਮ ਨਾਲ ਅਣਉਮੀਦ ਤਰੀਕਿਆਂ ਨਾਲ ਇੰਟਰੈਕਟ ਕਰਨਗੇ। ਇਸ ਨੇ ਸੌਫਟਵੇਅਰ ਨੂੰ ਸਪਸ਼ਟ ਬਿਹੈਵੀਅਰ ਅਤੇ ਸੁਰੱਖਿਅਤ ਡੀਫਾਲਟ ਵੱਲ ਧੱਕਿਆ।

ਅਸੀਂ ਅੱਜ ਕੀ ਨਕਲ ਕਰ ਸਕਦੇ/ਨਹੀਂ ਕਰ ਸਕਦੇ

ਬਹੁਤ ਸਾਰੇ ਆਧੁਨਿਕ ਉਤਪਾਦ ਇੰਨੇ ਸੇਫਟੀ-ਕ੍ਰਿਟੀਕਲ ਨਹੀਂ ਹਨ, ਅਤੇ ਅਸੀਂ ਅਕਸਰ ਬਾਰ-ਬਾਰ ਅਪਡੇਟ ਡਿਪਲੌਏ ਕਰ ਸਕਦੇ ਹਾਂ। ਇਹ ਇੱਕ ਵੱਡਾ ਫਾਇਦਾ ਹੈ।

ਪਰ ਸਬਕ ਇਹ ਨਹੀਂ ਕਿ "ਹਰ ਐਪ ਨੂੰ ਅਪੋਲੋ ਸਮਝੋ।" ਸਬਕ ਇਹ ਹੈ ਕਿ ਪ੍ਰੋਡਕਸ਼ਨ ਨੂੰ ਉਹ ਵਾਤਾਵਰਣ ਮਾਨੋ ਜੋ ਗਣਨਾ ਕਰਦਾ ਹੈ, ਅਤੇ ਆਪਣੇ ਅਨੁਸ਼ਾਸ਼ਨ ਨੂੰ ਆਪਣੇ ਰਿਸਕ ਦੇ ਅਨੁਸਾਰ ਮਿਲਾਓ। ਭੁਗਤਾਨ, ਹੈਲਥਕੇਅਰ, ਟਰਾਂਸਪੋਰਟੇਸ਼ਨ, ਜਾਂ ਢਾਂਚਾ ਵਾਲੀਆਂ ਸਰਵਿਸਜ਼ ਲਈ, ਅਪੋਲੋ-ਜਿਹੀ ਸਖ਼ਤੀ ਅਜੇ ਵੀ ਲਾਗੂ ਹੁੰਦੀ ਹੈ। ਘੱਟ-ਰਿਸਕ ਫੀਚਰਾਂ ਲਈ, ਤੁਸੀਂ ਤੇਜ਼ੀ ਨਾਲ ਅੱਗੇ ਵਧ ਸਕਦੇ ਹੋ ਪਰ ਉਹੀ ਮਨੋਭਾਵ ਰੱਖੋ: ਫੇਲ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰੋ, ਬਦਲਾਅ ਨਿਯੰਤਰਿਤ ਕਰੋ, ਅਤੇ ਸ਼ਿਪ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਤਿਆਰੀ ਦਿਖਾਓ।

ਪ੍ਰੋਡਕਸ਼ਨ ਰੈਡੀਨੈੱਸ: ਟੈਸਟਿੰਗ ਦੇ ਪਿੱਛੇ ਅਸਲ ਮਕਸਦ

ਟੈਸਟਿੰਗ ਜ਼ਰੂਰੀ ਹੈ, ਪਰ ਇਹ ਅਖੀਰਲਾ ਨਿਸ਼ਾਨਾ ਨਹੀਂ ਹੈ। ਅਪੋਲੋ ਦਾ ਕੰਮ ਸanu ਯਾਦ ਦਲਵਾਂਦਾ ਹੈ ਕਿ ਅਸਲ ਮਕਸਦ ਹੈ ਪ੍ਰੋਡਕਸ਼ਨ ਰੈਡੀਨੈੱਸ: ਉਹ ਪਲ ਜਦੋਂ ਸੌਫਟਵੇਅਰ ਅਸਲ ਹਾਲਤਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰ ਸਕੇ—ਖਰਾਬ ਇਨਪੁੱਟ, ਅੰਸ਼ਿਕ ਠਹਿਰਾਵ, ਮਨੁੱਖੀ ਗਲਤੀਆਂ—ਅਤੇ ਫਿਰ ਵੀ ਸੁਰੱਖਿਅਤ ਤਰੀਕੇ ਨਾਲ ਕੰਮ ਕਰੇ।

"ਪ੍ਰੋਡਕਸ਼ਨ ਰੀਡੀ" ਦਾ ਮਤਲਬ ("ਟੈਸਟ ਪਾਸ" ਤੋਂ ਬਾਹਰ)

ਇੱਕ ਸਿਸਟਮ ਪ੍ਰੋਡਕਸ਼ਨ ਰੀਡੀ ਹੈ ਜਦੋਂ ਤੁਸੀਂ ਸਾਦੀ ਭਾਸ਼ਾ ਵਿੱਚ ਸਮਝਾ ਸਕਦੇ ਹੋ:

ਇਹ ਕੀ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਅਤੇ ਕੀ ਕਦੇ ਨਹੀਂ ਕਰਨਾ ਚਾਹੀਦਾ। ਇਹ ਲੋੜਾਂ ਸਫਲਤਾ ਅਤੇ ਨਾਕਾਮੀ ਦੀਆਂ ਹੱਦਾਂ ਦੱਸਦੀਆਂ ਹਨ, ਸਿਰਫ ਫੀਚਰ ਨਹੀਂ।
ਤੁਹਾਨੂੰ ਕਿਹੜੇ ਜੋਖਮ ਪਤਾ ਹਨ। ਹਰ ਖਤਰੇ ਨੂੰ ਹਟਾਇਆ ਨਹੀਂ ਜਾ ਸਕਦਾ; ਰੈਡੀਨੈੱਸ ਦਾ ਮਤਲਬ ਹੈ ਜੋਖਮ ਦਾ ਨਾਂ ਲੈਣਾ, ਸੀਮਿਤ ਕਰਨਾ, ਅਤੇ ਜਾਣ-ਬੁਝ ਕੇ ਸਵੀਕਾਰ ਕਰਨਾ।
ਤੁਸੀਂ ਸਮੱਸਿਆ ਨੂੰ ਕਿਵੇਂ ਪਛਾਣੋਗੇ ਅਤੇ ਉੱਥੋਂ ਕਿਵੇਂ ਬਹਾਲ ਕਰੋਂਗੇ। ਜੇ ਕੋਈ ਚੀਜ਼ ਰਾਤ 2 ਵਜੇ ਟੁੱਟਦੀ ਹੈ, ਤਾਂ ਯੋਜ਼ਨਾ ਕਿਸੇ ਕਿਸਮ ਦੀ ਕਿਸਮਤ ਜਾਂ ਮੌਖਿਕ ਗਿਆਨ 'ਤੇ ਨਿਰਭਰ ਨਹੀਂ ਹੋਣੀ ਚਾਹੀਦੀ।

"ਨੋ ਸਰਪ੍ਰਾਈਜ਼" ਰਿਲੀਜ਼

ਅਪੋਲੋ-ਯੁੱਗ ਦੀ ਅਨੁਸ਼ਾਸ਼ਨ ਪੇਸ਼ਗੀਯੋਗਤਾ ਲਈ ਸੀ: ਬਦਲਾਅ ਅਜਿਹੇ ਨਹੀਂ ਹੋਣੇ ਚਾਹੀਦੇ ਜੋ ਸਭ ਤੋਂ ਨੁਕਸਾਨਦਾਇਕ ਸਮੇਂ ਤੇ ਅਣਜਾਣ ਵਿਹਾਰ ਲੈ ਕੇ ਆਉਣ। "ਨੋ ਸਰਪ੍ਰਾਈਜ਼" ਰਿਲੀਜ਼ ਉਹ ਹੁੰਦੀ ਹੈ ਜਿੱਥੇ ਟੀਮ ਇਹ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਜਵਾਬ ਦੇ ਸਕਦੀ: ਕੀ ਬਦਲਿਆ? ਇਹ ਕਿਸ ਨੂੰ ਪ੍ਰਭਾਵਤ ਕਰ ਸਕਦਾ ਹੈ? ਅਸੀਂ ਤੇਜ਼ੀ ਨਾਲ ਕਿਵੇਂ ਪਤਾ ਲਗਾਵਾਂਗੇ ਕਿ ਕੁਝ ਗਲਤ ਹੋ ਰਿਹਾ ਹੈ? ਜੇ ਇਹ ਜਵਾਬ ਅਸਪਸ਼ਟ ਹਨ, ਤਾਂ ਰਿਲੀਜ਼ ਤਿਆਰ ਨਹੀਂ ਹੈ।

ਆਮ ਰੈਡੀਨੈੱਸ ਗੈਪਾਂ ਤੇ ਧਿਆਨ

ਮਜ਼ਬੂਤ ਟੈਸਟ ਸਿਟ ਵੀ ਵਾਸਤਵਿਕ ਗੈਪਾਂ ਨੂੰ ਛੁਪਾ ਸਕਦੇ ਹਨ:

ਮੌਨਿਟਰਿੰਗ ਗਾਇਬ ਜਾਂ ਸ਼ੋਰ ਵਾਲੀ (ਤੁਸੀਂ ਨਹੀਂ ਪਤਾ ਕਰ ਸਕਦੇ ਕਿ ਯੂਜ਼ਰ ਦੁਖੀ ਹਨ)
ਅਸਪਸ਼ਟ ਮਾਲਕੀ (ਅਲਰਟ ਆਉਣ 'ਤੇ ਕੋਈ ਜਵਾਬਦੇਹ ਨਹੀਂ)
ਕੋਈ ਰੋਲਬੈਕ ਜਾਂ ਸੁਰੱਖਿਅਤ ਫਾਲਬੈਕ ਰਸਤਾ ਨਹੀਂ (ਫੇਲ ਹੋ ਜਾਣ ਤੇ ਇਸਨੂੰ ਵਾਪਸ ਨਹੀਂ ਕੀਤਾ ਜਾ ਸਕਦਾ)
ਰਨਬੁਕਸ ਜੋ ਮੌਜੂਦ ਨਹੀਂ ਜਾਂ ਹਕੀਕਤ ਨਾਲ ਮੇਲ ਨਹੀਂ ਖਾਂਦੇ

ਪ੍ਰੋਡਕਸ਼ਨ ਰੈਡੀਨੈੱਸ ਟੈਸਟਿੰਗ ਨਾਲ਼ ਸਪਸ਼ਟਤਾ ਹੈ: ਸਪਸ਼ਟ ਲੋੜਾਂ, ਵਿਖਾਈ ਦੇਣ ਵਾਲਾ ਜੋਖਮ, ਅਤੇ ਸੁਰੱਖਿਆ ਵੱਲ ਵਾਪਸੀ ਲਈ ਅਭਿਆਸ ਕੀਤਾ ਰਸਤਾ।

ਸਾਫ ਲੋੜਾਂ ਅਤੇ ਫੇਲਿਅਰ ਹਾਲਤਾਂ ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ

Make Mobile More Reliable

Create a Flutter app from chat and focus on edge cases and safe defaults.

Build Mobile

"ਲੋੜਾਂ" ਤਕਨੀਕੀ ਲੱਗ ਸਕਦੀਆਂ ਹਨ, ਪਰ ਖ਼ਿਆਲ ਸਧਾਰਨ ਹੈ: ਸਿਸਟਮ ਨੂੰ ਸਹੀ ਮੰਨਣ ਲਈ ਕੀ ਸੱਚ ਹੋਣਾ ਚਾਹੀਦਾ।

ਇੱਕ ਚੰਗੀ ਲੋੜ ਇਹ ਨਹੀਂ ਦੱਸਦੀ ਕਿ ਕਿਵੇਂ ਬਣਾਉਣਾ ਹੈ। ਇਹ ਇੱਕ ਦੇਖਣਯੋਗ ਨਤੀਜਾ ਦਸਦੀ ਹੈ—ਕੋਈ ਵਿਅਕਤੀ ਇਸਨੂੰ ਵੈਰੀਫਾਈ ਕਰ ਸਕੇ। ਅਪੋਲੋ ਦੇ ਪਾਬੰਧਾਂ ਨੇ ਇਹ ਸੋਚ ਮਜ਼ਬੂਤ ਕੀਤੀ ਕਿਉਂਕਿ ਤੁਸੀਂ ਉਡਾਣ ਵਿਚ ਵਾਹਨ ਨਾਲ ਬਹਿਸ ਨਹੀਂ ਕਰ ਸਕਦੇ: ਜਾਂ ਸਿਸਟਮ ਨਿਰਧਾਰਿਤ ਹਾਲਤਾਂ ਵਿੱਚ ਕੰਮ ਕਰਦਾ ਹੈ, ਜਾਂ ਨਹੀਂ।

ਅਸਪਸ਼ਟਤਾ ਛੁਪੇ ਹੋਏ ਫੇਲਿਅਰ ਮੋਡ ਬਣਾਉਂਦੀ ਹੈ

ਅਸਪਸ਼ਟ ਲੋੜਾਂ ਖਤਰੇ ਨੂੰ ਸਧੇ ਤੌਰ 'ਤੇ ਛੁਪਾਉਂਦੀਆਂ ਹਨ। ਜੇ ਲੋੜ ਕਹਿੰਦੀ "ਐਪ ਨੂੰ ਤੇਜ਼ ਲੋਡ ਹੋਣਾ ਚਾਹੀਦਾ" ਤਾਂ "ਤੇਜ਼" ਦਾ ਕੀ ਮਤਲਬ—1 ਸਕਿੰਟ, 5 ਸਕਿੰਟ, ਧੀਮੀ Wi‑Fi 'ਤੇ, ਪੁਰਾਣੇ ਫੋਨ 'ਤੇ? ਟੀਮਾਂ ਅਣਜਾਣੇ ਤੌਰ 'ਤੇ ਵੱਖ-ਵੱਖ ਭਾਵ ਭੇਜ ਦਿੰਦੀਆਂ ਹਨ, ਅਤੇ ਗੈਪ ਫੇਲ ਹੋ ਕੇ ਸਾਹਮਣੇ ਆ ਜਾਂਦੇ ਹਨ:

ਯੂਜ਼ਰ ਫਲੋ ਛੱਡ ਦਿੰਦੇ ਹਨ।
ਸਪੋਰਟ ਟਿਕਟਾਂ ਵੱਧ ਜਾਂਦੀਆਂ ਹਨ।
ਇੱਕ "ਦੇਰ-ਬਾਰ" ਏਜ ਕੇਸ ਮੁੜ ਮੁੜ ਕੇ ਇਕ ਇੰਸੀਡੈਂਟ ਬਣ ਜਾਂਦਾ ਹੈ।

ਅਸਪਸ਼ਟਤਾ ਟੈਸਟਿੰਗ ਨੂੰ ਵੀ ਤੋੜ ਦਿੰਦੀ ਹੈ। ਜੇ ਕੋਈ ਨਹੀਂ ਕਹਿ ਸਕਦਾ ਕਿ ਕੀ ਹੋਣਾ ਚਾਹੀਦਾ, ਤਾਂ ਟੈਸਟਜ਼ ਸਿਰਫ ਰਾਏਆਂ ਦਾ ਸੰਗ੍ਰਹਿ ਬਣ ਜਾਂਦੇ ਹਨ।

ਹਲਕੀ-ਫ਼ੁਲਕੀ ਪ੍ਰਥਾਵਾਂ ਜੋ ਕੰਮ ਕਰਦੀਆਂ ਹਨ

ਤੁਹਾਨੂੰ ਭਾਰੀ ਦਸਤਾਵੇਜ਼ੀ ਲੋੜ ਨਹੀਂ। ਛੋਟੀਆਂ ਆਦਤਾਂ ਹੀ ਕਾਫ਼ੀ ਹਨ:

Acceptance criteria: ਇੱਕ ਛੋਟੀਆਂ ਪਾਸ/ਫੇਲ ਬਿਆਨੀਆਂ।
Concrete examples: "Given X, when Y, then Z." (ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼)
Edge cases: ਉਹ ਅਜੀਬ ਪਰ ਹਕੀਕਤੀ ਸਥਿਤੀਆਂ (ਖਾਲੀ ਇਨਪੁੱਟ, ਟਾਈਮਆਊਟ, ਡਬਲ-ਕਲਿਕ, ਘੱਟ ਬੈਟਰੀ, ਆਊਟ-ਆਫ-ਆਰਡਰ ਇਵੈਂਟ)

ਇਕ ਸਧਾਰਨ ਟੈਮਪਲੇਟ ਜੋ ਤੁਸੀਂ ਦੁਹਰਾਉ ਸਕਦੇ ਹੋ

ਕਿਸੇ ਚੀਜ਼ ਨੂੰ ਬਣਾਉਣ ਜਾਂ ਬਦਲਣ ਤੋਂ ਪਹਿਲਾਂ ਇਹ ਭਰੋ:

User need:
Success condition (what must be true):
Failure condition (what must never happen, or what we do instead):
Notes / examples / edge cases:

ਜੇ ਤੁਸੀਂ "failure condition" ਭਰ ਨਹੀਂ ਪਾ ਰਹੇ, ਤਾਂ ਸੰਭਵ ਹੈ ਕਿ ਤੁਸੀਂ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਹਿੱਸਾ ਗੁਆ ਲਿਆ ਹੈ: ਹੇਪੀ ਪਾਥ ਨਾਲ ਸੱਚ ਨਾਂ ਮਿਲਣ 'ਤੇ ਸਿਸਟਮ ਨੂੰ ਕਿਵੇਂ ਵਿਵਹਾਰ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ।

ਚੇਂਜ ਕੰਟਰੋਲ: ਡਿਫੌਲਟ ਤੌਰ 'ਤੇ ਸੌਫਟਵੇਅਰ ਨੂੰ ਸੁਰੱਖਿਅਤ ਬਣਾਉਣਾ

ਅਪੋਲੋ-ਯੁੱਗ ਦਾ ਕੰਮ ਚੇਂਜ ਕੰਟਰੋਲ ਨੂੰ ਇਕ ਸੁਰੱਖਿਆ ਖਾਸੀਅਤ ਵਜੋਂ ਦੇਖਦਾ ਸੀ: ਬਦਲਾਅ ਛੋਟੇ ਰੱਖੋ, ਉਹਨਾਂ ਨੂੰ ਸਮੀਖਿਆਯੋਗ ਬਣਾਓ, ਅਤੇ ਉਹਨਾਂ ਦਾ ਪ੍ਰਭਾਵ ਜਾਣਯੋਗ ਬਣਾਓ। ਇਹ ਬਿਊਰੋਕਰੇਸੀ ਨਹੀਂ—ਇਹ ਇਹੋ ਤਰੀਕਾ ਹੈ ਕਿ "ਛੋਟੇ" ਸੰਪਾਦਨ ਮਿਸ਼ਨ-ਪੱਧਰੀ ਨੁਕਸਾਨ ਵਿਚ ਨਹੀਂ ਬਦਲਣ।

ਛੋਟੇ, ਸਮੀਖਿਆ ਕੀਤੇ ਬਦਲਾਅ ਹੀ ਹੀਰੋਇਕ ਆਖਰੀ-ਮਿੰਟ ਠੀਕ ਕਰਨ ਤੋਂ ਬੇਤਰ ਹਨ

ਆਖਰੀ-ਮਿੰਟ ਬਦਲਾਅ ਖਤਰਨਾਕ ਹੁੰਦੇ ਹਨ ਕਿਉਂਕਿ ਉਹ ਆਮ ਤੌਰ 'ਤੇ ਵੱਡੇ (ਜਾਂ ਠੀਕ ਤਰ੍ਹਾਂ ਸਮਝੇ ਨਹੀਂ ਗਏ), ਜਲਦੀ ਰਿਵਿਊ ਕੀਤੇ ਜਾਂਦੇ, ਅਤੇ ਉਹ ਸਮਾਂ ਆਉਂਦੇ ਹਨ ਜਦੋਂ ਟੀਮ ਕੋਲ ਟੈਸਟ ਕਰਨ ਲਈ ਘੱਟ ਸਮਾਂ ਹੁੰਦਾ। ਤਰੱਕੀ ਨੂੰ ਪ੍ਰਬੰਧਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ ਜੇ ਤੁਸੀਂ ਬਲਾਸਟ ਰੇਡੀਅਸ ਘਟਾ ਦਿਓ:

ਇੱਕ ਵੱਡੇ ਫਿਕਸ ਦੀ ਥਾਂ ਕਈ ਛੋਟੇ ਪુલ ਰਿਕਵੈਸਟ ਪਸੰਦ ਕਰੋ।
ਸਭ ਤੋਂ ਸੁਰੱਖਿਅਤ ਸੰਸਕਰਨ ਪਹਿਲਾਂ ਰਿਲੀਜ਼ ਕਰੋ, ਫਿਰ ਇਟਰੇਟ ਕਰੋ।
ਜੇ ਕੋਈ ਬਦਲਾਅ ਤੇਜ਼ੀ ਨਾਲ ਵੈਰੀਫਾਈ ਨਹੀਂ ਹੋ ਸਕਦਾ, ਤਾਂ ਉਸਨੂੰ ਟਾਲੋ ਅਤੇ ਮਿਟਿਗੇਸ਼ਨ ਸ਼ਾਮਿਲ ਕਰੋ (ਡਿਫਾਲਟ ਤੌਰ 'ਤੇ ਫੀਚਰ ਫਲੈਗ ਬੰਦ, ਸਿਰਫ ਕਨਫਿਗਰੇਸ਼ਨ-ਅਧਾਰਿਤ ਵਰਕਅਰਾਊਂਡ, ਜਾਂ ਲਕੜੀ ਦਰਜਾ ਮਾਨੀਟਰੀੰਗ)।

ਵਰਜਨਿੰਗ + ਪੀਅਰ ਰਿਵਿਊ + ਟਰੇਸੇਬਿਲਿਟੀ

ਭਰੋਸੇਯੋਗ ਟੀਮਾਂ ਕਿਸੇ ਵੀ ਸਮੇਂ ਇਹ ਤਿੰਨ ਸਵਾਲਾਂ ਦਾ ਜਵਾਬ ਦੇ ਸਕਦੀਆਂ ਹਨ: ਕੀ ਬਦਲਿਆ, ਕਿਉਂ ਬਦਲਿਆ, ਅਤੇ ਕਿਸਨੇ ਮਨਜ਼ੂਰ ਕੀਤਾ।

ਵਰਜਨਿੰਗ "ਕਿਆ" ਦਿੰਦੀ ਹੈ (ਰਿਲੀਜ਼ ਵਿੱਚ ਠੀਕ ਕੋਡ ਅਤੇ ਕਨਫਿਗਰੇਸ਼ਨ)। ਪੀਅਰ ਰਿਵਿਊ "ਕੀ ਇਹ ਸੁਰੱਖਿਅਤ ਹੈ?" ਦਾ ਦੂਜਾ ਨਜ਼ਰੀਆ ਦਿੰਦਾ ਹੈ। ਟਰੇਸੇਬਲ ਫੈਸਲੇ—ਚੇਂਜ ਨੂੰ ਟਿਕਟ, ਇੰਸੀਡੈਂਟ, ਜਾਂ ਲੋੜ ਨਾਲ ਲਿੰਕ ਕਰਨਾ—"ਕਿਉਂ" ਦਿਖਾਉਂਦੇ ਹਨ, ਜੋ ਬਾਅਦ ਵਿੱਚ ਰਿਗ੍ਰੈਸ਼ਨ ਜਾਂਚਣ ਵੇਲੇ ਜਰੂਰੀ ਹੁੰਦਾ ਹੈ।

ਇੱਕ ਸਧਾਰਨ ਨੀਅਮ ਮਦਦ ਕਰਦਾ: ਹਰ ਬਦਲਾਅ ਵਾਪਸ ਕਰਨਯੋਗ ਹੋਵੇ (ਰੋਲਬੈਕ, ਰੀਵਰਟ, ਜਾਂ ਫੀਚਰ ਫਲੈਗ ਰਾਹੀਂ) ਅਤੇ ਇਸ ਨੂੰ ਇੱਕ ਛੋਟੇ ਫੈਸਲਾ ਨੋਟ ਨਾਲ ਸਮਝਾਇਆ ਜਾਵੇ।

ਪ੍ਰਯੋਗਿਕ ਗਾਰਡਰੇਲਸ ਜੋ ਤੁਹਾਨੂੰ ਸਲੋ ਨਹੀਂ ਕਰਨਗੇ

ਇੱਕ ਹਲਕਾ-ਫੁਲਕੀ branching ਰਣਨੀਤੀ ਬਿਨਾਂ ਨਟਕਾਂ ਦੇ ਅਨੁਸ਼ਾਸ਼ਨ ਲਾਗੂ ਕਰ ਸਕਦੀ:

ਛੋਟੇ-ਸਮੇਂ ਵਾਲੇ ਬ੍ਰਾਂਚਜ਼ ਜੋ ਅਕਸਰ main ਵਿੱਚ ਮਰਜ ਹੁੰਦੇ ਹਨ।
ਪ੍ਰੋਟੈਕਟਡ main ਬ੍ਰਾਂਚ: ਸਿੱਧੇ pushes ਮਨਾਂਹ।
ਮਰਜ ਤੋਂ ਪਹਿਲਾਂ ਆਟੋਮੈਟਿਕ ਚੈਕ ਲਾਜ਼ਮੀ (ਟੈਸਟ, ਲਿੰਟਿੰਗ, ਸੁਰੱਖਿਆ ਸਕੈਨ)।

ਉੱਚ-ਖਤਰੇ ਵਾਲੇ ਖੇਤਰਾਂ (ਭੁਗਤਾਨ, auth, ਡੇਟਾ ਮਾਈਗ੍ਰੇਸ਼ਨ, ਸੇਫਟੀ-ਕ੍ਰਿਟੀਕਲ ਲੋਜਿਕ) ਲਈ, ਵਾਧੂ ਮਨਜ਼ੂਰੀਆਂ ਸ਼ਾਮਿਲ ਕਰੋ:

ਕਿਸੇ ਕੋਡ ਓਨਰ ਤੋਂ ਰਿਵਿਊ ਲਾਜ਼ਮੀ ਕਰੋ।
"ਰਿਸਕੀ ਬਦਲਾਅ" ਲਈ ਚੈੱਕਲਿਸਟ ਵਰਤੋ (ਬੈਕਵਰਡ ਕਾਮਪੈਟਬਿਲਿਟੀ, ਰੋਲਬੈਕ ਯੋਜਨਾ, ਮਾਨੀਟਰੀੰਗ)।

ਮਕਸਦ ਸਧਾਰਨ ਹੈ: ਸੁਰੱਖਿਅਤ ਰਸਤਾ ਸਭ ਤੋਂ ਆਸਾਨ ਬਣੋ—ਤਾਂ ਜੋ ਭਰੋਸੇਯੋਗਤਾ ਤਕਨੀਕੀ ਨਹੀਂ, ਕਿਸੇ ਖ਼ਬਰਤੱਵ ਦੀ ਨਹੀਂ, ਪਰ ਡਿਫੌਲਟ ਹੋ ਕੇ ਹੋਵੇ।

ਟੈਸਟਿੰਗ ਲੇਅਰ ਜੋ ਵੱਖ-ਵੱਖ ਕਿਸਮ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਫੜਦੇ ਹਨ

ਅਪੋਲੋ ਟੀਮਾਂ "ਟੈਸਟਿੰਗ" ਨੂੰ ਆਖਰੀ ਵੱਡੇ ਇਵੈਂਟ ਵਜੋਂ ਨਹੀਂ ਲੈਂਦੀਆਂ। ਉਹ ਬਹੁਤ ਸਾਰੇ ਤਬਲੀਗੀ ਚੈੱਕਾਂ 'ਤੇ ਨਿਰਭਰ ਰਹੇ—ਹਰ ਇੱਕ ਵੱਖ-ਵੱਖ ਕਿਸਮ ਦੀ ਫੇਲ ਨੂੰ ਫੜਨ ਲਈ ਬਣਾਇਆ ਗਿਆ—ਕਿਉਂਕਿ ਹਰ ਪਰਤ ਵੱਖ-ਵੱਖ ਅਨਿਸ਼ਚਿਤਤਾ ਘਟਾਉਂਦੀ ਹੈ।

ਵਿਚਾਰ: ਲੇਅਰਡ ਚੈਕ, ਇੱਕ ਮਹਾਨ ਟੈਸਟ ਨਹੀਂ

ਟੈਸਟਾਂ ਨੂੰ ਇੱਕ ਸਟੈਕ ਵਜੋਂ ਸੋਚੋ:

Unit tests ਛੋਟੇ ਲਾਜਿਕ ਟੁਕੜਿਆਂ ਨੂੰ ਅਲੱਗ-ਅਲੱਗ ਜਾਂਚਦੇ ਹਨ। ਇਹ ਤੇਜ਼ ਹੁੰਦੇ ਹਨ ਅਤੇ ਸ਼ੁਰੂਆਤੀ ਰਿਗ੍ਰੈਸ਼ਨ ਕੈਚ ਕਰਨ ਲਈ ਚੰਗੇ ਹਨ।
Integration tests ਜਾਂਚਦੇ ਹਨ ਕਿ ਕੰਪੋਨੈਂਟ ਕਿਵੇਂ ਇਕੱਠੇ ਕੰਮ ਕਰਦੇ ਹਨ (APIs, ਡੇਟਾਬੇਸ ਕਾਲ, ਮੈਸੇਜ਼ ਕਿਊ)। ਬਹੁਤ ਸਾਰੀਆਂ ਅਸਲ ਸਮੱਸਿਆਵਾਂ seams ਵਿੱਚ ਰਹਿੰਦੀਆਂ ਹਨ।
System tests ਕਨਫਿਗਰੇਸ਼ਨ ਅਤੇ ਪਰਮਿਸ਼ਨ ਸਮੇਤ ਪੂਰੇ ਐਪ ਨੂੰ ਇੱਕ ਕੰਟਰੋਲਡ ਵਾਤਾਵਰਣ ਵਿੱਚ ਵੈਰੀਫਾਈ ਕਰਦੇ ਹਨ।
End-to-end (E2E) tests ਅਸਲ ਯੂਜ਼ਰ ਯਾਤਰਾਵਾਂ ਦੀ ਨਕਲ ਕਰਦੇ ਹਨ। ਇਹ ਧੀਰੇ ਅਤੇ ਜ਼ਿਆਦਾ brittle ਹੁੰਦੇ ਹਨ, ਪਰ ਉਤਪਾਦ ਯੂਜ਼ਰ ਦੇ ਨਜ਼ਰੀਏ ਤੋਂ ਕੰਮ ਕਰਦਾ ਹੈ ਇਹ ਪੁਸ਼ਟੀ ਕਰਨ ਲਈ ਕੀਮਤੀ ਹਨ।

ਕੋਈ ਇਕ ਪਰਤ "ਸੱਚ" ਨਹੀਂ ਹੈ। ਇਕੱਠੇ ਹੋ ਕੇ, ਉਹ ਇੱਕ ਸੁਰੱਖਿਆ ਜਾਲ ਬਣਾਉਂਦੇ ਹਨ।

ਉੱਥੇ ਜਿੱਥੇ ਫੇਲ ਮਹਿੰਗਾ ਹੋਵੇ, ਉੱਥੇ ਸਭ ਤੋਂ ਵੱਧ ਕੋਸ਼ਿਸ਼ ਲਗਾਓ

ਹਰ ਫੀਚਰ ਇੱਕੋ ਜਿਹੀ ਟੈਸਟਿੰਗ ਲਈ ਯੋਗ ਨਹੀਂ। ਰਿਸਕ-ਅਧਾਰਤ ਟੈਸਟਿੰਗ ਵਰਤੋ:

ਜੇ ਬੱਗ ਡੇਟਾ ਨੁਕਸਾਨ, ਵਿੱਤੀ ਗਲਤੀਆਂ, ਜਾਂ ਸੁਰੱਖਿਆ-ਸੰਬੰਧੀ ਮੁੱਦੇ ਪੈਦਾ ਕਰ ਸਕਦੀ ਹੈ, ਤਾਂ ਵੱਧ ਨਿਵੇਸ਼ ਕਰੋ (ਵਧੇਰੇ ਦ੍ਰਿਸ਼ਟੀਕੋਣ, ਨਕਾਰਾਤਮਕ ਟੈਸਟ, ਕੜੀ ਸਮੀਖਿਆ)।
ਜੇ ਫੇਲ ਉਲਟ-ਪਾਲਟਯੋਗ ਤੇ ਪਰੇਸ਼ਾਨੀਯੋਗ ਹੈ, ਤਾਂ ਕਵਰੇਜ ਘੱਟ ਰੱਖੋ ਅਤੇ ਮਾਨੀਟਰੀੰਗ ਤੇ ਤੇਜ਼ ਰੋਲਬੈਕ 'ਤੇ ਧਿਆਨ ਦਿਓ।

ਇਹ ਦ੍ਰਿਸ਼ਟੀ ਟੈਸਟਿੰਗ ਨੂੰ ਦਰਸਕਾਰੀ ਨਹੀਂ, ਹਕੀਕਤੀ ਬਣਾਉਂਦੀ ਹੈ।

ਹਕੀਕਤੀ ਵਾਤਾਵਰਣ ਅਤੇ ਟੈਸਟ ਡੇਟਾ—ਬਿਨਾਂ ਸਿਰੇਟ ਨਿਸ਼ਾਨੇ ਰੱਖਣ ਦੇ

ਟੈਸਟ ਉਤਨਾ ਹੀ ਚੰਗਾ ਹੈ ਜਿੰਨਾ ਕਿ ਉਹ ਕੀ ਸਿਮੂਲੇਟ ਕਰਦੇ ਹਨ। ਉਤਪਾਦਨ ਦੇ ਸਮਾਨ ਵਾਤਾਵਰਣ ਲਈ ਕੋਸ਼ਿਸ਼ ਕਰੋ (ਓਹੀ configs, ਮਿਲਦਾ ਜੁਲਦਾ scale, ਉਹੀ ਡਿਪੈਂਡੈਂਸੀ), ਪਰ ਸੈਨਿਟਾਈਜ਼ਡ ਜਾਂ ਸਿੰਥੇਟਿਕ ਡੇਟਾ ਵਰਤੋ। ਨਿੱਜੀ ਜਾਂ ਸੰਵੇਦਨਸ਼ੀਲ ਫੀਲਡ ਬਦਲੋ, ਪ੍ਰਤੀਨਿਧੀ ਡੇਟਾਸੈੱਟ ਬਣਾਓ, ਅਤੇ ਪਹੁੰਚ ਨੂੰ ਕਸਕੇ ਨਿਯੰਤਰਿਤ ਕਰੋ।

ਟੈਸਟਿੰਗ ਅਨਿਸ਼ਚਿਤਤਾ ਘਟਾਉਂਦੀ ਹੈ—ਇਹ ਪੂਰਨਤਾ ਦਾ ਸਾਬਤ ਨਹੀਂ

ਚੰਗੀ ਕਵਰੇਜ ਵੀ ਸੌਫਟਵੇਅਰ ਨੂੰ ਬੇਦੋਸ਼ ਸਾਬਤ ਨਹੀਂ ਕਰ ਸਕਦੀ। ਪਰ ਇਹ ਕਰ ਸਕਦੀ ਹੈ:

ਜਾਣੇ-ਪਹਚਾਣੇ ਫੇਲ ਮੋਡਾਂ ਦੀ ਸੰਭਾਵਨਾ ਘਟਾਉਣਾ,
ਅਣਉਮੀਦ ਇੰਟਰੈਕਸ਼ਨਾਂ ਦੀ ਖੋਜ,
ਅਤੇ ਦਿਖਾਉਣਾ ਕਿ ਸਿਸਟਮ ਦਬਾਅ ਹੇਠ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ।

ਇਹ ਮਨੋਭਾਵ ਟੀਮਾਂ ਨੂੰ ਇਮਾਨਦਾਰ ਰੱਖਦਾ: ਲਕੜੀ-ਨਿਸ਼ਾਨਾ ਘੱਟ ਸਰਪ੍ਰਾਈਜ਼, ਨਾ ਕਿ ਪੂਰਨ ਸਕੋਰਕਾਰਡ।

ਰੱਖਿਆਮੁਖੀ ਡਿਜ਼ਾਇਨ: ਅਣਉਮੀਦ ਦੀ ਉਮੀਦ ਕਰੋ

Design for Failure Paths

Prototype a critical user flow and define success and failure conditions as you build.

Create App

ਅਪੋਲੋ ਸੌਫਟਵੇਅਰ perfect ਹਾਲਤਾਂ ਮਨ ਕੇ ਨਹੀਂ ਚਲ ਸਕਦੇ: ਸੈਂਸਰ ਗਲਤੀਆਂ ਕਰਦੇ ਹਨ, ਸਵਿੱਚ ਬਾਊਂਸ ਕਰਦੇ ਹਨ, ਅਤੇ ਤਣਾਅ ਹੇਠ ਮਨੁੱਖ ਗਲਤੀਆਂ ਕਰਦੇ ਹਨ। Hamilton ਦੀ ਟੀਮਾਂ ਇੱਕ ਐਸਾ ਮਨੋਭਾਵ ਅਪਣਾਉਂਦੀਆਂ ਸਨ ਜੋ ਅੱਜ ਵੀ ਫ਼ਾਇਦੇਮੰਦ ਹੈ: ਸਿਸਟਮ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਡਿਜ਼ਾਇਨ ਕਰੋ ਜਿਵੇਂ ਕਿ ਇਹ ਹੈਰਾਨ ਕੀਤਾ ਜਾਵੇਗਾ—ਕਿਉਂਕਿ ਇਹ ਹੋਵੇਗਾ।

ਰੱਖਿਆਮੁਖੀ ਪ੍ਰੋਗ੍ਰਾਮਿੰਗ (ਸਧਾਰਨ ਸ਼ਬਦਾਂ ਵਿੱਚ)

ਰੱਖਿਆਮੁਖੀ ਪ੍ਰੋਗ੍ਰਾਮਿੰਗ ਦਾ ਮਤਲਬ ਹੈ ਅਜਿਹਾ ਸੌਫਟਵੇਅਰ ਲਿਖਣਾ ਜੋ ਖਰਾਬ ਇਨਪੁੱਟ ਅਤੇ ਅਣਉਮੀਦ ਹਾਲਤਾਂ ਨੂੰ ਸਹਿਣਯੋਗ ਤਰੀਕੇ ਨਾਲ ਹਲ ਕਰੇ। ਹਰ-mੂੱਲ 'ਤੇ ਭਰੋਸਾ ਕਰਨ ਦੀ ਥਾਂ, ਤੁਸੀਂ ਇਸ ਦੀ ਜਾਂਚ ਕਰੋ, ਇਸਨੂੰ ਸੁਰੱਖਿਅਤ ਸੀਮਾ ਵਿੱਚ ਰੱਖੋ, ਅਤੇ "ਇਹ ਕਦੇ ਨਹੀਂ ਹੋਣਾ ਚਾਹੀਦਾ" ਨੂੰ ਇੱਕ ਅਸਲ ਸਥਿਤੀ ਮੰਨੋ।

ਉਦਾਹਰਣ ਵਜੋਂ: ਜੇ ਐਪ ਨੂੰ ਖਾਲੀ ਪਤਾ ਮਿਲਦਾ ਹੈ, ਤਾਂ ਰੱਖਿਆਮੁਖੀ ਚੋਣ ਇਹ ਹੈ ਕਿ ਇਸਨੂੰ ਸਪਸ਼ਟ ਸੁਨੇਹੇ ਨਾਲ ਰਿਜੈਕਟ ਕਰੋ ਅਤੇ ਘਟਨਾ ਲੌਗ ਕਰੋ—ਨਾਹ ਕਿ ਖਾਮੋਸ਼ੀ ਨਾਲ ਗਲਤ ਡੇਟਾ ਸੇਵ ਕਰ ਦਿਓ ਜੋ ਬਾਅਦ ਵਿੱਚ ਬਿੱਲਿੰਗ ਨੂੰ ਤੋੜ ਦੇਵੇ।

ਨਰਮ-ਘਟਾਓ (graceful degradation) ਇਕ ਪੂਰੇ ਆਊਟੇਜ ਨਾਲੋਂ ਵਧੀਆ ਹੈ

ਜਦੋਂ ਕੁਝ ਗਲਤ ਹੁੰਦਾ, ਅੰਗ-ਭਾਅਗ ਸੇਵਾ ਆਮ ਤੌਰ 'ਤੇ ਪੂਰੀ ਤਰ੍ਹਾਂ ਬੰਦ ਹੋਣ ਨਾਲੋਂ ਵਧੀਆ ਹੁੰਦੀ ਹੈ। ਇਹ graceful degradation ਹੈ: ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਫੰਕਸ਼ਨ ਨੂੰ ਚਾਲੂ ਰੱਖੋ ਅਤੇ ਗੈਰ-ਲਾਜ਼ਮੀ ਫੀਚਰ ਨੂੰ ਸੀਮਿਤ ਜਾਂ ਬੰਦ ਕਰੋ।

ਜੇ ਤੁਹਾਡਾ ਸੁਝਾਅ ਇੰਜ਼ਿਨ ਫੇਲ ਕਰ ਜਾਦਾ, ਤਾਂ ਯੂਜ਼ਰ ਫਿਰ ਵੀ ਖੋਜ ਅਤੇ ਚੈੱਕਆਉਟ ਕਰ ਸਕਣ। ਜੇ ਪੇਮੈਂਟ ਪ੍ਰਦਾਤਾ ਹੌਲੀ ਹੈ, ਤਾਂ ਤੁਸੀਂ ਨਵੇਂ ਭੁਗਤਾਨ ਕੋਸ਼ਿਸ਼ਾਂ ਨੂੰ ਰੋਕ ਸਕਦੇ ਹੋ ਪਰ ਗਾਹਕਾਂ ਨੂੰ ਬ੍ਰਾਊਜ਼ ਅਤੇ ਕਾਰਟ ਸੇਵ ਕਰਨ ਦਿਓ।

ਟਾਈਮਆਊਟ, ਰੀਟ੍ਰਾਈਜ਼, ਅਤੇ ਹੱਦਾਂ

ਬਹੁਤ ਸਾਰੀਆਂ ਪ੍ਰੋਡਕਸ਼ਨ ਫੇਲ ਬੱਗਸ ਨਹੀਂ, ਬਲਕਿ ਸਿਸਟਮ ਬੇਇੰਤਜ਼ਾਰ ਇੰਤਜ਼ਾਰ ਕਰਨ ਜਾਂ ਬੇਤੁਕੀ ਕੋਸ਼ਿਸ਼ਾਂ ਕਰਨ ਕਰਕੇ ਹੁੰਦੀਆਂ ਹਨ।

Timeouts ਤੁਹਾਡੇ ਐਪ ਨੂੰ ਡੇਟਾਬੇਸ, API, ਜਾਂ ਤੀਜੀ-ਪਾਰਟੀ ਸੇਵਾ ਲਈ ਬੇਅੰਤ ਇੰਤਜ਼ਾਰ ਕਰਨ ਤੋਂ ਰੋਕਦੇ ਹਨ।
Retries ਅਸਥਾਈ ਹਿੱਕਜ਼ ਵਿੱਚ ਮਦਦ ਕਰਨਗੇ—ਪਰ ਉਹਨਾਂ ਨੂੰ ਨਿਯੰਤ੍ਰਿਤ ਕੀਤਾ ਜਾਣਾ ਚਾਹੀਦਾ (ਛੋਟਾ ਨੰਬਰ, ਬੈਕਆਫ), ਨਹੀਂ ਤਾਂ ਉਹ ਲੋਡ ਨੂੰ ਗੁਣਾ ਦੇ ਸਕਦੇ ਹਨ ਅਤੇ ਇੱਕ ਇੰਸੀਡੈਂਟ ਨੂੰ ਬਦਤਰ ਕਰ ਸਕਦੇ ਹਨ।
Limits (ਰੇਟ ਲਿਮਿਟ, ਸਾਈਜ਼ ਲਿਮਿਟ, ਇਕੱਠੀ concurrency ਹੱਦ) ਇੱਕ ਮਾੜੇ ਰਿਕਵੇਸਟ ਜਾਂ ਇੱਕ ਸ਼ੋਰ-ਕਲਾਇੰਟ ਨੂੰ ਸਭ ਕੁਝ ਖਪਾਉਣ ਤੋਂ ਰੋਕਦੇ ਹਨ।

ਸੁਰੱਖਿਅਤ ਡੀਫਾਲਟ: fail-closed vs fail-open

ਜਦੋਂ ਤੁਸੀਂ ਅਣਜਾਣ ਹੋ, ਤੁਹਾਡੇ ਡੀਫਾਲਟ ਸੁਰੱਖਿਅਤ ਹੋਣੇ ਚਾਹੀਦੇ। "Fail-closed" ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਜੇ ਕੋਈ ਲਾਜ਼ਮੀ ਜਾਂਚ ਪੂਰੀ ਨਹੀਂ ਹੋ ਸਕਦੀ ਤਾਂ ਐਕਸ਼ਨ ਨੂੰ ਰੱਦ ਕਰ ਦਿਓ (ਸੁਰੱਖਿਆ ਅਤੇ ਭੁਗਤਾਨਾਂ ਲਈ ਆਮ)। "Fail-open" ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਸੇਵਾ ਉਪਲੱਬਧ ਰਹੇ (ਕਈ ਗੈਰ-ਮਹੱਤਵਪੂਰਨ ਫੀਚਰਾਂ ਲਈ ਕਬੂਲਯੋਗ)।

ਅਪੋਲੋ ਸਬਕ ਇਹ ਹੈ ਕਿ ਇਹ ਵਰਤਾਰਾ ਪਹਿਲਾਂ ਹੀ ਨਿਰਧਾਰਤ ਕਰੋ—ਨਹੀਂ ਤਾਂ ਸੰਗਰਾਮ ਨੇ ਤੁਹਾਡੇ ਲਈ ਫੈਸਲਾ ਕਰ ਦੇਵੇਗਾ।

ਮਾਨੀਟਰਿੰਗ ਅਤੇ ਅਲਰਟ: ਰਿਲਾਇਬਿਲਟੀ ਰਿਲੀਜ਼ ਤੋਂ ਬਾਅਦ

ਛੱਡਣਾ ਅਖੀਰਲਾ ਟੈਸਟ ਨਹੀਂ ਹੈ। ਰਿਲਾਇਬਿਲਟੀ ਰਿਲੀਜ਼ ਤੋਂ ਬਾਅਦ ਇਸ ਗੱਲ ਦਾ ਨਿਰੰਤਰ ਉੱਤਰ ਹੈ: ਕੀ ਯੂਜ਼ਰ ਅਜੇ ਵੀ ਸਫਲ ਹੋ ਰਹੇ ਹਨ? ਮਾਨੀਟਰਿੰਗ ਇਹ ਜਾਣਨ ਦਾ ਤਰੀਕਾ ਹੈ—ਅਸਲ ਪ੍ਰੋਡਕਸ਼ਨ ਤੋਂ ਸਿਗਨਲ ਵਰਤ ਕੇ ਇਹ ਪੁਸ਼ਟੀ ਕਰਨ ਲਈ ਕਿ ਸੌਫਟਵੇਅਰ ਅਸਲ ਟ੍ਰੈਫਿਕ, ਅਸਲ ਡੇਟਾ, ਅਤੇ ਅਸਲ ਗਲਤੀਆਂ ਹੇਠ ਕੰਮ ਕਰ ਰਿਹਾ ਹੈ।

ਚਾਰ ਬੁਨਿਆਦੀ ਹਿੱਸੇ (ਸਧਾਰਨ ਭਾਸ਼ਾ ਵਿੱਚ)

Logs ਸੌਫਟਵੇਅਰ ਦੀ ਡਾਇਰੀ ਦੀ ਤਰ੍ਹਾਂ ਹਨ। ਉਹ ਦੱਸਦੇ ਹਨ ਕਿ ਕੀ ਹੋਇਆ ਅਤੇ ਕਿਉਂ (ਉਦਾਹਰਣ: "payment declined" ਅਤੇ ਰੀਜ਼ਨ ਕੋਡ)। ਚੰਗੇ ਲੌਗ ਨਾਂ-ਮਿੱਤ ਜਾਣ-ਪਛਾਣ ਯੋਗ ਬਣਾਉਂਦੇ ਹਨ।

Metrics ਸਕੋਰਕਾਰਡ ਹਨ। ਉਹ ਵਰਤਾਰਾ ਨੰਬਰਾਂ ਵਿੱਚ ਬਦਲਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਨੂੰ ਤੁਸੀਂ ਸਮੇਂ ਦੇ ਨਾਲ ਟਰੈਕ ਕਰ ਸਕਦੇ ਹੋ: error rate, response time, queue depth, sign-in success rate।

Dashboards ਕਾਕਪਿਟ ਹਨ। ਉਹ ਮੁੱਖ ਮੈਟਰਿਕ ਇਕ ਥਾਂ 'ਤੇ ਦਿਖਾਉਂਦੇ ਹਨ ਤਾਂ ਕਿ ਕੋਈ ਮਨੁੱਖ ਤੇਜ਼ੀ ਨਾਲ ਰੁਝਾਨ ਦੇਖ ਸਕੇ: "ਚੀਜ਼ਾਂ ਹੌਲੀ ਹੋ ਰਹੀਆਂ ਨੇ" ਜਾਂ "ਰਿਲੀਜ਼ ਤੋਂ ਬਾਅਦ errors spike ਹੋਏ।"

Alerts smoke alarm ਹਨ। ਉਹਨਾਂ ਨੂੰ ਸਿਰਫ ਐਸੇ ਸਮੇਂ ਜਗਾਉਣਾ ਚਾਹੀਦਾ ਜਦੋਂ ਅਸਲ ਜ਼ਰੂਰਤ ਹੋਵੇ—ਜਾਂ ਉੱਚ ਖਤਰੇ ਦਾ ਸੰਕੇਤ ਹੋਵੇ।

ਅਲਰਟ ਦੀ ਗੁਣਵੱਤਾ ਅਹੰਕਾਰ ਨਾਲੋਂ ਵੱਧ ਮਹੱਤਵਪੂਰਨ ਹੈ

ਸ਼ੋਰ ਵਾਲੇ ਅਲਰਟ ਟੀਮਾਂ ਨੂੰ ਉਨਾਂ ਨੂੰ ਅਣਡਿੱਠਾ ਕਰਨਾ ਸਿੱਖਾਉਂਦੇ ਹਨ। ਇੱਕ ਚੰਗਾ ਅਲਰਟ:

Actionable: ਇਹ ਦੱਸਦਾ ਹੈ ਕਿ ਯੂਜ਼ਰ ਪ੍ਰਭਾਵ ਕੀ ਹੋ ਸਕਦਾ ਹੈ ਅਤੇ ਸਭ ਤੋਂ ਪਹਿਲਾਂ ਕੀ ਚੈੱਕ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ।
Timely: ਇਹ ਕਾਫ਼ੀ ਜਲਦੀ ਫਾਇਰ ਹੋਵੇ ਤਾਂ ਕਿ ਵਿਆਪਕ ਫੇਲ ਰੋਕਿਆ ਜਾ ਸਕੇ।
Calibrated: ਇਹ ਅਜਿਹੇ thresholds 'ਤੇ ਅਧਾਰਿਤ ਹੋਵੇ ਜੋ ਅਸਲ ਨੁਕਸਾਨ ਦਰਸਾਉਂਦੇ ਹਨ, ਨਾਹ ਕਿ ਛੋਟੇ ਉਤਾਰ-ਚੜ੍ਹਾਵ।

ਮਾਨੀਟਰ ਕਰਨ ਲਈ ਇੱਕ ਸ਼ੁਰੂਆਤੀ ਸੈਟ

ਜ਼ਿਆਦਾਤਰ ਉਤਪਾਦਾਂ ਲਈ, ਸ਼ੁਰੂ ਕਰੋ:

Error rate: ਕੀ ਰਿਕਵੇਸਟਸ ਸਧਾਰਨ ਤੋਂ ਜ਼ਿਆਦਾ ਫੇਲ ਹੋ ਰਹੀਆਂ ਹਨ?
Latency: ਕੀ ਯੂਜ਼ਰ ਬਹੁਤ ਲੰਬਾ ਇੰਤਜ਼ਾਰ ਕਰ ਰਹੇ ਹਨ?
Availability: ਕੀ ਸਿਸਟਮ ਚਾਲੂ ਅਤੇ ਪਹੁੰਚਯੋਗ ਹੈ?
Key business actions: ਕੀ ਯੂਜ਼ਰ ਮਹੱਤਵਪੂਰਨ ਪाथ ਪੂਰਾ ਕਰ ਸਕਦੇ ਹਨ (signup, checkout, upload, message sent)?

ਇਹ ਸਿਗਨਲ ਨਤੀਜਿਆਂ 'ਤੇ ਧਿਆਨ ਰੱਖਦੇ ਹਨ—ਬਿਲਕੁਲ ਓਹੀ ਜੋ ਭਰੋਸੇਯੋਗਤਾ ਬਾਰੇ ਹੈ।

ਇੰਸੀਡੈਂਟ ਰਿਸਪਾਂਸ ਇੰਜੀਨੀਅਰਿੰਗ ਅਨੁਸ਼ਾਸ਼ਨ ਦਾ ਹਿੱਸਾ

ਭਰੋਸੇਯੋਗਤਾ ਸਿਰਫ ਟੈਸਟਾਂ ਨਾਲ ਨਹੀਂ ਦਰਸਾਈ ਜਾਂਦੀ; ਇਹ ਇਸ ਨਾਲ ਦਰਸਾਈ ਜਾਂਦੀ ਹੈ ਜੋ ਤੁਸੀਂ ਕਰਦੇ ਹੋ ਜਦੋਂ ਹਕੀਕਤ ਤੁਹਾਡੇ ਅਨੁਮਾਨਾਂ ਨਾਲ ਨਹੀਂ ਮਿਲਦੀ। ਅਪੋਲੋ-ਯੁੱਗ ਦੀ ਅਨੁਸ਼ਾਸ਼ਨ Anomalies ਨੂੰ ਉਮੀਦ ਵਾਲੇ ਘਟਨਾ ਵਜੋਂ ਦੇਖਦੀ ਸੀ ਜੋ ਠੰਡੇ ਦਿਮਾਗ ਅਤੇ ਲਗਾਤਾਰ ਤੱਤਾਂ ਨਾਲ ਸੰਭਾਲੇ ਜਾਣ। ਆਧੁਨਿਕ ਟੀਮਾਂ ਵੀ ਇਹੀ ਮਨੋਭਾਵ ਅਪਣਾ ਸਕਦੀਆਂ ਹਨ: ਇੰਸੀਡੈਂਟ ਰਿਸਪਾਂਸ ਨੂੰ ਇੱਕ ਪਹਿਲੀ ਦਰਜੇ ਦੀ ਇੰਜੀਨੀਅਰਿੰਗ ਪ੍ਰੈਕਟਿਸ ਬਣਾਉ—ਨਕਲੀ ਦੌੜ ਜਾਂ ਜਲਦੀ ਭੱਜਣ ਵਾਲੀ ਗੜਬੜ ਨਹੀਂ।

ਇੰਸੀਡੈਂਟ ਰਿਸਪਾਂਸ ਦਾ ਮਤਲਬ

ਇੰਸੀਡੈਂਟ ਰਿਸਪਾਂਸ ਉਹ ਪਰਿਭਾਸ਼ਿਤ ਤਰੀਕਾ ਹੈ ਜਿਸ ਨਾਲ ਤੁਸੀਂ ਸਮੱਸਿਆ ਪਛਾਣਦੇ ਹੋ, ਮਾਲਕੀ ਨਿਰਧਾਰਤ ਕਰਦੇ ਹੋ, ਪ੍ਰਭਾਵ ਸੀਮਿਤ ਕਰਦੇ ਹੋ, ਸੇਵਾ ਬਹਾਲ ਕਰਦੇ ਹੋ, ਅਤੇ ਨਤੀਜੇ ਤੋਂ ਸਿੱਖਦੇ ਹੋ। ਇਹ ਇੱਕ ਸਧਾਰਨ ਸਵਾਲ ਦਾ ਜਵਾਬ ਦਿੰਦਾ: ਜਦੋਂ ਚੀਜ਼ਾਂ ਟੁੱਟਦੀਆਂ ਹਨ ਤਾਂ ਕੌਣ ਕੀ ਕਰਦਾ?

ਉਹ ਜ਼ਰੂਰੀ ਚੀਜ਼ਾਂ ਜੋ ਜਵਾਬ ਦੇਣਯੋਗ ਬਣਾਉਂਦੀਆਂ ਹਨ

ਯੋਜਨਾ ਤਦ ਹੀ ਕੰਮ ਕਰੇਗੀ ਜਦ ਇਹ ਤਣਾਅ ਹੇਠ ਵਰਤਣਯੋਗ ਹੋਵੇ। ਮੁਢਲੀਆਂ ਚੀਜ਼ਾਂ ਨਿਰਸ ਪਰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹਨ:

On-call rotation: ਇੱਕ ਸਪਸ਼ਟ ਸ਼ੈਡਿਊਲ ਤਾਂ ਜੋ ਹਮੇਸ਼ਾ ਕੋਈ ਜਵਾਬਦੇਹ ਰੈਸਪਾਂਡਰ ਹੋਵੇ।
Escalation paths: ਕਦੋਂ ਪਲੇਟਫਾਰਮ, ਸੁਰੱਖਿਆ, ਡੇਟਾਬੇਸ, ਜਾਂ ਪ੍ਰੋਡਕਟ ਫੈਸਲੇ ਕਰਨ ਵਾਲੇ ਨੂੰ ਬੁਲਾਇਆ ਜਾਵੇ।
Runbooks: ਆਮ ਫੇਲ ਮੋਡਾਂ ਲਈ ਕਦਮ-ਬ-ਕਦਮ ਕਾਰਵਾਈ (ਉਦਾਹਰਣ: "queue stuck", "payments failing", "high error rate after deploy"). ਉਨ੍ਹਾਂ ਨੂੰ ਛੋਟਾ, searchable, ਅਤੇ ਅਪਡੇਟ ਰੱਖੋ।
Incident roles: incident commander, communications lead, ਅਤੇ subject-matter experts—ਤਾਂ ਜੋ troubleshooting ਅਤੇ stakeholder ਅਪਡੇਟ ਇੱਕ ਦੂਜੇ ਨਾਲ ਟਕਰਾਉਂ ਨਾ।

Blameless postmortems (ਅਤੇ ਕਿਉਂ ਇਹ ਦੁਹਰਾਓ ਰੋਕਦੇ ਹਨ)

ਇੱਕ blameless postmortem ਨਿਜੀ ਦੋਸ਼ 'ਤੇ ਨਾ ਗਿਆਨ ਰੱਖਦੀ ਹੈ। ਮਕਸਦ ਹੈ ਯੋਗਦਾਨੀ ਕਾਰਕ (ਗਾਇਬ ਅਲਰਟ, ਅਸਪਸ਼ਟ ਮਾਲਕੀ, ਖਤਰਨਾਕ ਡੀਫਾਲਟ, ਗੁੰਝਲਦਾਰ ਡੈਸ਼ਬੋਰਡ) ਪਛਾਣ ਕੇ ਉਹਨਾਂ ਨੂੰ ਠੋਸ ਸੁਧਾਰਾਂ ਵਜੋਂ ਬਦਲਣਾ: ਚੰਗੇ ਚੈੱਕ, ਸੁਰੱਖਿਅਤ ਰੋਲਆਊਟ, ਸਪੱਸ਼ਟ ਰਨਬੁਕਸ, ਜਾਂ ਕਠੋਰ ਚੇਂਜ ਕੰਟਰੋਲ।

ਇਕ ਸਧਾਰਨ ਇੰਸੀਡੈਂਟ ਚੈੱਕਲਿਸਟ

Detect: ਲਛਣ ਅਤੇ ਗੰਭੀਰਤਾ ਦੀ ਪੁਸ਼ਟੀ ਕਰੋ (ਕੀ ਟੁੱਟਿਆ, ਕੌਣ ਪ੍ਰਭਾਵਿਤ, ਕਦੋਂ ਤੋਂ?)
Contain: ਖੂਨ ਰੋਕੋ (ਰੋਲਬੈਕ, ਫੀਚਰ ਫਲੈਗ ਬੰਦ, rate-limit, failover)
Communicate: ਅੰਦਰੂਨੀ ਚੈਨਲ ਅਤੇ ਗਾਹਕਾਂ ਨੂੰ ਇਮਾਨਦਾਰ, ਸਮਾਂ-ਟੈਂਪਡ ਨੋਟ ਦੇਵੋ
Recover: ਸਧਾਰਨ ਸੇਵਾ ਬਹਾਲ ਕਰੋ ਅਤੇ ਮੈਟਰਿਕਸ ਨਾਲ ਪਹੁੰਚੀ-ਪੁਸ਼ਟੀ ਕਰੋ, ਅਨੁਮਾਨ ਨਾਲ ਨਹੀਂ
Learn: postmortem ਲਿਖੋ, ਕਾਰਵਾਈਆਂ ਟਰੈਕ ਕਰੋ, ਅਤੇ ਅਗਲੇ ਰਿਲੀਜ਼ ਵਿੱਚ ਸੁਧਾਰਾਂ ਦੀ ਪੁਸ਼ਟੀ ਕਰੋ

ਰਿਲੀਜ਼ ਰੈਡੀਨੈੱਸ: ਚੈੱਕਲਿਸਟ, ਰੋਲਆਊਟ, ਅਤੇ ਰੋਲਬੈੱਕ

Test the Integration Points

Spin up a Go plus PostgreSQL backend and test the seams early.

Build Backend

ਅਪੋਲੋ ਸੌਫਟਵੇਅਰ "ਬਾਅਦ ਵਿੱਚ ਪੈਚ ਕਰਾਂਗੇ" 'ਤੇ ਭਰੋਸਾ ਨਹੀਂ ਕਰ ਸਕਦੇ। ਆਧੁਨਿਕ ਅਨੁਵਾਦ ਇਹ ਨਹੀਂ ਕਿ "ਧੀਰੇ ਸ਼ਿਪ ਕਰੋ"—ਪਰ ਇਹ ਹੈ ਕਿ "ਜਾਣੂ-ਬੁਝ ਕੇ ਸੁਰੱਖਿਆ ਮਾਰਜਿਨ ਨਾਲ ਸ਼ਿਪ ਕਰੋ." ਇੱਕ ਰਿਲੀਜ਼ ਚੈੱਕਲਿਸਟ ਹੀ ਉਹ ਮਾਰਜਿਨ ਵਿਖਾਉਂਦੀ ਅਤੇ ਦੁਹਰਾਏ ਜਾਣਯੋਗ ਬਣਾਉਂਦੀ।

ਰਿਸਕ ਦੇ ਅਨੁਸਾਰ ਚੈੱਕਲਿਸਟ

ਹਰੇਕ ਬਦਲਾਅ ਨੂੰ ਉਨ੍ਹਾਂ ਹੀ ਤੇਜ਼ੀ ਦਾ ਸਮਾਰੋਹ ਦੀ ਲੋੜ ਨਹੀਂ। ਚੈੱਕਲਿਸਟ ਨੂੰ ਇੱਕ ਕੰਟਰੋਲ ਪੈਨਲ ਵਜੋਂ ਸੋਚੋ ਜਿਸਨੂੰ ਤੁਸੀਂ ਡਾਇਲ ਕਰ ਸਕਦੇ ਹੋ:

Low risk (ਕਾਪੀ ਬਦਲਾਅ, ਛੋਟੇ UI ਟਵੀਕ): ਮੂਲ ਜਾਂਚ, ਤੇਜ਼ ਰੋਲਬੈਕ ਰਸਤਾ, ਮਾਨੀਟਰੀੰਗ ਚੈੱਕ
Medium risk (ਨਵਾਂ endpoint, schema change): ਸਟੇਜਡ ਰੋਲਆਊਟ, ਫੀਚਰ ਫਲੈਗ, ਬੈਕਫਿਲ ਯੋਜਨਾ, ਵਾਧੂ ਮਾਨੀਟਰੀੰਗ
High risk (ਭੁਗਤਾਨ, auth, ਮਹੱਤਵਪੂਰਨ ਵਰਕਫਲੋ): canary release, ਸਪਸ਼ਟ ਸਾਈਨ-ਆਫ, rollback drill, ਸਪਸ਼ਟ ਰੋਕ ਕंडीਸ਼ਨ

ਪ੍ਰੀ-ਫਲਾਈਟ ਸਵਾਲ (ਸ਼ਿਪ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਪੁੱਛੋ)

ਚੰਗੀ ਚੈੱਕਲਿਸਟ ਉਹ ਸਵਾਲਾਂ ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦੀ ਜੋ ਲੋਕ ਜਵਾਬ ਦੇ ਸਕਣ:

ਕੀ ਬਦਲਿਆ? (ਸਕੋਪ, ਫਾਈਲ/ਸੇਵਾਵਾਂ ਜਿਨ੍ਹਾਂ ਨੂੰ ਛੂਹਿਆ ਗਿਆ, ਮਾਈਗ੍ਰੇਸ਼ਨ)
ਕੀ ਫੇਲ ਹੋ ਸਕਦਾ ਹੈ? (ਯੂਜ਼ਰ ਪ੍ਰਭਾਵ, ਡੇਟਾ ਇੰਟੈਗ੍ਰਿਟੀ, ਪ੍ਰਦਰਸ਼ਨ, ਸੁਰੱਖਿਆ)
ਤਸੀਂ ਕਿਵੇਂ ਜਾਣੋਗੇ? (ਮੈਟਰਿਕਸ, ਲੌਗ, ਅਲਰਟ; "ਬੁਰਾ" ਕਿਵੇਂ ਦਿਸੇਗਾ)
ਤੁਸੀਂ ਕਿਵੇਂ ਵਾਪਸ ਲਿਆਓਗੇ? (ਰੋਲਬੈਕ ਕਦਮ, toggles, ਡੇਟਾ ਰਿਕਵਰੀ ਯੋਜਨਾ)

ਸੁਰੱਖਿਆ ਲਈ ਡਿਜ਼ਾਈਨ ਕੀਤੇ ਰੋਲਆਊਟ

ਉਹ ਮਿਕੈਨਿਜ਼ਮ ਵਰਤੋ ਜੋ ਬਲਾਸਟ ਰੇਡੀਅਸ ਸੀਮਿਤ ਕਰਦੇ ਹਨ:

Feature flags deploy ਨੂੰ release ਤੋਂ ਅਲੱਗ ਕਰਨ ਲਈ, ਅਤੇ ਤੇਜ਼ੀ ਨਾਲ ਬੰਦ ਕਰਨ ਲਈ।
Staged rollouts (ਪ੍ਰਤੀਸ਼ਤ-ਅਧਾਰਿਤ ਜਾਂ ਖੇਤਰ/ਗਾਹਕ ਸਮੂਹ ਨਾਲ)।
Canary releases ਹਕੀਕਤੀ ਟ੍ਰੈਫਿਕ ਦੇ ਛੋਟੇ ਹਿੱਸੇ 'ਤੇ ਤੰਗ ਮਾਨੀਟਰੀੰਗ ਨਾਲ ਟੈਸਟ ਕਰਨ ਲਈ।

ਜੇ ਤੁਸੀਂ Koder.ai ਵਰਗੇ ਪਲੇਟਫਾਰਮ ਨਾਲ ਬਣਾਉਂਦੇ ਹੋ, ਤਾਂ ਇਹ ਵਿਚਾਰ ਦਿਨ-ਪਰ-ਦਿਨ ਟੀਮਾਂ ਦੇ ਕੰਮ ਨਾਲ ਕੁਦਰਤੀ ਤੌਰ 'ਤੇ ਮਿਲਦੇ ਹਨ: ਬਦਲਾਅ ਨੂੰ ਸਪਸ਼ਟ ਤਰੀਕੇ ਨਾਲ ਯੋਜਨਾ ਬਣਾਓ (Planning Mode), ਛੋਟੇ ਇੰਕਰੀਮੈਂਟ ਵਿਚ ਸ਼ਿਪ ਕਰੋ, ਅਤੇ snapshots ਅਤੇ rollback ਰਾਹੀਂ ਤੇਜ਼ ਬਚਾਉ ਰੱਖੋ। ਟੂਲ ਅਨੁਸ਼ਾਸ਼ਨ ਦੀ ਥਾਂ ਨਹੀਂ ਲੈਂਦਾ—ਪਰ ਇਹ "ਵਾਪਸ ਕਰਨਯੋਗ ਅਤੇ ਸਮਝਣਯੋਗ ਬਦਲਾਅ" ਨੂੰ ਲਗਾਤਾਰ ਅਭਿਆਸ ਕਰਨ ਨੂੰ ਆਸਾਨ ਬਣਾ ਸਕਦਾ ਹੈ।

"ਜਾਉ/ਨੋ-ਗੋ" ਮਾਪਦੰਡ ਅਤੇ ਸਾਈਨ-ਆਫ

ਕਾਰਵਾਈ ਸ਼ੁਰੂ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਫੈਸਲਾ ਨਿਯਮ ਲਿਖੋ:

Go ਜਦੋਂ ਮੁੱਖ ਮੈਟਰਿਕਸ ਸਹਿਮਤ ਥ੍ਰੈਸ਼ਹੋਲਡਾਂ ਦੇ ਅੰਦਰ ਰਹਿੰਦੇ ਹਨ (error rate, latency, conversion, queue depth)
No-Go / Stop ਜਦੋਂ ਥ੍ਰੈਸ਼ਹੋਲਡ ਤੋੜਦੇ ਹਨ, ਨਵੇਂ ਅਲਰਟ ਫਾਇਰ ਹੁੰਦੇ ਹਨ, ਜਾਂ ਮੈਨੂਅਲ ਚੈੱਕ ਫੇਲ ਹੁੰਦੇ ਹਨ

ਮਾਲਕੀ ਸਪਸ਼ਟ ਕਰੋ: ਕੌਣ ਮਨਜ਼ੂਰ ਕਰਦਾ ਹੈ, ਕੌਣ ਰੋਲਆਊਟ ਦੌਰਾਨ ਜ਼ਿੰਮੇਵਾਰ ਹੈ, ਅਤੇ ਕੌਣ ਰੋਲਬੈਕ ਨੂੰ ਬਿਨਾਂ ਝਗੜੇ ਟ੍ਰਿਗਰ ਕਰ ਸਕਦਾ ਹੈ।

ਸੱਭਿਆਚਾਰ ਅਤੇ ਆਦਤਾਂ ਜੋ ਗੁਣਵੱਤਾ ਨੂੰ ਦੁਹਰਾਏ ਜੋਗਾ ਬਣਾਉਂਦੀਆਂ ਹਨ

ਅਪੋਲੋ-ਯੁੱਗ ਦੀ ਭਰੋਸੇਯੋਗਤਾ ਕਿਸੇ ਇਕ ਜਾਦੂਈ ਟੂਲ ਦਾ ਨਤੀਜਾ ਨਹੀਂ ਸੀ। ਇਹ ਇਕ ਸਾਂਝੀ ਆਦਤ ਸੀ: ਇੱਕ ਟੀਮ ਨੇ ਇਹ ਮੰਨਿਆ ਕਿ "ਚੰਗਾ-ਕਾਫੀ" ਕੋਈ ਭਾਵਨਾ ਨਹੀਂ—ਇਹ ਕੁਝ ਐਸਾ ਹੈ ਜੋ ਤੁਸੀਂ ਸਮਝਾ, ਚੈੱਕ, ਅਤੇ ਦੁਹਰਾਉ ਸਕੋ। Hamilton ਦੀਆਂ ਟੀਮਾਂ ਨੇ ਸੌਫਟਵੇਅਰ ਨੂੰ ਇੱਕ ਸਾਂਚਲਨਿਕ ਜ਼ਿੰਮੇਵਾਰੀ ਵਜੋਂ ਦੇਖਿਆ, ਸਿਰਫ਼ ਕੋਡ ਦਾ ਕੰਮ ਨਹੀਂ, ਅਤੇ ਇਹ ਮਨੋਭਾਵ ਆਧੁਨਿਕ ਭਰੋਸੇਯੋਗਤਾ ਨਾਲ ਸਾਫ਼ ਮੇਲ ਖਾਂਦਾ ਹੈ।

ਭਰੋਸੇਯੋਗਤਾ ਇੱਕ ਟੀਮ ਆਦਤ ਹੈ, ਕੋਈ ਟੂਲ ਨਹੀਂ

ਇੱਕ ਟੈਸਟ ਸੂਟ ਅਸਪਸ਼ਟ ਉਮੀਦਾਂ, ਤੁਰੰਤ ਹੱਥ-ਬਦਲ, ਜਾਂ ਸੁਨੇਹਰੇ ਧਾਰਣਾਂ ਦੀ ਮਕਸੂਲਤਾ ਨਹੀਂ ਭਰ ਸਕਦਾ। ਗੁਣਵੱਤਾ ਉਸ ਵੇਲੇ ਦੁਹਰਾਏ ਯੋਗ ਬਣਦੀ ਹੈ ਜਦੋਂ ਹਰ ਕੋਈ ਭਾਗ ਲੈਂਦਾ: ਪ੍ਰੋਡਕਟ ਦੱਸਦਾ ਕਿ "ਸੇਫ" ਦਾ ਕੀ ਮਤਲਬ ਹੈ, ਇੰਜੀਨੀਅਰਿੰਗ ਰੇਲਗੇਟ ਬਣਾਉਂਦੀ, ਅਤੇ ਜੋ ਭਾਗ ਓਪਰੇਸ਼ਨਲ ਜ਼ਿੰਮੇਵਾਰੀ ਸੰਭਾਲਦਾ (SRE, ਪਲੇਟਫਾਰਮ, ਜਾਂ ਇੰਜੀਨੀਅਰਿੰਗ on-call) ਹਕੀਕਤੀ ਸਬਕ ਸਿਸਟਮ ਵਿੱਚ ਵਾਪਸ ਕਰਦਾ।

ਦਸਤਾਵੇਜ਼ੀ ਜੋ ਆਪਣੀ ਕੀਮਤ ਜਤਲਾਉਂਦੀ

ਉਪਯੋਗੀ ਡੌਕ ਨੰਨੇ ਨਹੀਂ ਹੁੰਦੇ—ਉਹ ਕਾਰਵਾਈਯੋਗ ਹੁੰਦੇ ਹਨ। ਤਿੰਨ ਕਿਸਮਾਂ ਜ਼ਿਆਦਾ ਲਾਭਦਾਇਕ ਹਨ:

Decision notes: ਇਕ ਛੋਟਾ ਰਿਕਾਰਡ ਕਿ ਤੁਸੀਂ ਕੀ ਚੁਣਿਆ ਅਤੇ ਕਿਉਂ (ਜਿਨ੍ਹਾਂ ਵਿਕਲਪਾਂ ਨੂੰ ਤੁਸੀਂ ਰੱਦ ਕੀਤਾ)। ਹਫ਼ਤਿਆਂ ਬਾਅਦ, ਇਹ "ਅਕਸਮਾਤਿਕ ਮੁੜ-ਚਰਚਾ" ਨੂੰ ਰੋਕਦਾ ਹੈ।
Runbooks: ਆਮ ਫੇਲਾਂ ਲਈ ਕਦਮ-ਬ-ਕਦਮ ਗਾਈਡ: ਸਭ ਤੋਂ ਪਹਿਲਾਂ ਕੀ ਚੈੱਕ ਕਰਨਾ, ਪ੍ਰਭਾਵ ਕਿਵੇਂ ਘੱਟ ਕਰਨਾ, ਕਦੋਂ escalate ਕਰਨਾ।
Known limitations: ਇਮਾਨਦਾਰ ਸਰਹੱਦਾਂ ("ਇਹ ਵਰਕਫਲੋ X ਮਾਨ ਕੇ ਚੱਲਦਾ", "ਇਹ ਫੀਚਰ Y ਲਈ ਸੁਰੱਖਿਅਤ ਨਹੀਂ")। ਸੀਮਾਵਾਂ ਨਾਂ ਲਿਖਣ ਨਾਲ ਲੋਕ outage ਦੌਰਾਨ ਉਹਨਾਂ ਨੂੰ ਖੋਜਦੇ ਹਨ।

ਸਪਸ਼ਟ ਮਾਲਕੀ ਅਤੇ ਹਲਕੀਆਂ ਰੋਜ਼ਾਨਾ ਰੁਟੀਨਾਂ

ਭਰੋਸੇਯੋਗਤਾ ਤਾਂ ਬਿਹਤਰ ਹੁੰਦੀ ਹੈ ਜਦੋਂ ਹਰ ਸਰਵਿਸ ਅਤੇ ਮਹੱਤਵਪੂਰਨ ਵਰਕਫਲੋ ਦਾ ਨਾਂ-ਤਹਕੀਕ ਮਾਲਿਕ ਹੋਵੇ: ਕੋਈ ਜਿਸਦੀ ਜ਼ਿੰਮੇਵਾਰੀ ਹੈ ਹੈਲਥ, ਬਦਲਾਅ, ਅਤੇ follow-through। ਮਾਲਕੀ ਦਾ ਅਰਥ ਇਕੱਲਾ ਕੰਮ ਨਹੀਂ—ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਜਦ ਕੁਝ ਟੁੱਟੇ ਤਾਂ ਕੋਈ ਗੁੰਝਲ ਨਾ ਹੋਵੇ।

ਰੁਟੀਨਾਂ ਹਲਕੀ ਪਰ ਲਗਾਤਾਰ ਰੱਖੋ:

Reliability reviews ਉੱਚ-ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਬਦਲਾਅ ਲਈ: "ਇਹ ਕਿਵੇਂ ਫੇਲ ਹੋ ਸਕਦਾ? ਅਸੀਂ ਕਿਵੇਂ ਜਾਣਾਂਗੇ? ਰੋਲਬੈਕ ਕੀ ਹੈ?"
Game days (ਛੋਟੀ ਸਿਮੂਲੇਸ਼ਨ) ਪਤਾ ਕਰਨ ਅਤੇ ਵਾਪਸ ਲਿਆਉਣ ਦਾ ਅਭਿਆਸ ਕਰਨ ਲਈ।
Retrospectives with tracked actions: ਘੱਟ "ਸਾਨੂੰ ਕਰਨਾ ਚਾਹੀਦਾ" ਅਤੇ ਜ਼ਿਆਦਾ "ਅਸੀਂ ਸ਼ੁੱਕਰਵਾਰ ਤੱਕ ਕਰਾਂਗੇ", ਮਾਲਿਕ ਅਤੇ ਮਿਤੀ ਨਾਲ।

ਇਹ ਆਦਤਾਂ ਗੁਣਵੱਤਾ ਨੂੰ ਇੱਕ ਇਕ-ਵਾਰੀ ਕੋਸ਼ਿਸ਼ ਤੋਂ ਇੱਕ ਦੁਹਰਾਏ ਯੋਗ ਪ੍ਰਣਾਲੀ ਵਿੱਚ ਬਦਲ ਦਿੰਦੀਆਂ ਹਨ।

ਅੱਜ ਲਈ ਇਕ ਸਧਾਰਨ ਅਪੋਲੋ-ਪ੍ਰੇਰਿਤ ਰਿਲਾਇਬਿਲਟੀ ਚੈੱਕਲਿਸਟ

ਅਪੋਲੋ-ਯੁੱਗ ਦੀ ਅਨੁਸ਼ਾਸ਼ਨ ਜਾਦੂ ਨਹੀਂ ਸੀ—ਇਹ ਆਦਤਾਂ ਦਾ ਇੱਕ ਸਮੂਹ ਸੀ ਜੋ ਫੇਲ ਦੀ ਸੰਭਾਵਨਾ ਘਟਾਉਂਦਾ ਅਤੇ ਬਹਾਲੀ ਨੂੰ ਪੇਸ਼ਗੋਈਯੋਗ ਬਣਾਉਂਦਾ। ਇੱਥੇ ਇੱਕ ਆਧੁਨਿਕ ਚੈੱਕਲਿਸਟ ਹੈ ਜੋ ਤੁਹਾਡੀ ਟੀਮ ਨਕਲ ਅਤੇ ਅਡੈਪਟ ਕਰ ਸਕਦੀ ਹੈ।

ਕੋਡ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ

"ਸਫਲਤਾ" ਅਤੇ "ਅਸੁਰੱਖਿਅਤ" ਵਰਤਾਰਾ ਪਰਿਭਾਸ਼ਿਤ ਕਰੋ: ਕੀ ਕਦੇ ਵੀ ਨਹੀਂ ਹੋਣਾ (ਡੇਟਾ ਨੁਕਸਾਨ, ਗਲਤ ਬਿਲਿੰਗ, ਪ੍ਰਾਈਵੇਸੀ ਲੀਕ, ਅਸੁਰੱਖਿਅਤ ਕੰਟਰੋਲ ਐਕਸ਼ਨ)
ਅਨੁਮਾਨ ਅਤੇ ਸੀਮਾਵਾਂ ਲਿਖੋ (latency, memory, rate limits, offline ਵਿਹਾਰ)
ਟੋਪ ਰਿਸਕਾਂ ਦੀ ਪਛਾਣ ਕਰੋ ਅਤੇ ਫੈਸਲਾ ਕਰੋ ਕਿ ਤੁਸੀਂ ਉਹਨਾਂ ਨੂੰ ਕਿਵੇਂ ਡਿਟੈਕਟ ਅਤੇ ਕਨਟੇਨ ਕਰੋਗੇ (logs/metrics, timeouts, circuit breakers, feature flags)
ਫੇਲ-ਮੋਡ ਟੈਸਟ ਆਈਡੀਆਜ਼ ਸ਼ੁਰੂ ਤੋਂ ਜੋੜੋ (ਖਰਾਬ ਇਨਪੁੱਟ, ਅੰਸ਼ਿਕ ਠਹਿਰਾਵ, ਰੀਟ੍ਰਾਈਜ਼, ਡੁਪਲੀਕੇਟ ইਵੇਂਟ)

ਮੇਰਜ ਤੋਂ ਪਹਿਲਾਂ

ਲੋੜਾਂ ਸਹੀ ਹਨ: ਕੋਈ ਚੁੱਪ ਚੁਪ scope drift ਨਹੀਂ; ਐਜ ਕੇਸ ਇਰਾਦੇ ਨਾਲ ਹੱਲ ਕੀਤੇ ਗਏ
ਆਟੋਮੈਟੇਡ ਟੈਸਟਸ ਕਵਰ: ਹੈਪੀ ਪਾਥ, ਬਾਉਂਡਰੀ ਸ਼ਰਤਾਂ, ਅਤੇ ਘੱਟੋ-ਘੱਟ ਇੱਕ ਫੇਲ ਪਾਥ
ਕੋਡ ਆਪਣੇ ਆਪ ਦੀ ਰੱਖਿਆ ਕਰਦਾ ਹੈ: ਇਨਪੁੱਟ ਵੈਲੀਡੇਸ਼ਨ, timeouts, retried operations ਲਈ idempotency
ਦਿੱਖਯੋਗਤਾ ਸ਼ਾਮਿਲ ਹੈ: ਮਾਇਨੀਗ ਫਲੋਗ, ਕੁੰਜੀ ਮੈਟਰਿਕਸ, ਅਤੇ ਟਰੇਸ ਸੰਦਰਭ
ਰਿਵਿਊ ਚੈੱਕਲਿਸਟ: ਸੁਰੱਖਿਆ/ਪ੍ਰਾਈਵੇਸੀ, ਡੇਟਾ ਮਾਈਗਰੇਸ਼ਨ, ਬੈਕਵਰਡ ਕਾਂਪੈਟਬਿਲਿਟੀ

ਰਿਲੀਜ਼ ਤੋਂ ਪਹਿਲਾਂ

ਰਿਲੀਜ਼ ਚੈੱਕਲਿਸਟ ਚਲਾਓ: ਮਾਈਗਰੇਸ਼ਨ rehearsed, config reviewed, dependencies pinned
ਜਿੱਥੇ ਸੰਭਵ ਹੋਵੇ progressive delivery ਵਰਤੋਂ (canary/percentage rollout)
ਰੋਲਬੈਕ ਕੰਮ ਕਰਦਾ ਹੈ (ਅਤੇ ਡੇਟਾ ਲਈ "ਰੋਲਬੈਕ" ਦਾ ਕੀ ਮਤਲਬ ਹੈ) ਇਹ ਪੁਸ਼ਟੀ ਕਰੋ
ਅਲਰਟ actionable ਹਨ ਅਤੇ on-call ਨੂੰ ਰੂਟ ਕੀਤੇ ਗਏ ਹਨ

ਰਿਲੀਜ਼ ਨੂੰ ਰੋਕਣ ਵਾਲੇ ਲਾਲ ਝੰਡੇ: ਅਣਜਾਣ ਰੋਲਬੈਕ ਰਸਤਾ, ਫੇਲ ਜਾਂ flaky tests, ਅਣ-ਰਿਵਿਉ ਕੀਤਾ schema change, ਮੁੱਖ paths ਲਈ ਮਾਨੀਟਰੀੰਗ ਦੀ ਘਾਟ, ਨਵਾਂ high-severity ਸੁਰੱਖਿਆ ਖਤਰਾ, ਜਾਂ "ਅਸੀਂ ਪ੍ਰੋਡਕਸ਼ਨ ਵਿੱਚ ਦੇਖਾਂਗੇ" ਦਾ ਮਨੋਭਾਵ।

ਰਿਲੀਜ਼ ਤੋਂ ਬਾਅਦ

ਲੀਡਿੰਗ ਇੰਡਿਕੇਟਰ ਮਾਨੀਟਰ ਕਰੋ (error rate, latency, saturation) ਅਤੇ ਯੂਜ਼ਰ-ਪ੍ਰਭਾਵ ਸਿਗਨਲ
ਛੋਟੀ post-release ਰਿਵਿਊ: ਕੀ ਨੇੜੇ-ਆਇਆ, ਕਿਹੜੇ ਅਲਰਟ ਸ਼ੋਰ ਵਾਲੇ ਸਨ, ਕੀ ਗੁੰਢ ਸੀ

ਅਪੋਲੋ-ਪ੍ਰੇਰਿਤ ਅਨੁਸ਼ਾਸ਼ਨ ਰੋਜ਼ਾਨਾ ਕੰਮ ਹੈ: ਫੇਲ ਨੂੰ ਸਪਸ਼ਟ ਤਰੀਕੇ ਨਾਲ ਪਰਿਭਾਸ਼ਿਤ ਕਰੋ, ਪਰਤਦਾਰ ਚੈੱਕ ਬਣਾਓ, ਨਿਯੰਤਰਿਤ ਕਦਮਾਂ ਵਿੱਚ ਸ਼ਿਪ ਕਰੋ, ਅਤੇ ਮਾਨੀਟਰਿੰਗ ਅਤੇ ਜਵਾਬ ਦਿੰਨਾ ਉਤਪਾਦ ਦਾ ਹਿੱਸਾ ਬਣਾਓ—ਬਾਅਦ ਦੀ ਸੋਚ ਨਹੀਂ।

ਅਕਸਰ ਪੁੱਛੇ ਜਾਣ ਵਾਲੇ ਸਵਾਲ

What does Margaret Hamilton’s Apollo work have to do with modern software reliability?

ਉਹ ਇਕ ਅਜਿਹਾ ਠੋਸ ਉਦਾਹਰਣ ਹਨ ਜਿੱਥੇ ਭਰੋਸੇਯੋਗਤਾ ਪਹਿਲਾਂ ਰੱਖ ਕੇ ਇੰਜੀਨੀਅਰਿੰਗ ਕੀਤੀ ਗਈ: ਘੱਟ ਕੰਪਿਊਟਿੰਗ ਰਿਸੋਰਸ, ਮਿਡ-ਫਲਾਈਟ ਪੈਚਿੰਗ ਮੁਸ਼ਕਲ, ਅਤੇ ਗਲਤੀ ਦੇ ਭਾਰੀ ਨਤੀਜੇ। ਓਹਦੇ ਤੋਂ ਲੈਣਯੋਗ ਸਬਕ ਇਹ ਨਹੀਂ ਕਿ ਹਰ ਐਪ ਨੂੰ ਰਾਕੇਟ ਵਾਂਗੋਂ ਸੌਂਪੋ—ਸਗੋਂ ਇਹ ਹੈ ਕਿ ਖਤਰੇ ਦੇ ਅਨੁਸਾਰ ਇੰਜੀਨੀਅਰਿੰਗ ਦੀ ਕਸਰਤ ਤੈਅ ਕਰੋ ਅਤੇ ਅੱਗੇ ਹੀ ਨਿਰਧਾਰਤ ਕਰੋ ਕਿ ਗਲਤੀ ਕਿਸ ਤਰ੍ਹਾਂ ਹੋਵੇਗੀ।

What does “software reliability” mean beyond “few bugs”?

ਭਰੋਸੇਯੋਗਤਾ ਦਾ ਮਤਲਬ ਸਿਰਫ "ਘੱਟ ਬੱਗ" ਨਹੀਂ ਹੈ। ਇਹ ਭਰੋਸਾ ਹੈ ਕਿ ਪ੍ਰਣਾਲੀ ਅਸਲ ਹਾਲਤਾਂ ਵਿੱਚ ਵੀ ਪੇਸ਼ਗੀ ਤਰੀਕੇ ਨਾਲ ਕੰਮ ਕਰੇਗੀ: ਖਰਾਬ ਇਨਪੁੱਟ, ਅੰਸ਼ਿਕ ਠਹਿਰਾਵ, ਮਨੁੱਖੀ ਗ਼ਲਤੀਆਂ ਅਤੇ ਲੋਡ ਵਿੱਚ ਹੋਣ ਵਾਲੇ ਧੱਕੇ। ਇਸ ਵਿੱਚ ਸੁਰੱਖਿਅਤ ਤਰੀਕੇ ਨਾਲ ਫੇਲ ਹੋਣਾ ਅਤੇ ਤੇਜ਼ੀ ਨਾਲ ਬਹਾਲ ਹੋਣਾ ਵੀ ਸ਼ਾਮਿਲ ਹੈ।

How can I tell if a system is actually production ready?

ਇਕ ਪ੍ਰਾਇਕਟਿਕਲ ਟੈਸਟ ਇਹ ਹੈ ਕਿ ਕੀ ਟੀਮ ਸਪੱਸ਼ਟ ਭਾਸ਼ਾ ਵਿੱਚ ਸਮਝਾ ਸਕਦੀ ਹੈ:

ਸਿਸਟਮ ਨੂੰ ਕੀ ਕਰਨਾ ਹੈ ਅਤੇ ਕੀ ਕਦੇ ਨਹੀਂ ਕਰਨਾ ਚਾਹੀਦਾ
ਮਾਲੂਮ ਖਤਰੇ ਅਤੇ ਸਵੀਕਾਰ ਕੀਤੇ ਗਏ ਟ੍ਰੇਡ-ਆਫ
ਤੁਸੀਂ ਸਮੱਸਿਆ ਨੂੰ ਕਿਵੇਂ ਪਛਾਣੋਗੇ (ਸਿਗਨਲ) ਅਤੇ ਕਿਵੇਂ ਬਹਾਲ ਕਰੋਗੇ (ਰੋਲਬੈਕ/ਫਾਲਬੈਕ/ਰਨਬੁੱਕ)

ਜੇ ਇਹ ਜਵਾਬ ਧੁੰਦਲੇ ਨੇ, ਤਾਂ "ਟੈਸਟ ਪਾਸ ਹੋ ਗਿਆ" ਕਾਫ਼ੀ ਨਹੀਂ ਹੈ।

How do I make requirements clearer without heavy documentation?

ਪਾਸ/ਫੇਲ ਨਤੀਜੇ ਵਾਰੀਆਂ ਤਰੀਕਿਆਂ ਨਾਲ ਲਿਖੋ ਅਤੇ ਫੇਲਿਅਰ ਹਾਲਤਾਂ ਸ਼ਾਮِل ਕਰੋ। ਇੱਕ ਹਲਕਾ ਝੰਪਾ ਟੈਂਪਲੇਟ:

User need
Success condition (what must be true)
Failure condition (what must never happen, or the safe fallback)
Examples and edge cases

ਇਸ ਨਾਲ ਟੈਸਟਿੰਗ ਅਤੇ ਮਾਨੀਟਰਿੰਗ ਮਾਪ ਜੋਗ ਬਣ ਜਾਂਦੇ ਹਨ ਨਾ ਕਿ ਸੁਝਾਵਾਂ।

What’s the simplest change-control setup that improves reliability?

ਚੇਂਜ ਕੰਟਰੋਲ ਨੂੰ ਇੱਕ ਸੁਰੱਖਿਆ ਵਿਸ਼ੇਸ਼ਤਾ ਸਮਝੋ:

ਬਦਲਾਅ ਛੋਟੇ ਤੇ ਸਮੀਖਿਆਯੋਗ ਰੱਖੋ
ਪੀਅਰ ਰਿਵਿਊ ਅਤੇ ਟ੍ਰੇਸੇਬਿਲਿਟੀ ਲਾਜ਼ਮੀ ਕਰੋ (ਟਿਕਟ/ਇੰਸੀਡੈਂਟ/ਲੋੜ ਨਾਲ ਲਿੰਕ)
ਹਰ ਬਦਲਾਅ ਵਾਪਸ ਕਰਨ ਯੋਗ ਹੋਵੇ (ਰੋਲਬੈਕ/ਰੀਵਰਟ/ਫੀਚਰ ਫਲੈਗ)
ਮੈਨ ਬ੍ਰਾਂਚ ਨੂੰ ਪ੍ਰੋਟੈਕਟ ਕਰੋ ਅਤੇ ਮਰਜ ਤੋਂ ਪਹਿਲਾਂ ਆਟੋਮੈਟਿਕ ਚੈਕ ਲਗਾਓ

ਮਕਸਦ ਇਹ ਹੈ ਕਿ ਰਿਲੀਜ਼ ਸਮੇਂ "ਅਣਜਾਣ ਵਿਹਾਰ" ਘਟੇ।

Which testing layers matter most for reliability, and why?

ਅਲੱਗ-ਅਲੱਗ ਤਹਿ ਦੀਆਂ ਟੈਸਟਿੰਗ ਲੇਅਰਾਂ ਵਰਤੋ:

Unit tests: ਛੋਟੇ ਲੋਜਿਕ ਪੀਸੇ ਜਾਂਚਣ ਲਈ
Integration tests: ਕੰਪੋਨੈਂਟ ਮਿਲ ਕੇ ਕਿਵੇਂ ਕੰਮ ਕਰਦੇ ਹਨ ਵੇਖਣ ਲਈ
System tests: ਪੂਰੇ ਐਪ ਨੂੰ ਕੰਟਰੋਲਡ ਵਾਤਾਵਰਣ ਵਿੱਚ ਵੇਰਵੇ ਨਾਲ ਚੈੱਕ ਕਰਨ ਲਈ
E2E tests: ਯੂਜ਼ਰ ਜਰਨੀਆਂ ਦੀ ਨਕਲ ਕਰਨ ਲਈ

ਜਿੱਥੇ ਨੁਕਸਾਨ ਜ਼ਿਆਦਾ ਮਹਿੰਗਾ ਹੋਵੇ (ਭੁਗਤਾਨ, ਆਥੰਟੀਕੇਸ਼ਨ, ਡੇਟਾ ਇੰਟੇਗ੍ਰਿਟੀ), ਉਥੇ ਵੱਧ ਨਿਵੇਸ਼ ਕਰੋ।

What are the most useful defensive design techniques in production systems?

ਅਸਲ ਤੇ ਯਥਾਰਥਕ ਡਿਜ਼ਾਇਨ:

ਇਨਪੁੱਟ ਦੀ ਜਾਂਚ ਕਰੋ ਅਤੇ ਅਣਪਛਾਤੇ ਹਾਲਤਾਂ ਸਹਿਣਯੋਗ ਬਣਾਓ
ٹਾਈਮਆਊਟ ਲਗਾਓ ਤਾਂ ਕਿ ਡਿਪੈਂਡੈਂਸੀ ਦੇ ਲਈ ਖ਼ਤਮ ਨਾ ਹੋਵੋ
ਨਿਯੰਤਰਿਤ ਰੀਟ੍ਰਾਈ (ਸੰਖਿਆ ਹੱਦ, ਬੈਕਆਫ) ਵਰਤੋ ਤਾਂ ਕਿ ਸਿਸਟਮ ਤੇ ਭਾਰੀ ਲੋਡ ਨਾ ਬਣੇ
ਲਿਮਿਟਜ਼ (ਰੇਟ/ਸਾਈਜ਼/ਕਨਕਰੰਸੀ) ਜੋੜੋ ਤਾਂ ਕਿ ਇੱਕ ਬੁਰਾ ਰਿਕਵੇਸਟ ਸਾਰਾ ਕੁਝ ਖੱਟ ਨਾ ਕਰ ਦੇ

ਗੁਰਦੇਸ: ਜਦੋਂ ਕੁਝ ਗਲਤ ਹੋਵੇ ਤਾਂ ਡਿਗਰੇਡੇਸ਼ਨ ਨਾਲ ਅਹੰਕਾਰ ਥੋੜ੍ਹਾ ਕੰਮ ਚਲਦਾ ਰਹੇ।

When should a system fail-closed vs fail-open?

ਖਤਰੇ ਦੇ ਆਧਾਰ 'ਤੇ ਫੈਸਲਾ ਕਰੋ:

Fail-closed ਜਦੋਂ ਸਹੀਪਣ/ਸੁਰੱਖਿਆ ਮਹੱਤਵਪੂਰਨ ਹੋਵੇ (auth, payments)
Fail-open ਜਦੋਂ ਉਪਲੱਬਧਤਾ ਜ਼ਰੂਰੀ ਹੋਵੇ ਅਤੇ ਪ੍ਰਭਾਵ ਘੱਟ ਹੋਵੇ (ਕੁਝ ਗੈਰ-ਮਹੱਤਵਪੂਰਨ ਫੀਚਰ)

ਇਹ ਫੈਸਲਾ ਪਹਿਲਾਂ ਹੀ ਲਿਖੋ ਅਤੇ ਮਾਨੀਟਰੀੰਗ ਇਹ ਦਿਖਾਏ ਕਿ fallback ਮੋਡ ਕਦੋਂ ਸਰਗਰਮ ਹੈ।

What should we monitor first to improve reliability after release?

ਸ਼ੁਰੂਆਤ ਲਈ ਯੂਜ਼ਰ-ਇੰਪੈਕਟ ਸਿਗਨਲ ਅਤੇ ਨੰਨੀ ਕੋਰ ਟੈਲੀਮੇਟਰੀ ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ:

Error rate
Latency
Availability
Critical-path success (signup/checkout/upload)

ਅਲਰਟ actionable ਤੇ ਅਨੁਕੂਲ ਹੋਣ ਚਾਹੀਦੇ ਹਨ; ਸ਼ੋਰ ਵਾਲੇ ਅਲਰਟ ਟੀਮ ਨੂੰ ਅਣਡਿੱਠਾ ਕਰਵਾਉਂਦੇ ਹਨ।

What does a good incident response process look like for a small team?

ਇਕ ਛੋਟੀ ਟੀਮ ਲਈ:

ਰੁਟੀਨ ਬਣਾਓ: on-call ਸ਼ੈਡਿਊਲ ਤੇ escalation paths
ਛੋਟੇ, ਖੋਜਯੋਗ runbooks ਰੱਖੋ
ਘਟਨਾ ਵਿੱਚ ਭੂਮਿਕਾਵਾਂ ਨਿਰਧਾਰਤ ਕਰੋ (incident commander, comms, SMEs)
Blameless postmortems ਕਰੋ ਅਤੇ ਕਾਰਵਾਈਆਂ ਟਰੈਕ ਕਰੋ

ਕਾਮਯਾਬੀ ਨੂੰ ਮਾਪੋ: ਪਤਾ ਲੱਗਣ ਦਾ ਸਮਾਂ, ਨਿਯੰਤ੍ਰਣ ਲਾਉਣ ਦਾ ਸਮਾਂ, ਅਤੇ ਕੀ ਸੋਧ ਦੁਹਰਾਈ ਨਹੀਂ ਹੁੰਦੀਆਂ।