Werner Vogels ਦੀ “ਤੁਸੀਂ ਬਣਾਉਂਦੇ ਹੋ, ਤੁਸੀਂ ਚਲਾਉਂਦੇ ਹੋ” ਦੀ ਵਿਆਖਿਆ

Q: ਜਦੋਂ ਉਹ “ਚਲਾਉਂਦੇ” ਹਨ ਤਾਂ ਟੀਮ ਕਿਸੇ ਸੇਵਾ ਲਈ ਅਸਲ ਵਿੱਚ ਕਿਸ cheez ਦੀ ਜ਼ਿੰਮੇਵਾਰ ਹੁੰਦੀ ਹੈ?

“Run it” ਆਮ ਤੌਰ 'ਤੇ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ: - ਯੂਜ਼ਰ-ਪਰਭਾਵਿਤ ਸਿਹਤ ਲਈ ਡੈਸ਼ਬੋਰਡ (ਲੈਟੰਸੀ, エਰਰ, ਟрафਿਕ) - ਪ੍ਰਭਾਵ ਨਾਲ ਜੁੜੇ actionable alerts (ਸ਼ੋਰ-ਭਰੇ ਨਾ ਹੋਵਨ) - ਇਕ ਘਟਨਾ ਵਰਕਫਲੋ (ਟ੍ਰਾਇਏਜ, ਰੋਕਥਾਮ, ਸੰਚਾਰ, ਫੋਲੋ-ਅਪ) - ਆਮ ਫੇਲਿਅਰਾਂ ਲਈ ਰਨਬੁੱਕਸ ਅਤੇ “ਪਹਿਲੇ 15 ਮਿੰਟ” ਕਦਮ - ਕਿਸਮਤ ਅਤੇ ਲਾਗਤ ਦੀ ਜ਼ਿੰਮੇਵਾਰੀ (ਸਕੇਲਿੰਗ, ਲਿਮਿਟਸ, ਬਜਟਿੰਗ)

Q: SLOs ਅਤੇ error budgets “You Build It, You Run It” ਨੂੰ ਕਿਵੇਂ ਸਹਾਰਦੇ ਹਨ?

ਇਹ ਉਨ੍ਹਾਂ ਨੂੰ ਸਾਂਝਾ, ਮਾਪਯੋਗ ਭਰੋਸੇਯੋਗਤਾ ਟਾਰਗਟ ਦਿੰਦੇ ਹਨ: - SLI : ਤੁਸੀਂ ਕੀ ਮਾਪਦੇ ਹੋ (ਉਦਾਹਰਣ: ਰਿਕਵੇਸਟ ਸਫਲਤਾ ਦਰ) - SLO : ਇਸ ਮਾਪ ਲਈ ਟੀਚਾ (ਉਦਾਹਰਣ: 99.9%) - Error budget : SLO ਪੂਰਾ ਰਹਿਣ ਲਈ ਤੁਸੀਂ ਕਿੰਨਾ “ਖਰਾਬੀ” ਵਰਤ ਸਕਦੇ ਹੋ ਜਦੋਂ ਬਜਟ ਜ਼ਿਆਦਾ ਖਰਚ ਹੋ ਰਿਹਾ ਹੋਵੇ, ਉੱਪਰਤਾ ਕੰਮ ਪ੍ਰਾਥਮਿਕਤਾ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ; ਜਦੋਂ ਬਜਟ ਸਿਹਤਮੰਦ ਹੋਵੇ ਤਦ ਟੀਮ ਜ਼ਿਆਦਾ ਫੀਚਰ ਰਿਸਕ ਲੈ ਸਕਦੀ ਹੈ।

Q: ਕਿਹੜੇ ਰਿਲੀਜ਼ ਅਮਲ ਇਸ ਮਾਡਲ ਨੂੰ ਟਿਕਾਊ ਬਣਾਉਂਦੇ ਹਨ?

ਉਹ ਰੀਲਜ਼ ਅਮਲੀਆਂ ਜੋ ਅਣਜਾਣੀ ਅਸਰ ਘਟਾਉਂਦੀਆਂ ਹਨ: - ਪ੍ਰੋਡਕਸ਼ਨ ਤਿਆਰ ਹੋਣ ਦੀਆਂ ਬੁਨਿਆਦੀ ਚੀਜ਼ਾਂ (ਡੈਸ਼ਬੋਰਡ, alerts, runbooks, rollback ਯੋਜਨਾ) - progressive delivery (feature flags, canaries, ਛੋਟੀਆਂ ਰਿਲੀਜ਼ਾਂ) - ਅਭਿਆਸਕ ਰੀਵਰਟ/ਰੋਲ-ਫਾਰਵਰਡ ਕਦਮ - ਲੋਡ ਅਤੇ ਫੇਲਿਯਰ ਟੈਸਟਿੰਗ ਜੋ “unknown unknowns” ਨੂੰ ਪਹਿਲਾਂ ਪਕੜੇ

ਲੌਗ ਇਨ ਸ਼ੁਰੂ ਕਰੋ

Werner Vogels ਦੀ “ਤੁਸੀਂ ਬਣਾਉਂਦੇ ਹੋ, ਤੁਸੀਂ ਚਲਾਉਂਦੇ ਹੋ” ਦੀ ਵਿਆਖਿਆ | Koder.ai

“ਤੁਸੀਂ ਬਣਾਉਂਦੇ ਹੋ, ਤੁਸੀਂ ਚਲਾਉਂਦੇ ਹੋ” ਦਾ ਅਸਲ ਮਤਲਬ

“ਤੁਸੀਂ ਬਣਾਉਂਦੇ ਹੋ, ਤੁਸੀਂ ਚਲਾਉਂਦੇ ਹੋ” ਇੱਕ ਐਵੀਆਂ ਲਾਈਨਾਂ ਵਿੱਚੋਂ ਹੈ ਜੋ ਸਿੱਧੀ ਅਤੇ ਯਾਦ ਰਹਿਣ ਵਾਲੀ ਹੈ। ਇਹ ਮੋਟਿਵੇਸ਼ਨ ਪੋਸਟਰਾਂ ਜਾਂ “ਹੁਣ ਹੋਰ DevOps ਬਣੋ” ਦੀ ਗੱਲ ਨਹੀਂ—ਇਹ ਜ਼ਿੰਮੇਵਾਰੀ ਬਾਰੇ ਇੱਕ ਸਪਸ਼ਟ ਬਿਆਨ ਹੈ: ਜੋ ਟੀਮ ਸੇਵਾ ਨੂੰ ਰਿਲੀਜ਼ ਕਰਦੀ ਹੈ, ਉਹ ਹੀ ਉਸ ਸੇਵਾ ਦੀ ਪ੍ਰੋਡਕਸ਼ਨ ਵਿਹਾਰ ਲਈ ਜਵਾਬਦੇਹ ਰਹਿੰਦੀ ਹੈ।

ਮੂਲ ਵਿਚਾਰ: ਸ਼ਿਪਿੰਗ ਅਤੇ ਚਲਾਉਣਾ ਇੱਕੋ ਕੰਮ ਹੈ

ਅਮਲ ਵਿੱਚ, ਇਸਦਾ ਮਤਲਬ ਇਹ ਹੈ ਕਿ ਉਹੀ ਪ੍ਰੋਡਕਟ ਟੀਮ ਜੋ ਫੀਚਰ ਡਿਜ਼ਾਈਨ ਕਰਦੀ ਅਤੇ ਕੋਡ ਲਿਖਦੀ ਹੈ, ਉਹ ਵੀ:

ਪ੍ਰੋਡਕਸ਼ਨ ਵਿੱਚ ਸੇਵਾ ਦੀ ਨਿਗਰਾਨੀ ਕਰਦੀ ਹੈ
ਜਦੋਂ ਇਹ ਟੁੱਟਦੀ ਹੈ ਤਾਂ ਜਵਾਬ ਦਿੰਦੀ ਹੈ
ਸਮੇਂ ਦੇ ਨਾਲ ਭਰੋਸੇਯੋਗਤਾ ਸੁਧਾਰਦੀ ਹੈ
ਨਵੇਂ ਕੰਮ ਅਤੇ ਓਪਰੇਸ਼ਨਲ ਕੰਮ ਦੇ ਵਿਚਕਾਰ ਤਰਜੀحات ਬਣਾਉਂਦੀ ਹੈ

ਇਸਦਾ ਮਤਲਬ ਇਹ ਨਹੀਂ ਕਿ ਹਰ ਕੋਈ ਇੱਕ ਦਿਨ ਵਿੱਚ ਇੰਫਰਾਸਟ੍ਰਕਚਰ ਐਕਸਪերտ ਬਣ ਜਾਵੇ। ਮਤਲਬ ਇਹ ਹੈ ਕਿ ਫੀਡਬੈਕ ਲੂਪ ਹਕੀਕਤ ਹੁੰਦਾ ਹੈ: ਜੇ ਤੁਸੀਂ ਕੁਝ ਰਿਲੀਜ਼ ਕਰਦੇ ਹੋ ਜੋ ਆਊਟੇਜ, ਪੇਜ਼ਰ ਨੌਇਜ਼ ਜਾਂ ਗਾਹਕ ਦਰਦ ਵਧਾਉਂਦਾ ਹੈ, ਤਾਂ ਤੁਹਾਡੀ ਟੀਮ ਇਸਨੂੰ ਸਿੱਧਾ ਮਹਿਸੂਸ ਕਰਦੀ—ਅਤੇ ਤੇਜ਼ੀ ਨਾਲ ਸਿੱਖਦੀ ਹੈ।

ਇੱਕ ਪ੍ਰਯੋਗਕ ਮਾਡਲ, ਨਾਂ ਕਿ ਨਾਅਰਾ

ਇਹ ਫ਼ਿਲਾਸਫੀ ਆਸਾਨੀ ਨਾਲ ਦੋਹਰਾਈ ਜਾਂਦੀ ਹੈ ਪਰ ਲਾਗੂ ਕਰਨੀ ਮੁਸ਼ਕਲ ਹੁੰਦੀ ਹੈ ਜੇ ਤਸੀਂ ਇਸਨੂੰ ਇੱਕ ਆਪਰੇਟਿੰਗ ਮਾਡਲ ਸਮਝ ਕੇ ਸਪਸ਼ਟ ਉਮੀਦਾਂ ਨਹੀਂ ਬਣਾਉਂਦੇ। “ਚਲਾਉਣਾ” ਆਮ ਤੌਰ 'ਤੇ ਕਈ ਚੀਜ਼ਾਂ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ: ਆਨ-ਕਾਲ ਹੋਣਾ (ਕਿਸੇ ਰੂਪ ਵਿੱਚ), ਘਟਨਾ ਜਵਾਬ ਦੀ ਮਲਿਕੀਅਤ, ਰਨਬੁੱਕਸ ਲਿਖਨਾ, ਡੈਸ਼ਬੋਰਡ ਬਨਾਓਣਾ, ਅਤੇ ਸੇਵਾ ਨੂੰ ਲਗਾਤਾਰ ਸੁਧਾਰਨਾ।

ਇਸਦਾ ਇਹ ਵੀ ਮਤਲਬ ਹੈ ਕਿ ਤੁਸੀਂ ਟੀਮਾਂ ਨੂੰ “ਚਲਾਉਣ” ਲਈ ਬਿਨਾਂ ਉਪਕਰਨਾਂ, ਪਹੁੰਚ ਅਤੇ ਅਧਿਕਾਰ ਦੇ ਨਹੀਂ ਪੁੱਛ ਸਕਦੇ—ਅਤੇ ਨਾ ਹੀ ਤੁਸੀਂ ਉਨ੍ਹਾਂ ਦੇ ਰੋਡਮੈਪ ਵਿੱਚ ਕੰਮ ਲਈ ਸਮਾਂ ਨਹੀਂ ਦਿੰਦੇ।

ਇਹ ਕਿਸ ਲਈ ਹੈ

Product/service ਟੀਮਾਂ: ਅਸਲ end-to-end ਮਲਕੀਅਤ ਅਤੇ ਤੇਜ਼ ਸਿੱਖਣ ਲਈ।
ਇੰਜੀਨੀਅਰਿੰਗ ਮੈਨੇਜਰ: ਸਪਸ਼ਟ ਹੱਦਾਂ ਨਿਰਧਾਰਤ ਕਰਨ ("ਇਹ ਟੀਮ ਇਸ ਸੇਵਾ ਦੀ ਮਲਕੀਅਤ ਰੱਖਦੀ ਹੈ") ਅਤੇ ਓਪਰੇਸ਼ਨਲ ਕੰਮ ਦੀ صلاحیت ਯੋਜਨਾ ਬਣਾਉਣ ਲਈ।
ਪਲੇਟਫਾਰਮ ਟੀਮਾਂ: ਮਲਕੀਅਤ ਨੂੰ ਆਸਾਨ ਬਣਾਉਣ ਲਈ ਪੇਵਡ ਰੋਡ ਪ੍ਰਦਾਨ ਕਰਕੇ—ਬਿਨਾਂ ਉਸ ਜ਼ਿੰਮੇਵਾਰੀ ਨੂੰ ਟੀਮਾਂ ਤੋਂ quietly ਛਿੱਟਣ ਦੇ।

ਇਹ ਫ਼ਿਲਾਸਫੀ ਨੇ ਕਿਸ ਤਰ੍ਹਾਂ ਸਾਫਟਵੇਅਰ ਸ਼ਿਪਿੰਗ ਬਦਲ ਦਿੱਤੀ

“ਤੁਸੀਂ ਬਣਾਉਂਦੇ ਹੋ, ਤੁਸੀਂ ਚਲਾਉਂਦੇ ਹੋ” ਤੋਂ ਪਹਿਲਾਂ ਕਈ ਕੰਪਨੀਆਂ ਸਾਫਟਵੇਅਰ ਕੰਮ ਨੂੰ ਇੱਕ ਰਿਲੇ ਰੇਸ ਵਾਂਗ ਸੰਭਾਲਦੀਆਂ ਸਨ: ਡਿਵੈਲਪਰ ਕੋਡ ਲਿਖਦੇ, ਫਿਰ ਟੋਸ ਕੇ ops ਟੀਮ ਨੂੰ ਦੇ ਦਿੰਦੇ।

ਉਹ ਹੱਥ-ਬਦਲਾਅ ਇੱਕ ਰੋਕਥਾਮ ਹੱਲ ਕਰਦੇ—ਕਿਸੇ ਤਜਰਬੇਕਾਰ ਨੇ ਪ੍ਰੋਡਕਸ਼ਨ ਵੇਖ ਰਿਹਾ ਸੀ—ਪਰ ਇਹ ਵੱਡੇ ਸਮੱਸਿਆਵਾਂ ਪੈਦਾ ਕਰਦਾ।

ਹੱਥ-ਬਦਲਾਅ ਦੀ ਸਮੱਸਿਆ: ਫੀਡਬੈਕ ਦੀ ਦੇਰੀ ਅਤੇ ਜ਼ਿੰਮੇਵਾਰੀ ਦਾ ਧੁੰਦਲਾ ਹੋਣਾ

ਜਦੋਂ ਇੱਕ ਅਲੱਗ ops ਟੀਮ ਪ੍ਰੋਡਕਸ਼ਨ ਦੀ ਮਲਕੀਅਤ ਰੱਖਦੀ ਹੈ, ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਮੁੱਦੇ ਦੇ ਬਾਰੇ ਦੇਰ ਨਾਲ (ਜਾਂ ਕਦੇ ਨਹੀਂ) ਪਤਾ ਲੱਗਦਾ। ਬੱਗ ਦੇ ਕਈ ਵਾਰ vague ਟਿਕਟ ਵਜੋਂ ਦਿਨਾਂ ਬਾਅਦ ਆ ਸਕਦੀ ਹੈ: “ਸੇਵਾ ਸਲੋ ਹੈ” ਜਾਂ “CPU ਉੱਚਾ ਹੈ।” ਉਸ ਵੇਲੇ ਪ੍ਰਸੰਗ ਘੱਟ ਹੋ ਜਾਂਦਾ ਹੈ, ਲੌਗ ਰੋਟੇਟ ਹੋ ਜਾਂਦੇ ਹਨ, ਅਤੇ ਜਿਹੜੇ ਲੋਕ ਬਦਲਾਅ ਕੀਤੇ ਉਹ ਹੁਣ ਹੋਰ ਬੰਦ ਹੋ ਚੁੱਕੇ ਹੁੰਦੇ ਹਨ।

ਹੱਥ-ਬਦਲਾਅ ownership ਨੂੰ ਵੀ ਧੁੰਦਲਾ ਕਰ ਦਿੰਦਾ ਹੈ। ਜੇ ਆਊਟੇਜ ਹੁੰਦੀ ਹੈ, dev ਸੋਚ ਸਕਦਾ ਹੈ "ops ਇਸਨੂੰ ਫੰਗਡਨਗੇ," ਜਦਕਿ ops ਸੋਚਦੀ ਹੈ "dev ਨੇ ਕੁਝ ਖਤਰਨਾਕ ਰਿਲੀਜ਼ ਕੀਤਾ।" ਨਤੀਜਾ ਲੰਬੀ ਘਟਨਾ ਨਿਵਾਰਨ, ਦੁਹਰਾਉਂਦੇ ਫੇਲਿਊਰ ਮੋਡ ਅਤੇ ਇੱਕ ਐਸਾ ਸਭਿਆਚਾਰ ਹੁੰਦਾ ਹੈ ਜਿੱਥੇ ਟੀਮਾਂ ਗ੍ਰਾਹਕ ਅਨੁਭਵ ਲਈ ਨਹੀਂ, ਬਲਕਿ ਆਪਣੀ ਲੋਕਲ ਭਲਾਈ ਲਈ optimize ਕਰਦੀਆਂ ਹਨ।

ਕਿਉਂ ਮਲਕੀਅਤ ਡਿਲਿਵਰੀ ਤੇਜ਼ ਕਰਦੀ ਅਤੇ ਦੁਹਰਾਏ ਜਾਣ ਵਾਲੇ ਘਟਨਾਵਾਂ ਘਟਾਉਂਦੀ

“ਤੁਸੀਂ ਬਣਾਉਂਦੇ ਹੋ, ਤੁਸੀਂ ਚਲਾਉਂਦੇ ਹੋ” ਲੂਪ ਨੂੰ ਤੰਗ ਕਰਦਾ ਹੈ। ਉਹੀ ਟੀਮ ਜੋ ਇੱਕ ਬਦਲਾਅ ਸ਼ਿਪ ਕਰਦੀ ਹੈ, ਪ੍ਰੋਡਕਸ਼ਨ ਵਿਚ ਉਸਦੇ ਵਿਹਾਰ ਲਈ ਜਵਾਬਦੇਹ ਹੁੰਦੀ ਹੈ। ਇਹ ਪ੍ਰਯੋਗਸ਼ੀਲ ਸੁਧਾਰਾਂ ਨੂੰ upstream ਧੱਕਦਾ: ਵਧੀਆ alerts, ਸੇਫਰ rollouts, ਵਧੀਆ ਡੈਸ਼ਬੋਰਡ ਅਤੇ ਉਹ ਕੋਡ ਜੋ ਚਲਾਉਣਾ ਆਸਾਨ ਹੋਵੇ।

ਪੈਰਾਡਾਕਸਿਕਲੀ, ਇਹ ਅਕਸਰ ਤੇਜ਼ ਡਿਲਿਵਰੀ ਵੱਲ ਲੈ ਜਾਂਦਾ ਹੈ। ਜਦੋਂ ਟੀਮਾਂ ਆਪਣੇ ਰਿਲੀਜ਼ ਪ੍ਰਕਿਰਿਆ 'ਤੇ ਭਰੋਸਾ ਕਰਦੀਆਂ ਹਨ ਅਤੇ ਪ੍ਰੋਡਕਸ਼ਨ ਵਿਹਾਰ ਨੂੰ ਸਮਝਦੀਆਂ ਹਨ, ਉਹ ਛੋਟੇ ਬਦਲਾਅ ਵੱਧ ਅਕਸਰ ਕਰ ਸਕਦੀਆਂ ਹਨ—ਇਸ ਨਾਲ ਗਲਤੀਆਂ ਦਾ blast radius ਘੱਟ ਹੁੰਦਾ ਅਤੇ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਡਾਇਗਨੋਜ਼ ਕਰਨਾ ਅਸਾਨ ਹੋ ਜਾਂਦਾ ਹੈ।

ਇਹ ਹਰ ਕਿਸੇ ਲਈ ਇੱਕੋ ਜਿਹਾ ਨਹੀਂ

ਹਰ ਸੰਸਥਾ ਇਕੋ ਜਿਹੀ ਸਟਾਫਿੰਗ, ਕੰਪਲਾਇੰਸ ਮੰਗਾਂ ਜਾਂ ਲੇਗਸੀ ਸਿਸਟਮਾਂ ਨਾਲ ਸ਼ੁਰੂ ਨਹੀਂ ਹੁੰਦੀ। ਇਹ ਫ਼ਿਲਾਸਫੀ ਇੱਕ ਦਿਸ਼ਾ ਹੈ, ਨਾ ਕਿ ਇੱਕ ਸਵਿੱਚ। ਕਈ ਟੀਮਾਂ ਹੌਲੀ-ਹੌਲੀ ਅਪਣਾਉਂਦੀਆਂ ਹਨ—ਰਿਸ਼ਤਿਆਂ ਵਾਲੀ ਆਨ-ਕਾਲ ਸ਼ੇਅਰ ਕਰਕੇ, ਵਧੀਆ ਓਬਜ਼ਰਵੇਬਿਲਟੀ ਤੋਂ ਲੈ ਕੇ ਸੇਵਾ ਬਾਊਂਡਰੀਜ਼ ਤੱਕ—ਫਿਰ ਪੂਰੀ end-to-end ਮਲਕੀਅਤ ਦੇਣ ਤੋਂ ਪਹਿਲਾਂ।

ਇਹ ਕਿੱਥੋਂ ਆਇਆ: Werner Vogels ਅਤੇ ਸੇਵਾ ਮਾਇੰਡਸੈਟ

Werner Vogels, Amazon ਦੇ CTO, ਨੇ "ਤੁਸੀਂ ਬਣਾਉਂਦੇ ਹੋ, ਤੁਸੀਂ ਚਲਾਉਂਦੇ ਹੋ" ਵਿੱਚ ਇਸ ਵਿਚਾਰ ਨੂੰ ਲੋਕਪ੍ਰਿਯ ਕੀਤਾ, ਜਦੋਂ ਉਹ ਵਰਣਨ ਕਰ ਰਹੇ ਸਨ ਕਿ Amazon (ਅਤੇ ਬਾਅਦ ਵਿੱਚ AWS) ਟੀਮਾਂ ਨੂੰ ਸਾਫਟਵੇਅਰ ਬਾਰੇ ਕਿਵੇਂ ਸੋਚਣਾ ਚਾਹੀਦਾ: ਇੱਕ ਪ੍ਰੋਜੈਕਟ ਵਜੋਂ ਨਹੀਂ ਜੋ ਤੁਸੀਂ ਹੱਥੋਂ-ਹੱਥ ਦੇ ਦਿਓ, ਬਲਕਿ ਇੱਕ ਸੇਵਾ ਵਜੋਂ ਜੋ ਤੁਸੀਂ ਚਲਾਉਂਦੇ ਹੋ।

ਕੁੰਜੀ ਬਦਲਾਅ ਤਕਨੀਕੀ ਨਾਲੋਂ ਜ਼ਿਆਦਾ ਮਨੋਵੈਜ਼ਾਨਕ ਸੀ। ਜਦੋਂ ਇੱਕ ਟੀਮ ਨੂੰ ਪਤਾ ਹੁੰਦਾ ਹੈ ਕਿ ਉਹ ਫੇਲ੍ਹ ਹੋਣ 'ਤੇ ਪੇਜ ਕੀਤਾ ਜਾਵੇਗਾ, ਡਿਜ਼ਾਈਨ ਫ਼ੈਸਲੇ ਬਦਲ ਜਾਂਦੇ ਹਨ। ਤੁਸੀਂ ਸਹੀ ਡਿਫਾਲਟਸ, ਸਪਸ਼ਟ alerting, graceful degradation, ਅਤੇ ਉਹ deployment ਰਸਤੇ ਚਾਹੁੰਦੇ ਹੋ ਜੋ ਤੁਸੀਂ rollback ਕਰ ਸਕੋ। ਹੋਰ ਸ਼ਬਦਾਂ ਵਿੱਚ, ਬਣਾਉਣਾ ਅਸਲ ਵਿੱਚ ਜ਼ਿੰਦਗੀ ਦੇ ਗੜਬੜ ਭਾਗਾਂ ਦੀ ਯੋਜਨਾ ਕਰਨਾ ਵੀ ਸ਼ਾਮਲ ਹੈ।

ਕਿਉਂ ਕਲਾਉਡ ਯੁੱਗ ਨੇ ਮਿਆਰ ਉੱਪਰ ਚੜ੍ਹਾਇਆ

AWS-ਯੁੱਗ ਦੇ ਸੇਵਾ ਸੋਚ ਨੇ ਭਰੋਸੇਯੋਗਤਾ ਅਤੇ ਗਤੀ ਨੂੰ ਗੈਰ-ਬਰਤੋਂਯੋਗ ਬਣਾਇਆ। ਕਲਾਉਡ ਗਾਹਕ ਉਮੀਦ ਕਰਦੇ ਹਨ ਕਿ APIs ਚੌਵੀ ਘੰਟੇ ਉਪਲਬਧ ਰਹਿਣ ਅਤੇ ਸੁਧਾਰ ਲਗਾਤਾਰ ਮਿਲਦੇ ਰਹਿਣ—ਕੋਈ ਤਿਮਾਹੀ ਵਾਲੀ "ਵੱਡੀ ਰਿਲੀਜ਼" ਦੀ ਉਡੀਕ ਨਹੀਂ।

ਇਸ ਦਬਾਅ ਨੇ ਉਤਸ਼ਾਹਿਤ ਕੀਤਾ:

ਛੋਟੀ, ਲੰਬੇ ਸਮੇਂ ਤੱਕ ਜਿੰਦ ਰਹਿਣ ਵਾਲੀ ਸੇਵਾਵਾਂ ਜਿਨ੍ਹਾਂ ਦੀਆਂ ਸਾਫ਼ ਮਲਕੀਅਤ ਹੋਵੇ
ਕੋਡ ਬਦਲਾਅ ਅਤੇ ਪ੍ਰੋਡਕਸ਼ਨ ਵਿਹਾਰ ਵਿਚਕਾਰ ਤੇਜ਼ ਫੀਡਬੈਕ ਲੂਪ
ਓਪਰੇਸ਼ਨਲ ਆਦਤਾਂ ਨੂੰ ਇੱਕ ਪ੍ਰੋਡਕਟ ਫੀचर (ਮਾਨੀਟਰਿੰਗ, ਸਮਰੱਥਾ ਯੋਜਨਾ, ਰਨਬੁੱਕ) ਵਜੋਂ ਮਨਾਇਆ ਜਾਣਾ

ਸਬੰਧਤ ਵਿਚਾਰ (ਇਤਿਹਾਸ ਨੂੰ ਦੁਹਰਾਏ ਬਿਨਾਂ)

ਇਹ ਫ਼ਿਲਾਸਫੀ ਵੱਡੇ DevOps ਹਿਲਚਲ ਨਾਲ ਓਵਰਲੈਪ ਕਰਦੀ ਹੈ: "dev" ਅਤੇ "ops" ਦੇ ਵਿਚਕਾਰ ਦੀ ਖਾਈ ਘਟਾਉਣਾ, ਹੱਥ-ਬਦਲਾਅ ਘਟਾਉਣਾ, ਅਤੇ ਨਤੀਜਿਆਂ (ਉਪਲਬਧਤਾ, ਲੈਟੰਸੀ, ਸਹਾਇਤਾ ਭਾਰ) ਨੂੰ ਵਿਕਾਸ ਲੂਪ ਦਾ ਹਿੱਸਾ ਬਣਾਉਣਾ। ਇਹ ਛੋٹی ਇੱਕਾਂਤ ਟੀਮਾਂ ਦੇ ਵਿਚਾਰ ਨਾਲ ਵੀ ਮਿਲਦੀ ਹੈ ਜੋ ਸੁਤੰਤਰ ਪਛਾਣ ਨਾਲ ਅਜ਼ਾਦੀ ਨਾਲ ਰਿਲੀਜ਼ ਕਰ ਸਕਦੀਆਂ ਹਨ।

ਪ੍ਰੇਰਣਾ, ਨਕਲ ਕਰਨ ਲਈ ਟੈਮਪਲੇਟ ਨਹੀਂ

ਇਹ ਆਸਾਨ ਹੈ ਕਿ Amazon ਦੇ ਢਾਂਚੇ ਨੂੰ ਬਿਲਕੁਲ ਨਕਲ ਕਰ ਲਿਆ ਜਾਵੇ। ਪਰ "You Build It, You Run It" ਇਕ ਦਿਸ਼ਾ ਹੈ, ਸਖ਼ਤ ਆਰਗ ਚਾਰਟ ਨਹੀਂ। ਤੁਹਾਡੇ ਟੀਮ ਦਾ ਆਕਾਰ, ਨਿਯਮ-ਕਾਇਦੇ, ਉਤਪਾਦ ਦੀ ਪੱਕਿਆਈ ਅਤੇ uptime ਮੰਗਾਂ ਅਨੁਸਾਰ ਪਰਿਵਰਤਨ ਲਿਆ ਜਾ ਸਕਦਾ—ਸ਼ੇਅਰਡ ਆਨ-ਕਾਲ ਰੋਟੇਸ਼ਨ, ਪਲੇਟਫਾਰਮ ਸਹਾਇਤਾ, ਜਾਂ ਕਦਮ-ਦਰ-কਦਮ ਅਪਣਾਉਣਾ।

ਜੇ ਤੁਸੀਂ ਮਨੋਵ੍ਰਿਤੀ ਨੂੰ ਕਾਰਜ ਵਿੱਚ ਬਦਲਣ ਲਈ ਇੱਕ ਪ੍ਰੈਕਟਿਕਲ ਤਰੀਕਾ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ /blog/how-to-adopt-you-build-it-you-run-it-step-by-step ਨੂੰ ਦੇਖੋ।

ਮਲਕੀਅਤ: ਟੀਮਾਂ ਜਦੋਂ ਉਹ “ਚਲਾਉਂਦੇ” ਹਨ ਤਾਂ ਉਹ ਕੀ ਲੈਂਦੀਆਂ ਹਨ

"ਤੁਸੀਂ ਬਣਾਉਂਦੇ ਹੋ, ਤੁਸੀਂ ਚਲਾਉਂਦੇ ਹੋ" ਅਸਲ ਵਿੱਚ ਮਲਕੀਅਤ ਬਾਰੇ ਇੱਕ ਬਿਆਨ ਹੈ। ਜੇ ਤੁਹਾਡੀ ਟੀਮ ਇੱਕ ਸੇਵਾ ਨੂੰ ਰਿਲੀਜ਼ ਕਰਦੀ ਹੈ, ਤਾਂ ਤੁਹਾਡੀ ਟੀਮ ਸੇਵਾ ਦੇ ਅਸਲ ਸੰਸਾਰ ਵਿੱਚ ਵਿਹਾਰ ਲਈ ਜਵਾਬਦੇਹ ਹੁੰਦੀ ਹੈ—ਸਿਰਫ਼ ਰਿਲੀਜ਼ ਦੇ ਦਿਨ ਟੈਸਟਾਂ ਪਾਸ ਹੋਣ ਦੀ ਗੱਲ ਨਹੀਂ।

“ਮਲਕੀਅਤ” ਦਰਅਸਲ ਕੀ ਕਬਰ ਕਰਦੀ ਹੈ

ਸੇਵਾ ਚਲਾਉਣਾ ਨਿਰੰਤ ਉਸ ਅੰਤ-ਤੱਕ ਨਤੀਜਿਆਂ ਦੀ ਪਰਵਾਹ ਕਰਨ ਦਾ ਮਤਲਬ ਹੈ:

Reliability: ਉਪਭੋਗਤਾ ਇਸ 'ਤੇ ਨਿਰਭਰ ਕਰ ਸਕਣ ਅਤੇ ਫੇਲ੍ਹ ਹੋਣ 'ਤੇ ਤੇਜ਼ੀ ਨਾਲ ਹੱਲ ਕੀਤਾ ਜਾਵੇ।
Performance: ਸਧਾਰਨ ਅਤੇ peak ਵਰਤੋਂ ਦੌਰਾਨ ਤੇਜ਼ ਰਹੇ।
Cost: ਖ਼ਰਚ ਆਉਟ-ਆਫ-ਨਜ਼ਰ ਨਾ ਹੋਵੇ।
Security & compliance: ਖ਼ਤਰੇ ਡਿਲਿਵਰੀ ਦੇ ਹਿੱਸੇ ਵਜੋਂ ਹੱਲ ਕੀਤੇ ਜਾਣ, ਬਾਅਦ ਵਿੱਚ ਨਹੀਂ।
Support: ਗਾਹਕਾਂ ਅਤੇ ਅੰਦਰੂਨੀ ਯੂਜ਼ਰਾਂ ਨੂੰ ਸਪਸ਼ਟ, ਸਮੇਂ 'ਤੇ ਮਦਦ ਮਿਲੇ।

ਅਮਲ ਵਿੱਚ “ਚਲਾਉਣਾ” ਕੀ ਸ਼ਾਮਲ ਹੈ

ਆਮ ਹਫਤੇ 'ਚ, “ਚਲਾਉਣਾ” ਹੀਰੋਈਕਸ ਬਾਰੇ ਘੱਟ ਅਤੇ ਰੁਟੀਨਲ ਓਪਰੇਸ਼ਨਾਂ ਬਾਰੇ ਵੱਧ ਹੁੰਦਾ ਹੈ:

ਮਾਨੀਟਰਿੰਗ ਅਤੇ ਡੈਸ਼ਬੋਰਡ ਸੈੱਟ ਕਰਨਾ ਤਾਂ ਜੋ ਟੀਮ ਇੱਕ ਨਜ਼ਰ ਵਿੱਚ ਸਿਹਤ ਵੇਖ ਸਕੇ।
Alerts ਪਰਿਭਾਸ਼ਿਤ ਕਰਨਾ ਜੋ actionable ਹਨ (ਸ਼ੋਰ-ਭਰੇ ਨਹੀਂ) ਅਤੇ ਯੂਜ਼ਰ ਪ੍ਰਭਾਵ ਨਾਲ ਜੁੜੇ ਹੋਣ।
Incidents ਨੂੰ ਸੰਭਾਲਣਾ: triage, ਨਿਵਾਰਨ, ਸੰਚਾਰ, ਅਤੇ follow-up ਕੰਮ।
Capacity ਦਾ ਪ੍ਰਬੰਧਨ: ਸਕੇਲਿੰਗ ਯੋਜਨਾ, ਲੋਡ ਟੈਸਟਿੰਗ, ਅਤੇ ਰਿਸੋਰਸ ਲਿਮਿਟਸ।
Runbooks ਨੂੰ ਅਪ-ਟੂ-ਡੇਟ ਰੱਖਣਾ ਤਾਂ ਜੋ ਕੋਈ ਵੀ ਆਨ-ਕਾਲ ਤੇ ਸਥਿਰ ਤਰੀਕੇ ਨਾਲ ਜਵਾਬ ਦੇ ਸਕੇ।

ਜਵਾਬਦੇਹੀ ਦੋਸ਼ ਨਹੀਂ ਹੈ

ਇਹ ਮਾਡਲ ਤਬ ਹੀ ਕੰਮ ਕਰਦਾ ਜਦੋਂ ਜਵਾਬਦੇਹੀ ਦਾ ਮਤਲਬ "ਅਸੀਂ ਮੁਅੱਮਲਾ ਠੀਕ ਕਰਾਂਗੇ" ਹੋਵੇ, ਨਾ ਕਿ "ਅਸੀਂ ਕਿਸੇ ਵਿਅਕਤੀ ਨੂੰ ਦੋਸ਼ ਲਗਾਂਗੇ।" ਜਦੋਂ ਕੁਝ ਟੁੱਟਦਾ ਹੈ, ਲਕਸ਼ਯ ਇਹ ਹੁੰਦਾ ਹੈ ਕਿ ਸਿਸਟਮ ਵਿੱਚ ਕੀ ਗੱਲ ਐਸੀ ਸੀ ਜਿਸ ਨੇ ਇਸਨੂੰ ਪ੍ਰੋਡਕਸ਼ਨ ਤੱਕ ਆਉਣ ਦਿੱਤਾ—ਘੱਟ alerts, ਅਸਪਸ਼ਟ ਲਿਮਿਟ, ਖਤਰਨਾਕ ਡਿਪਲੋਇ—ਅਤੇ ਉਹ ਹਾਲਤਾਂ ਸੁਧਾਰੀਆਂ ਜਾਣ।

ਸਪਸ਼ਟ ਹੱਦਾਂ ਅਤੇ ਨਿਰਧਾਰਤ ਮਾਲਕ

ਜਦੋਂ ਸੇਵਾਵਾਂ fuzzy ਹੁੰਦੀਆਂ ਹਨ ਤਾਂ ਮਲਕੀਅਤ ਗੁੰਝਲਦਾਰ ਹੋ ਜਾਂਦੀ ਹੈ। ਸੇਵਾ ਹੱਦਾਂ ਨਿਰਧਾਰਤ ਕਰੋ (ਇਹ ਕੀ ਕਰਦੀ ਹੈ, ਇਹ ਕਿਸ 'ਤੇ ਨਿਰਭਰ ਹੈ, ਇਹ ਕੀ ਵਾਅਦਾ ਕਰਦੀ ਹੈ) ਅਤੇ ਨਾਮਵਾਰ ਮਾਲਕ ਟੀਮ ਵਾਰ ਕਰ ਦਿਓ। ਇਹ ਸਪਸ਼ਟਤਾ ਹੱਥ-ਬਦਲਾਅ ਘਟਾਉਂਦੀ, ਘਟਨਾ ਜਵਾਬ ਤੇਜ਼ ਕਰਦੀ, ਅਤੇ ਜਦੋਂ ਭਰੋਸੇਯੋਗਤਾ ਅਤੇ ਫੀਚਰ ਮੁਕਾਬਲਾ ਕਰਨ ਤਾਂ ਪ੍ਰਾਥਮਿਕਤਾਵਾਂ ਸਪਸ਼ਟ ਬਣਾਉਂਦੀ ਹੈ।

ਆਨ-ਕਾਲ ਠੀਕ ਤਰੀਕੇ ਨਾਲ (ਤਤਕਾਲੀ ਥਕਾਵਟ ਬਿਨਾਂ)

On-call “You Build It, You Run It” ਦਾ ਕੇਂਦਰੀ ਹਿੱਸਾ ਹੈ ਕਿਉਂਕਿ ਇਹ ਫੀਡਬੈਕ ਲੂਪ ਨੂੰ ਬੰਦ ਕਰਦਾ ਹੈ। ਜਦੋਂ ਜੋ ਟੀਮ ਇੱਕ ਬਦਲਾਅ ਸ਼ਿਪ ਕਰਦੀ ਹੈ, ਉਹੀ ਆਨ-ਕਾਲ ਵੀ ਹੁੰਦੀ ਹੈ ਅਤੇ ਓਪਰੇਸ਼ਨਲ ਅਸਰ (ਲੈਟੰਸੀ spike, failed deploys, ਗਾਹਕ ਸ਼ਿਕਾਇਤ) ਨੂੰ ਮਹਿਸੂਸ ਕਰਦੀ ਹੈ, ਤਦ ਪ੍ਰਾਥਮਿਕਤਾਵਾਂ ਸਪਸ਼ਟ ਹੋ ਜਾਂਦੀਆਂ ਹਨ: ਭਰੋਸੇਯੋਗਤਾ ਕੰਮ “ਕਿਸੇ ਹੋਰ ਦੀ ਸਮੱਸਿਆ” ਨਹੀਂ ਰਹਿੰਦਾ, ਅਤੇ ਜ਼ਿਆਦਾ ਸ਼ਿਪ ਕਰਨ ਦਾ ਸਭ ਤੋਂ ਤੇਜ਼ ਤਰੀਕਾ ਅਕਸਰ ਸਿਸਟਮ ਨੂੰ ਸ਼ਾਂਤ ਕਰਨਾ ਹੁੰਦਾ ਹੈ।

Humane on-call ਡਿਜ਼ਾਈਨ

ਸਿਹਤਮੰਦ on-call ਜ਼ਿਆਦਾ ਤਰ predictability ਅਤੇ support ਬਾਰੇ ਹੈ।

ਟੀਮ ਦੇ ਆਕਾਰ ਲਈ موزੂਨ ਰੋਟੇਸ਼ਨ: ਬਹਾਦਰੀ ਭਰੇ ਸ਼ਡਿਊਲ ਤੋਂ ਬਚੋ। ਜੇ ਕਵਰੇਜ ਘੱਟ ਹੈ ਤਾਂ ਸਕੋਪ ਘਟਾਓ ਜਾਂ ਸ਼ੇਅਰਡ ਸਕੈਂਡਰੀ ਜੋੜੋ।
ਐਸਕਲੇਸ਼ਨ ਪਾਥ: ਪ੍ਰਾਈਮਰੀ, ਫਿਰ ਸਕੈਂਡਰੀ, ਫਿਰ ਡੋਮੇਨ ਐਕਸਪੇਰਟ—ਤਾਂ ਜੋ ਕੋਈ ਵੀ 3 ਵਜੇ ਅਕੇਲਾ ਨਾ ਹੋਵੇ।
ਭਾਰੀ ਰਾਤਾਂ ਤੋਂ ਬਾਅਦ recovery time: ਕਮਪ ਟਾਈਮ ਜਾਂ late start, ਅਤੇ ਵੱਡੀਆਂ ਘਟਨਾਵਾਂ ਤੋਂ ਬਾਅਦ ਛੁੱਟੀ। ਆਰਾਮ ਭਰੋਸੇਯੋਗਤਾ ਦਾ ਹਿੱਸਾ ਹੈ।
Runbooks ਅਤੇ “ਪਹਿਲੇ 15 ਮਿੰਟ” ਚੈਕਲਿਸਟ: ਜਵਾਬਦੇਹਾਂ ਕੋਲ ਸਾਫ ਪਲੇਬੁੱਕ ਹੋਵੇ, ਅਨੁਮਾਨ ਨਹੀਂ।

Severity ਪੱਧਰ: ਸਿਰਫ਼ ਮੁੱਦੇ 'ਤੇ ਪੇਜ ਕਰੋ

Severity ਪੱਧਰ ਪਰਿਭਾਸ਼ਿਤ ਕਰੋ ਤਾਂ ਕਿ ਸਿਸਟਮ ਹਰ ਛੋਟੀ ਨਾ-ਨੂੰ ਪੇਜ ਨਾ ਕਰੇ۔

Sev 1 (page): ਗਾਹਕ-ਪਰਭਾਵਿਤ ਆਊਟੇਜ, ਡੇਟਾ ਲਾਸ ਖ਼ਤਰਾ, ਸੁਰੱਖਿਆ ਘਟਨਾ, ਜਾਂ ਸਖ਼ਤ SLO ਉਲੰਘਣਾ।
Sev 2 (page during business hours or page if sustained): ਵਿਘਟਿਤ ਸੇਵਾ ਜਿਸਦਾ ਅਸਰ ਹੈ।
Sev 3 (ticket): ਗੈਰ-ਤੁਰੰਤ ਬੱਗ, ਫਲੇਕੀ alerts, ਛੋਟੇ error-rate ਵਾਧੇ, capacity ਰੁਝਾਨ।

ਸਧਾਰਨ ਨਿਯਮ: ਜੇ ਕਿਸੇ ਨੂੰ ਜਗਾਉਣਾ ਨਤੀਜੇ ਨੂੰ ਬਦਲਣ ਵਾਲਾ ਨਹੀਂ, ਤਾਂ ਇਹ ਟਿਕਟ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ, ਪੇਜ ਨਹੀਂ।

ਅਸਲ ਲਕਸ਼ਯ: ਅਗਲੇ ਮਹੀਨੇ ਘੱਟ ਪੇਜ

On-call ਸਜ਼ਾ ਨਹੀਂ; ਇਹ ਇੱਕ ਸੰਕੇਤ ਹੈ। ਹਰ noisy alert, ਦੁਹਰਾਉਂਦਾ ਫੇਲ੍ਹ ਜਾਂ ਮੈਨੂਅਲ ਫਿਕਸ ਨੂੰ ਇੰਜੀਨੀਅਰਿੰਗ ਕੰਮ ਵਿੱਚ ਫੀਡ ਕੀਤਾ ਜਾਣਾ ਚਾਹੀਦਾ: ਵਧੀਆ alerts, ਆਟੋਮੇਸ਼ਨ, ਸੇਫਰ ਰਿਲੀਜ਼, ਅਤੇ ਸਿਸਟਮ ਬਦਲਾਅ ਜੋ ਪੇਜ ਕਰਨ ਦੀ ਲੋੜ ਹੀ ਮਿਟਾ ਦੇਂ।

SLOs, SLIs, ਅਤੇ error budgets: ਪ੍ਰੈਕਟਿਕਲ ਗਾਰਡਰੇਲ

Ship smaller changes faster

ਇੱਕ ਪੂਰੇ ਡਿਵ ਪਾਈਪਲਾਈਨ ਦੀ ਉਡੀਕ ਬਿਨਾਂ, ਤੋਂ ਵਿਚਾਰ ਨੂੰ ਇਕ ਕਾਮਯਾਬ ਵੈੱਬ ਸੇਵਾ ਤੱਕ ਲੈ ਜਾਓ।

Start Building

ਜੇ “ਤੁਸੀਂ ਚਲਾਉਂਦੇ ਹੋ” ਸੱਚਮੁਚ ਹੈ, ਟੀਮਾਂ ਨੂੰ ਭਰੋਸੇਯੋਗਤਾ ਬਾਰੇ ਵਿਚਾਰ ਕਰਨ ਲਈ ਸਾਂਝਾ ਤਰੀਕਾ ਚਾਹੀਦਾ। SLIs, SLOs, ਅਤੇ error budgets ਇਹ ਦਿੰਦੇ ਹਨ: ਸਪਸ਼ਟ ਟਾਰਗਟ ਅਤੇ ਤੇਜ਼ਾ ਅਤੇ ਸਥਿਰਤਾ ਵਿਚਕਾਰ ਇੱਕ ਵਾਜਿਬ ਵਪਾਰ।

SLI vs SLO vs SLA (ਸਧਾਰਾ ਭਾਸ਼ਾ)

SLI (Service Level Indicator): ਸੇਵਾ ਦੇ ਵਿਹਾਰ ਦੀ ਮਾਪ। ਸੋਚੋ: “ਅਸੀਂ ਪ੍ਰੋਡਕਸ਼ਨ ਵਿੱਚ ਅਸਲ ਵਿੱਚ ਕੀ ਦੇਖ ਰਹੇ ਹਾਂ?”
SLO (Service Level Objective): SLI ਲਈ ਇੱਕ ਟੀਚਾ। ਸੋਚੋ: “ਅਸੀਂ ਕਿਸ ਭਰੋਸੇ ਦੀ ਉਮੀਦ ਕਰ ਰਹੇ ਹਾਂ?”
SLA (Service Level Agreement): ਗਾਹਕਾਂ ਨਾਲ ਕੀਤਾ ਗਿਆ ਵਾਅਦਾ, ਅਕਸਰ ਸਜ਼ਾਵਾਂ ਜਾਂ ਕਰੈਡਿਟਾਂ ਨਾਲ। ਸੋਚੋ: “ਅਸੀਂ ਬਾਹਰੀ ਤੌਰ 'ਤੇ ਕੀ ਗਰੰਟੀ ਦਿੰਦੇ ਹਾਂ।”

ਯਾਦ ਰੱਖਣ ਦਾ ਇੱਕ ਉਪਯੋਗੀ ਤਰੀਕਾ: SLI = ਮੈਟ੍ਰਿਕ, SLO = ਟਾਰਗਟ, SLA = ਬਾਹਰੀ ਵਚਨ।

ਮਾਪਣ ਯੋਗ SLIs ਦੇ ਉਦਾਹਰਣ

ਛੋਟੇ ਅਤੇ ਯੂਜ਼ਰ ਅਨੁਭਵ ਨਾਲ ਜੁੜੇ SLIs ਵਧੀਆ ਹੁੰਦੇ ਹਨ, ਜਿਵੇਂ:

ਲੈਟੰਸੀ: “95% ਰਿਕਵੇਸਟ 300ms ਤੋਂ ਘੱਟ ਵਿੱਚ ਪੂਰੀ ਹੋ”
ਉਪਲਬਧਤਾ: “99.9% ਸਮੇਂ non-5xx ਸਫਲ ਰਿਕਵੇਸਟ”
ਜਾਬ ਸਫਲਤਾ ਦਰ (async ਸਿਸਟਮ ਲਈ): “99.5% nightly exports 6am ਤੱਕ ਕਾਮਯਾਬ ਹੋ ਜਾਣ”

Error budgets: ਗਤੀ ਅਤੇ ਸਥਿਰਤਾ ਵਿਚਕਾਰ ਸੰਤੁਲਨ

Error budget ਉਹ ਮਾਤਰਾ ਹੈ ਜੋ ਤੁਸੀਂ SLO ਪੂਰਾ ਰੱਖਦੇ ਹੋਏ “ਖਰਾਬੀ” ਲਈ ਵਰਤ ਸਕਦੇ ਹੋ (ਉਦਾਹਰਨ ਲਈ, ਜੇ SLO 99.9% ਉਪਲਬਧਤਾ ਹੈ, ਤਾਂ ਮਹੀਨੇ ਦਾ error budget 0.1% downtime ਹੈ)।

ਜਦੋਂ ਸੇਵਾ ਸਿਹਤਮੰਦ ਹੈ ਅਤੇ ਤੁਸੀਂ budget ਦੇ ਅੰਦਰ ਹੋ, ਟੀਮਾਂ ਜ਼ਿਆਦਾ ਡਿਲਿਵਰੀ ਰਿਸਕ ਲੈ ਸਕਦੀਆਂ ਹਨ। ਜਦੋਂ ਤੁਸੀਂ ਬਜਟ ਤੇਜ਼ੀ ਨਾਲ ਜ਼ਰ੍ਹ ਰਹੇ ਹੋ, ਤਾਂ ਭਰੋਸੇਯੋਗਤਾ ਕੰਮ ਨੂੰ ਪ੍ਰਾਥਮਿਕਤਾ ਮਿਲਦੀ ਹੈ।

SLOs ਕਿਵੇਂ ਯੋਜਨਾ ਨਿਰਧਾਰਤ ਕਰਦੇ ਹਨ

SLOs reliability ਨੂੰ ਯੋਜਨਾ ਵਿੱਚ ਸ਼ਾਮਲ ਕਰ ਦਿੰਦੇ ਹਨ। ਜੇ ਤੁਹਾਡਾ error budget ਘੱਟ ਹੈ, ਅਗਲਾ ਸਪ੍ਰਿੰਟ rate limiting, safer rollouts, ਜਾਂ flaky ਡਿਪੈਂਡੇੰਸੀਜ਼ ਠੀਕ ਕਰਨ 'ਤੇ ਧਿਆਨ ਦੇ ਸਕਦਾ—ਕਿਉਂਕਿ SLO ਗੁੰਮ ਹੋਣ ਦਾ ਸਪਸ਼ਟ ਲਾਗਤ ਹੈ। ਜੇ ਬਜਟ ਵਧੀਆ ਹੈ, ਤੁਸੀਂ ਨਿਰਭਯਤਾਪੂਰਵਕ product ਕੰਮ ਨੂੰ ਤਰਜੀਹ ਦੇ ਸਕਦੇ ਹੋ ਬਿਨਾਂ ਇਹ ਅਟਕਦੇ ਹੋਏ ਕਿ "ops ਠੀਕ ਰਹੇਗਾ"।

ਸੁਰੱਖਿਅਤ ਤਰੀਕੇ ਨਾਲ ਸ਼ਿਪ ਕਰਨਾ: ਪ੍ਰੋਡਕਸ਼ਨ ਤਿਆਰੀ ਅਤੇ ਰਿਲੀਜ਼ ਅਭਿਆਸ

“It works” ਉਹੋ ਸਮਾਂ ਹੋਵੇ ਜਦੋਂ ਪ੍ਰੋਡਕਸ਼ਨ ਵਿੱਚ ਸ਼ਿਪਿੰਗ ਰੁਟੀਨ ਹੋਵੇ—ਨ ਕਿ ਇੱਕ ਉੱਚ-ਭਾਰ ਵਾਲੀ ਘਟਨਾ। ਲਕਸ਼ਯ uncertainty ਨੂੰ ਘਟਾਉਣਾ ਅਤੇ ਰਿਲੀਜ਼ ਬਾਅਦ blast radius ਨੂੰ ਸੀਮਿਤ ਕਰਨਾ ਹੈ।

ਲਾਂਚ ਤੋਂ ਪਹਿਲਾਂ ਜੋ ਜ਼ਰੂਰੀ ਹੈ

ਇੱਕ ਸੇਵਾ ਨੂੰ “ਤਿਆਰ” ਮੰਨਣ ਤੋਂ ਪਹਿਲਾਂ, ਟੀਮਾਂ ਨੂੰ ਆਮ ਤੌਰ 'ਤੇ ਕੁਝ ਓਪਰੇਸ਼ਨਲ ਬੁਨਿਆਦੀ ਚੀਜ਼ਾਂ ਲਗਾ ਦਿਓ:

ਡੈਸ਼ਬੋਰਡ ਜੋ ਯੂਜ਼ਰ-ਸਾਮ੍ਹਣੇ ਸਿਹਤ (ਲੈਟੰਸੀ, error rate, ਟ੍ਰੈਫਿਕ) ਅਤੇ ਮੁੱਖ ਡਿਪੈਂਡੇਨਸੀਜ਼ ਦਿਖਾਏ
Alerts ਜੋ actionable ਹੋਣ (ਸਪਸ਼ਟ ਥ੍ਰੇਸ਼ਹੋਲਡ, ਮਾਲਕ ਸਪਸ਼ਟ, noisy "FYI" pages ਨਾ ਹੋਣ)
Runbooks ਆਮ ਫੇਲਿਅਰ ਲਈ: ਪਹਿਲੇ ਨਿਰੀਖਣ, ਰੋਕਥਾਮ, ਅਤੇ ਕਦੋਂ ਐਸਕਲੇਟ ਕਰਨਾ
Backups ਅਤੇ restore drills (ਡ੍ਰਿੱਲ ਬੈਕਅਪ ਵਰਗੇ ਜ਼ਰੂਰੀ) ਅਤੇ ਦਸਤਾਵੇਜ਼Retention policy

Progressive delivery: ਛੋਟੇ, ਸੁਰੱਖਿਅਤ ਕਦਮ

ਸਭ ਕੁਝ ਇਕੱਠੇ ਹੀ ਸਾਰੇ ਯੂਜ਼ਰਾਂ ਨੂੰ ਰਿਲੀਜ਼ ਕਰਨ ਦੀ ਥਾਂ, progressive delivery ਪ੍ਰਭਾਵ ਨੂੰ ਸੀਮਿਤ ਕਰਦਾ:

Feature flags ਤੁਹਾਨੂੰ ਕੋਡ ਸ਼ਿਪ ਕਰਨ ਦਿੰਦੇ ਹਨ ਪਰ exposure ਨਿਯੰਤਰਿਤ ਰਹਿੰਦੀ ਹੈ, ਅਤੇ cleanup ਦੀ ਯੋਜਨਾ ਹੋਵੇ
Canary releases ਨਵੀਂ ਵਰਜਨ ਨੂੰ ਛੋਟੀ ਟ੍ਰੈਫਿਕ ਦੇ ਦਿੰਦੇ ਹਨ ਅਤੇ ਮੈਟ੍ਰਿਕਸ ਨੂੰ baseline ਨਾਲ ਤੁਲਨਾ ਕਰਦੇ ਹਨ
Fast rollbacks (ਜਾਂ roll-forwards) rehearse ਅਤੇ ਆਟੋਮੇਟਿਡ ਹੋਣੇ ਚਾਹੀਦੇ ਹਨ ਤਾਕਿ recovery improvisation ਨਾ ਹੋਵੇ

ਜੇ ਟੀਮ rollback ਨੂੰ standardize ਕਰ ਰਹੀ ਹੈ ਤਾਂ ਇਸਨੂੰ ਪਹਿਲ ਦਰਜੇ ਦੀ ਯੋਗਤਾ ਮੰਨੋ: ਜਿੰਨੀ ਤੇਜ਼ ਤੁਸੀਂ ਸੇਫ਼ ਲਹਿਰ ਤੌਰ 'ਤੇ revert ਕਰ ਸਕਦੇ ਹੋ, ਉਤੀ ਹੀ "ਤੁਸੀਂ ਚਲਾਉਂਦੇ ਹੋ" ਜ਼ਿਆਦਾ ਹਕੀਕਤ ਬਣਦੀ ਹੈ।

Load ਅਤੇ failure testing ਨਾਲ ਭਰੋਸਾ ਬਣਾਓ

ਦੋ ਟੈਸਟ "unknown unknowns" ਨੂੰ ਘਟਾਉਂਦੇ ਹਨ:

Load testing ਸਮਰੱਥਾ ਅਨੁਮਾਨਾਂ ਨੂੰ ਵੈਰੀਫਾਈ ਕਰਦਾ ਅਤੇ ਗਾਹਕਾਂ ਤੋਂ ਪਹਿਲਾਂ ਬੋਤਲਨੈਕ ਦਿਖਾਉਂਦਾ
Failure testing (ਜਿਵੇਂ dependency timeouts, killed instances, dropped connections) ਜਾਂਚਦਾ ਕਿ ਸੇਵਾ graceful degrade ਕਰਦੀ ਹੈ ਅਤੇ alerts ਸਹੀ ਸਮੇਂ ਤੇ ਚੱਲਦੇ ਹਨ

ਇੱਕ ਸਧਾਰਨ ਪ੍ਰੋਡਕਸ਼ਨ ਤਿਆਰੀ ਚੈਕਲਿਸਟ

ਇਸਨੂੰ ਹਾਈ-ਲੈਟੇਨਸੀ ਨਾ ਰੱਖੋ: ਆਪਣੇ ਰਿਪੋ ਜਾਂ ਟਿਕਟ ਟੈਮਪਲੇਟ 'ਚ ਇਕ ਸਫ਼ੇ ਦੀ ਚੈਕਲਿਸਟ ਰੱਖੋ (ਉਦਾਹਰਣ: "Observability," "On-call readiness," "Data protection," "Rollback plan," "Capacity tested," "Runbooks linked"). "Not ready" ਨੂੰ ਸਧਾਰਨ ਸਥਿਤੀ ਬਣਾਓ—ਪ੍ਰੋਡਕਸ਼ਨ ਵਿੱਚ ਸਿੱਖਣ ਦੀ ਥਾਂ ਨਹੀਂ।

ਘਟਨਾਵਾਂ ਅਤੇ postmortems: ਆਊਟੇਜਾਂ ਨੂੰ ਸਿੱਖਣ ਵਿੱਚ ਬਦਲਣਾ

Ship a mobile service

ਇੱਕ Flutter ਮੋਬਾਈਲ ਐਪ ਪ੍ਰੋਟੋਟਾਈਪ ਕਰੋ ਅਤੇ ਰਿਲੀਜ਼ ਤੋਂ ਬਾਅਦ ਉਸੇ ਟੀਮ ਨੂੰ ਜ਼ਿੰਮੇਵਾਰ ਰੱਖੋ।

Build Mobile App

ਘਟਨਾਵਾਂ ਉਹ ਥਾਂ ਹਨ ਜਿੱਥੇ “ਤੁਸੀਂ ਚਲਾਉਂਦੇ ਹੋ” ਅਸਲ ਬਣਦਾ ਹੈ: ਇੱਕ ਸੇਵਾ ਘਟਿਤ ਹੋ ਜਾਂਦੀ ਹੈ, ਗਾਹਕ ਨੋਟਿਸ ਕਰਦੇ ਹਨ, ਅਤੇ ਟੀਮ ਨੂੰ ਤੇਜ਼ੀ ਅਤੇ ਸਪਸ਼ਟਤਾ ਨਾਲ ਜਵਾਬ ਦੇਣਾ ਪੈਂਦਾ ਹੈ। ਲਕਸ਼ਯ ਹੀਰੋਈਕਸ ਨਹੀਂ—ਇੱਕ ਦੁਹਰਾਏ ਜਾਣ ਵਾਲਾ workflow ਜੋ ਪ੍ਰਭਾਵ ਘਟਾਉਂਦਾ ਅਤੇ ਸੁਧਾਰ ਲਿਆਉਂਦਾ ਹੈ।

ਇੱਕ ਸਧਾਰਨ ਘਟਨਾ ਵਰਕਫਲੋ

ਅਕਸਰ ਟੀਮ ਇੱਕੋ ਹੀ ਫੇਜ਼ਾਂ 'ਤੇ ਆਉਂਦੀਆਂ ਹਨ:

Detect: ਮਾਨੀਟਰਿੰਗ alerts, ਗਾਹਕ ਰਿਪੋਰਟ, ਜਾਂ ਆਟੋਮੈਟਿਕ ਅਨੋਮਲੀ ਡਿਟੈਕਸ਼ਨ
Triage: ਕੀ ਟੁੱਟਿਆ ਇਹ ਪੁਸ਼ਟੀ ਕਰੋ, severity ਅੰਦਾਜ਼ਾ ਲਗਾਓ, ਇੱਕ ਇੰਸਿਡੈਂਟ ਲੀਡ ਨਿਰਧਾਰਤ ਕਰੋ, ਅਤੇ ਟਾਈਮਲਾਈਨ ਸ਼ੁਰੂ ਕਰੋ
Mitigate: ਰਕਤ ਰੋਕੋ (rollback, feature flag off, scale up, ਬਦਤਰ ਟ੍ਰੈਫਿਕ ਨੂੰ ਰੋਕੋ), ਫਿਰ ਸੇਵਾ ਪੂਰੀ ਤਰ੍ਹਾਂ ਬਹਾਲ ਕਰੋ
Communicate: ਅਪਡੇਟ ਲਗਾਤਾਰ ਰੱਖੋ—ਕਿੰਨਾ ਪ੍ਰਭਾਵ, ਮੌਜੂਦਾ ਸਥਿਤੀ, ਅਗਲੀ ਅਪਡੇਟ ਕਦੋਂ
Learn: ਸੇਵਾ ਸਥਿਰ ਹੋਣ 'ਤੇ, ਯੋਗਦਾਨੀ ਕਾਰਨਾਂ ਦਾ ਵਿਸਲੇਸ਼ਣ ਕਰੋ ਅਤੇ ਦੋਹਰਾਉਂਟ ਰੋਕਣ ਲਈ ਕਦਮ ਲੋ

ਇਸ ਪ੍ਰਵਾਹ ਲਈ ਇੱਕ ਹਲਕਾ ਚੈਕਲਿਸਟ ਰੱਖਣਾ ਮਦਦਗਾਰ ਹੁੰਦਾ ਹੈ (ਦੇਖੋ /blog/incident-response-checklist)।

ਬਲੈਮਲੈੱਸ postmortems (ਅਤੇ ਕੀ ਲਿਖੋ)

ਬਲੈਮਲੈੱਸ postmortem ਦਾ ਮਤਲਬ ਇਹ ਨਹੀਂ ਕਿ "ਕਿਸੇ ਨੇ ਗਲਤੀ ਨਹੀਂ ਕੀਤੀ"। ਇਸਦਾ ਮਕਸਦ ਇਹ ਹੈ ਕਿ ਤੁਸੀਂ ਘਟਨਾ ਨੂੰ ਪ੍ਰਣਾਲੀ ਅਤੇ ਪ੍ਰਕਿਰਿਆ ਦੀ ਨਜ਼ਰ ਨਾਲ ਵੇਖੋ, ਨਾ ਕਿ ਵਿਅਕਤੀਆਂ ਨੂੰ ਸਜਾਏ ਜਾਣ। ਇਹ ਲੋਕਾਂ ਨੂੰ ਵੇਰਵੇ early ਸਾਂਝੇ ਕਰਨ ਲਈ ਪ੍ਰੋਤਸਾਹਿਤ ਕਰਦਾ ਹੈ, ਜੋ ਸਿੱਖਣ ਲਈ ਜ਼ਰੂਰੀ ਹੈ।

ਦਸਤਾਵੇਜ਼ ਕਰੋ:

Customer impact: ਕਿਸ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕੀਤਾ ਗਿਆ, ਕਿੰਨੀ ਦੇਰ ਲਈ, ਅਤੇ ਕਿਵੇਂ
Timeline: ਮੁੱਖ ਘਟਨਾਵਾਂ, ਫ਼ੈਸਲੇ ਅਤੇ ਸਿਗਨਲ ਕਦੋਂ ਦਿੱਸੇ
Root ਅਤੇ contributing causes: ਤਕਨੀਕੀ ਅਤੇ ਪ੍ਰਕਿਰਿਆਤਮਕ ਕਾਰਕ
ਕੀ ਚੰਗਾ ਕੀਤਾ ਗਿਆ/ਕੀ ਨਹੀਂ: ਸੰਚਾਰ ਸਮੇਤ

ਐਸੇ action items ਜੋ ਵਾਸਤਵ ਵਿੱਚ ਦੁਹਰਾਉਂਟ ਰੋਕਣ

ਚੰਗੇ postmortems concrete, ਮਾਲਕ-ਦਾਰ follow-ups ਨਾਲ ਖਤਮ ਹੋਣੇ ਚਾਹੀਦੇ ਹਨ, ਆਮ ਤੌਰ 'ਤੇ ਚਾਰ ਬਕਸਿਆਂ ਵਿੱਚ: ਟੂਲਿੰਗ ਸੁਧਾਰ (ਵਧੀਆ alerts/ਡੈਸ਼ਬੋਰਡ), ਟੈਸਟ (ਰੈਗਰੈਸ਼ਨ/ਐਜ ਕੇਸ), ਆਟੋਮੇਸ਼ਨ (ਸੇਫ਼ deploy/rollback, ਗਾਰਡਰੇਲ), ਅਤੇ ਦਸਤਾਵੇਜ਼ (runbooks, ਸਪਸ਼ਟ ਓਪਰੇਸ਼ਨਲ ਕਦਮ). ਇਕ owner ਅਤੇ ਨਿਸ਼ਚਿਤ ਮਿਆਦ ਨਿਰਧਾਰਤ ਕਰੋ—ਨਹੀਂ ਤਾਂ ਸਿੱਖਣਾ ਸਿਧਾਂਤਕ ਹੀ ਰਹਿ ਜਾਵੇਗਾ।

ਉਹ ਟੂਲ ਜੋ ਸੇਵਾ ਮਲਕੀਅਤ ਆਸਾਨ ਬਣਾਉਂਦੇ ਹਨ

ਟੂਲਿੰਗ ਉਹ leverage ਹੈ ਜੋ “You Build It, You Run It” ਨੂੰ ਭਾਰਤਯੋਗ ਬਣਾਉਂਦਾ—ਪਰ ਇਹ ਅਸਲੀ ਮਲਕੀਅਤ ਦੀ ਥਾਂ ਨਹੀਂ ਲੈ ਸਕਦੀ। ਜੇ ਟੀਮ ਓਪਰੇਸ਼ਨਸ ਨੂੰ "ਕਿਸੇ ਹੋਰ ਦੀ ਸਮੱਸਿਆ" ਸਮਝਦੀ ਹੈ, ਤਾੰ ਸਭ ਤੋਂ ਵਧੀਆ ਡੈਸ਼ਬੋਰਡ ਵੀ ਉਸ ਹਲਚਲ ਨੂੰ ਦਸਤਾਵੇਜ਼ ਕਰੇਗਾ। ਚੰਗੇ ਟੂਲ friction ਘਟਾਉਂਦੇ ਹਨ: ਸਹੀ ਚੀਜ਼ ਨੂੰ ਕਰਨ ਨੂੰ ਆਸਾਨ ਬਣਾਉਂਦੇ ਹਨ।

ਹਰ ਟੀਮ ਲਈ ਲਾਜ਼ਮੀ ਚੀਜ਼ਾਂ

ਸੇਵਾ ਮਾਲਕਾਂ ਨੂੰ ਘੱਟੋ-ਘੱਟ ਇੱਕ ਸਥਿਰ ਤਰੀਕਾ ਚਾਹੀਦੀ ਹੈ ਜਿਸ ਨਾਲ ਉਹ ਆਪਣੀ ਸਾਫਟਵੇਅਰ ਕੀ ਪ੍ਰੋਡਕਸ਼ਨ ਵਿੱਚ ਕੀ ਕਰ ਰਹੀ ਹੈ ਵੇਖ ਸਕਣ ਅਤੇ ਜਦੋਂ ਕੁਝ ਗਲਤ ਹੋਵੇ ਤਾਂ ਤੁਰੰਤ ਕਾਰਵਾਈ ਕਰ ਸਕਣ।

ਕੇਂਦਰੀ ਲੌਗਸ: searchable, ਯਥਾਰਥ ਰਿਟੇਨਸ਼ਨ, ਸੰਭਵ ਹੋਵੇ ਤਾਂ structured
Metrics: golden signals (latency, traffic, errors, saturation) ਅਤੇ ਬਿਜ਼ਨਸ-ਕ੍ਰਿਟਿਕਲ ਮੈਟਰਿਕਸ
Distributed traces: ਇਕ ਰਿਕਵੇਸਟ ਨੂੰ ਸੇਵਾਵਾਂ ਵਿੱਚ ਪਿੱਛੇ ਤੱਕ ਫਾਲੋ ਕਰਨ ਲਈ
Alerting: actionable alerts ਗਾਹਕ ਪ੍ਰਭਾਵ ਨਾਲ ਜੁੜੇ ਹੋਣ
Ticketing/incident workflow: ਕੰਮ ਟਰੈਕ ਕਰਨ, incidents ਨੂੰ follow-ups ਨਾਲ ਜੋੜਣ ਲਈ

ਜੇ आपका monitoring ਕਹਾਣੀ ਫਰੈਗਮੈਂਟਡ ਹੈ, ਟੀਮਾਂ ਵਧੇਰੇ ਸਮਾਂ hunting 'ਚ ਗੁਜ਼ਾਰਦੀਆਂ ਹਨ। ਇੱਕ unified observability ਦ੍ਰਿਸ਼ਟੀ ਮਦਦ ਕਰਦੀ ਹੈ (ਵੇਖੋ /product/observability)।

ਪੈਮਾਨੇ 'ਤੇ ਮਲਕੀਅਤ ਦਿਖਾਉਣਾ

ਜਿਵੇਂ-ਜਿਵੇਂ ਸੰਗਠਨ ਵਧਦਾ ਹੈ, "ਕੌਣ ਇਸਦਾ ਮਾਲਕ ਹੈ?" ਇੱਕ ਭਰੋਸੇਯੋਗਤਾ ਖ਼ਤਰਾ ਬਣ ਜਾਂਦਾ ਹੈ। ਇੱਕ service catalog (ਅੰਦਰੂਨੀ developer portal) ਇਸਨੂੰ ਹੱਲ ਕਰਦਾ ਹੈ: ਮਾਲਕੀਅਤ ਅਤੇ ਓਪਰੇਸ਼ਨਲ ਸੰਦਰਭ ਇਕਥੇ ਰੱਖ ਕੇ—ਟੀਮ ਨਾਮ, on-call ਰੋਟੇਸ਼ਨ, ਐਸਕਲੇਸ਼ਨ ਪਾਥ, runbooks, ਡੈਪੈਂਡੇਨਸੀਜ਼, ਅਤੇ ਡੈਸ਼ਬੋਰਡ ਲਿੰਕ।

ਕੁੰਜੀ ਹੈ ownership metadata ਜੋ ਅਪ-ਟੂ-ਡੇਟ ਰਹੇ। ਇਸਨੂੰ ਵਰਕਫਲੋ ਦਾ ਹਿੱਸਾ ਬਣਾਓ: ਨਵੀਂ ਸੇਵਾਵਾਂ ਲਾਈਵ ਹੋਣ ਤੋਂ ਪਹਿਲਾਂ ਮਾਲਕ ਹੋਣਾ ਲਾਜ਼ਮੀ ਹੋਵੇ, ਅਤੇ ਮਲਕੀਅਤ ਦੇ ਬਦਲਾਅ ਕੋਡ ਬਦਲਾਅ ਵਾਂਗ review ਅਤੇ ਟਰੈਕ ਕੀਤੇ ਜਾਣ।

ਟੂਲਿੰਗ ਨੂੰ ਆਦਤਾਂ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ

ਸਭ ਤੋਂ ਵਧੀਆ ਸੈਟਅਪ ਟੀਮਾਂ ਨੂੰ ਸਿਹਤਮੰਦ ਵਰਤਾਰਾਂ ਵੱਲ ਧੱਕਦੇ ਹਨ: runbook ਲਈ ਟੈਂਪਲੇਟ, SLOs ਨਾਲ ਜੁੜੇ ਆਟੋਮੈਟਿਕ alerts, ਅਤੇ ਡੈਸ਼ਬੋਰਡ ਜੋ ਕੁਝ ਸਕਿੰਟਾਂ ਵਿੱਚ “ਕੀ ਯੂਜ਼ਰ ਪ੍ਰਭਾਵਿਤ ਹਨ?” ਦਾ ਜਵਾਬ ਦਿੰਦੇ ਹਨ। ਪਰ ਮਨੁੱਖੀ ਪ੍ਰਣਾਲੀ ਫਿਰ ਵੀ ਮਾਇਨ ਕਰਦੀ ਹੈ—ਟੀਮਾਂ ਨੂੰ ਇਹ ਟੂਲ ਵਰਤ ਕੇ ਰੱਖਣ, alerts prune ਕਰਨ ਅਤੇ ਆਪਣੇ ਸੇਵਾ ਚਲਾਉਣ ਦੇ ਢੰਗ ਨੂੰ ਲਗਾਤਾਰ ਸੁਧਾਰਨ ਲਈ ਸਮਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਪਲੇਟਫਾਰਮ ਟੀਮਾਂ ਦੀ ਭੂਮਿਕਾ: ਸਹਾਇਤਾ ਬਿਨਾਂ ਮਲਕੀਅਤ ਚੋਰੀ ਕੀਤੇ

ਪਲੇਟਫਾਰਮ ਟੀਮਾਂ “You Build It, You Run It” ਨੂੰ ਜੀਉਂਦਾ ਰੱਖਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀਆਂ ਹਨ। ਉਨਾਂ ਦਾ ਕੰਮ ਹਰ ਕਿਸੇ ਲਈ ਪ੍ਰੋਡਕਸ਼ਨ ਚਲਾਉਣਾ ਨਹੀਂ—ਇਹ ਪ੍ਰੋਡਕਟ ਟੀਮਾਂ ਲਈ “ਚਮਤਕਾਰ-ਸਿੱਧਾ ਰਸਤਾ” (paved roads) ਪ੍ਰਦਾਨ ਕਰਨਾ ਹੈ ਤਾਂ ਜੋ ਟੀਮਾਂ ਹਰ ਸਪ੍ਰਿੰਟ 'ਤੇ ops ਦੁਬਾਰਾ ਨਾਂ ਬਣਾਨ।

Paved roads, ਟੈਂਪਲੇਟ, guardrails

ਚੰਗਾ ਪਲੇਟਫਾਰਮ defaults ਦਿੰਦਾ ਹੈ ਜੋ ਗਲਤੀ ਕਰਨਾ ਮੁਸ਼ਕਲ ਅਤੇ ਅਪਣਾਉਣਾ ਆਸਾਨ ਬਣਾਉਂਦੇ ਹਨ:

ਨਵੀਂ ਸੇਵਾਵਾਂ ਲਈ golden-path ਟੈਂਪਲੇਟ (repo structure, logging, alerts, dashboards)
standard CI/CD pipelines ਨਾਲ ਸੁਰੱਖਿਅਤ deployment ਵਿਕਲਪ (canary, blue/green, automatic rollback)
ਪ੍ਰੋਡਕਸ਼ਨ-ਰੇਡੀ runtime ਬੇਸਿਕਸ (health checks, rate limits, config conventions)

Guardrails risky ਵਰਤਾਰਾ ਨੂੰ ਰੋਕਣਗੇ ਬਗੈਰ shipping ਨੂੰ ਰੋਕੇ। “ਸੁਰੱਖਿਅਤ ਡੀਫਾਲਟ” ਸੋਚੋ ਨਾ ਕਿ “ਟਿਕਟ ਖੋਲੋ ਅਤੇ ਉਡੀਕ ਕਰੋ।”

ਸਾਂਝੇ ਸੇਵਾ vs. ਸਾਂਝੀ ਮਲਕੀਅਤ

ਪਲੇਟਫਾਰਮ ਟੀਮਾਂ shared services ਚਲਾ ਸਕਦੀਆਂ ਹਨ—ਪਰ product services ਦੀ ਮਲਕੀਅਤ ਲੈਣ ਦੇ ਬਜਾਏ।

Shared services: authentication/authorization, secrets management, container platform, artifact registry, observability stack
Product ownership: ਹਰ ਟੀਮ ਆਪਣੇ service ਦੀ reliability, performance, data integrity, ਅਤੇ on-call ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਰਹਿੰਦੀ ਹੈ

ਸੀਮਾ ਸਧਾਰਨ ਹੈ: ਪਲੇਟਫਾਰਮ ਟੀਮ ਪਲੇਟਫਾਰਮ ਦੀ uptime ਅਤੇ ਸਹਾਇਤਾ ਦੀ ਮਲਕੀਅਤ ਰੱਖਦੀ ਹੈ; ਪ੍ਰੋਡਕਟ ਟੀਮਾਂ ਇਹ ਨਿਰਧਾਰਨ ਕਰਦੀਆਂ ਹਨ ਕਿ ਉਹ ਇਸਨੂੰ ਕਿਵੇਂ ਵਰਤਦੀਆਂ ਹਨ।

ਪਲੇਟਫਾਰਮ ਕਾਗਜ਼ ਮਨ ਦਾ ਬੋਝ ਘਟਾਉਂਦੇ ਹਨ

ਜਦੋਂ ਟੀਮਾਂ ਨੂੰ ਦਿਨ-ਇੱਕ 'ਤੇ CI/CD, auth, ਜਾਂ secrets ਵਿੱਚ ਨਵਾਂ ਵਿਸ਼ੇਸ਼ ਗਿਆਨ ਨਾਹੀ ਲੱਗਣਾ ਪੈਂਦਾ, ਉਹ ਸੇਵਾ ਵਿਹਾਰ ਅਤੇ ਯੂਜ਼ਰ ਪ੍ਰਭਾਵ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰ ਸਕਦੀਆਂ ਹਨ।

ਉਦਾਹਰਣ ਜੋ busywork ਘਟਾਉਂਦੇ ਹਨ:

ਇਕ-ਕਲਿੱਕ pipeline setup ਨਾਲ consistent test gates
ਕੇਂਦਰੀ auth ਜੋ service-to-service identity ਨੂੰ ਸਮਰਥਨ ਕਰਦਾ
managed secrets ਨਾਲ rotation ਨੀਤੀਆਂ
ਬੇਸ ਮਾਨੀਟਰਿੰਗ ਜੋ ਆਟੋ-ਇੰਸਟਰੂਮੈਂਟ ਕਰਕੇ ਆਮ ਮੈਟ੍ਰਿਕਸ ਅੰਕਿਤ ਕਰਦਾ

ਨਤੀਜਾ ਤੇਜ਼ ਡਿਲਿਵਰੀ ਹੈ ਘੱਟ “custom ops snowflakes” ਨਾਲ, ਪਰ ਮੁੱਖ ਵਾਅਦਾ ਅਟੁੱਟ ਰਹਿੰਦਾ ਹੈ: ਜੋ ਟੀਮ ਸੇਵਾ ਬਣਾਉਂਦੀ ਹੈ, ਉਹੀ ਚਲਾਉਂਦੀ ਹੈ।

ਆਮ ਗਲਤੀਆਂ ਅਤੇ ਮਾਡਲ ਨੂੰ ਕਦੋਂ ਅਨੁਕੂਲਿਤ ਕਰਨਾ

Build and run your pilot

ਆਪਣੀ ਅਗਲੀ ਸੇਵਾ ਨੂੰ ਇੱਕ ਮਲਕੀਅਤ ਵਾਲੇ, ਚੱਲਣ ਯੋਗ ਐਪ ਵਿੱਚ ਬਦਲੋ—ਚੈਟ ਵਰਕਫਲੋ ਵਿੱਚ ਤੇਜ਼ ਇਟਰੇਸ਼ਨ ਨਾਲ।

Try Free

“ਤੁਸੀਂ ਬਣਾਉਂਦੇ ਹੋ, ਤੁਸੀਂ ਚਲਾਉਂਦੇ ਹੋ” ਭਰੋਸੇਯੋਗਤਾ ਅਤੇ ਗਤੀ ਦੋਹਾਂ ਨੂੰ ਬਿਹਤਰ ਕਰ ਸਕਦੀ—ਪਰ ਕੇਵਲ ਜੇ ਸੰਗਠਨ ਟੀਮ ਦੇ ਆਸ-ਪਾਸ ਦੀਆਂ ਹਾਲਤਾਂ ਬਦਲ ਦਿੰਦਾ। ਕਈ ਨਾਕਾਮੀਆਂ ਇਸੀ ਤਰ੍ਹਾਂ ਦਿਖਦੀਆਂ ਹਨ ਕਿ ਨਾਅਰਾ ਅਪਣਾਇਆ ਗਿਆ ਪਰ ਸਹਾਇਕ ਆਦਤਾਂ ਨਹੀਂ।

ਨਜ਼ਰ ਰੱਖਣ ਵਾਲੇ failure modes

ਕੁਝ ਪੈਟਰਨ ਮੁੜ ਮੁੜ ਆਉਂਦੇ ਹਨ:

ਡਿਵੈਲਪਰ ਆਨ-ਕਾਲ ਹਨ, ਪਰ ਰੂਟ ਕਾਰਨਾਂ ਨੂੰ ਠੀਕ ਕਰਨ ਲਈ ਕੁਝ ਵੀ ਸਮਾਂ ਨਹੀਂ ਮਿਲਦਾ. Pager ਰਾਤ-ਦਿਨ ਦਾ ਕੰਮ ਬਣ ਜਾਂਦਾ ਹੈ, ਪਰ ਬੈਕਲੌਗ reliability ਕੰਮ ਨਾਲ ਭਰਿਆ ਰਹਿੰਦਾ।
ਅਸਪਸ਼ਟ ownership ("ਸਭ ਦੀ ਮਲਕੀਅਤ"). ਜੇ ਇਕ ਘਟਨਾ ਪੰਜ ਟੀਮਾਂ ਨਾਲ ਜੁੜੀ ਹੋਵੇ ਅਤੇ ਕੋਈ ਵੀ end-to-end ਫੈਸਲਾ ਨਾ ਕਰ ਸਕੇ, ਤਾਂ ਤੁਹਾਡੇ ਕੋਲ ਮਲਕੀਅਤ ਨਹੀਂ—ਤੁਹਾਡੇ ਕੋਲ ਇਕ ਮੀਟਿੰਗ ਹੈ।
ਜ਼ਿਆਦਾ shared dependencies. ਜਦੋਂ ਹਰ ਸੇਵਾ ਕਿਸੇ ਕੇਂਦਰਲ ਡੇਟਾਬੇਸ schema, shared library, ਜਾਂ core team 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ, ਟੀਮਾਂ ਆਪਣੇ ਬਣਾਏ ਕੰਮ ਨੂੰ ਸੱਚਮੁੱਚ ਚਲਾਉਣ ਵਿੱਚ ਅਸਮਰੱਥ ਹੁੰਦੀਆਂ ਹਨ।
On-call ਨੂੰ ਸਜ਼ਾ ਜਾਂ ਹੀਰੋਈਕਸ ਵਜੋਂ ਦੇਖਿਆ ਜਾਵੇ। ਜੇ ਸਭਿਆਚਾਰ ਫਾਇਰ-ਫਾਈਟਿੰਗ ਨੂੰ ਰੋਕਥਾਮ ਨਾਲੋਂ ਜ਼ਿਆਦਾ ਇਨਾਮ ਦਿੰਦਾ ਹੈ, ਸਿਸਟਮ ਘੱਟ-ਘਟਨਾ ਵਾਲੇ ਚਰਚਿਆਂ ਵੱਲ ਵਧੇਗਾ।

ਮਾਡਲ ਕਦੋਂ ਫਿੱਟ ਨਹੀਂ ਬੈਠਦਾ (ਤੇ ਕਿਵੇਂ ਅਨੁਕੂਲਿਤ ਕਰੀਏ)

ਕੁਝ ਵਾਤਾਵਰਣ ਇੱਕ ਟੇਲਰ ਕੀਤੇ ਤਰੀਕੇ ਦੀ ਮੰਗ ਕਰਦੇ ਹਨ:

ਕਠੋਰ ਕੰਪਲਾਇੰਸ ਜਾਂ ਨਿਯੰਤਰਿਤ ਓਪਰੇਸ਼ਨ: ਸ਼ਾਇਦ ਕਿਦੀ ਡਿਊਟੀ ਭੇਦ, ਫਾਰਮਲ change control, ਜਾਂ ਸੀਮਤ ਪ੍ਰੋਡਕਸ਼ਨ ਪਹੁੰਚ ਦੀ ਲੋੜ ਹੋਵੇ। ਇਸ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਅਨੁਕੂਲ ਕਰੋ ਕਿ ਸੇਵਾ ਟੀਮਾਂ reliability ਨਤੀਜਿਆਂ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਰਹਿਣ, ਪਰ ਮਨਜ਼ੂਰਸ਼ੁਦਾ ਵਰਕਫਲੋ (audited runbooks, pre-approved changes, break-glass access) ਵਰਗੀਆਂ ਪ੍ਰਕਿਰਿਆਵਾਂ ਨਾਲ।
ਲੇਗਸੀ ਮੋਨੋਲਿਥ: ਇੱਕ ਹੀ ਕੋਡਬੇਸ ਅਤੇ ਗੁੰਝਲਦਾਰ ਮਲਕੀਅਤ "ਚਲਾਉਣਾ" ਮੁਸ਼ਕਿਲ ਬਣਾਉਂਦਾ ਹੈ। ਖਾਸ ਮੋਡੀਊਲ, ਨੌਕਰੀਆਂ, ਜਾਂ ਯੂਜ਼ਰ ਜਰਨੀਆਂ ਲਈ ਸਪਸ਼ਟ ਓਪਰੇਸ਼ਨਲ ਮਲਕੀਅਤ ਨਿਰਧਾਰਤ ਕਰੋ ਅਤੇ ਪਹਿਲਾਂ observability ਅਤੇ deployment safety 'ਤੇ ਨਿਵੇਸ਼ ਕਰੋ।
ਆਵਸ਼ਕ ਸਾਂਝੇ ਪਲੇਟਫਾਰਮ: ਜੇ ਇੱਕ ਪਲੇਟਫਾਰਮ ਬਹੁਤ ਸਾਰੀਆਂ ਪ੍ਰੋਡਕਟ ਟੀਮਾਂ ਨੂੰ ਸਹਾਇਤਾ ਦਿੰਦਾ ਹੈ, ਤਾਂ ਪਲੇਟਫਾਰਮ ਟੀਮ ਪਲੇਟਫਾਰਮ ਚਲਾ ਸਕਦੀ ਹੈ—ਪਰ ਪ੍ਰੋਡਕਟ ਟੀਮਾਂ ਹਜੇ ਵੀ ਆਪਣੀਆਂ ਸੇਵਾਵਾਂ ਦੇ ਵਿਹਾਰ ਅਤੇ reliability ਟੀਚਿਆਂ ਦੀ ਮਲਕੀਅਤ ਰੱਖਣ।

ਲੀਡਰਸ਼ਿਪ ਦਾ ਕੰਮ: reliability ਲਈ ਸਮਰੱਥਾ ਦੀ ਰੱਖਿਆ

ਇਹ ਫ਼ਿਲਾਸਫੀ ਸਭ ਤੋਂ ਤੇਜ਼ੀ ਨਾਲ ਨਾਕਾਮ ਹੁੰਦੀ ਹੈ ਜਦੋਂ reliability ਕੰਮ ਨੂੰ "ਵਾਧੂ" ਮਨਿਆ ਜਾਂਦਾ। ਲੀਡਰਸ਼ਿਪ ਨੂੰ ਖ਼ਾਸ ਤੌਰ 'ਤੇ ਓਪਰੇਸ਼ਨਲ ਕਰਜ਼ਾ ਘਟਾਉਣ, ਦੁਹਰਾਉਂਦੇ ਕਾਰਨਾਂ ਨੂੰ ਠੀਕ ਕਰਨ, ਅਤੇ ਖਤਰਨਾਕ ਡਿਪੈਂਡੇਨਸੀਜ਼ ਨੂੰ ਘਟਾਉਣ ਲਈ ਸਮਾਂ ਰਾਖਣਾ ਚਾਹੀਦਾ ਹੈ। ਬਿਨਾਂ ਇਹ ਸੁਰੱਖਿਆ, on-call ਇੱਕ ਟੈਕਸ ਬਣ ਜਾਂਦਾ—ਨਾ ਕਿ ਇੱਕ ਫੀਡਬੈਕ ਲੂਪ ਜੋ ਸਿਸਟਮ ਨੂੰ ਸੁਧਾਰਦਾ ਹੈ।

"ਤੁਸੀਂ ਬਣਾਓ, ਤੁਸੀਂ ਚਲਾਓ" ਕਿਵੇਂ ਕਦਮ-ਦਰ-ਕਦਮ ਅਪਣਾਉਣਾ

ਇਸਨੂੰ ਰੋਲ-ਆਉਟ ਕਰਨਾ ਸਭ ਤੋਂ ਵਧੀਆ ਤਰੀਕੇ ਨਾਲ ਇੱਕ ਕਦਮ-ਦਰ-ਕਦਮ ਬਦਲਾਅ ਹੋ ਕੇ ਕੰਮ ਕਰਦਾ ਹੈ, ਨਾ ਕਿ ਕੰਪਨੀ-ਵਿਆਪਕ ਐਲਾਨ। ਛੋਟੀ ਸ਼ੁਰੂ ਕਰੋ, ਮਲਕੀਅਤ ਦਿੱਖਾਓ, ਅਤੇ ਫਿਰ ਵਧਾਓ।

1) ਇੱਕ ਸੇਵਾ ਨਾਲ ਪਾਇਲਟ ਸ਼ੁਰੂ ਕਰੋ

ਇਕ ਵਧੀਆ-ਬਉਂਡਡ ਸੇਵਾ ਚੁਣੋ (ਅਸਲ ਯੂਜ਼ਰ ਅਤੇ ਸੰਭਾਲਣ ਯੋਗ ਜੋਖਮ ਵਾਲੀ)।

ਪਰਿਭਾਸ਼ਿਤ ਕਰੋ:

ਇੱਕ SLO ਜੋ ਯੂਜ਼ਰ ਅਨੁਭਵ ਨੂੰ ਦਰਸਾਉਂਦਾ (ਉਦਾਹਰਣ: "99.9% ਰਿਕਵੇਸਟ ਸਫਲ")
ਆਨ-ਕਾਲ ਕਵਰੇਜ (ਭਾਵੇਂ ਸ਼ੁਰੂ ਵਿੱਚ ਬਿਜ਼ਨਸ ਘੰਟੇ + ਐਸਕਲੇਸ਼ਨ)
Runbooks ਟੌਪ ਫੇਲਿਅਰ ਮੋਡ ਲਈ: "ਕੀ ਚੈੱਕ ਕਰਨਾ ਹੈ," "ਕਿਵੇਂ rollback ਕਰਨਾ ਹੈ," "ਕਿਸ ਨੂੰ ਪੇਜ ਕਰਨਾ ਹੈ"

ਕੁੰਜੀ: ਜੋ ਟੀਮ ਬਦਲਾਅ ਸ਼ਿਪ ਕਰਦੀ ਹੈ, ਉਹ ਸੇਵਾ ਲਈ ਓਪਰੇਸ਼ਨਲ ਨਤੀਜਿਆਂ ਦੀ ਮਲਕੀਅਤ ਵੀ ਰੱਖਦੀ ਹੈ।

2) ਵਧਾਉਣ ਤੋਂ ਪਹਿਲਾਂ guardrails ਸ਼ਾਮਲ ਕਰੋ

ਜਦੋਂ ਤੁਸੀਂ ਹੋਰ ਸੇਵਾਵਾਂ ਵਿੱਚ ਵਧਦੇ ਹੋ, ਯਕੀਨੀ ਬਣਾਓ ਕਿ ਪਾਇਲਟ ਟੀम ਬਿਨਾਂ ਹੀਰੋਈਕਸ ਦੇ ਚਲ ਸਕਦੀ:

ਯੂਜ਼ਰ-ਪ੍ਰਭਾਵਿਤ ਮੁੱਦਿਆਂ ਲਈ ਬੁਨਿਆਦੀ alerting ਜੋ ਪੇਜ ਕਰਦੀ (ਹਰ ਮੈਟ੍ਰਿਕ ਲਈ ਨਹੀਂ)
ਇੱਕ ਹਲਕੀ ਪ੍ਰੋਡਕਸ਼ਨ ਰੈਡੀਨੈਸ ਚੈਕਲਿਸਟ (ਲੌਗਿੰਗ, ਡੈਸ਼ਬੋਰਡ, rollback ਰਸਤਾ)
pages ਅਤੇ incidents ਦੀ ਨਿਯਮਤ ਸਮੀਖਿਆ ਤਾਂ ਜੋ noisy alerts ਘਟਾਈਆਂ ਜਾਣ ਅਤੇ ਦੁਹਰਾਏ ਮੁੱਦਿਆਂ ਨੂੰ ਫਿਕਸ ਕੀਤਾ ਜਾ ਸਕੇ

3) ਸਹੀ ਅਪਨਾਉਣ ਮੈਟ੍ਰਿਕਸ ਟਰੈਕ ਕਰੋ

ਛੋਟੀ ਸੰਖਿਆਵਾਰ ਵਰਤੋ ਜੋ ਦਿਖਾਉਂਦੀ ਹੈ ਕਿ ownership ਸ਼ਿਪਿੰਗ ਅਤੇ ਸਥਿਰਤਾ ਨੂੰ ਸੁਧਾਰ ਰਹੀ ਹੈ:

Change failure rate (ਹਰ ਵਾਰੀ ਕਿ deploy ਕਿਸੇ incident/rollback ਨਾਲ ਖਤਮ ਹੁੰਦਾ ਹੈ)
MTTR (mean time to restore)
Page volume (ਹਫਤੇ ਵਿਚ ਪੇਜਾਂ ਦੀ ਗਿਣਤੀ, ਖਾਸ ਕਰਕੇ “after-hours pages”)
Deployment frequency (ਤੁਸੀਂ ਕਿੰਨੀ ਵਾਰੀ ਸੇਫ਼ ਤਰੀਕੇ ਨਾਲ ਸ਼ਿਪ ਕਰ ਸਕਦੇ ਹੋ)

ਨਮੂਨਾ 30/60/90 ਦਿਨ ਯੋਜਨਾ

ਦਿਨ 1–30: ਪਾਇਲਟ ਸੇਵਾ ਚੁਣੋ, SLO ਨਿਰਧਾਰਤ ਕਰੋ, paging ਨੀਤੀ ਬਣਾਓ, ਪਹਿਲੇ runbooks ਲਿਖੋ, ਡੈਸ਼ਬੋਰਡ ਬਣਾਓ।
ਦਿਨ 31–60: alerts ਤੂੰਨ ਕਰੋ (ਸ਼ੋਰ ਘਟਾਓ), ਘਟਨਾ ਜਵਾਬ ਅਭਿਆਸ ਕਰੋ, release safety ਵਿੱਚ ਸੁਧਾਰ (rollback steps, ਜਿੱਥੇ ਸੰਭਵ ਹੋਵੇ canary)।
ਦਿਨ 61–90: 1–2 ਹੋਰ ਸੇਵਾਵਾਂ ਵਿੱਚ ਵਧਾਓ, templates standardize ਕਰੋ (runbooks/SLO docs), ਮੈਟ੍ਰਿਕਸ ਅਤੇ ਕੰਮ ਦੇ ਵੱਸਤੇ ਵੀਚਾਰ ਕਰੋ।

ਜਿੱਥੇ Koder.ai ਫਿੱਟ ਹੁੰਦੀ ਹੈ (ਜੇ ਤੁਸੀਂ ਆਪਣੀ ਸ਼ਿਪਿੰਗ ਮਾਡਰਨਾਈਜ਼ ਕਰ ਰਹੇ ਹੋ)

ਜੇ ਤੁਸੀਂ “ਤੁਸੀਂ ਬਣਾਉਂਦੇ ਹੋ, ਤੁਸੀਂ ਚਲਾਉਂਦੇ ਹੋ” ਅਪਣਾਉਂਦੇ ਹੋ ਅਤੇ ਡਿਲਿਵਰੀ ਵੀ ਤੇਜ਼ ਕਰਨੀ ਹੈ, ਤਾਂ ਬੋਟਲਨੈਕ ਅਕਸਰ ਇੱਕੋ ਹੀ ਹੁੰਦਾ: ਵਿਚਾਰ → ਪ੍ਰੋਡਕਸ਼ਨ-ਰੈਡੀ ਸੇਵਾ ਤੱਕ ਪਹੁੰਚ ਕਰਨ ਵਿੱਚ ਸਮਾਂ ਲੱਗਣਾ ਜਿਸਦੇ ਨਾਲ ਸਪਸ਼ਟ ਮਲਕੀਅਤ ਅਤੇ ਸੇਫ਼ rollback ਦੀ ਯੋਜਨਾ ਹੋਵੇ।

Koder.ai ਇੱਕ vibe-coding ਪਲੇਟਫਾਰਮ ਹੈ ਜੋ ਟੀਮਾਂ ਨੂੰ ਚੈਟ ਇੰਟਰਫੇਸ ਰਾਹੀਂ ਵੈੱਬ, ਬੈਕਐਂਡ, ਅਤੇ ਮੋਬਾਈਲ ਐਪ ਬਣਾਉਣ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰਦਾ (React ਵੈੱਬ ਲਈ, Go + PostgreSQL ਬੈਕਐਂਡ ਲਈ, Flutter ਮੋਬਾਈਲ ਲਈ)। ਸੇਵਾ ਮਲਕੀਅਤ ਵਲ ਝੁਕਦੇ ਟੀਮਾਂ ਲਈ ਕੁਝ ਫੀਚਰ operating ਮਾਡਲ ਨਾਲ ਚੰਗੀ ਤਰ੍ਹਾਂ ਮੇਲ ਖਾਂਦੇ ਹਨ:

Planning mode: ਸੇਵਾ ਹੱਦਾਂ, ਡਿਪੈਂਡੇਨਸੀਜ਼, ਅਤੇ runbook/SLO ਉਮੀਦਾਂ ਕੋਡ ਤੋਂ ਪਹਿਲਾਂ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨ ਲਈ।
Snapshots and rollback: ਇੰਸਿਡੈਂਟ ਦੌਰਾਨ ਤੇਜ਼ ਰਿਵਰਟ ਨੂੰ ਇੱਕ ਮਿਆਰੀ ਚਾਲ ਬਣਾਉਣ ਲਈ।
Source code export: ownership ਟੀਮ ਦੇ ਕੋਲ (ਅਤੇ ਰਿਪੋ) ਰਹੇ, ਟੂਲ ਦੇ ਕੋਲ ਨਹੀਂ।

ਅਗਲਾ ਕਦਮ

ਇਸ ਹਫ਼ਤੇ ਆਪਣੀ ਪਾਇਲਟ ਸੇਵਾ ਚੁਣੋ ਅਤੇ ਪਹਿਲਾ SLO, on-call ਰੋਟੇਸ਼ਨ, ਅਤੇ runbook ਮਾਲਕ ਨਿਰਧਾਰਤ ਕਰਨ ਲਈ 60 ਮਿੰਟ ਦਾ kickoff ਸ਼ੈਡਿਊਲ ਕਰੋ। ਜੇ ਤੁਸੀਂ ਉਪਕਰਨਾਂ ਦੀ ਮੁਲਾਂਕਣ ਕਰ ਰਹੇ ਹੋ ਜੋ ਇਸਨੂੰ ਸਮਰਥਨ ਦੇ ਸਕਦੇ ਹਨ (shipping, rollback, ਅਤੇ ਮਲਕੀਅਤ-ਆਸੂ-ਗੇਤ workflows), ਤਾੰ Koder.ai ਦੇ /pricing ਨੂੰ ਦੇਖੋ ਤਾਂ ਜੋ free, pro, business, ਅਤੇ enterprise tiyars ਅਤੇ hosting, deployment, ਅਤੇ custom domains ਜ਼ੈਸੀਆਂ ਵਿਕਲਪਾਂ ਬਾਰੇ ਜਾਣਕਾਰੀ ਮਿਲੇ।

ਅਕਸਰ ਪੁੱਛੇ ਜਾਣ ਵਾਲੇ ਸਵਾਲ

“You Build It, You Run It” ਅਮਲ ਵਿੱਚ ਕੀ ਮਤਲਬ ਰੱਖਦਾ ਹੈ?

ਇਸਦਾ ਮਤਲਬ ਏਹ ਹੈ ਕਿ ਜੋ ਟੀਮ ਸੇਵਾ ਡਿਜ਼ਾਈਨ, ਬਣਾਉਂਦੀ ਅਤੇ ਡਿਪਲੋਏ ਕਰਦੀ ਹੈ ਉਹ ਜ਼ਿੰਮੇਵਾਰ ਵੀ ਰਹਿੰਦੀ ਹੈ ਕਿ ਲਾਈਵ ਹੋਣ ਤੋਂ ਬਾਅਦ ਕੀ ਹੁੰਦਾ ਹੈ: ਮਾਨੀਟਰਿੰਗ, ਆਨ-ਕਾਲ ਜਵਾਬ, ਘਟਨਾ ਦੇ ਫੋਲੋ-ਅਪ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਵਿੱਚ ਸੁਧਾਰ।

ਇਹ ਇੱਕ ਜ਼ਿੰਮੇਵਾਰੀ ਮਾਡਲ ਹੈ (ਸਾਫ਼ ਮਲਕੀਅਤ), ਕੋਈ ਸਿਰਫ ਇੱਕ ਟੂਲ ਚੋਣ ਜਾਂ ਨੌਕਰੀ ਦਾ ਸਿਰਫ਼ ਸਿਰਲੇਖ ਬਦਲਣਾ ਨਹੀਂ।

ਕੀ “run it” ਦਾ ਥੀਕ ਇਹ ਮਤਲਬ ਹੈ ਕਿ ਹਰ ਡਿਵੈਲਪਰ ਨੂੰ ops ਮਾਹਿਰ ਬਣਨਾ ਪਏਗਾ?

ਇਸਦਾ ਮਤਲਬ ਇਹ ਨਹੀਂ ਕਿ ਹਰ ਇੰਜੀਨੀਅਰ ਨੂੰ ਪੂਰੇ ਸਮੇਂ ਇਨਫਰਾਸਟ੍ਰਕਚਰ ਨਿਪੁੰਨ ਬਣਨਾ ਪਏਗਾ।

ਇਸਦਾ ਮਤਲਬ ਹੈ:

ਟੀਮ ਕੋਲ ਪ੍ਰੋਡਕਸ਼ਨ ਮੁੱਦਿਆਂ ਦਾ ਨਿਰੀਖਣ ਅਤੇ ਠੀਕ ਕਰਨ ਲਈ ਪਹੁੰਚ ਅਤੇ ਅਧਿਕਾਰ ਹੋਣ
ਓਪਰੇਸ਼ਨਲ ਕੰਮ ਟੀਮ ਦੀ ਆਮ ਯੋਜਨਾ ਦਾ ਹਿੱਸਾ ਹੋਵੇ
ਪਲੇਟਫਾਰਮ ਟੂਲਿੰਗ ਪੇਵਡ ਰੋਡ ਰਾਹੀਂ ਜਟਿਲਤਾ ਘਟਾਏ ਬਲਕਿ ਮਲਕੀਅਤ ਹਟਾਏ ਨਾ

ਇਹ ਰਵਾਇਤੀ dev/ops ਹੱਥ-ਬਦਲਣ ਮਾਡਲ ਨਾਲੋਂ ਕਿਉਂ ਬਿਹਤਰ ਹੈ?

ਅਲੱਗ ops ਟੀਮ ਨਾਲ, ਫੀਡਬੈਕ ਦੇਰੀ ਨਾਲ ਮਿਲਦਾ ਹੈ ਅਤੇ ਜ਼ਿੰਮੇਵਾਰੀ ਧੁੰਦਲੀ ਹੋ ਜਾਂਦੀ ਹੈ: ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਪ੍ਰੋਡਕਸ਼ਨ ਦਰਦ ਮਹਿਸੂਸ ਨਹੀਂ ਹੁੰਦਾ, ਅਤੇ ops ਕੋਲ ਹਾਲੀਆ ਬਦਲਾਵਾਂ ਦਾ ਸੰਦਰਭ ਨਹੀਂ ਹੁੰਦਾ।

ਏਂਡ-ਟੂ-ਏਂਡ ਮਲਕੀਅਤ ਆਮ ਤੌਰ 'ਤੇ ਸੁਧਾਰ ਲਿਆਉਂਦੀ ਹੈ:

ਘਟਨਾ ਜਵਾਬ ਦੀ ਰਫ਼ਤਾਰ (ਘੱਟ ਹੱਥ-ਬਦਲਾਅ)
ਰਿਲੀਜ਼ ਗੁਣਵੱਤਾ (ਟੀਮਾਂ ਸੇਫਰ ਰੋਲਆਉਟ 'ਤੇ ਨਿਵੇਸ਼ ਕਰਦੀਆਂ ਹਨ)
ਲੰਬੀ ਅਵਧੀ ਦੀ ਸਥਿਰਤਾ (ਮੂਲ ਕਾਰਨ ਦੂਰ ਹੁੰਦੇ ਹਨ, ਸਿਰਫ਼ ਫਿਕਸ ਨਹੀਂ ਹੁੰਦੇ)

ਜਦੋਂ ਉਹ “ਚਲਾਉਂਦੇ” ਹਨ ਤਾਂ ਟੀਮ ਕਿਸੇ ਸੇਵਾ ਲਈ ਅਸਲ ਵਿੱਚ ਕਿਸ cheez ਦੀ ਜ਼ਿੰਮੇਵਾਰ ਹੁੰਦੀ ਹੈ?

“Run it” ਆਮ ਤੌਰ 'ਤੇ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ:

ਯੂਜ਼ਰ-ਪਰਭਾਵਿਤ ਸਿਹਤ ਲਈ ਡੈਸ਼ਬੋਰਡ (ਲੈਟੰਸੀ, エਰਰ, ਟрафਿਕ)
ਪ੍ਰਭਾਵ ਨਾਲ ਜੁੜੇ actionable alerts (ਸ਼ੋਰ-ਭਰੇ ਨਾ ਹੋਵਨ)
ਇਕ ਘਟਨਾ ਵਰਕਫਲੋ (ਟ੍ਰਾਇਏਜ, ਰੋਕਥਾਮ, ਸੰਚਾਰ, ਫੋਲੋ-ਅਪ)
ਆਮ ਫੇਲਿਅਰਾਂ ਲਈ ਰਨਬੁੱਕਸ ਅਤੇ “ਪਹਿਲੇ 15 ਮਿੰਟ” ਕਦਮ
ਕਿਸਮਤ ਅਤੇ ਲਾਗਤ ਦੀ ਜ਼ਿੰਮੇਵਾਰੀ (ਸਕੇਲਿੰਗ, ਲਿਮਿਟਸ, ਬਜਟਿੰਗ)

on-call ਨਾਂ ਬਲਕੇ ਜ਼ਖਮੀ ਕਰਨ ਤੋਂ ਬਿਨਾਂ ਕਿਵੇਂ ਸੈੱਟ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ?

ਮਨੁੱਖੀ ਤੌਰ 'ਤੇ ਠੀਕ on-call ਬਣਾਉਣ ਲਈ ਬਹੁਤ ਕੁਝ ਪੇਸ਼ਗੀ ਅਤੇ ਸਮਰਥਨ ਬਾਰੇ ਹੈ।

ਟੀਮ ਦੇ ਆਕਾਰ ਦੇ ਮੁਤਾਬਕ ਰੋਟੇਸ਼ਨ: ਬਹਾਦਰੀ ਭਰੇ ਸ਼ਡਿਊਲ ਤੋਂ ਬਚੋ; ਜੇ ਕਵਰੇਜ ਘੱਟ ਹੈ ਤਾਂ ਸਕੋਪ ਘਟਾਓ ਜਾਂ ਸ਼ੇਅਰਡ ਸਕੈਂਡਰੀ ਜੋੜੋ।
ਐਸਕਲੇਸ਼ਨ ਪਾਥ: ਪ੍ਰਾਈਮਰੀ ਰਿਸਪਾਂਡਰ → ਸਕੈਂਡਰੀ → ਡੋਮੇਨ ਐਕਸਪੇਰਟ, ਤਾਂ ਜੋ ਕੋਈ ਵੀ 3 ਵਜੇ ਅਕੇਲਾ ਨਾ ਰਹੇ।
ਠੀਕ ਬਹਾਲੀ ਸਮਾਂ: ਭਾਰੀ ਰਾਤਾਂ ਤੋਂ ਬਾਅਦ ਕਮਪ ਟਾਈਮ ਜਾਂ ਆਰਾਮ, ਅਤੇ ਵੱਡੀਆਂ ਘਟਨਾਵਾਂ ਤੋਂ ਬਾਅਦ ਛੁੱਟੀ।
ਰਨਬੁੱਕਸ ਅਤੇ “ਪਹਿਲੇ 15 ਮਿੰਟ” ਚੈਕਲਿਸਟ: ਜਵਾਬਦੇਹਾਂ ਕੋਲ ਸਾਫ਼ ਪਲੇਬੁੱਕ ਹੋਵੇ, ਅਨੁਮਾਨ ਨਹੀਂ।

ਅਸਲ ਲਕਸ਼্য: ਅਗਲੇ ਮਹੀਨੇ ਘੱਟ ਪੇਜ ਹੋਣ—on-call ਨੂੰ ਇਕ ਸਜ਼ਾ ਨਹੀਂ ਬਣਣ ਦੇਣਾ।

ਕਿਹੜੀਆਂ ਹਾਲਤਾਂ 'ਚ ਪੇਜ ਅਤੇ ਕਦੋਂ ਟਿਕਟ ਬਣਾਈ ਜਾਏ?

ਸਧਾਰਨ ਨਿਯਮ: ਜੇ ਕਿਸੇ ਨੂੰ ਜਗਾਉਣਾ ਨਤੀਜੇ ਨੂੰ ਬਦਲਣ ਵਾਲਾ ਨਹੀਂ, ਤਾਂ ਇਹ ਟਿਕਟ ਬਣਾਉ, ਪੇਜ ਨਹੀਂ।

ਅਮਲੀ ਤੌਰ 'ਤੇ:

ਆਊਟੇਜ, ਡੇਟਾ ਲਾਸ ਦਾ ਖ਼ਤਰਾ, ਸੁਰੱਖਿਆ ਘਟਨਾ ਜਾਂ ਸਖ਼ਤ SLO ਉਲੰਘਣਾ → ਪੇਜ
ਘਟਿਆ ਹੋਇਆ ਪਰ ਸਥਿਰ ਸੇਵਾ → ਬਿਜ਼ਨਸ ਘੰਟਿਆਂ ਵਿੱਚ ਰੱਖੋ ਜੇਕਰ ਇਹ ਲੰਬੇ ਸਮੇਂ ਲਈ ਨਿਰੰਤਰ ਨਾ ਰਹੇ
ਫਲੇਕੀ alerts → ਫੋਲੋ-ਅਪ ਕੰਮ (ਟਿਊਨਿੰਗ, ਬਿਹਤਰ ਸਿਗਨਲ, ਆਟੋਮੇਸ਼ਨ)

SLOs ਅਤੇ error budgets “You Build It, You Run It” ਨੂੰ ਕਿਵੇਂ ਸਹਾਰਦੇ ਹਨ?

ਇਹ ਉਨ੍ਹਾਂ ਨੂੰ ਸਾਂਝਾ, ਮਾਪਯੋਗ ਭਰੋਸੇਯੋਗਤਾ ਟਾਰਗਟ ਦਿੰਦੇ ਹਨ:

SLI: ਤੁਸੀਂ ਕੀ ਮਾਪਦੇ ਹੋ (ਉਦਾਹਰਣ: ਰਿਕਵੇਸਟ ਸਫਲਤਾ ਦਰ)
SLO: ਇਸ ਮਾਪ ਲਈ ਟੀਚਾ (ਉਦਾਹਰਣ: 99.9%)
Error budget: SLO ਪੂਰਾ ਰਹਿਣ ਲਈ ਤੁਸੀਂ ਕਿੰਨਾ “ਖਰਾਬੀ” ਵਰਤ ਸਕਦੇ ਹੋ

ਜਦੋਂ ਬਜਟ ਜ਼ਿਆਦਾ ਖਰਚ ਹੋ ਰਿਹਾ ਹੋਵੇ, ਉੱਪਰਤਾ ਕੰਮ ਪ੍ਰਾਥਮਿਕਤਾ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ; ਜਦੋਂ ਬਜਟ ਸਿਹਤਮੰਦ ਹੋਵੇ ਤਦ ਟੀਮ ਜ਼ਿਆਦਾ ਫੀਚਰ ਰਿਸਕ ਲੈ ਸਕਦੀ ਹੈ।

ਕਿਹੜੇ ਰਿਲੀਜ਼ ਅਮਲ ਇਸ ਮਾਡਲ ਨੂੰ ਟਿਕਾਊ ਬਣਾਉਂਦੇ ਹਨ?

ਉਹ ਰੀਲਜ਼ ਅਮਲੀਆਂ ਜੋ ਅਣਜਾਣੀ ਅਸਰ ਘਟਾਉਂਦੀਆਂ ਹਨ:

ਪ੍ਰੋਡਕਸ਼ਨ ਤਿਆਰ ਹੋਣ ਦੀਆਂ ਬੁਨਿਆਦੀ ਚੀਜ਼ਾਂ (ਡੈਸ਼ਬੋਰਡ, alerts, runbooks, rollback ਯੋਜਨਾ)
progressive delivery (feature flags, canaries, ਛੋਟੀਆਂ ਰਿਲੀਜ਼ਾਂ)
ਅਭਿਆਸਕ ਰੀਵਰਟ/ਰੋਲ-ਫਾਰਵਰਡ ਕਦਮ
ਲੋਡ ਅਤੇ ਫੇਲਿਯਰ ਟੈਸਟਿੰਗ ਜੋ “unknown unknowns” ਨੂੰ ਪਹਿਲਾਂ ਪਕੜੇ

ਇਸ ਮਾਡਲ 'ਤੇ ਟੀਮਾਂ ਘਟਨਾਵਾਂ ਅਤੇ postmortems ਨੂੰ ਕਿਵੇਂ ਸੰਭਾਲਣ?

ਘਟਨਾਵਾਂ ਉਹ ਜਗ੍ਹਾ ਹਨ ਜਿੱਥੇ “ਤੁਸੀਂ ਚਲਾਉਂਦੇ ਹੋ” ਅਸਲ ਬਣਦਾ ਹੈ: ਸੇਵਾ ਖਰਾਬ ਹੁੰਦੀ ਹੈ, ਗਾਹਕ ਨੋਟਿਸ ਕਰਦੇ ਹਨ, ਅਤੇ ਟੀਮ ਨੂੰ ਤੇਜ਼ ਅਤੇ ਸਾਫ਼ ਜਵਾਬ ਦੇਣਾ ਪੈਂਦਾ ਹੈ। ਲਕਸ਼্য ਹੀਰੋਈਕਸ ਨਹੀਂ—ਇੱਕ ਦੁਹਰਾਏ ਜਾਣ ਵਾਲਾ ਵਰਕਫਲੋ ਹੈ ਜੋ ਅਸਰ ਘਟਾਉਂਦਾ ਹੈ ਅਤੇ ਸੁਧਾਰ ਲਿਆਉਂਦਾ ਹੈ।

ਸਧਾਰਨ ਘਟਨਾ ਵਰਕਫਲੋ:

ਬਲੈਮਲੈੱਸ postmortems ਵਿੱਚ ਕੀ ਲਿਖਣਾ ਚਾਹੀਦਾ ਹੈ?

ਬ্লੇਮਲੈੱਸ ਪੋਸਟਮੋਰਟਮ ਦਾ ਮਤਲਬ ਇਹ ਨਹੀਂ ਕਿ “ਕਿਸੇ ਨੇ ਗਲਤੀ ਨਹੀਂ ਕੀਤੀ।” ਇਸਦਾ ਮਤਲਬ ਇਹ ਹੈ ਕਿ ਤੁਸੀਂ ਇਸ ਗੱਲ 'ਤੇ ਧਿਆਨ ਦਿੰਦੇ ਹੋ ਕਿ ਸਿਸਟਮ ਅਤੇ ਪ੍ਰਕਿਰਿਆ ਨੇ ਗਲਤੀ ਨੂੰ ਪ੍ਰੋਡਕਸ਼ਨ ਤੱਕ ਕਿਵੇਂ ਪਹੁੰਚਣ ਦਿੱਤਾ—ਨ ਕਿ ਵਿਅਕਤੀ ਨੂੰ ਸ਼ਰਮਿੰਦਾ ਕਰਨ 'ਤੇ। ਇਸ ਨਾਲ ਲੋਕ ਜਲਦੀ ਵਿਸਥਾਰ ਸਾਂਝਾ ਕਰਦੇ ਹਨ, ਜੋ ਸਿੱਖਣ ਲਈ ਲਾਜ਼ਮੀ ਹੈ।

ਦਸਤਾਵੇਜ਼:

Customer impact: ਕਿਸ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕੀਤਾ, ਕਿੰਨੀ ਦੇਰ ਲਈ, ਅਤੇ ਕੀ ਨੁਕਸਾਨ

ਕਿਹੜੀ ਟੂਲਿੰਗ service ownership ਨੂੰ ਆਸਾਨ ਬਣਾਉਂਦੀ ਹੈ?

ਟੂਲਿੰਗ ਉਹ leverage ਹੈ ਜੋ “You Build It, You Run It” ਨੂੰ ਟਿਕਾਊ ਬਣਾਉਂਦੀ—ਪਰ ਇਹ ਅਸਲੀ ਮਲਕੀਅਤ ਦੀ ਜਗ੍ਹਾ ਨਹੀਂ ਲੈ ਸਕਦੀ। ਚੰਗੇ ਟੂਲ friction ਘਟਾਉਂਦੇ ਹਨ: ਸਹੀ ਚੀਜ਼ (ਨਿਰੀਖਣ, ਜਵਾਬ, ਸਿੱਖਣਾ) ਕਰਨ ਨੂੰ ਆਸਾਨ ਬਣਾਉਣ ਲਈ।

ਹਰ ਟੀਮ ਲਈ ਘੱਟੋ-ਘੱਟ:

ਪਲੇਟਫਾਰਮ ਟੀਮਾਂ ਦੀ ਭੂਮਿਕਾ ਕੀ ਹੋਣੀ ਚਾਹੀਦੀ ਹੈ ਬਿਨਾਂ service ownership ਨੂੰ ਛੀਣੇ?

ਪਲੇਟਫਾਰਮ ਟੀਮਾਂ “You Build It, You Run It” ਨੂੰ ਜਿਉਂਦਾ ਰੱਖਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀਆਂ ਹਨ। ਉਨ੍ਹਾਂ ਦਾ ਕੰਮ ਹਰ ਕਿਸੇ ਲਈ ਪ੍ਰੋਡਕਸ਼ਨ ਚਲਾਉਣਾ ਨਹੀਂ—ਬਲਕਿ ਇੱਕ ਚੰਗਾ ਰਸਤਾ ਮੁਹੱਈਆ ਕਰਵਾਉਣਾ ਹੈ ਤਾਂ ਜੋ ਪ੍ਰੋਡਕਟ ਟੀਮਾਂ ਹਰ ਸਪ੍ਰਿੰਟ 'ਚ ops ਦੁਬਾਰਾ ਖੋਜਣ ਦੀ ਜ਼ਰੂਰਤ ਨਹੀਂ ਪੈਂਦੀ।

ਅਭਿਆਸ:

ਪ paved roads, ਟੈਮਪਲੇਟ, ਅਤੇ guardrails: repo_strucutre, logging, alerts, dashboards
standard CI/CD ਪਾਈਪਲਾਈਨ ਜੋ ਸੇਫ਼ deployment options (canary, blue/green, ਆਟੋਮੈਟਿਕ rollback) ਦਿੰਦੇ ਹਨ
ਪ੍ਰੋਡਕਸ਼ਨ-ਰੇਡੀ runtime ਬੇਸਿਕਸ (health checks, rate limits, config conventions)

ਬਾਊਂਡਰੀ: ਪਲੇਟਫਾਰਮ ਟੀਮ ਪਲੇਟਫਾਰਮ ਦੀ uptime ਅਤੇ ਸਹਾਇਤਾ ਦੀ ਮਲਕੀਅਤ ਰੱਖੇ; ਪ੍ਰੋਡਕਟ ਟੀਮਾਂ ਆਪਣੀਆਂ ਸੇਵਾਵਾਂ ਦੀ reliability/ਪ੍ਰਦਰਸ਼ਨ/ਲਾਗਤ ਦੀ ਮਲਕੀਅਤ ਰੱਖਣ।

ਆਮ ਘਾਟ-ਵਿਧੀਆਂ ਕਿਹੜੀਆਂ ਹਨ ਅਤੇ ਮਾਡਲ ਨੂੰ ਕਦੋਂ ਅਨੁਕੂਲਿਤ ਕਰਨਾ ਚਾਹੀਦਾ?

ਕਈ ਵਾਰ ਨੀਤੀਆਂ ਅਪਣਾਈਆਂ ਜਾਂਦੀਆਂ ਹਨ ਪਰ ਸਹਾਇਕ ਆਦਤਾਂ ਨਹੀਂ—ਇਸ ਕਰਕੇ ਨਾਕਾਮੀ ਹੁੰਦੀ ਹੈ। ਕੁਝ ਆਮ ਨੁਕਸ:

ਡਿਵੈਲਪਰ ਆਨ-ਕਾਲ 'ਤੇ ਹਨ ਪਰ ਰੂਟ ਕਾਰਨਾਂ ਨੂੰ ਠੀਕ ਕਰਨ ਲਈ ਉਨਾਂ ਕੋਲ ਸਮਾਂ ਨਹੀਂ।
ਅਸਪਸ਼ਟ ਮਲਕੀਅਤ (“ਸਭ ਦੀ ਮਲਕੀਅਤ”)—ਕਈ ਟੀਮਾਂ ਸ਼ਾਮਲ ਹੋਣ ਤੇ ਕਿਸੇ ਨੂੰ ਅੰਤਿਮ ਫ਼ੈਸਲਾ ਕਰਨ ਦੀ ਤਾਕਤ ਨਹੀਂ ਮਿਲਦੀ।
ਬਹੁਤ ਸਾਰੇ ਸ਼ੇਅਰਡ ਡਿਪੈਂਡੇਨਸੀਜ਼—ਜੇ ਸਭ ਸੇਵਾ ਇੱਕ ਸੈਂਟਰਲ ਡੇਟਾਬੇਸ ਤੇ ਨਿਰਭਰ ਹੋਣ, ਫਿਰ ਟੀਮਾਂ ਆਪਣੀ ਸੇਵਾ ਨੂੰ ਸੱਚਮੁੱਚ ਚਲਾਉਣ ਨਹੀਂ ਸਕਦੀਆਂ।
on-call ਨੂੰ ਸਜ਼ਾ ਜਾਂ ਹੀਰੋਈਕਸ ਵਜੋਂ ਦੇਖਣਾ।

ਅਨੁਕੂਲਨ: