ਦਿਨ-ਇਕ ਮਾਨੀਟਰਿੰਗ ਲਈ ਪ੍ਰੋਡਕਸ਼ਨ ਨਿਰੀਖਣ ਸਟਾਰਟਰ ਪੈਕ

Q: ਮੈਂ ਲੌਗਸ, ਮੈਟਰਿਕਸ ਅਤੇ ਟਰੇਸ ਕਦੋਂ ਵਰਤਾਂ?

- Metrics: “ਕੀ ਇਹ ਬਹੁਤ ਜ਼ਿਆਦਾ ਫੈਲਿਆ ਹੋਇਆ ਹੈ ਅਤੇ ਕੀ ਇਹ ਬੁਰਾ ਹੇਠਾਂ ਜਾ ਰਿਹਾ ਹੈ?” (rates, percentiles, saturation) - Traces: “ਇਸ request ਦੇ ਅੰਦਰ ਸਮਾਂ ਕਿੱਥੇ ਲੱਗ ਰਿਹਾ ਹੈ?” (ਸਲੋ ਹੌਪ) - Logs: “ਇਸ user/request ਲਈ ਅਸਲ ਵਿੱਚ ਕੀ ਹੋਇਆ?” (errors, inputs, context) ਇੱਕ incident ਦੌਰਾਨ: metrics ਨਾਲ ਪ੍ਰਭਾਵ ਦੀ ਪੁਸ਼ਟੀ ਕਰੋ, traces ਨਾਲ bottleneck ਲੱਭੋ, ਅਤੇ logs ਨਾਲ ਉਸਦੀ ਵਿਆਖਿਆ ਕਰੋ।

Q: ਕਿਹੜੇ ਨਾਮਕਰਨ ਅਤੇ ਟੈਗਿੰਗ ਰਵਾਇਆਂ ਬਾਅਦ ਵਿੱਚ ਗੰਦਗੀ ਤੋਂ ਬਚਾਉਂਦੀਆਂ ਹਨ?

ਛੋਟੀ ਪਰ ਸਾਫ਼ ਰਵਾਇਆਂ ਦੀ ਇੱਕ ਨਿਯਤੀ ਬਣਾਓ ਅਤੇ ਹਰ ਥਾਂ ਲਾਗੂ ਕਰੋ: - stable , (ਜਿਵੇਂ / ) ਅਤੇ - edge 'ਤੇ ਬਣਾਇਆ ਹੋਇਆ ਜੋ ਕਾਲਾਂ ਅਤੇ ਜੌਬਾਂ 'ਚ propagate ਹੋਵੇ - ਸਥਿਰ ਟੈਗ: , , , ਅਤੇ (ਜੇ multi-tenant) - ਇੱਕ ਸਮੇਂ ਇਕਾਈ durations ਲਈ (ਉਦਾਹਰਣ ਲਈ ) ਮਕਸਦ ਇਹ ਹੈ ਕਿ ਇੱਕ ਹੀ ਫਿਲਟਰ ਸੇਵਾਵਾਂ ਵਿੱਚ ਕਾਮ ਕਰੇ ਨਾ ਕਿ ਹਰ ਵਾਰੀ ਮੁੜ ਸ਼ੁਰੂ ਕਰਨ ਦੀ ਲੋੜ ਪਵੇ।

Q: ਦਿਨ-ਇਕ 'ਤੇ ਮੈਨੂੰ ਘੱਟੋ-ਘੱਟ ਕਿਹੜਾ ਲੌਗਿੰਗ ਜੋੜਨਾ ਚਾਹੀਦਾ ਹੈ?

ਡਿਫ਼ਾਲਟ ਤੌਰ 'ਤੇ structured logs (ਆਮ ਤੌਰ 'ਤੇ JSON) ਵਰਤੋ ਅਤੇ ਹਰ ਥਾਂ ਇਕੋ ਹੀ keys ਰੱਖੋ। ਤੁਰੰਤ ਲਾਭ ਦੇਣ ਵਾਲੇ ਘੱਟੋ-ਘੱਟ ਫੀਲਡ: - , , , , - (ਅਤੇ ਜੇ ਉਪਲਬਧ ਹੋਵੇ ਤਾਂ ) - , , , - ਜਾਂ (ਇੱਕ stable ID, email ਨਾ) Errors ਨੂੰ ਇਕ ਵਾਰੀ ਹੀ ਲੌਗ ਕਰੋ ਸੰਦਰਭ ਦੇ ਨਾਲ (error type/code + message + dependency name)। retries 'ਤੇ ਇੱਕੋ ਹੀ stack trace ਦੁਹਰਾਉਣ ਤੋਂ ਬਚੋ।

Q: ਦਿਨ-ਇਕ 'ਤੇ trace sampling ਨੂੰ ਕਿਵੇਂ ਸੰਭਾਲਨਾ ਚਾਹੀਦਾ ਹੈ?

ਇੱਕ ਸਧਾਰਨ ਅਤੇ ਸੁਰੱਖਿਅਤ ਡਿਫੋਲਟ: - 100% errors ਅਤੇ slow requests trace ਕਰੋ (ਜੀਹੜੇ SDK ਸਹਾਇਕ ਹੋ) - ਆਮ ਟ੍ਰੈਫਿਕ ਦਾ 1–10% sample ਕਰੋ ਟ੍ਰੈਸਿੰਗ ਦੀ मात्रा ਘੱਟ ਰੱਖਣ ਲਈ ਇਹ ਸ਼ੁਰੂਆਤੀ ਨੀਤੀ ਮਦਦਗਾਰ ਹੈ: ਜਦ ਟ੍ਰੈਫਿਕ ਘੱਟ ਹੋ, sample ਜ਼ਿਆਦਾ ਰੱਖੋ; ਜਿਵੇਂ ਵਾਧਾ ਹੋਵੇ, ਘਟਾਓ।

Q: ਜਦ ਕੋਈ ਕਹਿੰਦਾ ਹੈ “it’s slow” ਤਾਂ ਇੱਕ ਚੰਗਾ triage flow ਕੀ ਹੈ?

ਇਕ ਦੁਹਰਾਈਯੋਗ ਫਲੋ ਵਰਤੋ ਜੋ ਸਬੂਤ ਦੇ ਅਨੁਸਾਰ ਚੱਲੇ: 1. Scope: ਪ੍ਰਭਾਵਿਤ ਕੌਣ ਹੈ (ਇੱਕ user/tenant/region ਜਾਂ ਸਭ)? 2. Change: ਪਹਿਲਾਂ traffic, errors, ਜਾਂ latency ਵਿੱਚ ਕੀ ਬਦਲਿਆ? 3. Route/job: ਕਿਹੜਾ endpoint/job type p95 'ਤੇ ਸਭ ਤੋਂ ਵੱਡਾ ਹੈ? 4. Trace: ਇੱਕ slow trace ਖੋਲ੍ਹੋ ਅਤੇ ਸਭ ਤੋਂ ਲੰਮਾ span ਪਛਾਣੋ. 5. Validate: DB saturation/pool, queue depth, dependency latency ਚੈਕ ਕਰੋ; ਜੇ deploy ਤੋਂ ਬਾਅਦ ਸ਼ੁਰੂ ਹੋਇਆ ਤਾਂ rollback ਸੋਚੋ। ਫਿਕਸ ਕਰਨ ਤੋਂ ਬਾਦ ਇੱਕ ਛੋਟੀ ਸੁਧਾਰ ਲਿਖੋ ਅਤੇ ਇੱਕ ਗੁਮ ਸਿਗਨਲ ਜੋੜੋ ਜੋ ਅੱਗੇ ਸਮਾਂ ਬਚਾਏਗਾ।

Q: ਸਭ ਤੋਂ ਜ਼ਿਆਦਾ incident ਸਮਾਂ ਬਰਬਾਦ ਕਰਨ ਵਾਲੀਆਂ ਗਲਤੀਆਂ ਕੌਣ-ਕੌਣੀਆਂ ਹਨ?

ਇਹ ਗੱਲਾਂ ਸਭ ਤੋਂ ਵੱਧ ਸਮਾਂ ਵਿਅਰਥ ਕਰਦੀਆਂ ਹਨ: - ਸੰਵੇਦਨਸ਼ੀਲ ਡੇਟਾ ਲੌਗ ਕਰਨਾ (passwords, tokens, full bodies) ਬਜਾਏ ਸੁਰੱਖਿਅਤ IDs - ਸਿਰਫ averages ਦੇਖਣਾ; p95/p99 ਨੂ ਵੇਖੋ - ਉੱਚ-cardinality metric labels (ਪੂਰੇ user IDs, order IDs) ਜੋ series ਗਿਣਤੀ ਫੂਲ ਕਰ ਦਿੰਦੀਆਂ ਹਨ - context ਤੋਂ ਖਾਲੀ traces (route templates ਨਾ ਹੋਣ, dependency names unclear) - ਕੋਈ release/version marker ਨਾ ਹੋਣਾ ਸਾਡਾ ਸਲਾਹ: ਸਧਾਰਨ ਰੱਖੋ—stable IDs, percentiles, ਸਾਫ਼ dependency names, ਅਤੇ version tags ਹਰ ਥਾਂ।

ਲੌਗ ਇਨ ਸ਼ੁਰੂ ਕਰੋ

ਦਿਨ-ਇਕ ਮਾਨੀਟਰਿੰਗ ਲਈ ਪ੍ਰੋਡਕਸ਼ਨ ਨਿਰੀਖਣ ਸਟਾਰਟਰ ਪੈਕ | Koder.ai

ਨਵੇਂ ਐਪ ਦੇ ਅਸਲੀ ਉਪਭੋਗਤਿਆਂ ਨੂੰ ਲੱਗਣ 'ਤੇ ਪਹਿਲਾਂ ਕੀ ਟੁੱਟਦਾ ਹੈ

ਸਭ ਤੋਂ ਪਹਿਲਾਂ ਟੁੱਟਣ ਵਾਲੀ ਚੀਜ਼ ਬਹੁਤ ਕਦਾਚਿਤ ਪੂਰੀ ਐਪ ਨਹੀਂ ਹੁੰਦੀ। ਆਮ ਤੌਰ ਤੇ ਇਹ ਇੱਕ ਕਦਮ ਹੁੰਦਾ ਹੈ ਜੋ ਅਚਾਨਕ ਬਹੁਤਾਂ ਸਮੇਂ ਲਈ ਵਿਅਸਤ ਹੋ ਜਾਂਦਾ ਹੈ, ਇੱਕ ਕੁਐਰੀ ਜੋ ਟੈਸਟਾਂ ਵਿੱਚ ਠੀਕ ਸੀ, ਜਾਂ ਕੋਈ ਡਿਪੈਂਡੈਂਸੀ ਜੋ timeout ਹੋਣ ਲੱਗਦੀ ਹੈ। ਅਸਲੀ ਉਪਭੋਗਤਿਆਂ ਨਾਲ ਅਸਲੀ ਵਿਵਿਧਤਾ ਆਉਂਦੀ ਹੈ: ਹੌਲੀ ਫੋਨ, ਠੰਭ-ਠੱਲ ਪネットਵਰਕ, ਅਜੀਬ ਇਨਪੁਟ ਅਤੇ ਟ੍ਰੈਫਿਕ ਦੇ ਅਚਾਨਕ spike।

ਜਦ ਕੋਈ ਕਹਿੰਦਾ ਹੈ “it’s slow”, ਉਹ ਕਈ ਵੱਖ-ਵੱਖ ਗੱਲਾਂ ਨੂੰ ਮਤਲਬ ਰੱਖ ਸਕਦਾ ਹੈ। ਪੇਜ ਲੋਡ ਹੋਣ ਵਿੱਚ ਜ਼ਿਆਦਾ ਸਮਾਂ ਲੱਗ ਰਿਹਾ ਹੋ ਸਕਦਾ ਹੈ, interactions lag ਹੋ ਰਹੇ ਹੋ ਸਕਦੇ ਹਨ, ਇੱਕ API ਕਾਲ timeout ਹੋ ਰਹੀ ਹੋ ਸਕਦੀ ਹੈ, background jobs ਪਾਈਲ ਹੋ ਰਹੇ ਹੋ ਸਕਦੇ ਹਨ ਜਾਂ ਕੋਈ third-party ਸਰਵਿਸ ਸਭ ਕੁਝ ਧੀਮਾ ਕਰ ਰਿਹਾ ਹੋ ਸਕਦੀ ਹੈ।

ਇਸ ਲਈ ਤੁਹਾਨੂੰ ਡੈਸ਼ਬੋਰਡ ਤੋਂ ਪਹਿਲਾਂ ਸਿਗਨਲ ਚਾਹੀਦੇ ਹਨ। ਦਿਨ-ਇਕ 'ਤੇ ਤੁਹਾਨੂੰ ਹਰ ਏਂਡਪਾਇੰਟ ਲਈ ਪੂਰੇ ਪਰਫੈਕਟ ਚਾਰਟ ਦੀ ਲੋੜ ਨਹੀਂ। ਤੁਹਾਨੂੰ ਇੰਨੇ ਲੌਗ, ਮੈਟਰਿਕਸ, ਅਤੇ ਟਰੇਸ ਚਾਹੀਦੇ ਹਨ ਕਿ ਤੁਸੀਂ ਇੱਕ ਸਵਾਲ ਜਲਦੀ ਜਵਾਬ ਦੇ ਸਕੋ: ਸਮਾਂ ਕਿੱਥੇ ਲੱਗ ਰਿਹਾ ਹੈ?

ਜਿਆਂਦਾ ਇੰਸਟ੍ਰੂਮੈਂਟੇਸ਼ਨ ਦੇ ਵੀ ਖਤਰੇ ਹੁੰਦੇ ਹਨ। ਬਹੁਤ ਸਾਰੇ ਘਟਨਾਵਾਂ ਸ਼ੋਰ ਪੈਦਾ ਕਰਦੀਆਂ ਹਨ, ਖਰਚ ਵਧਾਉਂਦੀਆਂ ਹਨ, ਅਤੇ ਐਪ ਨੂੰ ਵੀ ਧੀਮਾ ਕਰ ਸਕਦੀਆਂ ਹਨ। ਸਭ ਤੋਂ ਵੱਧ, ਟੀਮਾਂ ਟੈਲੀਮੇਟਰੀ 'ਤੇ ਭਰੋਸਾ ਕਰਨਾ ਛੱਡ ਦਿੰਦੀਆਂ ਹਨ ਕਿਉਂਕਿ ਉਹ ਗੰਦਗੀ ਅਤੇ ਅਸਥਿਰ ਮਹਿਸੂਸ ਹੁੰਦੀ ਹੈ।

ਇੱਕ ਯਥਾਰਥਿਕ ਦਿਨ-ਇਕ ਲਕਸ਼ ਸਧਾਰਨ ਹੈ: ਜਦ ਤੁਸੀਂ “it’s slow” ਰਿਪੋਰਟ ਪਾਉ, ਤਾਂ 15 ਮਿੰਟ ਤੋਂ ਘੱਟ ਵਿੱਚ ਤੁਹਾਨੂੰ ਸਲੋ ਕਦਮ ਲੱਭਣਾ ਚਾਹੀਦਾ ਹੈ। ਤੁਸੀਂ ਬਤਾਂ ਸਕੋ ਕਿ bottleneck client rendering ਵਿੱਚ ਹੈ, API handler ਅਤੇ ਉਸਦੀ dependencies ਵਿੱਚ ਹੈ, database ਜਾਂ cache ਵਿੱਚ ਹੈ, ਜਾਂ background worker ਜਾਂ external service ਵਿੱਚ ਹੈ।

ਉਦਾਹਰਣ: ਨਵਾਂ checkout flow ਧੀਮਾ ਮਹਿਸੂਸ ਹੁੰਦਾ ਹੈ। ਬਹੁਤ ਸਾਰੇ ਟੂਲਾਂ ਦੇ ਬਿਨਾਂ ਵੀ, ਤੁਸੀਂ ਇਹ ਕਹਿ ਸਕਣਾ ਚਾਹੁੰਦੇ ਹੋ: “95% ਸਮਾਂ payment provider calls 'ਚ ਲੰਘਦਾ ਹੈ,” ਜਾਂ “cart query ਬਹੁਤ ਜ਼ਿਆਦਾ rows ਸਕੈਨ ਕਰ ਰਿਹਾ ਹੈ।” ਜੇ ਤੁਸੀਂ Koder.ai ਵਰਗੇ ਟੂਲਾਂ ਨਾਲ ਤੇਜ਼ੀ ਨਾਲ ਐਪ ਬਣਾਉਂਦੇ ਹੋ, ਤਾਂ ਇਹ ਦਿਨ-ਇਕ ਬੇਸਲਾਈਨ ਹੋਰ ਵੀ ਮਹੱਤਵਪੂਰਨ ਬਣ ਜਾਂਦੀ ਹੈ, ਕਿਉਂਕਿ ਤੇਜ਼ ਡਿਲਿਵਰੀ ਮਦਦ ਕਰਦੀ ਹੈ ਸਿਵਾਏ ਇਸਦੇ ਕਿ ਤੁਸੀਂ ਤੇਜ਼ੀ ਨਾਲ ਡੀਬੱਗ ਵੀ ਕਰ ਸਕੋ।

ਲੌਗਸ, ਮੈਟਰਿਕਸ ਤੇ ਟਰੇਸ ਆਮ ਭਾਸ਼ਾ 'ਚ

ਇੱਕ ਚੰਗਾ production observability starter pack ਤਿੰਨ ਵੱਖ-ਵੱਖ “ਦ੍ਰਿਸ਼” ਵਰਤਦਾ ਹੈ, ਕਿਉਂਕਿ ਹਰ ਇੱਕ ਵੱਖਰਾ ਸਵਾਲ ਜਵਾਬ ਦਿੰਦਾ ਹੈ।

ਲੌਗਸ ਵੀਹਲਾ ਬਿਆਨ ਦਿੰਦੀਆਂ ਹਨ। ਉਹ ਦੱਸਦੀਆਂ ਹਨ ਕਿ ਇੱਕ request, ਇੱਕ user, ਜਾਂ ਇੱਕ background job ਲਈ ਕੀ ਵਾਪਰਾ। ਇੱਕ ਲੌਗ ਲਾਇਨ ਕਹਿ ਸਕਦੀ ਹੈ “payment failed for order 123” ਜਾਂ “DB timeout after 2s,” ਨਾਲੇ request ID, user ID ਅਤੇ error message ਵਰਗੀਆਂ ਜਾਣਕਾਰੀਆਂ। ਜਦ ਕੋਈ ਅਜੀਬ ਇਕਲੋਤਾ issue ਰਿਪੋਰਟ ਕਰਦਾ ਹੈ, ਤਦ ਲੌਗਸ ਅਕਸਰ ਇਸਨੂੰ ਪੁਸ਼ਟੀ ਕਰਨ ਦਾ ਸਭ ਤੋਂ ਤੇਜ਼ ਤਰੀਕਾ ਹੁੰਦੇ ਹਨ।

ਮੈਟਰਿਕਸ ਸਕੋਰਬੋਰਡ ਹਨ। ਉਹ ਨੰਬਰ ਹਨ ਜਿਨ੍ਹਾਂ 'ਤੇ ਤੁਸੀਂ trend ਅਤੇ alert ਕਰ ਸਕਦੇ ਹੋ: request rate, error rate, latency percentiles, CPU, queue depth। ਮੈਟਰਿਕਸ ਦੱਸਦੀਆਂ ਹਨ ਕਿ ਕੋਈ ਚੀਜ਼ ਕਿੰਨੀ ਵਿਸ਼ਾਲ ਹੈ ਅਤੇ ਕੀ ਇਹ ਖਰਾਬ ਹੋ ਰਹੀ ਹੈ। ਜੇ latency 10:05 'ਤੇ ਸਭ ਲਈ ਵੱਧ ਗਿਆ, ਮੈਟਰਿਕਸ ਇਹ ਦਿਖਾਵੇਗੀ।

ਟਰੇਸਿਜ਼ ਨਕਸ਼ਾ ਹਨ। ਇੱਕ trace ਇੱਕ request ਨੂੰ ਹੇਠਾਂ-ਉਪਰ ਤੁਹਾਡੇ ਸਿਸਟਮ ਰਾਹੀਂ follow ਕਰਦਾ ਹੈ (web -> API -> database -> third-party)। ਇਹ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਸਮਾਂ ਕਿੱਥੇ ਲੱਗਿਆ, ਕਦਮ-ਬ-ਕਦਮ। ਇਹ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿਉਂਕਿ “it’s slow” ਬਹੁਤ ਵਾਰੀ ਇੱਕ ਵੱਡੇ ਰਹੱਸ ਵਾਂਗ ਨਹੀਂ ਹੁੰਦਾ। ਇਹ ਅਕਸਰ ਇੱਕ ਸਲੋ ਹੌਪ ਹੁੰਦਾ ਹੈ।

ਇੰਸੀਡੈਂਟ ਦੌਰਾਨ ਇੱਕ ਯੁਕਤ flow ਇਸ ਤਰ੍ਹਾਂ ਹੁੰਦਾ ਹੈ:

ਪ੍ਰਭਾਵ ਦੀ ਪੁਸ਼ਟੀ ਕਰਨ ਲਈ metrics ਵਰਤੋ (ਕਿੰਨੇ ਯੂਜ਼ਰ ਪ੍ਰਭਾਵਿਤ, ਕਿੰਨਾ ਬੁਰਾ, ਕਦੋਂ ਸ਼ੁਰੂ ਹੋਇਆ)
ਸਬ ਤੋਂ ਸਲੋ ਕਦਮ ਲੱਭਣ ਲਈ traces ਵਰਤੋ (ਇੱਕ bottleneck ਜਿਸ ’ਤੇ ਕਾਰਵਾਈ ਕੀਤੀ ਜਾ ਸਕੇ)
bottleneck ਦੀ ਵਿਆਖਿਆ ਕਰਨ ਲਈ logs ਵਰਤੋ (ਖਾਸ errors, inputs ਜਾਂ edge cases)

ਇੱਕ ਸਧਾਰਨ ਨਿਯਮ: ਜੇ ਕੁਝ ਮਿੰਟਾਂ 'ਚ ਤੁਸੀਂ ਇੱਕ bottleneck ਨੁਹੀਂ ਪਤਾ ਲਗਾ ਪਾ ਰਹੇ, ਤਾਂ ਤੁਹਾਨੂੰ ਹੋਰ alerts ਦੀ ਲੋੜ ਨਹੀਂ। ਤੁਹਾਨੂੰ ਬਿਹਤਰ traces ਅਤੇ ਓਹ ID ਚਾਹੀਦੇ ਹਨ ਜੋ traces ਨੂ ਲੌਗਸ ਨਾਲ ਜੋੜਦੇ ਹਨ।

ਦਿਨ-ਇਕ ਰਵਾਇਆਂ ਜੋ ਬਾਅਦ ਵਿੱਚ ਗੜਬੜ ਰੋਕੇਂ

ਜ਼ਿਆਦਾਤਰ “ਅਸੀਂ ਇਸਨੂੰ ਲੱਭ ਨਹੀਂ ਪਾ ਰਹੇ” ਵਾਂਗ incidents ਗੁੰਮ ਹੋਏ ਡੇਟਾ ਕਾਰਨ ਨਹੀਂ ਹੁੰਦੇ। ਇਹ ਇਸ ਕਾਰਨ ਹੁੰਦੇ ਹਨ ਕਿ ਇੱਕੋ ਚੀਜ਼ ਸੇਵਾਵਾਂ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਤਰੀਕੇ ਨਾਲ ਦਰਜ ਹੁੰਦੀ ਹੈ। ਦਿਨ-ਇਕ 'ਤੇ ਕੁਝ ਸਾਂਝੇ ਰਵਾਇਆਂ ਲੌਗਸ, ਮੈਟਰਿਕਸ ਅਤੇ ਟਰੇਸ ਨੂੰ ਇਕੱਠਾ ਕਰਦੀਆਂ ਹਨ ਤਾਂ ਕਿ ਤੁਹਾਨੂੰ ਜਦ ਜਵਾਬ ਚਾਹੀਦਾ ਹੋਵੇ ਉਹ ਮਿਲ ਜਾਏ।

ਸ਼ੁਰੂਆਤ ਕਰੋ ਇਕ ਸੇਵਾ ਨਾਮ ਪਸੰਦ ਕਰਕੇ ਹਰ deployable unit ਲਈ ਅਤੇ ਇਸਨੂੰ ਸਥਿਰ ਰੱਖੋ। ਜੇ “checkout-api” ਅੱਧੇ ਡੈਸ਼ਬੋਰਡ ਵਿੱਚ “checkout” ਹੋ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਤੁਸੀਂ ਇਤਿਹਾਸ ਗੁਆ ਦੇਂਦੇ ਹੋ ਅਤੇ alerts ਟੁੱਟ ਜਾਂਦੇ ਹਨ। environment labels ਲਈ ਵੀ ਇਹੋ ਹੀ ਕਰੋ। ਛੋਟਾ ਸੈੱਟ ਚੁਣੋ ਜਿਵੇਂ prod ਅਤੇ staging ਅਤੇ ਹਰ ਥਾਂ ਵਰਤੋ।

ਅਗਲਾ, ਹਰ request ਨੂੰ follow ਕਰਨਾ ਆਸਾਨ ਬਣਾਓ। edge 'ਤੇ (API gateway, web server ਜਾਂ ਪਹਿਲਾ handler) ਇੱਕ request ID ਬਣਾਓ ਅਤੇ ਇਸਨੂੰ HTTP calls, message queues, ਅਤੇ background jobs 'ਚ ਪਾਸ ਕਰੋ। ਜੇ ਇਕ support ticket ਕਹਿੰਦੀ ਹੈ “10:42 'ਤੇ ਧੀਮਾ ਸੀ,” ਤਾਂ ਇੱਕ ID ਤੁਹਾਨੂੰ ਸਹੀ logs ਅਤੇ trace ਤੁਰੰਤ ਖਿੱਚ ਕੇ ਦੇਵੇਗੀ।

ਇੱਕ ਦਿਨ-ਇਕ ਰਵਾਇਆਂ ਜੋ ਚੰਗਾ ਕੰਮ ਕਰਦੀਆਂ ਹਨ:

Identity: service name, environment, version (ਜਾਂ build SHA)
Correlation: request ID ਜੋ ਸੇਵਾਵਾਂ ਅਤੇ jobs 'ਚ propagate ਹੋਵੇ
Core tags: route (ਜਾਂ handler), method, status code, ਅਤੇ tenant/org ID ਜੇ multi-tenant ਹੋ
Tracing operations: operations ਨੂੰ endpoints ਅਤੇ background jobs ਦੇ ਨਾਮ 'ਤੇ ਰੱਖੋ (random function names ਨਾ)
Consistency: durations ਲਈ ਇੱਕ ਨਾਂਗ ਅਤੇ ਇੱਕ ਸਮੇਂ ਇਕਾਈ

ਸਮੇਂ ਇਕਾਈਆਂ 'ਤੇ ਪਹਿਲਾਂ ਹੀ ਸਹਿਮਤ ਹੋ ਜਾਓ। API latency ਲਈ milliseconds ਅਤੇ ਲੰਮੇ jobs ਲਈ seconds ਚੁਣੋ ਅਤੇ ਉਸੇ ਨਾਲ ਚੱਲੋ। ਮਿਲੀ ਜੁੱਟ ਏਕਾਈਆਂ ਵਾਲੀਆਂ ਚਾਰਟਸ ਵੇਖਣ ਵਿੱਚ ਠੀਕ ਲੱਗਦੀਆਂ ਹਨ ਪਰ ਗਲਤ ਕਹਾਣੀ ਦਸਦੀਆਂ ਹਨ।

ਉਦਾਹਰਣ: ਜੇ ਹਰ API duration_ms, route, status ਅਤੇ request_id ਲੌਗ ਕਰਦਾ ਹੈ, ਤਾਂ “tenant 418 ਲਈ checkout ਧੀਮਾ ਹੈ” ਵਰਗਾ ਰਿਪੋਰਟ ਇਕ ਤੇਜ਼ ਫਿਲਟਰ ਬਣ ਜਾਂਦਾ ਹੈ, ਨਾ ਕਿ ਰਾਹਾ-ਰਾਹੀ ਕਥਾ।

ਦਿਨ-ਇਕ 'ਤੇ ਘੱਟੋ-ਘੱਟ ਲੌਗਿੰਗ ਜੋੜੋ

ਜੇ ਤੁਸੀਂ ਸਿਰਫ ਇੱਕ ਗੱਲ ਕਰੋ production observability starter pack 'ਚ, ਤਾਂ ਲੌਗਸ ਨੂੰ ਖੋਜਯੋਗ ਬਣਾਓ। ਇਹ structured logs (ਅਮੂਮਨ JSON) ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦਾ ਹੈ ਅਤੇ ਹਰ ਸੇਵਾ 'ਚ ਇਕੋ ਫੀਲਡ ਹੋਣ ਚਾਹੀਦੇ ਹਨ। ਲੋਕਲ ਡਿਵ 'ਚ ਸਧਾਰਨ ਟੈਕਸਟ ਲੌਗ ਠੀਕ ਹਨ, ਪਰ ਜਦ ਤੁਹਾਡੇ ਕੋਲ ਅਸਲੀ ਟ੍ਰੈਫਿਕ, retries ਅਤੇ ਕਈ instance ਹੁੰਦੇ ਹਨ, ਉਹ ਸ਼ੋਰ ਬਣ ਜਾਂਦੇ ਹਨ।

ਚੰਗਾ ਨਿਯਮ: ਉਹੀ ਲੌਗ ਕਰੋ ਜਿਸ ਦੀ ਤੁਸੀਂ ਅਸਲ ਵਿੱਚ incident ਦੌਰਾਨ ਵਰਤੋਂ ਕਰੋਗੇ। ਜ਼ਿਆਦਾਤਰ ਟੀਮਾਂ ਨੂੰ ਇਹ ਸਵਾਲ ਜਵਾਬ ਦੇਣੇ ਹੁੰਦੇ ਹਨ: ਇਹ ਕਿਹੜੀ request ਸੀ? ਇਹ ਕਿਸਨੇ ਕੀਤੀ? ਕਿੱਥੇ fail ਹੋਇਆ? ਇਸਨੇ ਕਿੰਨ੍ਹ-ਕਿੰਨ੍ਹ ਚੀਜ਼ਾਂ ਨੂੰ ਛੂਹਿਆ? ਜੇ ਕੋਈ ਲੌਗ ਲਾਈਨ ਆਉਂਦੇ ਇਹਨਾਂ ਵਿੱਚੋਂ ਕਿਸੇ ਨੂੰ ਵੀ ਮਦਦ ਨਹੀਂ ਕਰਦੀ, ਤਾਂ ਉਹ ਸਾਇਦ ਹੀ ਮੌਜੂਦ ਰਹੇ।

ਦਿਨ-ਇਕ ਲਈ ਇੱਕ ਛੋਟਾ ਪਰ consistent ਫੀਲਡ ਸੈੱਟ ਰੱਖੋ ਤਾਂ ਜੋ ਤੁਸੀਂ ਸੇਵਾਵਾਂ ਦੇ events ਨੂੰ filter ਅਤੇ join ਕਰ ਸਕੋ:

Timestamp, level, ਅਤੇ service identity (service name, version, environment)
Request correlation (request_id, trace_id ਜੇ ਉਪਲਬਧ)
Who/where (user_id ਜਾਂ session_id, route, method)
Result (status code, duration_ms)
Deployment context (region/instance, release ਜਾਂ commit)

ਜਦ error ਹੋਵੇ, ਉਸਨੂੰ ਇੱਕ ਵਾਰੀ ਲੌਗ ਕਰੋ, ਸੰਦਰਭ ਦੇ ਨਾਲ। ਇੱਕ error type (ਜਾਂ code), ਇੱਕ ਛੋਟਾ message, server errors ਲਈ stack trace, ਅਤੇ upstream dependency ਸ਼ਾਮਲ ਕਰੋ (ਉਦਾਹਰਨ: postgres, payment provider, cache)। retries 'ਤੇ ਹਰੇਕ ਵਾਰੀ ਇੱਕੋ ਹੀ stack trace ਨਾ ਦਿਓ। ਉਸਦੀ ਥਾਂ request_id ਜੋੜੋ ਤਾਂ ਕਿ ਤੁਸੀਂ ਚੇਨ follow ਕਰ ਸਕੋ।

ਉਦਾਹਰਣ: ਇੱਕ ਯੂਜ਼ਰ ਰਿਪੋਰਟ ਕਰਦਾ ਹੈ ਕਿ ਉਹ settings ਸੇਵ ਨਹੀਂ ਕਰ ਸਕਦਾ। ਇੱਕ search request_id ਲਈ ਦਿੱਖਾਉਂਦਾ ਹੈ ਕਿ PATCH /settings 'ਤੇ 500 ਆ ਰਿਹਾ ਹੈ, ਫਿਰ downstream Postgres timeout duration_ms ਨਾਲ। ਤੁਹਾਨੂੰ ਪੂਰਾ payload ਦੀ ਲੋੜ ਨਹੀਂ ਸੀ, ਸਿਰਫ ਰੂਟ, user/session, ਅਤੇ dependency name।

ਪ੍ਰਾਈਵੇਸੀ logging ਦਾ ਹਿੱਸਾ ਹੈ, ਨਾ ਕਿ ਬਾਅਦ ਦੀ ਟਾਸਕ। passwords, tokens, auth headers, ਪੂਰੇ request bodies ਜਾਂ ਸੰਵੇਦਨਸ਼ੀਲ PII ਨੂੰ ਲੌਗ ਨਾ ਕਰੋ। ਜੇ ਤੁਹਾਨੂੰ user ਨੂੰ ਪਛਾਣਨਾ ਹੈ, ਤਾਂ ਇਕ stable ID (ਜਾਂ hashed value) ਲੌਗ ਕਰੋ email ਜਾਂ phone number ਦੀ ਥਾਂ।

ਜੇ ਤੁਸੀਂ Koder.ai (React, Go, Flutter) 'ਤੇ ਐਪ ਬਣਾਉਂਦੇ ਹੋ, ਤਾਂ ਇਹ ਫੀਲਡ ਹਰ generated ਸੇਵਾ ਵਿੱਚ ਸ਼ੁਰੂ ਤੋਂ ਹੀ ਸ਼ਾਮਲ ਕਰਨ ਯੋਗ ਹਨ ਤਾਂ ਕਿ ਤੁਹਾਨੂੰ ਆਪਣੇ ਪਹਿਲੇ incident ਦੌਰਾਨ “ਲੌਗਿੰਗ ਠੀਕ ਕਰਨ” ਦੀ ਲੋੜ ਨਾ ਪਏ।

ਉਹ ਘੱਟੋ-ਘੱਟ ਮੈਟਰਿਕਸ ਜੋ ਜ਼ਿਆਦਾਤਰ production ਮੁਦਿਆਂ ਨੂੰ ਫੜ ਲੈਂਦੇ ਹਨ

ਜ਼ਰੂਰੀ ਤੌਰ 'ਤੇ ਡਿਪਲੋਇ ਅਤੇ ਵੇਰੀਫਾਈ ਕਰੋ

ਵਿਚਾਰ ਤੋਂ ਲੈ ਕੇ ਹੋਸਟ ਕੀਤੀ ਐਪ ਤੱਕ ਜਾਓ, ਫਿਰ ਰੀਲੀਜ਼ ਦੇ ਬਾਅਦ p95 latency ਅਤੇ error rate ਪੜਤਾਲ ਕਰੋ।

ਡਿਪਲੋਇ ਕਰੋ

ਛੋਟਾ ਸੈੱਟ ਮੈਟਰਿਕਸ ਜੋ ਤੇਜ਼ੀ ਨਾਲ ਇਕ ਸਵਾਲ ਦਾ ਜਵਾਬ ਦੇਣ: ਕੀ ਸਿਸਟਮ ਹੁਣ ਸਿਹਤਮੰਦ ਹੈ, ਅਤੇ ਜੇ ਨਹੀਂ ਤਾਂ ਕਿੱਥੇ ਦਰਦ ਹੈ?

ਸੋਨੇ ਵਾਲੇ ਸਿਗਨਲ (golden signals)

ਜ਼ਿਆਦਾਤਰ production ਮੁੱਦੇ ਚਾਰ “golden signals” ਦੇ ਰੂਪ ਵਿੱਚ ਆਉਂਦੇ ਹਨ: latency (responses ਧੀਮੇ), traffic (ਲੋਡ ਬਦਲਿਆ), errors (ਚੀਜ਼ਾਂ fail ਹੋ ਰਹੀਆਂ), ਅਤੇ saturation (ਕੋਈ ਸਾਂਝਾ ਸ੍ਰੋਤ ਮੈਕਸ ਹੋ ਗਿਆ)। ਜੇ ਤੁਸੀਂ ਇਹ ਚਾਰ ਸਿਗਨਲ ਪ੍ਰਮੁੱਖ ਹਿੱਸੇ ਲਈ ਦੇਖ ਸਕਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਬਿਨਾਂ ਅਨੁਮਾਨ ਲਗਾਏ ਜਿਆਦਾਤਰ incidents triage ਕਰ ਸਕਦੇ ਹੋ।

Latency percentiles ਹੋਣੇ ਚਾਹੀਦੇ ਹਨ, averages ਨਹੀਂ। p50, p95 ਅਤੇ p99 ਟ੍ਰੈਕ ਕਰੋ ਤਾਂ ਕਿ ਤੁਸੀਂ ਵੇਖ ਸਕੋ ਕਿ ਇਕ ਛੋਟੇ ਗਰੁੱਪ ਦੇ ਯੂਜ਼ਰਾਂ ਨੂੰ ਕੋਈ ਮਸਲਾ ਹੋ ਰਿਹਾ ਹੈ। Traffic ਲਈ requests per second (ਜਾਂ workers ਲਈ jobs per minute) ਸ਼ੁਰੂ ਕਰੋ। Errors ਲਈ 4xx ਅਤੇ 5xx ਨੂੰ ਵੱਖਰਾ ਰੱਖੋ: 4xx ਵਿੱਚ ਵਾਧਾ ਅਕਸਰ client behaviour ਜਾਂ validation changes ਵੱਲ ਸੰकेत ਕਰਦਾ ਹੈ; 5xx ਵਾਧਾ ਤੁਹਾਡੇ ਐਪ ਜਾਂ ਉਸਦੀ dependencies ਵੱਲ ਦਰਸਾਉਂਦਾ ਹੈ। Saturation ਉਹ signal ਹੈ ਜਦੋਂ “ਸਾਡੇ ਕੋਲ ਕੁਝ ਖਤਮ ਹੋਣ ਲੱਗਾ ਹੈ” (CPU, memory, DB connections, queue backlog)।

ਕੰਪੋਨੈਂਟ ਅਨੁਸਾਰ ਮੈਟਰਿਕ ਚੈਕਲਿਸਟ

ਬਹੁਤ ਸਾਰੀਆਂ ਐਪ ਲਈ ਘੱਟੋ-ਘੱਟ ਸੈੱਟ:

HTTP/API: requests per second, p50/p95/p99 latency, 4xx rate, 5xx rate
Database: query latency (ਘੱਟੋ-ਘੱਟ p95), connection pool ਵਰਤੋਂ (in-use vs max), timeouts, slow query count
Workers/queues: queue depth, job runtime p95, retries, dead-letter count (ਜਾਂ failed jobs)
Resources: CPU %, memory usage, disk usage (ਅਤੇ I/O ਜੇ ਲੋੜੀਦਾ ਹੋਵੇ), container restarts
Deploy health: current version, error rate after deploy, restart loops

ਉਦਾਹਰਣ: ਜੇ users ਕਹਿੰਦੇ ਹਨ “it’s slow” ਅਤੇ API p95 latency spike ਹੋ ਜਾਂਦੀ ਹੈ ਪਰ traffic ਸਥਿਰ ਰਹਿੰਦੀ ਹੈ, ਤਾਂ saturation ਚੈੱਕ ਕਰੋ। ਜੇ DB pool usage ਲਗਾਤਾਰ max ਕੋਲ ਪਿੰਡ ਹੈ ਅਤੇ timeouts ਵੱਧ ਰਹੇ ਹਨ, ਤਾਂ ਤੁਸੀਂ ਸੰਭਾਵਤ bottleneck ਲੱਭ ਲਈ।

ਜੇ ਤੁਸੀਂ Koder.ai 'ਤੇ ਐਪ ਬਣਾਉਂਦੇ ਹੋ, ਤਾਂ ਇਸ ਚੈਕਲਿਸਟ ਨੂੰ ਦਿਨ-ਇਕ ਦੀ definition of done ਵਜੋਂ ਰੱਖੋ। ਐਪ ਛੋਟੀ ਹੋਣ ਵੇਲੇ ਇਹ ਮੈਟਰਿਕਸ ਜੋੜਨਾ ਆਸਾਨ ਹੁੰਦਾ ਹੈ ਬਜਾਏ ਪਹਿਲੇ ਵੱਡੇ incident ਦੌਰਾਨ ਜੋੜਨ ਦੇ।

ਘੱਟੋ-ਘੱਟ ਟ੍ਰੇਸਿੰਗ ਜੋ “it’s slow” ਨੂੰ ਡੀਬੱਗਯੋਗ ਬਣਾਉਂਦੀ ਹੈ

ਜਦ user ਕਹਿੰਦਾ ਹੈ “it’s slow”, ਲੌਗਸ ਅਕਸਰ ਦੱਸਦੇ ਹਨ ਕਿ ਕੀ ਵਾਪਰਾ ਅਤੇ ਮੈਟਰਿਕਸ ਦੱਸਦੇ ਹਨ ਕਿ ਕਿੰਨੀ ਵਾਰ। ਟਰੇਸ ਇਹ ਦੱਸਦੇ ਹਨ ਕਿ ਇੱਕ request ਦੇ ਅੰਦਰ ਸਮਾਂ ਕਿੱਥੇ ਲੱਗਿਆ। ਉਹ ਇਕ timeline ਖਾਣਾ vague ਸ਼ਿਕਾਇਤ ਨੂੰ ਸਪੱਸ਼ਟ ਫਿਕਸ ਵਿੱਚ ਬਦਲ ਦਿੰਦਾ ਹੈ।

ਸਰਵਰ-ਸਾਈਡ 'ਤੇ ਸ਼ੁਰੂ ਕਰੋ। ਉਦੋਂ instrument inbound requests app ਦੇ edge (ਪਹਿਲਾ handler) 'ਤੇ ਕਰੋ ਤਾਂ ਕਿ ਹਰ request ਇੱਕ trace ਪੈਦਾ ਕਰ ਸਕੇ। Client-side tracing ਬਾਅਦ 'ਚ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।

ਇੱਕ ਚੰਗੀ ਦਿਨ-ਇਕ trace ਵਿੱਚ spans ਉਹ ਹਿੱਸੇ ਹੋਣ ਚਾਹੀਦੇ ਹਨ ਜੋ ਆਮ ਤੌਰ 'ਤੇ ਸਲੋ ਹੁੰਦੇ ਹਨ:

Request handler span
ਹਰ query ਜਾਂ transaction ਲਈ database call span
ਜੇ cache ਵਰਤਦੇ ਹੋ ਤਾਂ cache call span (get/set)
ਹਰ dependency ਲਈ external HTTP call span
ਜੇ request ਨੇ background ਸੌਂਪਿਆ ਹੋਵੇ ਤਾਂ background job span

ਟਰੇਸ ਨੂ searchable ਅਤੇ comparable ਬਣਾਉਣ ਲਈ ਕੁਝ ਕੁੰਜੀ attributes consistent ਰੱਖੋ।

ਇਨਬਾਊਂਡ request span ਲਈ route (ਟੈਂਪਲੇਟ ਜਿਵੇਂ /orders/:id), HTTP method, status code, ਅਤੇ latency ਰੱਖੋ। DB spans ਲਈ DB system (PostgreSQL, MySQL), operation type (select, update) ਅਤੇ table name ਜੇ ਆਸਾਨ ਹੋ ਤਾਂ ਜੋੜੋ। External calls ਲਈ dependency name (payments, email, maps), target host, ਅਤੇ status ਰੱਖੋ।

Sampling ਦਿਨ-ਇਕ 'ਤੇ ਮਹੱਤਵਪੂਰਨ ਹੈ, ਨਹੀਂ ਤਾਂ ਲਾਗਤ ਅਤੇ ਸ਼ੋਰ ਤੇਜ਼ੀ ਨਾਲ ਵੱਧਦਾ ਹੈ। ਇੱਕ ਸਧਾਰਨ head-based ਨਿਯਮ ਵਰਤੋ: errors ਅਤੇ slow requests ਨੂੰ 100% trace ਕਰੋ (ਜੇ SDK ਸਮਰਥਨ ਕਰਦਾ ਹੋਵੇ), ਅਤੇ ਆਮ ਟ੍ਰੈਫਿਕ ਦਾ ਛੋਟਾ ਪ੍ਰਤੀਸ਼ਤ (1-10%) sample ਕਰੋ। ਘੱਟ ਟ੍ਰੈਫਿਕ 'ਚ high sampling ਰੱਖੋ ਅਤੇ ਜਿਵੇਂ ਵਰਤੋਂ ਵੱਧੇ ਘਟਾਓ।

“ਚੰਗੀ” trace ਇਹ ਹੈ: ਇੱਕ trace ਜਿਸਨੂੰ ਤੁਸੀਂ ਉਪਰੋਂ ਹੇਠਾਂ ਕਹਾਣੀ ਵਾਂਗ ਪੜ੍ਹ ਸਕੋ। ਉਦਾਹਰਣ: GET /checkout 2.4s ਲੱਗਿਆ, DB ਨੇ 120ms ਲਿਆ, cache 10ms, ਅਤੇ external payment call 2.1s ਲਿਆ ਜਿਸ 'ਚ retry ਸੀ। ਹੁਣ ਤੁਸੀਂ ਜਾਣਦੇ ਹੋ ਕਿ ਸਮੱਸਿਆ dependency ਵਿੱਚ ਹੈ, ਨਾਂ ਕਿ ਤੁਹਾਡੇ ਕੋਡ ਵਿੱਚ। ਇਹ production observability starter pack ਦੀ ਮੁੱਖ ਗੱਲ ਹੈ।

“it’s slow” ਰਿਪੋਰਟ ਲਈ ਸਧਾਰਨ triage flow

ਜਦ ਕੋਈ ਕਹਿੰਦਾ ਹੈ “it’s slow”, ਸਭ ਤੋਂ ਤੇਜ਼ ਜਿੱਤ ਇਹ ਹੈ ਕਿ ਉਹ vague ਮਹਿਸੂਸ ਨੂੰ ਕੁਝ ਠੋਸ ਸਵਾਲਾਂ 'ਚ ਬਦਲ ਦੇਵੇ। ਇਹ production observability starter pack triage flow ਨਵੇਂ ਐਪ ਲਈ ਵੀ ਕੰਮ ਕਰਦੀ ਹੈ।

5-ਕਦਮੀ triage

ਪਰਬੰਧ ਤੋਂ ਸਮੱਸਿਆ ਨੂੰ ਸੀਮਿਤ ਕਰੋ, ਫਿਰ ਸਬੂਤ ਦੇ ਅਨੁਸਾਰ ਅੱਗੇ ਵਧੋ। ਸਿੱਧਾ database 'ਤੇ ਨਾ ਛਾਲ ਮਾਰੋ।

ਪ੍ਰਭਾਵ ਦੀ ਪੁਸ਼ਟੀ ਕਰੋ। ਕੀ ਇਹ ਇੱਕ user, ਇੱਕ customer account, ਇੱਕ region, ਜਾਂ ਸਭ ਹੈ? ਸਾਥ ਹੀ ਪੁੱਛੋ: ਕੀ ਇਹ Wi-Fi ਅਤੇ cellular ਦੁਨੋਂ 'ਚ ਹੁੰਦਾ ਹੈ, ਅਤੇ ਵੱਖ-ਵੱਖ browser/device 'ਤੇ ਵੀ?
ਸਭ ਤੋਂ ਪਹਿਲਾਂ ਕੀ ਬਦਲਿਆ ਸੀ। request volume spike ਹੋਇਆ ਸੀ, error rate ਵੱਧੀ, ਜਾਂ latency ਹੀ ਅਕੇਲਾ ਵਧਿਆ? ਟ੍ਰੈਫਿਕ ਜੰਪ ਅਕਸਰ queuing ਕਾਰਨ ਹੁੰਦਾ ਹੈ; error ਦਰ ਵਾਧਾ ਅਕਸਰ ਕੋਈ dependency ਟੁੱਟਣ ਵੱਲ ਸੰਕੇਤ ਕਰਦਾ ਹੈ।
slowdown ਨੂ route ਜਾਂ operation ਦੇ ਰੂਪ ਵਿੱਚ ਵੰਡੋ। ਪ੍ਰਭਾਵਿਤ endpoint (ਜਾਂ job type) ਲਈ p95 latency ਵੇਖੋ ਅਤੇ ਸਭ ਤੋਂ ਵੱਡੇ offender ਨੂੰ ਲੱਭੋ। ਜੇ ਸਿਰਫ ਇੱਕ route slow ਹੈ, ਉਥੇ ਧਿਆਨ ਦੇਓ। ਜੇ ਸਭ route ਧੀਮੇ ਹਨ, ਤਾਂ shared dependencies ਜਾਂ capacity ਸੋਚੋ।
slow path ਲਈ ਇੱਕ trace ਖੋਲ੍ਹੋ। ਪਿਛਲੇ 15 ਮਿੰਟਾਂ 'ਚੋ ਇੱਕ slow request ਦਾ trace ਲੱਭੋ ਅਤੇ spans ਨੂੰ duration ਅਨੁਸਾਰ sort ਕਰੋ। ਲਕਸ਼ ਇੱਕ ਵਾਕ ਹੈ: “ਜ਼ਿਆਦਾਤਰ ਸਮਾਂ X 'ਚ ਹੈ।”
dependencies ਦੀ ਪੁਸ਼ਟੀ ਕਰੋ ਅਤੇ rollback ਦਾ ਫੈਸਲਾ ਕਰੋ। DB saturation, slow queries, cache hit rate, ਅਤੇ third-party response times ਚੈੱਕ ਕਰੋ। ਜੇ slowdown deploy ਜਾਂ config change ਤੋਂ ਬਾਅਦ ਸ਼ੁਰੂ ਹੋਇਆ, ਤਾਂ rollback ਅਕਸਰ ਸਭ ਤੋਂ ਸੁਰੱਖਿਅਤ ਪਹਿਲਾ ਕਦਮ ਹੁੰਦਾ ਹੈ।

ਸਥਿਰ ਕਰਨ ਤੋਂ ਬਾਅਦ ਇੱਕ ਛੋਟੀ ਸੁਧਾਰ ਕਰੋ: ਜੋ ਕੁਝ ਹੋਇਆ ਉਸਨੂੰ ਲਿਖੋ ਅਤੇ ਇੱਕ ਗੁਮ ਸਿਗਨਲ ਜੋੜੋ। ਉਦਾਹਰਣ ਲਈ, ਜੇ ਤੁਸੀਂ ਇਹ ਨਹੀਂ ਦੱਸ ਸਕੇ ਕਿ slowdown ਸਿਰਫ ਇੱਕ region 'ਚ ਸੀ, latency metrics 'ਚ region tag ਜੋੜੋ। ਜੇ trace 'ਚ ਲੰਮਾ DB span ਸੀ ਪਰ ਕਿਸ query ਦਾ ਪਤਾ ਨਹੀਂ, ਤਾਂ ਹੌਲੀ-ਹੌਲੀ query labels ਜੋੜੋ ਜਾਂ ਇੱਕ "query name" ਫੀਲਡ ਸ਼ਾਮਲ ਕਰੋ।

ਛੋਟੀ ਉਦਾਹਰਣ: ਜੇ checkout p95 400ms ਤੋਂ 3s ਹੋ ਜਾਂਦਾ ਹੈ ਅਤੇ traces ਇੱਕ payment call ਵਿੱਚ 2.4s ਦਿਖਾਉਂਦੇ ਹਨ, ਤਾਂ ਤੁਸੀਂ ਕੋਡ ਦੀ ਚਰਚਾ ਰੋਕਕੇ payment provider, retries ਅਤੇ timeouts 'ਤੇ ਧਿਆਨ ਦੇ ਸਕਦੇ ਹੋ।

5 ਮਿੰਟ 'ਚ ਕੀ-ਕੀ ਤੁਰੰਤ ਜਾਂਚ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ

ਲੌਗਸ ਨੂੰ ਡਿਫਾਲਟ ਰੂਪ ਵਿੱਚ ਸਰਚਯੋਗ ਬਣਾਓ

ਸੇਵਾਵਾਂ ਬਣਾਓ ਜੋ ਰੂਟ, status, duration ਅਤੇ request_id ਡਿਫ਼ਾਲਟ ਤੌਰ 'ਤੇ ਲੌਗ ਕਰਦੀਆਂ ਹਨ ਤਾਂ ਕਿ “it’s slow” ਡੀਬੱਗ ਹੁੰਦਾ ਰਹੇ।

ਹੁਣ ਬਣਾਓ

ਜਦ ਕੋਈ ਕਹਿੰਦਾ ਹੈ “it’s slow”, ਤੁਸੀਂ ਇੱਕ ਘੰਟਾ ਵੀ ਖਾਲੀ ਕਰ ਸਕਦੇ ਹੋ ਸਿਰਫ ਇਸ ਨੂੰ ਸਮਝਣ ਲਈ ਕਿ ਉਹ ਕੀ ਮਤਲਬ ਰੱਖਦਾ। ਇੱਕ production observability starter pack ਤਦ ਹੀ ਲਾਭਕਾਰੀ ਹੈ ਜਦ ਇਹ ਤੇਜ਼ੀ ਨਾਲ ਸਮੱਸਿਆ ਨੂੰ ਸੀਮਿਤ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰੇ।

ਪਹਿਲਾਂ ਤਿੰਨ ਸਵਾਲ ਪੁੱਛੋ:

ਪ੍ਰਭਾਵਿਤ ਕੌਣ ਹੈ (ਇੱਕ user, ਇੱਕ customer segment, ਸਾਰੇ)?
ਕਿਹੜੀ ਵਾਸਤਵਿਕ ਕਾਰਵਾਈ ਧੀਮੀ ਹੈ (page load, search, checkout, login)?
ਕਦੋਂ ਤੋਂ ਇਹ ਸ਼ੁਰੂ ਹੋਇਆ (ਕਈ ਮਿੰਟ ਪਹਿਲਾਂ, ਇੱਕ deploy ਤੋਂ ਬਾਅਦ, ਅੱਜ ਸਵੇਰੇ ਤੋਂ)?

ਫਿਰ ਕੁਝ ਨੰਬਰਾਂ 'ਤੇ ਇੱਕ ਨਜ਼ਰ ਮਾਰੋ ਜੋ ਆਮ ਤੌਰ 'ਤੇ ਦੱਸਦੇ ਹਨ ਕਿ ਅੱਗੇ ਕਿਹੜੀ ਰਾਹ ਲੈਣੀ ਹੈ। ਪੂਰੇ ਡੈਸ਼ਬੋਰਡ ਦੀ ਤਲਾਸ਼ ਨਾ ਕਰੋ—ਤੁਹਾਨੂੰ ਸਿਰਫ “ਨਾਰਮਲ ਤੋਂ ਬੁਰਾ” ਸਿਗਨਲ ਚਾਹੀਦਾ ਹੈ।

ਵਰਤਮਾਨ error rate (spikes ਅਕਸਰ users ਲਈ ਧੀਮਾਪਨ ਵਰਗੀਆਂ ਲੱਗਦੀਆਂ ਹਨ)
ਪ੍ਰਭਾਵਿਤ endpoint ਲਈ p95 latency (average ਨਹੀਂ)
Saturation: CPU, memory, DB connections ਜਾਂ queue depth (ਉਹ ਜੋ ਤੁਹਾਡੀ ਐਪ ਪਹਿਲਾਂ ਮਾਰਦੀ ਹੈ)

ਜੇ p95 ਵੱਧ ਗਿਆ ਪਰ errors ਸਥਿਰ ਹਨ, ਤਦ ਆਖਰੀ 15 ਮਿੰਟਾਂ ਲਈ slow route ਦਾ ਇੱਕ trace ਖੋਲ੍ਹੋ। ਇੱਕ trace ਅਕਸਰ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਸਮਾਂ DB, external API, ਜਾਂ locks 'ਤੇ ਖਰਚ ਹੋ ਰਿਹਾ ਹੈ।

ਫਿਰ ਇੱਕ ਲੌਗ search ਕਰੋ। ਜੇ ਤੁਹਾਡੇ ਕੋਲ ਖਾਸ user report ਹੈ, ਤਾਂ ਉਹਨਾਂ ਦੇ request_id (ਜਾਂ correlation ID) 'ਤੇ search ਕਰੋ ਅਤੇ timeline ਪੜ੍ਹੋ। ਜੇ ਨਹੀਂ, ਤਾਂ ਇੱਕ ਆਮ error message ਲਈ ਉਸੇ time window 'ਚ search ਕਰੋ ਅਤੇ ਵੇਖੋ ਕਿ ਕੀ ਉਹ slowdown ਨਾਲ align ਕਰਦਾ ਹੈ।

ਅਖੀਰ 'ਚ ਫੈਸਲਾ ਕਰੋ ਕਿ ਅਜੇ mitigate ਕਰਨਾ ਹੈ ਜਾਂ ਹੋਰ ਖੋਜ ਕਰਨੀ ਹੈ। ਜੇ users blocked ਹਨ ਅਤੇ saturation high ਹੈ, ਤਾਂ ਇੱਕ ਤੁਰੰਤ mitigation (scale up, rollback, ਜਾਂ non-essential feature flag disable) ਸਮਾਂ ਖਰੀਦ ਸਕਦੀ ਹੈ। ਜੇ ਪ੍ਰਭਾਵ ਛੋਟਾ ਹੈ ਅਤੇ ਸਿਸਟਮ ਸਥਿਰ ਹੈ, ਤਾਂ traces ਅਤੇ slow query logs ਨਾਲ deeper investigation ਜਾਰੀ ਰੱਖੋ।

ਉਦਾਹਰਣ: ਬਿਨਾਂ ਅਨੁਮਾਨ ਲਗਾਏ slow checkout ਦੀ ਨਿਧਾਨੀ

ਕੁਝ ਘੰਟਿਆਂ ਬਾਅਦ release ਤੋਂ, support tickets ਆਉਣੀਆਂ ਸ਼ੁਰੂ ਹੁੰਦੀਆਂ ਹਨ: “Checkout 20 ਤੋਂ 30 ਸਕਿੰਟ ਲੈਂਦਾ ਹੈ।” ਕੋਈ ਆਪਣੀ ਲੈਪਟਾਪ 'ਤੇ reproduce ਨਹੀਂ ਕਰ ਪਾਉਂਦਾ, ਇਸ ਲਈ ਅਨੁਮਾਨ ਲਗਾਉਣ ਦੀ ਸ਼ੁਰੂਆਤ ਹੁੰਦੀ ਹੈ। ਇੱਥੇ production observability starter pack ਕਾਰਗਰ ਸਾਬਤ ਹੁੰਦਾ ਹੈ।

ਪਹਿਲਾਂ metrics 'ਤੇ ਜਾਓ ਅਤੇ ਲੱਛਣ Verify ਕਰੋ। HTTP requests ਲਈ p95 latency chart ਇੱਕ ਸਪਸ਼ਟ spike ਦਿਖਾਂਦੀ ਹੈ, ਪਰ ਸਿਰਫ POST /checkout ਲਈ। ਹੋਰ routes ਸਧਾਰਨ ਲੱਗਦੇ ਹਨ ਅਤੇ error rate ਸਥਿਰ ਹੈ। ਇਹ ਗੱਲ “ਸਾਈਟ ਪੂਰੀ ਤਰ੍ਹਾਂ slow” ਤੋਂ “ਇੱਕ endpoint release ਤੋਂ ਬਾਅਦ slow ਹੋ ਗਿਆ” ਤੱਕ ਸੀਮਿਤ ਕਰ ਦਿੰਦੀ ਹੈ।

ਅਗਲੇ ਕਦਮ 'ਚ slow POST /checkout request ਲਈ ਇੱਕ trace ਖੋਲ੍ਹੋ। trace waterfall culprit ਸਭ ਨੂੰ ਆਸਾਨੀ ਨਾਲ ਦਿਖਾ ਦਿੰਦਾ ਹੈ। ਦੋ ਆਮ ਨਤੀਜੇ:

“PaymentProvider.charge” span 18 ਸਕਿੰਟ ਲੈ ਰਿਹਾ ਹੈ, ਜ਼ਿਆਦਾਤਰ ਸਮਾਂ waiting ਵਿੱਚ ਸੰਪੂਰਨ।
“DB: insert order” span slow ਹੈ, query ਵਾਪਸ ਆਉਣ ਤੋਂ ਪਹਿਲਾਂ ਲੰਮੀ wait ਦਿਖਾ ਰਿਹਾ ਹੈ।

ਹੁਣ logs ਨਾਲ ਪੁਸ਼ਟੀ ਕਰੋ, trace ਤੋਂ ਉਹੀ request ID ਵਰਤ ਕੇ (ਜਾਂ ਜੇ ਤੁਸੀਂ logs 'ਚ trace ID ਸਟੋਰ ਕਰਦੇ ਹੋ ਤਾਂ trace ID)। ਉਸ request ਲਈ logs ਵਿੱਚ ਤੁਸੀਂ repeated warnings ਵੇਖਦੇ ਹੋ ਜਿਵੇਂ “payment timeout reached” ਜਾਂ “context deadline exceeded”, ਨਾਲੇ retries ਜੋ ਨਵੀਂ release ਵਿੱਚ ਸ਼ਾਮਲ ਕੀਤੇ ਗਏ ਸਨ। ਜੇ ਇਹ database ਪਾਸ ਹੈ, logs lock wait messages ਜਾਂ slow query statements ਦਿਖਾ ਸਕਦੇ ਹਨ।

ਤਿੰਨੋ ਸਿਗਨਲ ਮਿਲ ਕੇ, ਫਿਕਸ ਸਧਾਰਨ ਬਣ ਜਾਂਦਾ ਹੈ:

ਰਿੱਲੀਜ਼ ਨੂੰ rollback ਕਰੋ ਤਾਂ ਜੋ ਦਰਦ ਰੁਕ ਜਾਵੇ।
payment call ਲਈ ਇੱਕ explicit timeout ਜੋੜੋ (ਅਤੇ retries ਸੀਮਤ ਕਰੋ)।
dependency latency ਲਈ ਮੈਟਰਿਕ ਜੋੜੋ, ਉਦਾਹਰਣ ਲਈ p95 payment provider duration ਅਤੇ p95 DB query duration。

ਮੁੱਖ ਗੱਲ ਇਹ ਹੈ ਕਿ ਤੁਸੀਂ hunt ਨਹੀਂ ਕੀਤਾ। metrics endpoint ਨੂੰ ਨਿਰਧਾਰਤ ਕੀਤੇ, traces slow step ਨੂੰ ਦਿਖਾਉਂਦੇ, ਅਤੇ logs failure mode ਨੂੰ ਪੁਸ਼ਟੀ ਕਿੱਤੀ ਜਿਸ ਨਾਲ ਤੁਹਾਡੇ ਕੋਲ ਠੀਕ request ਸੀ।

incidents ਦੌਰਾਨ ਸਮਾਂ ਖ਼ਰਚ ਕਰਨ ਵਾਲੀਆਂ ਆਮ ਗਲਤੀਆਂ

ਰੀਲੀਜ਼ਾਂ ਨੂੰ ਰੋਲਬੈਕ ਨਾਲ ਸੁਰੱਖਿਅਤ ਕਰੋ

Snapshots ਅਤੇ rollback ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਤੇਜ਼ੀ ਨਾਲ recover ਕਰੋ ਜਦ ਨਵਾਂ ਰਿਲੀਜ਼ ਕਿਸੇ ਰੂਟ ਨੂੰ ਸੌਲਾ ਕਰ ਦੇਵੇ।

ਮੁਫ਼ਤ ਸ਼ੁਰੂ ਕਰੋ

ਜ਼ਿਆਦਾਤਰ incident ਸਮਾਂ avoidable gaps ਤੇ ਖ਼ਰਚ ਹੁੰਦਾ ਹੈ: ਡੇਟਾ ਮੌਜੂਦ ਹੁੰਦੀ ਹੈ, ਪਰ ਉਹ noisy, risky, ਜਾਂ ਉਹ ਇਕੋ ਕੁੰਜੀ ਵੇਰਵਾ ਲੁੱਕਦੀ ਹੈ ਜੋ ਤੁਸੀਂ symptoms ਨੂੰ cause ਨਾਲ ਜੋੜ ਸਕੋ। production observability starter pack ਤਦ ਹੀ ਮਦਦਗਾਰ ਹੁੰਦਾ ਹੈ ਜਦ ਇਹ ਤਣਾਅ ਹੇਠਾਂ ਵਰਤਣ ਯੋਗ ਰਹਿੰਦਾ ਹੈ।

ਇੱਕ ਆਮ ਫੰਸ: ਬਹੁਤ ਜ਼ਿਆਦਾ ਲੌਗ ਕਰਨਾ, ਖਾਸ ਕਰਕੇ raw request bodies। ਇਹ ਸੁਣਨ ਵਿੱਚ ਮਦਦਗਾਰ ਲੱਗਦਾ ਹੈ ਪਰ ਜਦ ਤੁਸੀਂ ਵੱਡਾ ਸਟੋਰੇਜ ਭਰ ਰਹੇ ਹੋ, search slow ਹੋ ਜਾਂਦੀ ਹੈ, ਅਤੇ ਤੁਸੀਂ ਗਲਤੀ ਨਾਲ passwords, tokens ਜਾਂ ਨਿੱਜੀ ਡੇਟਾ capture ਕਰ ਲੈਂਦੇ ਹੋ। structured fields (route, status code, latency, request_id) ਪਸੰਦ ਕਰੋ ਅਤੇ input ਦੇ ਛੋਟੇ, ਸਪਸ਼ਟ ਅਨੁਭਾਗ ਹੀ ਲੌਗ ਕਰੋ।

ਹੋਰ ਸਮਾਂ ਖ਼ਰਚ ਕਰਨ ਵਾਲੀ ਗਲਤੀ ਉਹ metrics ਹੋ ਸਕਦੀਆਂ ਹਨ ਜੋ ਵਿਸਥਾਰ ਦਿਖਦੀਆਂ ਹਨ ਪਰ aggregate ਨਹੀਂ ਹੋ ਸਕਦੀਆਂ। ਉੱਚ-cardinality labels ਜਿਵੇਂ ਪੂਰੇ user IDs, emails ਜਾਂ unique order numbers ਤੁਹਾਡੇ metric series ਦੀ ਗਿਣਤੀ ਖਤਿਰੀ ਤੌਰ 'ਤੇ ਵਧਾ ਦਿੰਦੀਆਂ ਹਨ ਅਤੇ dashboards ਗੈਰ-ਭਰੋਸੇਯੋਗ ਬਣ ਜਾਂਦੀਆਂ ਹਨ। ਬਦلے coarse labels ਵਰਤੋ (route name, HTTP method, status class, dependency name) ਅਤੇ user-specific ਚੀਜ਼ਾਂ logs ਵਿੱਚ ਰੱਖੋ।

ਇਹ ਗਲਤੀਆਂ ਜੋ ਵਾਰ-ਵਾਰ ਤੇਜ਼ ਨਿਧਾਨ ਨੂੰ ਅਵਰੋਧ ਕਰਦੀਆਂ ਹਨ:

ਸਿਰਫ averages ਦੇਖਣਾ। averages ਅਸਲੀ ਦਰਦ ਨੂੰ ਛੁਪਾਉਂਦੀਆਂ ਹਨ; ਜਦ users “it’s slow” ਕਹਿ ਰਹੇ ਹੁੰਦਾ, p95 ਅਤੇ p99 ਵੇਖੋ।
traces ਜਿਨ੍ਹਾਂ ਵਿੱਚ context ਨਹੀਂ ਹੁੰਦਾ। ਜੇ spans ਵਿੱਚ route names ਅਤੇ clear dependency names ਨਹੀਂ ਹਨ ਤਾਂ trace ਇੱਕ ਬਿਨਾਂ ਲੇਬਲਾਂ ਦੀ ਤਸਵੀਰ ਬਣ ਜਾਂਦੀ ਹੈ।
ਕੋਈ release marker ਨਾ ਹੋਣਾ। ਜੇ ਤੁਸੀਂ ਨਹੀਂ ਦੇਖ ਸਕਦੇ ਕਿ version ਕਦੋਂ ਬਦਲੀ, ਤਾਂ ਤੁਸੀਂ ਅਨੁਮਾਨ 'ਤੇ ਆ ਜਾਓਗੇ ਕਿ deploy ਨੇ ਮੁੱਦਾ ਸਿਰਜਿਆ।
alerts ਜਿਨ੍ਹਾਂ ਦਾ ਕੋਈ owner ਨਹੀਂ। ਜਦ alert ਫਾਇਰ ਹੁੰਦੀ ਹੈ ਅਤੇ ਕਿਸੇ ਨੂੰ ਅਗਲਾ ਕਦਮ ਨਹੀਂ ਪਤਾ, ਉਹ ਸ਼ੋਰ ਬਣ ਜਾਂਦਾ ਹੈ ਅਤੇ ਫਿਰ ignore ਹੋ ਜਾਂਦਾ ਹੈ।
ਲੌਗ ਜੋ unsearchable ਹਨ। free-text logs ਬਿਨਾਂ consistent keys ਦੇ ਹਰੇਕ incident ਨੂੰ manual grep ਅਭਿਆਸ ਬਣਾਉਂਦੇ ਹਨ।

ਛੋਟੀ ਪ੍ਰਾਇਕਟਿਕ ਉਦਾਹਰਣ: ਜੇ checkout p95 800ms ਤੋਂ 4s ਹੋ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਤੁਸੀਂ ਮਿੰਟਾਂ ਵਿੱਚ ਦੋ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਚਾਹੁੰਦੇ ਹੋ: ਕੀ ਇਹ deploy ਤੋਂ ਬਾਅਦ ਸ਼ੁਰੂ ਹੋਇਆ, ਅਤੇ ਕੀ ਸਮਾਂ ਤੁਹਾਡੇ ਐਪ ਵਿੱਚ ਖਰਚ ਹੋ ਰਿਹਾ ਹੈ ਜਾਂ dependency (DB, payment provider, cache) ਵਿੱਚ? percentiles, release tag, ਅਤੇ traces ਜਿਨ੍ਹਾਂ ਵਿੱਚ route ਅਤੇ dependency names ਹੋਣ ਨਾਲ ਤੁਸੀਂ ਤੇਜ਼ੀ ਨਾਲ ਪਹੁੰਚ ਜਾ ਸਕਦੇ ਹੋ। ਨਹੀਂ ਤਾਂ incident window ਵਿੱਚ ਤੁਸੀਂ ਗਲਤ ਅਨੁਮਾਨਾਂ 'ਤੇ ਸਮਾਂ ਗਵਾਂਦੇ ਹੋ।

ਅਗਲੇ ਕਦਮ: ਹਰ ਨਵੇਂ ਐਪ ਲਈ ਇਸਨੂੰ ਦੁਹਰਾਉਣਯੋਗ ਬਣਾਓ

ਅਸਲੀ ਜਿੱਤ consistency ਹੈ। production observability starter pack ਸਿਰਫ ਤਾਂ ਮਦਦ ਕਰਦਾ ਹੈ ਜਦ ਹਰ ਨਵੀਂ ਸੇਵਾ ਨਾਲ ਇੱਕੋ ਹੀ ਬੁਨਿਆਦੀ ਚੀਜ਼ਾਂ ਸ਼ਿਪ ਕੀਤੀਆਂ ਜਾਣ ਅਤੇ ਉਹਨਾਂ ਦਾ ਨਾਮ ਇਕੋ ਰਿਹਾ ਜਾਵੇ ਤਾਂ ਜੋ ਕੁਝ ਟੁੱਟਣ 'ਤੇ ਤੇਜ਼ੀ ਨਾਲ ਲੱਭਿਆ ਜਾ ਸਕੇ।

ਆਪਣੀਆਂ ਦਿਨ-ਇਕ ਚੋਣਾਂ ਨੂੰ ਇੱਕ ਛੋਟੇ template ਵਿੱਚ ਤਬਦੀਲ ਕਰੋ ਜੋ ਟੀਮ ਦੁਹਰਾਏ। ਇਸਨੂੰ ਛੋਟਾ ਰੱਖੋ, ਪਰ ਨਿਰਧਾਰਤ।

ਹਰ inbound request ਲਈ request ID ਬਣਾਓ ਅਤੇ ਇਸਨੂੰ logs ਅਤੇ traces 'ਚ ਲਿਜਾਓ।
ਉਹ ਕੁਝ events ਲੌਗ ਕਰੋ ਜੋ ਤੁਸੀਂ ਹਰ ਵੇਲੇ ਚਾਹੁੰਦੇ ਹੋ: request start/finish, errors (ਸਾਫ਼ ਟਾਈਪ ਨਾਲ), ਅਤੇ slow requests threshold ਤੋਂ ਉੱਪਰ।
ਕੁਝ golden metrics ਟ੍ਰੈਕ ਕਰੋ: traffic, error rate, latency (p50 ਅਤੇ p95), ਅਤੇ ਇੱਕ saturation signal (CPU, memory, DB pool, ਜਾਂ queue depth)।
ਮੁੱਖ routes ਅਤੇ ਮੁੱਖ dependencies (DB ਅਤੇ ਇੱਕ external API) ਲਈ ਬੇਸਿਕ traces ਜੋੜੋ।
logs, metrics, ਅਤੇ traces 'ਚ release/version labels ਲਗਾਓ ਤਾਂ ਜੋ ਤੁਸੀਂ ਸਵਾਲ ਦਾ ਜਵਾਬ ਦੇ ਸਕੋ: “ਕੀ ਇਹ deploy ਤੋਂ ਬਾਅਦ ਸ਼ੁਰੂ ਹੋਇਆ?”

ਇੱਕ “home” view ਬਣਾਓ ਜੋ ਕੋਈ ਵੀ incident ਦੌਰਾਨ ਖੋਲ੍ਹ ਸਕੇ। ਇੱਕ ਸਕ੍ਰੀਨ requests per minute, error rate, p95 latency, ਅਤੇ ਤੁਹਾਡਾ ਮੁੱਖ saturation metric ਦਿਖਾਵੇ, environment ਅਤੇ version ਲਈ filter ਦੇ ਨਾਲ।

ਸ਼ੁਰੂ ਵਿੱਚ alerting ਨਿੱਕਾ ਰੱਖੋ। ਦੋ alerts ਬਹੁਤ ਕੁਝ ਕਵਰ ਕਰਦੇ ਹਨ: ਇੱਕ key route 'ਤੇ error rate spike, ਅਤੇ ਉਹੀ route 'ਤੇ p95 latency spike। ਜੇ ਤੁਸੀਂ ਹੋਰ ਜੋੜਦੇ ਹੋ, ਤਾਂ ਇਹ ਯਕੀਨੀ ਬਣਾਓ ਕਿ ਹਰ alert ਦਾ ਇੱਕ ਰੁਕਾਵਟ ਵਾਲਾ ਕਾਰਵਾਈ ਨਿਰਧਾਰਿਤ ਹੋਵੇ।

ਅੰਤ ਵਿੱਚ, ਮਹੀਨਾਵਾਰ ਸਮੀਖਿਆ ਨਿਰਧਾਰਿਤ ਕਰੋ। noisy alerts ਹਟਾਓ, naming ਸਖਤ ਕਰੋ, ਅਤੇ ਇੱਕ ਗੁਮ ਸਿਗਨਲ ਜੋੜੋ ਜੋ ਪਿਛਲੇ incident ਵਿੱਚ ਸਮਾਂ ਬਚਾਉਂਦਾ।

ਇਸਨੂੰ ਆਪਣੇ build ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਬਾਉਂਡ ਕਰਨ ਲਈ, ਆਪਣੀ release checklist ਵਿੱਚ ਇੱਕ “observability gate” ਸ਼ਾਮਲ ਕਰੋ: बिना request IDs, version tags, home view, ਅਤੇ ਦੋ ਬੇਸਲਾਈਨ alerts ਦੇ deploy ਨਾ ਕਰੋ। ਜੇ ਤੁਸੀਂ Koder.ai ਨਾਲ ship ਕਰਦੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ deployment ਤੋਂ ਪਹਿਲਾਂ planning mode 'ਚ ਇਹ ਦਿਨ-ਇਕ signals ਪਰਿਭਾਸ਼ਿਤ ਕਰ ਸਕਦੇ ਹੋ, ਫਿਰ snapshots ਅਤੇ rollback ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਤੇਜ਼ੀ ਨਾਲ iterate ਕਰੋ।

ਅਕਸਰ ਪੁੱਛੇ ਜਾਣ ਵਾਲੇ ਸਵਾਲ

ਅਸਲ ਉਪਭੋਗਤਿਆਂ ਦੇ ਆਉਣ 'ਤੇ ਆਮ ਤੌਰ 'ਤੇ ਸਭ ਤੋਂ ਪਹਿਲਾਂ ਕੀ ਟੁੱਟਦਾ ਹੈ?

ਸ਼ੁਰੂਆਤ edge ਨੰੂ ਆਉਂਦੇ ਸਿਸਟਮ ਦੇ ਪਹਿਲੇ ਸਥਾਨ ਤੋਂ ਕਰੋ: web server, API gateway ਜਾਂ ਪਹਿਲਾ handler।

ਇੱਕ request_id ਜੋੜੋ ਅਤੇ ਉਸਨੂੰ ਹਰ ਅੰਦਰੂਨੀ ਕਾਲ 'ਚ ਪਾਸ ਕਰੋ।
ਹਰ request ਲਈ route, method, status, ਅਤੇ duration_ms ਲੌਗ ਕਰੋ।
ਹਰ ਰੂਟ ਲਈ p95 latency ਅਤੇ 5xx ਦਰ ਟਰੈਕ ਕਰੋ।

ਇਨ੍ਹਾਂ ਨਾਲ ਤੁਹਾਨੂੰ ਜਿਆਦਾਤਰ ਵਾਰ ਇੱਕ ਖਾਸ ਐਂਡਪਾਇੰਟ ਅਤੇ ਸਮਾਂ-ਵਿੰਡੋ ਤੁਰੰਤ ਮਿਲ ਜਾਏਗੀ।

ਇਕ ਹਕੀਕਤੀ ਦਿਨ-ਇਕ ਨਿਗਰਾਨੀ ਦਾ ਹਕੀਕਤੀ ਲਕਸ਼ ਕੀ ਹੈ?

ਇਸ ਨੂੰ ਡੈਫੌਲਟ ਨਿਸ਼ਾਨ ਵੇਖੋ: ਤੁਸੀਂ 15 ਮਿੰਟ ਦੇ ਅੰਦਰ ਸਲੋ ਕਦਮ ਪਛਾਣ ਸਕਣੇ ਹੋ।

ਦਿਨ-ਇਕ ਤੇ ਤੁਹਾਨੂੰ ਪਰਫੈਕਟ ਡੈਸ਼ਬੋਰਡ ਦੀ ਲੋੜ ਨਹੀਂ; ਤੁਹਾਨੂੰ ਇਹ ਜਾਣਨ ਲਈ ਕਾਫ਼ੀ ਸਿਗਨਲ ਚਾਹੀਦੇ ਹਨ:

ਕੀ ਸਮੱਸਿਆ client-side, API-side, database/cache, background jobs, ਜਾਂ ਕਿਸੇ external dependency ਵਿੱਚ ਹੈ?
ਕਿਹੜਾ route ਜਾਂ job type ਪ੍ਰਭਾਵਿਤ ਹੈ?
ਕੀ ਇਹ deploy ਜਾਂ config ਬਦਲਣ ਤੋਂ ਬਾਅਦ ਸ਼ੁਰੂ ਹੋਇਆ ਸੀ?

ਮੈਂ ਲੌਗਸ, ਮੈਟਰਿਕਸ ਅਤੇ ਟਰੇਸ ਕਦੋਂ ਵਰਤਾਂ?

Metrics: “ਕੀ ਇਹ ਬਹੁਤ ਜ਼ਿਆਦਾ ਫੈਲਿਆ ਹੋਇਆ ਹੈ ਅਤੇ ਕੀ ਇਹ ਬੁਰਾ ਹੇਠਾਂ ਜਾ ਰਿਹਾ ਹੈ?” (rates, percentiles, saturation)
Traces: “ਇਸ request ਦੇ ਅੰਦਰ ਸਮਾਂ ਕਿੱਥੇ ਲੱਗ ਰਿਹਾ ਹੈ?” (ਸਲੋ ਹੌਪ)
Logs: “ਇਸ user/request ਲਈ ਅਸਲ ਵਿੱਚ ਕੀ ਹੋਇਆ?” (errors, inputs, context)

ਇੱਕ incident ਦੌਰਾਨ: metrics ਨਾਲ ਪ੍ਰਭਾਵ ਦੀ ਪੁਸ਼ਟੀ ਕਰੋ, traces ਨਾਲ bottleneck ਲੱਭੋ, ਅਤੇ logs ਨਾਲ ਉਸਦੀ ਵਿਆਖਿਆ ਕਰੋ।

ਕਿਹੜੇ ਨਾਮਕਰਨ ਅਤੇ ਟੈਗਿੰਗ ਰਵਾਇਆਂ ਬਾਅਦ ਵਿੱਚ ਗੰਦਗੀ ਤੋਂ ਬਚਾਉਂਦੀਆਂ ਹਨ?

ਛੋਟੀ ਪਰ ਸਾਫ਼ ਰਵਾਇਆਂ ਦੀ ਇੱਕ ਨਿਯਤੀ ਬਣਾਓ ਅਤੇ ਹਰ ਥਾਂ ਲਾਗੂ ਕਰੋ:

ਦਿਨ-ਇਕ 'ਤੇ ਮੈਨੂੰ ਘੱਟੋ-ਘੱਟ ਕਿਹੜਾ ਲੌਗਿੰਗ ਜੋੜਨਾ ਚਾਹੀਦਾ ਹੈ?

ਡਿਫ਼ਾਲਟ ਤੌਰ 'ਤੇ structured logs (ਆਮ ਤੌਰ 'ਤੇ JSON) ਵਰਤੋ ਅਤੇ ਹਰ ਥਾਂ ਇਕੋ ਹੀ keys ਰੱਖੋ।

ਤੁਰੰਤ ਲਾਭ ਦੇਣ ਵਾਲੇ ਘੱਟੋ-ਘੱਟ ਫੀਲਡ:

ਜ਼ਿਆਦਾਤਰ production 문제 ਪਕੜਨ ਲਈ ਘੱਟੋ-ਘੱਟ ਕਿਹੜੇ ਮੈਟਰਿਕਸ ਚਾਹੀਦੇ ਹਨ?

ਹਰ ਪ੍ਰਮੁੱਖ ਹਿੱਸੇ ਲਈ ਥੋੜੇ ਜਿਹੇ metrics ਜੋ ਤੇਜ਼ੀ ਨਾਲ ਜਵਾਬ ਦਿੰਦੀਆਂ ਹਨ:

-Latency: p50/p95/p99 (average ਤੋਂ ਬਚੋ) -Traffic: requests/sec (workers ਲਈ jobs/min) -Errors: 4xx vs 5xx ਦਰ -Saturation: ਕੋਈ resource limit (CPU, memory, DB connections, queue depth)

ਚੋਟੀ ਦੇ ਹਿੱਸੇ ਲਈ ਮਿਨੀਮਮ ਚੈੱਕਲਿਸਟ:

HTTP/API: requests/sec, p50/p95/p99 latency, 4xx rate, 5xx rate
DB: query latency (ਘੱਟੋ-ਘੱਟ p95), connection pool ਵਰਤੋਂ, timeouts, slow query count

"ਇਹ ਸਲੋ ਹੈ" ਨੂੰ ਡੀਬੱਗ ਕਰਨ ਲਈ ਘੱਟੋ-ਘੱਟ tracing ਸੈਟਅੱਪ ਕੀ ਹੈ?

ਸਰਵਰ-ਪਾਰਟੀ ਤੋਂ ਸ਼ੁਰੂ ਕਰੋ। ਹਰ inbound request 'ਤੇ instrument ਕਰੋ ਤਾਂ ਕਿ ਹਰ request ਇੱਕ trace ਪੈਦਾ ਕਰ ਸਕੇ।

ਇੱਕ ਚੰਗੀ ਦਿਨ-ਇਕ trace ਵਿੱਚ spans ਉਹਨਾਂ ਹਿੱਸਿਆਂ ਨੂੰ ਦਰਸਾਉਣੇ ਚਾਹੀਦੇ ਹਨ ਜੋ ਆਮ ਤੌਰ 'ਤੇ ਸਲੋ ਹੁੰਦੇ ਹਨ:

Request handler span
ਹਰ DB ਕਾਲ ਲਈ span
Cache get/set span
ਹਰ external HTTP call span
Background job span ਜਦ request ਨੇ ਕੰਮ enqueue ਕੀਤਾ ਹੋਵੇ

Spans ਨੂੰ searchable ਬਣਾਉਣ ਲਈ ਕੁਝ ਕੋਮਲ attributes ਜਿਵੇਂ route (ਟੈਂਪਲੇਟ), HTTP method, status code ਅਤੇ latency ਰੱਖੋ।

ਦਿਨ-ਇਕ 'ਤੇ trace sampling ਨੂੰ ਕਿਵੇਂ ਸੰਭਾਲਨਾ ਚਾਹੀਦਾ ਹੈ?

ਇੱਕ ਸਧਾਰਨ ਅਤੇ ਸੁਰੱਖਿਅਤ ਡਿਫੋਲਟ:

100% errors ਅਤੇ slow requests trace ਕਰੋ (ਜੀਹੜੇ SDK ਸਹਾਇਕ ਹੋ)
ਆਮ ਟ੍ਰੈਫਿਕ ਦਾ 1–10% sample ਕਰੋ

ਟ੍ਰੈਸਿੰਗ ਦੀ मात्रा ਘੱਟ ਰੱਖਣ ਲਈ ਇਹ ਸ਼ੁਰੂਆਤੀ ਨੀਤੀ ਮਦਦਗਾਰ ਹੈ: ਜਦ ਟ੍ਰੈਫਿਕ ਘੱਟ ਹੋ, sample ਜ਼ਿਆਦਾ ਰੱਖੋ; ਜਿਵੇਂ ਵਾਧਾ ਹੋਵੇ, ਘਟਾਓ।

ਜਦ ਕੋਈ ਕਹਿੰਦਾ ਹੈ “it’s slow” ਤਾਂ ਇੱਕ ਚੰਗਾ triage flow ਕੀ ਹੈ?

ਇਕ ਦੁਹਰਾਈਯੋਗ ਫਲੋ ਵਰਤੋ ਜੋ ਸਬੂਤ ਦੇ ਅਨੁਸਾਰ ਚੱਲੇ:

Scope: ਪ੍ਰਭਾਵਿਤ ਕੌਣ ਹੈ (ਇੱਕ user/tenant/region ਜਾਂ ਸਭ)?
Change: ਪਹਿਲਾਂ traffic, errors, ਜਾਂ latency ਵਿੱਚ ਕੀ ਬਦਲਿਆ?
Route/job: ਕਿਹੜਾ endpoint/job type p95 'ਤੇ ਸਭ ਤੋਂ ਵੱਡਾ ਹੈ?
Trace: ਇੱਕ slow trace ਖੋਲ੍ਹੋ ਅਤੇ ਸਭ ਤੋਂ ਲੰਮਾ span ਪਛਾਣੋ.
Validate: DB saturation/pool, queue depth, dependency latency ਚੈਕ ਕਰੋ; ਜੇ deploy ਤੋਂ ਬਾਅਦ ਸ਼ੁਰੂ ਹੋਇਆ ਤਾਂ rollback ਸੋਚੋ।

ਫਿਕਸ ਕਰਨ ਤੋਂ ਬਾਦ ਇੱਕ ਛੋਟੀ ਸੁਧਾਰ ਲਿਖੋ ਅਤੇ ਇੱਕ ਗੁਮ ਸਿਗਨਲ ਜੋੜੋ ਜੋ ਅੱਗੇ ਸਮਾਂ ਬਚਾਏਗਾ।

ਸਭ ਤੋਂ ਜ਼ਿਆਦਾ incident ਸਮਾਂ ਬਰਬਾਦ ਕਰਨ ਵਾਲੀਆਂ ਗਲਤੀਆਂ ਕੌਣ-ਕੌਣੀਆਂ ਹਨ?

ਇਹ ਗੱਲਾਂ ਸਭ ਤੋਂ ਵੱਧ ਸਮਾਂ ਵਿਅਰਥ ਕਰਦੀਆਂ ਹਨ:

ਸੰਵੇਦਨਸ਼ੀਲ ਡੇਟਾ ਲੌਗ ਕਰਨਾ (passwords, tokens, full bodies) ਬਜਾਏ ਸੁਰੱਖਿਅਤ IDs
ਸਿਰਫ averages ਦੇਖਣਾ; p95/p99 ਨੂ ਵੇਖੋ
ਉੱਚ-cardinality metric labels (ਪੂਰੇ user IDs, order IDs) ਜੋ series ਗਿਣਤੀ ਫੂਲ ਕਰ ਦਿੰਦੀਆਂ ਹਨ
context ਤੋਂ ਖਾਲੀ traces (route templates ਨਾ ਹੋਣ, dependency names unclear)
ਕੋਈ release/version marker ਨਾ ਹੋਣਾ

ਸਾਡਾ ਸਲਾਹ: ਸਧਾਰਨ ਰੱਖੋ—stable IDs, percentiles, ਸਾਫ਼ dependency names, ਅਤੇ version tags ਹਰ ਥਾਂ।