Question 1

อะไรที่มักพังก่อนเมื่อผู้ใช้ตัวจริงเริ่มใช้แอปใหม่?

Accepted Answer

เริ่มจากจุดที่ผู้ใช้เข้าระบบเป็นที่แรก: web server, API gateway หรือ first handler ของคุณ

เพิ่ม request_id และส่งต่อมันในทุกการเรียกภายใน
บันทึก route, method, status, และ duration_ms สำหรับทุกคำขอ
ติดตาม p95 latency และอัตรา 5xx ต่อ route

เพียงเท่านี้มักช่วยให้คุณเจอ endpoint และช่วงเวลาที่ชัดเจนได้เร็ว

Question 2

เป้าหมาย observability ที่สมเหตุสมผลในวันแรกคืออะไร?

Accepted Answer

ตั้งเป้าตรงนี้เป็นค่าเริ่มต้น: คุณต้องสามารถระบุขั้นตอนที่ช้าได้ภายในเวลาไม่เกิน 15 นาที

วันแรกคุณไม่จำเป็นต้องมีแดชบอร์ดสมบูรณ์แบบ แต่อยากได้สัญญาณพอจะตอบได้ว่า:

มันมาจากฝั่ง client, API, ฐานข้อมูล/แคช, งาน background หรือ dependency ภายนอก?
route หรือ job type ไหนได้รับผลกระทบ?
มันเริ่มหลังการดีพลอยหรือเปลี่ยนคอนฟิกหรือไม่?

Question 3

เมื่อไหร่ควรใช้ logs vs metrics vs traces?

Accepted Answer

- Metrics: “มันแพร่หลายและแย่ลงไหม?” (rates, percentiles, saturation) - Traces: “เวลาไปอยู่ที่ไหนภายในคำขอนี้?” (hop ที่ช้า) - Logs: “เกิดอะไรขึ้นสำหรับผู้ใช้/คำขอนี้?” (ข้อผิดพลาด, คอนเท็กซ์) ในเหตุการณ์: ยืนยันผลกระทบด้วย metrics, หา bottleneck ด้วย traces, และอธิบายด้วย logs.

Question 4

การตั้งชื่อและแท็กแบบไหนป้องกันความยุ่งเหยิงในภายหลัง?

Accepted Answer

เลือกชุดกฎเล็ก ๆ แล้วใช้งานให้ทั่ว: - ที่คงที่, (เช่น / ), และ - สร้าง ที่ขอบระบบและส่งต่อข้ามการเรียกและงาน - แท็กที่สม่ำเสมอ: , , , และ (ถ้า multi-tenant) - หน่วยเวลาเดียวสำหรับระยะเวลา (เช่น ) จุดประสงค์คือการที่ตัวกรองเดียวใช้งานได้ข้ามบริการแทนที่จะเริ่มใหม่ทุกครั้ง

Question 5

ควรเพิ่ม logging ขั้นต่ำอะไรในวันแรก?

Accepted Answer

ตั้งค่าเริ่มต้นเป็น structured logs (เช่น JSON) โดยใช้คีย์เดียวกันทุกที่ ฟิลด์ขั้นต่ำที่ให้ผลทันที: - , , , , - (และ ถ้ามี) - , , , - หรือ (ID คงที่ ไม่ใช่อีเมล) บันทึกข้อผิดพลาดครั้งเดียวพร้อมคอนเท็กซ์ (error type/code + message + dependency name) หลีกเลี่ยงการซ้ำ stack trace ทุก retry

Question 6

เมตริกขั้นต่ำอะไรที่จับปัญหาในโปรดักชันได้ส่วนใหญ่?

Accepted Answer

เริ่มจากสัญญาณ “ทองคำ” สี่อย่างต่อส่วนหลัก: - Latency: p50/p95/p99 (หลีกเลี่ยงค่าเฉลี่ย) - Traffic: requests/sec (หรือ jobs/min) - Errors: อัตรา 4xx vs 5xx - Saturation: ขีดจำกัดทรัพยากร (CPU, memory, DB connections, queue depth) เช็คลิสต์คร่าว ๆ ต่อคอมโพเนนต์: - HTTP: requests/sec, p50/p95/p99 latency, 4xx rate, 5xx rate - DB: p95 query latency, การใช้ connection pool, timeouts - Workers/queues: queue depth, job runtime p95, retries, dead-letter/failed jobs - Resources: CPU%, memory, disk, container restarts - Deploy health: version ปัจจุบัน, อัตราข้อผิดพลาดหลังดีพลอย, การวน restart ตัวอย่าง: ถ้าผู้ใช้รายงาน “มันช้า” และ p95 ของ API กระโดดขึ้นในขณะที่ traffic คงที่ ให้เช็ก saturation ถ้าการใช้ pool DB ขึ้นใกล้สูงสุดและ timeouts เพิ่ม คุณเจอคอขวดแล้ว

Question 7

การตั้งค่า tracing ขั้นต่ำแบบไหนที่ทำให้การดีบัก “ช้า” เป็นไปได้?

Accepted Answer

เริ่มจากฝั่งเซิร์ฟเวอร์ก่อน ให้คำขอขาเข้าทำให้เกิด trace ได้หนึ่งอันทุกคำขอ ฝั่ง client tracing รอได้ สแปนใน trace วันแรกที่มีประโยชน์ควรแมปกับส่วนที่มักทำให้ช้า: - สแปนของ request handler สำหรับคำขอทั้งชุด - สแปนสำหรับการเรียกฐานข้อมูลแต่ละคำสั่ง/transaction - สแปนการเรียกแคช (get/set) - สแปนการเรียก HTTP ภายนอกสำหรับ dependency แต่ละตัว - สแปนงาน background เมื่อคำขอ enqueue งานที่พึ่งพา เพื่อให้ค้นหาได้ เก็บ attributes สําคัญและสม่ำเสมอ: สำหรับสแปนขาเข้า ระบุ (ใช้เทมเพลต เช่น ), HTTP method, status code และ latency; สำหรับ DB ระบุระบบ DB, ประเภท operation, ชื่อตารางถ้าทำได้; สำหรับ external ระบุชื่อ dependency, host เป้าหมาย และสถานะ การ sampling สำคัญ: trace 100% ของข้อผิดพลาดและคำขอช้า (ถ้า SDK รองรับ) และ sample ส่วนน้อยของทราฟิกปกติ (1–10%) เริ่มสูงเมื่อทราฟิกน้อย แล้วลดเมื่อโต ตัวอย่างที่ดี: trace เดียวอ่านเรื่องราวได้จากบนลงล่าง เช่น ใช้ 2.4s, DB 120ms, cache 10ms, และการเรียก payment ภายนอกใช้ 2.1s พร้อม retry — ตอนนี้รู้แล้วว่าเป็น dependency ไม่ใช่โค้ดของคุณ

Question 8

ควรตั้ง sampling ของ trace อย่างไรในวันแรก?

Accepted Answer

ค่าเริ่มต้นเรียบง่ายและปลอดภัยคือ: - trace 100% ของข้อผิดพลาด และ คำขอที่ช้า (ถ้าระบบรองรับ) - sample 1–10% ของทราฟิกปกติ เริ่มจากเปอร์เซ็นต์สูงเมื่อทราฟิกยังน้อย แล้วลดลงเมื่อปริมาณขึ้น เป้าหมายคือรักษา traces ให้มีประโยชน์โดยไม่เพิ่มค่าใช้จ่ายหรือเสียงรบกวนจนเกินไป

Question 9

โฟลว triage ที่ดีเมื่อมีคนรายงานว่า “มันช้า” คืออะไร?

Accepted Answer

ใช้โฟลวที่ทำได้ซ้ำและตามหลักฐาน: 1. ขอบเขต: ใครได้รับผลกระทบ (ผู้ใช้หนึ่งราย/tenant/region vs ทุกคน)? 2. การเปลี่ยนแปลง: traffic, errors, หรือละติซีตีเเพิ่มก่อนหรือไม่? 3. Route/job: endpoint หรือ job type ไหนแย่ที่สุด ณ p95? 4. Trace: เปิด trace หนึ่งอันของคำขอที่ช้าและหาสแปนที่นานที่สุด 5. ตรวจสอบ: เช็ก saturation/pool DB, queue depth, latency ของ dependency; rollback ถ้ามันเริ่มหลังดีพลอย จดสิ่งที่ขาดไปหนึ่งอย่างซึ่งจะช่วยให้ครั้งต่อไปเร็วขึ้น แล้วเพิ่มมันเป็นสัญญาณถัดไป

Question 10

เช็กด่วนอะไรได้ภายใน 5 นาทีเมื่อมีคนบอกว่า “มันช้า”?

Accepted Answer

ข้อถามสามข้อชัด ๆ เริ่มต้นได้ภายใน 5 นาที: - ใครได้รับผลกระทบ (ผู้ใช้หนึ่งคน, กลุ่มลูกค้า, ทุกคน)? - การกระทำไหนช้า (โหลดเพจ, ค้นหา, เช็คเอาต์, ลงชื่อเข้าใช้)? - มันเริ่มเมื่อไหร่ (ไม่กี่นาทีที่แล้ว, หลังดีพลอย, ตั้งแต่เช้า)? แล้วดูตัวเลขไม่กี่ตัว: - อัตราข้อผิดพลาดปัจจุบัน - p95 latency ของ endpoint ที่กระทบ - สัญญาณ saturation ที่เกี่ยวข้อง (CPU, memory, DB connections, queue depth) ถ้า p95 ขึ้นแต่ errors คงที่ ให้เปิด trace หนึ่งอันของ route ที่ช้าที่สุดใน 15 นาทีที่ผ่านมา แล้วค้นหาไปที่ logs โดยใช้ หรือค้นหา error message ที่พบบ่อยในช่วงเวลาเดียวกัน สุดท้ายตัดสินใจว่าจะบรรเทาปัญหาตอนนี้หรือขุดลึกต่อ ถ้าผู้ใช้ถูกบล็อกและ saturation สูง ให้ mitigation เร็วๆ เช่น scale up, rollback หรือปิดฟีเจอร์ที่ไม่สำคัญ

Question 11

ตัวอย่าง: จะวินิจฉัยเช็คเอาต์ที่ช้าโดยไม่เดาได้อย่างไร?

Accepted Answer

หลังรีลีสไม่กี่ชั่วโมง ตั๋วซัพพอร์ตเริ่มเข้ามา: “เช็คเอาต์ใช้เวลา 20–30 วินาที” ใครก็ไม่สามารถเลียนแบบบนแลปท็อปได้ — นี่คือที่ชุดเริ่มต้นช่วยได้ 1) ดู metrics ยืนยันอาการ: p95 latency สำหรับ HTTP แสดง spike แต่เฉพาะ เส้นอื่นปกติ และอัตราข้อผิดพลาดคงที่ — แคบจาก "ทั้งเว็บช้า" เหลือ "endpoint เดียวช้า" 2) เปิด trace สำหรับ ที่ช้า น้ำตกของสแปนเผยสาเหตุสองผลลัพธ์ทั่วไป: - สแปน ใช้ 18 วินาที รอเป็นหลัก - สแปน ช้า แสดงการรอเป็นเวลานานก่อน query จะคืนค่า 3) ยืนยันด้วย logs โดยใช้ จาก trace: เห็นคำเตือนซ้ำ ๆ เช่น “payment timeout reached” หรือ “context deadline exceeded” และเห็น retries ที่เพิ่มมาหลังรีลีส ถ้าเป็นทาง DB logs อาจบอก lock wait หรือ slow query ที่เกินเกณฑ์ เมื่อสัญญาณทั้งสามสอดคล้อง การแก้ไขชัดเจน: - rollback ไปยังรีลีสก่อนหน้า - เพิ่ม timeout ชัดเจนสำหรับการเรียก payment และจำกัด retries - เพิ่มเมตริกสำหรับ latency ของ dependency เช่น p95 payment provider duration และ p95 DB query duration จุดสำคัญคือคุณไม่ต้องเดา: metrics ชี้ endpoint, traces ชี้ขั้นตอนที่ช้า, logs ยืนยันโหมดความล้มเหลวและคำขอที่ชัดเจน

Question 12

ข้อผิดพลาดทั่วไปด้าน observability ไหนที่เสียเวลามากที่สุดระหว่าง incident?

Accepted Answer

เวลาส่วนใหญ่ในการจัดการ incident สูญหายไปกับช่องว่างที่หลีกเลี่ยงได้: ข้อมูลมีอยู่ แต่มีเสียงมาก เสี่ยง หรือขาดรายละเอียดที่เชื่อมอาการกับสาเหตุจริงๆ กับ logging มักพลาดโดยการบันทึกมากเกินไป โดยเฉพาะ raw request bodies — ฟังดูมีประโยชน์แต่ทำให้ค่าเก็บข้อมูลสูง การค้นหาช้า และอาจเก็บรหัสผ่านหรือข้อมูลส่วนบุคคลโดยไม่ตั้งใจ ชอบฟิลด์มีโครงสร้าง (route, status code, latency, request id) และบันทึกเฉพาะสไลซ์ของ input ที่อนุญาต กับ metrics กับเลเบลที่มี cardinality สูง (user IDs เต็ม รูปแบบอีเมล) จะระเบิดชุดซีรีส์เมตริกและทำให้แดชบอร์ดรวมลำบาก เก็บเลเบลหยาบ ๆ ในเมตริก และเก็บรายละเอียดเฉพาะผู้ใช้ใน logs ข้อผิดพลาดที่บ่อยและทำให้ช้า: - มองแต่อัตราเฉลี่ยเท่านั้น (เช็ก p95 และ p99 แทน) - traces ที่ขาดคอนเท็กซ์ (สแปนไม่มีชื่อ route หรือชื่อ dependency ชัดเจน) - ไม่มี marker ของรีลีส ทำให้เดาไม่ได้ว่า deploy เป็นสาเหตุไหม - alerts ไม่มีผู้รับผิดชอบ จึงกลายเป็นเสียงรบกวน - logs ที่ค้นหาไม่ได้ (free-text ไม่มีคีย์สม่ำเสมอ) ตัวอย่างปฏิบัติ: ถ้า checkout p95 ขึ้นจาก 800ms เป็น 4s คุณควรตอบได้สองคำถามในไม่กี่นาที: มันเริ่มทันทีหลังดีพลอยหรือไม่ และเวลาส่วนใหญ่ไปกับแอปของคุณหรือ dependency? ด้วย percentiles, release tag, และ traces ที่มี route + dependency names คุณจะไปถึงคำตอบได้เร็ว

ชุดเริ่มต้นการสังเกตระบบโปรดักชันสำหรับการมอนิเตอร์วันแรก

จุดที่มักพังก่อนเมื่อแอปใหม่เริ่มมีผู้ใช้จริง

Logs vs metrics vs traces แบบภาษาง่ายๆ

ข้อตกลงวันแรกที่ป้องกันความยุ่งเหยิงในภายหลัง

การล็อกขั้นต่ำที่ควรเพิ่มในวันแรก

เมตริกขั้นต่ำที่จับปัญหาในโปรดักชันได้ส่วนใหญ่

สัญญาณทองคำ

เช็คลิสต์เมตริกตามคอมโพเนนต์

Tracing ขั้นต่ำที่ทำให้ “ช้า” ดีบักได้

โฟลว triage ง่าย ๆ สำหรับรายงาน “มันช้า”

5 ขั้นตอนของการ triage

การตรวจสอบด่วนที่ทำได้ใน 5 นาที

ตัวอย่าง: วินิจฉัยเช็คเอาต์ที่ช้าโดยไม่เดา

ความผิดพลาดทั่วไปที่เสียเวลาในเหตุการณ์

ขั้นตอนถัดไป: ทำให้ทำซ้ำได้สำหรับทุกแอปใหม่

คำถามที่พบบ่อย