Q: 当有人说“太慢”时，我应该怎么分诊？

把模糊的“太慢”转成几条具体的问题然后按证据推进。这个日一分诊流程适用于刚起步的应用。 步骤： 1. 确认范围：是单个用户、单个客户账户、某一地区还是全部用户？是否在 Wi‑Fi 和蜂窝网络、不同浏览器/设备上都出现？ 2. 先看变化：是请求量突增、错误率上升，还是只有延迟上升？流量激增常导致排队；错误上升常指向某个依赖坏了。 3. 按路由/操作拆分慢点：看各端点的 p95 延迟，找最差者。若只有一个路由慢，就集中处理；若全部变慢，考虑共享依赖或容量问题。 4. 打开一个慢请求的 trace：按时长排序 spans，目标是一句话总结：“大部分时间在 X 上”。 5. 验证依赖并决定是否回滚：检查 DB 饱和、慢查询、缓存命中率和第三方响应时间；若发生在部署后，回滚通常是最安全的第一步。 稳定后，做一项小改进：记录发生了什么并补一个缺失的信号。例如：如果无法判断是否只在某地区慢，给延迟指标加上 region 标签；若发现长时间的 DB span 但不知道哪个查询，谨慎地添加 query name 字段或查询标签。

Question 1

真实用户访问新应用时通常先坏的是什么？

Accepted Answer

从用户进入系统的第一个地方开始：web 服务器、API 网关或第一个处理器。 - 添加 并在所有内部调用中传递。 - 为每个请求记录 、 、 和 。 - 按路由追踪 p95 延迟和 5xx 率。 单凭这些通常能让你快速定位到具体端点和时间窗口。

Question 2

现实的第1天可观测性目标是什么？

Accepted Answer

设定一个现实的默认目标：你能在 15 分钟内 找出慢的步骤。 第 1 天你不需要完美的仪表盘，但需要足够的信号来回答： - 是客户端、API、数据库/缓存、后台任务还是外部依赖？ - 哪个路由或任务类型受影响？ - 是在部署或配置变更后开始的吗？

Question 3

何时使用日志、指标与追踪？

Accepted Answer

三者配合使用，每种工具回答不同的问题： - 指标（Metrics）： “这是不是广泛发生并在变坏？”（速率、百分位、饱和度） - 追踪（Traces）： “这个请求内部时间花在哪儿？”（慢的跳点） - 日志（Logs）： “这个用户/请求到底发生了什么？”（错误、输入、上下文） 在事故中：用指标确认影响，用追踪找到瓶颈，用日志解释细节。

Question 4

哪些命名与打标签的约定能防止后续混乱？

Accepted Answer

选一小套约定并在所有地方统一使用： - 稳定的 、 （如 / ）和 - 在边缘生成并传播的 - 一致的标签： 、 、 和 （若多租户） - 统一时间单位（例如 ） 目标是同一个过滤条件能跨服务工作，而不是每次都从头开始。

Question 5

第1天我应该添加哪些最小日志？

Accepted Answer

默认使用 结构化日志 （通常为 JSON），并在所有服务中保持相同键。 立即有用的最小字段： - 、 、 、 、 - （若有则 ） - 、 、 、 - 或 （稳定 ID，而不是邮箱） 错误只记录一次并带上下文（错误类型/代码 + 消息 + 依赖名）。避免在每次重试时重复相同的堆栈追踪。

Question 6

哪些最小指标能捕捉大多数生产问题？

Accepted Answer

从每个主要组件的四个“黄金信号”开始： - 延迟（Latency）： p50/p95/p99（避免用平均值） - 流量（Traffic）： 请求/秒（或任务/分钟） - 错误（Errors）： 4xx 与 5xx 率 - 饱和度（Saturation）： 某个资源达上限（CPU、内存、DB 连接、队列积压） 按组件的最小清单示例： - HTTP/API：请求/秒、p50/p95/p99 延迟、4xx 率、5xx 率 - 数据库：查询延迟（至少 p95）、连接池使用（in-use vs max）、超时、慢查询数 - 工作器/队列：队列深度、任务运行时 p95、重试、死信数 - 资源：CPU%、内存使用、磁盘使用（以及 I/O）和容器重启 - 部署健康：当前版本、部署后的错误率、重启循环 这些指标能在大多数情况下让你快速判断系统健康并定位受影响区域。

Question 7

使“太慢”可调试的最小追踪设置是什么？

Accepted Answer

先从服务器端开始。对进入应用的请求在最外层（第一个处理器）做埋点，这样每个请求都能生成 trace。客户端追踪可以后置。 一个有用的日一 trace 应包含映射到常见慢点的 span： - 请求处理器的整体 span - 每个数据库调用的 span - 缓存的 get/set span - 每个外部 HTTP 调用的 span - 将工作入队的 span 为了便于搜索和对比，给 span 捕获一些一致的属性：路由（模板形式 ）、HTTP 方法、状态码和延迟；数据库 span 标注 DB 类型、操作类型和表名（如果容易添加）；外部调用标注依赖名（payments、email 等）、目标主机和状态。 采样在日一很重要：避免成本和噪音失控。简单规则：对错误和慢请求采样 100%（如果 SDK 支持），对正常流量采样 1–10%。流量低时可以先采更高比例，然后随使用量增长降低。 “好”的表现是：一个 trace 能自上而下讲清楚故事。例： 花了 2.4s，DB 花 120ms，缓存 10ms，外部支付调用花了 2.1s 并有重试。这样你就知道问题在依赖而非自己的代码。

Question 8

当有人说“太慢”时，我应该怎么分诊？

Accepted Answer

把模糊的“太慢”转成几条具体的问题然后按证据推进。这个日一分诊流程适用于刚起步的应用。

步骤：

确认范围：是单个用户、单个客户账户、某一地区还是全部用户？是否在 Wi‑Fi 和蜂窝网络、不同浏览器/设备上都出现？
先看变化：是请求量突增、错误率上升，还是只有延迟上升？流量激增常导致排队；错误上升常指向某个依赖坏了。
按路由/操作拆分慢点：看各端点的 p95 延迟，找最差者。若只有一个路由慢，就集中处理；若全部变慢，考虑共享依赖或容量问题。
打开一个慢请求的 trace：按时长排序 spans，目标是一句话总结：“大部分时间在 X 上”。
验证依赖并决定是否回滚：检查 DB 饱和、慢查询、缓存命中率和第三方响应时间；若发生在部署后，回滚通常是最安全的第一步。

稳定后，做一项小改进：记录发生了什么并补一个缺失的信号。例如：如果无法判断是否只在某地区慢，给延迟指标加上 region 标签；若发现长时间的 DB span 但不知道哪个查询，谨慎地添加 query name 字段或查询标签。

Question 9

有哪些可以在5分钟内做的快速检查？

Accepted Answer

当有人说“太慢”时，你可能会浪费一个小时只是弄清楚他们到底指什么。有效的生产可观测性入门包必须能让你在短时间内缩小问题范围。 先问三个澄清问题： - 受影响的是谁（单用户、某客户群、还是所有人）？ - 哪个具体动作慢（页面加载、搜索、结账、登录）？ - 何时开始的（几分钟前、部署后、还是今天早上）？ 然后看几组通常能指明方向的数字：不要找完美的仪表盘，只要“比正常差”。 - 当前错误率（错误突增看起来常像慢） - 受影响端点的 p95 延迟（不要看平均值） - 饱和度：CPU、内存、DB 连接或队列深度（选最可能先被打满的） 若 p95 上升但错误平稳，打开最近 15 分钟内该路由的一个慢 trace。单个 trace 常能显示时间是花在数据库、外部 API 还是等待锁上。 再做一次日志搜索：有特定用户报告就按他们的 （或相关 ID）搜并读时间线；没有就搜相同时间窗口内最常见的错误消息，看看是否与延迟同步出现。 最后决定是立即缓解还是深入排查。若用户被阻塞且饱和度高，临时扩容、回滚或关闭非必要功能旗帜能争取时间；若影响小且系统稳定，就用 trace 与慢查询日志继续调查。

Question 10

能否举例说明如何在不猜测的情况下诊断慢的结账？

Accepted Answer

发布几个小时后，支持收到“结账需要 20–30 秒”的票证。没人本地能复现，这时猜测开始。可观测性入门包的价值就体现出来了。 首先去看指标确认症状。HTTP 请求的 p95 图表显示清晰峰值，但仅在 上，其他路由正常且错误率平稳。这把范围从“整个站点慢”缩小为“一个端点在发布后变慢”。 接着打开一个慢 的 trace，瀑布图立刻暴露元凶。两类常见结果： - span 花了 18 秒，大部分时间在等待。 - span 很慢，显示查询返回前有长时间等待。 用 trace 中的同一 （或存日志中的 trace id）在日志里验证。在该请求的日志里，你会看到类似“payment timeout reached”或“context deadline exceeded”的重复警告，以及新发布中加入的重试记录；若是数据库问题，日志可能显示锁等待或超过阈值的慢查询语句。 当三条信号一致时，修复很直接： - 回滚到上一个发布以停止客户受影响。 - 为支付调用加显式超时并限制重试次数。 - 添加依赖时延的指标，例如 p95 payment provider duration 和 p95 DB query duration。 关键是你不用盲猜：指标指向端点，追踪指向慢步骤，日志用确切请求说明失败模式。

Question 11

在事故中最浪费时间的常见可观测性错误有哪些？

Accepted Answer

大多数事故时间浪费都来自可避免的缺口：数据存在但噪音太多、风险太高或缺少某个关键细节，导致症状和原因无法连接。入门包只有在压力下依然可用才有用。 常见陷阱是记录过多原始请求体。开始听起来有用，但很快你会为大量存储付费、搜索变慢，甚至意外记录到密码、令牌或敏感个人信息。优先结构化字段（route、status code、latency、request id），只记录经过明确允许的小片输入。 另一个时间陷阱是看起来详细但无法聚合的指标。高基数标签（完整用户 ID、邮箱、唯一订单号）会让指标序列爆炸，仪表盘变得不可靠。把用户相关信息保留在日志中而非指标，指标用粗粒度标签（route 名称、HTTP 方法、状态类别、依赖名）。 重复阻碍快速诊断的错误： - 只看平均值。平均值掩盖痛点；用户说“慢”时看 p95/p99。 - 缺乏上下文的追踪。若 span 没有路由名和依赖名，trace 就像无标签的图片。 - 没有发布标记。看不到版本何时变更，你就会猜测是否是 deploy 导致的问题。 - 无负责人告警。告警触发却没人知道下一步做什么，会变成噪音并被忽视。 - 无法搜索的日志。自由文本日志没有一致键，每次事故都变成手工 grep。 一个小例子：若 checkout p95 从 800ms 跳到 4s，你希望在几分钟内回答两个问题：它是否在发布后开始，以及时间是否花在你代码里还是依赖（数据库、支付、缓存）。有百分位、发布标签和带路由与依赖名的追踪，你可以迅速得出结论；没有它们，你会在事故窗口里浪费时间争论猜测。

第1天监控的生产可观测性入门包

新应用上线后最先坏的是什么

用通俗语言解释：日志、指标与追踪的区别

第1天的约定，避免后续混乱

第1天要添加的最少日志

捕捉大多数生产问题的最少指标

黄金信号

按组件的指标清单

让“太慢”可调试的最少追踪

针对“太慢”报告的简单分诊流程

5 步分诊法

能在5分钟内做的快速检查

示例：在不猜测的情况下诊断慢结账

在事故中最浪费时间的常见错误

下一步：让每个新应用都可复用

常见问题