Werner Vogels 的“你构建，你运行”详解

Q: “运行它”是否意味着每个开发者都要成为运维专家？

这并不要求每个工程师都必须成为全职的基础设施专家。 它意味着： - 团队拥有诊断和修复生产问题的访问权限与权限； - 运营工作是团队常规规划的一部分； - 平台工具应当降低复杂度（铺好的道路），但不要剥夺团队的所有权。

Q: 团队在“运行”服务时具体要负责什么？

“运行它”通常包括： - 针对用户影响的仪表盘（延迟、错误、流量）； - 与用户影响相关的可操作告警（而非噪音）； - 事故流程（分诊、缓解、沟通、后续）； - 常见故障的运行手册和“前15分钟”检查项； - 容量与成本的管理（扩缩容、限额、预算）。

Q: 如何在不让人筋疲力尽的情况下设置值班？

从人性化设计开始： - 合理的值班轮班与明确的升级路径（主值班/次值班/领域专家）； - 仅在真正影响用户时触发叫醒（定义严重级别）； - 有运行手册，响应者在压力下不必靠猜测； - 苦夜后的恢复时间（补休或延迟上班）和重大事故后的休息时间。 优秀的值班体系目标是：下个月减少告警，而不是把英雄主义常态化。

Q: 什么情况应该发页，什么情况应该建工单？

简单规则：如果叫醒某人也无法改变结果，那就用工单而不是页面通知。 实际操作： - 对于宕机、数据丢失风险、安全事件或严重 SLO 违约发页； - 对于降级但稳定的问题，优先在工作时间处理，或持续时再发页； - 将不稳定或噪音告警转为后续改进工作（调优、更好的信号、自动化）。

Q: SLO 和错误预算如何支持“你构建，你运行”？

它们提供了可度量的可靠性目标： - SLI（服务等级指标） ：你测量的事情，例如请求成功率； - SLO（服务等级目标） ：对该指标设定的目标，例如 99.9%； - 错误预算 ：在仍满足 SLO 的前提下，你允许的“不良度”上限。 当错误预算被快速消耗时，应把优先级转向可靠性工作；当预算充足时，可以承担更多交付风险。

Q: 哪些发布实践可以让这个模型可持续？

采用降低不确定性与冲击面的发布实践： - 生产准备必备项（仪表盘、告警、运行手册、回滚计划）； - 渐进式发布（功能开关、灰度/金丝雀、小幅发布）； - 可演练的快速回滚或回滚向前策略； - 负载和故障测试，以在客户发现之前暴露“未知的未知”。

Q: 在该模型下，团队应如何处理事故和事后分析？

把事故当成可复现的流程处理： - 检测 → 分诊 → 缓解 → 沟通 → 学习 编写无责备的事后分析（postmortem），关注系统与流程如何允许问题进入生产，并给出具体、有人认领且有时限的改进项。 一个轻量的清单（参见 /blog/incident-response-checklist）有助于标准化流程。

Q: 平台团队应扮演什么角色，既支持又不剥夺服务所有权？

平台团队应提供“铺好的道路”（模板、CI/CD、护栏、共享服务），但不要替代产品团队对其服务行为的责任。 简单边界： - 平台团队负责平台本身的可用性与支持； - 产品团队负责基于该平台运行的服务的可靠性、性能与成本。

登录开始使用

Werner Vogels 的“你构建，你运行”详解 | Koder.ai

“你构建就负责运行”到底是什么意思

“你构建它，你运行它”这句台词之所以让人记住，是因为它直白。它不是励志海报或“更DevOps”的口号，而是关于责任的明确声明：交付服务的团队，也要对该服务在生产环境中的表现负责。

核心思想：交付和运维是一份工作的一部分

在实践中，这意味着同一个产品团队既设计功能和写代码，也要：

监控生产中的服务
在服务出现故障时响应
随时间改进可靠性
在新功能与运维工作之间做权衡

这并不意味着每个人一夜之间都成为基础设施专家。它意味着反馈回路真实存在：如果你发布的改动增加了宕机、告警噪音或客户痛点，团队会直接感受到——并快速学习。

一种实用的运行模型，而不是口号

除非把它当作一套带有明确期望的运行模型，否则这套理念容易被口头化但难以实施。“运行它”通常包含值班（某种形式）、负责事故响应、编写运行手册、维护仪表盘和持续改进服务。

这也暗含约束：不能要求团队“运行它”却不给他们修复问题的工具、访问权限和权限——以及路线图中用于这类工作的时间。

它适用于谁

产品/服务团队：建立真正的端到端所有权并加速学习。
工程经理：设定清晰边界（“哪个团队负责哪个服务”）并为运维工作规划容量。
平台团队：通过提供铺好的道路使所有权更容易实现——但不要在不知不觉中把生产责任从构建团队手中剥离。

为什么这个理念改变了团队交付软件的方式

在“你构建，你运行”出现之前，很多公司把软件开发组织成接力赛：开发写完代码，然后把它“扔给”运维团队来部署并维护。

这种交接解决了短期问题——有人经验丰富地盯着生产——但也制造了更大的问题。

交接问题：反馈慢且责任模糊

当独立的运维团队拥有生产时，开发人员往往很晚（甚至根本）才知道问题。一个错误可能会以含糊的工单形式出现，几天后才被发现：“服务很慢”或“CPU 很高”。到那时，上下文丢失，日志已经轮转，做出改动的人也可能已经离开。

交接也会模糊所有权。如果发生故障，开发可能以为“运维会接手”，而运维可能认为“是开发放了有风险的改动”。结果可预见：解决事故更久、重复的故障模式增多，团队为了局部最优而非客户体验做出选择。

为什么所有权能加速交付并减少重复事故

“你构建，你运行”缩短了回路。发布改动的同一团队要对其在生产中的表现负责。这会把实用改进推到上游：更清晰的告警、更安全的发布、更好的仪表盘和更易于运行的代码。

反而，这通常能加快交付。当团队信任他们的发布流程并理解生产行为后，他们可以更频繁地发布更小的改动——减少事故影响范围并使问题更易诊断。

不是一刀切

并非所有组织在人员配置、合规要求或遗留系统上起点相同。这个理念是一个方向，而不是开关。许多团队会逐步采用：先从共享值班、更好的可观测性和更清晰的服务边界开始，再走向完全的端到端所有权。

它的来源：Werner Vogels 与服务心态

亚马逊 CTO Werner Vogels 推广了“你构建，它就由你运行”的说法，用来描述亚马逊（以及后来的 AWS）希望团队如何看待软件：不是一个交付后就完结的项目，而是一个需要持续运营的服务。

关键转变既是心理上的，也是技术上的。当团队知道自己会因故障被叫醒时，设计决策就会改变。你会关心合理的默认值、清晰的告警、优雅的降级以及可回滚的部署路径。换言之，构建也包含为现实世界中混乱的部分做计划。

云时代为何提高了门槛

AWS 时代的服务思维让可靠性与速度成为不可谈判的要求。云客户期望 API 全天候可用，也期望持续地获得改进——而不是季度性的“大版本”更新。

这种压力促成了：

更小但长期存在的服务并分配明确所有者
代码变更与生产行为之间的快速反馈回路
把运营习惯当成产品特性（监控、容量规划、运行手册）

借鉴，而非照搬

将亚马逊的方法当作模板照搬很诱人，但“你构建，你运行”更多是一个方向而不是死板的组织结构。你的团队规模、监管约束、产品成熟度与可用性需求可能需要调整——比如共享值班、平台支持或分阶段采纳。

如果你想把这个心态转为可执行步骤，请跳转到 /blog/how-to-adopt-you-build-it-you-run-it-step-by-step。

所有权：团队在“运行它”时承担的内容

“你构建，你运行”本质上是关于所有权的声明。如果你的团队交付了一个服务，你的团队就要对该服务在真实世界中的表现负责——不仅仅是发布当天是否通过了测试。

“所有权”具体包括什么

运行一个服务意味着对端到端的结果负责：

可靠性： 用户可以依赖它，故障能被快速处理。
性能： 在正常与峰值负载下依然保持足够快。
成本： 不会悄然成为预算中最昂贵的那一项。
安全与合规： 风险在交付时就被考虑，而不是事后处理。
支持： 客户与内部使用者能得到清晰及时的帮助。

实践中“运行它”包含的日常工作

在常态周里，“运行它”更多是常规操作而非英雄行为：

建立监控与仪表盘，让团队一目了然地看到健康状况。
定义告警，要可执行（不产生噪音）且与用户影响相关。
处理事故：分诊、缓解、沟通与事后改进。
管理容量：扩缩容方案、负载测试、资源限制。
保持运行手册最新，以便任何值班人员都能一致地响应。

责任不是指责

这个模型只在把责任理解为“我们来修复”而非“找人惩罚”的前提下才有效。发生故障时，目标是理解系统中允许故障发生的条件——缺失的告警、不清晰的限制、风险的发布流程——并改善这些条件。

清晰边界与命名所有者

当服务模糊不清时，所有权就会混乱。定义服务边界（它做什么、依赖什么、承诺什么）并指派明确的责任团队。这种清晰能减少交接、加速事故响应，并在可靠性与功能竞争时让优先级显而易见。

正确的值班（且不过度消耗人力）

值班是“你构建，你运行”的核心，因为它封闭了反馈回路。当同一团队既发布变更又感受运营影响（延迟峰值、发布失败、客户投诉）时，优先级变得清晰：可靠性工作不再是“别人的问题”，而让系统更平静通常是更快交付的途径。

以人性化为设计原则的值班

健康的值班主要关乎可预期性与支持。

符合团队规模的轮班： 避免过度苛刻的排班；如果覆盖不足，缩小范围或增加共享的二级支持。
升级路径： 主响应、次响应、领域专家——确保没有人在凌晨独自面对问题。
困难夜晚后的恢复时间： 补休或次日晚些上班，重大事故后安排休假。恢复是可靠性的一部分。
运行手册与“前15分钟”检查表： 响应者应有明确手册，而非凭猜测行动。

严重级别：只有重要时才发页

定义严重级别，避免系统为每个不完美都发页。

Sev 1（发页）： 客户影响的宕机、数据丢失风险、安全事件或严重的 SLO 违约。
Sev 2（工作时间发页或持续时发页）： 降级且对用户有真实影响。
Sev 3（工单）： 非紧急缺陷、告警不稳定、小幅错误率上升、容量趋势。

一个简单规则：如果叫醒某人不会改变结果，那就应该建工单而不是发页。

真正目标：下个月少收到告警

值班不是惩罚，而是信号。每一个噪音告警、重复故障或人工修复都应反馈到工程工作中：更好地告警、自动化、更安全的发布和移除需要人工干预的系统修改。

SLO、SLI 与错误预算：实用的护栏

提前规划所有权

在编写代码前定义服务边界、负责人和发布预期。

使用规划模式

如果“你运行它”是真实的，团队需要一种共享的方式来讨论可靠性，而不是把每次讨论变成意见分歧。这正是 SLI、SLO 与错误预算的作用：明确目标，并在快速迭代与保持稳定之间提供公平的权衡。

SLI、SLO、SLA 的通俗定义

SLI（服务等级指标）： 对服务行为的测量。想想：“我们在生产中实际看到的是什么？”
SLO（服务等级目标）： 针对某个 SLI 的目标。想想：“我们争取达到什么可靠性水平？”
SLA（服务等级协议）： 对客户的承诺，通常包含罚款或补偿。想想：“我们合同上保证的是什么。”

记忆方法：SLI = 指标，SLO = 目标，SLA = 对外承诺。

可度量的 SLI 示例

好的 SLI 与用户体验直接相关，例如：

延迟：“95% 的请求在 300ms 内完成。”
可用性：“请求成功（非 5xx）达到 99.9%。”
作业成功率（异步系统）：“99.5% 的夜间导出在早上 6 点前完成。”

错误预算：让速度与稳定保持平衡

错误预算是指在仍能满足 SLO 的情况下允许的“坏的量”。例如，若 SLO 是 99.9% 可用性，则月度错误预算为 0.1% 的不可用时间。

当服务健康且在预算内时，团队可以承担更高的交付风险（发布功能、试验）。当预算被快速消耗时，可靠性工作必须优先。

SLO 如何指导规划

SLO 把可靠性变成规划输入。如果你的错误预算很少，下个冲刺可能会着重做限流、更安全的发布或修复不稳定的依赖——因为错过 SLO 有明确成本。如果预算充足，你就可以更自信地优先产品工作，而不用猜测“运维能否应付”。

安全发布：生产就绪与发布实践

“你构建，你运行”只有在把发布常态化、而不是高风险事件时才行得通。目标是上线前减少不确定性，上线后限制冲击面。

上线前的必备项

在把服务视为“就绪”之前，团队通常需要一些运营基础设施：

仪表盘 展示面向用户的健康（延迟、错误率、流量）和关键依赖。
告警要可执行（明确阈值、明确负责人，不产生噪音的“仅供参考”页面）。
运行手册 涵盖常见故障：先检查什么、如何缓解、何时升级。
备份与恢复演练（演练与备份同等重要），以及文档化的保留策略。

渐进式交付：分步发布以降低风险

与其一次性对所有人发布，不如分步限制影响：

功能开关 允许把代码发布出去同时控制曝光，并有清晰的清理计划。
金丝雀发布 把少量流量导向新版本，并把指标与基线对比。
快速回滚（或向前回滚）应可自动化并演练好，以免在压力下临时 improvisation。

如果团队把回滚标准化，把它当成一项核心能力：回滚越快越安全，“你运行它”就越可行。

用负载与故障测试建立信心

两种测试能减少“未知的未知”：

负载测试 验证容量假设并在客户发现前揭露瓶颈。
故障测试（例如依赖超时、实例被杀、连接丢失）验证服务优雅降级并保证告警触发时机正确。

简单的生产就绪检查清单

保持轻量：在仓库或工单模板中放一页清单（例如“可观测性”、“值班就绪”、“数据保护”、“回滚计划”、“容量测试”、“运行手册链接”）。把“未就绪”看作正常状态——远比在生产中学习要好得多。

事故与事后分析：把宕机变成学习机会

更快发布小改动

从想法到可运行的 Web 服务，无需等待完整的开发流水线。

开始构建

事故是“你运行它”真正变现的时刻：服务降级、客户感知并且团队需要迅速且清晰地响应。目标不是英雄主义，而是可复用的工作流来降低影响并产出改进。

简单的事故工作流

大多数团队会收敛到相同的阶段：

检测： 监控告警、客户报告或自动异常检测。
分诊： 确认损坏范围、估计严重性、指派事故负责人并开始时间线记录。
缓解： 止血（回滚、关闭功能开关、扩容、阻断异常流量），然后恢复全量服务。
沟通： 更新要一致——受影响范围、当前状态与下次更新时间。沟通也是缓解的一部分。
学习： 服务稳定后，分析促成因素并防止重复发生。

如果需要实用模板，可准备一份轻量清单（见 /blog/incident-response-checklist）。

无责备事后分析（以及需要记录的内容）

无责备的事后分析并不意味着“没人犯错”。它意味着把注意力放在系统与流程如何允许错误到达生产，而不是羞辱个人。这能让人们尽早共享细节，这是学习的关键。

记录内容：

客户影响： 谁受影响、持续多久、影响程度如何。
时间线： 关键事件、决策以及信号出现的时间。
根因与促成因素： 技术与流程方面（例如所有权不清、缺失告警）。
做得好/不够好： 包括沟通方面。

真正能防止重复的行动项

好的事后分析以具体且有归属的后续工作结尾，通常分为四类：工具改进（更好告警/仪表盘）、测试（回归与边界情况）、自动化（更安全的发布/回滚、护栏）和文档（运行手册、清晰的操作步骤）。给出负责人和截止日期——否则学习就只是理论。

让服务所有权更容易的工具链

工具是把“你构建，你运行”变成可持续实践的杠杆——但它不能替代真正的所有权。如果团队把运维当成“别人的事”，即便最花哨的仪表盘也只能记录混乱。好的工具降低摩擦：让正确的行为（观察、响应、学习）比错误的行为（猜测、指责、忽视）更容易实现。

每个团队至少需要的要素

至少，服务所有者需要一致的方式来查看生产中的软件运行状况并在异常时迅速采取行动：

集中化日志： 可搜索、保留足够长以便调查，并尽量结构化。
指标： 黄金信号（延迟、流量、错误、饱和）以及与业务相关的关键指标。
分布式追踪： 跟踪跨服务请求以发现瓶颈。
告警： 与用户影响相关的可执行告警。
工单/事故工作流： 用于追踪工作、关联事故与后续改进并确保修复发布。

如果监控体系碎片化，团队就会把时间花在追查而不是修复上。统一的可观测性策略能起到帮助，见 /product/observability。

在规模化时让所有权可见

组织增长时，“谁负责？”成为可靠性风险。服务目录（或内部开发者门户）能把所有权与运营上下文集中起来：团队名称、值班轮班、升级路径、运行手册、依赖关系与仪表盘链接。

关键是所有权元数据要保持最新。把它纳入工作流：新服务上线前必须有负责人，变更所有权像代码变更一样被审核与记录。

工具应强化良好习惯

最佳实践会推动团队朝健康行为迈进：运行手册模板、与 SLO 绑定的自动告警、能在几秒内判断“用户是否受影响”的仪表盘。但人的因素依然重要——团队需要时间去维护这些工具、修剪告警并持续改进服务的运行方式。

平台团队的角色：支持而不剥夺所有权

平台团队能让“你构建，你运行”更易于落地。他们的工作不是为所有人运行生产环境，而是提供一条明亮的路径（“铺好的道路”），使产品团队无需在每个冲刺都重做运维工作就能拥有自己的服务。

铺好的道路、模板与护栏

好的平台提供难以出错且容易采用的默认方案：

新服务的黄金路径模板（仓库结构、日志、告警、仪表盘）
标准 CI/CD 管道与安全的发布选项（金丝雀、蓝绿、自动回滚）
生产就绪的运行时基本能力（健康检查、速率限制、配置约定）

护栏应该阻止高风险行为但不阻碍发布。想想“默认安全”，而不是“提交工单然后等待”。

共享服务与共享所有权

平台团队可以运行共享服务——但不该替代产品服务的所有权。

共享服务： 认证/授权、密钥管理、容器平台、制品仓库、可观测性栈。
产品所有权： 每个团队仍对其服务的可靠性、性能、数据完整性和值班负责。

边界很简单：平台团队负责平台自身的可用性与支持；产品团队负责如何使用该平台并对结果负责。

平台如何降低认知负担

当团队不用在第一天就精通 CI/CD、认证或密钥管理时，他们可以更专注于服务行为和用户影响。

能减少重复工作的示例：

一键创建的流水线带有一致的测试门禁
支持服务间身份的中央认证
支持秘钥轮换的托管密钥管理
自动为常见指标打点的基础监控

结果是更快的交付、更少的“定制运维孤岛”，同时保持核心承诺：构建服务的团队仍然运行它。

常见陷阱以及何时调整模型

发布移动服务

原型一个 Flutter 移动应用，发布后由同一团队继续负责。

构建移动应用

“你构建，你运行”能提升可靠性和速度——但前提是组织要改变支撑团队的条件。很多失败看起来像是口号被采纳了，但支撑的习惯并未跟上。

常见的失败模式

一些反复出现的模式包括：

开发者被值班，但从未有时间修复根因。 告警变成每晚的例行公事，而待办列表不断挤压可靠性工作，导致学到无效：人们不再相信事故会带来真正改进。
模糊的所有权（“大家都负责”）。 如果事故牵涉五个团队却没人能端到端做决策，那不是所有权——那只是开会。
过多共享依赖。 当每个服务都依赖中央数据库模式、共享库或“核心”团队时，团队无法真正运行它们构建的东西，却要承受失败。
把值班当惩罚或英雄行为。 如果文化奖励灭火胜过预防，系统就会倾向于频繁的紧急情况。

在何种情况下需调整模型（以及如何适配）

某些环境需要定制化方法：

重合规或受监管的环境。 可能需要职责分离、正式的变更控制或受限的生产访问。可适配的方法是：依然让服务团队对可靠性结果负责，但使用被批准的流程（审计运行手册、预批准的变更、应急访问）。
遗留单体应用。 一个纠结的单体代码库让“运行它”困难。可以先为特定模块、作业或用户路径划定明确的运营所有权，投资可观测性和发布安全，再逐步重构组织。
关键的共享平台。 如果一个平台为许多产品团队提供支持，平台团队可以运行该平台，但产品团队仍应为服务行为与可靠性目标负责。

领导的职责：保障可靠性容量

当可靠性工作被视为“额外任务”时，这一理念会最快失败。领导必须明确保留容量用于：

偿还运营债（告警、运行手册、自动化）
修复重复出现的事故原因
减少高风险依赖

没有这种保障，值班会成为一项税负——而非能改进系统的反馈回路。

如何分步采用“你构建，你运行”

最好把推广作为分阶段变更，而不是一次公司层面的通知。先小范围试点、使所有权可见、然后再扩展。

1）以一个服务做试点

选择一个单一、界定清晰的服务（最好有明确用户且风险可控）。

定义：

一个反映用户体验的 SLO（例如“99.9% 的请求成功”）；
该服务的值班覆盖（即便初期只是工作时间与升级路径）；
针对主要故障模式的运行手册：先检查什么、如何回滚、页谁。

关键是：发布变更的团队也要对该服务的运营结果负责。

2）在扩展前增加护栏

在向更多服务推广前，确保试点团队能在不靠英雄主义的情况下运行：

基本告警只对用户影响发页（而非每个指标波动）；
轻量的生产就绪清单（日志、仪表盘、回滚路径）；
定期回顾告警与事故，移除噪音并修复重复问题。

3）跟踪正确的采纳指标

用一小组指标展示所有权是否提升了交付速度与稳定性：

变更失败率（一次部署触发事故/回滚的频率）；
MTTR（平均恢复时间）；
页面量（每周页面数以及“非工作时间页面”）；
部署频率（安全发布的频率）。

示例 30/60/90 天计划

第 1–30 天： 选择试点服务、定义 SLO、设定告警策略、编写首版运行手册、创建仪表盘。
第 31–60 天： 调优告警（减少噪音）、演练事故响应、加入发布安全（回滚步骤、可用金丝雀发布）。
第 61–90 天： 向 1–2 个服务扩展，标准化模板（运行手册/SLO 文档）、审视指标与工作量公平性。

如果你在现代化交付（Koder.ai 的角色）

在你采用“你构建，你运行”并试图加速交付时，瓶颈通常是相同的：如何把想法变成带有明确所有权与安全回滚能力的生产就绪服务。

Koder.ai 是一个以对话为中心的编码平台，帮助团队通过聊天界面构建 web、后端与移动应用（Web 上 React、后端 Go + PostgreSQL、移动端 Flutter）。对于倾向于服务所有权的团队，它的若干功能与运行模型吻合：

规划模式：在编码前定义服务边界、依赖与运行手册/SLO 期望；
快照与回滚：把“快速回退”作为常规操作；
源代码导出：确保所有权留在团队（代码库）而非工具中。

下一步

本周挑选你的试点服务，并安排 60 分钟的启动会以设定首个 SLO、值班轮班与运行手册负责人。如果你正在评估用以支撑（发布、回滚与围绕所有权的工作流）的工具，请参见 /pricing，了解 Koder.ai 的免费、专业、业务与企业版本——以及托管、部署与自定义域名等选项。

常见问题

“你构建，你运行”在实践中是什么意思？

它意味着设计、构建并部署某个服务的团队，也要在服务上线后承担其发生的后续责任：监控、值班响应、事故跟进和可靠性改进。

这是一个责任模型（明确的归属），而不是某个工具或职称的简单变化。

“运行它”是否意味着每个开发者都要成为运维专家？

这并不要求每个工程师都必须成为全职的基础设施专家。

它意味着：

团队拥有诊断和修复生产问题的访问权限与权限；
运营工作是团队常规规划的一部分；
平台工具应当降低复杂度（铺好的道路），但不要剥夺团队的所有权。

为什么这比传统的开发/运维交接模型更好？

当生产由独立的运维团队负责时，反馈常常延迟且责任模糊：开发者可能感受不到生产的痛点，而运维也不清楚最近的变更背景。

端到端的归属通常会改善：

事故响应速度（更少的交接）；
发布质量（团队会投入更安全的发布方式）；
长期稳定性（真正修复根因，而非临时补丁）。

团队在“运行”服务时具体要负责什么？

“运行它”通常包括：

针对用户影响的仪表盘（延迟、错误、流量）；
与用户影响相关的可操作告警（而非噪音）；
事故流程（分诊、缓解、沟通、后续）；
常见故障的运行手册和“前15分钟”检查项；
容量与成本的管理（扩缩容、限额、预算）。

如何在不让人筋疲力尽的情况下设置值班？

从人性化设计开始：

合理的值班轮班与明确的升级路径（主值班/次值班/领域专家）；
仅在真正影响用户时触发叫醒（定义严重级别）；
有运行手册，响应者在压力下不必靠猜测；
苦夜后的恢复时间（补休或延迟上班）和重大事故后的休息时间。

优秀的值班体系目标是：下个月减少告警，而不是把英雄主义常态化。

什么情况应该发页，什么情况应该建工单？

简单规则：如果叫醒某人也无法改变结果，那就用工单而不是页面通知。

实际操作：

对于宕机、数据丢失风险、安全事件或严重 SLO 违约发页；
对于降级但稳定的问题，优先在工作时间处理，或持续时再发页；
将不稳定或噪音告警转为后续改进工作（调优、更好的信号、自动化）。

SLO 和错误预算如何支持“你构建，你运行”？

它们提供了可度量的可靠性目标：

SLI（服务等级指标）：你测量的事情，例如请求成功率；
SLO（服务等级目标）：对该指标设定的目标，例如 99.9%；
错误预算：在仍满足 SLO 的前提下，你允许的“不良度”上限。

当错误预算被快速消耗时，应把优先级转向可靠性工作；当预算充足时，可以承担更多交付风险。

哪些发布实践可以让这个模型可持续？

采用降低不确定性与冲击面的发布实践：

生产准备必备项（仪表盘、告警、运行手册、回滚计划）；
渐进式发布（功能开关、灰度/金丝雀、小幅发布）；
可演练的快速回滚或回滚向前策略；
负载和故障测试，以在客户发现之前暴露“未知的未知”。

在该模型下，团队应如何处理事故和事后分析？

把事故当成可复现的流程处理：

检测 → 分诊 → 缓解 → 沟通 → 学习

编写无责备的事后分析（postmortem），关注系统与流程如何允许问题进入生产，并给出具体、有人认领且有时限的改进项。

一个轻量的清单（参见 /blog/incident-response-checklist）有助于标准化流程。

平台团队应扮演什么角色，既支持又不剥夺服务所有权？

平台团队应提供“铺好的道路”（模板、CI/CD、护栏、共享服务），但不要替代产品团队对其服务行为的责任。

简单边界：

平台团队负责平台本身的可用性与支持；
产品团队负责基于该平台运行的服务的可靠性、性能与成本。