如何搭建带事故历史的 SaaS 状态网站

Q: What is a SaaS status page, and why does it matter?

A SaaS 状态页是一个专门的页面，用于在一个规范位置显示 当前服务健康状况 和 事件更新 。它可以减少“宕机了吗？”类的支持请求，在故障期间设定期望，并通过清晰且带时间戳的沟通建立信任。

Q: What’s the difference between real-time status, incident history, and postmortems?

实时状态回答“ 我现在能使用产品吗？ ”，展示各个组件的当前状态。 事件历史回答“ 这种情况多久发生一次？ ”，通过过去事件与维护的时间线展示模式和频率。 事后复盘（postmortems）回答“ 为什么会发生，以及我们改变了什么？ ”，给出根因与预防措施（通常会从事件条目链接到详细复盘）。

Q: How do we set clear goals for a status page before building it?

先写下 2–3 项可衡量的目标，例如： - 在故障期间减少重复的支持工单 - 提高 首次公开更新的速度 （例如在 10–15 分钟内） - 增加订阅人数（邮箱/SMS/Slack） 把这些目标记录下来并每月复查，避免状态页变得过时。

Q: Who should own status page updates, and how do we avoid confusion during incidents?

指定一个明确负责人并设备份（通常是值班轮值）。常见分工： - 事故指挥（Incident Commander）负责确认事实和优先级 - 通信负责人发布面向客户的更新 提前定义规则：谁可以发布、是否需要审批、最小更新频率（例如重大事件时每 30–60 分钟）。

Q: How do we decide what components to show on the status page?

根据客户描述选择组件，而不是内部服务名。常见组件包括： - API - Web 应用 / 仪表盘 - 认证（登录/SSO） - 计费 - 集成（以及关键子项，如 Webhooks 或 Salesforce） 如果不同地域可用性差异明显，可按区域拆分（例如 “API – US”、“API – EU”）。

Q: What status levels should we use, and how do we keep them consistent?

使用小而一致的状态集，并为每一项保留内部判定标准： - Operational（正常） - Degraded Performance（性能下降） - Partial Outage（部分中断） - Major Outage（重大中断） 一致性比绝对精确更重要，让客户通过重复体验理解各级别含义。

Q: What should every incident update include to be useful to customers?

有用的事件更新至少应包含： - 开始时间（含时区） - 受影响的组件/区域 - 面向客户的影响描述（通俗易懂） - 当前状态（Investigating/Identified/Monitoring/Resolved） - 一个你能兑现的 下次更新 时间 即便尚未知道根因，也应沟通范围、影响与下一步动作。

Q: How often should we update the status page during an outage?

尽快发布初始“Investigating”更新（通常在 10–15 分钟 内）。随后： - 重大事件：每 30–60 分钟 更新一次 - 次要事件：更新频率可低一些，但仍要承诺下次更新时间 如果无法按承诺更新，发布简短说明重设期望，切勿沉默。

Q: What notification channels should we offer, and how do we prevent alert fatigue?

提供客户常用的渠道（通常是邮箱与 SMS，另加 Slack/Teams 或 RSS）。保持订阅为 主动选择（opt-in） ，并说明： - 将收到哪些内容（事件、维护或两者） - 是否可按组件或严重性筛选（若无组件级过滤，可先提供“所有更新”） 定期测试送达率与速率限制，确保在事件高峰期通知仍可送达，减少告警疲劳。

登录开始使用

如何搭建带事故历史的 SaaS 状态网站 | Koder.ai

什么是 SaaS 状态页（以及它为何重要）

SaaS 状态页是一个公开（或仅限客户）的网站，用来展示您的产品当前是否可用——以及在不可用时您正在采取什么措施。它在事故期间成为单一的可信来源，独立于社交媒体、支持工单和传言。

它帮助的对象比你预期的要多：

客户可以快速确认“是只有我遇到问题吗？”，并决定等待、重试或使用变通方案。
支持团队 可以链接到一个规范更新，而不用在成百上千个工单中重复解释。
销售与客户成功团队 可以用准确且带时间戳的信息主动管理续约和关键客户。

实时状态 vs. 事故历史 vs. 事后复盘

一个好的服务状态网站通常包含三层相关但不同的内容：

实时状态：当前各组件（API、仪表盘、计费等）在此刻是否可用或性能下降。
事故历史页面：过去事故与维护的时间线，便于客户了解模式并看到问题已被处理。
事后复盘（postmortems）：更深入的说明，解释根因、修复和预防步骤。可公开或仅对受影响客户私下共享。

目标是清晰：实时状态回答“我能用产品吗？”，历史回答“这种情况多久发生一次？”，复盘回答“为什么发生了，我们做了什么改变？”。

设定期望：透明、速度与清晰

状态页在更新快速、语言通俗且诚实说明影响时才有用。你不需要一个完美的诊断来沟通，但需要时间戳、范围（谁受影响）和下次更新时间。

常见使用场景

你会在宕机、性能下降（登录慢、webhook 延迟）和可能引起短暂中断或风险的计划维护时依赖状态页。

一旦你把状态页当成一个产品界面（而不是一次性的运维页面），后续设置会容易很多：你可以定义负责人、建立模板、并把监控接入，而不必在每次事件时重新发明流程。

设定目标、受众与归属

在选择工具或设计布局之前，先决定状态页要完成什么。一致的目标和明确的负责人能在事故时保持状态页的有效性——那时每个人都很忙、信息很混乱。

定义目标（“成功”看起来是什么）

多数 SaaS 团队建立状态页是为实现三个实用结果：

减少支持工单，在一个公共位置回答“是不是宕机？”
建立信任，通过及时且通俗的更新
加速沟通，在支持、工程、销售与客户成功间传递一致信息

写下 2–3 个可衡量信号以便上线后跟踪：故障期间重复工单减少、首次更新更快、更多客户订阅等。

确定受众与阅读层次

你的主要读者通常是非技术客户，他们想知道：

产品现在能正常使用吗？
哪些功能受影响（登录、API、计费等）？
我接下来该怎么做？
什么时候会修复？

这意味着要尽量减少行话。用“部分客户无法登录”优于“认证服务出现 5xx 提升”。若确需技术细节，放在短小的次要句子里。

选择语气、规则与归属

选择在压力下也能保持稳定的语气：冷静、事实为主并透明。提前决定：

谁可以发布更新（单一角色或值班轮值）
谁审批更新（如果需要）以及审批最长允许耗时
活跃事故期间的最小更新频率（例如每 30 分钟一次）

明确归属：不要让状态页成为“大家的事”，否则最终会变成“没人负责”。

决定放置位置

常见两种选择：

独立站点（例如 status.yourcompany.com）：更清晰的分离，通常更能抵抗主应用故障
子路径（例如 /status）：品牌与分析更简单

如果主应用可能不可用，独立状态站点通常更安全。仍可在应用和帮助中心（例如 /help）显著链接到状态页。

绘制服务与组件状态模型

状态页的价值取决于其背后的“地图”。在选择颜色或撰写文案之前，先决定你要实际报告什么。目标是反映客户感知到的产品体验，而不是组织结构。

从组件清单开始

列出客户在说“坏了”时可能描述的各部分。对许多 SaaS 产品，一个实用的起始集合包括：

API
Web 应用
仪表盘 / 管理面板
认证（登录、SSO）
计费
集成（Slack、Salesforce、webhooks 等）

若提供多个地域或层级，也要记录（例如 “API – US” 和 “API – EU”）。使用客户易懂的名称：比起 “IdP Gateway”，用“登录”更清晰。

决定如何分组组件

选择与客户思考方式相匹配的分组：

按产品：适合有不同产品线的情况（产品 A vs 产品 B）
按地域：适合可用性在地理上差异明显的情况
按功能/工作流：适合客户依赖特定任务（报表、导入、通知）

避免列出无穷无尽的项。如果有数十个集成，考虑使用一个父组件（“集成”）加若干高影响的子项（例如 “Salesforce”、“Webhooks”）。

定义状态级别（及含义）

简单且一致的模型能防止事故时的混乱。常用级别包括：

Operational（正常）：按预期工作
Degraded Performance（性能下降）：比平时慢或间歇性错误
Partial Outage（部分中断）：有意义的用户/功能子集不可用
Major Outage（重大中断）：服务广泛不可用

为每个级别写下内部判定标准（即便不公开）。例如，“部分中断 = 某一区域不可用”或“性能下降 = p95 延迟超过 X 持续 Y 分钟”。一致性建立信任。

捕捉依赖关系——并决定公开哪些内容

多数故障涉及第三方：云主机、邮件投递、支付处理或身份提供商。记录这些依赖项，以便事故更新时信息准确。

是否公开显示取决于受众。如果客户会直接受影响（如支付），显示依赖组件可能有帮助。若会增加噪音或引发责怪，保持内部记录并在相关更新中引用（例如 “我们正在调查支付提供商的错误率上升”）。

一旦有了组件模型，后续设置会更容易：每次事故从一开始就有清晰的“哪儿出问题”和“严重程度”。

设计一个简洁且面向客户的状态页

状态页最有用的时候是能在几秒钟内回答客户问题。用户通常带着压力来访，想要的是清晰而非大量导航。

从客户最需要的信息开始

把关键内容放在最顶部：

当前状态： 是否正常、性能下降或宕机？
影响： 受影响的对象（谁/哪些区域/哪些功能）以及用户可能的体验
预计恢复时间（若有）： 谨慎发布——只分享你能担保的时间估计
下次更新时间： 明确承诺（例如 “下次更新不晚于 14:30 UTC”）可以减少重复工单

用通俗语言撰写。“API 请求出错率升高”优于“上游依赖发生部分中断”。若必须使用技术术语，补上一句简短翻译（“部分请求可能失败或超时”）。

使用简单且易扫视的布局

一个可靠的模式：

顶部横幅 展示整体状态（All Systems Operational / Degraded Performance / Major Outage）
组件列表 展示清晰状态（Web App、API、计费、集成等）
活动事件与计划维护 紧随其下，按最新更新排序

组件列表使用客户能理解的标签。若内部服务名是 “k8s-cluster-2”，客户更需要看到“API”或“后台作业”。

无障碍与移动基础

让页面在压力环境下也易读：

强对比度与文本文字标签（不要仅靠颜色）
清晰一致的图标含义（例如绿色 = 正常，黄色 = 性能下降，红色 = 宕机）
移动友好的间距与触控目标；许多用户会用手机查看状态

添加用户期望的快速链接

在顶部（横幅或横幅下方）放一组小链接：

Subscribe（订阅）（邮箱/SMS/webhook）
Incident History（事故历史）
Contact Support 链接到 /support

目标是建立信心：客户应立刻理解发生了什么、受影响范围以及何时会有下次更新。

创建事故与维护更新模板

一旦发生事故，团队需在诊断、缓解和应对客户问题间切换。模板能去除不确定性，使更新在不同发布者下也保持一致、清晰且快速。

定义每次发布必包含的字段

好的更新从相同的核心事实开始。至少标准化以下字段，以便客户快速理解：

事故开始时间（含时区）
受影响组件/服务（映射到你的状态模型）
客户影响（谁受影响、如何受影响）
当前状态（Investigating、Identified、Monitoring、Resolved）
更新日志（带时间戳的条目）
解决时间（服务恢复正常的时间）

若发布事故历史页，保持字段一致有助于对比与扫描过去事件。

使用简单、可复用的事故更新模板

目标是简短的更新，回答客户每次都会问的问题。下面是一个实用模板，可直接复制到状态页工具中：

Title: 简短且具体的概述（例如 “EU 区域 API 错误”）

Start time: YYYY-MM-DD HH:MM (TZ)

Affected components: API, Dashboard, Payments

Impact: 用户可见的现象（错误、超时、性能下降）及受影响对象

What we know: 在确认的情况下用一句话说明原因（避免推测）

What we’re doing: 具体行动（回滚、扩容、上游厂商升级）

Next update: 何时再次发布

Updates:

HH:MM (TZ) — Investigating: …
HH:MM (TZ) — Identified: …
HH:MM (TZ) — Monitoring: …
HH:MM (TZ) — Resolved: …

设定明确的更新节奏规则

客户不仅要信息，还要可预测性。

对于重大事件，承诺每 30–60 分钟 更新一次，即便内容是 “仍在调查；暂无 ETA；下次更新在 X”
对于次要问题，可减少频率，但仍承诺下次更新时间
若无法满足节奏，发布简短说明重设期望

添加维护公告模板

计划维护应感觉冷静且结构化。标准化维护发布应包含：

维护窗口：开始/结束时间（含时区）
预计影响：无影响 / 性能下降 / 间歇性 / 停机
受影响组件
客户操作（如有）：“无需操作”或明确步骤
提醒更新：维护开始与结束时的短通知

维护语言要具体（改了什么、用户可能注意到什么），并避免过度承诺——客户更看重准确性而非乐观预期。

构建易于扫描的事故历史

先规划工作流程

使用规划模式在构建前定义负责人、节奏规则和工作流程。

打开规划器

事故历史不仅仅是日志——它能让客户与团队快速理解问题发生频率、重复类型，以及应对方式。

为什么写事故历史值得投入

透明的历史记录能建立信心，并提供趋势可视性：如果每隔几周出现“API 延迟”事件，那就是应该投入性能工作的信号。长期一致的报告还能减少支持工单，因为客户能自助获得答案。

决定保留时长：保存多久合适？

选择与客户期望和产品成熟度匹配的保留窗口。

90 天：适合早期 SaaS，页面保持轻量
6–12 个月：适合企业客户评估可靠性
更久：若时间线变得嘈杂，可把旧记录导出到独立归档页

无论选择什么，都要明确告知（例如 “事故历史保留 12 个月”）。

让每条记录一目了然

一致性便于扫视。使用可预测的命名格式，例如：

YYYY-MM-DD — 简短摘要（例如 “2025-10-14 — 邮件投递延迟”）

每个事件至少展示：

受影响组件
开始/结束时间（含时区）
影响等级（轻微/重大）
简短的解决说明

在可用时链接到更深层次内容

如果你发布事后复盘，从事件详情页链接到复盘（例如：“阅读复盘” 链接到 /blog/postmortems/2025-10-14-email-delays）。这样既保持时间线简洁，又为想了解细节的客户提供入口。

添加订阅与通知功能

状态页只有在客户会去查看时才有用。订阅能自动把更新推送给客户，无需他们刷新页面或联系支持确认。

提供客户已在用的渠道

通常至少提供几种选项：

Email（对许多客户是默认选项）
SMS（适合紧急且高信号的警报）
Slack 或 Microsoft Teams（适合企业客户与运维团队）
RSS/Atom（仍受技术用户和内部工具欢迎）

支持多渠道时保持设置流程一致，避免让客户感觉要分别注册多次。

明确选择加入与偏好设定

订阅应始终为 主动选择（opt-in）。在确认前清楚说明用户会收到什么——尤其是 SMS。

允许订阅者控制：

范围：全部事件 vs 仅选定组件（例如只订阅 “API”）
类型：仅事件、仅维护或两者
严重性（可选）：仅“重大中断”或“所有更新”

这些偏好能降低告警疲劳并保持通知可信度。如果暂时没有组件级订阅，先提供“所有更新”并在后续添加过滤功能。

防止通知在关键时刻失效

事件发生时消息量激增，第三方提供商可能限流。请检查：

送达性：邮箱 SPF/DKIM/DMARC；验证发送域；客户熟悉的发件地址
速率限制与限流：邮件/SMS 提供商的上限，Slack/Teams webhook 限制与重试策略
后备方案：若 Slack 发布失败，是否仍能发送邮件？若 SMS 延迟，是否在状态首页显示清晰横幅？

值得安排定期测试（例如每季度）以确保订阅仍按预期工作。

在显眼处放“订阅更新”入口

在状态首页上方（最好在首屏）放明显的订阅入口，让客户在下次事件前就能订阅。确保移动端也可见，并在支持门户或 /help center 等客户常找的地方加入链接。

选择搭建方式：托管工具 vs 自建

通过导出保持掌控

拥有完整代码库，并在准备好后将其适配到你的技术栈。

导出代码

如何构建状态页不是“能否构建”的问题，而是你想优化什么：上线速度、在事故期间的可用性和持续维护成本。

方案 1：使用托管状态页工具

托管工具通常是最快的路径，提供现成的状态页、订阅、事故时间线和常见监控系统集成。

选择托管工具时关注：

可靠性与独立性：状态页应在主应用不可用时仍能访问
API 与自动化：通过 API 或 webhook 创建事故、更新组件与发布进展
访问控制：谁能发布更新 vs 草稿；支持 SSO 为佳
品牌与自定义域：支持 logo/配色与 status.yourcompany.com 类域名
分析：订阅数、更新查看与邮件投递指标（有助提升沟通质量）
合规需求：审计日志与保留策略，适用于受监管环境

方案 2：自建（DIY）

若想完全控制设计、数据保留与事故历史展现，自建是个好选项。但代价是你要承担可用性与运维。

实用的 DIY 架构：

静态站点（快速且易于缓存）用于状态 UI 与事故历史页
API 支撑的数据源（或轻量 CMS）存储事故、组件与更新
积极的缓存 + CDN，使状态页在流量高峰时仍可用

若自托管，提前规划失败模式：主数据库不可用或部署管道出问题时怎么办？许多团队把状态页放在与主产品不同的基础设施或不同提供商上。

如果想要 DIY 的控制权但不从零开始重做，像 Koder.ai 这类平台可以通过聊天驱动的规格快速构建自定义状态站点（前端 UI 加小型事故 API），并支持导出源码、部署与快速迭代，很适合需要定制组件模型、事故历史 UX 或内部管理工作流的团队。

成本规划

托管工具通常有可预测的月度收费；DIY 则有工程时间、主机/CDN 成本与持续维护开销。对比选项时列出预期月度支出与内部维护工时，然后与预算做核对（见 /pricing）。

连接监控与事故流程

状态页只有在能快速反映现实时才有用。最简单的方法是把发现问题的系统（监控）与协调响应的系统（事故流程）连接起来，这样更新就能保持一致且及时。

状态更新应来自哪里

多数团队结合三类数据源：

监控告警（健康检查、合成测试、错误率、延迟、队列深度）——擅长检测，但不总是描述客户影响。
人工更新 由值班或支持团队发布，能补充上下文：谁受影响、是否有变通方案、发生了什么变化。
事故管理工具（PagerDuty、Opsgenie、Jira Service Management 等），提供时间线、角色与解决备注，状态页可以摘要这些信息。

实用规则：监控负责检测；事故流程负责协调；状态页负责沟通。

有助于沟通的自动化（但别过度承诺）

自动化在关键时刻能节省分钟数：

当高严重度监控触发时从告警创建事故，预填标题、受影响组件和初步严重度
从健康检查更新组件状态，提供客观信号（例如延迟阈值被触发时把 Web app 设为 Degraded Performance）
把状态变更同步到事故频道（Slack/Teams），让响应者看到客户所见

初次对外发布的信息要保守。“正在调查错误率升高”比 “确认宕机” 更安全，尤其在验证阶段。

不要在没有人工复核的情况下完全自动化

全自动发布有风险：

噪声告警可能产生误报事故
部分故障可能被某个监控误判为“宕机”但对客户影响很小
自动解决可能在用户仍受影响时关闭事故

把自动化用作草案与建议，但在对外用语（尤其是 Identified、Mitigated 与 Resolved 状态）前要求人工确认。

保留审计轨迹

把状态页当成面向客户的日志簿。确保你能回答：

谁更改了事故状态？
更改了什么（文本、组件、时间戳）？
何时更改？

审计轨迹有助事后复盘、减少交接时的混乱，并在客户询问时建立信任。

提高可用性：托管、DNS 与抗故障设计

状态页只有在产品不可用时仍能访问才有用。最常见的失败是把状态页建立在与应用相同的基础设施上——当应用挂掉时，状态页也会一起消失，客户就没有可信来源了。

与核心栈隔离

尽可能把状态页托管在与生产应用不同的提供商（或至少不同区域/账户）上。目标是降低冲击半径：应用平台的故障不应影响你的沟通渠道。

亦可考虑把 DNS 分离。如果主域的 DNS 与应用的边缘/CDN 在同一处管理，DNS 或证书问题可能同时挡住两者。许多团队把状态页放在独立子域（例如 status.yourcompany.com）并独立托管 DNS。

保持页面快速且有弹性

资源要精简：最少的 JavaScript、压缩的 CSS，且不要依赖应用 API 来渲染页面。在状态页前放 CDN，并对静态资源启用缓存，使其在故障高峰下仍能加载。

实用的安全网是回退静态模式：

预渲染最近一次已知状态与事故横幅
从对象存储或静态托管服务提供
在系统健康时动态更新，降级时仍能优雅显示最后状态

默认公开，编辑端安全

客户不应登录即可查看服务健康。把状态页设为公开，但把管理/编辑工具放在认证（若有 SSO 更佳）后面，并启用强访问控制与审计日志。

最后，测试失败场景：在演练环境暂时屏蔽你的应用源，确认状态页仍能解析、快速加载并在需要时可被更新。

运营流程：谁在何时更新

分享有奖励

分享你用 Koder.ai 构建的内容或推荐同事，以赚取平台积分。

赚取积分

状态页只有在真实事故中持续更新才会建立信任。这种一致性不会凭空出现——你需要明确责任、简单规则和可预测的节奏。

在故障前定义角色

把核心团队保持小而明确：

Incident Commander（IC）：负责指挥响应、决定优先级并确认稳定
Communications Lead（通信负责人）：发布面向客户的更新并确保语言通俗
值班工程师：调查、缓解并向 IC 提供确认事实

小团队中一人可兼任两职，但要事先决定。把角色交接与升级路径记录到值班手册（见 /docs/on-call）。

每次事件都可复用的简易更新清单

当告警升级为影响客户的事故时，遵循可重复的流程：

确认：快速发布“Investigating”更新（即便细节有限）
评估影响：确认哪些组件、地域或客户群受影响
发布更新：说明用户可能看到的现象、临时变通（如有）与下次更新时间
解决：确认服务恢复并说明正在监控的事项
回顾：添加简短总结并在可用时链接完整复盘

实用规则：首次更新在 10–15 分钟 内发布，然后在影响持续期间每 30–60 分钟 发布一次，即便信息是“无变化，仍在调查”。

解决后：复盘并改进

在 1–3 个工作日内进行轻量事后复盘：

时间线： 从检测到恢复的关键事件
根因（当前最佳结论）： 用通俗语言解释
行动项： 具体修复、负责人与截止日期

然后把最终总结更新到该事件条目，使事故历史不仅是“已解决”记录，而是有价值的参考。

上线清单与持续改进

状态页只有易查找、可信且持续更新才有用。在公布之前做一次“生产就绪”检查，然后设置轻量的改进节奏。

上线清单（实用版）

文案与结构

确认组件名称与客户认知一致（例如 “仪表盘” 而非内部服务名）。
添加一小段 “本页展示内容” 的简介，并放一个明确的支持链接（例如 /support）用于账号相关问题。
确保事故更新说明客户影响（例如 “支付失败”）并提供后续步骤（例如 “稍后 10 分钟重试”）。

品牌与信任

添加 logo、favicon 与简洁的状态配色（避免颜色差异过细）。
包含明确的时间戳格式与时区。

访问与权限

验证谁能发布事故、计划维护与编辑页面设置。
设置值班备份，避免更新被单人阻塞。

测试完整流程

运行一次测试事故（标注为测试并标明已解决）。
通过邮箱/SMS 订阅并确认通知到达，且包含正确链接。

宣布

在应用页脚、帮助中心与支持自动回复中加入状态页链接。
发送简短的客户公告，说明期待与如何订阅。

若自建状态站点，建议先在预演环境跑一遍上述上线清单。像 Koder.ai 这样的工具能加快迭代，生成网页 UI、管理界面与后端端点，从单一规格导出代码并快速部署。

衡量“更好”的指标

每月复查几个简单结果：

支持工单减少：比较上线前后的事件相关工单量
首次更新更快：测量从检测到首次公开更新的时间
订阅增长：按渠道与组件追踪订阅人数

从事件模式中学习

保持基础分类以便历史可执行：

按类别标记事件（性能、部分中断、第三方、维护、安全相关）
记录重复出现的组件与常见故障
用这些信息优先安排修复并指导事后复盘流程

SEO 基础（让客户能找到页面）

使用清晰的页面标题如 “Service Status” 与 “Incident History”。
保持标题结构（H2/H3），使历史页面易于扫描。
优先使用可被索引的事故历史页（除非有安全/隐私原因），并确保主状态页与每个事故之间的链接可被爬取。

随着时间的推移，小改进——更清晰的措辞、更快的更新、更好的分类——会累积成更少的中断、更少的工单与更高的客户信心。

常见问题

What is a SaaS status page, and why does it matter?

A SaaS 状态页是一个专门的页面，用于在一个规范位置显示 当前服务健康状况 和 事件更新。它可以减少“宕机了吗？”类的支持请求，在故障期间设定期望，并通过清晰且带时间戳的沟通建立信任。

What’s the difference between real-time status, incident history, and postmortems?

实时状态回答“我现在能使用产品吗？”，展示各个组件的当前状态。

事件历史回答“这种情况多久发生一次？”，通过过去事件与维护的时间线展示模式和频率。

事后复盘（postmortems）回答“为什么会发生，以及我们改变了什么？”，给出根因与预防措施（通常会从事件条目链接到详细复盘）。

How do we set clear goals for a status page before building it?

先写下 2–3 项可衡量的目标，例如：

在故障期间减少重复的支持工单
提高首次公开更新的速度（例如在 10–15 分钟内）
增加订阅人数（邮箱/SMS/Slack）

把这些目标记录下来并每月复查，避免状态页变得过时。

Who should own status page updates, and how do we avoid confusion during incidents?

指定一个明确负责人并设备份（通常是值班轮值）。常见分工：

事故指挥（Incident Commander）负责确认事实和优先级
通信负责人发布面向客户的更新

提前定义规则：谁可以发布、是否需要审批、最小更新频率（例如重大事件时每 30–60 分钟）。

How do we decide what components to show on the status page?

根据客户描述选择组件，而不是内部服务名。常见组件包括：

API
Web 应用 / 仪表盘
认证（登录/SSO）
计费
集成（以及关键子项，如 Webhooks 或 Salesforce）

如果不同地域可用性差异明显，可按区域拆分（例如 “API – US”、“API – EU”）。

What status levels should we use, and how do we keep them consistent?

使用小而一致的状态集，并为每一项保留内部判定标准：

Operational（正常）
Degraded Performance（性能下降）
Partial Outage（部分中断）
Major Outage（重大中断）

一致性比绝对精确更重要，让客户通过重复体验理解各级别含义。

What should every incident update include to be useful to customers?

有用的事件更新至少应包含：

开始时间（含时区）
受影响的组件/区域
面向客户的影响描述（通俗易懂）
当前状态（Investigating/Identified/Monitoring/Resolved）
一个你能兑现的下次更新时间

即便尚未知道根因，也应沟通范围、影响与下一步动作。

How often should we update the status page during an outage?

尽快发布初始“Investigating”更新（通常在10–15 分钟内）。随后：

重大事件：每 30–60 分钟 更新一次
次要事件：更新频率可低一些，但仍要承诺下次更新时间

如果无法按承诺更新，发布简短说明重设期望，切勿沉默。

Should we use a hosted status page tool or build our own?

托管工具（Hosted）通常更快上线且更可靠，常包含订阅、时间线与监控集成。

DIY 则提供更高的控制权，但需要为可靠性买单：

优先使用静态站点 + CDN
将托管（和最好是 DNS）与生产堆栈隔离
确保在核心系统降级时仍能发布更新

权衡时列出月度费用与内部维护工时，然后对比预算（见 /pricing）。

What notification channels should we offer, and how do we prevent alert fatigue?

提供客户常用的渠道（通常是邮箱与 SMS，另加 Slack/Teams 或 RSS）。保持订阅为 主动选择（opt-in），并说明：

将收到哪些内容（事件、维护或两者）
是否可按组件或严重性筛选（若无组件级过滤，可先提供“所有更新”）

定期测试送达率与速率限制，确保在事件高峰期通知仍可送达，减少告警疲劳。