2025年8月28日·1 分钟

Andy Jassy 的 AWS 策略：把繁重工作变成价值

Andy Jassy 如何以“非差异化繁重工作”为核心构建 AWS：将重复的运维转化为可规模化的服务，从而打造可复制的软件业务与平台。

什么是“非差异化繁重工作”

“非差异化繁重工作”是一个简单但锋利的概念：它指的是运行软件必须完成的工作，但这些工作并不会让客户因为你而选择你。

它包含诸如配置服务器、打补丁、轮换凭证、搭建监控、处理故障切换、扩容，以及追踪由底层配套造成的生产事故等任务。这些工作真实存在、重要且常常紧急——但它们很少为用户创造独特体验。

通俗定义

如果一项工作是：

必要的（如果想要可靠性就得做）
可重复的（每个团队都会以类似方式做）
不是竞争优势（客户不会因为你亲自去做而多付钱）

……那么它就是非差异化繁重工作。

为什么这个短语能打动开发者和高管

对开发者来说，它带来解脱：允许他们不再把运维繁琐当作荣誉勋章。如果每个人都在重复发明相同的部署脚本和值班手册，那不是工匠精神——那是浪费注意力。

对高管来说，它意味着杠杆：这类工作成本高、随人头扩展差、并带来风险。减少它可以同时提升利润率、可靠性和速度。

这一思想指向的商业模式

AWS 推广了一套可复用的操作手册：

消除繁琐，把脆弱的、按团队分散的运维变成一种服务。
标准化常见部分，使质量变得一致。
通过自动化和共享基础设施规模化。
把节省下来的资源再投入到更好的产品和更快的交付上。

这不仅仅关乎云基础设施——它是将“平台思维”应用于任何软件业务。

本文可为你带来什么

我们会把这个概念转化为你自己产品和团队中可识别的实际信号，展示托管服务与内部平台如何将运维包装成产品，并说明真实的权衡（控制、成本与锁定）。你将获得一个框架来决定何时自建、何时购买——以及如何把非差异化工作转化为复利式的商业价值。

Andy Jassy 的核心洞见：客户想要构建，而不是看护

Andy Jassy 是最早将亚马逊的内部基础设施能力转变为 AWS 的领导者之一。他的工作不仅仅是“把服务器放到互联网上出售”，而是发现一个可重复出现的客户问题，并将可复制的解决方案打包，能够在数以千计的团队间规模化。

真正的痛点：运维夺走了产品注意力

大多数软件团队并不期待去修操作系统补丁、配置容量、轮换凭证或从磁盘故障中恢复。他们做这些事是因为必须——否则应用无法运行。

Jassy 的核心洞见是，这些工作很多是必要但不具差异性的。如果你运行一个电商网站、一个金融科技应用或一个内部 HR 工具，客户看重的是你的功能：更快的结账、更好的风控、更流畅的入职体验。他们很少因为你维护了一支完美调校的服务器队伍而额外奖励你。

因此，基础设施的“看护”变成了一种税：

它占用了本可用于交付改进的时间。
它迫使团队招募他们并不想专精的技能。
它增加了风险，因为每家公司都必须重新学习相同的运维教训。

为什么时机很关键

这一想法在需求同时上升的时刻出现并生效：

互联网规模使流量不可预测；为峰值预留成本高昂。
初创公司需要快速前进而无法组建数据中心团队。
企业 IT 面临在保证安全合规的同时更快交付的压力。

原则并不是“把一切迁到云上”。更简单的是：移除重复的运营负担，让客户有更多精力专注于让他们独特的部分。 这一次，把时间和注意力还给构建，成为平台业务的基础。

在你自己的产品和团队中识别繁重工作

第一步是将基本门槛工作（运行可信产品所需的）与差异化工作（客户选择你的理由）区分开。

门槛工作并非“不重要”。它们通常对可靠性和信任至关重要。但一旦竞争对手都能达到相同基线，它们很少单独创造偏好。

常见的“繁重工作”信号

如果你不确定什么应划入非差异化范畴，寻找那些：

必要、重复且无可协商
坏了很昂贵，但正常工作时大多无感
在公司之间通常用类似方式解决

在软件团队中，这通常包括：

管理服务器或集群
安全补丁与依赖更新
备份与灾难恢复演练
自动扩缩与容量规划
基础监控、日志与告警
面向可预见故障模式的值班轮换

这些都不是“坏事”。关键问题是：亲自做这些，是否属于你产品的价值所在，还是仅仅是入场费。

最简单的测试：客户会为此付费吗？

一个实用规则是：

“客户会为这项工作单独付费吗？还是只会期待它被包含在内？”

如果答案是“只有在缺失时他们会生气”，那么你很可能面对的是非差异化繁重工作。

第二个测试：如果你明天通过采用托管服务移除这项工作，你最好的客户是否仍会因为剩下的东西而重视你？ 如果答案是肯定，你就找到了可以外包、自动化或产品化的候选项。

“非差异化”会随市场而变

在一家公司里被视为非差异化的东西，可能在另一家公司是核心知识产权。数据库厂商可能以备份和复制为差异化。金融科技产品很可能不应该把这些当作差异化点。你的目标不是复制别人的边界，而是基于客户独特回报来划定自己的边界。

当你用这种视角映射产品路线图和运维工作时，就会看到时间、人才与注意力被消耗在维持现状的地方。

为何这一理念能创造巨大商业价值

“非差异化繁重工作”不仅是提升生产力的技巧。它是一种商业模式：把许多公司必须解决但无一想以此为差异化的共同问题，转化为人们愿意付费的服务。

商品化问题是平台发展的燃料

最佳候选是那些既必要又缺乏战略独特性的：配置服务器、打补丁数据库、轮换凭证、扩展队列、管理备份。每个团队都需要它们，几乎每个团队都不想从头构建，而且“正确答案”在公司间大体相同。

这种组合创造了可预测的市场：高需求、重复性要求，以及清晰的成功指标（可用性、延迟、合规、恢复时间）。平台可以标准化解决方案并持续改进。

规模经济：把固定成本摊到客户身上

卓越的运维有很大的固定成本——SRE、安全专家、值班、审计、事故工具和 24/7 监控。当每家公司独自构建时，这些成本会被成千上万次地重复。

平台把这些固定投入在众多客户间分摊。随着采用率上升，每个客户的边际成本下降，而提供方也能 justify 更深的专业化，从而提升质量。

可靠性闭环：专门化推动可用性与安全复利增长

当服务团队为多个客户运行相同组件时，他们会看到更多边缘案例、更快识别模式，并构建更好的自动化。事故成为输入：每次故障都会强化系统、完善演练手册并收紧防护栏。

安全也同理。专职团队可以投入威胁建模、持续打补丁与合规控制，这些对单一产品团队来说往往难以维持。

定价权：基于使用 + 信任 +（谨慎的）切换成本

平台常通过基于使用的定价获得定价权：客户按消耗价值付费，可以小规模起步。随着时间推移，可靠性与安全成为差异——把服务变为“默认安全”。

切换成本随着集成加深而上升，但最健康的情况是靠价值赢得，而不是绑住客户：更好的性能、更完善的工具、更清晰的账单与更少的事故。这些是让客户在有替代方案时仍然续费的原因。关于如何在包装与货币化上呈现这一点，请参见 /pricing。

AWS 的模式：从原语到托管服务

AWS 的成功不是因为提供了“互联网服务器”。它是通过不断把一个艰难的运维问题切分成更简单的构建块，然后再把这些构建块重组为由 AWS 负责 day-2（运维后续工作）的服务来获胜。

可复用的阶梯：原始构件 → 服务 → 托管服务 → 平台

把它看作一条成熟度阶梯：

原语（Primitive）： 可以自己组装的原材料（虚拟机、磁盘、网络）
服务（Service）： 围绕某项能力更有意见的 API（对象存储、负载均衡）
托管服务（Managed service）： AWS 负责扩容、打补丁、备份与故障恢复（数据库、队列）
平台（Platform）： 一个服务组合可以干净地互相组合，拥有统一的身份、计费、监控与策略

每一步都把决策、维护和“凌晨三点它会怎样故障？”的计划从客户身上移开。

AWS 示例（概念映射）

AWS 在核心类别上反复应用同样的模式：

计算（Compute）： 从虚拟机（EC2）出发，推进到更高层的计算方式，在那里部署和扩缩成为默认（例如托管容器/无服务器风格）。客户关注代码和容量意图，而不是主机维护。
存储（Storage）： 从磁盘与文件系统到对象存储（S3）。抽象从“管理卷”变成“put/get 对象”，而耐久性、复制与扩展成为 AWS 的问题。
数据库（Databases）： 从“在 VM 上安装数据库”到托管数据库（RDS、DynamoDB）。备份、打补丁、只读副本与故障切换不再是自定义运行手册，而是配置项。
消息（Messaging）： 从自建队列与工作线程到托管消息（SQS/SNS）。投递语义、重试与吞吐调优被标准化，团队可以构建工作流而不是基础设施。

抽象如何降低认知负担

托管服务通过两种方式降低认知负担：

需要思考的部件变少。 你的架构图从“实例 + 脚本 + cron + 告警 + 备份”缩减为“服务 + 设置”。
你必须负责的故障模式变少。 你仍要为弹性设计，但不再负责打补丁、集群管理与常规恢复的具体机制。

结果是更快的上手、更少的定制运行手册，以及团队间更一致的运维。

可重用的清单（可在你自己产品中复用）

客户在构建什么是必要但不具差异性的？
你能否把他们重复的运行手册变成单一、稳定的 API？
哪些任务可以设为默认（备份、扩缩、升级），而不是可选？
“锋利的边缘”是否被移到合理的限制和防护栏之后？
多个团队能否无需专家知识就复用它？
它能否与系统其他部分组合（身份、监控、计费、策略）？

把运维包装成产品

免去后端样板代码

快速生成 Go + PostgreSQL 后端，把精力放在业务逻辑上。

构建后端

把 AWS 当作有用的阅读方式是：它不仅卖技术，还卖运维。产品不仅仅是一个 API 端点——它是运行该能力所需的一切，安全、可预测且能规模化。

API、自助服务与全面托管的差别

一个 API 给你构建块。你可以配置资源，但仍要设计防护栏、监控故障、处理升级，并回答“谁改了什么？”

自助服务 添加了无需提交工单即可使用的层：控制台、模板、可行的默认值和自动化配置。客户仍然负责大部分 day-2 工作，但手动性降低。

全面托管 是指提供方承担持续责任：打补丁、扩缩、备份、故障切换和许多类别的事故响应。客户聚焦于配置他们想要的“是什么”，而不是“如何保持运行”。

客户离不开的“无聊”功能

人们日常依赖的功能往往并不耀眼：

IAM 与权限： 谁能做什么，以及如何审计访问
计费与成本可视化： 预算、发票、标签与告警
配额与速率限制： 防止事故的保护措施——并设定清晰预期

这些不是边缘任务，而是客户为之买单的承诺的一部分。

把运维当作一等功能

让托管服务感觉“真实”的，是围绕它的运维包：清晰文档、可预期的支持渠道和明确的服务限制。好的文档能降低支持负担，但更重要的是降低客户焦虑。公布的限制和配额流程把意外变成已知约束。

当你把运维包装成产品时，你不仅在交付功能——你在交付信心。

让平台奏效的组织设计

平台的成败在更大程度上取决于组织设计而非架构图。如果团队没有明确的客户、激励与反馈闭环，“平台”便会变成意见的待办。

把内部团队当第一批客户（内吃）

让内部产品团队成为首要且最响亮的客户，是保持平台真实的最快方式。这意味着：

平台团队通过与外部用户相同的接口和文档向内部团队交付。
采用必须靠有用性赢得（而非政策强制）。
支持工单、事故复盘与路线图决策把内部团队当作真实客户对待，并有明确 SLA。

内吃会逼出清晰：如果你自己的团队都避开平台，外部用户也会。

集中 vs 联邦化的平台模型

两种组织模式经常出现：

集中式平台团队： 一个团队负责核心构建块（CI/CD、身份、可观测性、运行时、数据原语）。这有利于一致性和规模经济，但有成为瓶颈的风险。

联邦化模型： 一个小的中心团队设定标准与共享原语，而领域团队拥有“平台切片”（例如数据平台、ML 平台）。这有助于速度与领域适配，但需强治理以避免碎片化。

重要指标（与平台陷阱）

有用的指标关注结果而非活动：

到达生产的交付周期（团队多快能交付）
平台服务的可用性与事故率
每个工作负载的成本（单位经济，而非总支出）

常见陷阱包括激励错位（把平台以功能数量评判而非被采纳率）、过度设计（为假想规模而建），以及以强制而非自愿使用来衡量成功。

平台增长背后的复利飞轮

放心上线

准备分享时，将应用部署到自定义域名。

添加域名

平台的增长不同于一次性产品。它们的优势不仅仅是“更多功能”——而是一个反馈循环：每个新客户都让平台更容易运行、更容易改进、也更难被忽视。

用通俗语言描述飞轮

更多客户 → 更多真实使用数据 → 更清楚哪些会崩溃、哪些慢、哪些让人困惑 → 更好的默认与自动化 → 为所有人提供更好的服务 → 吸引更多客户。

AWS 因为托管服务把运维繁重转为共享、可复用的能力而受益。当相同问题在成千上万团队中出现（监控、打补丁、扩缩、备份），提供者可以修复一次并将改进分发给所有客户。

标准化如何加速创新

标准化常被描述为“减少灵活性”，但对平台而言它是速度倍增器。当基础设施和运维一致时——一套 API、一种身份方法、一种观察系统的方式——构建者不再重复发明基础。

被收回的时间会转向更高级的创新：更好的产品体验、更快的实验以及在平台之上（而非旁边）构建的新能力。标准化也降低了团队的认知负担：更少决策、更少故障模式和更快上手。

长期赌注：在规模上复利增长

当小改进应用到数百万次请求和数千个客户时，它们会复利增长。2% 的事故率降低、更好的自动扩缩算法或更清晰的默认配置不会只帮助一家公司——它会提升平台的基线。

移除繁重工作如何促成更快交付

移除非差异化繁重工作不仅仅节省小时数——它会改变团队行为。当“维持运转”的工作缩小，路线图不再被维护性杂事主导（打补丁、轮换密钥、看护队列），而开始反映产品赌注：新功能、更好 UX、更多实验。

第二序效应的复利作用

更少的繁琐会产生连锁反应：

更易上手。 新工程师可以在几天内交付，而不是学习复杂的内部运行手册。
事故减少且更简单。 更少的定制系统意味着更少奇怪的故障模式和更少凌晨三点的升级。
发布变成常态。 因为部署、回滚与监控被标准化，团队可以更频繁地发布。

速度 vs 混乱：交付 vs 抢修

真正的速度是稳定节奏的小而可预测的发布。混乱是没有进展的动作：紧急修复、临时基础设施工作和“快速”改动带来的更多技术债务。

移除繁重工作能减少混乱，因为它消除了反复打断计划交付的整个类别工作。一个曾经 40% 时间用于应对的团队，可以把这些能力重定向到功能开发——并保持在那里。

实用的 SaaS 示例

认证： 与其维护密码存储、多因素认证流程、会话处理和合规审计，不如使用托管身份提供商。结果：更少安全事故、更快的 SSO 推广和更少时间花在更新认证库上。

支付： 把支付处理、税务/增值税处理与反欺诈交给专业供应商。结果：更快进入新区域、更少退单意外以及更少工程时间被边缘案例占用。

可观测性： 标准化使用托管的日志/指标/链路追踪栈，而不是自建仪表盘。结果：更快调试、事故期间更清晰的责任划分以及更高的发布信心。

模式很简单：当运维成为你消费的产品时，工程时间就会回到那些客户真正付费的建设上。

权衡：锁定、控制与成本

移除非差异化繁重工作不是免费的午餐。类 AWS 的托管服务常常用日常工作量换取更紧的耦合、更少的可调节项和可能让人吃惊的账单。

三大权衡

供应商锁定。 你越依赖专有 API（队列、IAM 策略、工作流引擎），后期迁移就越困难。锁定不总是坏事——它可能是速度的代价——但你应当有意识地选择它。

控制丧失。 托管服务会降低你调优性能、选择确切版本或深入调试基础设施问题的能力。当发生故障时，你可能得等供应商的时间表。

成本惊喜。 消耗型定价奖励高效使用，但会惩罚增长、聊天式架构和“设置后忘记”的默认。团队常常在交付后才发现成本问题。

何时自建是理性的

当你有 独特需求（特定延迟、特殊数据模型）、极大规模以至单位经济学发生倒置，或 合规/数据驻留 约束使托管服务难以满足时，自建（或自托管）可能是正确选择。

保持快速又不被困的护栏

设计 服务边界：在自己的接口后封装供应商调用，以便以后替换实现。

保持一个 可移植性计划：记录最难迁移的部分，并保留一个“最低可行退出”路径（即便它会慢）。

及早加入 成本监控：预算、告警、标签与定期审查主要开销项。

可复制的决策矩阵

问题	倾向托管	倾向自建/自我托管
这对客户是差异化吗？	否	是
我们能容忍供应商的限制/意见化行为吗？	是	否
我们需要特殊合规/控制吗？	否	是
市场速度是首要目标吗？	是	否
我们的使用模式下成本可预测吗？	是	否

在任何软件业务中应用该模式的实用框架

让构建获得回报

通过与 Koder.ai 分享你的作品或推荐同事来赚取积分。

获取积分

你不需要运行超大规模云才能使用“移除非差异化繁重工作”的手册。任何软件团队——SaaS、内部平台、数据产品，甚至重支持的工具——都有重复性工作，它昂贵、易出错且并非真正的差异化。

从繁琐到产品的逐步方法

列出重复性繁琐： 写下为保持系统运行而重复发生的任务——手动部署、工单分拣、数据回填、访问请求、事故交接、脆弱脚本、“部落知识”检查清单。
量化： 对每项估算频率、耗时与故障成本。一个简单分数就行：小时/周 + 错误的严重性 + 受影响团队数。这能把模糊痛点变成排序明确的待办。
标准化工作流： 在自动化前，定义“最佳单一方式”。创建模板、黄金路径或一组最小支持选项。减少变异往往是最大的收益。
自动化并打包： 构建自助工具（API、UI、运行手册即代码），并把它当成产品来对待：明确所有权、版本控制、文档与支持模式。

这一方法的一个现代变体是“vibe-coding”平台，把重复的脚手架与 day-1 设置变成引导式工作流。例如 Koder.ai 允许团队通过聊天界面创建 Web、后端和移动应用（Web 用 React，后端用 Go + PostgreSQL，移动用 Flutter），然后导出源码或部署/托管——当你的瓶颈是从想法到可靠基线而非每次重复相同项目搭建时，这很有用。

从一个工作流开始（并验证闭环）

选择一个高频且成功可度量的工作流——部署、数据管道或支持工具都是好候选。争取快速胜利：更少步骤、更少页面、更少审批、更快恢复。

序列：先做什么

先可靠性： 让流程一致且安全。
再功能： 添加用户实际请求的能力。
最后优化： 在使用稳定后再调优成本与性能。

关键要点与下一步

从 Andy Jassy 的 AWS 策略中可复用的教训很简单：通过让常见工作消失来赢。无论是客户还是内部团队，当他们不再花时间在设置、打补丁、扩缩与事故看护上时，他们就能把时间用于真正区分他们的事——功能、体验与新尝试。

要牢记的要点

“非差异化繁重工作”不只是“难做的工作”。它是许多团队重复的、必须为可靠运行完成的工作，但市场上很少因此给予独特回报的工作。把这类工作变成产品——尤其是托管服务——能创造双重价值：降低运行软件的成本并提高交付速度。

本季度挑一件要移除的事

别从宏大的平台重写开始。先从一个在工单、值班页面或冲刺溢出中反复出现的痛点开始。好候选包括：

各团队各不相同的环境搭建
手动发布与回滚
针对相同模式重复的安全审查
每个人都要重新摸索的扩缩/监控默认值

选一项，用白话定义“完成”（例如：“一个新服务能在 15 分钟内安全部署”），交付能消除重复工作的最小版本。

下一步：一个简单的平台待办

本周执行三件事：审计重复运维导致时间损失的地方，按频率 × 痛点 × 风险优先级排序，并建立一个简单的平台待办，列出 3–5 个你可以增量交付的条目。