Question 1

什么是数据库分片，它与复制有什么不同？

Accepted Answer

分片（水平分区）将单一逻辑数据集拆分到多台机器（“分片”）上，每个分片存储不同的行。

相比之下，复制会在多台节点上保留相同数据的副本——主要用于可用性和读扩展。

Question 2

为什么不直接把数据库升级为更大的机器而非分片？

Accepted Answer

纵向扩展是升级单台数据库服务器（更多 CPU/RAM/更快磁盘）。这在运维上更简单，但终会遇到物理瓶颈或高昂成本。

分片通过增加机器向外扩展容量，但会带来路由、重平衡和跨分片一致性等挑战。

Question 3

分片实际解决了哪些问题？

Accepted Answer

团队在单节点反复成为瓶颈时会采用分片，例如： - 磁盘/索引增长导致备份和维护变慢 - 写入吞吐受 CPU/WAL/锁竞争限制 - 读流量压垮主库/副本 - “嘈杂邻居”租户占用资源影响其他人 分片将数据和流量分散到多台节点，使容量可以通过添加节点扩展。

Question 4

分片数据库系统的核心组件有哪些？

Accepted Answer

典型的分片系统包含： - 分片（Shards）： 独立分区，拥有自己的存储和索引 - 路由器/协调器： 决定应查询哪个分片 - 元数据/配置服务： 分片映射、所有权、健康状态、成员信息 - 后台作业： 重平衡、迁移、备份/恢复流程 性能和正确性依赖这些组件保持一致性。

Question 5

什么是分片键，为什么它如此重要？

Accepted Answer

分片键是用来决定一行存放到哪个分片的字段（或字段组合）。它决定了请求是命中单个分片（快速）还是必须扇出到多个分片（慢）。

好的分片键通常具有高基数、均匀分布，并匹配你的常见访问模式（例如 tenant_id 或 user_id）。

Question 6

哪些情况下分片键是“糟糕”的，会造成什么问题？

Accepted Answer

常见的“坏”分片键包括： - 单调/基于时间的键 （最新数据聚集到同一分片，形成写热点） - 低基数字段 （可选值太少 → 负载不均） - 可变标识 （例如会变化的 email／用户名：变更键会迫使昂贵且有风险的数据迁移） 这些通常会导致热点或把日常查询变成扇出型查询。

Question 7

范围分片、哈希分片和目录分片有什么区别，什么时候用哪种？

Accepted Answer

三种常见策略： - 范围分片（Range）: 路由简单、对范围查询友好；但易形成热点和倾斜 - 哈希分片（Hash）: 数据分布更均匀；范围查询变得昂贵；添加节点需用到一致性哈希等技巧以减少重排 - 目录/查找分片（Directory）: 灵活，可以将特定租户放到专属分片，便于迁移；缺点是引入了对目录服务的依赖以保证路由正确 真实系统通常会混合策略，例如复合键或子分片以同时隔离租户并在租户内分散负载。

Question 8

为什么有些查询在分片后变慢（扇出/聚合）？

Accepted Answer

如果请求包含分片键，路由器能把查询发到 单个分片 （快速路径）。 如果不能精确路由，系统会把查询广播到多个或所有分片（扇出/聚合）。各分片本地执行后，路由器汇总结果——排序、去重、应用 LIMIT 并合并部分聚合。 这种扇出放大了尾延迟：9 个分片都很快，但只要 1 个慢就能阻塞整体请求。它也把一次用户请求变成 N 次分片请求，成倍放大负载。

Question 9

跨分片的写入和事务是如何处理的？

Accepted Answer

单分片写入可以使用该分片的本地事务，行为和单节点类似。

跨分片写入需要分布式协调（比如两阶段提交类协议），这会增加延迟并使故障变得模糊不清。

常见缓解：

将相关数据聚合到同一分片（数据局部化）
让操作被某个分片“拥有”，其他分片作为只读输入
通过反范式复制小块数据以避免跨分片更新
使用幂等操作 ID（幂等键）保证重试安全

Question 10

分片后如何保持数据一致性与复制？

Accepted Answer

在每个分片内通常有复制：一个主节点接受写入，若干副本复制这些更改。主节点故障时会提升副本。

副本复制带来的时序差异会导致读到落后数据（几毫秒到几秒）。

常见一致性模型（简述）：

强一致性： 写成功后随后的读能看到该写（通常需要读主或等待副本确认）
最终一致性： 系统会收敛，但临时读可能返回旧数据

在分片场景下，通常是在“分片内强一致，跨分片弱保证”。

全局约束（唯一性、外键、全局计数器）在跨分片时很难直接强制，需要中心索引、约束分片或应用层预留等方案。

Question 11

如何在不停机的情况下进行重平衡和重分片？

Accepted Answer

重平衡/重分片是在现实变化时维持可用性的关键操作：数据增长不均、分片键出现倾斜、添加或下线节点都可能触发它们。

在线迁移常见流程（复制 → 覆盖写/读 → 切换）:

复制： 在存活系统中把数据从源分片回填到目标分片
双写（有时双读）： 迁移期间将新写同时写入旧/新位置；读可按规则合并
切换： 更新分片映射，让路由器/客户端指向新位置
清理： 停止双写、移除旧数据、回收空间

要注意客户端缓存路由信息会破坏切换，元数据应有版本并频繁刷新。重平衡会带来临时性能下降，因此需要可观测性和回滚策略。

Question 12

什么是热点与倾斜，如何发现并缓解？

Accepted Answer

热点发生在少量键承载大部分流量时（名人账号、热门商品、某租户的批量作业或基于时间的键）。若这些键集中在一个分片，该分片就成瓶颈。

“倾斜”既包括数据倾斜（某分片数据量大）也包括流量倾斜（某分片请求 QPS 高），两者不一定一致。

快速检测方法：按分片监控 p95 延迟、QPS、存储使用量。如果某分片的延迟随 QPS 升高而上升，很可能出现热点。

缓解手段：

选择能均匀分散流量的分片键
对热点键做分桶/加盐（bucketing/salting）
对读热点做缓存

Question 13

分片系统有哪些常见故障模式，排查时有什么不同？

Accepted Answer

分片增加了更多失败路径和更多排查点。一些常见故障模式： - 某个分片不可用（崩溃、磁盘满、长 GC 暂停），导致部分用户无法使用 - 路由器错误路由（配置变更或部署出问题），导致读到空结果 - 元数据陈旧/不一致（分片映射在迁移期间不同组件上不一致） - 局部网络问题导致路由器与部分分片通信超时，重试又放大负载 排查方式改变：需要跨分片追踪请求，使用关联 ID 并在路由器到每个分片间传播。度量要按分片细分（延迟、队列长度、错误率），否则热分片会在平均值中被掩盖。 备份/恢复也更复杂：常常需要先恢复元数据，再按正确顺序恢复每个分片，并验证分片边界与路由规则一致。演练 DR 策略很重要。

Question 14

何时应避免分片？有哪些实际替代方案和决策要点？

Accepted Answer

在保留单逻辑数据库之前，应先尝试能大量缓解问题的替代方案： - 更好的索引与查询优化（先修复慢路径） - 缓存（应用层缓存、CDN、内存缓存） - 读副本（将读流量卸到副本，接受副本延迟） - 单节点的表分区（许多数据库支持） - 归档旧数据 去风险的做法是先在安全沙箱里原型化分片相关的管道（路由、幂等、迁移、可观测性），例如用 Koder.ai 快速搭建一个管理界面和后端，演练 cutover 行为并导出代码与 runbook。 分片适合在数据或写入吞吐确实超过单节点且绝大多数关键查询可用分片键路由（最小化跨分片 Join/事务）时采用；若产品需要大量随意查询、频繁跨实体事务或团队无法承担运维负担，则不宜分片。 简单决策清单： - 瓶颈是 CPU、I/O、内存还是锁竞争？有没有无需分片即可解决的办法？ - 90%+ 的关键查询是否能靠分片键路由？ - 团队是否有能力维护分片映射、值守 runbook 和跨分片事务流程？ - SLO 是否能接受部分降级（某分片不可用）和更长的尾延迟？ 即便暂不分片，也要为未来设计迁移路径：选不妨碍未来分片键的标识符、避免硬编码单节点假设、并预演如何以最小停机做迁移。

什么是分片（以及什么不是分片）

一个逻辑表，多处物理存放

不是复制，也不是“买更大的机器”

分片并不会魔法般解决一切

团队为什么会选择分片：它要解决的问题

促使团队走向分片的痛点

目标：横向扩展、隔离并控制成本

提前的警告信号

为什么分片通常是最后一步

核心组成：分片、路由器与元数据

分片：独立的分区（带独立索引）

路由器/协调器：请求如何到达正确分片

元数据/配置服务：分片映射、所有权与健康

后台作业：均衡、迁移与备份

选择分片键：第一个重大权衡

好的分片键应具备

坏的分片键及其后果

真正的权衡：查询便利性 vs 分布质量

常见分片策略（范围、哈希、目录）

范围分片（Range）

哈希分片（Hash）

目录/查找分片（Directory/Lookup）

复合键与子分片

查询如何工作：路由与扇出

单分片查询：快速路径

扇出读取：并发放大与尾延迟

跨分片连接与聚合

索引限制：本地索引 vs 全局索引

写入与跨分片事务

单分片写入：理想情况

多分片写入：复杂性激增的地方

避免跨分片写入的模式

幂等性与重试安全

一致性与复制：保持数据正确性

每个分片内部的复制

简明一致性模型

数据分散时的“单一真相”观念

全局约束：唯一性、外键、计数器

无停机重平衡与重分片

为什么困难

在线迁移模式（复制 → 重叠 → 切换）

分片映射与客户端行为

需要规划的运维风险

故障模式与在分片系统中的调试

常见故障模式

排查方式的变化

数据正确性事故

备份、恢复与灾备

何时不分片：实际替代方案与决策清单

常见的替代办法（通常能争取大量余量）

在不做大投入前做原型

何时分片合适（何时不合适）

速查决策清单

为增长而规划，而不仅是画图

常见问题