多租户数据库对安全性与性能的影响

Q: 为什么 SaaS 团队会选择多租户？

多租户通常被选为： - 降低每位客户的成本 （共享计算/存储/许可和运维时间） - 在大规模下更简单的运维 （更少的数据库需要打补丁、升级和监控） - 更快的上手 （不必为每个客户预配完整的数据库堆栈） 权衡是：你必须有意识地构建隔离和性能的防护措施。

Q: 主要有哪些多租户数据库模型？

常见模型（从更强隔离到更共享）包括： - 按租户分数据库（database-per-tenant） ：最强的隔离边界，但运维负担更重。\n- 按租户分 schema（schema-per-tenant） ：较好的分离，迁移仍然重复。\n- 按租户分表（table-per-tenant） ：短期可行，但通常难以扩展。\n- 共享表（通过 区分） ：运维最简单，但最难保障安全/调优。 你的选择决定了隔离边界和日常运维负担。

Q: 多租户如何改变安全威胁模型？

最大的风险从外部入侵转向 跨租户访问 ，通常由日常错误引起，而不仅仅是外部攻击。租户上下文（例如 ）必须被视为 授权要求 ，而不是可选的过滤条件。你还需要考虑生产环境的并发、缓存、重试和后台任务等现实情况。

Q: 通常会导致跨租户数据泄露的原因有哪些？

最常见的原因包括： - 某条代码路径中缺少租户过滤 - 在联表时，一个表有作用域但被联接的表没有 - 缓存以 URL/用户 为键却没有包含 租户 信息 - 预编译语句绑定了错误的 - 后台任务丢失了租户上下文 设计应使未加作用域的查询难以出现（或根本不能运行）。

Q: 防止跨租户访问的最重要隔离控制有哪些？

实用的隔离控制基线包括： - 在租户拥有的表上使用规范的 字段 - 包含 的复合唯一约束和外键 - 默认拒绝（deny-by-default） 的权限与最小权限角色 - 单独且可审计的管理访问（避免在应用代码中使用超管连接） - 尝试跨租户读写的负面测试 目标是让错误“安全失败”而不是导致数据泄露。

Q: 在共享存储中，加密与密钥管理如何工作？

加密能帮助减小某些风险，但并不能替代租户隔离： - 传输中（TLS） ：保护服务间传输。\n- 静态化（at-rest） ：保护快照/磁盘/备份，但无法阻止错误查询返回其他租户的行。\n- 按租户密钥 能降低冲击范围，但增加运维复杂度。 还要把租户身份视为安全关键：不要信任客户端传来的原始租户 ID，应将其绑定到签名令牌并在服务器端验证。

Q: 什么是噪声邻居问题，应该如何缓解？

噪声邻居是指某个租户占用了过多共享资源（CPU、内存、I/O、连接），导致其他租户延迟增加。实用的缓解方法包括： - 硬性连接池限制（与尽可能按租户配额）\n- 对昂贵端点的速率限制与工作量整形\n- 查询超时、最大返回行/字节与熔断器\n- 读副本与按租户缓存键 目标是实现公平而不是单纯追求吞吐。

Q: 什么时候应该放弃完全共享的多租户模式，存在哪些混合选项？

当出现下列情况之一持续发生时，应考虑提高隔离程度： - 少数租户占用了不成比例的流量、存储或后台作业导致争用\n- 合规或合同要求需要专用环境、数据驻留或单独密钥\n- 某些租户的工作负载（大导入、报告高峰、自定义集成）反复造成不可控的争用 常见的混合策略包括把头部客户分出来到独立数据库/集群、按方案分层（共享 vs 专属）、或将分析/报表类工作负载迁移到独立存储。

登录开始使用

多租户数据库是什么意思

多租户数据库 是一种部署方式，多个客户（租户）共享同一数据库系统——同一数据库服务器、相同底层存储，并且经常使用相同的 schema——应用负责确保每个租户只能访问自己的数据。

把它想象成一栋公寓楼：大家共享建筑结构和公共设施，但每个租户有自己的上锁单元。

多租户 vs 单租户（高层次）

在单租户方案中，每个客户获得专用的数据库资源——例如他们自己的数据库实例或服务器。隔离更容易理解，但随着客户数量增长，通常更昂贵且运维负担更重。

采用多租户时，租户共享基础设施，效率更高——但这也意味着你的设计必须有意识地强制实施边界。

SaaS 团队为何选择多租户

SaaS 公司通常出于实用考虑选择多租户：

降低每位客户的成本（共享计算、存储、许可与运维时间）
在大规模下更简单的运维，比如更少的数据库需要打补丁、升级与监控
更快的客户上手（无需为新客户预配完整的数据库栈）

关键预期：设计决定结果

多租户本身并不会自动“安全”或“快速”。结果取决于你的选择，例如如何分离租户（schema、行或数据库）、如何强制访问控制、如何管理加密密钥，以及如何防止一个租户的工作负载拖慢其他租户。

本指南后续将聚焦这些设计选择——因为在多租户系统中，安全与性能是你构建出来的特性，而非默认继承的属性。

常见的多租户数据库模型

多租户不是单一设计选择——而是一系列共享程度的权衡。你选择的模型定义了隔离边界（哪些东西绝不可共享），这会直接影响数据库安全、性能隔离和日常运维。

按租户分数据库（Database-per-tenant）

每个租户有自己的数据库（通常在同一服务器或集群上）。

隔离边界： 整个数据库。这通常是最清晰的租户隔离方式，因为跨租户访问通常需要跨越数据库边界。

运维权衡： 在规模化时更重。升级和 schema 迁移可能需要运行成千上万次，连接池也会变得复杂。备份/恢复在租户层面比较直接，但存储和管理开销会快速增长。

安全与调优： 通常最容易对每个客户进行独立安全与性能调优，适合有不同合规需求的租户。

按租户分 schema（Schema-per-tenant）

租户共享同一数据库，但每个租户有自己的 schema。

隔离边界： schema。它是有意义的分离，但依赖于正确的权限与工具链。

运维权衡： 升级和迁移仍然重复，但比每租户数据库轻一些。备份更麻烦：很多工具把数据库作为备份单元，因此租户级别的操作可能需要按 schema 导出。

安全与调优： 比共享表更容易强制隔离，但必须对权限保持纪律性，确保查询不会引用错误的 schema。

按租户分表（Table-per-tenant）

所有租户共享数据库和 schema，但每个租户有独立的表（例如 orders_tenant123）。

隔离边界： 表集合。对于少量租户可行，但扩展性差：元数据膨胀、迁移脚本变得难以管理，查询规划也会退化。

安全与调优： 权限可以很精细，但运维复杂度高，新增表或功能时容易出错。

共享表（共享 schema）

所有租户共享相同的表，通过 tenant_id 列区分。

隔离边界： 你的查询与访问控制层（常用行级安全）。此模型在运维上高效——只需一个 schema 迁移、一个索引策略——但它对数据库安全和性能隔离要求最高。

安全与调优： 最难做到位，因为每个查询都必须意识到租户，且除非添加资源限流与谨慎索引，否则更容易出现噪声邻居问题。

一个实用规则：共享越多，升级越简单——但你就越需要在租户隔离控制和性能隔离上保持严格。

多租户如何改变安全模型

多租户不仅仅意味着“多个客户在一个数据库里”。它改变了你的威胁模型：最大的风险从外部入侵转为有权限的用户意外（或故意）看到其他租户数据。

认证 vs 授权：租户上下文是一个授权决策

认证回答“你是谁？”，授权回答“你被允许访问什么？”。在多租户数据库中，租户上下文（tenant_id、account_id、org_id）必须在授权时被强制执行——不能被当作可选过滤器。

常见错误是认为一旦用户通过认证并“知道”他们的租户，应用自然会保持查询分离。实际上，分离必须在一致的控制点显式强制（例如数据库策略或强制的查询层）。

核心规则：每次读写都必须限定到单一租户

最简单也最重要的规则是：每个读写操作都必须精确地限定到一个租户。

这适用于：

所有 SELECT（包括列表页和导出）
UPDATE/DELETE 操作
后台任务和 ETL 脚本
管理工具和支持工作流

如果租户限定是可选的，最终总会被省略。

导致跨租户访问的常见失败模式

跨租户泄露常常来自小而常见的错误：

某个端点或代码路径缺少租户过滤
“坏”的联表：一个表有作用域但被联接的表没加作用域
缓存只按用户或 URL 键控，而不是按租户键
重用的预编译语句意外绑定了错误的 tenant_id

为什么“测试通过”在生产仍可能泄露

测试通常在小数据集和干净假设下运行。生产环境增加了并发、重试、缓存、混合租户数据和真实边界情况。

一个功能可能在测试中通过，因为测试数据库里只有一个租户，或者夹具里没有租户 ID 重叠。最安全的设计是让“写一个未加作用域的查询”变得困难或不可能，而不是依赖审核者每次都能发现问题。

防止跨租户数据访问的隔离控制

多租户数据库的核心安全风险很简单：忘记按租户过滤的查询可能暴露别人的数据。强隔离控制假设错误会发生，并让这些错误变得无害。

租户标识与严格的作用域模式

每条租户拥有的记录都应该带有租户标识（例如 tenant_id），你的访问层应始终以它来限定读写。

一个实用模式是“先确定租户上下文”：应用从子域、组织 ID 或令牌声明中解析租户，把它存入请求上下文，且数据访问代码在没有上下文时拒绝执行。

有助的护栏包括：

在主键/唯一键中要求包含 tenant_id（在适当时防止不同租户间的碰撞）。
添加包含 tenant_id 的外键，以避免意外创建跨租户关系。

行级安全（RLS）与基于策略的访问

在支持的数据库（尤其是 PostgreSQL）中，行级安全可以把租户检查移到数据库。策略可以限制每次 SELECT/UPDATE/DELETE，仅允许匹配当前租户的行可见。

这可以减少对“每个开发者记得写 WHERE 子句”的依赖，也能在某些注入或 ORM 误用场景下提供保护。把 RLS 作为第二道锁，而不是唯一的一道锁。

使用 schema/数据库分离作为隔离工具

如果租户敏感度高或合规要求严格，按 schema（甚至按数据库）分离租户能减少冲击范围。权衡是运维开销增大。

安全默认：默认拒绝与最小权限

将权限设计为“默认无访问”：

应用角色仅拥有完成职责所需的最少表访问权限。\n- 管理工作流应使用单独账户并进行审计与提升审批。\n- 避免在应用代码中使用共享的“超管”连接。

这些控制应配合使用：强租户作用域、数据库层策略（如果可用）与保守权限，在出现失误时限制损害。

共享存储中的加密与密钥管理

即使其他隔离层失败，加密仍然是少数可继续提供帮助的控制之一。在共享存储中，目标是保护数据在传输中、静态时以及在应用证明其代表哪个租户时的安全性。

传输中与静态化的加密

对于传输中的数据，要求每一跳都使用 TLS：客户端 → API、API → 数据库以及所有内部服务调用。在可能时在数据库层强制 TLS（例如拒绝非 TLS 连接），以免“临时例外”悄然变为永久。

对于静态数据，使用数据库或存储级加密（托管磁盘加密、TDE、加密备份）。这能防止介质丢失、快照泄露和部分基础设施入侵场景——但无法阻止错误查询返回其他租户的行。

共享密钥 vs 每租户密钥

单一共享加密密钥更易于运维（更少密钥要轮换、失败模式更少），但缺点是冲击面大：若密钥泄露，所有租户都暴露。

每租户密钥能减少冲击面并满足一些客户要求（例如企业客户希望对租户密钥拥有更多控制）。权衡是复杂度：密钥生命周期管理、轮换计划与支持流程（例如租户禁用密钥后如何处理）。

一个实用折中是信封加密（envelope encryption）：主密钥加密每个租户的数据密钥，从而让轮换可控。

数据库凭据的机密管理

将数据库凭据存储在 secrets manager 中，而不是长寿命的环境变量配置。优先使用短期凭据或自动轮换，按服务角色限定访问，以便某个组件被入侵时不能直接访问所有数据库。

令牌与会话处理：防止伪造的租户上下文

把租户身份视为安全关键。绝不要把来自客户端的原始租户 ID 当真。将租户上下文绑定到签名令牌和服务器端授权检查，并在每次请求前验证它，然后才发起任何数据库调用。

审计、监控与事故应对准备

多租户 SaaS 原型

从对话快速构建可运行的多租户应用，在加固前安全迭代。

免费开始

多租户改变了“正常”的定义。你不只是监视一个数据库——你在监视许多共享同一系统的租户，其中一个错误就可能导致跨租户暴露。良好的可审计性和监控能降低事故发生概率并缩小冲击面。

审计日志：记录完整事件链

至少记录所有可能读取、更改或授予租户数据访问的操作。最有用的审计事件应回答：

谁：用户/服务身份、认证方式、角色、源 IP/设备\n- 做了什么：操作（SELECT/UPDATE/DELETE）、影响对象、查询类别（不必记录完整 SQL）、对特权更改的前后值\n- 何时：带时区的时间戳、用于关联的请求/追踪 ID\n- 租户：将租户 ID 作为一等字段记录（切勿事后推断）

还要记录管理操作：创建租户、修改隔离策略、编辑 RLS 规则、轮换密钥、修改连接字符串等。

监控交叉租户与权限异常的告警

监控应发现不符合健康 SaaS 使用模式的行为：

查询返回了多个租户 ID 的行，或“租户不匹配”拒绝率突然上升\n- 服务账号访问了其通常不接触的租户\n- 频繁的角色/权限变更、新管理员、禁用安全策略或试图绕过 RLS

将告警与可执行的运行手册关联：检查什么、如何遏制、该通知谁。

管理控制与紧急开关（break-glass）流程

把特权访问当作一次生产变更来对待。使用最小权限角色、短期凭据与敏感操作审批（schema 变更、数据导出、策略编辑）。在紧急情况下保留一个break-glass 账户：凭据分离、强制工单/审批、时限性访问与额外日志记录。

保留与按租户范围的日志访问

根据合规与调查需要设置日志保留期，但限制访问范围，使得支持人员只能查看其对应租户的日志。当客户请求审计导出时，提供按租户过滤的报告，而不是原始的共享日志文件。

性能基础与噪声邻居问题

多租户通过让许多客户共享同一数据库基础设施来提高效率。权衡是性能也成为共享体验：一个租户的行为可能影响其他租户，即使他们的数据在逻辑上完全隔离。

“噪声邻居”问题（通俗解释）

“噪声邻居”指某个租户的活动非常繁重（或波动大），消耗了不成比例的共享资源。数据库本身并没有“坏”——只是忙于处理该租户的工作，其他租户需要等待。

把它想成一栋公寓楼的共享水压：一个单元同时开多个淋浴和洗衣机，大家都会感觉水压变弱。

实际上共享了什么？

即便每个租户有各自的行或 schema，许多关键性能组件仍是共享的：

CPU：查询执行、排序、联接、加解密、后台维护\n- 内存：缓冲/缓存页、查询工作内存、内部队列\n- 磁盘 / I/O：读取数据文件、写入日志、刷新检查点、压缩/清理操作\n- 连接：数据库连接限制与线程池\n- 缓存：计划缓存、缓冲缓存，以及有时应用侧缓存

当这些共享池被耗尽时，延迟会对所有人上升。

为什么突发工作负载会影响其他租户

许多 SaaS 工作负载呈突发性：导入、月末报表、营销活动、整点运行的 cron 任务等。

突发会在数据库内部制造“拥堵”：

单个租户并发发起很多昂贵查询，将 CPU 推到 100%\n- 大量写入触发额外 I/O（日志写入、索引维护），拖慢其他人的读取\n- 连接激增占满连接池，其他租户无法快速获得可用连接

即使突发只持续几分钟，也会在队列排空时引发连锁延迟。

用户通常会注意到什么

从客户角度看，噪声邻居的问题感觉随机且不公平。常见症状包括：

这些症状是早期预警，说明你需要性能隔离技术，而不仅仅是“更多硬件”。

资源隔离与限流技术

检查驻留要求

在你需要的国家部署应用，并尽早验证租户隔离假设。

试用 Koder

多租户最佳实践是确保一个客户不能“借走”超过自己份额的数据库容量。资源隔离是一组护栏，防止资源重的租户拖慢所有人。

连接池限制与按租户配额

一个常见失败模式是无界连接：某个租户的流量激增打开数百个会话，导致数据库被饱和。

在两个层面设置硬性上限：

在应用连接池层：限制每个服务实例的最大连接数，并为后台作业保留最小连接数。\n- 按租户：强制配额（例如“并发请求 N 个”或“并发 DB 会话 M 个”），并将其与租户方案挂钩。

即便数据库无法直接强制“每租户连接数”，也可以通过为每个租户路由到独立池或池分区来近似实现。

速率限制与工作量整形（应用 + DB）

速率限制关注的是时间维度上的公平性。在边缘（API 网关/应用）靠近入口处实施，并在数据库支持时在内部使用资源组/工作负载管理。示例：

对昂贵端点（导出、搜索）使用每租户的令牌桶限速\n- 使用优先级层，使交互请求优先于批处理工作\n- 基于队列的整形，用平滑的方式处理突发，而不是直接把突发推到数据库

查询超时、语句限制与熔断器

保护数据库免受“失控”查询：

查询/语句超时，阻止长时间扫描\n- 最大返回行/字节，防止端点结果爆炸\n- 熔断器，在错误率或延迟越界时暂时阻断某租户的昂贵功能

这些控制应优雅失败：返回清晰错误并建议重试/退避。

读副本与缓存以减少争用

把读密集型流量从主库迁移出去：

读副本 处理仪表盘、报表和分析式查询\n- 缓存（按租户键、短 TTL）用于重复查找与配置数据

目标不仅是加速，还要降低锁压力与 CPU 争用，让噪声租户更难影响他人。

会影响速度的数据建模选择

多租户的性能问题常被误认作“数据库慢”，但根本通常在数据模型：租户数据如何建键、过滤、索引与物理布局。良好的建模使租户作用域的查询天生高效；糟糕的建模会迫使数据库做大量无谓工作。

为租户作用域查询建立索引

大多数 SaaS 查询应包含租户标识。显式建模（例如 tenant_id），并设计以它开头的索引。例如复合索引 (tenant_id, created_at) 或 (tenant_id, status) 通常比单独索引 created_at 或 status 更有用。

这也适用于唯一性：如果邮箱仅在租户范围内唯一，应使用 (tenant_id, email) 来强制，而不是全局的 email 约束。

避免全表扫描（缺少租户过滤）

常见的慢查询模式是意外的跨租户扫描：查询忘记租户过滤，触及表的大部分数据。

让安全路径变得容易：

在查询层（ORM scopes、仓库方法）强制租户过滤\n- 在数据库层使用保护（例如默认租户视图或策略），使未加作用域的访问快速失败

分区与分片：按租户或按时间

分区能减少每次查询需考虑的数据量。租户大小不均且有些租户很大时可按租户分区。按时间分区适用于访问集中在最近数据的场景（事件、日志、发票），通常在每个分区内以 tenant_id 为前导索引列。

当单个数据库无法满足峰值吞吐或某租户工作负载威胁到所有人时，考虑分片（sharding）。

管理热点租户

“热点租户”在读写量、锁争用或超大索引方面表现异常。通过跟踪每租户的查询时间、读取行数和写入速率来发现它们。当某租户占主导地位时对其隔离：迁移到独立 shard/数据库、按租户拆分大表，或引入专用缓存与限流以保证其他租户的速度。

保护安全与性能的运维实践

多租户失败很少是因为数据库“不能做”。更多是日常运维允许小不一致积累成安全漏洞或性能回退。目标是让安全路径成为每次变更、任务和部署的默认行为。

标准化租户键（并在各处强制使用）

选定一个规范的租户标识（例如 tenant_id），并在表、索引、日志和 API 中一致使用。一致性能减少安全错误（查询到错误租户）和性能惊喜（缺少合适的复合索引）。

实用保障措施：

在所有主要访问路径（查询、仓库、ORM scopes）要求 tenant_id\n- 为常用查找添加以 tenant_id 开头的复合索引\n- 尽量使用数据库约束（包含 tenant_id 的外键或检查约束）以在写入时尽早捕获错误

防止后台作业的租户混淆

异步工作者常是跨租户事故的来源，因为它们在脱离原始请求上下文的情况下运行。

有助的运维模式：

在每个任务载荷中显式传递 tenant_id；不要依赖隐含上下文\n- 在幂等键和缓存键中包含租户键\n- 在任务开始/结束及每次重试时记录 tenant_id，便于快速调查影响范围

让迁移具备租户安全性

schema 与数据迁移应能在非完美同步的滚动部署中安全执行。

使用扩展/收缩策略：

先添加列/索引，再双写/双读，最后移除旧路径\n- 避免长期阻塞操作；按租户分批回填以控制负载\n- 确保每个回填 query 都按租户限定并限速，以免自伤式的噪声邻居效应

测试隔离失败场景，而不仅仅是成功路径

添加自动化的负面测试，故意尝试访问其他租户的数据（读与写）。把这些作为发布门槛。

示例：

在以 Tenant B 身份认证时尝试获取 Tenant A 的已知记录\n- 用错误的 tenant_id 运行后台任务并验证其硬失败\n- 为每个查询 helper 维持回归测试，确认租户作用域始终被应用

备份、恢复与租户级数据操作

规划租户安全的迁移

使用规划模式在接触生产数据前映射迁移、回填和发布步骤。

开始规划

备份听起来容易（“拷贝数据库”），但在多租户数据库中安全执行却出乎意料的难。只要多位客户共享表，你就需要在恢复单个租户时既不暴露也不覆盖其他租户的计划。

备份/恢复策略：单个租户 vs 全体租户

全库备份仍是灾难恢复的基础，但不足以应对日常支持场景。常见方法包括：

全量备份 + 时间点恢复（PITR），用于“全体”事件（损坏、区域故障）\n- 租户级导出（按 tenant_id 过滤的逻辑导出），用于恢复单个租户数据\n- 为租户单独存储（如可行）使恢复天然按租户界定

如果依赖逻辑导出，把导出作业当作生产代码：它必须强制租户隔离（例如通过行级安全）而不是只依赖一次性写的 WHERE 子句。

租户级导出/删除（隐私请求）

隐私请求（导出、删除）既涉及安全也涉及性能。构建可重复、可审计的工作流，用于：

在一致快照上导出租户数据\n- 删除租户数据且不留下孤立行\n- 通过日志与校验和证明完成情况

防止意外的跨租户恢复

最大的风险往往不是黑客，而是紧急情况下的人工操作失误。通过护栏降低人为错误：

恢复前要求租户标识加次要确认（租户名、计费 ID）\n- 在导入前验证行数与 tenant_id 分布\n- 先恢复到隔离的环境，再进行提升

灾备演练与事后验证边界

灾备演练后，不要仅停留在“应用上线”层面。运行自动化检查以确认租户隔离：跨租户抽样查询、审计日志审查，以及验证加密密钥与访问角色仍按租户范围正确设置。

何时多租户不再合适

多租户通常是 SaaS 的默认最佳选择，但并非永久决策。随着产品和客户结构演化，“一个共享数据存储”可能开始带来业务风险或减慢交付速度。

需要提高隔离的信号

当以下之一持续出现时，考虑从完全共享转向更强隔离：

增长与规模效应：少数租户驱动了大部分流量、存储或后台作业，使得为其他租户调优变得困难\n- 合规与合同要求：客户要求专用环境、特定驻留或独立密钥管理等，超出共享模型能干净满足的范围\n- 有特殊模式的大租户：大规模导入、报告高峰或自定义集成导致重复的争用，无法仅靠调优与限流解决

保持成本合理的混合模型

无需在“全部共享”和“全部专用”间二选一。常见混合策略：

把少数顶级租户拆出来到独立数据库或集群，同时保持长尾租户在共享基础设施上\n- 分层产品：默认共享，企业方案提供隔离环境\n- 功能隔离：事务性工作负载共享，但把重负载租户的分析/报表迁移到独立存储

向利益相关者解释成本与复杂度

更强的隔离通常意味着更高的基础设施支出、更繁重的运维工作（迁移、监控、值班）以及更多的发布协调（在多个环境间的 schema 变更）。但权衡是能提供更明确的性能保证和更简单的合规沟通。

下一步

如果你在评估隔离选项，可在 /blog 查看相关指南，或在 /pricing 对比方案与部署选项。

如果你想快速原型化一个 SaaS 并在早期就压力测试多租户假设（租户作用域、RLS 友好 schema、限流与运维流程），像 Koder.ai 这样的快速原型平台可以帮助你从聊天中生成一个可运行的 React + Go + PostgreSQL 应用，支持规划模式下迭代、快照和回滚——在准备好硬化架构进入生产时再导出源码。

常见问题

用通俗的话说，什么是多租户数据库？

多租户数据库是一种架构，多个客户共享相同的数据库基础设施（通常也共享相同的 schema），同时应用和/或数据库负责强制每个租户只能访问自己的数据。核心要求是在每次读写操作上都进行严格的租户范围限定。

为什么 SaaS 团队会选择多租户？

多租户通常被选为：

降低每位客户的成本（共享计算/存储/许可和运维时间）
在大规模下更简单的运维（更少的数据库需要打补丁、升级和监控）
更快的上手（不必为每个客户预配完整的数据库堆栈）

权衡是：你必须有意识地构建隔离和性能的防护措施。

主要有哪些多租户数据库模型？

常见模型（从更强隔离到更共享）包括：

按租户分数据库（database-per-tenant）：最强的隔离边界，但运维负担更重。\n- 按租户分 schema（schema-per-tenant）：较好的分离，迁移仍然重复。\n- 按租户分表（table-per-tenant）：短期可行，但通常难以扩展。\n- 共享表（通过 tenant_id 区分）：运维最简单，但最难保障安全/调优。

你的选择决定了隔离边界和日常运维负担。

多租户如何改变安全威胁模型？

最大的风险从外部入侵转向跨租户访问，通常由日常错误引起，而不仅仅是外部攻击。租户上下文（例如 tenant_id）必须被视为授权要求，而不是可选的过滤条件。你还需要考虑生产环境的并发、缓存、重试和后台任务等现实情况。

通常会导致跨租户数据泄露的原因有哪些？

最常见的原因包括：

某条代码路径中缺少租户过滤
在联表时，一个表有作用域但被联接的表没有
缓存以 URL/用户为键却没有包含租户信息
预编译语句绑定了错误的 tenant_id
后台任务丢失了租户上下文

设计应使未加作用域的查询难以出现（或根本不能运行）。

什么时候应该使用行级安全（RLS），它能防护什么？

行级安全（RLS）可以把租户检查下移到数据库层，使用策略限制 SELECT/UPDATE/DELETE 仅返回匹配当前租户的行。它能减少对“每个开发者都记得写 WHERE”的依赖，但应与应用层作用域、最小权限和严格测试结合使用。把 RLS 当作额外的保险，而不是唯一的防线。

防止跨租户访问的最重要隔离控制有哪些？

实用的隔离控制基线包括：

在租户拥有的表上使用规范的 tenant_id 字段
包含 tenant_id 的复合唯一约束和外键
默认拒绝（deny-by-default） 的权限与最小权限角色
单独且可审计的管理访问（避免在应用代码中使用超管连接）
尝试跨租户读写的负面测试

目标是让错误“安全失败”而不是导致数据泄露。

在共享存储中，加密与密钥管理如何工作？

加密能帮助减小某些风险，但并不能替代租户隔离：

传输中（TLS）：保护服务间传输。\n- 静态化（at-rest）：保护快照/磁盘/备份，但无法阻止错误查询返回其他租户的行。\n- 按租户密钥 能降低冲击范围，但增加运维复杂度。

还要把租户身份视为安全关键：不要信任客户端传来的原始租户 ID，应将其绑定到签名令牌并在服务器端验证。

什么是噪声邻居问题，应该如何缓解？

噪声邻居是指某个租户占用了过多共享资源（CPU、内存、I/O、连接），导致其他租户延迟增加。实用的缓解方法包括：

硬性连接池限制（与尽可能按租户配额）\n- 对昂贵端点的速率限制与工作量整形\n- 查询超时、最大返回行/字节与熔断器\n- 读副本与按租户缓存键

目标是实现公平而不是单纯追求吞吐。

什么时候应该放弃完全共享的多租户模式，存在哪些混合选项？

当出现下列情况之一持续发生时，应考虑提高隔离程度：

少数租户占用了不成比例的流量、存储或后台作业导致争用\n- 合规或合同要求需要专用环境、数据驻留或单独密钥\n- 某些租户的工作负载（大导入、报告高峰、自定义集成）反复造成不可控的争用

常见的混合策略包括把头部客户分出来到独立数据库/集群、按方案分层（共享 vs 专属）、或将分析/报表类工作负载迁移到独立存储。

多租户数据库对安全性与性能的影响 | Koder.ai