当 AI 原型需要投入生产：迹象与下一步

Q: 我们应该构建哪些可靠性和降级模式？

Design for bad days with explicit reliability behaviors: - Track uptime and p95/p99 latency (not just averages) - Use hard timeouts with clear user messaging - Add safe retries and a circuit breaker to stop hammering failing providers - Implement fallbacks: cached answers, cheaper/smaller model, or human handoff The goal is graceful degradation, not random errors.

Q: 在暴露真实客户数据之前需要做哪些安全与隐私工作？

Map data flows end-to-end and remove unknowns: - Identify what inputs, outputs, and logs contain (including chat history and files) - Minimize data sent to models/tools; avoid “just in case” prompting - Set retention and deletion rules - Enforce least-privilege access with audit trails - Redact PII/secrets from logs by default Also explicitly mitigate prompt injection, data leakage across users, and unsafe tool actions.

Q: 从原型走向生产的安全路线图是什么？

Run a staged launch with reversibility: - Pilot to a small cohort behind feature flags - Test a kill switch that disables the AI path immediately - Increase traffic in steps (e.g., 5% → 25% → 50% → 100%) with go/no-go checks - Version prompts/models/retrieval configs and make rollbacks easy - Assign clear owners (product, AI quality, security, support) and an incident playbook If rollback is hard or nobody owns it, you’re not production-ready yet.

登录开始使用

当 AI 原型需要投入生产：迹象与下一步 | Koder.ai

原型与生产：有哪些变化，为何不同

原型回答一个问题：“这个想法值得继续吗？” 它以速度、学习和展示可信体验为优化目标。生产系统回答的是另一个问题：“我们能否对真实用户反复、安全、可预期地运行它？”

什么算是原型，什么算是生产

原型可以是笔记本、界面中的一个提示，或一个薄壳应用，只用最少的护栏调用大模型。若它有点手动（有人重置应用、人工修正输出或重试失败调用），也没问题。

生产级 AI 功能 是一种承诺：它必须在众多用户之间保持一致表现、处理边缘情况、保护敏感数据、控制成本，并在模型 API 延迟、宕机或变更时仍能工作。

为什么“演示可行”在真实用户面前会失败

演示是可控的：提示经过挑选、输入可预测、听众耐心。真实使用环境是混乱的。

用户会粘贴长文档、提出模糊问题、试图“拆分”系统，或者无意中漏掉上下文。大模型对输入的小变化很敏感，你的原型可能依赖一些在规模化时不成立的假设——比如稳定的延迟、宽裕的速率限制，或单一模型版本始终产出同一风格的结果。

同样重要的是：演示常常掩盖了人为的努力。如果某个同事在背后悄悄重跑提示、调整措辞或挑选最佳输出，那不是产品功能——那是一套工作流程，你需要把它自动化。

设定预期：什么时候该行动

进入生产不是抛光界面那么简单，而是把一种 AI 行为变成可靠的产品能力。

一个实用规则：如果该功能影响客户决策、涉及私有数据，或你计划把它当作核心指标来衡量，就要把心态从“提示实验”转为工程化 AI 系统——设定清晰的成功标准、评估方案、监控和安全检查。

如果你在快速构建，像 Koder.ai 这样的的平台可以帮助你更快把想法变成可运行应用（Web 用 React，后端 Go + PostgreSQL，移动端 Flutter）。关键是把这种速度当作原型优势，而不是跳过生产加固的理由。一旦用户依赖它，你仍需要下文所述的可靠性、安全性和运行控制。

表明你已超出原型的 5 个触发器

原型是用于学习：“这能行吗，用户在乎吗？” 生产则是用于信任：“我们可以每天都依赖它吗，当有真实后果时？” 这五个触发器是你需要开始生产化的最清晰信号。

1) 用户数（或使用频率）开始上升

如果日活、重复使用或面向客户的曝光度在上升，你的影响半径（blast radius）也在扩大——当 AI 出错、变慢或不可用时，受影响的人更多。

决策点：在增长超过你修复问题能力之前，投入工程时间做可靠性工作。

2) 业务开始依赖输出

当团队把 AI 结果拷贝到客户邮件、合同、决策或财务报告时，失败会带来真实成本。

要问：如果这个功能停 24 小时，会有什么中断？ 如果回答是“核心流程会中断”，那它不再是原型。

3) 合规、隐私或安全需求出现

一旦你处理受监管的数据、个人数据或客户机密信息，就需要正式控制（访问、保留、供应商审查、审计轨迹）。

决策点：在你能证明哪些数据被发送、存储和记录之前，暂停扩展。

4) 外部变化开始影响行为

小的提示改动、工具变更或模型提供商更新可能会让输出在一夜之间发生改变。如果你曾经说过“昨天还好好的”，那就需要版本管理、评估和回滚计划。

5) 出现漂移：新用户、新内容、新的失败模式

当输入发生变化（季节性、新产品、新语言）时，准确率可能悄然下降。

决策点：在扩大影响之前定义成功/失败指标并设定监控基线。

实用信号：来自用户、业务和工程的提示

原型在感觉上“足够好”直到有一天它开始影响真实用户、真实金钱或真实运营。转向生产通常不是由单一指标触发，而是来自三方面信号的模式。

用户信任的信号

当用户把系统当作玩具时，瑕疵可以被容忍；当他们开始依赖它时，小失败就代价高昂。

观察：关于错误或不一致回答的抱怨、对系统能做什么/不能做什么的困惑、重复的“不是这个意思”的纠正，以及不断增长的客服工单。一个特别强的信号是用户建立了变通办法（“我总得改写三次”）——这种隐形摩擦会限制采纳率。

业务信号

当输出影响收入、合规或客户承诺时，就是业务层面的临界点。

观察：客户要求 SLA、销售把该功能作为差异化卖点、团队依赖该系统完成最后期限、或高层期待可预测的性能与成本。如果“临时解决”开始进入关键工作流，那么即便系统尚未准备好，你也已经在生产中了。

工程信号

工程痛点往往是你在为技术债支付利息的最清晰指标。

观察：失败后需要人工修复、把提示当紧急手段、脆弱的胶水代码在 API 变更时断裂、缺乏可重复的评估（“昨天好好的”）。如果只有一个人能维持它运行，那它不是产品——是一个实时演示。

一个把信号转成行动的简单方法

用一个轻量表格把观察转成具体的加固工作：

Signal	Risk	Required hardening step
Rising support tickets for wrong answers	Trust erosion, churn	Add guardrails, improve evaluation set, tighten UX expectations
Customer asks for SLA	Contract risk	Define uptime/latency targets, add monitoring + incident process
Weekly prompt hotfixes	Unpredictable behavior	Version prompts, add regression tests, review changes like code
Manual “cleanup” of outputs	Operational drag	Automate validation, add fallback paths, improve data handling

如果你能用真实例子填满这张表，说明你很可能已经超出原型——并且可以有计划地启动生产步骤。

设定生产级的成功与失败标准

原型在少数演示中“看起来不错”，但生产不同：你需要清晰的通过/失败规则，让你能有把握地发布——并在风险过高时阻止发布。

用业务语言定义成功

从 3–5 个反映真实价值而非直觉的指标开始。典型的生产指标包括：

准确率 / 任务成功率（用户是否得到了正确的结果？）
每次任务节省的时间（相比旧流程减少多少分钟）
每次任务成本（模型 + 工具的成本）
用户满意度（CSAT、点赞率或“会再次使用吗？”）

设定可以每周度量的目标，而不是只测一次。例如：“在我们的评估集上任务成功率 ≥85%，并且两周内 CSAT ≥4.2/5。”

定义失败指标与“绝不能发生”的规则

失败标准同样重要。LLM 应用常见的失败项：

有害输出率（违反策略、骚扰、不安全建议）
拒绝率（模型拒答有效请求的频率）
幻觉率（自信但错误的陈述、错误引用、凭空捏造的行为）

加入明确的绝不可发生规则（例如：“不得泄露 PII”、“不得捏造退款”、“不得声称已执行未执行的操作”）。这些应触发自动阻断、安全回退和事件复盘。

文档化评估集——以及谁来负责

写清楚：

评估数据集（黄金答案、边缘用例、红队提示）
如何给它们打版本并更新
所有权：谁在事件、支持票或产品变更后添加新案例

把评估集当作产品资产：如果没人负责，质量会漂移，失败会突然出现。

可靠性：延迟、可用性与回退计划

原型在有人盯着时“足够好”。生产需要在无人盯着时也有可预期的表现——尤其是在糟糕日子。

可靠性在实践中的含义

可用性（Uptime） 是功能是否可用。对于面向客户的 AI 助手，通常需要明确目标（例如“每月 99.9%”）并定义何为“宕机”（API 错误、超时或不可用的慢响应）。

延迟（Latency） 是用户等待的时长。不只监测平均值，还要看慢尾（通常称 p95/p99）。常见的生产模式是设置硬超时（例如 10–20 秒）并决定接下来做什么——因为永远等待比得到受控的回退更糟。

超时处理 应包含：

清晰的用户提示（“仍在处理…” vs “请重试”）
安全重试（避免无意间把同一条昂贵请求执行三次）
熔断器（若模型提供商故障，停止不断重试）

保持可信的回退行为

为主路径和至少一个回退做计划：

缓存答案：针对常见问题（“营业时间？”）实现缓存，即使在提供商故障时也能瞬时应答。
更简单/更便宜的模型：在顶级模型超载时降级使用。
人工接入：对高风险流程（计费、医疗、账户访问）或置信度低时转人工处理。

这是优雅降级：体验变简单，而不是失效。例如：若“完整”助手无法及时检索文档，它可以返回简短回答并附上主要来源链接，且提供升级选项——而不是返回错误。

速率限制、并发与队列（通俗说明）

可靠性还依赖于流量控制。速率限制 防止突发峰值拖垮系统。并发数 是同时处理请求的数量；过高会导致所有人的响应变慢。队列允许请求短时间排队而非立即失败，为你争取切换回退或扩容的时间。

安全与隐私：上线前必须满足的条件

以自有品牌发布 AI 功能

在自定义域名下发布，用于内部试点或面向客户的试验。

添加域名

当原型涉及真实客户数据时，“以后再修”不再可行。上线前，你需要清楚 AI 功能能看到哪些数据、数据会去哪里、谁能访问。

绘制敏感数据流（端到端）

从简单的图或表开始，跟踪每条数据路径：

输入：提示、聊天记录、上传文件、粘贴的截图、表单字段
标识符：用户 ID、电子邮件、账号号、设备 ID、IP
输出：模型响应、引用、生成文件
存储/遥测：日志、分析事件、错误追踪、支持工单
第三方：模型 API、向量数据库、检索/工具、审查服务

目标是消除“未知”目的地——尤其是在日志中。

隐私基础要求

数据最小化：只收集功能所需内容。避免把整条记录“以防万一”全部丢进提示中。
保留规则：定义提示、文件和输出的存储期限。让按用户/账户删除变得容易。
访问控制：限制谁可以查看对话和附件（工程、支持、供应商）。采用最小权限并记录审计轨迹。
脱敏：默认从日志中清除秘密和 PII（API 密钥、令牌、邮件、地址）。把模型提示视为潜在敏感信息。

必须明确缓解的威胁

提示注入（prompt injection）：假设用户或检索到的内容可能试图覆盖指令并窃取隐藏数据。
数据泄露：防止模型泄露其他用户内容、系统提示或内部工具信息。
不安全的工具调用：约束对支付、删除、导出等操作，要求确认、白名单和有范围限制的权限。

轻量级安全审查清单（可复制粘贴）

数据流已文档化（输入、存储、供应商、日志）
日志与分析中对 PII/秘密进行了脱敏
已实现保留 + 删除策略
供应商条款与数据使用已核查（训练、存储、地区）
提示注入防御（工具白名单、内容边界、“绝不透露”规则已测试）
工具权限按用户范围限权；高风险操作有门控
滥用监控 + 事件响应计划（谁响应、如何禁用功能）

把这份清单当作上线门禁——足够小可以每次运行，足够严格以防意外。

测试与评估：从演示提示到回归套件

原型通常“可行”因为你尝试的是少数友好的提示。生产不同：用户会问混乱、模糊的问题、注入敏感数据，并期望行为一致。这意味着你需要超越经典单元测试的测试方法。

单元测试仍然重要（API 合同、认证、输入校验、缓存），但它们不能告诉你模型在提示、工具和模型变更时是否仍保持有用、安全和准确。

离线评估：构建可重跑的黄金集

从小而精的黄金集开始：50–300 个具有代表性的查询和期望结果。“期望”不总是唯一正确答案；也可以是评分细则（正确性、语气、是否需要引用、拒绝行为）。

再加两类特殊项：

回归测试：来自日志的真实用户问题（已匿名化），这些问题以前失败过，用来防止旧 bug 重现。
红队提示：对抗性输入（提示注入、绕过策略、提取敏感数据、不安全指令）。这些是你的安全单元测试。

在每次重要改动时运行这套测试：提示编辑、工具路由逻辑、检索设置、模型升级和后处理。

在线评估：用真实流量安全验证

离线得分可能具有误导性，因此用受控发布模式在生产中验证：

Shadow 模式：新版本并行运行并记录输出，但用户只看到旧版本。
金丝雀发布：把 1–5% 流量导向新版本，密切监控并能即时回滚。
A/B 测试：衡量对用户结果的影响（任务完成率、免转人工率、解决时间、升级率），而不只是“点赞”。

批准提示/模型改动（轻量但严格）

定义一个简单门控流程：

变更申请包括目标、示例提示和风险说明。
必须通过离线黄金集 + 红队阈值测试。
金丝雀或 shadow 的结果需按简短指标清单审核。
最终由负责人批准（产品 + 工程，高风险功能需安全复查）。

这会把“演示看起来更好”变成可重复的发布流程。

可观测性：日志、监控与告警

完全拥有源代码

准备好进行更深入的生产控制和审查时，可导出源代码。

导出代码

一旦真实用户依赖你的 AI 功能，你需要能快速回答几个基本问题：发生了什么？ 多频繁？ 影响到了谁？ 哪个模型版本？ 没有可观测性，每起事故都会变成猜测。

应该记录什么（同时避免收集秘密）

记录足够复现会话，但把用户数据当作放射性物质处理。

输入与输出：仅在你能掩码或脱敏敏感字段时存储完整提示与回复（姓名、邮件、ID、支付信息）。当不能时，存哈希、摘要或“安全摘录”。
模型与配置：模型名、提供商、temperature、max tokens、system prompt 版本、向量索引版本——任何会改变行为的项。
工具动作：哪些工具被调用（搜索、数据库、日历、支付），参数（已掩码）、响应码与每个工具的耗时。
决策点：护栏结果（阻断/允许）、安全策略匹配、采取的回退路径、是否发生人工接入。

一个有用规则：如果它能解释行为，就记录；如果它是私密的，就掩码；如果不需要，就别存。

值得投资的仪表盘

目标是用少量仪表盘快速看懂健康状况：

错误率：失败的工具调用、超时、解析失败、无法回答率
延迟：端到端 p50/p95 及各工具耗时，便于定位瓶颈
成本：每次请求的 tokens、每用户/会话成本、发布后成本激增
质量代理指标：点赞/点踩率、“立即改写”率、升级至人工率、重复重试率

质量无法被单一指标完全捕捉，所以结合几个代理并人工抽样审查。

告警：报警 vs 工单

并非每次波动都应叫醒值班人员。

紧急报警（Page）：当用户被阻断或可能造成伤害时——持续高失败率、重大延迟回归、错误权限的工具调用、安全过滤失效或失控成本。
工单（次日处理）：不会破坏核心流程的退化：轻微的“我不知道”增加、少量成本漂移或某一片段的小质量下滑。

定义阈值和最小持续时间（例如“超过 10 分钟”）以避免噪声告警。

负责任地处理用户反馈闭环

用户反馈是黄金，但也可能泄露个人数据或强化偏见。

将反馈与身份分离：尽量只存参考 ID，而非原始个人信息。
在重训练前先审查：把反馈当作需要清洗、去重和偏见检测的数据。
透明：告知用户反馈如何被使用并提供退出选项。
闭环处理：将反馈关联到模型/版本，以便确认修改是否解决了问题。

如果你想在扩展可观测性前形式化“足够好”的定义，请把它与明确的成功标准对齐（见 /blog/set-production-grade-success-and-failure-criteria）。

运行准备：版本化、发布与回滚

原型可以容忍“上周能用的那套做法”。生产不能。运行准备意味着让变更安全、可追踪且可逆——尤其当行为依赖提示、模型、工具和数据时。

对所有会影响行为的项做版本管理

对于 LLM 应用，“代码”只是系统的一部分。把这些当作一等公民并版本化：

提示与模板（含 system message、工具指令、few-shot 示例）
模型与参数（模型名、temperature、max tokens、函数/工具 schema）
向量与检索设置（向量模型、切片策略、top-k、过滤器）
数据集与知识源（文档、标签、评估集、红队提示）
工具与集成（API 合同、权限、速率限制）

要能回答：“是哪一套提示 + 模型 + 检索配置生成了这份输出？”

使构建可复现

可复现性能减少“幽灵 bug”，即因为环境变了而导致的行为变化。

固定依赖项（锁文件），记录运行环境（镜像、操作系统、Python/Node 版本），并把秘密/配置与代码分离。如果你使用托管模型端点，记录提供商、地域和尽可能精确的模型版本。

使用真正的发布流程

采用简单流水线：dev → staging → production，并设定明确的审批。Staging 应尽可能镜像生产（数据访问、速率限制、可观测性），同时使用安全测试账户。

当你改提示或检索设置时，把它当成一次发布，而不是一次快速编辑。

在需要时提前规划回滚

创建事件手册，其中包含：

回滚步骤（回到之前的提示/模型/配置；关闭功能开关）
角色分工（谁决定、谁执行、谁沟通）
触发条件（错误率、成本激增、有害内容、客服量）

如果回滚很难，说明你没有发布流程——而是在做赌博。

如果你使用快速构建平台，优先选那些便于可逆操作的运行特性。例如，Koder.ai 支持快照与回滚、部署/托管与自定义域名——在需要金丝雀发布或快速回滚时，这些是有用的基石。

成本与性能：在规模化前做预算

原型之所以看起来“便宜”，是因为使用量低且失败可容忍。生产则相反：同样的提示链在演示中花几美元，但当成千上万用户每天调用时，可能成为实质性开支。

了解真正驱动费用的因素

大多数 LLM 成本由使用量驱动，而非功能本身。主要驱动项包括：

Tokens：冗长的 system prompt、冗长输出、多轮对话
工具调用：网页搜索、代码执行、数据库查询、付费 API
检索：生成向量、向量 DB 读取、拉取大文件
重试：超时、模型错误与“再试”循环
长上下文：每次请求都把整个历史或大文档传给模型

用产品术语制定预算

设定能映射到商业模式的预算，而不仅是“月花费”。例如：

每次请求成本（例如平均 $0.02，p95 $0.10）
每活跃用户每日成本
每次工作流成本（如“生成报告”必须低于 $0.50）

简单规则：如果你不能从单次请求跟踪成本，就无法控制它。

不破坏质量的优化杠杆

通过组合小改动通常能获得显著节省：

缓存：复用重复问题和确定性工具结果的答案
截断与摘要：只保留模型需要的内容（并对历史做摘要）
小模型优先：把“简单”任务路由到更便宜的模型，复杂任务才用大模型
批处理：在延迟允许时批量生成向量或处理项

防止账单爆炸

添加防护：限制工具调用计数、限制重试、强制 max tokens、在进度停滞时停止循环。如果你在其他地方已有监控，务必把成本做为一等指标（见 /blog/observability-basics），以免财务意外变成可靠性事故。

人员与流程：归责、支持与治理

快速交付可用试点

通过一次简单聊天生成带有 Go 和 PostgreSQL 后端的 React 网页应用。

开始构建

生产不仅是技术里程碑——也是组织承诺。真实用户依赖 AI 功能的那一刻，你需要明确的归责、支持路径和治理闭环，防止系统成为“没人负责的东西”。

明确职责划分

先命名角色（一个人可以兼职，但职责必须明确）：

产品负责人：决定用户意义上的“好”，在修复与新特性间排优先级，并批准行为更改
ML/AI 负责人：对模型选择、提示改动、评估结果与整体 AI 质量负责
安全负责人：审查数据处理、访问控制、第三方服务与事件响应准备
支持负责人：负责工单、升级与用户跟进流程
法律/合规模块：批准面向用户的声明、免责声明及受监管数据的处理

决定支持模式

上线前选定问题默认流向：谁接受用户报告、什么算“紧急”、谁可以暂停或回滚功能。定义升级链（支持 → 产品/AI 负责人 → 如需则上报安全/法务）以及高影响故障的期望响应时间。

提前与用户沟通

写简短、通俗的指南：AI 能做什么/不能做什么、常见失败模式、当结果有问题时用户应如何处理。在可能被误解的决策处放显著免责声明，并提供问题反馈渠道。

建立变更管理节奏

AI 行为变化速度快于传统软件。设定定期机制（例如每月）审查事件、核查提示/模型改动，并重新批准任何影响用户行为的更新。

简单路线图：如何加固与安全发布

良好的生产发布往往是冷静分阶段推进的结果，而不是一次英雄式的“立刻上线”。下面是一个实用路径，把可运行的演示变为可以信赖的产品。

步骤 1：原型 → “寻真阶段”

保持原型灵活，但开始捕捉现实：

写下 AI 必须完成的单一工作（以及不得做的事）。
收集一小批真实用户输入（获许可）并标注“好”的标准。
跟踪基本结果：有用/无用、安全/不安全、正确/错误。

步骤 2：试点 → “受控暴露”

试点用于降低未知风险：

对有限群体上线（例如 1–5% 用户，或一个内部团队）。
把 AI 放在功能开关后，以便无需重新部署即可开关功能。
增设一键断电（kill switch），即时禁用 AI 路径并回退到安全默认。
定义操作者规则：何时升级到人工、何时阻断、如何响应事件。

步骤 3：生产 → “可重复运行”

仅在你能把它作为产品运行而非科研项目时才扩大：

逐步提升流量（5% → 25% → 50% → 100%），在每一步做 go/no-go 检查。
使发布可逆：小步发布、监控并准备回滚。
定期用固定测试集做评估，以防质量漂移。

就绪检查表（简明摘要）

在扩大投放前，确认：

已书面化并可衡量的成功/失败标准。
功能开关与一键断电经过测试（而非仅有计划）。
回退行为对用户和支持可接受。
关键风险已覆盖：隐私、提示注入与敏感数据处理。
监控能回答：“它在工作吗？安全吗？在变差吗？”
有人在生产中负责系统（值班、事件手册、升级路径）。

如果你想规划打包与发布选项，之后可链接到 /pricing 或 /blog 的支持指南。

常见问题

AI 原型和生产级 AI 功能的实际区别是什么？

A prototype is optimized for speed and learning: it can be manual, fragile, and “good enough” for a controlled demo.

Production is optimized for repeatable outcomes: predictable behavior, safe handling of real data, defined success/failure criteria, monitoring, and fallbacks when models/tools fail.

我们超出原型阶段的最明显信号有哪些？

Treat it as a production trigger when one or more of these show up:

Usage is climbing (higher blast radius)
Teams depend on outputs for real decisions or customer commitments
Privacy/compliance/security requirements appear
Model/provider/tool updates change behavior (“it worked yesterday”)
New inputs cause drift and new failure modes

If any of these are true, plan hardening work before you scale further.

为什么“演示可行”在真实用户面前常常会失败？

Demos hide chaos and human glue.

Real users will submit long/ambiguous inputs, try edge cases, and expect consistency. Prototypes often rely on assumptions that break at scale (stable latency, unlimited rate limits, one model version, a human silently re-running prompts). In production, that hidden manual effort must become automation and safeguards.

我们应该为 LLM 功能设定哪些生产成功指标？

Define success in business terms and make it measurable weekly. Common metrics include:

Task success rate / accuracy
Time saved per task
Cost per task (model + tools)
User satisfaction (CSAT, thumbs-up rate)

Set explicit targets (e.g., “≥85% task success on the eval set for 2 weeks”) so shipping decisions aren’t based on vibes.

在上线前如何界定失败标准和安全规则？

Write “must-not-happen” rules and attach automated enforcement. Examples:

Must not reveal PII or secrets
Must not invent actions taken (refunds issued, emails sent)
Must not provide unsafe advice in restricted domains

Track rates for harmful outputs, hallucinations, and inappropriate refusals. When a rule is hit, trigger blocking, safe fallback, and incident review.

除了单元测试，生产化的 LLM 应用的“测试”还包括哪些内容？

Start with a rerunnable offline suite, then validate online:

Gold set (50–300 cases): representative prompts with expected outcomes or a rubric
Regression cases: anonymized real failures from logs/tickets
Red-team prompts: injection, policy bypass, sensitive data extraction

Use shadow mode, canaries, or A/B tests to roll out changes safely, and gate releases on passing thresholds.

我们应该构建哪些可靠性和降级模式？

Design for bad days with explicit reliability behaviors:

Track uptime and p95/p99 latency (not just averages)
Use hard timeouts with clear user messaging
Add safe retries and a circuit breaker to stop hammering failing providers
Implement fallbacks: cached answers, cheaper/smaller model, or human handoff

The goal is graceful degradation, not random errors.

在暴露真实客户数据之前需要做哪些安全与隐私工作？

Map data flows end-to-end and remove unknowns:

Identify what inputs, outputs, and logs contain (including chat history and files)
Minimize data sent to models/tools; avoid “just in case” prompting
Set retention and deletion rules
Enforce least-privilege access with audit trails
Redact PII/secrets from logs by default

Also explicitly mitigate prompt injection, data leakage across users, and unsafe tool actions.

我们应记录和监控哪些内容，以免事件调查变成猜测？

Log enough to explain behavior without storing unnecessary sensitive data:

Model/config versions (prompt version, model name, parameters, retrieval settings)
Tool calls (what ran, timing, masked parameters, response codes)
Guardrail and fallback decisions (blocked/allowed, handoff taken)
Quality proxies (rephrase rate, escalation rate, thumbs up/down)

Alert on sustained spikes in errors/latency, safety failures, or runaway cost; route minor degradations to tickets instead of paging.

从原型走向生产的安全路线图是什么？

Run a staged launch with reversibility:

Pilot to a small cohort behind feature flags
Test a kill switch that disables the AI path immediately
Increase traffic in steps (e.g., 5% → 25% → 50% → 100%) with go/no-go checks
Version prompts/models/retrieval configs and make rollbacks easy
Assign clear owners (product, AI quality, security, support) and an incident playbook

If rollback is hard or nobody owns it, you’re not production-ready yet.