Anthropic 的起源与演进

Q: “有用、诚实、无害”在 Anthropic 的模型中意味着什么？

Anthropic 用三个词概括其对 AI 行为的目标： 有用（helpful） 、 诚实（honest） 、 无害（harmless） 。 - 有用 ：模型应按指令行事，解决用户问题，提供具体可执行的帮助。 - 诚实 ：优先保证真实性，尽量避免捏造事实，并清楚地表达不确定性或局限。 - 无害 ：尽量减少造成物理、心理或社会性伤害的风险，包括拒绝不安全或违法的请求。 这些并非宣传标语，而是工程目标：训练数据、评估指标和部署政策都会围绕这三项指标来设计和优化。

Q: Anthropic 早期的主要研究优先事项有哪些？

Anthropic 的技术议程从一开始就把能力提升与安全研究捆绑在一起。早期的主要研究方向包括： - 对齐技术 ：在 RLHF（从人类反馈中学习）基础上，结合规则化训练与宪章式训练方法。 - 行为分析 ：系统地探究模型何时、为何会生成有害、误导或过度自信的输出。 - 可解释性研究 ：研究模型内部表征与“电路”，以便更好地理解模型“知道”什么。 - 评估与红队测试 ：设计对抗性测试、基准与压力测试，尽早发现部署前的失效模式。 这些研究与 Claude 的研发紧密结合，而不是独立于产品工作之外的“学术项目”。

Q: Anthropic 如何为增长提供资金？资金带来了什么能力？

Anthropic 通过大规模融资与战略云合作为前沿研究提供资金支持： - 初期的种子与 A 轮（2020–2021）资助了早期招聘与首次大型模型训练。 - 2022 年报道的重大 B 轮（约 5.8 亿美元）为更大规模的实验与基础设施提供资金。 - 随后与 Google、Amazon 等云厂商达成的数十亿美元级别战略合作，将股权投资与长期云与硬件承诺相结合，确保大规模计算资源的可用性。 这些资金主要用于训练 Claude 所需的计算、构建安全与评估工具链，以及扩充跨学科团队（研究、工程、政策等）。

Q: Claude 从早期版本发展到 Claude 3.5 的演变过程是怎样的？

Claude 的演进经历了若干代，每一代都力求在提升能力的同时加强可靠性与安全： - 早期 Claude（2022–2023 年初） ：受邀制测试，强调无害性、面对危险请求时的拒绝行为，以及偏向诚实而非说服的对话风格。支持更长上下文，便于摘要与合约审阅等多步工作。 - Claude 2 / 2.1 ：通过 App 与 API 扩大访问，提升结构化写作、编码能力和超长上下文记忆，减少事实性幻觉。 - Claude 3 系列（Opus、Sonnet、Haiku） ：在推理能力、速度层次与多模态输入（文本 + 图像/复杂文档）上有所飞跃，提供针对不同延迟/成本需求的模型。 - Claude 3.5 Sonnet （2024 年中）：在中价位档实现接近顶级的推理与编码质量，响应更快，工具调用与结构化输出能力显著增强，方便在交互式产品中集成。 每次迭代都同步进行了宪章式训练、广泛的红队测试和系统性评估，以确保拒绝策略、隐私保护与透明度随能力提升得到加强。

Q: 组织如何在真实世界中使用 Claude？

组织与企业将 Claude 作为通用的推理与助理层嵌入现有系统，而不是仅把它视为孤立的聊天产品。典型用例包括： - 知识工作支持 ：起草邮件与报告、会议纪要总结、将草稿整理为结构化文档等。 - 编码辅助 ：解释代码、建议实现、生成测试、审查 pull request。 - 分析与研究 ：消化长篇 PDF、对比政策或合同、为分析师提取结构化数据。 - 面向客户的助手 ：支持聊天窗口、帮助中心检索与分步故障排除流程，通常结合工具调用与企业业务逻辑。 这些部署通常利用 Claude 的长上下文能力、工具使用能力与内置的安全护栏，以满足合规与风险敏感场景的需要。

Q: 从 Anthropic 的历史中，我们可以得出哪些关于 AI 发展的更广泛教训？

从 Anthropic 的历史中可以抽取出若干对前沿 AI 开发有帮助的更广泛教训： - 安全与能力相互交织 ：有意义的安全研究常常依赖于对最强大的模型开展工作，而这些模型又需要稳健的安全方法。 - 治理必须随能力提升而扩展 ：随着模型能力增强，分阶段部署、独立评估与明确标准变得愈加重要。 - 透明性有助于对齐 ：像宪章式训练与可解释性研究这类方法让外界更容易理解并批判模型的训练与行为。 - 激励结构很关键 ：融资方式、合作伙伴与组织设计会显著影响模型是被谨慎放出还是被快速部署。 理解 Anthropic 的轨迹有助于把当前围绕快速进步与长期安全之间的争论置于背景之下。

登录开始使用

常见问题

什么是 Anthropic，公司的关注重点是什么？

Anthropic 是一家以研究和产品为主的人工智能公司，专注于构建大规模语言模型，最著名的是 Claude 系列。它位于以下几个领域交汇处：

前沿 AI 研究（训练先进的通用模型）
实用产品（由 Claude 驱动的 API、应用和企业工具）
AI 安全与对齐（使模型更可靠、可引导且更少造成伤害）

自公司成立以来，Anthropic 把安全与对齐视为核心研究问题，而非可有可无的附加项；这一取向深刻影响了其技术工作、产品设计和治理实践。

Anthropic 为什么成立？是谁创立的？

Anthropic 成立于 2021 年，由 Dario 和 Daniela Amodei 以及来自 OpenAI、Google Brain、DeepMind 等机构的同事共同创办。创始团队在训练和部署最早期的大型语言模型方面有丰富经验，并亲眼见证了这些模型的潜力与风险。

他们创办 Anthropic 的动因包括：

对齐与控制的担忧：担心模型能力增长速度快于可控性研究的进展。
部署决策的社会影响：访问权限、保护措施与商业化选择会带来重大社会后果。
组织激励的问题：现有组织结构与财务激励未必适合管理可能具有变革性影响的 AI 系统。

Anthropic 的构想是建立一个以安全与长期社会利益为主要设计约束的组织，而不是把这些议题放在次要位置。

“有用、诚实、无害”在 Anthropic 的模型中意味着什么？

Anthropic 用三个词概括其对 AI 行为的目标：有用（helpful）、诚实（honest）、无害（harmless）。

有用：模型应按指令行事，解决用户问题，提供具体可执行的帮助。
诚实：优先保证真实性，尽量避免捏造事实，并清楚地表达不确定性或局限。
无害：尽量减少造成物理、心理或社会性伤害的风险，包括拒绝不安全或违法的请求。

这些并非宣传标语，而是工程目标：训练数据、评估指标和部署政策都会围绕这三项指标来设计和优化。

什么是 Constitutional AI？它如何影响 Claude 的行为？

Constitutional AI 是 Anthropic 用来引导模型行为的方法，它不是仅靠人工标注偏好来修正模型，而是基于一套书面的“宪章”或原则来约束模型。

实际做法包括：

制定一套基于广泛接受的规范（例如人权与安全指南）的“宪章”。
训练模型去根据这些原则自我批判其输出。
让模型修正其回答以更好地与宪章对齐。

该方法的目标是：

Anthropic 早期的主要研究优先事项有哪些？

Anthropic 的技术议程从一开始就把能力提升与安全研究捆绑在一起。早期的主要研究方向包括：

对齐技术：在 RLHF（从人类反馈中学习）基础上，结合规则化训练与宪章式训练方法。
行为分析：系统地探究模型何时、为何会生成有害、误导或过度自信的输出。
可解释性研究：研究模型内部表征与“电路”，以便更好地理解模型“知道”什么。
评估与红队测试：设计对抗性测试、基准与压力测试，尽早发现部署前的失效模式。

这些研究与 Claude 的研发紧密结合，而不是独立于产品工作之外的“学术项目”。

Anthropic 如何为增长提供资金？资金带来了什么能力？

Anthropic 通过大规模融资与战略云合作为前沿研究提供资金支持：

初期的种子与 A 轮（2020–2021）资助了早期招聘与首次大型模型训练。
2022 年报道的重大 B 轮（约 5.8 亿美元）为更大规模的实验与基础设施提供资金。
随后与 Google、Amazon 等云厂商达成的数十亿美元级别战略合作，将股权投资与长期云与硬件承诺相结合，确保大规模计算资源的可用性。

这些资金主要用于训练 Claude 所需的计算、构建安全与评估工具链，以及扩充跨学科团队（研究、工程、政策等）。

Claude 从早期版本发展到 Claude 3.5 的演变过程是怎样的？

Claude 的演进经历了若干代，每一代都力求在提升能力的同时加强可靠性与安全：

早期 Claude（2022–2023 年初）：受邀制测试，强调无害性、面对危险请求时的拒绝行为，以及偏向诚实而非说服的对话风格。支持更长上下文，便于摘要与合约审阅等多步工作。
Claude 2 / 2.1：通过 App 与 API 扩大访问，提升结构化写作、编码能力和超长上下文记忆，减少事实性幻觉。
Claude 3 系列（Opus、Sonnet、Haiku）：在推理能力、速度层次与多模态输入（文本 + 图像/复杂文档）上有所飞跃，提供针对不同延迟/成本需求的模型。
Claude 3.5 Sonnet（2024 年中）：在中价位档实现接近顶级的推理与编码质量，响应更快，工具调用与结构化输出能力显著增强，方便在交互式产品中集成。

每次迭代都同步进行了宪章式训练、广泛的红队测试和系统性评估，以确保拒绝策略、隐私保护与透明度随能力提升得到加强。

组织如何在真实世界中使用 Claude？

组织与企业将 Claude 作为通用的推理与助理层嵌入现有系统，而不是仅把它视为孤立的聊天产品。典型用例包括：

知识工作支持：起草邮件与报告、会议纪要总结、将草稿整理为结构化文档等。
编码辅助：解释代码、建议实现、生成测试、审查 pull request。
分析与研究：消化长篇 PDF、对比政策或合同、为分析师提取结构化数据。
面向客户的助手：支持聊天窗口、帮助中心检索与分步故障排除流程，通常结合工具调用与企业业务逻辑。

这些部署通常利用 Claude 的长上下文能力、工具使用能力与内置的安全护栏，以满足合规与风险敏感场景的需要。

从 Anthropic 的历史中，我们可以得出哪些关于 AI 发展的更广泛教训？

从 Anthropic 的历史中可以抽取出若干对前沿 AI 开发有帮助的更广泛教训：

安全与能力相互交织：有意义的安全研究常常依赖于对最强大的模型开展工作，而这些模型又需要稳健的安全方法。
治理必须随能力提升而扩展：随着模型能力增强，分阶段部署、独立评估与明确标准变得愈加重要。
透明性有助于对齐：像宪章式训练与可解释性研究这类方法让外界更容易理解并批判模型的训练与行为。
激励结构很关键：融资方式、合作伙伴与组织设计会显著影响模型是被谨慎放出还是被快速部署。

理解 Anthropic 的轨迹有助于把当前围绕快速进步与长期安全之间的争论置于背景之下。

概览：为什么了解 Anthropic 的历史很重要

Anthropic 成立前的 AI 研究背景

从深度学习突破到基础模型

规模律与规模的力量

对安全与对齐的担忧上升

速度与谨慎之间的张力

Anthropic 的创立：起源与早期团队

创办 Anthropic 的动机

以安全为先的研究公司

早期核心团队及其专长

在关于先进 AI 的激烈争论中成立

使命、价值观与对 AI 安全的聚焦

有用、诚实、无害

将安全、可靠性与可解释性视为第一原则

宪章式 AI：通过原则引导行为

价值观如何影响研究优先级与产品

早期研究方向与技术基础

理解与引导模型行为

通过人工反馈与规则进行对齐

可解释性与内部表征

通过评估与红队进行压力测试

融资里程碑与公司增长

早期资金与重要轮次

支撑研究、基础设施与招聘

关键招聘优先方向

从研究实验室到以产品为驱动的组织

从 Claude 到 Claude 3.5：产品与模型的演化

早期 Claude：验证有用—无害—诚实的助理设定

Claude 2 与 2.1：扩展上下文与可靠性

Claude 3 至 3.5 Sonnet：多模态与工具使用

以安全为核心的反馈驱动演进

合作、客户与真实世界用例

谁在采用 Claude

若干重要合作与伙伴关系

API 与工具的定位

典型的真实世界用例

客户信息中的安全与可控性

治理、安全实践与外部参与

治理与安全评审

宪章式 AI：将原则结构化到模型中

外部参与与标准化工作

Anthropic 在更广泛 AI 研究社区中的位置

在领先实验室中的定位

在 AI 安全与治理中的公开角色

协作、基准与开放参与

反映 AI 开发的更广泛转变

展望未来：持续目标与历史教训

从创立动机到当前轨迹

长期目标：有益且可控的 AI

开放问题与挑战

为什么这段历史重要

常见问题