2025年12月21日·1 分钟

什么是 AGI，以及为什么大型语言模型可能永远无法真正实现它

Q: 什么是通用人工智能（AGI）？

AGI（通用人工智能）指的是一种能够： - 在多个领域学习和推理（而不仅仅是单一任务） - 在不重新设计系统的情况下适应新、陌生的问题 - 在最少人工干预下设定并追求自己的目标 - 将在一个领域学到的知识迁移到截然不同的领域并取得成功 一个粗略的规则：如果给它时间和资源，AGI原则上可以学习任何需要智力的工作，而无需为每个新任务定制架构。

Q: 为什么今天的大型语言模型不被视为真正的 AGI？

当前的 LLM 之所以不是通用人工智能，主要因为： - 它们主要在文本（有时还有代码或图像/音频）上训练 - 优化目标是预测序列中的下一个标记 - 缺乏感知能力、身体、内在目标和持久记忆 它们可以 模拟 广泛的知识与推理，因为语言本身编码了大量人类专业知识。但它们： - 没有与现实体验绑定的有根概念 - 不会维护随时间演化的信念体系 - 无法自主地跨时段规划与行动 因此，LLM 是强大的狭义语言模式学习器，而不是自包含的通用智能体。

Q: 为什么许多人将 LLM 与 AGI 混淆？

人们容易将流畅的语言能力与通用智能混淆，因为： - 对他人心智的主要判断途径是对话 - LLM 能在同一界面处理多种领域（代码、论文、邮件、摘要） - 它们能通过人为设计的考试和基准测试 这些因素共同制造出一种“理解与代理”的幻觉。底层系统仍然是基于数据模式预测文本，而不是构建并使用一个有根的世界模型来追求自身目标。

Q: LLM 在底层是如何工作的？

可以把 LLM 理解为： - 一个将一系列标记映射到下一个标记概率的巨大函数 - 通过看到数万亿个示例并调整内部权重以更好地预测续写来训练 关键点： - 它并不像数据库那样存储事实 - 它编码的是语言的 统计规律 - 它没有内置的“真实”概念，只有基于过去文本的“合情合理”之感 所有看起来像推理或记忆的行为，都是从这个下一个标记目标、规模与精调中涌现出来的，而非来自显式的符号逻辑或持久信念库。

Q: LLM 真正擅长什么，它们在哪些方面表现不佳？

当任务主要涉及对文本或代码的模式预测时，LLM 表现出色，例如： - 起草、重写和摘要文档 - 翻译与风格适配 - 代码生成、重构和解释 - 头脑风暴或列出策略选项 当任务需要或涉及以下内容时，它们会表现欠佳或具有风险： - 需要最新且可验证的事实 - 现实世界的因果推理和实验 - 长期规划并产生真实后果 - 伦理判断或承担责任 在这些领域，必须有人类严密监督并辅以外部工具（检索、计算器、模拟器、核查清单）。

Q: 如果扩展效果这么明显，为什么更大的 LLM 不会最终成为 AGI？

“扩展规律”显示，增加模型规模、数据与算力通常会在许多基准上提升性能。但仅靠扩展不能解决结构性缺陷： - 无法获得有根的感知或具身性 - 缺乏持久的自我、目标或人生史 - 缺少通过行动—观察—更新世界模型的直接交互回路 更大规模带来的是更好的流畅度和对已见文本模式的覆盖，使得模拟推理和专业性更具说服力，但并不必然产生通用、自主的智能。要实现那一点，需要新的架构成分与系统级设计。

Q: 我今天应如何实际使用 LLM，且不对其过度信任？

将 LLM 视为强大的助手，而非权威： - 将输出视为 草稿或假设 ，而非确证的事实 - 在高风险决策（医疗、法律、财务、安全关键）中保持人类在环 - 将 LLM 与工具（检索、计算器、IDE）配合以便核验 - 在敏感工作流中记录与审查使用情况 在产品与流程设计中要确保： - 模型增强人类判断而非替代它 - 当模型不确定或失效时有明确的升级路径 - 用户理解局限并被引导避免盲目信任

Q: 把 LLM 标记为 AGI 有什么风险？

把现在的 LLM 称为“AGI”并非单纯的措辞错误，它会扭曲激励并带来安全盲点： - 过度信任： 用户以为具有人类式理解与可靠性，从而在不合适的情况下依赖生成内容 - 错误的投资信号： 资金与人才追逐炒作，而非长期基础研究（推理、可解释性、安全） - 监管混乱： 政策制定者可能把注意力放在假想的 AGI 情景上，而忽视当前系统造成的实际损害（偏见、错误信息、滥用） 更精确的术语（如 “LLM”，“窄域模型”，“基于 LLM 的代理系统”）有助于将期望与现实对齐，从而更好地评估能力与风险。

Q: 如果我们真的造出 AGI，我们如何识别它？

一个合理的判定标准会远超聊天能力。我们希望看到： - 自主性： 系统能设定并管理自身子目标，并在失败后自我恢复 - 迁移能力： 在一个领域学到的技能能无须大量额外训练就迁移到截然不同的领域 - 现实世界能力： 它能在杂乱、不确定的物理与社交环境中规划与行动，而不仅限于文本 - 持续学习： 能根据持续经验更新内部模型，而非仅靠离线再训练 当前的 LLM 即使在代理框架下，也依赖大量人为脚本与工具协同才能近似这些行为，且在健壮性与通用性上仍有明显不足。

Q: 如果单靠 LLM 不够，研究者在通向 AGI 的现实路径上在探索哪些方向？

研究者将 LLM 视为组件（而非全部智能）的更广泛系统正在被探索，例如： - 在 LLM 周围构建能记忆的代理架构、规划器与工具调度器 - 允许 LLM 调用外部 API、数据库与模拟器，从而获得最新或专门化信息 - 多模态与具身系统，将语言与感知、动作结合，使系统能通过探索与物理反馈学习 这些方向通过引入有根性、因果性与持久状态，向通用智能靠拢。但这同时把问题从“LLM 本身能否成为 AGI？”改为“包含 LLM 的复杂系统能否近似 AGI 行为？”

了解通用人工智能（AGI）的真实含义，学习大型语言模型（LLM）的工作原理，以及为什么当前纯文本模型仅靠扩展或微调很可能无法变成真正的 AGI。

为什么 AGI 与 LLM 在到处被混淆

如果你读科技新闻、投资者展示文稿或产品页面，会注意到“智能”一词被无限度延伸。聊天机器人被称为“几乎像人”，代码助手被称为“实际上的初级工程师”，一些人甚至随意把强大的大型语言模型（LLM）称为走向通用人工智能（AGI）的第一步。

这篇文章面向好奇的从业者、创始人、产品负责人和使用 GPT-4 或 Claude 等工具的技术读者，帮助你回答一个问题：这就是 AGI 吗——还是缺少了某些重要东西？

混淆的根源

LLM 确实令人印象深刻。它们：

用自然语言流畅对话
编写代码、总结研究并通过考试
以看起来像是推理的方式反思自己的输出

对于大多数非专家来说，这和“通用智能”几乎无法区分。当一个模型能在同一会话中写康德的文章、修复你的 TypeScript 错误并帮忙起草法律备忘录时，人们很自然地认为我们正在接近 AGI。

但这种假设悄然将善于处理语言等同于具备通用智能。这就是本文要剖析的核心混淆。

本文的中心论点

下面将逐节展开的论点是：

目前的 LLM 是非常强大的文本和代码模式学习器，但其架构与训练范式使得仅靠扩展规模或微调不太可能将它们变为真正的 AGI。

它们会继续变得更强、更广、更有用，也可能成为类 AGI 系统的一部分。然而，在关于与世界的有根性、能动性、记忆、具身性与自我模型等方面，有深层原因表明“更大的 LLM”很可能不是“通用智能”的正确路径。

本文是带观点的导览，但基于当前研究、LLM 的具体能力与失败案例，以及严肃科学家仍在博弈的开放问题，而非炒作或危言耸听。

我们到底把通用人工智能（AGI）指为什么？

当人们谈到AGI时，往往并不指同一件事。为澄清争论，有助于分离出几个核心概念。

从窄域 AI 到通用智能

AI（人工智能） 是构建表现出类似“智能”行为的系统的广泛领域：识别语音、推荐电影、下围棋、写代码等。

当下大多数存在的是窄域 AI（或称弱 AI）：为特定任务或特定条件设计与训练的系统。把猫狗分类的图像分类器，或为银行问题微调的客服聊天机器人，在其领域内可能非常能干，但一到域外就会严重失效。

通用人工智能（AGI） 则非常不同。它指的是一种能：

在广泛领域间泛化，而不仅仅处理单一任务或数据类型
适应未经显式训练的新问题与新环境
自主行动，设置并追求目标，几乎不需要人工引导
迁移学习，把在一个情境学到的内容用来在其他情境中取得良好表现

一个实用的经验法则：AGI 理论上可以在不需要为每个新任务重新设计的情况下，经过时间与资源投入学会几乎任何需要智力的工作。

强 AI、人类水平 AI 与更远的概念

AGI 梦想的简史

早期愿景：图灵与符号主义 AI

现代 AGI 梦想始于艾伦·图灵在 1950 年的提议：如果一台机器能进行与人类无法区分的对话（图灵测试），它是否就是智能的？这把通用智能主要框架化为行为，尤其是语言与推理。

从 1950s 到 1980s，研究者通过符号 AI 或“GOFAI”（Good Old-Fashioned AI）追求 AGI。智能被视为按照逻辑规则操纵显式符号。定理证明、对弈程序与专家系统让人们一度相信人类水平的推理近在咫尺。

但 GOFAI 在感知、常识与处理混乱现实世界数据方面乏力。系统能解决逻辑谜题，却在儿童轻而易举完成的任务上失败。这一差距导致了第一次 AI 冬天，以及对 AGI 的更为谨慎的看法。

机器学习的转向

随着数据与算力的增长，AI 从手工规则转向从样本中学习。统计机器学习、随后深度学习重新定义了进步：系统不再编码知识，而是从大规模数据中学习模式。

像 IBM 的 DeepBlue（象棋）和后来 AlphaGo（围棋）这样的里程碑被庆祝为走向通用智能的步骤，但实际上它们极其专门化：每个系统都精通单一游戏，在固定规则下运行，无法迁移到日常推理。

从窄域胜利到生成模型

GPT 系列标志着又一次语言方面的巨大飞跃。GPT-3 与 GPT-4 能起草文章、写代码并模仿风格，促使人们猜测 AGI 可能即将到来。

但这些模型仍然是基于文本的模式学习器。它们不设定目标、不构建有根的世界模型，也不会自主扩展能力。

在符号 AI、经典机器学习、深度学习以及如今的大型语言模型这些浪潮中，AGI 的梦想一再被狭窄成就所投射，然后在其局限暴露后被修正。

大型语言模型的实际工作方式

LLM 是在海量文本（书籍、网站、代码、论坛等）上训练的模式学习器。它们的目标看似简单：给定一些文本，预测下一个最可能出现的标记（token）。

标记与下一个词预测

在训练前，文本被拆分为标记：这些标记可能是整个单词（“猫”）、子词（“有”、“趣”），甚至标点符号。训练中模型反复看到这样的序列：

“那只猫坐在 ___ 上”

并学会为合理的下一个标记（“垫子”、“沙发”）分配高概率，为不合适的标记（“总统职位”）分配低概率。这个过程在数万亿个标记上扩展，塑造了数十亿乃至更多的内部参数。

在底层，模型只是一个把标记序列映射为下一个标记概率分布的非常大的函数。训练使用梯度下降来逐步调整参数，以便预测更符合数据中的模式。

通俗的扩展规律

“扩展规律”描述了研究者观察到的一种规律性：当你增加模型规模、数据规模和算力时，性能往往会以可预测的方式提升。更大的模型在更多文本上训练通常会在预测任务上表现更好——直到数据、算力和训练稳定性的实际上限为止。

LLM 实际“掌握”的是什么

LLM 并不像数据库那样存储事实，也不像人类那样推理。它们编码的是统计规律：哪些词、短语和结构在某些上下文中倾向于一起出现。

它们没有通过感知或物理经验获得的有根概念。LLM 能谈“红色”或“沉重”，仅仅因为这些词在文本中是如何被使用的，而不是因为它们看见过颜色或举起过重物。

这就是为什么模型有时听起来博学但仍会自信地犯错：它们是在扩展模式，而不是查阅一个显式的现实模型。

预训练、微调与基于人类反馈的强化学习（RLHF）

预训练 是模型学习通用语言模式的漫长初始阶段，通过在巨量文本语料上预测下一个标记来实现。这几乎是所有能力出现的地方。

之后，微调将预训练模型适配到更窄的目标：遵循指令、写代码、翻译或在特定领域提供帮助。微调通过给模型示例期望行为并稍微调整它实现。

基于人类反馈的强化学习（RLHF） 添加了另一层：人类对模型输出进行评分或比较，模型被优化以产生人类更偏好的回答（例如更有帮助、较少有害、较诚实）。RLHF 并不会赋予模型新的感官或更深的理解；它主要是塑造模型如何呈现和筛选其已学到的内容。

这些步骤共同造就了擅长流畅文本生成的系统，但它们仍然基于统计模式，而非具根的知识、目标或意识。

当前 LLM 出人意料地擅长的事情

大型语言模型令人印象深刻，因为它们能完成许多曾被认为遥不可及的任务。

按需生成代码、文本与翻译

LLM 可以生成可运行的代码片段、重构现有代码，甚至用通俗语言解释不熟悉的库。对许多开发者而言，它们已作为高度能干的对手程序员：建议边界情况、捕捉明显错误并搭建整个模块的骨架。

它们在摘要方面也很出色。给定一份长报告、论文或邮件串，LLM 可以将其压缩为要点、突出行动项或为不同受众调整语气。

翻译是另一项强项。现代模型能处理数十种语言，常常能捕捉风格与语域的细微差别，足以支持日常专业交流。

推理基准与涌现行为

随着模型规模扩大，新能力似乎“突然”出现：解逻辑谜题、通过职业考试或执行多步指令，而早期版本会失败。在标准化基准上——数学文字题、律师资格试题、医学测验——顶级 LLM 现在已能达到或超过平均人类分数。

这些涌现行为诱使人们认为模型在“像人类一样推理”或“理解”。性能曲线和排行榜强化了“我们正在接近 AGI”的印象。

为什么它感觉像理解，但并非如此

LLM 经训练以续写文本以匹配数据中的模式。这个训练目标，加上规模，足以模仿专业性与能动性：它们说话自信、能在会话内记住上下文，并能以流畅的文字为其答案辩解。

但这是一种理解的幻觉。模型不知道代码运行后的实际效果，不知道医疗诊断对病人的意义，也不知道某个计划会带来哪些物理行动。它没有超出文本的有根世界观。

在人类为对象设计的测试上取得强劲成绩，并不自动等同于 AGI。那表明在大规模文本数据上的模式学习能近似许多专业技能，但并未展示出通常所说的“通用人工智能”所需的灵活、有根、跨域的能力。

纯文本模式学习器的根本限制

安全测试 LLM 边界

使用规划模式在生成代码和界面前规划步骤。

开始规划

大型语言模型是非凡的文本预测器，但这种设计本身也带来了它们难以跨越的限制。

无感知、无具身世界

LLM 不会看、听、移动或操作物体。它们与世界的唯一接触是通过文本（以及某些新模型的静态图像或短视频）。它们没有连续的感官流、没有身体，也没有通过行动观察后果的途径。

没有传感器和具身性，它们无法形成有根的、持续更新的现实模型。像“重”“黏”“易碎”这样的词在文本中只是统计上的邻居，而非通过亲身经验形成的约束。这允许对理解的精彩模仿，但限制它们只能重组以往描述，而不能通过直接交互学习。

幻觉（hallucinations）与缺乏稳定信念

因为 LLM 的训练目标是延续一个标记序列，它会生成在其学到的模式中最吻合的续写，而不是与事实一致的续写。当数据稀少或冲突时，它就以听起来合理的捏造来填补空白。

模型也缺乏持久的信念状态。每次响应都是从提示和权重即时生成的；核心系统并不维护或修正“我所持有的事实”。长期记忆特性可以通过外部存储附加，但核心系统不会像人类那样维护或修订信念账本。

冻结的知识与有限的实时学习

训练 LLM 是一个离线且资源密集的批处理过程。更新其知识通常意味着在新数据集上再训练或微调，而不是在每次交互中平滑地学习。

这造成了一个关键限制：模型无法可靠地跟踪世界的快速变化，无法基于持续经验调整概念，或通过逐步学习纠正根本误解。充其量，它可以通过重新措辞输出或调用工具来模拟这种适应。

模式匹配而非因果理解

LLM 擅长捕捉统计规律：哪些词共现、哪些句子通常相随、什么样的解释是典型的。但这并不等同于掌握世界的因果运作方式。

因果理解涉及形成假设、进行干预、观察变化，并在预测失败时更新内部模型。一个纯文本预测器没有直接的方式去干预或体验惊讶。它可以描述一个实验，但不能亲自执行；它可以复述因果语言，却缺乏与行动和结果相连的内部机制。

只要系统局限于从过去的文本预测文本，它就仍然根本上是模式学习器。它可以模仿推理、讲述原因并假装修正看法，但它并不处于一个其“信念”会被后果检验的共享世界里。这个差距是语言掌握本身难以实现通用人工智能的核心原因。

为什么通用智能需要超越语言掌握

语言是与智能交互的强大接口，但并不是智能本身。预测合理句子的系统，与能在世界中理解、计划并行动的主体，有本质区别。

有根的概念，而非仅仅是词模式

人类通过看、触、移动与操作来学习概念。“杯子”不仅仅是词语在句子中的用法；它是你能抓住、盛水、掉落或打破的物品。心理学家称之为“有根性”（grounding）：概念与感知和动作相连。

一个人工通用智能很可能也需要类似的有根性。为了可靠泛化，系统必须把符号（如词或内部表征）与物理与社会世界中的稳定规律连接起来。

标准的大型语言模型仅从文本学习。它们对“杯子”的“理解”纯粹是统计性的：来自数十亿句子中词语之间的相关性。对于对话和编码这很强大，但在依赖直接交互的领域（例如需要物理操作的任务）里，它脆弱且易失效。

记忆、目标与一致的偏好

通用智能还涉及时间上的连续性：长期记忆、持久目标与相对稳定的偏好。人类积累经验、修正信念并在数月或数年间追求项目。

LLM 本身没有内置的持久记忆和内在目标。任何连续性或“个性”都必须通过外部工具（数据库、个人资料、系统提示）附加进来。默认情况下，每次查询都是一次新的模式匹配练习，而不是生命史中的一步。

规划、因果性与在世界中行动

AGI 常被定义为能解决各种任务（包括新颖任务），通过对因果关系进行推理并在环境中干预来实现。这意味着：

构建因果模型：如果我做 X，会发生什么？
在不确定性下进行多步行动规划
根据感官反馈更新计划

LLM 不是代理；它生成序列中的下一个标记。它可以描述计划或谈论因果性，因为文本中存在这些模式，但它本身并不原生地执行动作、观察结果并调整内部模型。

要把 LLM 变成一个能行动的系统，工程师必须把它包裹在用于感知、记忆、工具使用与控制的外部组件中。语言模型依然是强大的建议与评估模块，而不是自包含的通用智能体。

简而言之，通用智能需要有根的概念、持久的动机、因果模型与与世界的自适应交互。语言掌握——尽管极为有用——只是这更大图景中的一块。

意识、自我以及为什么 LLM 只是看起来像人一样

导出真实源代码

随时导出源代码，继续在你自己的工作流程中开发。

导出代码

当人们与流利的模型交谈时，很自然地认为对面存在一个心智。这个错觉很强，但它仍然是错觉。

AGI 是否需要意识？

研究者在 AGI 是否必须具备意识的问题上意见不一。

功能主义观点 认为：如果一个系统在行为上表现为通用智能体——在多个领域学习、规划、推理、适应——那么意识是可选的或不相关的。
现象学观点 认为：真正的理解和通用智能需要主观体验——即系统内部的“有感受的存在”。

我们尚无可检验的理论来终结这一争论。因此现在就断言 AGI 必须或不必具备意识都为时过早。当前更重要的是明确当前 LLM 缺乏什么。

没有统一的自我

大型语言模型是一个在文本快照上运行的统计下一个标记预测器。它不会在会话间或甚至在回合间携带稳定的身份，除非这些被编码在提示和短期上下文中。

没有属于单一持续主体的自传式持久记忆。
任何“人格”只是我们施加或指定的模式，而非随着时间延续的真实自我。

当 LLM 说“我”的时候，它仅仅是在遵循从数据中学到的语言惯例，而不是在指涉一个内部主体。

没有体验或内在动机

有意识的存在会有体验：它们感到痛苦、无聊、好奇、满足。它们还有内在的目标和关切——这些事情对它们本身就有意义，与外部奖励无关。

LLM 则：

在生成文本时并不会有什么感觉
没有自己的欲望、恐惧或偏好
除非我们为其编写或支撑脚本，否则不会自主追求长期项目

它们的“行为”是对文本模式的输出，受训练与提示约束，而不是内心生活的表达。

拟人化的危险性

语言是我们观察他人心智的主要窗口，流利的对话极易暗示有人格。但在 LLM 的情况下，正是在语言上我们最容易被误导。

把这些系统拟人化会导致：

扭曲风险评估（例如关心“感受受伤”而忽视实际的系统失效模式）
因为系统听起来自信和共情而导致过度信任与过度依赖
引发伦理混淆，例如为没有体验能力的系统讨论权利

把 LLM 当做人会模糊模拟与现实的界限。要对 AGI 以及当前的 AI 风险进行清晰思考，我们必须记住：令人信服的人类表现并不等同于成为一个人。

我们如何识别真正的 AGI？

如果我们真的建成了通用人工智能，如何知道它是真正的 AGI，而不是极其逼真的聊天机器人？

现有的方案：有用但不足

图灵式测试。 经典与现代的图灵测试询问：系统能否维持像人类一样的对话以骗过人？LLM 在这方面已经表现得相当好，这也说明该门槛很低。聊天技能衡量的是风格，而非理解深度、规划能力或现实世界能力。

ARC 风格评估。 受 Alignment Research Center 启发的任务侧重于新颖推理题、多步指令与工具使用。它们探查系统是否能通过组合技能解决从未见过的问题。LLM 能做部分此类任务，但经常需要精心设计的提示、外部工具与人工监督。

能动性测试。 所谓“代理”测试询问系统是否能在一段时间内追求开放式目标：把目标分解为子目标、修正计划、应对中断并从结果中学习。当前基于 LLM 的代理可以显得很有能动性，但背后依赖脆弱的脚本与人为设计的支撑。

识别 AGI 的实际标准

要把某物视为真正的 AGI，我们希望看到至少以下特征：

自主性。 能自主设定并管理子目标，监控进度并在失败时恢复，而非人类不断操控。
跨域迁移能力。 在一个领域学到的技能应能顺利迁移到非常不同的领域，而无需数以百万计的新样本再训练。
现实世界胜任能力。 能在物理、社会和数字的杂乱不确定环境中规划并行动——在这些环境中规则不完整且后果真实存在。

LLM 在这些方面的不足

即使将 LLM 包装成代理框架，它们通常：

依赖人工设计的工作流来显得自主
在任务明显偏离训练分布时难以迁移技能
需要外部工具、明确的安全过滤与人工介入以应对现实世界的风险

因此，通过聊天测试或狭窄基准并不足以判定 AGI。识别真正的 AGI 要看持续的自主性、跨域泛化以及在世界中可靠行动的能力——这些都是当前 LLM 仍需大量支撑才能部分实现且脆弱不稳的领域。

超越 LLM：研究人员为通向 AGI 探索的路径

如果认真对待 AGI，那么“一个巨大的文本模型”只是一个成分，而非最终系统。当前大多数被称为“朝 AGI 前进”的研究，实际上是在把 LLM 包裹进更丰富的架构。

把 LLM 作为代理系统的组件

一条主要方向是基于 LLM 的代理：用 LLM 作为推理与规划的核心，但将其包围以：

有状态的记忆，跨会话持久保存知识与经验
调度器与规划器，将目标分解为子任务并决定调用哪些工具
反馈回路，允许自我批评、修订与反复试验

在这里 LLM 不再是整个“智能”，而成为更广泛决策机器中的灵活语言接口。

工具使用、API 与外部知识

使 LLM 能调用外部工具（检索引擎、数据库、代码解释器或领域专用 API）可以帮助它：

获取最新或专业化信息
将数学、模拟与逻辑推理交给更可靠的引擎完成

这种补丁式方法可以修复文本单一学习的一些弱点，但随之整体智能的问题将转向调度与工具设计而非仅仅模型本身。

多模态模型与具身系统

另一条路径是多模态模型，它们能处理文本、图像、音频、视频甚至传感器数据，更接近人类整合感知与语言的方式。

再进一步，把 LLM 用于机器人或模拟身体，这些系统可以探索、行动并从物理反馈中学习，解决有关因果性与有根理解的一些缺失。

改变问题，而不是简单解决它

所有这些路径或许会让我们更接近 AGI 类能力，但它们也改变了研究目标。我们不再问“单个 LLM 能成为 AGI 吗？”，而是问“包含 LLM、工具、记忆、感知与具身性的复杂系统能否近似通用智能？”

这一区别很重要。LLM 是强大的文本预测器；AGI——如果可能的话——将是一个整体集成系统，其中语言只是部分组成。

将 LLM 误标为 AGI 的风险

可回滚发布

部署、快照并在实验导致应用出错时回滚。

立即构建

把当前大型语言模型称为“AGI”不仅是措辞错误。它会扭曲激励，制造安全盲点，并混淆需要就 AI 做出真实决策的人们。

炒作、失望与资源错误分配

当演示被框定为“早期 AGI”时，期望会远超系统实际能力。这种炒作有若干代价：

资金倾斜： 资金与人才追逐耸动的说法，而不是长期基础研究（推理、可解释性与安全）。
炒作→崩溃循环： 过度承诺导致系统在基本泛化上失败时不可避免的失望，进而引发低谷，损害严肃的研究工作。
产品设计偏差： 团队可能为展示“AGI 式”演示而优化，而非注重可靠性、评估与用户保障。

来自过度信任的安全风险

如果用户认为自己在与“通用”或“几乎是人”的系统对话，他们往往会：

在医疗、法律或金融决策中依赖未被验证的生成答案
赋予系统权威而不是把它当成易犯错的工具
忽视自信幻觉、隐含偏见与提示操控等微妙失效模式

过度信任会让普通的缺陷与错误变得更加危险。

政策与公众理解

监管者与公众本就难以跟上 AI 能力的发展。当每个强力自动补全都被宣传为 AGI，会带来：

监管错位： 立法者可能针对假想的 AGI 情景制定政策，而对现有系统的具体危害监管不足。
风险校准失衡： 人们要么为“超级智能”惊慌，要么把所有 AI 风险一概视为炒作而忽视。

精确用语为何重要

清晰的术语——“LLM”、“窄域模型”、“朝 AGI 方向的研究”——有助于将期望与现实对齐。对能力与局限的精确描述：

支持诚实的安全评估
促成更好的治理与标准
让公众在不被误导的前提下理解真实进展

在保持 AGI 全景观的同时明智使用 LLM

LLM 是出色的模式机器：它们把大量文本压缩进统计模型并预测可能的续写。这使得它们在写作辅助、编码帮助、数据探索与原型设计方面非常有力。但其架构仍然是窄域的：它不提供持久的自我、有根的世界理解、长期目标或跨域灵活学习——这些才是通用人工智能的定义要点。

把 LLM 当作工具，而非心智

LLM：

不以人类意义上的“理解”运作；它们操纵符号而无有根概念
没有目标或意图；任何动机的表象都是语言创造的幻觉
缺乏稳定的记忆与世界模型；它们在一个冻结的训练快照加短期上下文之上每次重新计算模式

这些结构性限制是仅扩展文本模型难以产出真正 AGI 的原因。你可以得到更好的流畅度、更广的知识回溯和逼真的推理模拟，但无法直接得到一个真正“知道、想要或在乎”的系统。

使用 LLM 的实用指南

在模式预测擅长的地方使用 LLM：

起草文本、摘要、编辑与翻译
探索选项、列出策略或头脑风暴
协助编码、查询与文档编写

在以下场景中保持人类明确在环：

事实准确性与关键决策
伦理或安全敏感的情境
长期规划、责任与问责

把输出当成需要核验的假设，而不是可被信赖的真相。

保持对 AGI 的清醒认识

把 LLM 称为“AGI”会掩盖它们的实际局限并导致过度依赖、监管混乱与错误恐惧。更诚实（也更安全）的做法是把它们看作嵌入人类工作流的高级助手。

如果你想进一步了解实用用例与权衡，请浏览我们在 /blog 上的相关文章。有关我们如何打包与定价 LLM 驱动工具的细节，请参阅 /pricing。

常见问题

什么是通用人工智能（AGI）？

AGI（通用人工智能）指的是一种能够：

在多个领域学习和推理（而不仅仅是单一任务）
在不重新设计系统的情况下适应新、陌生的问题
在最少人工干预下设定并追求自己的目标
将在一个领域学到的知识迁移到截然不同的领域并取得成功

一个粗略的规则：如果给它时间和资源，AGI原则上可以学习任何需要智力的工作，而无需为每个新任务定制架构。

为什么今天的大型语言模型不被视为真正的 AGI？

当前的 LLM 之所以不是通用人工智能，主要因为：

它们主要在文本（有时还有代码或图像/音频）上训练
优化目标是预测序列中的下一个标记
缺乏感知能力、身体、内在目标和持久记忆

它们可以模拟广泛的知识与推理，因为语言本身编码了大量人类专业知识。但它们：

没有与现实体验绑定的有根概念
不会维护随时间演化的信念体系
无法自主地跨时段规划与行动

因此，LLM 是强大的狭义语言模式学习器，而不是自包含的通用智能体。

为什么许多人将 LLM 与 AGI 混淆？

人们容易将流畅的语言能力与通用智能混淆，因为：

对他人心智的主要判断途径是对话
LLM 能在同一界面处理多种领域（代码、论文、邮件、摘要）
它们能通过人为设计的考试和基准测试

这些因素共同制造出一种“理解与代理”的幻觉。底层系统仍然是基于数据模式预测文本，而不是构建并使用一个有根的世界模型来追求自身目标。

LLM 在底层是如何工作的？

可以把 LLM 理解为：

一个将一系列标记映射到下一个标记概率的巨大函数
通过看到数万亿个示例并调整内部权重以更好地预测续写来训练

关键点：

它并不像数据库那样存储事实
它编码的是语言的统计规律
它没有内置的“真实”概念，只有基于过去文本的“合情合理”之感

所有看起来像推理或记忆的行为，都是从这个下一个标记目标、规模与精调中涌现出来的，而非来自显式的符号逻辑或持久信念库。

LLM 真正擅长什么，它们在哪些方面表现不佳？

当任务主要涉及对文本或代码的模式预测时，LLM 表现出色，例如：

起草、重写和摘要文档
翻译与风格适配
代码生成、重构和解释
头脑风暴或列出策略选项

当任务需要或涉及以下内容时，它们会表现欠佳或具有风险：

需要最新且可验证的事实
现实世界的因果推理和实验
长期规划并产生真实后果
伦理判断或承担责任

如果扩展效果这么明显，为什么更大的 LLM 不会最终成为 AGI？

“扩展规律”显示，增加模型规模、数据与算力通常会在许多基准上提升性能。但仅靠扩展不能解决结构性缺陷：

无法获得有根的感知或具身性
缺乏持久的自我、目标或人生史
缺少通过行动—观察—更新世界模型的直接交互回路

更大规模带来的是更好的流畅度和对已见文本模式的覆盖，使得模拟推理和专业性更具说服力，但并不必然产生通用、自主的智能。要实现那一点，需要新的架构成分与系统级设计。

我今天应如何实际使用 LLM，且不对其过度信任？

将 LLM 视为强大的助手，而非权威：

将输出视为草稿或假设，而非确证的事实
在高风险决策（医疗、法律、财务、安全关键）中保持人类在环
将 LLM 与工具（检索、计算器、IDE）配合以便核验
在敏感工作流中记录与审查使用情况

在产品与流程设计中要确保：

模型增强人类判断而非替代它
当模型不确定或失效时有明确的升级路径

把 LLM 标记为 AGI 有什么风险？

把现在的 LLM 称为“AGI”并非单纯的措辞错误，它会扭曲激励并带来安全盲点：

过度信任： 用户以为具有人类式理解与可靠性，从而在不合适的情况下依赖生成内容
错误的投资信号： 资金与人才追逐炒作，而非长期基础研究（推理、可解释性、安全）
监管混乱： 政策制定者可能把注意力放在假想的 AGI 情景上，而忽视当前系统造成的实际损害（偏见、错误信息、滥用）

更精确的术语（如 “LLM”，“窄域模型”，“基于 LLM 的代理系统”）有助于将期望与现实对齐，从而更好地评估能力与风险。

如果我们真的造出 AGI，我们如何识别它？

一个合理的判定标准会远超聊天能力。我们希望看到：

自主性： 系统能设定并管理自身子目标，并在失败后自我恢复
迁移能力： 在一个领域学到的技能能无须大量额外训练就迁移到截然不同的领域
现实世界能力： 它能在杂乱、不确定的物理与社交环境中规划与行动，而不仅限于文本
持续学习： 能根据持续经验更新内部模型，而非仅靠离线再训练

当前的 LLM 即使在代理框架下，也依赖大量人为脚本与工具协同才能近似这些行为，且在健壮性与通用性上仍有明显不足。

如果单靠 LLM 不够，研究者在通向 AGI 的现实路径上在探索哪些方向？

研究者将 LLM 视为组件（而非全部智能）的更广泛系统正在被探索，例如：

在 LLM 周围构建能记忆的代理架构、规划器与工具调度器
允许 LLM 调用外部 API、数据库与模拟器，从而获得最新或专门化信息
多模态与具身系统，将语言与感知、动作结合，使系统能通过探索与物理反馈学习

这些方向通过引入有根性、因果性与持久状态，向通用智能靠拢。但这同时把问题从“LLM 本身能否成为 AGI？”改为“包含 LLM 的复杂系统能否近似 AGI 行为？”