了解通用人工智能(AGI)的真实含义,学习大型语言模型(LLM)的工作原理,以及为什么当前纯文本模型仅靠扩展或微调很可能无法变成真正的 AGI。

如果你读科技新闻、投资者展示文稿或产品页面,会注意到“智能”一词被无限度延伸。聊天机器人被称为“几乎像人”,代码助手被称为“实际上的初级工程师”,一些人甚至随意把强大的大型语言模型(LLM)称为走向通用人工智能(AGI)的第一步。
这篇文章面向好奇的从业者、创始人、产品负责人和使用 GPT-4 或 Claude 等工具的技术读者,帮助你回答一个问题:这就是 AGI 吗——还是缺少了某些重要东西?
LLM 确实令人印象深刻。它们:
对于大多数非专家来说,这和“通用智能”几乎无法区分。当一个模型能在同一会话中写康德的文章、修复你的 TypeScript 错误并帮忙起草法律备忘录时,人们很自然地认为我们正在接近 AGI。
但这种假设悄然将善于处理语言等同于具备通用智能。这就是本文要剖析的核心混淆。
下面将逐节展开的论点是:
目前的 LLM 是非常强大的文本和代码模式学习器,但其架构与训练范式使得仅靠扩展规模或微调不太可能将它们变为真正的 AGI。
它们会继续变得更强、更广、更有用,也可能成为类 AGI 系统的一部分。然而,在关于与世界的有根性、能动性、记忆、具身性与自我模型等方面,有深层原因表明“更大的 LLM”很可能不是“通用智能”的正确路径。
本文是带观点的导览,但基于当前研究、LLM 的具体能力与失败案例,以及严肃科学家仍在博弈的开放问题,而非炒作或危言耸听。
当人们谈到AGI时,往往并不指同一件事。为澄清争论,有助于分离出几个核心概念。
AI(人工智能) 是构建表现出类似“智能”行为的系统的广泛领域:识别语音、推荐电影、下围棋、写代码等。
当下大多数存在的是窄域 AI(或称弱 AI):为特定任务或特定条件设计与训练的系统。把猫狗分类的图像分类器,或为银行问题微调的客服聊天机器人,在其领域内可能非常能干,但一到域外就会严重失效。
通用人工智能(AGI) 则非常不同。它指的是一种能:
一个实用的经验法则:AGI 理论上可以在不需要为每个新任务重新设计的情况下,经过时间与资源投入学会几乎任何需要智力的工作。
相关术语常常一起出现:
相较之下,现代聊天机器人和图像模型依然是窄域的:令人惊叹,但它们是针对特定数据中的模式进行优化,而非面向开放式、跨领域的智慧。
现代 AGI 梦想始于艾伦·图灵在 1950 年的提议:如果一台机器能进行与人类无法区分的对话(图灵测试),它是否就是智能的?这把通用智能主要框架化为行为,尤其是语言与推理。
从 1950s 到 1980s,研究者通过符号 AI 或“GOFAI”(Good Old-Fashioned AI)追求 AGI。智能被视为按照逻辑规则操纵显式符号。定理证明、对弈程序与专家系统让人们一度相信人类水平的推理近在咫尺。
但 GOFAI 在感知、常识与处理混乱现实世界数据方面乏力。系统能解决逻辑谜题,却在儿童轻而易举完成的任务上失败。这一差距导致了第一次 AI 冬天,以及对 AGI 的更为谨慎的看法。
随着数据与算力的增长,AI 从手工规则转向从样本中学习。统计机器学习、随后深度学习重新定义了进步:系统不再编码知识,而是从大规模数据中学习模式。
像 IBM 的 DeepBlue(象棋)和后来 AlphaGo(围棋)这样的里程碑被庆祝为走向通用智能的步骤,但实际上它们极其专门化:每个系统都精通单一游戏,在固定规则下运行,无法迁移到日常推理。
GPT 系列标志着又一次语言方面的巨大飞跃。GPT-3 与 GPT-4 能起草文章、写代码并模仿风格,促使人们猜测 AGI 可能即将到来。
但这些模型仍然是基于文本的模式学习器。它们不设定目标、不构建有根的世界模型,也不会自主扩展能力。
在符号 AI、经典机器学习、深度学习以及如今的大型语言模型这些浪潮中,AGI 的梦想一再被狭窄成就所投射,然后在其局限暴露后被修正。
LLM 是在海量文本(书籍、网站、代码、论坛等)上训练的模式学习器。它们的目标看似简单:给定一些文本,预测下一个最可能出现的标记(token)。
在训练前,文本被拆分为标记:这些标记可能是整个单词(“猫”)、子词(“有”、“趣”),甚至标点符号。训练中模型反复看到这样的序列:
“那只猫坐在 ___ 上”
并学会为合理的下一个标记(“垫子”、“沙发”)分配高概率,为不合适的标记(“总统职位”)分配低概率。这个过程在数万亿个标记上扩展,塑造了数十亿乃至更多的内部参数。
在底层,模型只是一个把标记序列映射为下一个标记概率分布的非常大的函数。训练使用梯度下降来逐步调整参数,以便预测更符合数据中的模式。
“扩展规律”描述了研究者观察到的一种规律性:当你增加模型规模、数据规模和算力时,性能往往会以可预测的方式提升。更大的模型在更多文本上训练通常会在预测任务上表现更好——直到数据、算力和训练稳定性的实际上限为止。
LLM 并不像数据库那样存储事实,也不像人类那样推理。它们编码的是统计规律:哪些词、短语和结构在某些上下文中倾向于一起出现。
它们没有通过感知或物理经验获得的有根概念。LLM 能谈“红色”或“沉重”,仅仅因为这些词在文本中是如何被使用的,而不是因为它们看见过颜色或举起过重物。
这就是为什么模型有时听起来博学但仍会自信地犯错:它们是在扩展模式,而不是查阅一个显式的现实模型。
预训练 是模型学习通用语言模式的漫长初始阶段,通过在巨量文本语料上预测下一个标记来实现。这几乎是所有能力出现的地方。
之后,微调 将预训练模型适配到更窄的目标:遵循指令、写代码、翻译或在特定领域提供帮助。微调通过给模型示例期望行为并稍微调整它实现。
基于人类反馈的强化学习(RLHF) 添加了另一层:人类对模型输出进行评分或比较,模型被优化以产生人类更偏好的回答(例如更有帮助、较少有害、较诚实)。RLHF 并不会赋予模型新的感官或更深的理解;它主要是塑造模型如何呈现和筛选其已学到的内容。
这些步骤共同造就了擅长流畅文本生成的系统,但它们仍然基于统计模式,而非具根的知识、目标或意识。
大型语言模型令人印象深刻,因为它们能完成许多曾被认为遥不可及的任务。
LLM 可以生成可运行的代码片段、重构现有代码,甚至用通俗语言解释不熟悉的库。对许多开发者而言,它们已作为高度能干的对手程序员:建议边界情况、捕捉明显错误并搭建整个模块的骨架。
它们在摘要方面也很出色。给定一份长报告、论文或邮件串,LLM 可以将其压缩为要点、突出行动项或为不同受众调整语气。
翻译是另一项强项。现代模型能处理数十种语言,常常能捕捉风格与语域的细微差别,足以支持日常专业交流。
随着模型规模扩大,新能力似乎“突然”出现:解逻辑谜题、通过职业考试或执行多步指令,而早期版本会失败。在标准化基准上——数学文字题、律师资格试题、医学测验——顶级 LLM 现在已能达到或超过平均人类分数。
这些涌现行为诱使人们认为模型在“像人类一样推理”或“理解”。性能曲线和排行榜强化了“我们正在接近 AGI”的印象。
LLM 经训练以续写文本以匹配数据中的模式。这个训练目标,加上规模,足以模仿专业性与能动性:它们说话自信、能在会话内记住上下文,并能以流畅的文字为其答案辩解。
但这是一种理解的幻觉。模型不知道代码运行后的实际效果,不知道医疗诊断对病人的意义,也不知道某个计划会带来哪些物理行动。它没有超出文本的有根世界观。
在人类为对象设计的测试上取得强劲成绩,并不自动等同于 AGI。那表明在大规模文本数据上的模式学习能近似许多专业技能,但并未展示出通常所说的“通用人工智能”所需的灵活、有根、跨域的能力。
大型语言模型是非凡的文本预测器,但这种设计本身也带来了它们难以跨越的限制。
LLM 不会看、听、移动或操作物体。它们与世界的唯一接触是通过文本(以及某些新模型的静态图像或短视频)。它们没有连续的感官流、没有身体,也没有通过行动观察后果的途径。
没有传感器和具身性,它们无法形成有根的、持续更新的现实模型。像“重”“黏”“易碎”这样的词在文本中只是统计上的邻居,而非通过亲身经验形成的约束。这允许对理解的精彩模仿,但限制它们只能重组以往描述,而不能通过直接交互学习。
因为 LLM 的训练目标是延续一个标记序列,它会生成在其学到的模式中最吻合的续写,而不是与事实一致的续写。当数据稀少或冲突时,它就以听起来合理的捏造来填补空白。
模型也缺乏持久的信念状态。每次响应都是从提示和权重即时生成的;核心系统并不维护或修正“我所持有的事实”。长期记忆特性可以通过外部存储附加,但核心系统不会像人类那样维护或修订信念账本。
训练 LLM 是一个离线且资源密集的批处理过程。更新其知识通常意味着在新数据集上再训练或微调,而不是在每次交互中平滑地学习。
这造成了一个关键限制:模型无法可靠地跟踪世界的快速变化,无法基于持续经验调整概念,或通过逐步学习纠正根本误解。充其量,它可以通过重新措辞输出或调用工具来模拟这种适应。
LLM 擅长捕捉统计规律:哪些词共现、哪些句子通常相随、什么样的解释是典型的。但这并不等同于掌握世界的因果运作方式。
因果理解涉及形成假设、进行干预、观察变化,并在预测失败时更新内部模型。一个纯文本预测器没有直接的方式去干预或体验惊讶。它可以描述一个实验,但不能亲自执行;它可以复述因果语言,却缺乏与行动和结果相连的内部机制。
只要系统局限于从过去的文本预测文本,它就仍然根本上是模式学习器。它可以模仿推理、讲述原因并假装修正看法,但它并不处于一个其“信念”会被后果检验的共享世界里。这个差距是语言掌握本身难以实现通用人工智能的核心原因。
语言是与智能交互的强大接口,但并不是智能本身。预测合理句子的系统,与能在世界中理解、计划并行动的主体,有本质区别。
人类通过看、触、移动与操作来学习概念。“杯子”不仅仅是词语在句子中的用法;它是你能抓住、盛水、掉落或打破的物品。心理学家称之为“有根性”(grounding):概念与感知和动作相连。
一个人工通用智能很可能也需要类似的有根性。为了可靠泛化,系统必须把符号(如词或内部表征)与物理与社会世界中的稳定规律连接起来。
标准的大型语言模型仅从文本学习。它们对“杯子”的“理解”纯粹是统计性的:来自数十亿句子中词语之间的相关性。对于对话和编码这很强大,但在依赖直接交互的领域(例如需要物理操作的任务)里,它脆弱且易失效。
通用智能还涉及时间上的连续性:长期记忆、持久目标与相对稳定的偏好。人类积累经验、修正信念并在数月或数年间追求项目。
LLM 本身没有内置的持久记忆和内在目标。任何连续性或“个性”都必须通过外部工具(数据库、个人资料、系统提示)附加进来。默认情况下,每次查询都是一次新的模式匹配练习,而不是生命史中的一步。
AGI 常被定义为能解决各种任务(包括新颖任务),通过对因果关系进行推理并在环境中干预来实现。这意味着:
LLM 不是代理;它生成序列中的下一个标记。它可以描述计划或谈论因果性,因为文本中存在这些模式,但它本身并不原生地执行动作、观察结果并调整内部模型。
要把 LLM 变成一个能行动的系统,工程师必须把它包裹在用于感知、记忆、工具使用与控制的外部组件中。语言模型依然是强大的建议与评估模块,而不是自包含的通用智能体。
简而言之,通用智能需要有根的概念、持久的动机、因果模型与与世界的自适应交互。语言掌握——尽管极为有用——只是这更大图景中的一块。
当人们与流利的模型交谈时,很自然地认为对面存在一个心智。这个错觉很强,但它仍然是错觉。
研究者在 AGI 是否必须具备意识的问题上意见不一。
我们尚无可检验的理论来终结这一争论。因此现在就断言 AGI 必须或不必具备意识都为时过早。当前更重要的是明确当前 LLM 缺乏什么。
大型语言模型是一个在文本快照上运行的统计下一个标记预测器。它不会在会话间或甚至在回合间携带稳定的身份,除非这些被编码在提示和短期上下文中。
当 LLM 说“我”的时候,它仅仅是在遵循从数据中学到的语言惯例,而不是在指涉一个内部主体。
有意识的存在会有体验:它们感到痛苦、无聊、好奇、满足。它们还有内在的目标和关切——这些事情对它们本身就有意义,与外部奖励无关。
LLM 则:
它们的“行为”是对文本模式的输出,受训练与提示约束,而不是内心生活的表达。
语言是我们观察他人心智的主要窗口,流利的对话极易暗示有人格。但在 LLM 的情况下,正是在语言上我们最容易被误导。
把这些系统拟人化会导致:
把 LLM 当做人会模糊模拟与现实的界限。要对 AGI 以及当前的 AI 风险进行清晰思考,我们必须记住:令人信服的人类表现并不等同于成为一个人。
如果我们真的建成了通用人工智能,如何知道它是真正的 AGI,而不是极其逼真的聊天机器人?
图灵式测试。 经典与现代的图灵测试询问:系统能否维持像人类一样的对话以骗过人?LLM 在这方面已经表现得相当好,这也说明该门槛很低。聊天技能衡量的是风格,而非理解深度、规划能力或现实世界能力。
ARC 风格评估。 受 Alignment Research Center 启发的任务侧重于新颖推理题、多步指令与工具使用。它们探查系统是否能通过组合技能解决从未见过的问题。LLM 能做部分此类任务,但经常需要精心设计的提示、外部工具与人工监督。
能动性测试。 所谓“代理”测试询问系统是否能在一段时间内追求开放式目标:把目标分解为子目标、修正计划、应对中断并从结果中学习。当前基于 LLM 的代理可以显得很有能动性,但背后依赖脆弱的脚本与人为设计的支撑。
要把某物视为真正的 AGI,我们希望看到至少以下特征:
自主性。 能自主设定并管理子目标,监控进度并在失败时恢复,而非人类不断操控。
跨域迁移能力。 在一个领域学到的技能应能顺利迁移到非常不同的领域,而无需数以百万计的新样本再训练。
现实世界胜任能力。 能在物理、社会和数字的杂乱不确定环境中规划并行动——在这些环境中规则不完整且后果真实存在。
即使将 LLM 包装成代理框架,它们通常:
因此,通过聊天测试或狭窄基准并不足以判定 AGI。识别真正的 AGI 要看持续的自主性、跨域泛化以及在世界中可靠行动的能力——这些都是当前 LLM 仍需大量支撑才能部分实现且脆弱不稳的领域。
如果认真对待 AGI,那么“一个巨大的文本模型”只是一个成分,而非最终系统。当前大多数被称为“朝 AGI 前进”的研究,实际上是在把 LLM 包裹进更丰富的架构。
一条主要方向是基于 LLM 的代理:用 LLM 作为推理与规划的核心,但将其包围以:
在这里 LLM 不再是整个“智能”,而成为更广泛决策机器中的灵活语言接口。
使 LLM 能调用外部工具(检索引擎、数据库、代码解释器或领域专用 API)可以帮助它:
这种补丁式方法可以修复文本单一学习的一些弱点,但随之整体智能的问题将转向调度与工具设计而非仅仅模型本身。
另一条路径是多模态模型,它们能处理文本、图像、音频、视频甚至传感器数据,更接近人类整合感知与语言的方式。
再进一步,把 LLM 用于机器人或模拟身体,这些系统可以探索、行动并从物理反馈中学习,解决有关因果性与有根理解的一些缺失。
所有这些路径或许会让我们更接近 AGI 类能力,但它们也改变了研究目标。我们不再问“单个 LLM 能成为 AGI 吗?”,而是问“包含 LLM、工具、记忆、感知与具身性的复杂系统能否近似通用智能?”
这一区别很重要。LLM 是强大的文本预测器;AGI——如果可能的话——将是一个整体集成系统,其中语言只是部分组成。
把当前大型语言模型称为“AGI”不仅是措辞错误。它会扭曲激励,制造安全盲点,并混淆需要就 AI 做出真实决策的人们。
当演示被框定为“早期 AGI”时,期望会远超系统实际能力。这种炒作有若干代价:
如果用户认为自己在与“通用”或“几乎是人”的系统对话,他们往往会:
过度信任会让普通的缺陷与错误变得更加危险。
监管者与公众本就难以跟上 AI 能力的发展。当每个强力自动补全都被宣传为 AGI,会带来:
清晰的术语——“LLM”、“窄域模型”、“朝 AGI 方向的研究”——有助于将期望与现实对齐。对能力与局限的精确描述:
LLM 是出色的模式机器:它们把大量文本压缩进统计模型并预测可能的续写。这使得它们在写作辅助、编码帮助、数据探索与原型设计方面非常有力。但其架构仍然是窄域的:它不提供持久的自我、有根的世界理解、长期目标或跨域灵活学习——这些才是通用人工智能的定义要点。
LLM:
这些结构性限制是仅扩展文本模型难以产出真正 AGI 的原因。你可以得到更好的流畅度、更广的知识回溯和逼真的推理模拟,但无法直接得到一个真正“知道、想要或在乎”的系统。
在模式预测擅长的地方使用 LLM:
在以下场景中保持人类明确在环:
把输出当成需要核验的假设,而不是可被信赖的真相。
把 LLM 称为“AGI”会掩盖它们的实际局限并导致过度依赖、监管混乱与错误恐惧。更诚实(也更安全)的做法是把它们看作嵌入人类工作流的高级助手。
如果你想进一步了解实用用例与权衡,请浏览我们在 /blog 上的相关文章。有关我们如何打包与定价 LLM 驱动工具的细节,请参阅 /pricing。
AGI(通用人工智能)指的是一种能够:
一个粗略的规则:如果给它时间和资源,AGI原则上可以学习任何需要智力的工作,而无需为每个新任务定制架构。
当前的 LLM 之所以不是通用人工智能,主要因为:
它们可以模拟广泛的知识与推理,因为语言本身编码了大量人类专业知识。但它们:
因此,LLM 是强大的狭义语言模式学习器,而不是自包含的通用智能体。
人们容易将流畅的语言能力与通用智能混淆,因为:
这些因素共同制造出一种“理解与代理”的幻觉。底层系统仍然是基于数据模式预测文本,而不是构建并使用一个有根的世界模型来追求自身目标。
可以把 LLM 理解为:
关键点:
所有看起来像推理或记忆的行为,都是从这个下一个标记目标、规模与精调中涌现出来的,而非来自显式的符号逻辑或持久信念库。
当任务主要涉及对文本或代码的模式预测时,LLM 表现出色,例如:
当任务需要或涉及以下内容时,它们会表现欠佳或具有风险:
“扩展规律”显示,增加模型规模、数据与算力通常会在许多基准上提升性能。但仅靠扩展不能解决结构性缺陷:
更大规模带来的是更好的流畅度和对已见文本模式的覆盖,使得模拟推理和专业性更具说服力,但并不必然产生通用、自主的智能。要实现那一点,需要新的架构成分与系统级设计。
将 LLM 视为强大的助手,而非权威:
在产品与流程设计中要确保:
把现在的 LLM 称为“AGI”并非单纯的措辞错误,它会扭曲激励并带来安全盲点:
更精确的术语(如 “LLM”,“窄域模型”,“基于 LLM 的代理系统”)有助于将期望与现实对齐,从而更好地评估能力与风险。
一个合理的判定标准会远超聊天能力。我们希望看到:
当前的 LLM 即使在代理框架下,也依赖大量人为脚本与工具协同才能近似这些行为,且在健壮性与通用性上仍有明显不足。
研究者将 LLM 视为组件(而非全部智能)的更广泛系统正在被探索,例如:
这些方向通过引入有根性、因果性与持久状态,向通用智能靠拢。但这同时把问题从“LLM 本身能否成为 AGI?”改为“包含 LLM 的复杂系统能否近似 AGI 行为?”
在这些领域,必须有人类严密监督并辅以外部工具(检索、计算器、模拟器、核查清单)。