探索扬·勒昆的核心思想与重要里程碑——从卷积神经网络与 LeNet 到现代自监督学习——以及为什么他的工作至今依然塑造着 AI。

扬·勒昆是那些其思想悄然成为现代 AI“默认设定”的研究者之一。如果你用过类似 Face ID 的解锁、自动照片标注,或任何识别图像内容的系统,那么你正在使用的设计选择中,就有勒昆帮助证明能在大规模上奏效的部分。
勒昆的影响并不限于某一项发明。他推动了一种务实的工程思维注入 AI:构建能从真实数据中学习有用表征、运行高效并能随经验改进的系统。这种科学的清晰性加上对现实性能的坚持,在从计算机视觉产品到当下模型训练流水线的方方面面都能看到其影子。
深度学习是一种广义方法:使用多层神经网络从数据中学习模式,而不是人工编写规则。
自监督学习是一种训练策略:系统从数据本身构造学习任务(例如预测缺失部分),从而可以用大量无标签数据进行学习。勒昆长期倡导自监督,因为它更贴近人类与动物的学习方式——通过观察而非不断指令。
这篇文章既有传记成分,也有核心思想的导览:早期神经网络工作如何导向卷积网络,为什么表示学习变得核心,以及为什么自监督学习现在被视为通向更有能力 AI 的重要路径。最后我们会给出面向团队的实际建议。
关于“深度学习教父”这一称号的简短说明:这是个流行的简称(常用于勒昆、Geoffrey Hinton 和 Yoshua Bengio),并非正式头衔。关键在于这些思想如何成为基础。
理解扬·勒昆的早期职业生涯,最容易把它看作对一个想法的持续下注:计算机应当从原始数据中学习合适的特征,而不是依赖人类手工设计。
在80 年代中后期,勒昆专注于一个实用且顽固的问题:如何让机器在像图像这样嘈杂的真实输入上识别模式。
到了80 年代末到 90 年代初,他推动可端到端训练的神经网络方法——也就是输入示例,系统自我调整以变得更好。
这一阶段为他后来的工作奠定了基础(例如 CNN 与 LeNet),但关键故事是思维方式:别再争论规则,开始从数据中学习。
早期很多 AI 试图把智能编码为显式规则:“如果 X,那么 Y。”这在严格受控的情形下或许可行,但在世界嘈杂、手写风格多样、光照变化或视角微变时会崩溃。
勒昆的方法倾向于统计学习:在大量示例上训练模型,让它发现人类甚至难以清晰描述的模式。与其列出一个“7”长什么样的规则表,不如向系统展示成千上万的 7,让它学会将“7”与“1”“2”等分开表示。
即便在早期,目标也不仅仅是“得到正确答案”。目标是学习有用的内部表征——紧凑、可复用的特征,使未来的决策更容易。这一主题贯穿于他之后的所有工作:更好的视觉模型、更可扩展的训练,以及最终推动自监督学习的努力。
CNN 是为“看见”像图像这样具有网格结构的数据而设计的一类神经网络。它们的主要技巧是卷积。
把卷积想象成一个小的模式检测器在图像上滑动。在每个位置,它在问:“我在这里看到类似边缘、角点、条纹或纹理的东西吗?”同一个检测器在整个图像复用,因此无论某种模式出现在何处,它都能被发现。
局部连接: 每个检测器只看图像的一小片区域,而不是整张图。这让学习更容易,因为相邻像素通常相关。
权重共享: 滑动的检测器在每个位置使用相同的权重。这样显著减少参数并帮助模型在不同位置识别相同特征。
池化(或下采样): 在检测到特征后,网络通常汇总邻域响应(例如取最大值或平均值)。池化保留强信号、减小尺寸,并对小幅位移提供一定容错。
图像有结构:相邻像素形成有意义的形状;同一物体可以出现在任意位置;模式会重复出现。CNN 在架构上内置了这些假设,因此比全连接网络用更少的数据和计算学到更有用的视觉特征。
CNN 不只是“一个大分类器”。它是一个特征构建管线:早期层发现边缘,中间层组合成部分,后期层把部分组装成物体。
另外,CNN 并不天生“理解”场景;它们从训练数据学到统计线索。这就是为什么数据质量和评估和模型本身一样重要。
LeNet 是早期深度学习在有用性方面最清晰的示例之一。它由扬·勒昆与合作者在 1990 年代开发,目标是识别手写字符,尤其是数字,用于支票、表单和扫描文档等场景。
高层次上,LeNet 接受一个图像(比如包含数字的小灰度裁切)并输出一个分类(0–9)。现在听起来很普通,但它重要之处在于把整条流水线串联起来:特征提取和分类作为一个整体来学习。
它不再依赖手工规则——比如“检测边缘,然后测环路,再应用决策树”——而是直接从有标签示例中学习内部视觉特征。
LeNet 的影响力不在于惊艳展示,而在于它证明了端到端学习方法在真实视觉任务中可行:
“同时学习特征和分类器”的思想是后来深度学习成功的主线之一。
今天很多在深度学习中看起来很自然的习惯,在 LeNet 的基本哲学中就已有体现:
尽管现代模型使用更多数据、更多算力和更深的架构,LeNet 帮助规范了神经网络作为实用工程工具的观念——尤其是在感知问题上。
值得保持克制:LeNet 不是“第一个深度网络”,也不是单凭一己之力引发深度学习热潮。但它是一个广泛认同的里程碑,展示了在重要且具体的问题上,学习表征能够超越手工流水线——这发生在深度学习成为主流之前很多年。
表示学习的观念是:模型不应只学会最终答案(例如“猫”或“狗”),它应学到对多类决策均有帮助的内部特征。
想象收拾一个混乱的衣柜。你可以逐件标注(“蓝衬衫”“冬大衣”“跑鞋”),也可以先创建组织类别——按季节、按类型、按尺码——然后用这些类别快速找到所需。
好的“表示”就像这些类别:把世界压缩成一种紧凑的描述方式,使许多下游任务更容易完成。
在深度学习出现之前,团队常常手工工程特征:边缘检测器、纹理描述符、精细调优的测量指标。这种方法有两个主要局限:
勒昆的核心贡献——通过卷积网络推广的思路——展示了直接从数据学习特征在复杂多变的问题上常常能超越手工流水线。你不是告诉系统该看什么,而是让它发现真正有预测力的模式。
一旦模型学到强表征,就可以复用它。一个训练用于理解通用视觉结构的网络(边缘→形状→部分→物体)可以用更少的数据适配到新任务:缺陷检测、医学影像初筛、商品匹配等。
这就是表示的实用魔力:你不是每次都从零开始,而是在已有的“理解”上构建。
如果你在团队里构建 AI,表示学习提示了一个简单的优先级顺序:
把这三项做好,更好的表示和更好的性能通常随之而来。
自监督学习是让 AI 通过把原始数据变成自己的“测验”来学习的方法。系统不再完全依赖人工为每个样本打标签(猫、狗、垃圾邮件),而是从数据本身构造一个预测任务,通过尝试做对来学习。
把它想象成通过阅读学语言:你不需要老师为每个句子标注——你可以通过猜测接下来会出现什么并检验对错来学习模式。
一些常见的自监督任务很容易想象:
标注既慢又贵,而且常常不一致。自监督学习可以利用组织已有的大量无标签数据——照片、文档、电话录音、传感器日志——来学到通用表征。随后用较小的有标签数据对模型微调,完成特定任务。
自监督学习是推动现代系统的主要引擎之一,应用于:
在监督、无监督和自监督之间选择,主要取决于你能否以可扩展的方式获得哪种信号。
监督学习用人工提供的标签(例如“这张照片有猫”)训练。标签准确时它直接且高效。
无监督学习在没有标签的情况下寻找结构(例如对客户行为聚类)。它有用,但“结构”可能含糊,结果未必直接对应业务目标。
自监督学习是务实的折衷:它从数据本身创建训练目标(预测缺失词、下一帧、图像的被遮挡部分等),因此依然得到学习信号,但不需要人工标签。
当下列情形成立时,人工标签值得投入:
当下列情形出现时,标签成为瓶颈:
常见模式是:
这通常减少标注需求,在低数据环境下提升性能,并更好地迁移到相关任务。
最佳选择通常受标注能力、预期变化速度以及你希望模型跨任务泛化的广度所制约。
能量模型(Energy-Based Models, EBM)是一种更接近“排序”而非“标注”的学习方式。它不强迫模型输出单一正确答案(比如“猫”或“非猫”),而是学习一个评分函数:对看起来合理的配置给出低“能量”(好评分),对不合理的给出高能量(差评分)。
“配置”可以是很多东西:图像与拟议的标题、部分场景与缺失物体、或机器人状态与建议动作。EBM 的任务是判断“这个配对合理吗”(低能量)还是“不一致/不合理”(高能量)。
这个简单思想强大之处在于它不要求把世界简化为单一标签。你可以比较备选项并挑出评分最高的,这类似于人类常用的解决问题方式:考虑选项、排除不可能的、并不断改进。
研究者喜欢 EBM,因为它允许更灵活的训练目标。你可以训练模型把真实示例下推(降低能量),同时把错误或“负样本”上推(提高能量)。这能鼓励模型学习数据中的有用结构——规律、约束与关系——而非简单地记忆输入到输出的映射。
勒昆把这一观点与更宏大的目标联系起来,例如“世界模型”:捕捉世界如何运作的内部模型。如果模型能对什么是合理进行评分,它就可以支持规划,通过评估候选未来或动作序列并偏好那些与现实一致的选项。
勒昆在顶级 AI 研究者中罕见的一点是,他的影响力横跨学术研究与大型工业实验室。在大学与研究机构,他的工作帮助把神经网络作为手工特征的替代路线确立为严肃选择——这一思想后来成为计算机视觉及更多领域的默认做法。
一个研究领域的前进不仅靠论文推动;还需靠决定下一步做什么、使用哪些基准、哪些思想值得放大的人。通过领导团队和培养研究者,勒昆帮助把表示学习——以及后来自监督学习——变成长期工程而非一次性实验。
工业实验室重要的实际原因有:
Meta AI 是这类环境的一个显著例子:基础研究团队可以在此处规模化验证想法,并观察模型选择对真实系统的影响。
当领导者把研究重心放在更好表征、减少对标签的依赖与更强泛化时,这些优先级会向外扩散,影响用户使用的工具——照片组织、翻译、无障碍功能(图像描述)、内容理解与推荐。即便用户从未听说“自监督”,其收益也可能是模型更快适应、更少注释需求并在现实世界中更稳健地工作。
2018 年,扬·勒昆获得了 ACM A.M. 图灵奖——常被称为“计算机界的诺贝尔奖”。该奖在高层面上认可了深度学习如何改变了这一领域:研究者可以训练系统从数据中学到有用特征,而非手工编码视觉或语音的规则,这解锁了准确率和实用性的重大飞跃。
这一荣誉与 Geoffrey Hinton 和 Yoshua Bengio 共享。意义在于,现代深度学习的故事是由多个群体推进的:不同团队推进了不同环节,有时并行发展,有时直接在彼此工作基础上构建。
这不是关于某一篇“杀手”论文或单一模型,而是关于一长串思想如何变成现实系统——尤其是神经网络变得可规模化训练并学到能泛化的表征。
奖项可能让进展看似由少数“英雄”推动,但实际更具共同性:
因此图灵奖最好被看作是对一个转折点的聚光:由社区推动的改变,使深度学习变得既可信又可部署。
尽管深度学习成功,勒昆的工作仍处在活跃争论之中:当下系统擅长什么、哪方面仍然薄弱、哪些研究方向可能弥合差距。
一些反复出现的问题出现在各大 AI 实验室与产品团队:
深度学习历史上是数据密集型的:监督模型可能需要大量有标签数据,而这些标签既昂贵又可能编码人类偏见。
模型泛化也很不均衡。模型在基准上看似强大,但在更混乱的真实部署场景中可能表现欠佳——新人群、新设备、新工作流或新策略都会带来差距。这也是团队在单一测试集之外大量投入监控、重训练与评估的原因之一。
自监督学习尝试通过从原始数据固有结构中学习来降低对标签的依赖:预测缺失部分、学习不变性或对齐同一内容的不同视图。
承诺很直接:如果系统能从海量无标签文本、图像、音频或视频中学到有用的表征,那么较小的有标签数据就足以把它适配到具体任务上。SSL 也鼓励学习能在不同问题间迁移的更通用特征。
已被证明的:SSL 与表示学习能显著提升性能并在任务间复用模型,尤其在标签稀缺时。
仍在研究的:可靠地学习世界模型、规划与组合式推理;防止在分布变化下失败;以及构建能持续学习而不遗忘或漂移的系统。
勒昆的工作提醒我们,“最先进”不如“合适目的”重要。在产品中构建 AI 时,优势常来自选择满足现实约束的最简单方法。
在选模型之前,写下“好”的含义:用户结果、错误代价、延迟与维护负担。
一个实用的评估计划通常包含:
把数据当成资产并规划路线。标注昂贵,因此要有目的:
一个实用法则:早期投资于数据质量与覆盖,胜过追求更大的模型。
在许多视觉任务中,尤其需要效率与可预测行为(分类、检测、OCR 类流水线)时,CNN 仍是强有力的默认选择。新架构可能在准确率或多模态灵活性上胜出,但通常在算力、复杂性与部署成本上更高。
当约束严格(移动/边缘、高清吞吐、训练预算有限)时,经过良好调优的 CNN 加上优秀的数据常常比“更花哨”的模型更早交付价值。
勒昆工作中的一个反复主题是端到端思考:不仅是模型本身,还有围绕它的流水线——数据收集、评估、部署与迭代。在实践中,许多团队不是因为架构错了而停滞,而是因为构建配套产品表面(管理工具、标注界面、审核流程、监控面板)所需时间太长。
这时现代“vibe-coding”工具能降低摩擦。例如,Koder.ai 允许团队通过聊天驱动工作流快速原型并发布 Web、后端与移动应用——当你需要一个内部评估应用(如带有 Go + PostgreSQL 后端的 React 仪表盘)迅速上线、希望在快速迭代期间有快照/回滚,或需要在工作流稳定后导出源码并用自定义域部署时,这类工具很有用。重点不是替代 ML 研究,而是缩短从好想法到可用系统的摩擦。
如果你在策划 AI 项目,可浏览 /docs 获取实现指南,查看 /pricing 了解部署选项,或在 /blog 中探索更多文章。
他证明了从数据中学习的表征(由模型发现的特征)可以在真实、嘈杂的输入(例如图像)上优于手工规则。那种思路——端到端训练、追求可扩展的性能与可复用的特征——成了现代 AI 系统的范式。
深度学习是使用多层神经网络从数据中学习模式的广义方法。
**自监督学习(SSL)**是一种训练策略,模型从原始数据中自行生成学习信号(例如预测缺失部分)。SSL 经常减少对人工标签的依赖,并能产生可复用的表征。
卷积就是把一个小的检测器(滤波器)在图像上“滑动”,寻找边缘、纹理等局部模式。将相同的检测器在整张图上重复使用能提高学习效率,并在物体位置发生移动时仍能识别出来。
三个核心思想:
LeNet 展示了一个端到端神经网络可以在真实的业务场景(手写数字识别)中达到实用性能。它把特征提取和分类放在同一个可训练系统里,从而让“学习特征并训练分类器”成为可行的工程实践。
表示学习的核心思想是模型应该学到内部特征,这些特征在下游任务中普遍有用,而不仅仅给出最终标签。强表示可简化后续任务、支持迁移学习,并往往比人工工程的特征更鲁棒。
当你有充分且一致的标签以及稳定任务时,优先用监督学习。
当你有大量原始数据但标签稀缺或领域会变化时,先用自监督预训练 + 微调。
当目标是探索性分析(聚类/异常发现)而不是预测时,考虑无监督方法,然后用下游指标验证。
常见的自监督任务包括:
预训练后,通常用较小的有标签数据对模型微调以完成目标任务。
能量模型学习一个评分函数:合理的配置得低能量(好分数),不合理的配置得高能量(差分数)。这种表述适合需要在若干候选中比较并选优的场景,而不强求模型输出单一标签。它与构建“世界模型”和规划(对候选未来或动作序列评分)有连接。
实用要点:
当标签是瓶颈时考虑 SSL;在受限算力或边缘部署时,经过良好调优的 CNN 仍经常是最佳选择。把评估与数据策略当作工程优先项,而不是事后补充。