Yann LeCun：深度学习与自监督 AI 的先驱

Q: 如果我不看研究论文，为什么扬·勒昆仍然对现代 AI 很重要？

他证明了 从数据中学习的表征 （由模型发现的特征）可以在真实、嘈杂的输入（例如图像）上优于手工规则。那种思路——端到端训练、追求可扩展的性能与可复用的特征——成了现代 AI 系统的范式。

Q: 深度学习和自监督学习有什么区别？

深度学习 是使用多层神经网络从数据中学习模式的广义方法。 自监督学习（SSL） 是一种训练策略，模型从原始数据中自行生成学习信号（例如预测缺失部分）。SSL 经常减少对人工标签的依赖，并能产生可复用的表征。

Q: CNN 的关键设计思想有哪些？

三个核心思想： - 局部连接（Local connectivity）： 每个滤波器只看局部小块，而不是整张图。 - 权重共享（Shared weights）： 同一个滤波器在各个位置复用，显著减少参数量。 - 池化/下采样（Pooling/downsampling）： 汇总邻域响应，保留强信号、减小尺寸并对小位移有容错性。

Q: 为什么 LeNet 被认为是实际深度学习的里程碑？

LeNet 展示了一个 端到端神经网络 可以在真实的业务场景（手写数字识别）中达到实用性能。它把特征提取和分类放在同一个可训练系统里，从而让“学习特征并训练分类器”成为可行的工程实践。

Q: 什么是表示学习？为什么它是勒昆影响力的核心？

表示学习的核心思想是模型应该学到 内部特征 ，这些特征在下游任务中普遍有用，而不仅仅给出最终标签。强表示可简化后续任务、支持迁移学习，并往往比人工工程的特征更鲁棒。

Q: 我如何在监督、自监督和无监督学习之间做选择？

当你有充分且一致的标签以及稳定任务时，优先用 监督学习 。 当你有大量原始数据但标签稀缺或领域会变化时，先用 自监督预训练 + 微调 。 当目标是探索性分析（聚类/异常发现）而不是预测时，考虑 无监督方法 ，然后用下游指标验证。

Q: 常见的自监督学习任务有哪些？它们在实践中如何使用？

常见的自监督任务包括： - 遮挡/填充（masking） ：预测被遮挡的文本段或图像补丁。 - 下一步预测（next-step） ：预测下一词、下一帧或下一段音频。 - 对比学习（contrastive learning） ：把同一实例的不同视图（例如不同裁剪的图片）匹配在一起，把不同实例区分开来。 预训练后，通常用较小的有标签数据对模型 微调 以完成目标任务。

Q: 什么是能量模型（EBM），研究人员为什么关心它？

能量模型学习一个 评分函数 ：合理的配置得低能量（好分数），不合理的配置得高能量（差分数）。这种表述适合需要在若干候选中比较并选优的场景，而不强求模型输出单一标签。它与构建“世界模型”和规划（对候选未来或动作序列评分）有连接。

Q: 从勒昆的工作中，团队构建 AI 时有哪些最实用的结论？

实用要点： - 明确什么是“好”（与用户结果、错误代价、延迟和维护成本相关）。 - 为部署建立压力测试（边缘情况、罕见类别、光照/视角变化）。 - 早期投资于 数据质量与覆盖 ，再考虑更大的模型或更复杂的架构。 当标签是瓶颈时考虑 SSL；在受限算力或边缘部署时，经过良好调优的 CNN 仍经常是最佳选择。把评估与数据策略当作工程优先项，而不是事后补充。

登录开始使用

Yann LeCun：深度学习与自监督 AI 的先驱 | Koder.ai

为什么扬·勒昆依然影响着 AI 的构建方式

扬·勒昆是那些其思想悄然成为现代 AI“默认设定”的研究者之一。如果你用过类似 Face ID 的解锁、自动照片标注，或任何识别图像内容的系统，那么你正在使用的设计选择中，就有勒昆帮助证明能在大规模上奏效的部分。

为何他重要（即便你不看论文）

勒昆的影响并不限于某一项发明。他推动了一种务实的工程思维注入 AI：构建能从真实数据中学习有用表征、运行高效并能随经验改进的系统。这种科学的清晰性加上对现实性能的坚持，在从计算机视觉产品到当下模型训练流水线的方方面面都能看到其影子。

深度学习 vs 自监督学习，用通俗话说

深度学习是一种广义方法：使用多层神经网络从数据中学习模式，而不是人工编写规则。

自监督学习是一种训练策略：系统从数据本身构造学习任务（例如预测缺失部分），从而可以用大量无标签数据进行学习。勒昆长期倡导自监督，因为它更贴近人类与动物的学习方式——通过观察而非不断指令。

本文将覆盖的内容

这篇文章既有传记成分，也有核心思想的导览：早期神经网络工作如何导向卷积网络，为什么表示学习变得核心，以及为什么自监督学习现在被视为通向更有能力 AI 的重要路径。最后我们会给出面向团队的实际建议。

关于“深度学习教父”这一称号的简短说明：这是个流行的简称（常用于勒昆、Geoffrey Hinton 和 Yoshua Bengio），并非正式头衔。关键在于这些思想如何成为基础。

早期工作与走向神经网络的道路

理解扬·勒昆的早期职业生涯，最容易把它看作对一个想法的持续下注：计算机应当从原始数据中学习合适的特征，而不是依赖人类手工设计。

简短时间线（省去学术细节）

在80 年代中后期，勒昆专注于一个实用且顽固的问题：如何让机器在像图像这样嘈杂的真实输入上识别模式。

到了80 年代末到 90 年代初，他推动可端到端训练的神经网络方法——也就是输入示例，系统自我调整以变得更好。

这一阶段为他后来的工作奠定了基础（例如 CNN 与 LeNet），但关键故事是思维方式：别再争论规则，开始从数据中学习。

他的方法与早期 AI 的不同之处

早期很多 AI 试图把智能编码为显式规则：“如果 X，那么 Y。”这在严格受控的情形下或许可行，但在世界嘈杂、手写风格多样、光照变化或视角微变时会崩溃。

勒昆的方法倾向于统计学习：在大量示例上训练模型，让它发现人类甚至难以清晰描述的模式。与其列出一个“7”长什么样的规则表，不如向系统展示成千上万的 7，让它学会将“7”与“1”“2”等分开表示。

反复出现的主题：表示学习

即便在早期，目标也不仅仅是“得到正确答案”。目标是学习有用的内部表征——紧凑、可复用的特征，使未来的决策更容易。这一主题贯穿于他之后的所有工作：更好的视觉模型、更可扩展的训练，以及最终推动自监督学习的努力。

卷积神经网络（CNN），通俗解释

CNN 是为“看见”像图像这样具有网格结构的数据而设计的一类神经网络。它们的主要技巧是卷积。

卷积，用直观的比喻

把卷积想象成一个小的模式检测器在图像上滑动。在每个位置，它在问：“我在这里看到类似边缘、角点、条纹或纹理的东西吗？”同一个检测器在整个图像复用，因此无论某种模式出现在何处，它都能被发现。

三个核心思想

局部连接： 每个检测器只看图像的一小片区域，而不是整张图。这让学习更容易，因为相邻像素通常相关。

权重共享： 滑动的检测器在每个位置使用相同的权重。这样显著减少参数并帮助模型在不同位置识别相同特征。

池化（或下采样）： 在检测到特征后，网络通常汇总邻域响应（例如取最大值或平均值）。池化保留强信号、减小尺寸，并对小幅位移提供一定容错。

为什么 CNN 非常适合图像

图像有结构：相邻像素形成有意义的形状；同一物体可以出现在任意位置；模式会重复出现。CNN 在架构上内置了这些假设，因此比全连接网络用更少的数据和计算学到更有用的视觉特征。

常见误解

CNN 不只是“一个大分类器”。它是一个特征构建管线：早期层发现边缘，中间层组合成部分，后期层把部分组装成物体。

另外，CNN 并不天生“理解”场景；它们从训练数据学到统计线索。这就是为什么数据质量和评估和模型本身一样重要。

LeNet 与实用深度学习的论证

LeNet 是早期深度学习在有用性方面最清晰的示例之一。它由扬·勒昆与合作者在 1990 年代开发，目标是识别手写字符，尤其是数字，用于支票、表单和扫描文档等场景。

LeNet 的设计目的

高层次上，LeNet 接受一个图像（比如包含数字的小灰度裁切）并输出一个分类（0–9）。现在听起来很普通，但它重要之处在于把整条流水线串联起来：特征提取和分类作为一个整体来学习。

它不再依赖手工规则——比如“检测边缘，然后测环路，再应用决策树”——而是直接从有标签示例中学习内部视觉特征。

它为何有影响力

LeNet 的影响力不在于惊艳展示，而在于它证明了端到端学习方法在真实视觉任务中可行：

单个模型可以自动学到多层次的特征。
训练通过优化整个网络一起完成，而不是分段训练。
在像文档处理这种受限、高量级的应用中性能足够好以支持部署。

“同时学习特征和分类器”的思想是后来深度学习成功的主线之一。

它如何预示现代工作流

今天很多在深度学习中看起来很自然的习惯，在 LeNet 的基本哲学中就已有体现：

从原始或接近原始的输入（像素）开始，而不是先做复杂的手工测量。
使用通用训练程序（基于梯度的优化）而非专门为某一问题定制的逻辑。
在真实数据分布上评估并迭代。

尽管现代模型使用更多数据、更多算力和更深的架构，LeNet 帮助规范了神经网络作为实用工程工具的观念——尤其是在感知问题上。

一个谨慎的历史说明

值得保持克制：LeNet 不是“第一个深度网络”，也不是单凭一己之力引发深度学习热潮。但它是一个广泛认同的里程碑，展示了在重要且具体的问题上，学习表征能够超越手工流水线——这发生在深度学习成为主流之前很多年。

表示学习：突破背后的核心思想

表示学习的观念是：模型不应只学会最终答案（例如“猫”或“狗”），它应学到对多类决策均有帮助的内部特征。

一个日常类比

想象收拾一个混乱的衣柜。你可以逐件标注（“蓝衬衫”“冬大衣”“跑鞋”），也可以先创建组织类别——按季节、按类型、按尺码——然后用这些类别快速找到所需。

好的“表示”就像这些类别：把世界压缩成一种紧凑的描述方式，使许多下游任务更容易完成。

为什么学习的特征常胜手工特征

在深度学习出现之前，团队常常手工工程特征：边缘检测器、纹理描述符、精细调优的测量指标。这种方法有两个主要局限：

它把人类对重要事项的假设固化进去。
当数据发生变化时（新光照、角度、风格、语言、设备），它容易失效。

勒昆的核心贡献——通过卷积网络推广的思路——展示了直接从数据学习特征在复杂多变的问题上常常能超越手工流水线。你不是告诉系统该看什么，而是让它发现真正有预测力的模式。

表示促成迁移学习

一旦模型学到强表征，就可以复用它。一个训练用于理解通用视觉结构的网络（边缘→形状→部分→物体）可以用更少的数据适配到新任务：缺陷检测、医学影像初筛、商品匹配等。

这就是表示的实用魔力：你不是每次都从零开始，而是在已有的“理解”上构建。

实用结论：数据 + 目标 + 评估

如果你在团队里构建 AI，表示学习提示了一个简单的优先级顺序：

数据： 覆盖真实世界的变异。
目标： 选择鼓励学到有用通用特征的训练目标，而不是捷径。
评估： 测试泛化（新用户、新条件），而不仅仅是单一基准。

把这三项做好，更好的表示和更好的性能通常随之而来。

自监督学习：是什么与为何重要

更安全的迭代周期

快速迭代，出现异常时可回退。

使用快照

自监督学习是让 AI 通过把原始数据变成自己的“测验”来学习的方法。系统不再完全依赖人工为每个样本打标签（猫、狗、垃圾邮件），而是从数据本身构造一个预测任务，通过尝试做对来学习。

从数据本身学习（无行话）

把它想象成通过阅读学语言：你不需要老师为每个句子标注——你可以通过猜测接下来会出现什么并检验对错来学习模式。

你可能见过的简单例子

一些常见的自监督任务很容易想象：

预测缺失部分： 遮住一段文本、一块图像或一段音频，然后让模型填补。
下一步预测： 在给定句子、视频或音频的前半部分时，预测接下来会发生什么。
对比学习： 给模型展示同一项的两个“视图”（例如同张照片的两次裁剪），教它们属于同一项，而其他项应被区分开来。

为何重要：更少人工标签、更通用的知识

标注既慢又贵，而且常常不一致。自监督学习可以利用组织已有的大量无标签数据——照片、文档、电话录音、传感器日志——来学到通用表征。随后用较小的有标签数据对模型微调，完成特定任务。

当下的应用领域

自监督学习是推动现代系统的主要引擎之一，应用于：

视觉： 用于搜索、检测与质量检查的强图像特征；
语言： 提升文本理解与生成能力；
音频： 语音识别与说话人/事件识别；
多模态系统： 将文本与图像（有时还有音/视频）连接起来，构建更丰富、更灵活的 AI。

监督 vs 自监督：如何选择合适路径

在监督、无监督和自监督之间选择，主要取决于你能否以可扩展的方式获得哪种信号。

用通俗的话说

监督学习用人工提供的标签（例如“这张照片有猫”）训练。标签准确时它直接且高效。

无监督学习在没有标签的情况下寻找结构（例如对客户行为聚类）。它有用，但“结构”可能含糊，结果未必直接对应业务目标。

自监督学习是务实的折衷：它从数据本身创建训练目标（预测缺失词、下一帧、图像的被遮挡部分等），因此依然得到学习信号，但不需要人工标签。

何时标签值得投入——何时标签成为瓶颈

当下列情形成立时，人工标签值得投入：

任务窄且稳定（例如特定生产线的缺陷检测）；
错误代价高，需要明确责任；
能够一致地标注（清晰的分类体系、低歧义性）。

当下列情形出现时，标签成为瓶颈：

域经常变化（新产品、新俚语、新环境）；
标注速度慢/昂贵（医学影像、法律文本、罕见事件）；
“正确标签”具有主观性或依赖上下文。

自监督预训练 + 微调在实践中的工作流程

常见模式是：

预训练：在大量无标签（或弱过滤）数据上训练模型以学到通用表征。
微调：用更小的有标签数据针对具体任务调整模型。

这通常减少标注需求，在低数据环境下提升性能，并更好地迁移到相关任务。

给团队的快速决策指南

如果你有大量高质量标签和清晰目标：从监督开始。
如果你有大量原始数据但标签有限：先做自监督，再微调。
如果目标是探索性（细分、异常发现）而不是预测：考虑无监督，然后用下游指标验证。

最佳选择通常受标注能力、预期变化速度以及你希望模型跨任务泛化的广度所制约。

基于能量的模型与更广阔的智能观

从演示到部署

当原型变为实际工具时，部署并托管你的应用。

立即部署

能量模型（Energy-Based Models, EBM）是一种更接近“排序”而非“标注”的学习方式。它不强迫模型输出单一正确答案（比如“猫”或“非猫”），而是学习一个评分函数：对看起来合理的配置给出低“能量”（好评分），对不合理的给出高能量（差评分）。

对好/坏配置进行评分

“配置”可以是很多东西：图像与拟议的标题、部分场景与缺失物体、或机器人状态与建议动作。EBM 的任务是判断“这个配对合理吗”（低能量）还是“不一致/不合理”（高能量）。

这个简单思想强大之处在于它不要求把世界简化为单一标签。你可以比较备选项并挑出评分最高的，这类似于人类常用的解决问题方式：考虑选项、排除不可能的、并不断改进。

研究者为何关心它

研究者喜欢 EBM，因为它允许更灵活的训练目标。你可以训练模型把真实示例下推（降低能量），同时把错误或“负样本”上推（提高能量）。这能鼓励模型学习数据中的有用结构——规律、约束与关系——而非简单地记忆输入到输出的映射。

与世界模型和规划的关联

勒昆把这一观点与更宏大的目标联系起来，例如“世界模型”：捕捉世界如何运作的内部模型。如果模型能对什么是合理进行评分，它就可以支持规划，通过评估候选未来或动作序列并偏好那些与现实一致的选项。

从研究到真实系统：领导力与影响力

勒昆在顶级 AI 研究者中罕见的一点是，他的影响力横跨学术研究与大型工业实验室。在大学与研究机构，他的工作帮助把神经网络作为手工特征的替代路线确立为严肃选择——这一思想后来成为计算机视觉及更多领域的默认做法。

为什么领导力在 AI 中重要

一个研究领域的前进不仅靠论文推动；还需靠决定下一步做什么、使用哪些基准、哪些思想值得放大的人。通过领导团队和培养研究者，勒昆帮助把表示学习——以及后来自监督学习——变成长期工程而非一次性实验。

为什么工业实验室能加速进展

工业实验室重要的实际原因有：

数据： 许多现实问题需要多样、杂乱的数据，学术团队不一定能获得或整理；
算力： 训练大模型和做广泛实验通常需要超出大学预算的基础设施；
部署反馈： 当研究想法进入产品，会很快暴露出诸如延迟、边缘情况、隐私约束与用户期望等问题。

Meta AI 是这类环境的一个显著例子：基础研究团队可以在此处规模化验证想法，并观察模型选择对真实系统的影响。

研究方向如何体现在日常产品中

当领导者把研究重心放在更好表征、减少对标签的依赖与更强泛化时，这些优先级会向外扩散，影响用户使用的工具——照片组织、翻译、无障碍功能（图像描述）、内容理解与推荐。即便用户从未听说“自监督”，其收益也可能是模型更快适应、更少注释需求并在现实世界中更稳健地工作。

荣誉与图灵奖（与 Hinton、Bengio 共享）

2018 年，扬·勒昆获得了 ACM A.M. 图灵奖——常被称为“计算机界的诺贝尔奖”。该奖在高层面上认可了深度学习如何改变了这一领域：研究者可以训练系统从数据中学到有用特征，而非手工编码视觉或语音的规则，这解锁了准确率和实用性的重大飞跃。

这一荣誉与 Geoffrey Hinton 和 Yoshua Bengio 共享。意义在于，现代深度学习的故事是由多个群体推进的：不同团队推进了不同环节，有时并行发展，有时直接在彼此工作基础上构建。

奖项真正承认的是什么

这不是关于某一篇“杀手”论文或单一模型，而是关于一长串思想如何变成现实系统——尤其是神经网络变得可规模化训练并学到能泛化的表征。

归功、协作与科学进步的方式

奖项可能让进展看似由少数“英雄”推动，但实际更具共同性：

突破依赖共享工具（数据集、算力、开源库）与成千上万的增量改进；
争论与分歧是过程的一部分——思路被测试、修正，有时被替代；
学生、实验室团队与独立研究者常常做出把理论变成可用工具的具体工作。

因此图灵奖最好被看作是对一个转折点的聚光：由社区推动的改变，使深度学习变得既可信又可部署。

争论、局限与自监督 AI 试图解决的问题

先设计再编码

使用规划模式在生成构建前映射屏幕、数据与 API。

先规划

尽管深度学习成功，勒昆的工作仍处在活跃争论之中：当下系统擅长什么、哪方面仍然薄弱、哪些研究方向可能弥合差距。

常见批评与未解的问题

一些反复出现的问题出现在各大 AI 实验室与产品团队：

“我们只是把模式匹配放大了吗？” 批评者认为许多模型擅长相关性但缺乏更深层的因果理解。
在分布变化下的脆弱性： 光照、摄像角度、措辞或上下文的小变化会引发巨大的错误。
推理与透明性不足： 往往难以解释网络为何做出某个决定，增加了信任与调试难度。
长尾行为： 系统在典型情况下表现良好，但在罕见或安全关键情形下会失败。

实际局限：对数据的饥饿与泛化问题

深度学习历史上是数据密集型的：监督模型可能需要大量有标签数据，而这些标签既昂贵又可能编码人类偏见。

模型泛化也很不均衡。模型在基准上看似强大，但在更混乱的真实部署场景中可能表现欠佳——新人群、新设备、新工作流或新策略都会带来差距。这也是团队在单一测试集之外大量投入监控、重训练与评估的原因之一。

自监督学习为何被看作前进之路

自监督学习尝试通过从原始数据固有结构中学习来降低对标签的依赖：预测缺失部分、学习不变性或对齐同一内容的不同视图。

承诺很直接：如果系统能从海量无标签文本、图像、音频或视频中学到有用的表征，那么较小的有标签数据就足以把它适配到具体任务上。SSL 也鼓励学习能在不同问题间迁移的更通用特征。

已被证明的与仍在研究的问题

已被证明的：SSL 与表示学习能显著提升性能并在任务间复用模型，尤其在标签稀缺时。

仍在研究的：可靠地学习世界模型、规划与组合式推理；防止在分布变化下失败；以及构建能持续学习而不遗忘或漂移的系统。

面向今天构建 AI 的团队的实用建议

勒昆的工作提醒我们，“最先进”不如“合适目的”重要。在产品中构建 AI 时，优势常来自选择满足现实约束的最简单方法。

从目标和评估开始

在选模型之前，写下“好”的含义：用户结果、错误代价、延迟与维护负担。

一个实用的评估计划通常包含：

与产品目标相关的主要指标（例如在固定精度下的召回率用于安全过滤）；
一小组压力测试（边缘情况、罕见类别、光照/角度变化）；
一个可被超越的基线（简单启发式、经典模型或较小网络）。

数据策略：标注 + 利用无标签数据

把数据当成资产并规划路线。标注昂贵，因此要有目的：

只为你真正需要的决策做标注，而不是标注一切；
使用增强技术来模拟真实变异（裁剪、模糊、色彩变化），但要验证它不会改变语义；
如果有大量无标签数据，探索自监督或弱监督方法学到有用的表征，然后用更小的有标签集微调。

一个实用法则：早期投资于数据质量与覆盖，胜过追求更大的模型。

模型选择：何时 CNN 仍然占优

在许多视觉任务中，尤其需要效率与可预测行为（分类、检测、OCR 类流水线）时，CNN 仍是强有力的默认选择。新架构可能在准确率或多模态灵活性上胜出，但通常在算力、复杂性与部署成本上更高。

当约束严格（移动/边缘、高清吞吐、训练预算有限）时，经过良好调优的 CNN 加上优秀的数据常常比“更花哨”的模型更早交付价值。

把研究教训变成可用软件

勒昆工作中的一个反复主题是端到端思考：不仅是模型本身，还有围绕它的流水线——数据收集、评估、部署与迭代。在实践中，许多团队不是因为架构错了而停滞，而是因为构建配套产品表面（管理工具、标注界面、审核流程、监控面板）所需时间太长。

这时现代“vibe-coding”工具能降低摩擦。例如，Koder.ai 允许团队通过聊天驱动工作流快速原型并发布 Web、后端与移动应用——当你需要一个内部评估应用（如带有 Go + PostgreSQL 后端的 React 仪表盘）迅速上线、希望在快速迭代期间有快照/回滚，或需要在工作流稳定后导出源码并用自定义域部署时，这类工具很有用。重点不是替代 ML 研究，而是缩短从好想法到可用系统的摩擦。

接下来读什么

如果你在策划 AI 项目，可浏览 /docs 获取实现指南，查看 /pricing 了解部署选项，或在 /blog 中探索更多文章。

常见问题

如果我不看研究论文，为什么扬·勒昆仍然对现代 AI 很重要？

他证明了从数据中学习的表征（由模型发现的特征）可以在真实、嘈杂的输入（例如图像）上优于手工规则。那种思路——端到端训练、追求可扩展的性能与可复用的特征——成了现代 AI 系统的范式。

深度学习和自监督学习有什么区别？

深度学习是使用多层神经网络从数据中学习模式的广义方法。

**自监督学习（SSL）**是一种训练策略，模型从原始数据中自行生成学习信号（例如预测缺失部分）。SSL 经常减少对人工标签的依赖，并能产生可复用的表征。

用通俗的话，CNN 中的“卷积”是什么意思？

卷积就是把一个小的检测器（滤波器）在图像上“滑动”，寻找边缘、纹理等局部模式。将相同的检测器在整张图上重复使用能提高学习效率，并在物体位置发生移动时仍能识别出来。

CNN 的关键设计思想有哪些？

三个核心思想：

局部连接（Local connectivity）： 每个滤波器只看局部小块，而不是整张图。
权重共享（Shared weights）： 同一个滤波器在各个位置复用，显著减少参数量。
池化/下采样（Pooling/downsampling）： 汇总邻域响应，保留强信号、减小尺寸并对小位移有容错性。

为什么 LeNet 被认为是实际深度学习的里程碑？

LeNet 展示了一个端到端神经网络可以在真实的业务场景（手写数字识别）中达到实用性能。它把特征提取和分类放在同一个可训练系统里，从而让“学习特征并训练分类器”成为可行的工程实践。

什么是表示学习？为什么它是勒昆影响力的核心？

表示学习的核心思想是模型应该学到内部特征，这些特征在下游任务中普遍有用，而不仅仅给出最终标签。强表示可简化后续任务、支持迁移学习，并往往比人工工程的特征更鲁棒。

我如何在监督、自监督和无监督学习之间做选择？

当你有充分且一致的标签以及稳定任务时，优先用监督学习。

当你有大量原始数据但标签稀缺或领域会变化时，先用自监督预训练 + 微调。

当目标是探索性分析（聚类/异常发现）而不是预测时，考虑无监督方法，然后用下游指标验证。

常见的自监督学习任务有哪些？它们在实践中如何使用？

常见的自监督任务包括：

遮挡/填充（masking）：预测被遮挡的文本段或图像补丁。
下一步预测（next-step）：预测下一词、下一帧或下一段音频。
对比学习（contrastive learning）：把同一实例的不同视图（例如不同裁剪的图片）匹配在一起，把不同实例区分开来。

预训练后，通常用较小的有标签数据对模型微调以完成目标任务。

什么是能量模型（EBM），研究人员为什么关心它？

能量模型学习一个评分函数：合理的配置得低能量（好分数），不合理的配置得高能量（差分数）。这种表述适合需要在若干候选中比较并选优的场景，而不强求模型输出单一标签。它与构建“世界模型”和规划（对候选未来或动作序列评分）有连接。

从勒昆的工作中，团队构建 AI 时有哪些最实用的结论？

实用要点：

明确什么是“好”（与用户结果、错误代价、延迟和维护成本相关）。
为部署建立压力测试（边缘情况、罕见类别、光照/视角变化）。
早期投资于数据质量与覆盖，再考虑更大的模型或更复杂的架构。

当标签是瓶颈时考虑 SSL；在受限算力或边缘部署时，经过良好调优的 CNN 仍经常是最佳选择。把评估与数据策略当作工程优先项，而不是事后补充。