实用指南:KLA 风格的检测与计量如何影响良率、报废、周期时间与成本——以及应跟踪的指标与晶圆厂如何选型。

检测与计量是晶圆厂的“眼睛”,但它们各自关注不同的对象。
检测回答:晶圆上某处是不是出了问题? 它扫描颗粒、划痕、图形断裂、污染或与未来失效相关的微妙异常。
计量回答:工艺是否按预期运行? 它测量关键尺寸(CD)、叠层对准(overlay)、薄膜厚度及其他决定芯片功能性的参数。
晶圆厂只能控制它能测量的事——但测量本身消耗设备时间、工程关注与排队空间。这产生了持续的权衡:
若检测过慢,缺陷会在被发现前跨批扩散;若计量噪声太大,工程师可能在“追逐鬼影”,调整实际上并未漂移的工艺。
大多数高影响的晶圆厂决策并不戏剧化——它们是基于测量数据每天数十次作出的例行决定:
这些决定悄然决定了良率、周期时间和每片成本。最优秀的晶圆厂不是“多测”,而是测正确的东西、在正确的频率、并且对信号有信心。
本文聚焦于可用于理解像 KLA 这样的供应商如何融入良率管理的概念——为什么某些测量重要、它们如何驱动行动以及它们如何影响经济性。
不会深入专有规格或逐机型的宣称,而是解释检测与计量选择背后的实用逻辑,以及这些选择如何影响竞争力。
一片晶圆不是“测一次就完事”。它在若干次图形化与材料变化循环中反复被检查。一个简化路径示例:光刻(印图形)→ 刻蚀(转移图形)→ 沉积(增加薄膜)→ CMP(平坦化)→ 针对数十层重复 → 电测与最终分选。
测量通常放在那些稍后修复代价昂贵的位置:
晶圆厂不会对所有层都以相同速率测量。关键层(规则紧、对准预算敏感、新工艺步骤)往往采用更高采样率——每批更多晶圆、每片更多测点、更频繁的检测。成熟层通常采样更轻以保证吞吐量。
采样计划既是商业决策也是技术决策:测得太少外流增加;测得太多周期时间受损。
实践目标是平衡:足够的在线覆盖以实时引导工艺,再加上在数据提示变化时的针对性离线工作。
检测常被描述为“找缺陷”,但操作上的工作是判断哪些信号值得响应。现代晶圆厂每天可能产生数百万条缺陷“事件”;只有一小部分会影响电学性能。平台与工具(包括 KLA 级系统)帮助把原始图像转为决策——但权衡始终存在。
缺陷按层、图形与工艺步骤不同而异:
许多缺陷初看相似。一个亮点在某层可能只是无害的光阻小斑点,但在另一个层可能是致命的良率杀手。
杀手缺陷是可能导致功能失效(断路、短路、漏电、参数偏移)的缺陷。滋扰缺陷是真实或看似真实但不影响良率——例如在容差内的图形粗糙。
分类重要,因为晶圆厂付出的不仅是检测成本,还有检测触发的后续动作:复核时间、批次留检、返工、工程分析与设备停机。更好的分类意味着更少昂贵的反应。
总体而言,缺陷密度是“单位面积缺陷数”。当芯片变大或规则收紧时,关键区域至少落上一处杀手缺陷的概率上升。这就是为何即便适度降低杀手缺陷密度也能显著提升良率。
没有检测系统是完美的:\n\n- 假阴性(漏检杀手)最危险:良率损失在后段显现,代价最高。\n- 假阳性(把无害当作缺陷)悄然增加成本:额外复核、不必要的越限、变慢的周期时间。\n\n目标不是“找到一切”,而是尽早以合适成本找到能改变结果的正确东西。
计量是晶圆厂把“工具运行了”转为“图形确实如我们所愿”的方法。三项测量在良率学习中随处可见,因为它们直接关系到晶体管与互连是否能工作:关键尺寸(CD)、叠层对准(overlay)与漂移。
CD 是印刷特征的实际宽度——想象晶体管的闸极长度或窄金属线的宽度。CD 略微偏离就会迅速改变电学行为:过窄会增加电阻或导致断路;过宽会与邻近线短接或改变晶体管驱动特性。现代设计余量小,几纳米的偏差可能把你从“安全”推向“系统性失效”。
CD 问题常伴随可识别的焦点/曝光签名。焦点异常会让线看起来圆滑、收颈或“夹断”;曝光剂量异常会整体使特征偏大或偏小。这些是图形保真问题:即便平均宽度看似可接受,形状的畸变也会影响功能。
Overlay 测量一层相对于前一层的对准情况。若对准误差累积,通孔会错位、接触部分会部分接触或边缘错开。一个芯片可以每层 CD 都“完美”,但层间不对齐仍会导致失败。
总体上,晶圆厂用光学计量获得快速高通量的测量,用SEM 基计量在需要更锐利、更详细视图时使用。供应商的选择基于测量能否在损失变成整批时之前尽早捕捉到真实漂移。
工艺漂移是安静的敌人:温度、化学品、设备磨损或掩模变化可以缓慢推动 CD 与 overlay,直到晶圆厂突然超出规格。
测量只有在触发一致的决策时才会降低成本。这个“最后一公里”是统计过程控制(SPC):把检测与计量信号变成操作者信任的动作的常规。
想象刻蚀后测到 CD 开始变宽。\n\n反馈控制是经典环路:你测量结果,然后调整刻蚀配方,使下一批回到目标上。它有力但总是滞后一步。\n\n前馈控制使用上游信息来防止误差在后段出现。例如,如果光刻的 overlay 或焦点测量显示某扫描器有已知偏差,你可以自动调整下游刻蚀或沉积设置,在处理该批次之前就校正。
SPC 图画出围绕目标的控制限(通常基于过程变异)。当数据越过这些限度,就是越限——表明工艺发生了变化,而不仅仅是正常噪声。
如果团队常常因为“应该没问题”而忽略报警,会发生两件事:\n\n- 真正的越限变成背景噪声。\n- 工厂从预防转为灭火(留检、会议、返工)。\n\n被信任的报警能实现快速、可重复的遏制:为正确的原因停线,而不是不断停线。
延迟是处理完成到获得可用测量结果的时间。如果 CD 结果在多批次之后才到,反馈修正只能修正未来而当下缺陷已积累。降低延迟(或更聪明的采样)能缩小“风险在制品”并同时改善反馈与前馈控制。
当控制限、响应计划与责任明确时,就会减少“以防万一”而被留检的批次,也减少昂贵的返工。回报是更平稳的运营:更少的波动、更少的惊喜以及更快的良率学习。
测量不是晶圆厂的“开销”,而是一系列选择:要么预防昂贵错误,要么制造昂贵的繁琐工作。成本影响体现在可预测的几个方面:\n\n- 报废: 必须丢弃的晶圆或芯片\n- 返工: 重复光刻/刻蚀/清洗步骤、额外计量与搬运风险\n- 设备时间: 因留检、排队和重复加工损失的产能\n- 在制品与延迟: 工程师调试造成的库存积压与周期时间惩罚\n- 加急与拆批: 增加的操作波动与错误率\n
提高检测灵敏度(比如把目标推到更小缺陷尺寸)能减少外流,但也可能把工程师淹没在滋扰信号中。如果每一个“可能的缺陷”都成为留检理由,晶圆厂就要在设备闲置、排队增长与分析人工上买单。经济问题不是“工具能否看到它?”,而是“对其采取行动是否能防止比它造成的更多损失?”
在哪些地方多测或少测,与购置何种工具一样重要。高风险层(新工艺步骤、紧张的 overlay 层、已知越限点)通常值得更密的采样。稳定成熟的层则可用更轻的采样并辅以强 SPC 护栏。
很多晶圆厂用检测/计量输出去微调每层策略:在越限频繁的地方增加覆盖率,在信号很少触发动作的地方回收资源。
好的抓取: 早期发现会让整批退化的焦点漂移,快速校正并节省后续光刻/刻蚀步骤的损失。\n\n昂贵的噪声: 反复标记无害的图形伪影触发留检与复核,而良率与电学结果并无变化——烧掉周期时间却没有降低报废。
良率学习不是“免费”的。每次检测扫描、每次计量采样与每次缺陷复核都消耗稀缺的设备时间——当这些产能紧张时,测量就成为拉长周期时间的工厂约束。
大部分周期时间影响并非来自扫描本身,而来自等待。晶圆厂常见的排队点:\n\n- 计量工具(CD、overlay、薄膜厚度)在工艺变化后采样激增时堆积。\n- 检测复核站 在高缺陷批次触发额外分类与人工检查时变慢。\n- 工程留检 在团队需调和冲突信号(设备 A 说越限,设备 B 说合格)时积压。\n\n这些队列会延缓整条线,增加在制品,并可能迫使采取次优决策——例如为了让物料动起来而跳过确认测量。
计量容量规划不仅仅是“买够多工具”。而是要把容量与配方组合匹配。一个长时间、敏感的检测配方可能会消耗相当于轻量监控多倍的工具时间。
晶圆厂的关键杠杆:\n\n- 按风险定义采样计划,而非沿用惯例(对新工具、新材料和已知薄弱步骤提高采样)。\n- 保留突发容量 以应对越限与产能爬坡。\n- 保护利用率余量;使检测/计量跑在接近 100% 利用率通常会产生不稳定的队列。
当自动化减少“中间”工作时,它可以改善周期时间:\n\n- 自动晶圆搬运 与与厂排程的紧耦合减少空闲间隙。\n- 配方自动选择(按产品、层与上下文)避免错误配方导致的返工。\n- 智能路由 到可用工具平衡负载,避免单点瓶颈。
速度最大的回报来自学习:当检测与计量结果迅速流入明确、可执行的诊断时,晶圆厂就能避免在多个批次上重复同一越限。这减少了返工、报废风险以及因“更多采样因为担心”而产生的周期时间复合惩罚。
缩小特征不仅让芯片更快,也让测量更难。在先进节点,可容忍误差窗口变得极小,检测灵敏度与计量精度必须同时提升。结果很明显:以前无害的缺陷或几纳米的漂移可能会把晶圆从“合格”变为“边缘”。
EUV 在检测与计量问题上带来几项重要变化:\n\n- 随机缺陷(stochastic):类似拍摄噪声的随机事件(缺失/多余材料、微桥、微断)即便工艺名义上正常也会出现,间歇性使得点检难以捕捉。\n- 掩模相关风险:EUV 掩模为反射型且复杂,掩模表面或下层的缺陷可能以非直观方式印出,且某些掩模问题在场内表现不一致。
这推动晶圆厂走向更敏感的检测、更智能的采样,以及把所测内容更紧密地关联到可调整的变量上。
即便有 EUV,许多层仍涉及多重图形步骤与复杂三维堆栈(更多薄膜、更多界面、更多地形)。这会增加:\n\n- 叠层误差在多个步骤中叠加,\n- 所谓“测到的边缘”可能并非“电气边缘”,导致 CD 目标失真,\n- 随材料与曲线变化而更难建模的信号。
计量目标可能变得不够具代表性,配方常需频繁调整以保持与良率的相关性。
并非每一层都需要相同的灵敏度或精度。逻辑、存储与功率器件强调不同的失效机制,在同一芯片内,闸极、接触、通孔与金属层对检测阈值与计量不确定度的要求也大相径庭。领先的晶圆厂把测量策略当成逐层的工程问题,而非一刀切的设置。
检测与计量只有在结果能跨班次与跨设备重复时才有助于良率。这在实践中更多取决于运维纪律:配方、设备匹配、校准与受控变更。
“配方”是针对某层/产品保存的测量点、光学/束流设置、对焦策略、阈值、采样计划与分类规则集合。良好的配方管理把复杂设备变成一致的工厂工具。
微小的配方差异会制造出“假”越限——只是因为灵敏度变了。很多晶圆厂把配方当作生产资产:版本化、权限控制并与产品/层 ID 绑定,确保同一晶圆每次按同样方式测量。
高产线通常运行多台设备(有时不同代),用于产能与冗余。若设备 A 读比设备 B 高 3 nm,你得到的不是两个工艺而是两把尺子。
校准把尺子钉在基准上,匹配保持不同尺子一致。做法包括定期量仪检查、参考晶圆,以及统计监控偏移与漂移。供应商会提供匹配流程,但晶圆厂仍需明确职责:谁批准偏移、多久重匹配、何种限值触发停机。
配方在材料、图形或目标改变时必须更新——但每次变更都要验证。常见做法是“影子模式”:并行运行更新后的配方、比较差异,只有在保持相关性且不破坏下游 SPC 限值时才推广。
日常稳定性依赖快速、一致的决策:\n\n- 复核: 确认信号质量并排除设备/搬运问题。\n- 分类: 把滋扰信号与真正的系统缺陷分开。\n- 处置: 决定返工、留检、工程批次或继续生产。
当此工作流标准化后,测量就能成为可依赖的控制回路,而非另一个可变性来源。
测量只有在比工艺漂移更快地改变决策时才提升竞争力。下面的 KPI 将检测/计量性能与良率、周期时间和成本联系起来——而不会把周会变成数据倾倒。
捕获率(capture rate): 检测找到的真实、影响良率的缺陷占比。按缺陷类型与层追踪,而非单一指标。\n 检测附加(defect adder): 测量步骤自身引入的缺陷或风险(搬运、额外排队导致的在制风险、返工)。若此值上升,“更多采样”可能适得其反。\n 滋扰率(nuisance rate): 被检测出的事件中不可操作或无害的比例。高滋扰率消耗复核能力与根因资源并拖慢节奏。
精密度(precision): 同一特征重复测量的可重复性;直接决定控制限能开多紧。\n 准确度(accuracy): 与真实值或约定基准的接近程度。只有精密而无准确会导致系统性误控。\n TMU(总测量不确定度): 把重复性、匹配、采样效应与配方敏感度合并的实际指标。\n 设备匹配: 运行相同配方的不同设备间的一致性。匹配差会放大表观工艺波动并复杂化派工。
越限率(excursion rate): 工艺离开正常窗口的频率(按模块、层与班次)。配合**外流率(escape rate)**查看未被下游捕获的越限比例。\n 平均检测时间(MTTD): 从越限开始到检测到的时间。缩短 MTTD 往往比微幅提升工具规格更能带来收益。\n 留检批数: 因计量/检测信号被留检的批次数与滞留时间。太低可能表示漏检;太高则损害周期。
良率学习速率: 在重大变更后每周/月的良率提升幅度。\n 质量损失成本(COPQ): 归因于外流的报废+返工+加急+晚发现费用。\n 周期影响: 由控制步骤引入的排队与返工导致的“每批分钟数”增量。
若要开始,分别从每组选一个 KPI 并与 SPC 信号一起复核。想把指标转化为行动回路,见 /blog/from-measurements-to-action-spc-feedback-feedforward。
选购工具更像是在选择工厂的神经系统一部分。团队通常评估硬件能力以及周边的测量程序:它能找到什么、运行速度如何、数据能否可靠驱动决策。
首先,晶圆厂关注灵敏度(工具能可靠检测到的最小缺陷或工艺变化)和滋扰率(报告无害信号的频率)。能发现更多问题的工具并非总更好,如果它把工程师淹没就无益。
其次是吞吐量:在所需配方下每小时晶圆数。只能在慢模式下达标的工具会成为瓶颈。
第三是拥有成本,这包括不止购置价:\n
晶圆厂还评估工具如何平滑接入现有系统:MES/SPC、标准的厂内通信接口与数据格式,是否支持自动制图、越限检测与批次处置。同样重要的是复核工作流:缺陷如何被分类、采样如何管理、结果返回到工艺模块的速度。
常见试点策略用拆分批次(把匹配晶圆送不同测量路径)与黄金晶圆检查设备间一致性随时间的表现。结果与基线(当前良率、检测限与纠正速度)比较。
在许多晶圆厂,像 KLA 这样的供应商在能力、工厂契合度与经济性这些维度下被评估——因为最终胜出的选择是能提高每片晶圆决策质量的方案,而不仅仅是提高每片的测量数。
良率学习是一个简单的因果链,尽管工具很复杂:检测 → 诊断 → 校正。
检测发现在哪儿与何时出现缺陷。计量说明工艺偏离了多少(CD、overlay、薄膜厚度等)。过程控制把证据转化为动作——调整配方、调谐扫描/刻蚀设备、加强维护或改变采样计划。
在不单纯“买更多测量”的前提下使用此清单来提高良率影响:
一个被低估的杠杆是团队把测量数据“可操作化”的速度——把 SPC 信号、设备匹配状态、留检老化与 MTTD/外流率趋势组合成仪表盘并快速迭代。
这也是像 Koder.ai 这样的低代码平台能助一臂之力的地方:团队可以在聊天中描述想要的工作流并生成轻量内部 Web 应用(例如 SPC 审查控制台、越限分诊队列或 KPI 仪表盘),然后随着工艺演进迭代。因 Koder.ai 支持 React 前端与 Go + PostgreSQL 后端并能导出源码,它适合既做快速试点也做正式移交工程的场景。
如果想复习这些模块如何连接,见 /blog/yield-management-basics。关于成本与采用问题,/pricing 可帮助勾画“良好”ROI 的范围。
检测用于查找意外缺陷(颗粒、划痕、图形断裂、异常),回答的是:“晶圆上某处是不是出了问题?”
计量测量预期的工艺产出(CD、overlay、薄膜厚度、平整度),回答的是:“工艺是否达到了目标?”
在实际生产中,晶圆厂用检测来尽早抓住会影响良率的缺陷,用计量来防止工艺漂移演变成整批损失。
因为测量推动了大量日常决策,而这些决策会累积成良率和成本结果:
更快、更可重复、分类更准确的测量能把测量变成快速遏制问题的手段,减少昂贵的意外发生。
通常把测量放在那些以后修复代价高的步骤之后:
核心思想是:在能改变决策的早期位置进行检测。
采样计划定义测量的频率与深度(每批测多少片、每片测多少点、哪些层)。
实用经验:
采样过多会成为瓶颈;采样过少会增加缺陷外流风险。
在线(inline)测量发生在生产流内、靠近产出工具,适合控制回路和减少“风险在制品”。
离线(offline)测量通常在专门区域或实验室做,能提供更深入的分析但更慢,适合故障排查、模型建立和根因确认。
好的模式是:足够的在线覆盖以实时引导工艺,配合当数据提示变化时的有针对性的离线工作。
杀手缺陷(killer)是很可能导致功能失效的缺陷(断开、短路、漏电、参数漂移)。
滋扰缺陷(nuisance)是真实存在或看起来存在但不会影响良率的缺陷(例如在容差范围内的图形粗糙)。
分类很重要,因为晶圆厂付出的成本不仅是检测本身,还有检测触发的后续动作:复核、批次留检、返工和工程分析。更好的分类能减少代价高昂的过度反应。
在晶圆检测中:
实际目标不是“找到一切”,而是尽早、以可接受的成本找到那些会影响决策的信号。
CD(关键尺寸)是印刷特征的测量尺寸——比如晶体管闸极长度或窄金属线宽度。
即使是几纳米的偏差也会显著改变电学特性:太窄会增加电阻或导致断线;太宽会与相邻线短接或改变晶体管驱动电流。现代设计容差极小,因此几纳米的偏移可能把许多芯片从“安全”推向“系统性失效”。
很多 CD 问题伴随可识别的焦点/曝光特征:焦点偏差会让线型圆滑、收颈或“夹断”;曝光剂量偏差会导致尺寸整体偏大或偏小。因此把 CD 计量和良好的 SPC 响应计划配套,经常能带来高回报。
Overlay 测量层与层之间的对准情况。
即便每层的 CD 都“合格”,如果层间对准出错,通孔(via)会错位、接触部分落空或边缘错位,芯片仍会失效。
当对准预算紧张或多步叠层错误叠加时,overlay 控制尤其关键。
延迟(latency)是从晶圆处理完成到获得可用测量结果的时间。
如果结果在多个批次处理后才到,你只能修正未来的批次,而当下的损失已经发生。
减少延迟的办法:
这些通常比单纯略微提高工具灵敏度更能改善结果。
检测不是“开销”,而是一连串选择:要么防止昂贵失误,要么制造繁琐工作。成本影响体现在可预测的几个桶里:
提高检测灵敏度若没有优先化,会把工程师淹没在滋扰信号中,从而增加成本。经济问题不是“工具能看到吗?”,而是“根据检测采取的动作是否能防止比它造成的更多的损失?”
吞吐量上的限制大多来自等待,而不是扫描时间本身。常见的排队点有:
这些队列会放慢整条线、增加在制品,并迫使次优决策(例如为了让物料继续流动而跳过确认测量)。
容量规划不仅是“买足够工具”,而是把容量与配方组合(recipe mix)匹配:长时、敏感的检验配方会消耗比轻量监控更多的工具时间。关键杠杆包括按风险定义采样、保留突发容量和保护利用率余量。自动化(自动搬运、配方自动选取、智能路由)能减少隐形等待。更快的根因分析能防止重复越限,从而避免返工与报废的级联效应。
缩小制程节点让测量更难:可容忍误差变小,缺陷或几纳米的漂移就能把晶圆从“良好”推到“边缘”。
EUV、复杂多重图形与更高的堆栈都会放大这个问题:
因此先进节点要求更高的检测灵敏度、更精确的计量和更智能的抽样,将测得的信号直接关联到可行的调整上。不同层、不同器件(逻辑、存储、功率)对灵敏度与不确定度的要求也不同,优秀的厂商按层制订测量策略而非一刀切。
测量和检测只有在跨班次、跨设备都可重复时才有意义。这主要依赖于运维纪律:配方、工具匹配、校准与受控变更。
配方管理把复杂工具变成一致的工厂仪器:包括测量点、光学/束流设置、对焦策略、阈值、采样计划与分类规则的版本管理与访问控制。
校准与匹配:多台设备存在时,若设备 A 比设备 B 多读 3 nm,你得到的不是两个工艺而是两把尺子。定期的基准片校验、统计监控偏移与漂移、并对谁来批准偏移及触发停机有明确定义都很关键。
变更控制常用“影子模式”验证:并行运行新版配方,比对差异,确认相关性与不破坏下游 SPC 后再切换正式生产。
日常流程(复核→分类→处置)标准化后,测量就能成为可靠的控制回路,而非引入额外波动的来源。
把测量与竞争力关联起来,需要追踪能反映良率、周期与成本的 KPI,且不要把周例会变成数据倾倒。下面是关键指标的举例:
检测 KPI(我们看到了正确的缺陷吗?)
计量 KPI(我们能否信任数值跨设备与随时间保持一致?)
在选择工具时,晶圆厂把它当作神经系统的一部分来评估:不仅看硬件,也看其周边的测量程序。常见评估维度包括:
核心标准:
集成与工作流适配:工具如何接入 MES/SPC,数据格式与接口是否支持自动化制图、越限检测与批次处置;以及缺陷复核工作流的顺畅性与结果返回速度都很重要。
试点通常用拆分批次(split lots)和基准晶圆来比对工具间一致性与随时间的稳定性,结果对照基线(现有良率、检测极限与纠正速度)。
KLA 的定位:像许多供应商一样,KLA 会在这些维度中被评估——能力、工厂契合度与经济性。最终胜出的是能提高每片晶圆决策质量(而非仅仅提高测量数量)的方案。
良率学习是一个因果链:检测 → 诊断 → 校正。
检测指出“哪里”和“何时”出现缺陷;计量说明工艺偏离了多少(CD、overlay、薄膜厚度等);过程控制把证据转化为动作——调整配方、调谐扫描/刻蚀设备、加强维护或改变采样计划。
建议清单(在不“买更多测量”的前提下提高良率影响):
如果想回顾这些环节如何连接,见 /blog/yield-management-basics。关于成本与采用决策的问题,/pricing 可以帮助勾画“良好”ROI 的范围。
给非技术干系人的要点:
工厂响应 KPI(我们在损失发生前采取行动吗?)
业务 KPI(测量是否有回报?)
一个易上手的做法是从每组挑一个 KPI,并把它与 SPC 信号一并在同一次会议中复核。如需把指标转成行动回路,见 /blog/from-measurements-to-action-spc-feedback-feedforward。
把测量数据快速转化为可用内部工具的一个低成本杠杆是:制作仪表盘,把 SPC 信号、设备匹配状态、留检老龄化与 MTTD/外流率趋势组合在一起。像 Koder.ai 这样的低代码平台可以让团队通过对话描述需要的工作流并快速生成轻量内部 Web 应用(例如 SPC 审查界面、越限分类队列或 KPI 仪表盘),支持快速试点并便于后续移交内部工程团队。