黄仁勋如何将英伟达从游戏 GPU 引向 AI 基础设施——平台押注、CUDA、数据中心与合作伙伴如何推动这场繁荣。

当人们称英伟达为“AI 的骨干”时,他们说的并不仅仅是快芯片。这个称呼描绘的是一组构建模块,许多现代 AI 系统依赖这些模块来训练模型、在产品中提供服务并以经济方式扩展。
通俗地说,骨干是其他部分所依赖的东西。对于 AI,通常意味着四件事共同发挥作用:
如果其中任一层缺失,AI 的进展就会放缓。快硅片没有可用软件只会停留在实验室;好的工具没有足够硬件容量会遇到天花板。
这个故事常通过黄仁勋来讲述——英伟达的联合创始人兼 CEO——不是把他当作孤立的天才,而是把他看作多次做出平台型押注的领导者。英伟达没有把 GPU 当作单一产品来对待,而是很早就投入,将其变成其他公司可以构建的基础。这需要长期的软投入、与开发者、云服务商和企业建立关系,并在回报显现之前坚持多年。
后续章节拆解了英伟达如何从图形走向通用计算、为何 CUDA 重要、深度学习如何重塑需求,以及系统工程、合作与制造约束如何影响市场。目的不是神化英伟达,而是理解那些将组件变成基础设施的战略动作。
英伟达并非一开始就是“AI 公司”。它的早期身份是图形:为玩家和设计师打造能流畅渲染 3D 世界的 GPU。这一聚焦使团队在后来证明至关重要的能力上做得非常好——同时执行大量小型数学操作的能力。
渲染一帧游戏画面,计算颜色、光照、贴图与几何信息需要处理数百万像素。重要的是,许多像素计算彼此独立:你可以同时处理像素 #1 与像素 #1,000,000。
这就是 GPU 发展为大规模并行机器的原因:它们不是少数极其强大的内核,而是拥有许多较小的内核,设计上用于在海量数据上重复简单操作。
一个简单类比:
一旦工程师意识到相同的并行模式出现在游戏之外——如物理模拟、图像处理、视频编码和科学计算——GPU 就不再显得像一个小众部件,而开始被视为“同时做大量计算”的通用引擎。
这一转变重要在于它重新定义了英伟达的机会:不仅仅是卖消费级显卡,而是为那些对并行计算有回报的工作负载构建平台——为深度学习后来带来的需求奠定了舞台。
英伟达决定性的战略押注并非仅仅是“做更快的 GPU”。而是“把 GPU 打造成开发者选择并持续选择的平台,因为软件体验会随着时间产生复利”。
显卡可以通过规格对比:核心数、带宽、功耗、价格。平台则更难被替换。英伟达通过早期投资于一致的编程模型,试图把购买决策从“今年哪块芯片最快?”转为“我们团队接下来五年要基于哪个栈构建?”
CUDA 将 GPU 从专用图形处理器变为程序员可用于多种计算的工具。开发者不再被迫以图形 API 的思维写代码,CUDA 提供了更直接的方式来编写 GPU 加速代码,并配套编译器、调试工具和性能分析工具。
这个“桥梁”降低了尝试新工作负载的摩擦。随着开发者看到速度带来的收益——更快的模拟、分析,随后是深度学习——他们有理由留下来继续使用这个生态。
硬件领先可能是暂时的;软件生态会复利。工具、库、教程和社区知识创造了切换成本,这些成本在基准图表上看不出来。随着时间推移,团队会构建内部代码库、招聘具备 CUDA 经验的人才,并依赖越来越多的优化构建块。
CUDA 并非没有缺点:有学习曲线,GPU 编程需要特定的性能思维。可移植性也可能成为问题:代码和工作流可能绑定在英伟达生态上,一些组织会通过标准或抽象层对冲这种依赖。
深度学习改变了“好硬件”的含义。早期的机器学习模型通常能在 CPU 上运行,因为模型较小、训练时间较短。现代神经网络——尤其是视觉、语音和语言领域——把训练变成庞大的数值计算工作,这恰好与 GPU 的优势相吻合。
训练神经网络主要是大量重复同类运算:大规模矩阵乘法及相关线性代数。这些计算高度并行——可以把工作拆分成许多小块同时运行。
GPU 从一开始就为并行负载设计(最初用于渲染图形)。数千个小核可以并行处理大量乘法运算,在你做数十亿或数万亿次运算时,这种并行加速能带来显著差异,让训练从数周缩短到数天。
早期采用更多是务实的而非光鲜的。大学和实验室的研究人员因为需要更高的算力/成本比而试验 GPU。随着结果改善,这些想法通过共享代码和可复现的训练配方传播开来。
当像 TensorFlow 和 PyTorch 等流行工具原生支持 GPU 时,团队无需编写底层 GPU 代码就能受益。摩擦降低:更多学生能训练更大的模型,更多初创公司能快速原型,更多企业能为 GPU 服务器投资买单。
不能把所有功劳都归给硬件。算法突破、更好的训练技巧、更大数据集和改进的软件工具共同推动了进步。GPU 成为中心,是因为它们匹配了新工作负载的形态,而周边生态让它们可访问。
把显卡卖给玩家关注的是帧率和价格。把算力卖给数据中心是另一门生意:买家关心正常运行时间、可预测的供应、支持合同以及三年后平台的样子。
数据中心客户——云服务商、研究机构和企业——不会组装爱好者 PC。他们运行的是与收入直接相关的服务,节点故障会影响 SLA 并造成真实损失。这把对话从“芯片快不快”转为“系统可靠不可靠”:验证配置、固件纪律、安全更新和明确的运维指引。
对于 AI 训练与推理,原始速度重要,但单位功率/空间能做多少工作也同样重要。数据中心在机架密度、散热与电力成本等约束下运营。
英伟达的论点演化为面向数据中心的度量:
单个 GPU 不能解决部署问题。数据中心买家想要完整、受支持的生产路径:为服务器环境设计的硬件、系统级参考设计、稳定的驱动与固件发布,以及使硬件高效可用的软件。
这就是英伟达“全栈”说法的价值所在——硬件加上周边软件和支持,降低了那些不能承担试验成本的客户的风险。
企业会选择他们相信会持续维护的平台。长期路线图表明今天的采购不会被抛弃,而企业级可靠性——经过验证的组件、可预测的更新周期和快速响应的支持——降低了运营焦虑。随着时间推移,GPU 从可互换部件变成了数据中心愿意标准化的整个平台决策。
英伟达的胜利并非把 GPU 当作你插入“别人服务器”中的孤立部件。公司越来越把性能视为一个系统结果——由芯片、板卡、GPU 间通信方式以及整个栈在数据中心的部署方式共同决定。
现代 AI “GPU” 产品通常是若干决策的封装:内存配置、供电、散热、板卡布局和验证参考设计。这些选择决定客户能否在几周内持续运行集群而不出现意外。
通过提供完整的构建模块——预先测试的板卡与服务器设计——英伟达减轻了供应链中其他角色的负担:OEM、云服务商与企业 IT 团队。
大模型训练受通信主导:GPU 不断交换梯度、激活与模型参数。若通信成为瓶颈,昂贵的计算就会闲置。
GPU 之间的高带宽、低延迟连接以及良好的交换拓扑,使训练能够从“单机快速”扩展到多机协同。结果是更好利用率和随着模型增长更短的训练时间。
将英伟达的平台方法按层级来看更容易理解:
每一层都设计为能与下一层无缝集成,这样客户在扩展容量时无需彻底重设计。
对客户来说,这种系统级封装把 AI 基础设施变得更像可采购的产品:配置更清晰、性能更可预测、部署更快。这降低了部署风险,加速了采用,使 AI 扩展成为运维友好的行为,而不是实验性的工程。
基准图表吸引头条,但开发者心智份额带来多年优势。做原型并交付的团队通常会选择感觉更快、更安全且支持更好的选项,即便其他芯片在原始性能上接近。
GPU 本身不会创造价值;是开发者创造价值。如果工程师能在本周而不是下个季度拿到工作结果,你就成了下一个项目的默认选择。这种习惯会在公司内部复利:内部范例、可重用代码以及“我们就是这么做”的做法,变得同样具有说服力。
英伟达在构建软件信心这类不显眼但关键的工作上投入甚多:
一旦团队的模型、流水线与招聘计划围绕特定栈构建,切换就不只是“换一块卡”。它意味着重新培训工程师、改写代码、验证结果并重建运维剧本。摩擦成为护城河。
举个简单例子:团队不必花数周手动优化矩阵操作与内存使用,而是可用预构建库(针对常见层与注意力内核),在数天内得到可用结果。更快的迭代意味着更多实验、更快的产品周期,也提供了更强的坚持理由。
英伟达不是靠单卖芯片赢得 AI 的。它通过进入人们已经购买、租用和学习算力的地方——云平台、企业服务器与大学实验室——来赢,这种分销与原始性能同等重要。
对很多团队而言,决定因素不是“哪块 GPU 最好?”,而是“哪种选项我能这个星期就启用?”当 AWS、Azure、Google Cloud 等提供英伟达实例作为默认选项时,采用变成了一个采购复选项,而不是长期基础设施项目。
同样模式也在企业通过 OEM(戴尔、惠普、联想、Supermicro 等)复制:如果 GPU 已经装在经过验证的服务器里,驱动与支持合同对齐,IT 的批准门槛会大幅下降。
合作关系也使得大规模协同优化成为可能。云供应商可以围绕 GPU 密集型负载调优网络、存储与调度。英伟达可以将硬件特性与软件库对齐并针对客户常用框架(PyTorch、TensorFlow、CUDA 库、推理运行时)进行验证,关注像训练大模型、微调与高吞吐推理这样的常见模式。
这个反馈循环虽微妙但强大:真实生产痕迹影响内核,内核影响库,库又影响开发者下一个要构建的东西。
学术课程与研究实验室在课程与论文中标准化英伟达工具。学生在支持 CUDA 的系统上学习,然后把这些习惯带入初创公司与企业团队——这是一个多年逐步累计的采用渠道。
强关系并不等于排他性。云服务商和大型企业通常会试验替代方案(其他 GPU、自研加速器或不同厂商)以管理成本、供应风险与谈判筹码。英伟达的优势在于成为各渠道中最容易说“是”的选项——但仍需在每一代产品中赢得续约。
当 AI 计算需求激增时,它的行为不同于普通消费电子。一个大型 AI 部署可能一次性需要数千块 GPU,以及匹配的网络和电力设备。这导致了“块状”采购:一项工程就能消耗原本会分配给许多小客户的供应量。
用于 AI 数据中心的 GPU 不是现货商品。它们需要提前几个月安排代工产能、测试、组装,然后经过多道工序才准备好上机。如果需求增长快于产能计划,交付时间会延长——有时从几周变为数月——因为每个环节都有排队。
即便芯片本体可以生产,其他环节也可能限制产出。现代 AI 处理器依赖先进的制造工艺与日益复杂的封装(将硅片、存储与互连组合的方式)。封装产能、专用基板和高带宽内存的可用性都可能成为瓶颈。简单来说:问题不是“做更多芯片”,而是“把几种稀缺零件同时按高标准做更多”。
为了保持供应流动,产业链各方依赖预测与长期承诺——预留生产名额、预订材料并规划组装能力。这不是完美预测未来,而是降低供应商风险,让他们愿意投资和分配产能。
快速增长的市场即便在供应扩张后仍可能持续紧张。新数据中心、新模型与更广泛的采用会持续拉动需求。当 AI 硬件以大块采购时,即便计划产量与实际需求出现小幅差异,也会被感知为长期短缺。
AI 计算从非一匹马竞赛。评估基础设施时,团队通常会把英伟达与其他 GPU 供应商(如 AMD、某些场景下的英特尔)、超大厂自研加速器(如谷歌 TPU、AWS Trainium/Inferentia)以及一批创业公司相比对。
实际上,“合适”的芯片取决于工作负载:
因此许多组织会混用硬件:训练一套、推理另一套、边缘再用别的方案。
一个常见原因是软件兼容性与成熟度。CUDA、cuDNN 等库和更广泛的生态意味着许多模型、框架和性能技巧已被测试和记录。这减少了工程时间、调试风险和移植带来的“惊喜成本”。
还有招聘与运维角度:通常更容易找到有使用英伟达工具经验的工程师,也更容易复用现有脚本、容器与监控实践。
团队在比较平台时通常权衡:
这些因素并不保证英伟达永远最好——只是对许多买家来说,总体采用成本与结果的可预测性可能和原始硬件价格一样重要。
英伟达的主导地位伴随真实的权衡。买家常赞扬性能与软件成熟,但也会对成本、依赖性以及在需求激增时硬件难以获取提出担忧。
成本: 高端 GPU 会让试点和生产变得昂贵——尤其在加上网络、功率、冷却与高级运维人员的费用后。
锁定: CUDA、库与调优后的模型代码会产生“引力”。你的栈越依赖英伟达特有的优化,迁移到其他加速器的重写成本就越高。
可用性与复杂性: 交付周期、集群整合与快速变化的产品节奏会拖慢团队。在大规模下,可靠性工程、调度与利用率本身就成为项目。
许多组织采用对冲方式,而不完全放弃英伟达:
AI 芯片处在出口管制、供应链集中与国家安全关注的交汇点。政策变化可能影响某些地区可用的硬件、销售方式与交付速度——这些并非任何单一公司能完全控制。
如果你在评估 AI 基础设施,把 GPU 当作一项长期平台决策:估算“全包”成本,尽早测试可移植性,并在扩展前规划好运维技能(监控、调度、容量规划)。
黄仁勋领导下的英伟达崛起,不只是更快芯片的故事,而是一个构建持久 AI 平台的可复制模式。核心理念:硬件赢得一个时刻,平台赢得一个十年。
首先,把技术当作平台而非单品。CUDA 通过让软件路径更简单、更可预测并持续改进,帮助 GPU 成为“默认选择”。
其次,在“需要之前”就投资生态。工具、库、文档与社区支持降低采用摩擦并使实验成本变低——在团队尚未确定哪些 AI 用例会落地时尤其重要。
第三,以系统视角为规模而设计。现实世界的 AI 性能取决于网络、内存、编排与可靠性,而不仅仅是原始算力。赢家让从单个工作负载到多个、从一台服务器到集群的扩展变得简单直观。
如果你在规划 AI 项目,借用平台视角问自己:
另外一个常被忽视的问题是你是否真的需要构建和运营那么多自定义软件。对于部分产品,更快的路径是先用像 Koder.ai 这样的 vibe-coding 平台进行原型和出货,然后把稀缺的 GPU 容量保留给真正具有差异化价值的模型工作。
如果你的瓶颈是产品交付而不是内核级优化,像 Koder.ai 这样的工具(基于聊天生成应用的 Web、后端和移动代码并支持源码导出与部署)可以与以 GPU 为中心的基础设施决策互补,减少在样板工程上消耗的时间。
芯片竞争会加剧,更多工作负载会在不同加速器间分布。但基本面不变:能让开发者高效的平臺——以及能可靠扩展的系统——将继续决定 AI 在何处被构建。
在此语境中,“骨干”指的是许多 AI 团队依赖的基础栈,用来训练模型、运行推理并可靠地扩展。它不仅仅是 GPU,还包括软件栈、库、工具链,以及在数据中心规模上交付和支持系统的能力。
如果任何一层薄弱(硬件、软件、工具或供应),进展就会变慢或代价过高。
CPU 擅长处理较少但复杂、顺序性的任务(适合控制逻辑和通用计算)。GPU 则为大规模并行数学运算做了优化,即同一操作同时在大量数据上重复执行。
深度学习大量依赖矩阵乘法和线性代数,这些都高度可并行化——因此在训练和许多推理场景中,GPU 通常能提供远高于 CPU 的吞吐量。
CUDA 是英伟达的编程平台,让 GPU 不再只是图形处理器,而是可用于各种通用计算的工具。它的价值不仅在于性能,还有稳定的开发体验:编译器、调试/分析工具,以及长期积累的优化库生态。
这种生态带来势能:团队基于它构建代码库和工作流,降低了未来项目的摩擦并提高了切换成本。
不一定。很多团队并不直接编写 CUDA 就能有效利用英伟达 GPU,因为框架和库已替你完成多数工作。
常见路径包括:
当你需要自定义内核、极限延迟优化或在大规模上运行时,才通常需要 CUDA 级别的工作。
训练通常由计算 + 通信共同主导。随着模型规模增大,GPU 之间需要频繁交换梯度、激活值和参数;如果网络变慢,昂贵的计算资源就会闲置。
因此集群依赖系统设计:
仅靠峰值 FLOPS 并不能保证训练时间最短。
数据中心采购的是可预测性与生命周期管理,而不仅仅是峰值速度。除了性能,他们关心:
这把决策从“买最快的芯片”转为“选低风险的平台”。
因为软件成熟度往往决定了首次可用结果的速度和运维风险。看起来更便宜的加速器,最终可能因以下因素变得更贵:
团队通常会选择最可靠、文档最完善的方案,而非纸面上每单位成本最低的选项。
AI 硬件供应受多重因素限制,而不仅仅是芯片生产。常见瓶颈包括:
此外需求具有“块状”特征(大项目一次性采购数千块 GPU),即便预测偏差不大,也会导致长期交付延迟。
是的。许多组织会根据工作负载混合使用硬件:
实用做法是基于真实模型进行基准测试,并把工程化时间计入总成本,而非只看硬件价格。
常见风险包括成本、锁定和可用性。降低暴露但不放慢进度的方法有:
把 GPU 选择当作长期的平台决策,而不是一次性的零件购买。