时隔6年,那个穿着皮衣的男人拿着最新的显卡再次出现在CES(Consumer Electronics Show,国际消费类电子产品展览会)2025舞台上。
“Are you excited in Las Vegas?Do you like my jacket?”(注:同款皮衣网上售价8990美元)在CES 2025开幕前夜,英伟达创始人兼CEO黄仁勋以这样的开场白,开始了一场长达一个半小时的主题演讲,吸引了全球的瞩目,只因英伟达是当前研发AI的版本答案。
《中国经营报》记者注意到,黄仁勋在主题演讲中最先掷出的“核弹”产品是GeForce(英伟达开发的个人电脑的图形处理器品牌)RTX 50系列显卡,不同以往的是,该系列显卡采用了用于数据中心的加速卡和系统(如B200和GB200)的Blackwell架构。
“我们利用GeForce来实现AI,而现在AI正在革新GeForce。”黄仁勋如此说道。由此,他通过多模态、模型、训练数据量等更为人熟悉的名词,将话题引向当前的AI世界,从而介绍Grace Blackwell NVLink72、个人AI超级计算机Project Digits、世界基础模型Cosmos等英伟达新品。
其中,黄仁勋还分享了自己对大模型时代的金科玉律“Scaling Law”(尺度定律)的观察,认为这是一个经过几代研究人员和行业观察并被证明的经验法则,“Scaling Law仍在持续发挥作用”。
黄仁勋表示,除了Pre-Training Scaling(预训练扩展定律)和Post-Training Scaling(后训练扩展定律),新的Scaling Law已经出现,即Test-Time Scaling(测试时间扩展),当使用AI时,AI能够应用不同的资源分配,而不是单纯改善其参数,专注于决定使用多少算力来生成所需的答案。
多名接受记者采访的人工智能算法工程师均表示,Test-time scaling已是业内当前共识,黄仁勋只是总结了下。“随着数据和算力的增大,模型的能力就会更强,在数据达到瓶颈之后,现在堆时间,其实本质上也就是算力。”华东某省级实验室算法工程师唐小鱼表示,哪怕数据达到了瓶颈,算力继续投入也会更加智能。
范式变化
在展开说Scaling Law前,有这样一个背景值得一提:在2024年年末,有观点认为Scaling Law正逐渐失效,大模型演进速度在放缓。
而黄仁勋坚信Scaling Law不会“撞墙”。在他看来,相比Pre-training scaling和Post-Training Scaling,Test-Time Scaling更注重模型的论证能力,模型不再集中于改善其参数,而是专注于决定要使用多少计算来生成想要的答案,且“已被证明非常有效”。他还指出,从ChatGPT到OpenAI o1、OpenAI o3,再到Genimi 1.5 Pro,这些新模型的强大能力都印证了Scaling Law的延续。
对于黄仁勋的Scaling Law范式由一变三的观点,人工智能算法工程师张昱轩表示:“现在的模型训练集和测试集没什么关系,导致模型的实际应用效果不佳。准确地说,与其倒腾参数,不如搞硬件资源配置整合。就是精确确定每一个token(源代码中的基本单位)是怎么得到的,这方面还有很大的优化空间,而不是按照传统的范式,一直去叠加所谓的数据。”
他还表示,黄仁勋所说的Test-Time Scaling类似于高配版的MoE(Mixture of Experts,混合专家),但不是用现在的MoE结构。“相当于模型自己知道什么是难的,哪个是简单的,哪些有什么方法解决……这种思考能力是比较深的。”张昱轩说。
2024年9月,OpenAI发布了主打推理能力的o1系列模型,与以往追求快速响应的模型不同,OpenAI o1系列最大的特点在于其“慢思考”的模式。据OpenAI介绍,这些模型经过特殊训练,能够在回答问题之前花费更多时间进行思考,就像人类一样。
通过模仿人类的思维过程,通过强化学习和“思维链”(CoT)技术,引导模型自主解决问题。o1系列模型在解决复杂问题,尤其是在科学、编码和数学等领域,展现出了超越以往模型的强大能力。
“所有的大模型公司都跟着OpenAI走,(模型)推理能力目前靠CoT是很好的方式。”唐小鱼表示,长思维链的方法就是引导大模型一点点地解答,就像我们做数学题一样,一步一步地思考,看题、理解题目,查找相关的公式,把数据导入公式,最后一步计算。
然而,这么做来解决模型的智能瓶颈终归不够优雅。“CoT,我认为只是暂时的,类似打补丁。虽不够优雅,但是很有效。”唐小鱼说。
当然,仍有活力的Scaling Law也在推动着行业对英伟达产品,尤其是Blackwell芯片的巨大需求。黄仁勋手持一块Grace Blackwell NVLink72的展示样品模型,摆出“美国队长”的姿势,俨然有着“美国芯片队长”的样子。
他透露,英伟达计划造一个由72块Blackwell GPU组成的巨型芯片,里面有130万亿个晶体管,AI浮点性能达到1.4 ExaFLOPS,重量达1.5吨,有60万个零部件,功耗120千瓦。
黄仁勋说,这是有史以来最大的单一芯片,“基本上全世界的互联网流量都能在这个芯片上进行处理”,已经在全球45家工厂中生产,英伟达会将部件拆卸并送往各个数据中心重新组装。
在介绍Blackwell架构芯片进展后,黄仁勋还“蹭了下热点”,发布了现阶段英伟达版的AI Agents——“Blueprint for AI Agents”,并展示具有“Teat-Time Scaling”功能的Agentic AI。这位AI行业的“执剑人”还预测,AI Agents可能带来超过1万亿美元的市场机会。
AI PC生态有望高速发展
“AI的下一个前沿是物理AI。”黄仁勋又一次面向世界强调了一遍。在CES 2025上,他向外界揭晓了英伟达首个专为理解物理世界的基础模型Cosmos(宇宙)。
据悉,Nvidia Cosmos是一个用来加速物理AI(能够让机器人和自动驾驶汽车等自主机器感知、理解和执行物理世界中的复杂动作的AI)开发的平台,由一套开源的扩散(Diffusion)和(Auto-regressive)模型组成,用于生成物理感知视频。
这些模型在2000万小时的现实世界人际互动、环境、工业、机器人和驾驶数据之上训练而成,包含9000万亿个tokens。Cosmos从小到大分为Nano、Super、Ultra三大类,参数规模从40亿到140亿不等,主要用于机器人和自动驾驶场景。
在这场长达一个半小时的主题演讲中,黄仁勋还介绍了下一代智驾芯片Thor、用于人形机器人合成运动数据生成的NVIDIA Isaac GR00T Blueprint、基于Llama基础的一系列Llama Nemotron模型等内容。
从长期观察消费电子和半导体行业的角度看,英伟达RTX 50系列显卡和AI超级计算机Project DIGITS更受关注。
作为英伟达最新的消费级GPU产品线,采用Blackwell架构的RTX 50系列得到了大大提升。旗舰产品RTX 5090搭载了21760个CUDA核心,成为首个核心数突破20000大关的Geforce显卡。RTX 5090内含920亿个晶体管,每秒可实现超3352万亿次AI运算,同时搭配512bit位宽的32GB GDDR7显存,性能较上代旗舰产品RTX 4090提升近2倍。
而更为夸张的是,黄仁勋提到RTX 50系列的基础版5070能以549美元的价格达到上代RTX 4090的相似性能水平。对此,芯片行业资深产业分析师黄烨锋表示,这应该不是指单纯的图形渲染算力或AI算力,而是从系统层面表现出在AI加持下的性能水平。
“实际上从此前Ada Lovelace发布开始,英伟达就更习惯于用AI加持来衡量性能提升幅度了。在Tensor core上堆料的收益,是明显高于在其他通用和固定图形单元上堆料的。”黄烨锋说。
黄仁勋提到,GeForce产品让AI实现了上量,而现在“AI回到GeForce”。对当代全高清4K渲染的3D画面而言,3300万像素仅有200万像素是真正渲染出来的,其他像素都能借助AI生成。
值得一提的是,黄仁勋还特别在发布会上展示了一台搭载RTX 5070的笔记本,得益于AI技术,英伟达能够将Blackwell显卡缩小并集成到笔记本电脑中,这样的笔记本电脑售价从1299美元至2899美元不等,将从今年3月起开始发货。
“这是个相当不同以往的时代,图形计算需要AI加持的时代,更是AI PC的时代。”黄烨锋表示。
而在游戏显卡之外,英伟达还发布了把用于数据中心的Grace-Blackwell超级芯片下放到桌面设备Project Digits中,面对AI开发者和发烧友。
据黄仁勋的表述,Project Digits的灵感来自于DGX-1(首个专为深度学习而设计的系统)。2016年,黄仁勋把第一台DGX-1送给了OpenAI和马斯克,坊间到处流传着那张照片。
“那台机器要是能小点儿就好了。”黄仁勋话音刚落,Keynote里的样机成倍缩小,全球最小的个人AI超级计算机Projects Digits最后登场。
支撑Project Digits的核心硬件是英伟达GB10 Grace Blackwell Superchip,在FP4精度下,可提供高达1 PFLOPS(千万亿次浮点运算/秒)的AI性能。Project DIGITS具有128GB的统一内存和4TB的NVMe存储。
此外,Project Digits可使用标准电源插座供电,外形类似Mac Mini,起售价为3000美元。借助这台超级计算机,开发人员可以运行多达2000亿个参数的大型语言模型,在使用NVIDIA ConnectX网络,两台Project DIGITS AI超级计算机可以连接起来,运行多达4050亿参数的模型。
值得一提的是,开发者还可以在Project Digits上开发和运营模型推理,然后在使用相同的Blackwell架构和NVIDIA AI Enterprise 软件平台的云端或数据中心基础设施上进行无缝部署。
“通过Project Digits,Grace Blackwell超级芯片将惠及数百万个开发者。”黄仁勋表示,“将AI超级计算机放在每个数据科学家、AI研究人员和学生的办公桌上,使他们能够参与和塑造AI时代。”
而黄烨锋认为,从Project Digits及更多面向RTX AI PC开发工具与AI基础模型的发布,都能看出英伟达期望把一直以来的AI生态优势带到PC端,并真正从严肃生产的角度普惠AI PC。“这一生态的持续完善,也是让AI PC全面迈入高速发展期的基础。”他说。