芯东西(公众号:aichip001)
作者 | 云鹏
编辑 | 心缘
RTX 5090,老黄的最新核弹,一经发布就引爆了整个PC圈,今天,它终于将最后一块面纱解下,实测性能正式解禁。
芯东西1月24日报道,英伟达GeForce RTX 50系新显卡的旗舰款GeForce RTX 5090以及中国合规版GeForce RTX 5090 D今天解禁了性能测试,芯东西提前拿到了RTX 5090 D并重点针对其游戏、生产力、AI三方面进行了测试。
测试中我们使用了目前地表最强游戏显卡RTX 5090 D+地表最强游戏CPU AMD锐龙7 9800X3D+的组合。
▲七彩虹RTX 5090 D Advanced
众所周知,这一代显卡尤其强调AI技术的深度应用,芯东西也专门针对RTX 50系背后的逆天游戏“兵器库”进行了深入解读(深度揭秘RTX 5090八大看点:游戏“兵器库”逆天,将AI炼丹术塞到桌面)。
所以AI到底只是PPT上的数倍暴涨,还是实际游戏中实打实的帧数提升、画质提升,这是玩家们非常关心的话题,也是我们今天要通过实际测试回答的问题。
直接说结论:在支持DLSS 4的游戏中,《赛博朋克2077》竟然直接飙到了400多帧,简直逆天;RTX 5090 D相比RTX 4090 D有着翻倍的帧数表现,帧数飙涨,直接让3A单机游戏第一次有了突破240Hz的终极电竞级体验。
▲400帧的《赛博朋克2077》(4K分辨率、开启光追最高设置及路径追踪、DLSS超分辨率为超级性能档、开启DLSS 4多帧生成,其他画质选项全部为最高)
RTX 5090 D在生产力和AI方面的技术点也都点在了“刀刃”上,在FP4下,AI图像生成速度相比RTX 4090 D最高有150%以上的提升。
▲RTX 5090 D与RTX 4090 D在部分代表性AI测试项目中的成绩对比
16499元的中国合规版RTX 5090 D,着实香爆了。
去年的英伟达Blackwell B200企业级核弹可以说成为数据中心GPU市场的AI新王炸,而今天,英伟达在面向消费者的GeForce系列中也加入了一系列AI“秘密武器”,让AI给日常游戏和生产力带来颠覆性体验。
如果用英伟达的话来说,AI会是影响游戏产业未来二十年的最关键技术。从DLSS 4带来的帧数数倍提升,到AI在游戏的纹理、材质、光线反射、Mega Geometry乃至NPC构建中的应用。
英伟达实实在在地推开了AI游戏时代的大门。
一、打破游戏“不可能三角”,400帧的《赛博朋克2077》到底有多爽?
此次中国合规版RTX 5090 D没有公版,我们拿到的是七彩虹iGame RTX 5090 D Advanced,七彩虹作为核心AIC厂商之一,此次在显卡设计上较为用心。
▲七彩虹iGame RTX 5090 D Advanced
其供电规格较为豪华,显卡做工用料扎实,厚度有3槽位厚,其外观在点亮后极具科技感,还支持灯光同步以及一键开启Turbo模式。
▲七彩虹iGame RTX 5090 D Advanced产品细节
七彩虹作为目前全球第一大显卡出货厂商,在产品的性价比方面一直做的较为极致,此次七彩虹iGame RTX 5090 D Advanced的售价与官方指导价看齐,同为16499元。
▲七彩虹iGame RTX 5090 D Advanced
在测试平台的CPU配置方面,我们选择了英伟达官方评测推荐CPU——AMD锐龙7 9800X3D,这也是目前在游戏玩家中呼声最高的一款旗舰处理器。根据公开测试数据,9800X3D不仅可以实现较高帧数,在帧率稳定性方面也表现不错。
▲测试配置
此次我们在游戏方面的测试重点聚焦于DLSS 4多帧生成功能,这也是一项由AI技术深度加持的功能。
在测试中,RTX 5090 D均开启DLSS 4多帧生成,RTX 4090 D则开启DLSS 3单帧生成,测试分辨率均为4K,有光追选项的游戏全部开启光追,其他画质设置全部拉满,DLSS超级分辨率开到性能档位。
在性能测试解禁前,玩家圈曾广泛议论RTX 50系的纯传统光栅渲染性能提升可能比较有限,但实际上,纵观当今芯片产业的发展,单纯依靠架构、工艺升级,晶体管数量提升、增大核心面积,已经很难实现颠覆性升级,但应用对于硬件的性能需求却依然在大幅提升。
可以说,通过软件算法层面的技术创新去提升芯片在实际应用中的表现,是一个必然的方向,也是行业大势所趋。
英伟达作为当下AI圈的扛把子,自然深谙此理。
在游戏领域一直有一个“不可能三角”,其三要素为画质、帧率和响应速度,在同一个技术中同时提升流畅度、响应速度、画质,这在过去是很难实现的,要突出其中之一,必然要适当放弃另外两项。
但今天英伟达用AI彻底打破了这一不可能三角。
1、3A单机冲上240帧,这种丝滑体验真的“旦用难回”
首先我们来看帧数表现,也就是最核心的流畅度指标。直接说结论,在DLSS 4多帧生成的加持下,重载3A单机大作的帧数表现甚至可以用“颠覆想象”来形容。
▲RTX 5090 D与RTX 4090 D游戏平均帧表现(4K分辨率、有光追选项的均开启最高档位、DLSS超分辨率为性能档,其他画质选项全部为最高,RTX 4090 D开启DLSS 3单帧生成,RTX 5090 D开启DLSS 4多帧生成)
像《赛博朋克2077》、《星球大战:亡命之徒》、《心灵杀手2》这样的负载极高的典型3A单机大作,都可以轻松跑到4K 240帧以上,丝滑流畅。
▲《星球大战:亡命之徒》(4K最高画质开启DLSS 4多帧生成)
要知道,此前这些游戏几乎都有这“硬件杀手”的称号,例如《心灵杀手2》在上代RTX 4090 D上,即使开启了DLSS 3,帧数都只能艰难破百,最低帧甚至会跌破60,远达不到电竞“144帧”的体验,但这次RTX 5090 D的帧数直接涨到了原来的2倍还多!
▲《心灵杀手2》(4K最高画质开启DLSS 4多帧生成)
什么概念?240Hz是目前许多电竞显示器的最高刷新率上限,也就是说,在DLSS 4技术的加持下,英伟达让玩家可以在重载3A单机大作中直接实现4K电竞帧数级的体验,直接吃满显示器上限,将最新4K 240Hz电竞显示器的显示效果发挥到极致。
▲《赛博朋克2077》 Benchmark成绩(4K最高画质开启DLSS 4多帧生成)
多位资深游戏爱好者在了解到这一表现后,都觉得是“不敢相信”的。
上代RTX 4090固然性能也十分出色,但在DLSS 3但加持下,同类游戏基本上只能跑到一半帧数左右,优化好的情况下大约可以实现4K 120Hz的游戏体验。
在《霍格沃兹之遗》、《龙腾世纪:影障守护者》这类负载中等偏上的3A单机大作中,RTX 5090 D在开启DLSS 4后的帧数甚至可以飙至400帧左右。
▲《龙腾世纪:影障守护者》(4K最高画质开启DLSS 4多帧生成)
《漫威争锋》这款新晋热门第一人称射击类竞技网游,对画质要求较高,但在DLSS 4的加持下也可以直接跑到近400帧左右的平均帧表现。
▲《漫威争锋》(4K最高画质开启DLSS 4多帧生成)
《赛博朋克2077》的游戏帧数表现在4K分辨率画质设置拉满、光追拉满、DLSS超分开启超级性能档,DLSS 4多帧生成开启下可以直逼400帧大关,而在关闭了DLSS技术后,游戏帧数仅仅在30-40帧左右,DLSS技术带来了近10倍的提升。
▲《赛博朋克2077》(4K最高画质开启DLSS 4多帧生成)
在性能档位下,《赛博朋克2077》的帧数可以稳定在4K 240帧上下。
用3DMark的基准测试我们可以更平均地看到DLSS 4给游戏带来的提升。
关闭DLSS和开启DLSS 4,帧数差距达到了8倍以上,不禁令人感叹,老黄的PPT果然是实实在在的。
▲RTX 5090 D与RTX 4090 D在3DMark DLSS性能基准测试中的帧数表现
值得一提的是,不仅是平均帧有大幅上涨,在DLSS 4的加持下,游戏的1%Low帧几乎也都在100帧以上,甚至《星球大战:亡命之徒》、《赛博朋克2077》和《漫威争锋》的1%Low帧都超过了144帧。
▲RTX 5090 D与RTX 4090 D游戏1% Low帧表现(4K分辨率、有光追选项的均开启最高档位、DLSS超分辨率为性能档,其他画质选项全部为最高,RTX 4090 D开启DLSS 3单帧生成,RTX 5090 D开启DLSS 4多帧生成)
1%Low帧简单理解就是游戏中“最卡顿的那几帧”(采集最低的1%的帧数并进行平均)。
也就是说,这些3A单机大作在最卡顿、最影响体验的情况下,帧数都已经迈过了“电竞帧数”的门槛。
这种丝滑的体验,的确是有种“旦用难回”的感觉。
2、开了DLSS 4画质不降反升,鱼和熊掌兼得,新模型立大功
除了流畅度的“翻倍式”暴涨,RTX 5090 D实现如此高帧数,并没有以牺牲画质为代价,在所有游戏中,我们都将画质设置直接拉满,光追也全部开启最高档位,这是在最高画质下实现的电竞级帧数表现。
画质不仅没有牺牲,反而有进步。
▲《赛博朋克2077》画质设置中可以自由选择超分辨率使用的模型
在Transformer模型的升级之下,很多传统超分辨率、光线重建、DLAA技术中的短板问题都得到了明显优化。比如伪影、闪烁、模糊等情况都有明显优化。水体、镜面等代表性反射面的效果都更细腻、更真实了。
▲《赛博朋克2077》灯光纹理对比(RTX 4090 D使用传统CNN模型,RTX 5090 D使用Transformer模型)
最突出的一个感受就是,即便是开了性能档位,很多游戏的画面都给人感觉比较“清爽”,画面比较干净,并没有一些DLSS开高之后常见的伪影、噪点等问题。
▲《赛博朋克2077》(4K最高画质开启DLSS 4多帧生成)
比如在《心灵杀手2》中,以前DLSS 3比较容易翻车的铁丝网,这次DLSS 4都拿捏的游刃有余,画面中铁丝网边缘非常清晰锐利,没有伪影,与此同时,树木枝叶的边缘也比较干净锐利,风扇叶片上的重影减少了,电力线上的闪烁也得到了很好的消除,这些都是非常值得肯定的提升。
▲《心灵杀手2》网格清晰度对比(RTX 4090 D使用传统CNN模型,RTX 5090 D使用Transformer模型)
在《赛博朋克2077》、《龙腾世纪:影障守护者》这两款游戏中,我们也重点关注了一些网格、网布、水面、密集线条交错的场景,在这些场景中,DLSS 4都有不错的表现。
▲《星球大战:亡命之徒》游戏内麻布细节对比(RTX 4090 D使用传统CNN模型,RTX 5090 D使用Transformer模型)
▲《赛博朋克2077》游戏内水面反射细节对比(RTX 4090 D使用传统CNN模型,RTX 5090 D使用Transformer模型)
可以说,AI“猜图生图”的水平的确又上了一个新台阶。
3、延迟不升反降,帧生成稳定性亮眼
此前在帧生成技术刚刚出现时,其延迟问题曾受到广泛关注,此次DLSS 4直接用AI生成3帧,是否会进一步增加延迟?这也是游戏玩家们非常关心的。从实际游戏体验来看,PC延迟不升反降,游戏响应速度还更快了。
▲RTX 5090 D与RTX 4090 D游戏延迟表现(4K分辨率、有光追选项的均开启最高档位、DLSS超分辨率为性能档,其他画质选项全部为最高,RTX 4090 D开启DLSS 3单帧生成,RTX 5090 D开启DLSS 4多帧生成)
即使是在负载最重的《心灵杀手2》中,延迟也仅有45ms左右,在《漫威争锋》这种电竞类网游中,延迟只有20ms左右。
▲《漫威争锋》(4K最高画质开启DLSS 4多帧生成)
在《霍格沃兹之遗》这款3A单机中,DLSS 4在实现420帧左右的平均帧基础上,延迟还控制在了20ms以内,可以说是画质、帧率、延迟完美兼顾的典型案例了。
▲《霍格沃兹之遗》(4K最高画质开启DLSS 4多帧生成)
当然,在这些游戏中,能够开启英伟达Reflex技术的都已经开启,根据英伟达的技术解析,Reflex 2技术在响应速度方面再次提升了50%左右,相比原生有着75%的提升。
不仅延迟低,DLSS 4多帧生成的稳定性非常好,这也是很关键的,多帧生成的间隔比较稳定,波动很小,反映在游戏体验中,就是流畅是“稳定的流畅”,而非“波动流畅”,游戏跟手性很好。
正如前文所说,综合帧数、画质、延迟表现,我们可以很负责任地说,英伟达是实实在在地用AI打破了“游戏不可能三角”,真正将游戏体验带到了“下一个时代”——3A单机大作都可以拥有电竞级流畅体验的时代。
4、最新黑科技一键开启,便捷性易用性拉满
最后在游戏方面我们想重点提及的一点,是DLSS 4以及相关AI技术的易用性。
对于普通玩家们来说,他们不需要了解这些“黑科技”背后的原理,消费者需要做的仅仅是把显卡插到机箱里,并更新到最新版驱动,就可以直接体验到这些新技术带来的体验质变升级。
▲《心灵杀手2》画质设置
一些即使没有在游戏中内置支持DLSS 4的游戏,也可以通过英伟达官方NVIDIA App直接进行“优设”覆盖生效,比如《漫威争锋》以及《龙腾世纪:影障守护者》,这个使用体验的确是非常便捷。
▲《漫威争锋》通过DLSS优设设置帧生成4x
▲《龙腾世纪:影障守护者》通过DLSS优设设置帧生成4x
在设置的过程中,选项非常明确,我们可以直接设置每一个功能所用到的模型,是CNN模型,还是最新的Transformer模型。我们也可以设置帧生成是3x还是4x。
▲在NVIDIA App中选择模型
英伟达把多年深耕积累的AI黑科技打包装进驱动,消费者只需要一键升级,就可以直接享受到这些AI技术带来的红利。
值得一提的是,根据官方消息,在RTX 50系列正式开售时,将会有超过75款游戏和应用支持DLSS 4,近期发售的热门大作几乎全部包含在内,英伟达的生态支持完善性还是不错的。
二、生产力多项新特性升级,建模、视频、AI样样精通
既然是英伟达的旗舰显卡,生产力自然也是不少消费者关注的重点,从3D渲染、视频编解码到生成式AI能力,RTX 5090 D的表现可圈可点。
RTX 5090的AI峰值算力是3352TOPS。RTX 5090 D在硬件配置上是一样的,AI算力受合规限制到2375TOPS,比5080高了约32%,是RTX 4090 D的1177TOPS的2倍。
据媒体报道,RTX 5090 D在运行一些敏感受限应用时会受到算力限制。但对于日常生产力应用或者消费级市场中常见的AI推理,比如AI生图、AI文本生成,影响较小。
在实际测试中,RTX 5090 D的确在日常生产力应用中都有着不错的提升,相比RTX 4090 D提升幅度多在30%到90%之间,AI应用方面的性能提升幅度最高超过150%。
▲达芬奇测试为RTX 5090 D硬件编码与14900K CPU软件编码对比
比如在主流建筑可视化软件D5渲染器中,RTX 5090 D就可以实现相当高的场景预览帧数表现。
▲D5实际场景预览画面
在负载极高的一个别墅场景中,平均帧甚至可以来到“电竞级”的160帧,相比之下,RTX 4090 D只能跑到87帧左右的预览成绩。
▲D5场景预览
这种丝滑的场景预览体验,无疑可以显著提升建筑师的设计效率以及给客户展示预览成果的实际效果。
▲D5渲染器界面
在视频编解码方面,此次RTX 5090 D增加了对4:2:2 H.264/H.265视频的编码和解码支持,上代RTX 40系支持4:2:0和4:4:4的硬件视频编解码,但不支持4:2:2。
简单理解,4:2:2的色度采样模式可以在保留更多颜色信息与减小文件大小和带宽需求之间取得更好的平衡,额外的颜色信息对于HDR内容创作以及精细颜色校准工作流有很大帮助。
实际上,在显卡实现硬件级支持之前,基于软件的4:2:2编码会给CPU带来极高负载,如今RTX 5090 D可以直接从硬件层面实现对H.264/H.265视频格式的4:2:2编码支持,视频处理效率进一步提升。
▲达芬奇视频导出设置
根据实际测试,基于RTX 5090 D直接输出4:2:2编码的视频,速度比基于CPU的编码解决方案速度快了10倍以上,接近11倍。
在实际测试中,基于达芬奇,输出同样一段4:2:2编码10bit的高质量4K视频,RTX 5090 D的完成时间在2分半左右,而基于英特尔旗舰CPU 14900K的软件方案则耗时26分15秒左右。
▲RTX 5090 D与14900K以4:2:2编码10bit导出4K视频耗时对比
在常用的GPU渲染性能测试工具V-Ray Benchmark中,RTX 5090 D也跑出了超过15100分的成绩,相比RTX 4090 D提升幅度约有36%,还是相当可观的。
接下来我们看看RTX 5090 D在AI生产力方面的表现。如今AI大模型的复杂度和参数规模都不断增长,通过端侧消费级硬件来运行这些模型其实是有很大挑战的。
这代RTX 50系增加了对原生FP4的支持,FP4可以更好地压缩模型的大小,跟当下常见的FP16量化方式相比,FP4的显存占用率不到一半,但性能却翻了一倍,更低的显存占用也让更多旗舰之外的中端显卡在AI方面有了一战之力。
▲RTX 5090 D与RTX 4090 D在AI图像生成、AI文本生成等基准测试中的成绩对比
在UL Procyon FLUX.1 Dev测试中,RTX 5090 D在FP4下的测试成绩是3.9秒左右,而基于FP8的RTX 4090用时大约为9.8秒。
▲RTX 5090 D在UL Procyon FLUX.1 Dev测试中的成绩
在AI性能方面,我们基于UL Procyon测试了RTX 5090 D在AI图像生成、AI文本生成等几个主要应用场景的成绩,其相比RTX 4090 D都有比较明显的提升。
▲UL Procyon程序内的各类AI基准测试
在AI图像生成SDXL FP16测试中,RTX 5090 D有着43%的性能提升,图像生成速度在7秒左右,而RTX 4090 D则需要10秒以上。
▲AI图像生成基准测试,左侧成绩为RTX 4090 D,右侧成绩为RTX 5090 D
在AI文本生成方面,我们基于Procyon测试了Phi-3.5-mini、Mistral-7B、Llama-3.1-8B、Llama-2-13B等几款主流热门模型,RTX 5090 D的性能总分领先在35%左右。
▲RTX 5090 D AI文本生成基准测试成绩
尤其在平均生词速度上,RTX 5090 D的领先幅度进一步扩大到46%。
MLPerf是目前行业内比较权威和常用的机器学习基准测试,在MLPerf-Client v0.5中,RTX 5090 D在各类推理性能基准测试中也都有不错的表现。
▲MLPerf测试过程
值得一提的是,根据官方给出的RTX 5090公版测试数据,中国合规版RTX 5090 D在这些日常消费者可以接触到的AI应用中,性能几乎没有差别,可以说对普通消费者的日常使用几乎没有影响。
总体来看,RTX 5090 D虽然在AI算力层面受到了一定的限制,但在消费者日常所接触到的游戏或生产力场景中,相较上代都有非常直观的提升,并且与RTX 5090公版的性能几乎没有差别,结合其16499元的建议零售价,的确是国内玩家和创作者们的新神器。
结语:计算图形学“下个时代”到来,AI显卡走入百姓家
DLSS 4实现8倍的帧率提升、神经网络着色器实现更好的画质、Reflex 2降低高达75%的延迟,RTX 5090 D的诸多技术升级,都令其在游戏、生产力方面有着令人惊艳的性能提升。
值得一提的是,在如今芯片厂商普遍高举“能效比”大旗冲锋的当下,英伟达的桌面消费级显卡并没有一味追求能效比,而是在功耗小幅增长的情况下,将AI技术与硬件深度融合,实现实际性能表现的翻倍式提升。
这样的发力方向,显然是广大PC台式机游戏玩家和创作者们所喜闻乐见的。
用英伟达的话来说,神经网络渲染是计算机图形学的“下个时代”。
神经网络直接深入到图形渲染的过程当中,进而让图形渲染在性能、质量和交互性方面都有真正的飞跃式提升,最终让游戏玩家有更沉浸高质量的游戏体验,让创作者们的生产效率进一步提高。
DLSS 4是DLSS技术发展多年来的一个里程碑式的节点,但同时也是一个新的开始——消费级AI显卡时代的开始。
在AI手机、AI PC之后,AI显卡是真的来了。