​NVIDIA GeForce RTX 4090 测评-性能炸裂增长,神经网络渲染新纪元!

2022-10-12 14:43:52

9月20日,NVIDIA正式发布了第 3 代 RTX 架构 Ada Lovelace,并推出了基于该架构的旗舰GPU——GeForce RTX 4090。它配备了第四代Tensor Cores和第三代RT Cores,AI性能和光追性能相对上代最高可提升2~4倍,并支持全新的DLSS 3技术。今天,我们迎来了NVIDIA GeForce RTX 4090 Founders Edition的性能解禁,那么RTX 4090为何如此强大?其采用的全新NVIDIA Ada Lovelace 架构GPU到底有哪些进化?且看我们全面的解析与测评。

福瑞鑫智能科技

↓↓↓NVIDIA GeForce RTX 4090 FE展示↓↓↓

01  NVIDIA Ada Lovelace架构带来革命性进化

福瑞鑫智能科技

Ada Lovelace(1815~1852)是一位英国数学家、计算机程序创始人,被称为世界上第一位程序员,那么,以她名字命名的NVIDIA Ada Lovelace架构GPU到底带来了怎样的革命性升级呢?

工艺领先,GPU规模与频率全面提升

福瑞鑫智能科技

完整的Ada AD102 GPU包含了12个GPC、共计18432个CUDA单元、144个RT Cores(第三代)、576个Tensor Cores(第四代)以及576个纹理单元,晶体管数量高达760亿个,远远超过了NVIDIA Ampere的280亿个。

福瑞鑫智能科技

在Ada GPU的1个GPC中,包含了6个TPC、每个TPC包含1个多边形引擎和两个SM单元,每个SM单元包含128个CUDA单元、1个第三代RT Core和4个第四代Tensor Core。

福瑞鑫智能科技


得益于TSMC 4N NVIDIA定制工艺,NVIDIA Ada Lovelace 架构GPU规模达到了空前的强大,同时在工作频率方面也有了巨大的提升。以当前RTX 40中的旗舰GeForce RTX 4090为例,它包含了11个GPC、共计16384个CUDA单元、128个RT Cores(第三代)、512个Tensor Cores(第四代)以及512个纹理单元 ,默认加速频率为2520MHz,已经远远超过了上代RTX 3090 Ti的1860MHz,而在游戏中甚至还能更高。总而言之,规模和频率的全面提升,为NVIDIA Ada Lovelace架构GPU强悍的性能打下了坚实的物理基础。

福瑞鑫智能科技

Shader Executing Reordering(SER)着色器执行重排序

从NVIDIA官方数据来看,NVIDIA Ada Lovelace 架构GPU的着色器数据吞吐量最高可达90 TFLOPS(GeForce RTX 4090为83 TFLOPS),而上代NVIDIA Amere大约为40 TFLOPS,这当然与新一代GPU规模大幅提升不无关系。

福瑞鑫智能科技

不过,除了规模暴增之外,NVIDIA Ada Lovelace 架构GPU还有一项进化就是支持Shader Executing Reordering(SER)着色器执行重排序。我们知道,GPU在完成大量并行计算的时候效率最高,而随着游戏中光追效果越来越复杂,着色器面临的可能就是大量发散的、无序的低效率工作任务,从而影响了渲染效率。SER技术的出现,就可以把这些杂乱的工作任务进行分类,动态重组为更高效的任务,从而提升着色器的执行效率。从NVIDIA官方数据来看,SER技术大约会带来2倍的着色器性能提升,而在《赛博朋克2077》这样的光追游戏实测中,SER也大约带来了44%的帧率提升。

第三代RT Core

从RTX 20到RTX 30再到RTX 40,RT Core当然也进化到了第三代。简单地从有效光线追踪计算能力来看,NVIDIA Ada Lovelace 架构GPU的第三代RT Core吞吐量达到了191 TFLOPS,是上一代的2.8倍之多。

福瑞鑫智能科技

另外,我们知道NVIDIA Turing和Ampere 架构GPU中的RT Core包括了用于加速边界体积层次(BVH)数据结构遍历的加速单元,并执行射线三角形和光线边界框相交测试计算。Ampere的RT Cores中,BVH遍历由Box Intersection Engine进行加速,射线三角形相交测试由三角形相交引擎进行加速,这已经被证明是迄今为止处理光追工作负载最高效的引擎。而在Ada GPU的第三代RT Cores中,除了以上两个功能外,还引入了称为“微映射透明度引擎”(OMM)和“微网格置换引擎”(DMM)。

福瑞鑫智能科技

微映射透明度引擎的作用是优化光线追踪渲染,大幅降低着色器的工作负载,这对于处理复杂物体光追特性来讲提升是很大的。具体的原理是将光线追踪特性烘焙到不透明的蒙版中,让那些不规则的形状与半透明的对象都能更快更精准地被渲染出来。

福瑞鑫智能科技

微网格置换引擎则可以将面数非常多的复杂图形做简化,创造出更加简单的模型,从而实现用基本三角形渲染复杂几何图形的目的,大大减少了计算量和对显存的占用。从官方数据来看,微网格置换引擎可以让光线追踪的BVH速度最多提升15倍以上,而显存占用最多可降低到原先的1/20,总之就是越复杂的模型,微网格置换引擎的优化效果越突出。

第四代Tensor Core

在Ada GPU上,Tensor Cores已经进化到了第四代,而这次Tensor Cores的升级尤其重磅。它配备了全新的FP8引擎,张量处理性能高达1.32 PetaFlops(相对上代提升了五倍之多)——注意单位是以千万亿计的PetaFlops,而之前我们用的是以万亿计的TFlops。当然,第四代Tensor Cores最具革命性的进步还得属全新加入的光流加速器(Optical Flow Accelerator),而它就是NVIDIA DLSS3黑科技的核心所在,后面的DLSS3章节会详细介绍。

DLSS 3技术

福瑞鑫智能科技

DLSS技术大家并不陌生,作为RTX系列显卡提升画质与帧率的专用黑科技,到RTX 40这一代则直接从之前的DLSS 2进化到了DLSS 3,跨度之大证明其改进是革命性的,NVIDIA官方甚至称其代表了“神经网络渲染新时代”。

福瑞鑫智能科技

和之前的DLSS不同,DLSS 3在原有的超分辨率功能基础上进一步引入了光学多帧生成技术,简单来说就是可以通过AI计算生成新的帧,而不像之前那样只是生成像素。而这个帧生成的工作,这个帧生成的工作是在Ada架构中新的光流加速器完成的,当然这就意味着DLSS 3中的“光学多帧生成”功能是RTX 40独享的。

福瑞鑫智能科技

光流加速器可以在DLSS 2的基础上计算两帧之间的光流场,捕捉游戏画面中从第1帧到第2帧之间变化的方向与速度,包含粒子、光线照射、反射等像素信息,通过计算运动矢量和光流场来精确重建画面。

福瑞鑫智能科技

简单来说,DLSS2做的是通过AI计算出画面上剩余的像素,而DLSS3则在此基础上还能计算出下一帧完整的画面,这样算下来DLSS3等于是完全重建了实际显示画面7/8的像素,也可以说是重建了相当于实际渲染像素7倍的像素。此外,由于DLSS3的“帧生成”在GPU中后处理,所以即便是CPU性能出现瓶颈,也能提升游戏帧率。

福瑞鑫智能科技

按照官方数据,DLSS3最多可带来4倍的游戏性能提升,让8K与全景光追游戏成为了现实。DLSS3包含了“光学多帧生成技术”、“超分辨率”和“NVIDIA Reflex”三大部分,开发者只要整合DLSS3,就可默认支持DLSS2。目前DLSS3已经得到了游戏开发者与游戏引擎的支持,超过35款游戏和应用都将支持该技术,首批游戏与应用将在10月内推出。

NVIDIA Studio优化

在生产力方面,NVIDIA GPU必然是设计师们优先考虑的高效工具,而RTX 40系列在NVIDIA Studio方面的优化配合NVIDIA Studio驱动也将会为内容创作者们提供更加出色的选择。总的来说,目前RTX 可以加速 110 多款主流创意应用,此外,SDK的提供使这些应用更加高效,并提供独家的功能,例如Optix、DLSS和Maxine。NVIDIA Studio 还提供了全套创意应用,包括 NVIDIA Omniverse、Broadcast、Canvas 和 RTX Remix。

AV1与AI直播

福瑞鑫智能科技

我们知道AV1相比H.264等编码方式可以在同码率下提供更加清晰的视频画面,而且AV1还支持一些更先进的编码特性,例如HDR与低延迟。RTX 40的编码器(显存12GB以上的RTX 40系列甚至还提供了双NVENC编码器)提供了对AV1硬件编码的支持,而OBS和Discord等推流软件都将在不久之后提供对NVENC AV1的支持,让玩家享受到更加精美而流畅的直播视频画面。解码方面,RTX 40的NVENC也继承了RTX 30上的第5代硬件解码器,支持MPEG-2、VC-1、H.264(AVCHD)、H.265(HEVC)、VP8/9以及AV1的硬件解码。AI直播部分,NVIDIA在直播应用技术上的更新有:面部表情预估,眼神追踪(让你看起来像是在看摄像头),以及虚拟绿幕的质量改进,而开发者可以很容易地在自己的APP中集成NVIDIA Broadcast SDK的这些功能。

加速内容创作

福瑞鑫智能科技

前面已经介绍过,在配备12GB显存及以上型号的RTX 40 GPU中内置了第八代双编码器,因此在视频导出速度方面有了巨大的提升。从图中可以看到,RTX 4090相对RTX 3090 Ti的视频转码时间缩短了一半多,大大提升了工作效率。DaVinci Resolve、voukoder和剪映都将首发提供对RTX 40双编码器的支持。此外,RTX 40在AI视频工具中也大幅提升了效率,例如DaVinci Resolve AI Magic Mask中,RTX 4090的处理速度就是RTX 3090 Ti的1.7倍。此外,得益于RTX 40系列的第三代 RT Cores、SER、DLSS 3 和 NVIDIA Omniverse,3D 设计师也可以在 4K/60fps 下进行创作,而无需代理,工作效率大大提升。游戏发烧友和开发者也可以通过Modder直接重制画面增强的经典游戏,并通过RTX Remix添加RTX效果。

总的来说,全新TSMC 4N NVIDIA 定制工艺打造的NVIDIA Ada Lovelace GPU在架构、频率与能效比方面带来了巨大的升级,提供了相对上代数倍的性能,全新的RT Cores、Tensor Cores设计、光流加速器加持的DLSS3技术等等都堪称革命性的进步。它不但为玩家带来了速度与画面双绝的光追游戏体验(甚至直接进入了8K游戏的时代),更是为内容创意设计者们带来了极致高效的生产力利器,称得上是GPU发展史上又一个里程碑式的存在。

02  巨大压迫感的经典外观设计 散热效能再次提升

福瑞鑫智能科技

我们知道,NVIDIA的Founders Edition一直以来都是N饭的信仰神器,在工业设计方面非常前卫,非常具备收藏价值,同时在电气性能方面也是众多AIC厂商的重要设计参考。

福瑞鑫智能科技

RTX 4090 Founders Edition的外观相沿用了上代的设计思路,银色与黑色的搭配张弛有度,中央的X造型更显科技力量的神秘。散热器方面同样采用了一只轴流风扇位于显卡正面负责推风,另一只轴流风扇位于显卡背面负责拉风,从而在机箱中制造出更为高效的散热风道,提升显卡的散热效果。

福瑞鑫智能科技

咋一看的外观下却是搭载了新的散热鳍片和气流设计,相比RTX 3090 FE,RTX 4090 FE的最大气流多出了20%,在同噪音等级情况下,气流可以多出15%,以提供更好的散热效果。

福瑞鑫智能科技

本次的RTX 4090 FE也是有史以来体积最庞大的FE设计,厚度已经达到了3.5槽,重量接近2.2KG,散热器的体积也是相当的夸张,给人强烈的力量感。电源接口则是新规范的12+4pin接口,使用老电源的玩家也不必担心,包装盒里附送一条12+4Pin转4×8Pin的转接线。

福瑞鑫智能科技

在RTX 4090 FE的侧面,有着GEFEORCE RTX的信仰灯,通电后会亮起白光,颇具仪式感。显卡尾部设计了一个磁吸盖板,打开后会露出机架安装孔位,方便放入服务器机柜。

福瑞鑫智能科技

接口方面,RTX 4090 FE提供了3个DP 1.4接口和1个HDMI 2.1接口,可以支持8K/60Hz HDR10输出,为8K游戏与超极清视频提供了物理规格上的支持。

福瑞鑫智能科技

RTX 4090 FE的PCB造型和上代相似,均采用了异性PCB设计。但本次加强了供电设计,全新设计的20+3相豪华供电可以提供更加平稳的高负载输出曲线,减少电源负载波动,带来更稳定的使用环境。

03  性能暴增,DLSS3开创AI渲染新方向

测试平台

显卡:NVIDIA GeForce RTX 4090 Founders Edition
处理器:Intel酷睿i9 12900K
主板:ROG MAXIMUS Z690 HERO
内存:Kingston FURY Renegade RGB 32GB DDR5
硬盘:Kingston KC3000 2TB
电源:ROG THOR雷神1200W Platinum II
操作系统:Windows 11专业版
显示器:AGON PD32M

基准性能测试

福瑞鑫智能科技

在测试DX11 2K分辨率性能的Fire Strike Extreme项目中,RTX 4090直接达到了46000分以上,两年前我们还在感叹3090终于突破了单卡2W分,RTX 4090直接再加了2万分上去,比RTX 3090 Ti高出了78%。

代表DX12 2K分辨率性能的Time Spy项目中,RTX 4090跑到了36690分,相比RTX 3090 Ti提升了75%。在4K分辨率的Time Spy EXTREME中,RTX 4090依旧能比RTX 3090 Ti提升78%,提升非常明显而且很稳定。

光追性能方面,PortRoyal测试中,RTX 4090的得分比RTX 3090 Ti高了一万多分,有82%的提升。纯光追场景的DXR测试就更明显了,性能几乎翻倍了,毕竟128个第三代光追单元对上84个第二代光追单元,优势不言而喻。

新版的3DMARK将加入DLSS3的测试。DLSS3测试默认为4K/性能模式,可以看到RTX 4090在开启DLSS3后帧率达到原生的3倍,比较符合老黄说的2~4倍的提升范围。

单看跑分的话,RTX 4090 FE毫无任何挤牙膏的嫌疑,性能提升非常巨大。那实际游戏中有没有跑分这么猛呢?我们也进行了详细的测试,下面将分成光栅化性能、光追/DLSS2性能和DLSS3性能三个部分进行详细测评。

光栅游戏性能测试(均为预设最高画质/RT off/DLSS off/单位:fps)

游戏实测部分,对于RTX 4090这种旗舰显卡来讲,使用1080P分辨率对GPU的压力太小,只会凸显出处理器等子系统的瓶颈,因此我们只在2K和4K分辨率下测试。

福瑞鑫智能科技


福瑞鑫智能科技


先看看经典游戏《古墓丽影:
暗影》的表现,在2K分辨率下,RTX 4090比RTX 3090 Ti多出了70帧,提升幅度为38%,在4K分辨率下则多出了75帧,提升达到了71%。RTX 4090在高分辨率下的优势明显更大,如果仔细看的话就会发现,在2K分辨率下,RTX 4090是跑不满450W功耗的,甚至不到300W的功耗,GPU占用也没跑满,这说明现在部分游戏的2K分辨率下,12900K 都已经给RTX 4090造成了一定的瓶颈了,2K分辨率下12900K带不动RTX 4090了。

福瑞鑫智能科技


福瑞鑫智能科技


《荒野大镖客:救赎2》的优化比较不错,RTX 3090 Ti就可以在2K分辨率下可以达到120fps以上的高刷帧率,而RTX 4090则可以在4K分辨率下实现相同的120帧以上的帧率,没想到4K/144Hz显示器跑满玩3A这么快就实现了。

福瑞鑫智能科技


福瑞鑫智能科技


《刺客信条:
英灵殿》对N卡的优化相对较差,但RTX 4090在4K分辨率下的帧率依旧达到了RTX 3090 Ti在2K分辨率下的帧率。相比3090 Ti,RTX 4090在2K和4K分辨率下的帧率提升分别达到了44%和49%。

福瑞鑫智能科技


福瑞鑫智能科技


《看门狗:
军团》对于RTX 3090 Ti来说压力明显就上来了,4K分辨率下虽然也超过了60fps,但就刚刚到而已。RTX 4090就不一样了,4K分辨率下依旧有接近120fps的平均帧,比RTX 3090 Ti在2K的帧率都还高。4K下的提升也接近了70%,提升非常明显。

福瑞鑫智能科技


福瑞鑫智能科技


《极限竞速:
地平线5》的硬件要求比4代提高了不少,RTX 4090在4K下同样也比RTX 3090 Ti高出了61%,4K帧率甚至比RTX 3090 Ti的2K高了25帧出来,性能表现有点夸张。

福瑞鑫智能科技


福瑞鑫智能科技


《孤岛惊魂6》的整体优化也相对较差,虽然2K下RTX 4090和RTX 3090 Ti没有拉开差距,但到了4K下提升就比较明显了,虽然不如其他游戏那样高,但在4K分辨率下也多出41%的帧率,对于发烧玩家来说依旧是非常明显的提升。

福瑞鑫智能科技


福瑞鑫智能科技


《毁灭战士:
永恒》作为一款3A来说优化相当好,RTX 3090 Ti在4K下都接近200帧,RTX 4090的帧数就更夸张了,4K下跑出了319帧,一个3A大作4K下300多帧的帧率,已经比很多玩家在1080P分辨率下跑《英雄联盟》的帧率都还高了,着实有些离谱。

福瑞鑫智能科技


福瑞鑫智能科技


福瑞鑫智能科技


另外,我们还测试了《德军总部:
新血脉》《Control》《杀手3》,在这些游戏中大致的表现都差不多,RTX 4090在4K分辨率下的帧率几乎都持平甚至超过了RTX 3090 Ti在2K分辨率下的帧率。

福瑞鑫智能科技

总体来看,在这10款游戏中,RTX 4090在2K分辨率下比RTX 3090 Ti最多提升了58%,平均提升36%左右,受到CPU的限制比较明显。4K分辨率下则最低有41%的提升,最高达到了78%,十款游戏平均的话,RTX 4090的帧率是RTX 3090 Ti的1.6倍。

从光栅化游戏的测试来看,普通的4K应该游戏也没有完全压榨出RTX 4090的真正实力,GPU性能还显得有不少盈余,那么,接下来就该光追游戏上场了!

光线追踪游戏+DLSS2性能测试(均为预设最高画质/RT on/DLSS质量/单位:fps)

福瑞鑫智能科技


福瑞鑫智能科技


同样先来看看《古墓丽影:
暗影》。4K分辨率下不开光追,RTX 4090比RTX 3090 Ti的提升有71%,开启光追后,提升进一步加大到了78%,可以看到这一代的光线追踪性能确实是有提升的。

福瑞鑫智能科技


福瑞鑫智能科技


《地铁:
离去 增强版》对GPU性能的需求非常高,可以算得上是一代硬件杀手。4K分辨率下,RTX 3090 Ti不开DLSS的平均帧已经只有40帧了,即使开启DLSS2质量,也只有刚刚60帧出头,而RTX 4090即使不开DLSS,在4K下也能跑到73帧的平均帧,这个帧数差距就相当直观了。开启DLSS2后,甚至可以超过100帧。

福瑞鑫智能科技


福瑞鑫智能科技


《看门狗:
军团》中也是同样的情况,RTX 3090 Ti需要开启DLSS才能在4K下达到60帧的表现,而RTX 4090则无需DLSS也可以以最高画质+最高光追模式跑到60帧以上,性能表现非常抢眼。

福瑞鑫智能科技


福瑞鑫智能科技


《Control》中运用了多种光线追踪技术,在该游戏中的表现也符合之前的预期表现。
在4K分辨率下开启光追后,RTX 4090相比RTX 3090 Ti帧速提升了63%。而开启DLSS质量模式后,帧数达到了142帧,相比3090 Ti提升了61%。

福瑞鑫智能科技


福瑞鑫智能科技


《消失的光芒2》作为今年为数不多的3A大作,也备受玩家们关注,同时也对硬件性能提出了更高的要求,引领了一波升级。
RTX 3090 Ti在4K光追下也就30多帧,而RTX 4090的帧速表现几乎就翻倍了,开启DLSS质量模式后,平均帧也是能接近120帧,提升达到了85%以上。

福瑞鑫智能科技


福瑞鑫智能科技


另一个“古老”但又焕发活力且依旧是硬件杀手的游戏《我的世界》RTX版里,DLSS默认和光追绑定,开启光追默认就开DLSS,如果手动关掉的话,RTX 3090 Ti又掉到了60帧以下。
而RTX 4090开启DLSS的话,甚至能跑到229帧,相比3090提升超过了70%。看到这里肯定又有很多小伙伴想要去开更高的光追特效折磨显卡了吧。

福瑞鑫智能科技

想要让RTX 4090不开DLSS掉到60帧以下,那还得看《光明记忆》的这个直接运用了大量光追效果的测试DEMO。在这个Benchmark中,RTX 4090终于是掉到了40帧左右,但在开启DLSS2质量模式后,可以提升到77帧,而RTX 3090 Ti即使开了DLSS,也只有44帧。RTX 4090在这里差不多比RTX 3090 Ti提升了80%,可以看到光追场景的计算约复杂,RTX 4090相对于RTX 3090 Ti的提升就越大。

福瑞鑫智能科技


福瑞鑫智能科技


福瑞鑫智能科技


福瑞鑫智能科技


此外,我们还测试了《德军总部:新血脉》《毁灭战士:永恒》《杀手3》《生化危机8》《F1 2022》和《孤岛惊魂6》,总体来看,在绝大多数光追游戏中,RTX 4090相比RTX 3090 Ti都可以保持了70%~80%的优势,最高甚至可以实现接近3090 Ti两倍的帧速。RTX 4090几乎实现了最高特效光追3A大作中不开DLSS也能以60fps以上流畅运行,而开启DLSS后,更是达到100fps以上的帧率,一台4K/144Hz显示器真正有了用武之地。

福瑞鑫智能科技

DLSS 3性能测试(均为预设最高画质/RT on/DLSS on/单位:fps)

通过前面的测试,玩家们可能觉得上面的游戏还不足以真正榨干RTX 4090的性能,而未来的光线追踪游戏必然也会为玩家带来更真实的画面表现,从而更好的应用新硬件的性能。在RTX 40系发布的同时,我们也可以看到新的RTXDI直接照明技术将搭载在未来的游戏中,提供更好和更方便应用的光影效果。而在这种情况下,DLSS3成为了RTX40系列的灵魂了。

我们都知道,DLSS前两代的原理主要就是超分辨率技术,是通过生成单个像素来提升画质的,而DLSS3厉害的地方就在于它是引入了光学多帧生成技术,直接生成完整的帧画面,如果从简单易理解的方式来说的话,就是通过AI补帧。而这个帧生成的动作就是新加入的光流加速器完成的。这些在前面的技术分析部分我们已经讲过了,玩家们可能之前也接触过一些补帧技术,这些技术要么不能实时完成补帧动作,要么有较高的延迟,并不适合游戏这种实时环境的应用。

福瑞鑫智能科技

而DLSS3的帧生成同样需要面临这个问题,所以在DLSS3技术中,我们可以看到它还绑定了NVIDIA Reflex,从而解决延迟问题。目前已经有35款游戏和应用宣布即将支持DLSS3技术,而本次测试我们选用了其中的几款测试版。在支持DLSS3的游戏中都提供了DLSS超分辨率、帧生成、NVIDIA Reflex的开关选项,这其实就是DLSS3的三个组成部分,而关闭帧生成则等效于使用DLSS2,但如果打开了帧生成,那Reflex就必须开启。

福瑞鑫智能科技

从测试结果可以看到,《赛博朋克2077》中,有了DLSS3的光学多帧生成加持,同样在4K+DLSS性能模式下,RTX 4090的平均帧率甚至超过了RTX 3090 Ti的2.3倍!

《逆水寒》联手NVIDIA全球首发了新场景“拂云庭”,是全球首款实机搭载了路径光线追踪技术的游戏,通过直接照明 (RTXDI)、像素完美的阴影、令人惊叹的反射和之前看不到的水面折射,来达到如照片般逼真的细节,从而实现真假难辨的效果。

福瑞鑫智能科技


福瑞鑫智能科技


福瑞鑫智能科技


福瑞鑫智能科技


福瑞鑫智能科技

从实机截图来看,画面中的各种细节清晰可见,《逆水寒》几乎突破了网游画质天花板,对于玩家来说是一件让人非常激动的事。

当然,使用该副本打造的DLSS3测试DEMO也比较夸张,光追效果直逼电影画面,对GPU的压力堪称变态,就连RTX 4090在4K无DLSS的设置下也只有17fps,开启DLSS3性能模式后,帧率直接提升了接近4倍达到了84fps,而没有光流加速器的RTX 3090 Ti在4K+DLSS性能模式下只有25fps,RTX 4090足足领先了236%!

由此可见,游戏中光追特效越多越复杂,DLSS3带来的性能提升幅度越大,因此要面对未来的全景光追游戏大作,拥有光流加速器支持DLSS3的RTX 40系列显然是必备之物。《Lyra》对于显卡的压力相对较小,而在开启DLSS3和帧生成之后,RTX 4090相对RTX 3090 Ti也有最多约65%的帧率优势。

当然呢,大家比较关心的就是DLSS3的帧生成带来的延迟问题。我们通过NV的FrameView工具记录了在开启关闭时的延迟数据。

福瑞鑫智能科技

《赛博朋克2077》中,在原生4K模式下,平均PC延迟为83ms,而开启DLSS3后,平均延迟则只有35ms,Reflex带来的延迟降低非常明显。

福瑞鑫智能科技

《逆水寒》测试中,由于帧率较低,原生4K下的平均延迟高达367ms,而开启DLSS3后,平均延迟则降低到60ms,同样有非常明显的降低。

福瑞鑫智能科技

在《Lyra》Demo中则可以一窥未来fps游戏中加入DLSS3的延迟表现,可以看到,原生模式下的延迟达到了60ms,而开启DLSS3后,平均延迟则已经降至了28ms。

从这样来看,玩家应该是不用太担心DLSS3的帧生成带来的延迟增长问题。

福瑞鑫智能科技

我们还简单比较了一下DLSS3加持的游戏画质。从图中可以看到,经过AI机器学习,目前DLSS对于画质的优化已经比较出色了,就算是注重性能的DLSS性能模式,画面的锐利程度和细节甚至都好于关闭DLSS的原生画面(注意看车尾灯的纹理),这也是为什么NVIDIA也推荐大家在4K分辨率下选择DLSS3性能模式的原因。

福瑞鑫智能科技

从《逆水寒》的对比画面也可以看出,DLSS3性能模式下的画面质量同样非常优秀,有着不输原生画质的表现。从观感上来说甚至略好于原生画面。这样来看,DLSS3也确实做到了画质与高帧率兼得。

4K/144Hz流畅跑3A时代已来临

从前面的测试来看,RTX 4090已经可以实现以4K/高画质实现高帧率游戏表现,而显示器市场中,4K/144hz的高端显示器也开始逐渐普及,成为发烧玩家的首选。对于购买RTX 4090旗舰GPU的玩家来说,搭配一台4K/144Hz的电竞显示器毫不浪费,比如我们测试时使用的这台AGON PD32M。

福瑞鑫智能科技

PD32M是AGON联合Porsche Design设计工作室定制的高端电竞显示器,其特色是加入了保时捷外观设计,从显示器前后的保时捷Logo,到独特的保时捷专属无线人机控制器,都透露着独一无二的“超跑”血统。显示器背后还搭载AGON电竞Light FX音乐律动炫彩氛围灯, 拥有13种灯光秀及超10万种色彩随心设定,电竞氛围感拉满。

支架和底座部分采用一体式设计,还极具创意的融合进了保时捷汽车轮毂元素,看起来有种流线美感,支架支持150mm升降、-5°~23°俯仰调节、±28°左右旋转调节以及±90°的垂直旋转调节,游戏/设计随时切换。显示器整体采用与公版RTX40显卡相同的黑灰配色,相比一般的电竞显示器更显沉稳,偏向商务的中性气质让它能够适应包括办公设计在内的各种使用场景。

参数方面,AGON PD32M堪称“性能怪兽”,显示器配备一块31.5英寸4K UHD分辨率面板,配合仅2mm的三边微边框设计,可以提供更大的画面浏览区域及更优秀的观看沉浸感。得益于RTX40显卡强大的性能,如果你更偏向游戏画质,完全可以在4K分辨率下的游戏中继续拉高渲染比例来获得更细腻的画面表现。

显示器背光采用全陈列直下式Mini LED背光技术,拥有由3456颗LED颗粒组成的1152分区独⽴背光控制,支持VESA DisplayHDR 1400认证以及97% DCI-P3和100% sRGB的广色域覆盖。现在的3A游戏普遍支持HDR画面,特别是当开启光线追踪效果后可以呈现类似真实环境中的视觉体验。比如在《赛博朋克2077》中雨天积水处的反光与阴暗的巷道就能够很好地还原夜之城光影交错的氛围感。而在观看HDR视频时,画面的亮部和暗部细节都得到清晰展现,带来很不错的画面沉浸感。

↓↓↓显示器联动测试分享↓↓↓


既然是为了搭配性能强大的RTX40显卡使用,那么除了高分辨率同时也要求显示器具有高刷新率。AGON PD32M拥有144Hz的电竞级别刷新率,GTG灰阶响应时间仅1ms,连接到显卡的HDMI 2.1后即可实现无损4K 144Hz的画质传输。配合RTX40显卡在DLSS 3中的Reflex 1.6,可实现超低系统延迟。我们在游玩《堡垒之夜》《守望先锋》等首批Reflex 1.6的游戏时,配合显示器自带的电竞调整功能,画面表现流畅无延迟。如果你正好想升级新一代的RTX40GPU,那么提供极佳画质且流畅顺滑游戏体验的AGON PD32M电竞显示器绝对能够满足你的要求。

生产力性能翻倍,第八代NVENC AV1双编码器带来效率飞跃

对于设计师用户来讲,NVIDIA Studio那可是太熟悉了,而拥有24GB GDDR6X大显存的RTX RTX 4090除了游戏之外,也将会有不少用户将其作为生产力工具的首选,CUDA生态也一直是行业标准之一,那这次RTX 4090有多少提升呢?

福瑞鑫智能科技

SPEC包含了大量的工业软件测试项目,在最新的2020 v3.1版本中,RTX 4090相对于RTX 3090 Ti的提升相当明显。整体的提升符合和游戏中的提升比较接近,大部分测试都拥有50%以上的提升。其中Energy能源测试集的提升最大,是RTX 3090 Ti的2.64倍。

福瑞鑫智能科技

常规的3D渲染软件方面,Blender Benchmark 3.3中,RTX 4090在三个测试场景都有非常明显的提升,其中monster和classroom相对RTX 3090 Ti实现了性能翻倍,而junkshop也有64%的提升。

RTX 4090在V-Ray中的表现也非常不错,无论是使用RTX还是CUDA相对于3090 Ti都能实现翻倍的渲染效率提升。再加上V-Ray和NVIDIA最近合作很紧密,GPU渲染的全新时代应该会来得更快一些吧。同样,在OC渲染器这边,无论开关RTX,RTX 4090相对于3090 Ti的提升也都在80%以上。

相信还有很多小伙伴比较关心视频剪辑方面的性能提升。除了CUDA数量的提升,新的第八代NVENC编码器特别是双编码器设置也比较有意思,在视频转码方面会有比较亮眼的表现。当然,这些新的改进还需要软件的支持,后续在有了NVIDIA专为创作者提供的Studio驱动后,我们还将继续完善这部分的测试。

福瑞鑫智能科技

从PugetBench测试来看,即使当前Premiere Pro版本还不能直接支持双编码器,但RTX RTX 4090 相对于RTX 3090 Ti依旧有明显的性能提升。而达芬奇17同样还不支持双编码器,但在其测试中的提升也非常明显,达芬奇对GPU的优化还是比较不错的。需要注意的是,PugetBench是一个包括了处理器、内存、GPU等的整体测试,仅看整体得分提升就有这么大,可以得出GPU部分的提升还是不小的。

福瑞鑫智能科技

达芬奇18提供了支持双编码器和AV1的预览版本,我们在这里可以获得双编码器的编码输出性能展示。

福瑞鑫智能科技

打开任务管理器,我们可以看到GPU这里,RTX 4090是有Video encode和Video encode1两个编码器的,达芬奇输出时,两个编码器都是有较高的占用的。

从测试来看,将同样的4K和8K两段Prores422HQ的视频分别导出成H265,RTX 4090所用的时间不到RTX 3090 Ti的一半。

而AV1编码由于3090 Ti不支持,所以这里没法比较。但是我们同样可以看到,RTX 4090在编码4K AV1视频时,所用的时间和H265是一样的,8K则稍微慢一点,AV1编码的整体效率还是非常高的。

福瑞鑫智能科技

除了编码,达芬奇在解码、特效和AI方面对GPU也有很好的支持,比如说我们用达芬奇里广受好评的MagicMask魔法遮罩做一个简单的跟踪,RTX 3090 Ti需要需用到28秒才能完成,而RTX 4090则只需要17秒,效率上的提升也是非常明显的。

这次还有一个使用非常广泛的国产剪辑软件在老黄的发布会上亮相,那就是剪映专业版。它率先支持了RTX 40系的双编码器和AV1输出。现在官网上已经能下到这个测试版。

从测试来看,在使用剪映专业版版输出H265的时候,RTX 4090确实也做到了相较于RTX 3090 Ti效率翻倍,AV1的输出时间同样和输出H265差不多,用于非常高的效率。

从测试来看,对于3D设计师或者视频特效与剪辑工作者来讲,从RTX 3090 Ti升级到RTX RTX 4090基本上就等于获得了高出一倍的处理效率,显然是非常值得的。

功耗温度与超频测试

最后再来看看温度和功耗的表现。RTX 40系列采用了TSMC 4N制造工艺,频率和能效都相对上代大幅提升,这也让它的默认GPU频率就非常高,而且有轻松冲击3 GHz的潜力。而且本次RTX 4090 FE夸张的散热器体积,也为不错的温度表现打下了基础。

福瑞鑫智能科技

在室温26℃的室内,使用FurMark连续考机半小时,可以看到GPU温度为70℃左右,GPU节点温度为78℃左右。使用TimeSpy稳定性测试考机时,FE版的温度表现和Furmark考机时差不多,GPU最高频率可以跑到2760MHz。而实际游戏中因为负载不会一直处于最高状态,所以GPU的温度一般都在60多度。

福瑞鑫智能科技

另外,本代FE版还加强了显存散热,可以看到即使连续考机,HWINFO报告的显存节点温度也只有74℃左右,相比上代FE散热表现优秀了不少。

功耗方面,在FurMark单考GPU时,GPU-Z报告的显卡整卡功耗为440W~450W左右,从电源上的功耗仪显示整机功耗为570W左右。在游戏中因为有处理器的的加入,整机功耗则在600多瓦。整体来看,功耗方面RTX 4090相比之前RTX 3090 Ti并没有明显增长,不超频的旗舰平台使用1000W电源也是能够hold住的。何况这一代还改进了供电,不会像上代那样出现剧烈的峰值电压和电流波动,高负载供电更平稳,玩家们应该无需担心。

福瑞鑫智能科技

我们也小超了一下,经过简单的调试,解锁功耗和温度上限,我们这块RTX 4090FE可以往上拉285MHz的频率,此时加速频率为2805MHz。

福瑞鑫智能科技

如果跑TimeSpy Extreme的话,最高频率可以上到3060MHz,稳定运行则在3030MHz左右,此时显卡的最高整板功耗则可以达到530W左右。有着新工艺的加持,感觉RTX 4090是目前最容易上到3GHz的GPU了。

福瑞鑫智能科技

这时候TimeSpy Extreme的跑分成绩相比之前可以提高接近800分,提升幅度在4%左右。

04  总结:光追时代的性能飞跃,次世代硬件发展的新探索

基于TSMC 4N工艺打造的新一代NVIDIA Ada Lovelace 架构GPU,让RTX 40系列相对于上代RTX 30系有着性能上的飞跃,除了从制程工艺获得的超大芯片规模与高频率增益之外,第三代RT Cores和第四代Tensor Cores也大放异彩。NVIDIA一直走在图形业界的前端,在新技术的演进上NVIDIA还是非常认真且激进的。

全新加入的光流加速器,让DLSS3技术的AI光学多帧生成得以实现,从而大幅增加游戏帧率,最终带来2~4倍的光追游戏性能提升,让4K极致光追游戏以电竞级帧率流畅运行变得轻而易举,也让玩家可以从容应对未来画面更加真实的全景光追游戏与8K超极清游戏。它从另一个方面尝试解决光线追踪对硬件性能的恐怖需求,通过神经网络渲染为未来的硬件发展方向进行了探讨,并获得了不错的效果。

单看RTX 4090的性能,就已经能够实现让3A大作跑在4K/144Hz的游戏帧率了,说实话之前是没想到这一天能来的这么快的。而在DLSS3的加持下,确实也能最高特效光追跑4K/144fps,GPU的性能表现“赶上”了显示器能提供的性能呈现,从另一个方面来看的话,RTX 40系列也将为相对疲软的硬件市场带来活力。

当然,如果你觉得DLSS3对于本身就能在4K下流畅跑光追的RTX 4090来说没那么惊艳,但是如果想一下,这个技术是RTX 40系全系搭载的,如果放到未来将要发布的甜品卡上,对于玩家和市场的触动就非常有意思了。所以DLSS3毫无疑问是这代的重点技术了。

此外,从前面的测试也可以看到,RTX 4090在3D渲染输出与视频剪辑方面相对上代也有成倍的性能增幅,对“时间就是金钱”的生产力应用来讲真的称得上是必买的顶级高效工具。

值得一提的是,本次NVIDIA将限量推出GeForce RTX 4090 FE版,于北京时间10月12日晚9点在京东首发上市,旨在为钟爱FE版设计的发烧级玩家带来无与伦比的体验。届时玩家可以选购来自NVIDIA FE版和来自顶级显卡供应商的RTX 4090 GPU标频版和超频版。

电话咨询
最新产品
官方商城
QQ客服