在今年九月份的NVIDIA发布会上,NVIDIA发布了全新一代的核心架构,并且也推出了新一代的RTX40系列显卡。在此前我们已经测试过了RTX4090显卡的一系列表现,像是耕升GeForceRTX4090炫光OC就表现出了非常强悍的性能。在近期,不少的朋友也在好奇RTX4080显卡的表现如何?而我们也收到了耕升GeForceRTX408016GB炫光SOC显卡,那么就让我们一起通过这一张显卡,来了解一下RTX4080显卡的一系列表现吧。

全新的AdaLovelace架构与RTX4080
我们此次收到的耕升GeForceRTX408016GB炫光SOC显卡采用的是NVIDIA推出的新一代AdaLovelace架构核心,因为AdaLovelace架构核心带来了不少的升级,因此我们也将对其进行一些相关的介绍。
01/AdaLovelace架构

AdaLovelace架构核心

AdaLovelace架构以及对比Ampere架构参数

AdaLovelace架构核心GPC单元
AdaLovelace架构核心配备了全新的第三代RTCore(光线追踪核心)、第四代TensorCore(张量核心)以及SM(流式多处理器)。根据NVIDIA官方的介绍,AdaLovelace架构核心所采用的第3代RTCore不仅将光线与三角形求交性能提高了一倍,还将RT-TFLOP峰值性能提高了一倍之多。第3代RTCore还配备了全新的OpacityMicromap(OMM)引擎和DisplacedMicro-Mesh(DMM)引擎,进一步提升了光追计算的性能以及减少计算开销,带来了更好的光线追踪效果表现。AdaLovelace架构核心配备的第四代TensorCore更是引入了来自专业级H100数据中心GPU的FP8Transformer引擎,从而带来了更加强悍的AI算力。

第三代RTCore结构示意图,相比前代,增加了2个功能
AdaLovelace架构核心在SM单元上引入了ShaderExecutionReordering(SER着色器执行重排序)技术来更好的对于着色器的工作进行调度排序,在使用上可以根据不同的负载需求来执行渲染,可对负载较为统一的画面进行渲染,降低工作开销。

根据英伟达官方的介绍,这一个SER功能将作为API开放给开发者使用。英伟达官方宣称,SER功能的加入最高可带来两倍RTCore性能上的改善,对于光追游戏来说更可带来体验的升级。根据NVIDIA官方的数据,全新的SM(流式单元处理器)可带来最高两倍的性能以及能效升级,升级幅度是非常明显的。

AdaLovelace架构核心SM结构图

除了核心上的升级以外,AdaLovelace架构核心还大幅度提升了其L2缓存,完成版的AdaLovelace架构核心(AD102)拥有96MB的L2缓存,大容量的L2缓存带来了数据命中率的有效提升。在现阶段显存带宽提升有效的情况下,通过升级更大容量的L2缓存,可以提升数据命中表现,带来性能方面的升级,根据NVIDIA官方的说法,大容量L2缓存的加入为GPU的一系列操作带来了更高的收益,尤其是在光线追踪等场景下,表现更为明显。
02/DLSS3与NVIDIAReflex:
AdaLovelace架构的一系列升级还带来了全新的DLSS3技术的独占以及NVIDIAReflex方面的体验提升。而作为采用AdaLovelace架构核心的耕升GeForceRTX408016GB炫光SOC显卡,自然是对DLSS3给到了一系列的支持。

DLSS3包含有DLSS2(DLSS超分辨率技术),以及全新加入的DLSS帧生成技术,这一项DLSS帧生成技术依托于AdaLovelace架构的独立光流处理器以及TensorCore的AI算力。在一项技术在运行过程中,其通过光流处理器所得到的一系列数据后,以光流加速技术(OpticalFlowAcceleration,简称为OFA)来生成画面信息,而AI算力则负责来对画面进行进一步的优化,从而在游戏中加入了更多的帧画面,进行帧数的提升。

DLSS3可直接生成游戏第1帧3/4的像素以及整个游戏第2帧,相当于使用1/8的算力,就完成了整个计算过程,而通过这一个流程的循环,可在提升帧数的同时节省资源开销,进一步带来更好游戏体验。

而在DLSS3的帧生成技术上,由于可能带来延迟的增加,因此DLSS3在使用上也将通过整合NVIDIAReflex这一技术来降低渲染以及操作的延迟。而根据NVIDIA官方的说法,DLSS3通过整合NVIDIAReflex以及一系列的技术,可以使得游戏体验拥有媲美甚至是超越原生级的渲染、操作体验。

03/RTX408016GB
RTX408016GB显卡采用的是AD103-300显示核心,采用了TSMC4N工艺进行制造,其芯片面积为378.6平方毫米,晶体管密度为459亿。从这一个规格可以发现,其相比较于RTX4090的608.5平方毫米芯片面积以及763亿晶体管密度是有一定的差距的,不过相比较于RTX3090Ti的283亿晶体管数量来说,也是高出不少了。
进一步探究规格我们可以发现,完整的AD103核心相比较于完整的AD102核心,屏蔽掉了不少的GPC单元,而RTX408016GB是在完整AD103核心的基础上再次屏蔽一部分GPC而来的产品。笔者推测NVIDIA或许对于AD103的完整核心会有进一步的规划,在后续推出诸Ti或者Super之类的产品。

完整AD102核心架构图

完整AD103核心架构图

RTX408016GB核心架构图
除了核心上并非采用完整的AD103显示核心以外,RTX408016GB的显存位宽也被砍至256bit,不过NVIDIA也对其进行一定的补偿,比如说配备了16GB的GDDR6X显存以及高于RTX4090的显存频率,来降低显存位宽下降所带来的影响。RTX408016GB最终的带宽为716.8GB/s,是少于RTX3080TI的912.0GB/s甚至是RTX3080的760.0GB/s带宽。
但我们也需要看到,RTX408016GB配备的16GBGDDR6X显存对于现阶段大部分的游戏甚至是专业需求来说已经能很好的满足,并且这一款显卡采用的AD103-300核心在频率、晶体管数量、理论算力等方面对于上一代RTX3080系列显卡提升是非常明显的,更别说是在L2缓存方面运用到了64MB的大缓存,进一步提升了性能方面的表现。因此笔者认为RTX408016GB虽然在显存带宽方面有所欠缺,但是整体的表现依然会相比较于前一代产品更为亮眼。
耕升GeForceRTX408016GB炫光SOC显卡相比较于公版的RTX408016GB,更是在原本已经达到2508MHz的Boost频率上进一步提到了2625MHz,因此能带来更好的表现。由于笔者在之前提到在理论性能方面,RTX408016GB相比较于RTX3080拥有一系列的优势。因此我们也拉来了上一代的“卡皇”RTX3090ti进行对比,大家可以通过表格来了解显卡之间的差距。

耕升GeForceRTX408016GB炫光SOC外观拆解
耕升GeForceRTX408016GB炫光SOC带来的就是一个颇具科幻感曲线的黑色钢琴烤漆外观。其外观在看似平静的黑色静谧下,进行了一系列曲线波动,带来了一种非常具有力量的神秘感。

耕升GeForceRTX408016GB炫光SOC采用的是第二代「炫之黑曜石」散热器,在没点亮的时候是颇具力量感的曲线,而在点亮后,则可看到在显卡的外壳上会有一系列科幻感十足的灯效。


耕升GeForceRTX408016GB炫光SOC第二代「炫之黑曜石」散热器上的灯效可以通过5VARGB进行调整,并且也支持到市面上一系列主流主板的神光同步。




耕升GeForceRTX408016GB炫光SOC配备有金属背板,在背板上印制有“GeForceRTX”的字样和NVIDIA核心AIC之一“耕升”的英文名称。在金属背板的尾部,耕升对这一个部位进行了镂空处理,通过穿透式的金属背板来进一步提升散热表现,保障性能的输出。


耕升GeForceRTX408016GB炫光SOC是一张三槽的显卡,在输出接口方面配备有3个接口以及一个接口。

耕升GeForceRTX408016GB炫光SOC所配备的第二代「炫之黑曜石」散热器不仅对于颜值进行了提升,更是带来进一步优化的「炫风之刃」扇叶,对散热进行了有效的提升。

耕升GeForceRTX408016GB炫光SOC配备有2个102mm和1个92m组合而成的强效三风扇,特殊优化的扇叶可进一步提升风流量,进一步提升散热效果。

拆开显卡,我们可以看到耕升GeForceRTX408016GB炫光SOC配备了超大面积的散热鳍片,并且采用了镀镍设计加强抗氧化能力的8根复合热管。风扇+鳍片+热管的一系列散热配置,对于这一张耕升GeForceRTX408016GB炫光SOC的性能释放可以提供到相当不错的保障。


耕升GeForceRTX408016GB炫光SOC采用了12层PCB。


在PCB的中部,我们可以看到耕升GeForceRTX408016GB炫光SOC采用的AD103-300核心。相比较于公版,耕升GeForceRTX408016GB炫光SOC的核心Boost频率提升到了2625MHz。在核心的周围是16GB的GDDR6X显存,显存围绕在核心附近。


耕升GeForceRTX408016GB炫光SOC采用了16相核心供电+3相显存供电,能对显卡带来不错的供电表现。

耕升GeForceRTX408016GB炫光SOC还附赠有支持ARGB灯效同步的显卡支架。对于旗舰级的显卡来说,采用显卡支架可以有效避免显卡过重而带来的一系列风险,看得出耕升在方面的细节还是做的蛮不错的。

各项测试
我们组建了一套高性能的测试平台,性能十分强悍,在实际测试上的一系列数据都是在此套平台上得出的。

我们此次评测的主角是耕升GeForceRTX408016GB炫光SOC,这一款显卡通过GPU-Z查看到的基础频率为2205MHz,Boost频率为2625MHz,相比较于FE版本的2505MHz有所提升,默认的TGP为320W。

因为DLSS3是RTX40系列显卡带来的全新技术,在维持高画质的情况下也可以实现更为流畅的游戏表现,这也让玩家可以更好的享受4K光追游戏带来的画质体验。为了更好的感受GeForceRTX408016GB显卡在游戏方面的升级,我们在测试耕升GeForceRTX408016GB炫光SOC时特意选择了爱攻保时捷(PorscheDesign)联合设计的PD32M显示器。

这款显示器为31.5英寸,采用MIniLED背光技术,拥有1152个独立分区,拥有1600尼特峰值亮度,8000万:1动态对比度,并通过HDR1400认证,在画质上有着更为出色的表现。此外,PD32M拥有4K分辨率以及144Hz的刷新率,支持97%DCI-P3色域以及99%AdobeRGB覆盖,并且拥有接口,是一款旗舰级电竞显示器。
而为了进一步的展现耕升GeForceRTX408016GB炫光SOC的性能,我们也在一些项目上找来了上一代卡皇RTX3090Ti进行对比,方便大家更加直观的进行了解。
在3DMark基准测试当中,耕升GeForceRTX408016GB炫光SOC跑分已经全面超越了前代卡皇RTX3090Ti,而且领先幅度甚至高达20%以上。

在DLSS基准测试中,耕升GeForceRTX408016GB炫光SOC在DLSS2模式下的4K性能提升了159%,DLSS3模式下更是提升了235%。

耕升GeForceRTX408016GB炫光SOC强劲的理论性能我们已经有目共睹,接下来是游戏帧数方面的测试。这里我们先分别在2K与4K分辨率下测试四款经典的游戏。
01、传统游戏测试
在《绝地求生:大逃杀》当中,耕升GeForceRTX408016GB炫光SOC的表现如预期般超过了RTX3090Ti,领先幅度在15%左右。

在其它大多数的大型游戏场景中,耕升GeForceRTX408016GB炫光SOC的表现也都稳稳超过了RTX3090Ti,领先幅度分别在15-20%。RTX4080开启DLSS2模式对比原生分辨率的性能提升则有30-120%不等。
仅仅除了在2K分辨率DLSS模式下测试《永劫无间》时,可能是由于帧率太高造成了CPU瓶颈,导致显卡占用不满,对比原生2K的实际帧率表现并没有提升,导致还不及RTX3090Ti的情况。




02、DLSS3与Reflex专项游戏测试
接下来,笔者再测试几款含有NVIDIA新一代DLSS3技术的游戏,游戏的画质都会调至最高,看看这些游戏分别在原生画面、DLSS2超分辨率、DLSS3帧生成之下,性能与延迟的差别。
首先我们看看Reflex低延迟功能究竟有多大的作用,在《守望先锋归来》当中,开启Reflex功能的延迟低了一半以上,而且对帧率几乎没有影响。这一功能可以很好地减轻DLSS3补帧功能增加的延迟,所以开启DLSS3也会同步开启Reflex。对于延迟追求更高的玩家来说,使用Reflex+Boost还可以有进一步增强,不过效果就没有那么明显了,而且还会造成小幅的帧率损失。

在基于Unity的《Enemies》DLSS3测试Demo里面,耕升GeForceRTX408016GB炫光SOC原生4K下只能跑到21帧,这种极低帧的模式下帧生成时间是很长的,所以延迟来到了191ms,打开DLSS3后,帧率达到3倍以上,延迟也降到了54ms。

同样的情况也出现在《赛博朋克:2077》当中,原生4K分辨率下30帧的平均帧带来了117ms的画面延迟,画面卡顿、操作迟滞。而在开启DLSS3后帧率提升到了93帧,延迟49ms,甚至还比DLSS2不开Reflex状态要更低。

类似的,在《幻塔》测试版中,由于这款游戏没有单独开启Reflex的选项,所以DLSS3模式的延迟也要比DLSS2下面更低。
在《瘟疫传说:安魂曲》里面,DLSS3同样带来了较原生分辨率不止翻倍的提升,延迟的增加也不明显。
《暗影火炬城》里面,RTX4080在DLSS3模式的平均帧和DLSS2模式差不多,应该是碰到帧率上限了,但前者在1%低帧的表现上有了比较明显的提升。
在《毁灭全人类》里面,开启DLSS3的耕升GeForceRTX408016GB炫光SOC也有着比原生画质翻倍的性能,以及更低的延迟。
画质方面,使用OBS分别对DLSS和原生画质进行高码率录制。从下图对比可以看到,开启DLSS模式的画质(下图左半部分),甚至比原生分辨率(下图右半部分)的纹理细节更加清晰。
03、生产力测试
除了游戏以外,现阶段的显卡也可以为各类产生力带来一系列的支持,在渲染、建模等多方面都能发挥其实力。
在渲染能力方面,我们先围绕BlerBenchmark进行,在Moster、Junkshop、Classroom按个场景中,耕升GeForceRTX408016GB炫光SOC相对GeForceRTX3090Ti性能提升非常明显。
同样V-Ray5Benchmark中,会同时考验到GPUCUDA性能和光线追踪性能表现,能够看到耕升GeForceRTX408016GB炫光SOC相对GeForceRTX3090Ti的RTX渲染效率效率提升了35%以上。
在SPECviewperf2020集成的8款工业软件测试中,耕升GeForceRTX408016GB炫光SOC相比RTX3090Ti达成了全方位的领先。。
OctaneRerRTX经常被用作于场景建模,特别是开启光线追踪之后,对实时预览性能以及渲染输出都有着极高的要求,与GPU以及GPU的RTX性能直接挂钩。在这一项目中,耕升GeForceRTX408016GB炫光SOC相对GeForceRTX3090Ti性能提升30%以上。
同时,GeForceRTX40系列显卡还首次加入了AV1双编码器。AV1编码是由英特尔、微软、亚马逊、谷歌、网飞等网络巨头组成的开放多媒体联盟AOMedia所推出的免费编码格式,在国内已经获得了哔哩哔哩、爱奇艺支持。它的特点是能在相同文件体积下拥有更高清的画质,或者相同清晰度的画质下拥有更小的体积。
上图是AV1(左)和AVC(右)的画质对比。
04、散热及功耗测试
笔者也对于这一张耕升GeForceRTX408016GB炫光SOC进行了散热上方面的测试,在室温26℃的情况下,进行测试。
笔者对这一张显卡进行了15分钟的FurMark烤机测试,在15分钟的烤机后,这一张显卡的温度可以稳定在65℃左右,并且没有很大的噪声,此时的烤机功耗在320W左右。
总结
耕升GeForceRTX408016GB炫光SOC在理论性能、游戏、生产力等方面的表现都非常亮眼,其各方面的能力甚至形成了对上一代“卡皇”RTX3090Ti的全方位压制。耕升GeForceRTX408016GB炫光SOC更是配备有诸如DLSS3、AV1双编解码器等一系列新特性,对于未来一系列技术以及游戏拥有更进一步的支持。
耕升GeForceRTX408016GB炫光SOC除了性能方面的优异表现之外,其曲面造型的未来科幻风格前卫外观、电路板“赛博朋克”风格灯效等也是让人印象深刻,这一款显卡还具备有高于公版的频率,性能表现更进一步。对于想要购买新一代RTX40系列显卡的朋友来,是一个不错的选择。