NVIDIA Ada Lovelace架构解析(二):实测DLSS 3让游戏性能再次翻倍

在过去4年的时间中,NVIDIA应用深度学习研究团队一直在研发结合光流预测与DLSS的画格生成技术,通过生成准确的合成画格,以提升画面更新频率并提供更流畅的游戏体验。

RTX 40系列的Ada Lovelace架构导入全新的DLSS 3升频技术,它除了延续先前的Super Resolution画面放大功能(搭建分辨率较低的游戏画面再通过AI放大以节省计算资源),还加入了全新的Frame Generation画格生成功能,通过在原有的画格与画格之间,补上通过AI产生的合成画格,达到提升游戏FPS性能的效果。

Frame Generation的概念与视频的“补帧”类似,都是以既有画格为原料,计算前后的差异,并预测中间新产生的合成画格应该是什么样子。为了要达到自然而流畅的视觉体验,预测的准确度就相当重要。

DLSS 3提升准确度的方式之一就是导入经常应用于计算机视觉领域的光流预测(Optical Flow Estimation)技术,它主要的功能为测量连续画格之间像素运动的方向和幅度,简单地说就是测量并预估在画面上的物体移动的行为,概念与视频编码的动态补偿(Motion Compensation)相当类似,但对准确度与一致性的要求更高。

虽然在NVIDIA RTX 30系列的Ampere架构中就导入了可以加速光流预测运算的光流加速器(Optical Flow Accelerator,OFA),但其性能还不足以满足DLSS应用的需求,RTX 40系列的Ada Lovelace架构将OFA的运算性能提高2倍达300TOPS,以达到实用需求。

在理想状态下,Super Resolution仅需搭建显示分辨率的1/4,即可通过AI运算将其放大到填满屏幕,而Frame Generation则是可以“凭空产生”与实际搭建画格相同数量的合成画格。举例来说,如果想要输出3840 x 2160(4K)分辨率、FPS 60帧的游戏画面,系统只需搭建1920 x 1080(Full HD)分辨率、FPS 30帧的画面,其余的部分则通过AI产生。

因此结合Super Resolution与Frame Generation等2项功能的DLSS 3,就可以将游戏绘图的运算量缩减至原本的1/8,能够在对画质冲击有限的代价下,极大幅提升性能表现。

需要注意的是,由于Super Resolution会降低系统的实际搭建分辨率,不但能够提升搭建画面的FPS,也因为完成搭建的耗时更短,所以能够降低游戏的操作延迟。但是Frame Generation所产生的画面单纯通过合成方式产品,并非接获玩家操作指令后,经由处理器、显卡搭建,因此仅能提升游戏的视觉流畅度,对操作延迟并无帮助。

不过Frame Generation倒是有个神奇的效果,对于性能瓶颈在处理器(CPU Bond)的游戏来说,还是能发挥提升FPS的功效。以《微软模拟飞行》为例,它受限于物理模拟运算的需求,以及需要处理广大搭建距离内的各种建筑物、植披等资料,所以处理器来不及产生更多绘图需求(Draw Call),需要使用性能更高的处理器才能化解频颈并提升游戏FPS表现,而升级性能更强的显卡,或是使用Super Resolution都无法提升FPS。但Frame Generation就没有这个问题,它还是能为FPS带来正面帮助。

过去DLSS 2以Super Resolution功能为主,通过降低搭建分辨率并通过AI升频的方式,达到提升游戏FPS表现的效果。注意图中的动态矢量(Motion Vector)是由游戏引擎提供。

DLSS 3加入的Frame Generation功能则通过光流加速器进行光流预测,分析画格内各像素的移动趋势,并产生精准预测的合成画格。

光流预测的工作原理可以理解为将游戏画面切割为许多红色方框,并分析每个方框的移动情况,如此一来就能得到右图的动态资讯。

由游戏引擎产生的动态矢量不一定能正确反映画面的移动趋势。举例来说,左上小图为动态矢量的资讯,人物的影子(红色阴影)也被标上往后移动的趋势,会造成影子抖动的画面错误。而左下小图的光流预测则标示影子(绿色阴影)没有移动,修正了画面错误的问题。

DLSS 3可以通过Super Resolution功能将搭建分辨率降低为1/4,并通过Frame Generation功能产生额外的合成画格,因此可以将画面运算量压缩到1/8。图中灰色部分为实际搭建区域,绿色则是由AI产生。

各项DLSS功能的兼容性列表。Frame Generation只兼容于RTX 40系列显卡,而Super Resolution则兼容于RTX 20/30/40,能够缩短操作延迟的Reflex则兼容于所有GeForce 900系列之后的显卡。

NVIDIA应用深度学习研究部门副总裁Bryan Catanza通过视频说明DLSS 3的技术概念。

在DLSS 3的性能实测部分,笔者准备了《电驭叛客2077》以及《微软模拟飞行》等游戏作为测试项目,来分析DLSS 3所带来的性能增益。

《电驭叛客2077》作为当代光线关注技术的代表性游戏,当然相当吃重显卡的性能表现,就算是领先目前所有显卡的GeForce RTX 4090,在不使用DLSS的情况下,也只能在4K、最高画质、光线关注的测试交出FPS为40帧左右的成绩。《微软模拟飞行》则是如前文所述,因为处理器性能瓶颈而造成游戏FPS性能难以提升。

在测试方式部分,《电驭叛客2077》设置为最高画质范本并打开光线关注,分别关闭DLSS与打开DLSS Frame Generation、DLSS Super Resolution(Auto画质),并在1080p(1920 x 1080)、2K(2560 x 1440)、4K(3840 x 2160)等3种分辨率下执行2轮游戏内置性能测试模式并取平均。

《微软模拟飞行》同样设置为最高画质范本,但游戏并不支持光线关注,直接挑战4K分辨率,并进行关闭DLSS与打开DLSS Frame Generation、DLSS Super Resolution的差异测试。游戏游戏没有内置的测试模式,所以笔者选择从松山机场起飞,并往桃园机场的方向飞过淡水河。

由于游戏内置的FPS计算工具无法测量Frame Generation所带来的性能提升,因此笔者使用NVIDIAFrameView测量FPS性能表现。另一方面,笔者也通过视频呈现开、关DLSS的画质差异,但因为如此高画质与高更新频率的视频不方便用外部截取设备录像,所以笔者参考NVIDIA官方的测试指南,使用ShadowPlay录制视频, 选择H.264并将录像FPS设置为120Hz,流量设置为104000kbps,并在测试性能之外多跑1轮流程进行录像,以免影响游戏性能表现。

测试平台:

处理器:AMD Ryzen 7 7700X

散热器:MSI MEG Coreliquid S360

主板:ASRock X670E Taichi(UEFI版号:1.08.AS02 Beta)

内存:G.Skill Trident Z5 Neo 16GBx2(@DDR5-6000)

显卡:NVIDIA GeForce RTX 4090 Founder Edition

存储设备:Seagate FireCuda 520 SSD 1TB、Solidigm P41 Plus 1TB(存储《微软模拟飞行》)

电源供应器:Seasonic Prime Titanium 850W

软件环境:Windows 11专业版21H2(Build 22000.978),GeForce Game Ready 521.90

测试结果请参考下列图表与视频。

在《电驭叛客2077》4K分辨率的情况下,DLSS 3能将游戏的平均FPS表现由41.51帧提升到144.81,差距高达248.89%。

在关闭DLSS的情况下,游戏会真的搭建4K分辨率的图像,但问题是FPS只有约40帧,会造成卡顿感。

打开DLSS之后,平均FPS可达144帧,读者们觉得画质表现还可以接受吗?

在《微软模拟飞行》部分,由于游戏FPS的性能受到处理器瓶颈限制,所以仅有Frame Generation可以发挥效用,它能让FPS表现翻倍,性能增益达到96.28%。

在关闭DLSS 3的情况下,游戏受限于处理器性能瓶颈,《微软模拟飞行》的平均FPS只有96.1帧。

受益于全新的Frame Generation功能,《微软模拟飞行》的平均FPS可以提升至188.63帧。

根据NVIDIA发布的消息,现在已有超过35款游戏、引擎及应用程序宣布支持DLSS 3,比较值得关注的,当然是当代光线游戏关注之王《电驭叛客2077》,它将会在近期推出Overdrive Mode超高画质模式更新,带来更加逼真的游戏画面与光影表现。

另外《传送门》也会推出免费的Portal With RTX DLC,如同先前《雷神之锤2》RTX版一样,让玩家可以在旧游戏加上最先进的光线关注技术,大幅提高游戏画面表现。而《NVIDIA Racer RTX》则是由NVIDIA开发的“秀肌肉”游戏,充分展现RTX绘图技术的多项能力,并向世人证明Omniverse进行3D开发的可行性。

DLSS 3支持项目一览

《电驭叛客2077》Overdrive Mode超高画质模式会将每个像素的光线运算量提高到635组,并可在DLSS 3的协助下确保游戏流畅运行。

《传送门》近期将推出免费的Portal With RTX DLC,可以让玩家在经典游戏中享受光线关注技术带来的视觉震撼。

《NVIDIA Racer RTX》是NVIDIA利用Omniverse开发的宣传导向游戏,充分展现RTX绘图技术的多项能力。

目前上方3款视频所提到的游戏与更新尚未公布实际推出日期,有兴趣的读者不妨关注NVIDIA官方网站所发布的资讯,我们也预计于推出时进行介绍。