{SiteName}
大力参种植
大力参功效
大力参价值
选购方法
大力参菜谱
大力参种类

硬件编年史DLSS技术到底有什么用,

宁夏白癜风微信交流群 http://liangssw.com/xiuchang/20588.html

写在开头

年8月,伴随着NVIDIARTX20系显卡的发布,游戏图形界又一扇门被打开,实时光线追踪技术正式走进玩家的视线,成为游戏行业新的画质标准。在过去的几年中,已经有众多耳熟能详的游戏大作加入了实时光线追踪效果,为玩家带来更加接近真实世界光影的全新视觉体验。

不过与之一起诞生的还有DLSS深度学习超级采样,它能够很好的弥补实时光追下的性能损耗。这项技术随着GeForceRTX40系显卡的发布迎来了3.0版本。老黄甚至在发布会上声称DLSS3.0可以实现性能的翻倍,今天我们刚好收到了索泰GeForceRTXPGFOC显卡,那就用这张旗舰中的旗舰来给大家展示一下最新的DLSS3.0到底有没有老黄说得那么神!

引入TensorCore

开始前先让我们对DLSS的由来有个大致的了解,DLSS技术最早是在RTX20系显卡上提出的。之所有能够在RTX20系显卡上引入DLSS,是因为RTX20系显卡的架构上与GTX10系显卡有了本质的不同,NVIDIA引入了TensorCore,给20系显卡带来了进步非常大的深度学习性能。

TensorCore的官方叫法是张量计算核心,作用就是增加显卡的AI深度学习计算能力。而我们本次介绍的主角DLSS,本意是超分辨率技术,其是由显卡渲染低分辨率的画面后交由AI进行学习后,渲染出更高分辨率的画面。而这个AI其实就归功于我们说到的TensorCore。

第一代TensorCore

不过第一张实装TensorCore的显卡并不是Turing架构的RTX20系,而是我们耳熟能详的TitanV,作为唯一的Volta架构显卡,它才是第一个吃上TensorCore的。在RTX20系显卡还没发布前,许多深度学习的从业者就是购买这张显卡进行深度计算的。

规格上,TitanV显卡仅配备了个第一代TensorCore,不过它支持FP16和FP32下的混合精度矩阵乘法,可提供每秒超过万亿次(TFLOPS)的深度学习性能,是Pascal架构的5倍以上。与Pascal相比,用于训练的峰值teraFLOPS(TFLOPS)性能提升了高达12倍,用于推理的峰值TFLOPS性能提升了高达6倍,训练和推理性能提升了3倍。

第二代TensorCore

搭载第一代TensorCore的TitanV显卡其实不是我们常规意义上的游戏卡,真正让这项技术下放,还要是Turing架构的RTX20系显卡,上到旗舰的RTXTi,下到甜品级的RTX统统都引入了TensorCore。

正因为TensorCore的引入,让RTX20系显卡有了一定的深度学习能力,老黄才得以在RTX20系显卡上完成光线追踪和DLSS。第二代TensorCore相比第一代又有了进步,提供了一系列用于深度学习训练和推理的精度(从FP32到FP16再到INT8和INT4),每秒可提供高达万亿次的张量运算。

第三代TensorCore

在RTX30系显卡,也就是Ampere架构的显卡中,NVIDIA的TensorCore升级为第三代。采用全新精度标准TensorFloat32(TF32)与64位浮点(FP64),以加速并简化人工智能应用,可将人工智能速度提升至最高20倍。

第三代TensorCore中,NVIDIA还引入了稀疏化加速,可自动识别并消除不太重要的DNN(深度神经网络)权重,同时依然能保持不错的精度。首先原始的密集矩阵会经过训练,删除掉稀疏矩阵,再经过训练稀疏矩阵,从而实现稀疏优化,进而提高TensorCore的性能。

所以最终的结果就是第三代TensorCore在处理稀疏网络的速率是Turing的两倍,算力高达TensorTFLOPS,而Turing为89TensorTFLOPS。

第四代TensorCore

而RTX40系显卡上的TensorCore已经进化到了第四代,最主要的变化是新增了HopperFP8TransformerEngine,可提供TFLOPS的张量处理性能,可以说深度学习性能得到了巨大的飞跃,这也意味着通过它可以实现新的技术想法,后面的DLSS3我们会再次提到TensorCore的功劳。

而真正让DLSS3.0起飞的还有两个核心技术,一个是着色器执行重排序(SER),另一个则是OpticalFlowAccelerator光流加速器。

首先这个着色器执行重排序最大的作用其实还是提升光追性能,由于光线追踪的特性,它很难并行处理,因为光线会向各个方向反射,并与各种类型的表面相交,所以光线追踪的工作负载需要不同的线程处理,需要不同的着色器,并且需要不同的显存来存取中间的计算过程。

而RTX40系显卡着重加强了这一方面的技术,着色器执行重排序的加入可以通过实时重新调度任务,即时重新安排着色器负载来提高执行效率,从而更好地利用GPU资源,以实现更佳的光线追踪性能,据称,SER可以为光线追踪带来最高可达3倍的性能提升,整体游戏性能提升可高达25%。

而另一个核心技术光流加速器其实从Ampere架构就已经有了,不同的是,AdaLovelace架构中的光流加速器升级到了第二代,大大增加了光流加速器的运算性能,从之前Ampere架构的TFLOPS增加到现在的TFLOPS。

由于第二代光流加速器带来的巨大的性能提升,因此也有了更广泛的实用性了,最大的优势就是DLSS3.0技术能够更准确预测场景中的运动,玩家在游戏中既能有不错的图像质量又能保持更高的帧率。可以说第四代TensorCore加上AdaLovelace光流加速器以及NVIDIA超级计算机提供的超过1ExaFLOPS的AI计算性能,是DLSS3.0得以成功的基础。

DLSS技术发展

讲完了实现DLSS技术的硬件基础,就该看看DLSS在三代显卡中究竟有了什么样的变化。

DLSS1.0

在DLSS1.0时代,NVIDIA对TensorCore的利用略显粗暴。如果你想得到一个4K的游戏画面,DLSS1.0就是让AI事先看很多P与8K的游戏画面,AI通过对比P的画面与4K画面的区别,然后由AI自己总结规律并生成算法。等你打开游戏时,AI只需要将这个算法融入显卡驱动或游戏引擎中,显卡就可以在后期运用TensorCore和算法只做P的渲染,输出时靠AI算法的脑补,从而让你获得一个4K的画面。

不过这个做法有一个很大的问题,由于AI是强行将没有规律的东西强行转化成可行性较高的规律,它并不像事物客观本身存在的规律。AI只是借助画面本身周边的图案和颜色去猜测不存在的颜色与图案,因此在脑补过程中需要创造不存在的内容来填充画面,而仅仅靠AI脑补的做法,势必会出现一些瑕疵。

最终得到的就是画面比较模糊,尤其是连贯的动态画面中,会出现大量的鬼影与噪点,观感甚至不如不开DLSS的画面。因此老黄在推出DLSS1.0后,不少玩家试用完都大呼受骗,觉得DLSS1.0在截图时强无敌,一旦在游戏中动态显示就原形毕露了。

DLSS2.0

为了解决这一问题,NVIDIA在后来推出了“船新”的版本——DLSS2.0,这一次的DLSS2.0可不是DLSS1.0的小修小补,而是大刀阔斧的改变。老黄将DLSS1.0的框架全部推倒重来,DLSS2.0其实是由两部分组成,一个是多帧合成,另一个才是超分辨率。

其工作原理其实是显卡会预先渲染出4张P的画面,然后通过AI结合渲染过程中的运动矢量信息以及空间深度信息等,预测出各个像素点的颜色变化趋势。再通过AI高级算法将4张P画面的最优细节合并,最后输出一张4K分辨率的游戏画面。

然后以此类推,由1-4帧合成第一张4K画面,2-5帧再合成第二张4K画面,3-6帧合成第三张4K画面。如此操作,相当于显卡一直在从事P的画面渲染,相比直接渲染4K画面,大大节约了性能开支,因此我们才能在开启DLSS2.0后见到帧数的提升。

而我们提到DLSS2.0中还有一个技术就是多帧合成,原理其实就是NVIDIA把一个画面分成ABCD若干区域,在第一帧渲染的时候只对AB区域采样,第二帧渲染的时候只对CD采样,之后再将这两帧的采集内容合并,就输出一个正常画面,这里只是比喻,实际的算法肯定比这个复杂得多。如果你还不理解,那我们换个说法你可能好理解一下,我们都用过手机的HDR拍照,所谓的HDR拍照就是通过对画面不同区域进行曝光,然后把多张不同曝光的照片合成在一起,就得到了HDR照片,这样亮的画面更亮,暗的部分也能暗下来,细节也更多。

不过这种算法也不是万能的,DLSS2.0也有它的问题,在处理静态图片的时候则提升很大,甚至由于多次采样,DLSS2.0开启后的图像质量比原生的图像还要高。但是,一旦画面动起来,由于分别采样,像素就很有可能出现错位,从而出现大量鬼影,传统的TAA抗锯齿算法就是为了解决这个问题,而在DLSS2.0中,NVIDIA对TAA算法做出了改进,使得AI可以实时演算,因此不再像DLSS1.0纯靠猜,而是有依据的合成。

即使有了TAA算法加持,但画面运动的话依旧可能有一定的劣化,不过人眼对动态画面的敏感程度远没有静态画面那么高,当时DLSS2.0能够在保证一定的画面质量的前提下,大幅节约显卡算力已经非常令人满意了。

DLSS3.0

至于RTX40系显卡才有的DLSS3.0,其实可以看做是完整版的DLSS2.0,它把之前的技术都进行了整合。包含了补帧、Reflex以及DLSS2.0中的超分辨率。

超分辨率还是老样子,与之前的DLSS2.0保持一致,让显卡渲染4张P画面,然后用AI结合运动矢量信息进行多帧合成输出4K。

而我们上面提到的补帧则是通过新增的光流单元,分析两帧之间的画面运动差异,在两帧画面中间额外插入一帧画面,实现帧数的倍增,相当于在1帧到2帧之间还有一个1.5帧。

当然你可能在一些手机与电视上听过一种MEMC的补帧技术,厂商在宣传时也说能够带来更丝滑的体验。不过DLSS3.0上的这个补帧跟它们还是有些不太一样,毕竟手机或电视上的补帧是后处理的补帧,而我们见到的游戏画面是由显卡渲染完成的,因此DLSS3.0在补帧时,RTX40系显卡是全程参与,所以像游戏画面中物体的运动矢量信息、三维空间信息等都一清二楚,所以补出来的效果也会更好。

另外,我们去

转载请注明:http://www.boheyec.com/mbzz/12482.html

  • 上一篇文章:
  • 下一篇文章: 没有了