1.CU没改
PS5说是RDNA2,但是都知道其实是RDNA1,这次沿用这个说法,我估计其实还是RDNA1,毕竟频率也没有什么变化。
索尼的说法是,为了二进制兼容,简化开发者负担,不用让他们重新编译。当然RDNA3其实不兼容的也就只是软件调度那部分,而这部分和NV不一样,并不是一定需要实现才能跑起来的,所以说法很牵强。
另外还说了为什么RDNA3的双倍浮点也没用,说是提升不大,没有意义。
2.RDNA3的图形Fix Function
PS5的RDNA1是具有完整的NGG流水线的,不过RDNA1的Primitive Culling表现一般,并且因为是再Primitive Shader末尾附加一段Culing代码来完成的,所以会稍微消耗一点性能,RDNA3改为硬件实现。
另外RDNA1的NGG不具备Mesh Shader的支持,转为RDNA3的话,应该能支持上。
3.光追改进
说是RDNA4的光追,但没有看到Traversal Engine,只有Intersection速度翻倍。
BVH4改为BVH8,相当于更多的包围盒层次,逼近的时候,可以更有效率的剔除未命中的光线。
硬件栈管理,光追的Shader里面,光线状态非常多,需要不同的Shader来处理。AMD的目前的做法是把所有Shader堆在一个Shader的不同分支中。这造成寄存器压力非常大,甚至大到255个向量架构寄存器无法满足,所以需要数据在分支前需要换进换出,也就是所谓的现场保存。这个东西在CPU上函数调用的时候非常常见,把母函数的寄存器写回栈内存,然后只留下需要传参的寄存器,然后Call。PS5 PRO的GPU有了硬件来实现这一功能。
最后光追改进,二进制不兼容,所以还是需要开发者重新编译Shader
,但是喃,我们伟大的索尼说了,我们只需要重新编译这一部分的Shader就可以了,大大节约了开发的负担(几分钟时间)。
4.AI
搞了Int8,单周期18次等效操作数量。每SIMD lane每周期执行两次。所以总共300T的int8算例。
然后用来干啥,PSSR。PSSR是基于简化版CNN的单帧超分辨率(DLSS1是吧)。索尼说带宽需求很大,几十个T,我们GPU的L2不够快,只有几个T,所以你们就放寄存器里跑吧
。容量需要128M,没那么大,那就切块跑吧。针对不同场景要训练才行,那么我们就慢慢练嘛。
就是这样了。
PS5说是RDNA2,但是都知道其实是RDNA1,这次沿用这个说法,我估计其实还是RDNA1,毕竟频率也没有什么变化。
索尼的说法是,为了二进制兼容,简化开发者负担,不用让他们重新编译。当然RDNA3其实不兼容的也就只是软件调度那部分,而这部分和NV不一样,并不是一定需要实现才能跑起来的,所以说法很牵强。
另外还说了为什么RDNA3的双倍浮点也没用,说是提升不大,没有意义。

2.RDNA3的图形Fix Function
PS5的RDNA1是具有完整的NGG流水线的,不过RDNA1的Primitive Culling表现一般,并且因为是再Primitive Shader末尾附加一段Culing代码来完成的,所以会稍微消耗一点性能,RDNA3改为硬件实现。
另外RDNA1的NGG不具备Mesh Shader的支持,转为RDNA3的话,应该能支持上。
3.光追改进
说是RDNA4的光追,但没有看到Traversal Engine,只有Intersection速度翻倍。
BVH4改为BVH8,相当于更多的包围盒层次,逼近的时候,可以更有效率的剔除未命中的光线。
硬件栈管理,光追的Shader里面,光线状态非常多,需要不同的Shader来处理。AMD的目前的做法是把所有Shader堆在一个Shader的不同分支中。这造成寄存器压力非常大,甚至大到255个向量架构寄存器无法满足,所以需要数据在分支前需要换进换出,也就是所谓的现场保存。这个东西在CPU上函数调用的时候非常常见,把母函数的寄存器写回栈内存,然后只留下需要传参的寄存器,然后Call。PS5 PRO的GPU有了硬件来实现这一功能。
最后光追改进,二进制不兼容,所以还是需要开发者重新编译Shader

4.AI
搞了Int8,单周期18次等效操作数量。每SIMD lane每周期执行两次。所以总共300T的int8算例。
然后用来干啥,PSSR。PSSR是基于简化版CNN的单帧超分辨率(DLSS1是吧)。索尼说带宽需求很大,几十个T,我们GPU的L2不够快,只有几个T,所以你们就放寄存器里跑吧


就是这样了。