总结一下PS5 PRO

1.CU没改
PS5说是RDNA2，但是都知道其实是RDNA1，这次沿用这个说法，我估计其实还是RDNA1，毕竟频率也没有什么变化。
索尼的说法是，为了二进制兼容，简化开发者负担，不用让他们重新编译。当然RDNA3其实不兼容的也就只是软件调度那部分，而这部分和NV不一样，并不是一定需要实现才能跑起来的，所以说法很牵强。
另外还说了为什么RDNA3的双倍浮点也没用，说是提升不大，没有意义。

2.RDNA3的图形Fix Function
PS5的RDNA1是具有完整的NGG流水线的，不过RDNA1的Primitive Culling表现一般，并且因为是再Primitive Shader末尾附加一段Culing代码来完成的，所以会稍微消耗一点性能，RDNA3改为硬件实现。
另外RDNA1的NGG不具备Mesh Shader的支持，转为RDNA3的话，应该能支持上。
3.光追改进
说是RDNA4的光追，但没有看到Traversal Engine，只有Intersection速度翻倍。
BVH4改为BVH8，相当于更多的包围盒层次，逼近的时候，可以更有效率的剔除未命中的光线。
硬件栈管理，光追的Shader里面，光线状态非常多，需要不同的Shader来处理。AMD的目前的做法是把所有Shader堆在一个Shader的不同分支中。这造成寄存器压力非常大，甚至大到255个向量架构寄存器无法满足，所以需要数据在分支前需要换进换出，也就是所谓的现场保存。这个东西在CPU上函数调用的时候非常常见，把母函数的寄存器写回栈内存，然后只留下需要传参的寄存器，然后Call。PS5 PRO的GPU有了硬件来实现这一功能。
最后光追改进，二进制不兼容，所以还是需要开发者重新编译Shader

，但是喃，我们伟大的索尼说了，我们只需要重新编译这一部分的Shader就可以了，大大节约了开发的负担（几分钟时间）。
4.AI
搞了Int8，单周期18次等效操作数量。每SIMD lane每周期执行两次。所以总共300T的int8算例。
然后用来干啥，PSSR。PSSR是基于简化版CNN的单帧超分辨率（DLSS1是吧）。索尼说带宽需求很大，几十个T，我们GPU的L2不够快，只有几个T，所以你们就放寄存器里跑吧