书接上文,我确实没能想到,在之前锐评过Oyron 1、2邯郸学步后,在今年还能对其最新架构有如此负面的评价,那么你们也应该能猜测出该架构有多么令人失望,那么,接下来的文章,在征得某不知名宝可梦老师的同意后,得以借用其逆向数据对Oyron 3的架构进行深入的分析,让我们看看,Oyron 3究竟在架构设计上表现如何,其与其友商的差距还有多远。
那么,我记得去年,应该是6月的时候,我写过一篇有关Oyron 1的文章,那时候我的结论就是邯郸学步,你从整体架构看完后只有一个想法,Firestorm V2,没错,就是这么朴实无华,一个20年的架构在和24年的架构抗衡,那这时候就有读者会想,啊,既然是Firestorm V2,为什么我看网络上的评测,其在GB6,SPEC17中并未落入下风呢?其实这个道理很好理解,毕竟还在20年的时候,Firestorm用着TSMC N5,第一代5nm工艺,只有2.99/3.2GHz的选择,而我们的Firestorm V2呢?在经历了4年半导体技术的发展,以及对D-cache进行一定的缩小确保时序,N3E搭配4.3/4.47GHz的频率加上Firestorm本身还不错的底子,其实在benchmark上并不会输多少。为什么呢?
或许是体系结构的悲哀吧,已经很多年没有什么活了,在体系结构方面做出许多的努力去提升IPC(不是benchmark score除以frequency的PPC),所带来的整体收益并没有直接的超频来的效果更好,在同样的工艺红利下,体系结构的新技术可能比超频吃掉的工艺红利更多,甚至需要用很大的代价去换一点点的提升,工业界在体系结构的创新上哪怕能够贡献3%-4%的IPC都要开香槟庆祝的当下,超频是相对最简单,也是相对最低成本抹平与友商技术差距的方式。但是,这个方向一定是正确的吗?体系结构的未来难道只会是频率战争吗?我们真的希望体系结构的结局是频率战争吗?
那么在经过开头后,我们也该分析一下今年的Oyron 3了,它究竟如何呢?那我们先从架构图说起吧。我们先来看看Oyron 3的P和E-Core。




从前端(front-end)设计出发,可以观察到Oyron 3依旧采用coupled front-end(耦合式前端)。和前代与Apple CPU前端的设计选择一样。该选择在分支预测精度、关键路径组织与实现复杂度方面具有一系列工程优势。
1、Coupled front-end的核心收益:更高的预测精度与更低的错误代价
在coupled front-end(耦合式前端)中,分支预测(BPU/BTB)与取指(fetch)可以并行推进:fetch PC的生成与指令访问在同一前端节拍内协同发生,因此前端能够以较低的额外流水级数完成“预测→取指→送往解码”的闭环。这带来两个直接结果:预测信息更“近”解码语义:耦合结构往往能更快获得与指令边界、控制流相关的解码辅助信息,从而降低在仅凭前端结构性线索进行预测时的歧义性,整体上有利于压低MPKI(mispredictions per kilo-instructions),即提升分支预测正确率。错误恢复成本更低:由于预测与取指并行且流水级数相对短,一旦发生误预测,其清刷流水与重定向(redirect)的距离更短,总体mispredict penalty(误预测代价)更可控。此外,coupled front-end在工程实践中往往更容易在较早阶段调出性能。
那么,我记得去年,应该是6月的时候,我写过一篇有关Oyron 1的文章,那时候我的结论就是邯郸学步,你从整体架构看完后只有一个想法,Firestorm V2,没错,就是这么朴实无华,一个20年的架构在和24年的架构抗衡,那这时候就有读者会想,啊,既然是Firestorm V2,为什么我看网络上的评测,其在GB6,SPEC17中并未落入下风呢?其实这个道理很好理解,毕竟还在20年的时候,Firestorm用着TSMC N5,第一代5nm工艺,只有2.99/3.2GHz的选择,而我们的Firestorm V2呢?在经历了4年半导体技术的发展,以及对D-cache进行一定的缩小确保时序,N3E搭配4.3/4.47GHz的频率加上Firestorm本身还不错的底子,其实在benchmark上并不会输多少。为什么呢?
或许是体系结构的悲哀吧,已经很多年没有什么活了,在体系结构方面做出许多的努力去提升IPC(不是benchmark score除以frequency的PPC),所带来的整体收益并没有直接的超频来的效果更好,在同样的工艺红利下,体系结构的新技术可能比超频吃掉的工艺红利更多,甚至需要用很大的代价去换一点点的提升,工业界在体系结构的创新上哪怕能够贡献3%-4%的IPC都要开香槟庆祝的当下,超频是相对最简单,也是相对最低成本抹平与友商技术差距的方式。但是,这个方向一定是正确的吗?体系结构的未来难道只会是频率战争吗?我们真的希望体系结构的结局是频率战争吗?
那么在经过开头后,我们也该分析一下今年的Oyron 3了,它究竟如何呢?那我们先从架构图说起吧。我们先来看看Oyron 3的P和E-Core。




从前端(front-end)设计出发,可以观察到Oyron 3依旧采用coupled front-end(耦合式前端)。和前代与Apple CPU前端的设计选择一样。该选择在分支预测精度、关键路径组织与实现复杂度方面具有一系列工程优势。
1、Coupled front-end的核心收益:更高的预测精度与更低的错误代价
在coupled front-end(耦合式前端)中,分支预测(BPU/BTB)与取指(fetch)可以并行推进:fetch PC的生成与指令访问在同一前端节拍内协同发生,因此前端能够以较低的额外流水级数完成“预测→取指→送往解码”的闭环。这带来两个直接结果:预测信息更“近”解码语义:耦合结构往往能更快获得与指令边界、控制流相关的解码辅助信息,从而降低在仅凭前端结构性线索进行预测时的歧义性,整体上有利于压低MPKI(mispredictions per kilo-instructions),即提升分支预测正确率。错误恢复成本更低:由于预测与取指并行且流水级数相对短,一旦发生误预测,其清刷流水与重定向(redirect)的距离更短,总体mispredict penalty(误预测代价)更可控。此外,coupled front-end在工程实践中往往更容易在较早阶段调出性能。






















