-
-
32
-
76
-
32Kirin X90 Refresh 4*2.45GHz Linxi big+4*2.1GHz Linxi big+2*2.15 Linxi middle(仅各核超频0.1-0.15GHz,其余几乎没动) 9030 Pro也会上PC,不清楚啥时候上。 X9下次迭代预计明年下半年,规模到时候再说。
-
98
-
43
-
10
-
4
-
26
-
25
-
110
-
165
-
16NVIDIA Thor diesize:15.71*25.6=402.176mm2 dieshot stepping:B1A0 NVIDIA Orin diesize:20.16*22.21=447.7536mm2 dieshot stepping:A0A0 NVIDIA GB10S-dielet diesize:12.91*16.10=207.851mm2 G-dielet diesize:12.91*13.45=173.6395mm2 dieshot stepping:A0A0(both S-dielet and G-dielet) (作者yy:GB10的GPU快给我看瞎了,悲。不过NVIDIA的SoC挺有意思的,不过,GB10太贵了,性价比感觉不如M4 Max的Mac Studio,hhh。) 底图@万扯淡 图1:NVIDIA Thor 图2:NVIDIA Orin 图3:NVIDIA GB10 S-dielet 图4:NVIDIA GB10 G-dielet
-
20
-
12
-
52
-
101
-
37这玩意我一直挺感兴趣,一方面,我是想知道在低缓存配置下高通这架构有怎么样的。另一方面,高通号称用了和旗舰一样的3nm工艺,是良心发现还是背后有什么猫腻。 比较令我意外的是8G5的缓存配置,按照我一开始的想法,应该是将大小核L2都砍成6M,这样总计12M的配置面积最小。退而求其次,大核不动12M,小核砍到4M这样就不用改大核的设计。但没想到大核砍成了4M,小核保持12M。但是后来我想通了,可能这才是这个U能用的唯一解。
-
65
-
220
-
38
-
171
-
31A19 Prodieshot stepping:B1A0 B1A0更新日志: 1.修复了Neural Accelerator位置,更换了新的底图。 2.修复了P-Core CPU L1i Cache与L0 BTB,Trace Cache位置。 diesize:8.03x12.29=98.6887mm2 M3 Pro dieshot stepping:A0A0 diesize:13.77x15.92=219.2184mm2 M2 Pro dieshot stepping:A0A0 diesize:20.77x14.19=294.7263mm2 附录:A19 Pro各模块面积(fig.4) 鸣谢:底图@万扯淡,模块面积@Piglin
-
59
-
11
-
46
-
34
-
55昨天看到小吧的图,那个并不是实锤,毕竟有config说明不了问题(万一是旧代码没删),所以我自己下了15spro的固件,解包后发现在vendor分区的libnpu_runtime.so这个地方有明确的证据。
-
41拖更的有点久,emm,理解万岁()。那么话不多说,直接进入正题。 我们都知道,Apple的微架构还是非常强的,尤其是front-end,业界除了IBM,最强就是Apple了,但是我们也知道Apple缺失了2-taken branch这个feature,什么是2-taken?顾名思义,1个cycle里处理两个jump的预测技术,以提高fetch的吞吐量。传统的分支预测器通常在一个周期内只能预测“1-taken”(即最多一个分支为 taken),遇到连串的分支指令时,后一条分支要等前一条预测完成才能继续预测,会导致
-
24
-
4
-
27听说8E2的CPU cluster,all core use shared L2 cache,这个desigb很有想法,这让我想到了HPCA25的一个paper,IBM的latera cache persistence algorithm,每个 L2 在eviction (替换)时,会把被换出的cache line通过ring bus“latera”(横向)write到最空闲或最少活动的 L2 里(这是“虚拟 L3”的实现原理:把原本要逐层写到大 L3 的数据转而写到某个在同作用域的 L2)。 在server层面同理:若在本芯片 L2 都无法容纳了,就把该行再“横向”写到另一个芯片上最空闲 L2(对应 vL4 作用域)。
-
13
-
54为什么Apple Silicon在R24中这么强? 如你所见,今天我们要讲的是,为什么,Apple Silicon在Cinebench R24中表现如此的强,连隔壁的X86都甘拜下风,尤其是M4,我看我们的贴吧老哥都跑上192了,简直是非常的厉害。 首先我们需要明白R24是一个比较重LSU的一个benchmark,那么M4刚刚好大提升的就是这部分,那么今天我们引入我们的主题,LSU,LSU是CPU中很重要的一个部分,我们首先需要了解一下什么是LSU。LSU 是 “Load–Store Unit”(加载存储单元)的简称,是一个专
-
25
-
32
-
62
-
38晚上翻笔记发现了自己一堆BP的idea,但又不知道从何说起……
-
18
-
21
-
19
-
30
-
49
-
86what can I say。这BPU还用说,Firestorm同款BPU。TAGE 80KB,ITTAGE 40KB,L0 BTB 2048entry。对这个规模不需要抱太大期待。看看图就知道不如X4水平。ARM的BP算比较一般的,如果放到和今年新出的新世代u-arch那完全比不了。像AMD的16K-entry L1 BTB以及Multiple-Block Ahead Branch Predictor。Apple增加table和BTB的BPU。intel……,额,这个不怎么能讲。前两家的BP都是有相当大的进步。 当然肯定有人会问啊,BPU重要,咋Oyron表现那么好。很正常啊,力大砖飞,4.32GHz+3.52GHz。反正power不要了
-
12麒麟8000Dieshot Photo By@万扯淡 Layout By@Kurnal 图1为8000Dieshot 图2为Decap的Die package图 图3为麒麟810-815(720)-820-8000 同size对比 图4为8000与815的对比 几个事情 1:Nova12/13上的麒麟8000为同一颗,见图2 并不存在所谓新麒麟8000这一说(所谓的01/02更是无稽之谈,我这颗拆机来自与Nova12Pro) 2:工艺与麒麟9000S相同,9000S是什么,8000就是什么 3:产线与麒麟9000S一致(相同的对准标识) 又:麒麟8000与麒麟815(或者叫麒麟720)很相似(见图4) 高清图见bilibili动态
-
105
-
38
-
39
-
5https://github.com/apple-oss-distributions/xnu/blob/main/doc/arm/sme.md
-
244
一号
天气


风



