高通吧
关注: 187,741 贴子: 5,123,068

讨论移动端,桌面端所有处理器性能的吧。

  • 目录:
  • 机械制造
  • 32
    考后解密: 忘了在吧里说没说,9030S砍半的除了GPU,还有每级的cache,pL2:2MB—>1MB,L3:12MB—>6MB,SLC:12MB—>6MB。虽然你的架构先进,但是砍掉的cache又很好的弥补了性能过强的缺点。 最后其实性能也就持平于9020或者略强一点点的水平。 还有,别想着9030S就有强于9030、9930 Pro的能力,不存在的,就像8S Gen4对比8 Elite,S可不止CPU,GPU的缩减,外围、I/O都减了,充其量就是个8系,hhh,少点幻想,老老实实买Mate吧。9月见
  • 76
    说我神棍的,你们自己备忘录写点字就能真了? 真的假不了,假的真不了,3CU就是3CU少自欺欺人!
  • 73

    广告
    14:52
    不感兴趣
    开通SVIP免广告
  • 32
    Kirin X90 Refresh 4*2.45GHz Linxi big+4*2.1GHz Linxi big+2*2.15 Linxi middle(仅各核超频0.1-0.15GHz,其余几乎没动) 9030 Pro也会上PC,不清楚啥时候上。 X9下次迭代预计明年下半年,规模到时候再说。
  • 98
    P90P、PM 8030=9030S 1*2.85+3*2.25+4*1.75 3CU 933MHz (规模确定,频率不确定,以实际为准)
  • 43
    N3X 工艺打造,大核频率达到史无前例的 5.8GHz。采用全新 2+3+3 架构:三颗高频小核5.0GHz,用于提升多核跑分;另外三颗“低频”小核“仅有”4.0GHz,用来保持续航。 高通宣称,该芯片性能已经问鼎整个数码行业,不仅手机领域再无敌手,甚至台式机也不在话下。 当然,性能这么强,功耗肯定水涨船高。据悉,在 GB6 跑分场景下,这颗芯片功耗突破了 200W大关。 为了解决散热问题,首发机型红魔手机首次引入液氦制冷系统,并内置微型压缩机与多级换
  • 10
    stepping:A0A0 作者yy:10wide decode,8int,4Br,6FP,4ld,2st,2std,堆料挺狠的,很像X925,没SME,只有SVE。然后预测器我很好奇,NV描述是Neural Branch Predictor,难道是Perceptron打赢复活赛了?现代来说,最好的应该是Multiperspective Perceptron Predictor,不知道是不是实现了这个。SMT没啥意思,感觉就是给port做了静态的分离,除了FP port,都是对半分。
  • 4
    苹果中核spec类似david huang测试,gcc12 ofast flto,得分10.4 性能略微超过苹果m2大核,考虑功耗,峰值能耗能打赢m3大核 对比amd和intel的h系列,直接能打赢大核358h以及h350,远胜小核,同时也胜intel桌面k系列高频小核(265k小核9分) 对比安卓这边,和david测试4ghz的8elite差不多(功耗高手机太热无法测出4.3g),比峰值的x925(4ghz o1和gb10)差一些,但能耗胜过。同样远胜高通和联发科制作的小核,当然功耗会高点 同时这颗cpu 4.38ghz频率核心2.5w,整机减空载也就
  • 26
    首先,非常感谢@JamesAslan 的开源项目,并且也非常感谢吧友@jht5132 的帮助,得以拿到这些架构图。 感谢LITTERTREE66作图
  • 42

    广告
    14:46
    不感兴趣
    开通SVIP免广告
  • 25
    新增M-Core数据,增加了必要的参考数据。 M-Core大概有P-Core 68%的性能,功耗还不错,2.5W,整体来说还可以。 (架构图后面发吧,目前还发不了) (作者yy:依旧Kirin严父)
  • 110
    只是简单的评测,非完整版
  • 165
    CPU峰值大约75W,16寸稳定后大约60W,14寸稳定后大约50W。功耗大约是M1 Max的2倍,性能在2.5倍到3倍(代码编译越2.5倍,CPU渲染约3倍,基本上把这套模具的散热能力利用完全了。正好可以下一代换模具。 相比之下,14寸MBP可以完全压住M5的30W功耗不降频。15寸MBA的M5峰值26W左右,长时间运行会降到被动散热能力的13W。
  • 16
    NVIDIA Thor diesize:15.71*25.6=402.176mm2 dieshot stepping:B1A0 NVIDIA Orin diesize:20.16*22.21=447.7536mm2 dieshot stepping:A0A0 NVIDIA GB10S-dielet diesize:12.91*16.10=207.851mm2 G-dielet diesize:12.91*13.45=173.6395mm2 dieshot stepping:A0A0(both S-dielet and G-dielet) (作者yy:GB10的GPU快给我看瞎了,悲。不过NVIDIA的SoC挺有意思的,不过,GB10太贵了,性价比感觉不如M4 Max的Mac Studio,hhh。) 底图@万扯淡 图1:NVIDIA Thor 图2:NVIDIA Orin 图3:NVIDIA GB10 S-dielet 图4:NVIDIA GB10 G-dielet
  • 20
    首先非常感谢吧友@jht5132 的支持,今天新增Firestorm(M1 P-Core)和M5 E-Core的SPEC17 clang 15.0.4 flto的数据。 说结论吧,Firestorm的性能及其PPC还是太欺负了,所以换了M5 E-Core,算下来PPC还有2.344,嘶……好像还是有点欺负,M4 E-Core懒得测了,按差20%性能算,就算6.2,2.89GHz下,PPC还有2.14……,额我们避免这个问题,四舍五入就是2.03,嗯,合理
    A20Pro 3-9
  • 12
    更新:新增Firestorm(M1 P-Core)数据。 PPC:2.91 (ps:好像还是高了,我找找E-Core吧,P-Core还是太欺负人了)
  • 78

    广告
    14:40
    不感兴趣
    开通SVIP免广告
  • 52
    我看b站@空瞳做了个鸿蒙版SPEC17,编译器是clang 15.0.4 -O3 flto+SVE的,Apple没SVE,那就548和FP让一手,看看结果。感谢吧友@jht5132 的大力支持 (ps:clang15下8 Gen2 for galaxy在int得分7分,结合其3.36GHz频率,可得PPC为≈2.083,这里Kirin 9030的超大核2.75GHz,PPC=2.08,哦?居然和X3差不多) (ps2:奉劝一些人,要比就统一编译器比,clang 14和15在548差了十万八千里,分能对吗?)
  • 101
    书接上文,我确实没能想到,在之前锐评过Oyron 1、2邯郸学步后,在今年还能对其最新架构有如此负面的评价,那么你们也应该能猜测出该架构有多么令人失望,那么,接下来的文章,在征得某不知名宝可梦老师的同意后,得以借用其逆向数据对Oyron 3的架构进行深入的分析,让我们看看,Oyron 3究竟在架构设计上表现如何,其与其友商的差距还有多远。 那么,我记得去年,应该是6月的时候,我写过一篇有关Oyron 1的文章,那时候我的结论就是邯郸学步
  • 37
    这玩意我一直挺感兴趣,一方面,我是想知道在低缓存配置下高通这架构有怎么样的。另一方面,高通号称用了和旗舰一样的3nm工艺,是良心发现还是背后有什么猫腻。 比较令我意外的是8G5的缓存配置,按照我一开始的想法,应该是将大小核L2都砍成6M,这样总计12M的配置面积最小。退而求其次,大核不动12M,小核砍到4M这样就不用改大核的设计。但没想到大核砍成了4M,小核保持12M。但是后来我想通了,可能这才是这个U能用的唯一解。
  • 65
    一一个项目,一个项目跑慢慢更新
  • 38
    rt X90砍规模加部分降频版 X90:4*2.316GHz Linxi Big+4*2.009GHz Linxi Big-e+2*2.05GHz Linxi Middle。 X90e:3*2.07GHz Linxi Big+3*1.85GHz Linxi Big-e+2*1.805GHz Linxi Middle 注1:Linxi Big-e是指X90的中大核,与其大核定位为ARM Cortex-X4与X4m的关系,由于华为名字太乱,我个人用该自创名字指代。 注2:Linxi Big与Middle均为9010上同款架构。 注3:X90e为自创名,指代X90砍规模加部分降频版。
    蒙代 11-26
  • 71

    广告
    14:34
    不感兴趣
    开通SVIP免广告
  • 171
    小tree_666 2025-11
    9030 9030 Pro 9030 Max 9030 Pro Max
  • 31
    A19 Prodieshot stepping:B1A0 B1A0更新日志: 1.修复了Neural Accelerator位置,更换了新的底图。 2.修复了P-Core CPU L1i Cache与L0 BTB,Trace Cache位置。 diesize:8.03x12.29=98.6887mm2 M3 Pro dieshot stepping:A0A0 diesize:13.77x15.92=219.2184mm2 M2 Pro dieshot stepping:A0A0 diesize:20.77x14.19=294.7263mm2 附录:A19 Pro各模块面积(fig.4) 鸣谢:底图@万扯淡,模块面积@Piglin
  • 59
    根据发布机型陆续更新 目前上场的选手有iPhone17/Pro和小米17系列、X300系列
  • 11
    我看吧里有些还不太了解的人觉得SME只是用来刷分的,这句话并不假,只不过少了很多句话。 首先,SME是Apple带着ARM把自家AMX的private ISA做成了shared ISA,成为了ARM-V9.2的扩展指令集,这代表着对于安卓SME是可选项而不是必须项。其次AMX是2019年Apple在Cebu上引入的矩阵运算单元,毕竟M means Matrix。在Ellis上翻了4倍规模引入了P/E-AMX,在Donan,Tahiti上正式转变成SME,但是其底子依然是AMX。 ARM和Apple类似物(Oyron)对SME的实现方式不太一样,Apple类似物顾名思义就
  • 46
    JamesAslan的测试数据
  • 34
    去咕哒子薇尔莉特那扒了数据做了个表 数据来源:微博@天天座萝世
  • 69

    广告
    14:28
    不感兴趣
    开通SVIP免广告
  • 55
    昨天看到小吧的图,那个并不是实锤,毕竟有config说明不了问题(万一是旧代码没删),所以我自己下了15spro的固件,解包后发现在vendor分区的libnpu_runtime.so这个地方有明确的证据。
    sjm520yyy 5-27
  • 41
    拖更的有点久,emm,理解万岁()。那么话不多说,直接进入正题。 我们都知道,Apple的微架构还是非常强的,尤其是front-end,业界除了IBM,最强就是Apple了,但是我们也知道Apple缺失了2-taken branch这个feature,什么是2-taken?顾名思义,1个cycle里处理两个jump的预测技术,以提高fetch的吞吐量。传统的分支预测器通常在一个周期内只能预测“1-taken”(即最多一个分支为 taken),遇到连串的分支指令时,后一条分支要等前一条预测完成才能继续预测,会导致
  • 24
    空载:0.43w A720m 14.88/0.30w X4m 14.43/0.31w
  • 4
    独立开发者Iain Sandoe 为 GCC15 添加 Apple Silicon支持,他与 Arm 工程师及 Apple 开源团队合作,支持cpu=apple-a12、apple-m1、apple-m2 和 apple-m3的参数。但M4的sme2支持还不行 我手动编译gcc15rc1,测试了ofast、ofast flto、jemallc和ofast flto jemalloc在M4上成绩,不保证频率稳定在4.5ghz Iain Sandoe这位开发者非常厉害,之前的版本在苹果芯片上GCC也基本都是他主导在维护,之前版本GCC官方源码直接在darwin上编译会有问题,需要git他的分支
  • 27
    听说8E2的CPU cluster,all core use shared L2 cache,这个desigb很有想法,这让我想到了HPCA25的一个paper,IBM的latera cache persistence algorithm,每个 L2 在eviction (替换)时,会把被换出的cache line通过ring bus“latera”(横向)write到最空闲或最少活动的 L2 里(这是“虚拟 L3”的实现原理:把原本要逐层写到大 L3 的数据转而写到某个在同作用域的 L2)。 在server层面同理:若在本芯片 L2 都无法容纳了,就把该行再“横向”写到另一个芯片上最空闲 L2(对应 vL4 作用域)。
    天气 9-17
  • 13
    吧友看看有什么错误参数我改改
    W.Leibniz 5-28
  • 32

    广告
    14:22
    不感兴趣
    开通SVIP免广告
  • 54
    为什么Apple Silicon在R24中这么强? 如你所见,今天我们要讲的是,为什么,Apple Silicon在Cinebench R24中表现如此的强,连隔壁的X86都甘拜下风,尤其是M4,我看我们的贴吧老哥都跑上192了,简直是非常的厉害。 首先我们需要明白R24是一个比较重LSU的一个benchmark,那么M4刚刚好大提升的就是这部分,那么今天我们引入我们的主题,LSU,LSU是CPU中很重要的一个部分,我们首先需要了解一下什么是LSU。LSU 是 “Load–Store Unit”(加载存储单元)的简称,是一个专
  • 25
    使用junjie1475制作的spec2017.app,clang14/flang17 因为iPad mini只有3GB内存,所以502一直闪退无法跑出成绩,剩下9项正常 大致以a14到a18的成绩估算,502项会让平均分高5%左右 估算a12成绩大约5.1分多,比较接近的是8的3g x2,5.2分多 同时也看到苹果经过6代6年,从a12到a18,单核性能提升将近110%,年化提升将近13%
  • 32
    这次应该没有可以继续更新的内容了。 接下来更新时间应该是3月份。 也有可能这个月MateXT海外版会发布,MateXT海外版代号GRL-LX9已经可以在geekbench官网查到了,依旧是9010,极大概率为4G版本,不过还未正式发布就先不放在里面了(其实是我懒)由于贴吧的字数限制所以这次选择图片发送,调整了字体与颜色突出信息主体。 提示,一共6张图片包含长图,点开可查看更多内容最后一张图为华为3D人脸解锁机型统计
  • 62
    此贴长期更新。
  • 38
    晚上翻笔记发现了自己一堆BP的idea,但又不知道从何说起……
  • 18
    A18 Pro dieshotstepping:A0C2 diesize:8.44*13.00=109.72mm2 A18 dieshot stepping:A0A0 diesize:7.84*11.79=92.434mm2 M4 dieshot stepping:B1D4 diesize:13.21*12.82=169.3522mm2 底图@万扯淡
    Hildα 1-26
  • 6

    广告
    14:16
    不感兴趣
    开通SVIP免广告
  • 21
    有错误和补充请回帖,PDF在麻花疼qun里
  • 19
    感谢@junjie1475 ,测试了苹果M4的核间延迟,进步很大,大小核延迟70ns,比上代100ns进步不小
  • 30
    花费了比较多的时间详细的测试了一下M4P对比M2P,都是相同的256bit内存通,芯片的规模大小应该也差距不大,很适合来进行对比,有几个发现 第一,苹果使用目前最新的gcc12.4和macOS15 ,成绩会比之前gcc12.3低,我之前的M2测试是10.3,M2现在的成绩和Linux下是差不多,虽然不同项的成绩差距还是比较大,也因此测试的结论是M4比M2单核提升37% 第二,我还用powermetrics测试一下每个项目对应cycles/s,也就是频率,M4跑13.7分基本是4.5g的成绩,可能有厉害的大佬还
  • 49
    联发科天玑9400 Dieshot 感谢@ZOL中关村在线 提供芯片 感谢@vivo 的商单 感谢@万扯淡 Decap layout by @Kurnal 图1为天玑9400Dieshot 图2为天玑9400vs高通8Elite 同比例尺图
    道韵永恒 11-16
  • 86
    what can I say。这BPU还用说,Firestorm同款BPU。TAGE 80KB,ITTAGE 40KB,L0 BTB 2048entry。对这个规模不需要抱太大期待。看看图就知道不如X4水平。ARM的BP算比较一般的,如果放到和今年新出的新世代u-arch那完全比不了。像AMD的16K-entry L1 BTB以及Multiple-Block Ahead Branch Predictor。Apple增加table和BTB的BPU。intel……,额,这个不怎么能讲。前两家的BP都是有相当大的进步。 当然肯定有人会问啊,BPU重要,咋Oyron表现那么好。很正常啊,力大砖飞,4.32GHz+3.52GHz。反正power不要了
  • 12
    麒麟8000Dieshot Photo By@万扯淡 Layout By@Kurnal 图1为8000Dieshot 图2为Decap的Die package图 图3为麒麟810-815(720)-820-8000 同size对比 图4为8000与815的对比 几个事情 1:Nova12/13上的麒麟8000为同一颗,见图2 并不存在所谓新麒麟8000这一说(所谓的01/02更是无稽之谈,我这颗拆机来自与Nova12Pro) 2:工艺与麒麟9000S相同,9000S是什么,8000就是什么 3:产线与麒麟9000S一致(相同的对准标识) 又:麒麟8000与麒麟815(或者叫麒麟720)很相似(见图4) 高清图见bilibili动态
  • 34

    广告
    14:10
    不感兴趣
    开通SVIP免广告
  • 105
    stepping:A0A0 diesize:7.55*9.27=69.9885mm2 工艺:SMIC N+2(K9000S同款)
    jhbsr123 10-31
  • 38
    苹果blizzard是3年前的小核心,arm a720是去年的中核心 以x9400的2.4g a720对比2.42g的blizzard,都是用jkw一致的clang14/flang17,可以看到a720 3.57分,blizzard 3.6分,ipc基本一样 根据edison chen的分支预测测试数据进行对比,blizzard的预测缺失率和每干条指令命中缺失值,都和a720差不多 所以说,苹果的CPU设计还是很领先的
    睿橘先森 10-21
  • 39
    然后用ubuntu跑spec2017 这样做的好处就是可以使用不同的编译器不同的flag来进行测试 其中关于网速下载慢的问题和spec2017.iso源码哪里下载问题,这个帖子并不涉及
    mcayke 11-8
  • 5
    https://github.com/apple-oss-distributions/xnu/blob/main/doc/arm/sme.md
    ... 11-30
  • 244
    鉴于socpk一直被各种吧友引用,我觉得还是专门开个号比较好,如果发现什么问题都可以直接@这个号反馈
    Flash 3-12

  • 发贴红色标题
  • 显示红名
  • 签到六倍经验

赠送补签卡1张,获得[经验书购买权]

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!

本吧信息 查看详情>>

小吧:小吧主共12

会员: 沈总歌迷

目录: 机械制造

友情贴吧