“心中一块大石头落了地,却砸到脚”,是不学无术的笔者先后在高中与大学联考总算结束后,对家中长辈的询问,唯一的单细胞动物制式反应,然后就只得到无穷无尽的白眼。
对于8月中旬,才刚以全程线上活动举办的“处理器业界最好的技术研讨会”第32届IEEE Hot Chips,在计算机工业史上曾先后掌握先进半导体制程牛耳的IBM与英特尔(Intel),随着逐渐缠身的摩尔第二定律“诅咒”,两间挤了4年牙膏的I开头大公司,公布“崭新技术”细节后,只能让笔者立刻重温两次联考划下句点时的即视感。
总之重点可简述如下表。
继续用28核心打AMD 64核的10纳米制程Xeon
英特尔从2017年夏天至今一直换汤不换药的Xeon平台“Purley”(Skylake-SP、Cascade Lake-SP/AP),制程从14纳米+ 挤到14纳米++,即将升级换代到Whitley平台与10纳米制程的Ice Lake-SP处理器。
笔者更好奇被腰斩的14纳米+++ 制程Cooper Lake-SP,这个在新平台的旧制程处理器,究竟是热到什么程度(一度外传核心数量多达48),或是出了什么问题,才难逃被腰斩的命运,可惜大概将和末代NetBurst微架构Tejas一样,永远没有公诸于世的机会。
但最让人“眼睛一亮”的,莫过于Ice Lake-SP不动如山的28核。等一下,之前谣传的38核版本到哪去了?全新Xeon的核心数如此之少是不是搞错了什么?唯一值得安慰的是,AMD第三代EPYC“Milan”“应该”维持64核,尚未拉开差距。
Ice Lake-SP导入的Sunny Cove核心,“比前代Cascade Lake的IPC增长18%”和那票针对密码学和解压缩而添加的AVX-512扩展指令,乍看之下也不是什么新奇玩意了,像IFMA、VBMI2、BITALG、VPCLMULQDQ、GFNI、VAES等,也都早就高高挂在Wiki的内容。
唯一略有新意者,仅限服务器版Sunny Cove核心激增每个核心专属的L2缓存容量(512kB→1.25MB)以及第二个浮点乘积和(second FMA)执行单元。
当然,单一核心之外,整颗Ice Lake-SP系统架构层面的改进也并非一无可取,PCIe Gen4与8信道DDR4内存控制器是显而易见的亮点。
但最值得一提的是,英特尔设法缩短整体内存访问延迟的努力,像多核心网状(Mesh)规划从6×3变成7×3,每个网状区块可直接访问的内存信道数从3个降成2个(可参考这篇关于AMD EPYC内存信道的内容),改善缓存资料一致性协议的效率,和配置电源管理专用的控制信号总线(对AMD处理器有点认识的话,就想成Infinity Fabric中当作“神经”的Scalable Control Fabric)等,诸如此类,让Ice Lake-SP的有效内存带宽,相较于前代激增43%到89%。
我们也可以合理预期,英特尔应也将重新攻击AMD因多芯片Chiplet路线,而导致整体内存延迟较长的“弱点”,这嘴炮攻势从初代EPYC就开始进行了,死灰复燃也不会让人太意外。
像提升执行AVX-512指令集的处理器运行时脉(毕竟也不是所有的AVX-512指令都很耗电)、改进处理器时脉切换的反应时间与精细粒度(所以又多出Intel Speed Select Technology这个新技术营销名词),这些例行公事,也都是英特尔在HotChips 32介绍Ice Lake-SP的重点项目。
但回过头来,Sunny Cove核心的“额外18趴IPC”加上“1.5~8倍性能的密码学应用”,恐怕也不会有人觉得这足以抵消区区28核的压倒性数量劣势。按照常理判断,英特尔不太可能没准备更多核心的后继版(假若真的有,大概一两年前那票服务器ODM厂商都会得到详细信息了)。当然我们有充分理由认定,即使产品规格输人,英特尔依旧握有大量“生态系统统资源”维持市场占有率不下滑,但能否继续享受以往一样丰厚的利润,那就是大大的问号了。
尤其云计算服务企业构建新一批服务器的大宗处理器采购案,那刀刀见骨的砍价幅度,恐怕连擅长杀价的菜市场大妈都自叹不如,现在又刚好是英特尔想在先进制程技术重振旗鼓,挑战摩尔第二定律的关键时刻,英特尔是否还保有足够银弹,支撑擘画未来十年的制程研发,就请各位搬好凳子,备好零食等着看好戏。
双芯片封装拼核心数加上狂冲人工智能的IBM Power10
IBM Power9走了足足三代后(Scale-Out,Scale-Up,Advanced I/O)才粉墨登场的Power10,预计一年内推出服务器系统产品。乍看之下Power10只是前代Power9的微幅改进版,似乎没有什么独到特色,但笔者仍必须强调几个很有看头的重点。
三星7纳米制程:从之前的三星14纳米跃进到7纳米,让能耗比成为前代3倍,IBM下一代大型主机z16也预计会采用相同制程,这个就没什么好提了,哪天转单到台积电再来叫我。
双芯片封装加倍核心数量:Power10实做了16个SMT8核心(或32个SMT4),这次公布的是SMT8版,为了提高良率少了一个,因此15个SMT8核心、120线程。Power10将有双芯片封装版本,一个处理器脚座将最多拥有30个SMT8核心与240条线程。
PCIe Gen5:领先英特尔和AMD一大步,而Power9超级暴力的各类I/O接口,像PowerAXON和Open Memory Interface,也继续在Power10发扬光大。
强化人工智能应用:Power指令集v3.1版,支持各类可能用到的资料格式(BF16、FP16、INT8、INT4),并在微架构层面增强SIMD指令集性能。Power10的单核心整体性能较Power9提高30%,单线程效率多出20%,能耗比则为2.6倍(因核心较多,单芯片就变成3倍)。
IBM在扩张指令集的路上,也碰到Power指令编码字段不足的问题,如同Fujitsu在SPARC64 VIIIfx实例HPC-ACE和A64FX上的SVE,IBM通过追加前述码(Prefix)来变相延长指令长度。
有趣的是,近似英特尔Sunny Cove,IBM Power10志同道合激增L1与L2缓存容量,L1资料缓存是Power9 1.5倍的48kB(但英特尔下手的却是指令缓存),L2缓存变成前代512kB四倍的2MB,也许这或多或少反映了时下应用程序的行为偏好。
很厉害的内存集群分享机制:如使用Power10构建集群(Cluster)运算环境,可将所有节点的内存建成最高2PB的“内存池”,彼此互通有无,并根据不同的工作负载特性(如可接受访问延迟与所需容量)优化配置,像有严苛访问时间限制的工作,就使用节点本地端的主内存,但可接受高延迟却需要高容量者,就优先布局在远程的节点。基本上,如此高端的先进功能,如果不是像IBM这样高度软硬兼备垂直集成的玩法,连想都可以不用想了。
IBM透露Power10的研发工作打从2015年就启动,足足花了5年,这次IBM又会用力挤Power10这条高贵的牙膏多久呢?值得拭目以待。
挟着Willow Cove核心和Xe GPU想4核打8核的Tiger Lake-U
最近有关心笔记本的读者,不太可能没感受到网络论坛对AMD 8核心机型的讨论热度,像“AMD真香”之类的评语,如森林大火越烧越旺,AMD笔记本市场占有率急速增长、2020年第二季销售创下历史新高,也不是什么大新闻了。
再怎么讨厌AMD的人都不得不承认,7纳米制程的Zen 2时代APU“Renoir”的确是很有魅力的产品,这家公司购并ATI后花了十几年,终于摸出APU的最佳产品定位,而英特尔这两年多来的大缺货更送给AMD可乘之机,导致AMD自己也卖到出货不足,真是有够可喜可贺。至于AMD是否会像英特尔,将从台积电抢来的有限产能,优先供应给高获利的服务器产品线,那就不得而知了,只能说几率不低。
英特尔在2020年的笔记本市场,唯一可“迎击”AMD Renoir的新品,唯有具备新一代Willow Cove微架构核心、新时代Xe绘图、PCIe 4.0、Thunderbolt 4、USB 4、UPDDR5-5400、AVX-512新指令VP2INTERSECT(坊间有种说法:从Tiger Lake开始,AVX-512终于有1.0版了)、GNA 2.0人工智能推论辅助处理器、更多影音编解码格式的Tiger Lake-U。
哦,差点忘了,Tiger Lake制程是英特尔第三代10纳米,也就是所谓的“10纳米++”,包含英特尔最新制程技术,像SuperFin晶体管结构和强化后的金属层堆栈之类的。
只不过,为何英特尔只发布4核心版本?65W的8核心版本在哪里?
虽然今年流传的4核Tiger Lake-U,第12代的Xe内显可略胜Renoir内的Vega 8,但绝对不会有人傻傻相信4核Willow Cove可追上8核Zen 2。偏向消费性产品的笔记本,改变市场版图的所需动量远不及服务器,随时都可风云变色,届时天天上演“知名笔记本品牌的同样型号,AMD版痛扁英特尔版”也不会让人有一丝一毫意外。
先假装忘记“啊,英特尔又是被迫一打二”的感慨,我们总得瞧瞧Willow Cove和Xe究竟是何方神圣。
Willow Cove大体可视为“配合SuperFin晶体管结构优化电路设计、扩大L2 / L3缓存内存、追加抵御间接分支攻击手段(间接分支关注功能,Windows 10即将支持的Shadow Stack)”的Sunny Cove微幅改良版,会有更高时脉这件事就无需赘述。千篇一律的“小步快跑”,让笔者连打字都开始感觉渐渐有气无力。
那么,英特尔第12代(还有人记得10纳米首发Cannon Lake那跟着Palm Cove一同短命殉情的第十代吗)内显的技术根基:Xe,又是怎么回事?坦白讲,在尚无大规模(包括消费性独显和HPC版本)的广泛性能测试出炉前,笔者下不了什么结论,但有大量“Optional”功能项目(固定绘图功能,FP64,Matrix Extension,Rambo Cache,多芯片延展性),企图借由更具弹性的IP区块与新时代多芯片封装技术,以便于打造多样化的产品线满足所有市场区隔,倒是显而易见。
听说nVidia下一代GPU“Hopper”也将采取Chiplet路线,默默进行EHP计划的AMD则早已磨刀霍霍,包水饺大战从CPU一路燃烧到GPU之日,恐将不远矣。
AMD Renoir确定只有8个Vega CU,但是……
去年关于AMD Renoir APU的众多谣传和流出的产品规格,一律指出Renoir将具备比前代Picasso更多Vega绘图核心(超过11个),但AMD在CES公布的信息却让人大失所望,也不乏“AMD其实暗藏一手,等着堵英特尔Tiger Lake”的无责任猜想。
AMD在HotChips 32开奖了:的确从11个减少到8个,却换来更高时脉、性能与能耗比。
倍增的内显总线宽度(Inifity Fabric内当成“血管”的Scalable Data Fabric)、高25%的时脉、多77%的峰值内存带宽、缩减61%芯片面积,但性能激增27%,换言之,“芯片性能密度”是前代225%。最让人满脸黑线的是:AMD原先还只想放6个核心,后来才发现在芯片面积与功耗预算内,放8个也没问题,结果就开开心心塞进去了。
不过,事情还没完。约一个月前,就传出AMD将推出有更多Vega绘图核心(11个以上)和更多PCIe(x16)的“Big Renoir”,也就是传说中的“Lucienne”,当成现有Renior的“升级方案”,反正AMD就是不想轻易放开苦等多年难得掌握到的技术优势就对了。
但对笔者来说,看在Vega保有Fluid Motion补帧功能的分上,能活越久当然越好,据说Zen 3时代APU“Cezanne”内显也还是Vega,只希望未来AMD愿意在RDNA绘图体系,复活这个看动画的好物。
最后,笔者是不是忘记某人的主题演讲了?算了,大家只要记得“No Transistor Left Behind”是英特尔Xe绘图技术的口号就够了。
(首图来源:pixabay)