好菜依次上桌,AMD迟来15年的大反攻即将到来?

被敌人包围不见得是坏事,尤其当你的实力强过任何对手。

领导普鲁士打赢日尔曼统一战争(1964年丹麦战争、1866年普奥战争、1870~1871年普法战争)的毛奇,每战必胜,从未败北,为其他名将所不及,不仅位极人臣,更克享大年,富贵寿考兼而有之,公认是西方历史最成功的职业军人。

他说过一句名言:“我们位于欧洲大国中央,东西邻国都只有一面受敌,而我们处于腹背受敌。”毛奇最感忧虑的情况即为“斯拉夫的东方与罗马的西方缔结同盟,把日尔曼夹杀在中央”,这也成为日后德国战争计划的核心观念。

1914年8月4日,也就是英国向德国宣战、全面引爆第一次世界大战的日子,如果有旁观者绕着战争赌桌转一圈,把每个赌客手上牌都看一遍,应该会认为德国赢得赌局的机会是十之八九。战争形势看似对德国颇不利,不过德国却可集中大部分兵力对付某个敌人。

这也是2006年7月24日以54亿美元并购ATi的AMD,外界看好的战略态势,同时握有x86 CPU和GPU,借由融合两者,可集中全力打击没有像样GPU的英特尔或缺乏x86 CPU的Nvidia。

后来发展起源于Fusion大战略失策,让AMD从享有中间位置的地利之便变成两头皆空,无论CPU还是GPU,AMD就被英特尔和Nvidia一路轮流围殴到2018年,像德国在欧陆享有“中央位置”地利之便的AMD,反而弄巧成拙惨遭两面夹杀。

但AMD今年深秋发动大攻势,终于充分展现累计多年的成果,更象征AMD具备针对客户需求,同步开发多种处理器微架构的研发能量──虽然迟来了整整15年。

由近到远,一个个仔细看AMD这波攻势端出的菜色吧。

多512MB第三阶缓存内存的Zen 3时代EPYC衍生款“Milan-X”

苹果M1 Max上演独有的“暴力美学”,AMD也有自己的玩法。

自从英特尔1999年3月17日发布内置2MB第二阶缓存内存的Pentium III时代Xeon处理器,业界就一直不缺“英特尔最重要业务不是CPU核心,而是生产缓存内存”之类的冷笑话。随着大型化缓存内存成为处理器晶粒“空照图”的日常风景,这档好事也不再只是英特尔的专利。

AMD(或说台积电)积极耕耘多芯片封装技术早不是新闻,今年5月底就公开展示通过X3D封装的Ryzen 5000处理器,两颗8核心CCD(Core Complex Die)各自堆栈一块64MB第三阶缓存内存(尺寸6×6mm,面积36mm²),让第三阶缓存内存的总容量从64MB激增到192MB,并带来高达2TB/s的理论传输带宽,AMD也就理所当然优先导入高利润服务器产品线,且隐约飘来一阵“应对特定超大型客户需求”的味道。

多八块64MB第三阶缓存内存后的EPYC“Milan-X”,不仅第三阶缓存内存达到惊世骇俗的768MB容量(加上第一阶和第二阶是804MB),更减少42%~51%内存访问延迟,正面回击英特尔对EPYC“因多芯片架构导致较长延迟”指控。

基本上英特尔第三时代Xeon SP“Ice Lake-SP”就注定被AMD第三代EPYC核心数量缓和存容量整个辗过去,据已知信息,这状况几乎确定会延续到下时代竞争(Sapphire Rapids对决Zen 4,后面会提到),也许英特尔数据中心业务群的获利率,还要好一阵时间才能回到超过个人计算机水准,甚至有可能像变心的爱人,永远不会回来。

计算机工业史上首款双芯片封装GPU:Instinct MI200加速器

但这还不打紧,对AMD来说,2020年财务分析师大会披露的“双轨化GPU”发展路线,运算需求优化的CDNA体系总算开花结果,让AMD拥有账面上硬件规格压倒Nvidia的高端GPU。

第二代CDNA的Instinct MI200由两颗“绘图计算晶粒”(GCD,Graphics Compute Die)和八颗16GB HBM2e内存组成,AMD做成OAM(OCP Accelerator Module)强烈暗示锁定的“那个客户”,听说好像是有脸又有书又改名啥元宇宙(笔者实在很不喜欢这个翻译)的那家公司。

MI200与第三代EPYC处理器的组合,也成为AMD反攻高性能计算和深度学习的主力兵器,“统一AMD所有IP功能区块控制方式”的Infinity Fabrics也将发挥真正价值。

值得一提的是,AMD近期在超级计算机指标Top500大有斩获,11月榜单占据多达73台,但极度类似电竞笔记本“AMD CPU搭Nvidia GPU”风潮,Top500的AMD超级计算机,EPYC旁边总是多了Nvidia A100。AMD要如何说服客户用MI200换掉Nvidia方案,也将是值得长期观察的好题材,特别软件层面要突破“CUDA生态系统统封锁网”,绝对是天大挑战。

以下表格同场加映英特尔Xe-HPC,让大家瞧瞧这三家厂商的旗舰GPU加速卡究竟有何不同。

2021年底的重头戏:同样双轨化的Zen 4

就笔者印象所及,AMD前一次有办法同步开发两种x86处理器微架构,扣除1995年并购NexGen后同时操刀K6和K7,就是并购ATi的隔年,宣布大核“推土机”(Bulldozer)和小核“山猫”(Bobcat),且大多数时间都只存在于演示文稿,两者都无法准时问世,过程多灾多难,直接导致AMD服务器市场战线崩溃。

AMD预定采用台积电5纳米制程打造Zen 4并不是新闻,但同时冒出“两种核心”就让人极度震撼了,除了最多96核心的Zen 4 EPYC“Geona”,还有128个“云计算优化”Zen 4c(cloud optimized)核心的Bergamo,说这背后没有“保证有大客户下单”绝对是骗人的,也充分印证笔者多年前观点:AMD摆明全力锁定数据中心业务,不再追求面面俱到。

更可怕的是,这两者会同时登场,都支持AVX-512指令集(范围不明)和BF16浮点数格式,也都是英特尔第四时代56核心4芯片封装Xeon-SP“Sapphire Rapids”即将面对的对手,届时英特尔将失去大多数指令集保护伞(AMX会是仅存的明显强项),这场“核战”势必会更精彩,也让人好奇明年英特尔又会端出怎样的演示文稿数落AMD产品的弱点。

AMD目前未透露Zen 4c的规格差异性,有可能是Zen 4缩减缓存内存容量版,或根本就是全新微架构(例如预先准备Zen 5时代小核),但光是“无法一枪毙命,干脆就开两枪”壮举,就堪称AMD x86处理器发展史上重大的一步。

蓦然回首,AMD距离K8全盛时期还很遥远

15年来很多事情都变了,英特尔失去制程技术和产能霸权,Nvidia成为高性能计算与人工智能难以撼动的强权,AMD则稳扎稳打,一步一步爬出泥沼,直到市值爬到英特尔七成,看似“重返农药”(编按:重返荣耀的网络乡民用语),但对经历过AMD全盛时期的读者来说,应该还是感受到现在的AMD,距离昔日荣光似乎还有一大段距离。

论数据中心和个人计算机市场,英特尔生态系统统的完整度,AMD依旧难以望其项背,就高性能计算和人工智能,Nvidia让AMD完全看不到车尾灯。英特尔从AMD挖角Raja Koduri砍掉重练GPU产品线,Nvidia更经由并购Arm和Mellanox创建完整CPU与SmartNIC技术能量。换句话说,失去“在其中央地利之便”的AMD,优势并没有表面巨大,也和过去一样,从来没有犯错的本钱,这些压力和辛劳,都充分反应于Lisa Su越来越多的白发。

但总而言之,三年来AMD的确成功摆脱最糟糕的处境,开始有能力正面对战英特尔和Nvidia。别忘了,AMD手上还有世界第一大FPGA厂商赛灵思,笔者很期待AMD会怎么善用这张王牌,也持续酝酿蓄势待发的终极APU“EHP”。有充分理由相信,未来几年市场竞争只会越来越欢乐,让不学无术的笔者永远不缺借题发挥的素材。

(首图来源:AMD)