
根据TrendForce最新发布的服务器报告指出,近几年受到新兴应用的激励,加速了人工智能及高性能计算的发展,且伴随着依赖机器学习及推论的需求提升,构建出的模型复杂度随着需求的精细程度有所增加,因此在计算时需处理的资料量随之增大。在此场景下,庞大的资料处理量受硬件性能局限,导致用户在设备的构建面临了性能、容量、延迟度以及成本间的取舍问题,刺激HBM(High Bandwidth Memory)及CXL(Compute Express Link)的出现。功能上来说,HBM为新形态内存,主要协助更多样、高复杂运算而需要的I/O辅助,而CXL则为使内存资源共享的协议,提供xPU更为便捷的应用。
现行DRAM架构垂直堆栈,HBM突破现有解决方案的带宽限制
为了不受限于传统内存的带宽束缚,内存原厂开发了HBM,其结构为基本逻辑颗粒上连接数层的DRAM裸晶,而DRAM裸晶之间以硅通孔及微凸块3D堆栈达到高带宽设计,层数又以4层及8层为主流。而以现行时代来看,HBM2e为目前最新的量产时代,单层16Gb的裸晶堆栈4层或8层,使得单颗容量分别为8GB及16GB,带宽可达410~460GB/s,而下一代HBM3已进入机构件送样阶段,有望于2022年量产。
根据TrendForce观察,2021年HBM位元需求占整体DRAM市场仍未达1%,主要包含两大原因:首先是消费级应用因成本考量下几乎未采用HBM,其次是服务器市场中作为AI功能的构建低于1%,意即服务器搭载相关AI运算卡的比重仍小于1%,且多数内存仍使用GDDR5(x)、GDDR6来支持其演算力。
预期未来,虽然HBM仍在发展期,但随着应用对AI的依赖度增加(包含模型复杂化来优化AI精准度),需要HBM的加入来支持硬件。其中,以与AI最相关的FPGA和ASIC来看,FPGA产品有Intel的Stratix、Agilex- M以及Xilinx的Versal HBM导入HBM;而ASIC方面,多数数据中心在AI的构建中,逐渐以自研的ASIC芯片为发展方向,例如Google的TPU、Tencent的邃思、Baidu的昆仑皆使用HBM。再者,Intel的server CPU Sapphire Rapids也规划于2022年底发布带HBM的高端版本。TrendForce认为,HBM有助于突破AI发展中受限的硬件带宽瓶颈,未来市场上将出现更多相关应用。
高速运算催生的新协议,CXL将更有效集成系统中的计算资源
CXL则是基于PCIe Gen5规格演变的协议,让CPU及其他加速器(例如GPU、FPGA等之间)创建高速、低延迟的互联性,使其各自的内存模拟成一个共享的空间,允许内存资源共享,降低系统成本并获得更高的性能,有利于解决AI及HPC的工作负载。
而市场上类似概念的内存资源共享协议并非只有CXL提出,NVIDIA的NVLink、AMD及Xilinx的Gen- Z,皆凸显大厂对系统资源集成的重视。然而,TrendForce认为,CXL能由众多协议中脱颖而出的主要原因,来自于其协议为Intel提出,而该公司在CPU市场占有高采用率的优势,Intel CPU支持的号召能使得CXL及其相关硬件设备商得以自上而下的统合,因此相继获得AMD、ARM、NVIDIA、Google、Microsoft、Meta(Facebook)、Alibaba、Dell等公司的加入,成为目前呼声最高的内存协议。
在允许CPU及其他硬件进行内存资源集成下,利于降低各硬件间的通信延迟,也能提高AI及HPC发展需要的计算性能。为此,Intel将在下一代服务器CPU Sapphire Rapids中支持CXL,而内存原厂也规划支持CXL的产品方案,其中,三星(Samsung)宣布将推出支持CXL的DDR5模块,用以扩张服务器内存容量,满足AI运算需要的庞大内存需求。未来CXL也有机会推及至NAND Flash的方案支持,使得DRAM及NAND Flash双双受益。
HBM及CXL交互合作有利于AI发展,实际应用于2023年将更有曝光率
TrendForce认为,CXL导入将随着未来CPU内置CXL功能而普及化,而未来AI服务器的硬件构建,将能见到更多同时采用HBM及CXL的设计。其中HBM能分别增加CPU及加速器各自的带宽,加速资料处理速度;CXL则创建彼此间沟通的高速互联性,两者交互有助于扩展AI演算力加速AI发展。
在内存资源共享下,模型的设计能摆脱硬件瓶颈,持续往更复杂的架构建设。TrendForce预估,随着支持CXL的Intel CPU Sapphire Rapids导入达一定覆盖率,以及内存原厂陆续量产更高带宽的HBM3及具备CXL功能的D RAM与SSD,2023年有望于市场上见到更多HBM及CXL合作使用的应用。
(首图来源:shutterstock)