微软预览生成式AI专用虚拟机ND H100 v5

微软推出最新用于大规模人工智能运算的虚拟机系列ND H100 v5,该虚拟机系列采用Nvidia新的数据中心等级GPU H100,用户可以按需配置8到数千个GPU,这些GPU可通过NVSwitch和NVLink 4.0技术相连,可提供更高的人工智能运算性能。

ND H100 v5所使用的H100,是Nvidia去年刚发布目前该公司最先进的数据中心GPU,无论是在高性能计算、人工智能模型推理还是训练,性能都较上一代ND A100 v4虚拟机,所使用的Nvidia  A100 Tensor Core GPU高上数倍,H100模型训练可比A100快达9倍,模型推理甚至可快达30倍。

除了制程的进展之外,H100特别之处在于内置了一个称为Transformer Engine的加速运算引擎,能够加速以Transformer神经网络架构为基础的人工智能模型,像是GPT-3.5或是RoBERTa等预训练模型。同时H100还支持机密运算,Nvidia将原本仅能在CPU中提供的机密运算资料保护扩展到GPU上,供用户安全地执行企业专属模型,避免人工智能模型未经授权访问。

ND H100 v5中H100 Tensor Core GPU以NVSwitch和NVLink 4.0互联,每个虚拟机的8个本地GPU,拥有3.6TB/s的对分带宽(Bisectional Bandwidth),而GPU则是以PCIE 5.0和主机相连,每个GPU带宽为64GB/s。

ND H100 v5使用第4代Xeon Scalable处理器,并且具有DDR5内存,使用非阻塞广树(Fat-Tree)网络,每个虚拟机具有3.2Tb/s带宽,而每个GPU则有400 Gb/s网络带宽。第4代Xeon Scalable处理器是英特尔在2023年初才刚推出的产品,采用10纳米制程,内置高端矩阵扩展(AMX)加速器,能够提高人工智能工作负载的处理性能。