NVIDIA携手微软打造大规模云计算AI超级计算机

NVIDIA (英伟达) 今天宣布与微软展开多年的合作计划，共同打造全球最强大的人工智能 (AI) 超级计算机之一，结合Microsoft Azure的先进超级运算基础设施，以及NVIDIA的GPU、网络技术和完整的AI软件堆栈支持这台AI超级计算机，协助企业训练、部署和扩展AI，其中包括最先进的大型模型。

Azure的云计算AI超级计算机包括功能强大且具扩展性的ND系列及NC系列虚拟机，这些虚拟机经过优化调整，适用于执行AI分布式训练和推论作业。Azure是第一个集成NVIDIA先进AI堆栈的公有云，在其平台上加入上万个NVIDIA A100和H100 GPU、NVIDIA Quantum-2 400Gb/s InfiniBand网络技术与NVIDIA AI Enterprise软件组件。

NVIDIA将在本次的合作中运用Azure具扩展性的虚拟机执行实例，推动研究并进一步加快推动生成式AI (generative AI) 的进展。生成式AI是迅速崛起的AI领域，其中像是Megatron Turing NLG 530B这样的基础模型，是无监督、自我学习算法的基础，用于创造新的文本、程序代码、数字图片、视频或音频。

双方也合作将微软的DeepSpeed深度学习优化软件调整到最佳状态。NVIDIA专为Azure进行优化调整的全堆栈AI工作流程和软件开发组件，将提供Azure的企业客户使用。

微软的DeepSpeed将利用NVIDIA H100 Transformer引擎加快执行采用Transformer模型的速度，用于大型语言模型、生成式AI和计算机程序代码编写等广泛应用。这项技术将8位元浮点精度功能用于DeepSpeed，以大幅加快采用Transformer模型的AI运算速度，其传输量是16位元运算的两倍。

Microsoft Azure上针对AI进行优化调整的虚拟机执行实例构建于NVIDIA最先进的数据中心GPU，是第一个采用NVIDIA Quantum-2 400Gb/s InfiniBand网络技术的公有云执行实例。客户可以在单一集群中部署数千个GPU，训练最庞大的大型语言模型、大规模创建最复杂的推荐系统，以及大规模运用生成式AI。

NVIDIA企业运算部门副总裁Manuvir Das表示：“AI技术的进步加上产业采用的脚步不断加快。基础模型的突破性发展促进研究潮、培育出更多创业公司，并开发出新的企业应用。我们与微软的合作将为研究人员及企业提供最先进的AI基础设施和软件，善加利用AI蕴含的颠覆性力量。”