NVIDIA (英伟达) 今天宣布与微软展开多年的合作计划,共同打造全球最强大的人工智能 (AI) 超级计算机之一,结合Microsoft Azure的先进超级运算基础设施,以及NVIDIA的GPU、网络技术和完整的AI软件堆栈支持这台AI超级计算机,协助企业训练、部署和扩展AI,其中包括最先进的大型模型。
Azure的云计算AI超级计算机包括功能强大且具扩展性的ND系列及NC系列虚拟机,这些虚拟机经过优化调整,适用于执行AI分布式训练和推论作业。Azure是第一个集成NVIDIA先进AI堆栈的公有云,在其平台上加入上万个NVIDIA A100和H100 GPU、NVIDIA Quantum-2 400Gb/s InfiniBand网络技术与NVIDIA AI Enterprise软件组件。
NVIDIA将在本次的合作中运用Azure具扩展性的虚拟机执行实例,推动研究并进一步加快推动生成式AI (generative AI) 的进展。生成式AI是迅速崛起的AI领域,其中像是Megatron Turing NLG 530B这样的基础模型,是无监督、自我学习算法的基础,用于创造新的文本、程序代码、数字图片、视频或音频。
双方也合作将微软的DeepSpeed深度学习优化软件调整到最佳状态。NVIDIA专为Azure进行优化调整的全堆栈AI工作流程和软件开发组件,将提供Azure的企业客户使用。
微软的DeepSpeed将利用NVIDIA H100 Transformer引擎加快执行采用Transformer模型的速度,用于大型语言模型、生成式AI和计算机程序代码编写等广泛应用。这项技术将8位元浮点精度功能用于DeepSpeed,以大幅加快采用Transformer模型的AI运算速度,其传输量是16位元运算的两倍。
Microsoft Azure上针对AI进行优化调整的虚拟机执行实例构建于NVIDIA最先进的数据中心GPU,是第一个采用NVIDIA Quantum-2 400Gb/s InfiniBand网络技术的公有云执行实例。客户可以在单一集群中部署数千个GPU,训练最庞大的大型语言模型、大规模创建最复杂的推荐系统,以及大规模运用生成式AI。
NVIDIA企业运算部门副总裁Manuvir Das表示:“AI技术的进步加上产业采用的脚步不断加快。基础模型的突破性发展促进研究潮、培育出更多创业公司,并开发出新的企业应用。我们与微软的合作将为研究人员及企业提供最先进的AI基础设施和软件,善加利用AI蕴含的颠覆性力量。”