新MLPerf推论评比结果出炉,Nvidia GPU搭配Arm服务器性能不输搭配x86服务器

ML基准测试组件MLPerf最新推论评比在9月22日出炉。Nvidia首度以GPU搭配不同CPU架构来参加MLPerf Inference v1.1的测试,比较两种组合在6种AI应用中的成效。实际结果显示,搭配Arm架构的A100性能与搭配x86架构相差无几,仅略低于x86架构的性能,但在医疗图片识别评比中,Arm架构性能更胜过x86架构。

MLPerf推论评比共分为6种AI应用,分别是用于推荐的DLRM框架、用于NLP的BERT、用于语音识别的RNN-T、用于医疗图片识别的3D U-Net、用于图片分类的ResNet-50 v1.5,以及用于低解析对象侦测的SSD搭配MobileNet-v1、用于高解析对象侦测的SSD搭配ResNet-34。

Nvidia指出,相较于去年MLPerf Inference v0.7的推论评比,A100 GPU在这次v1.1版本的评比中,于各项AI应用的性能均有所提升,尤其在语音识别与医疗图片识别的领域,性能更分别较去年提升了3成与5成。Nvidia AI推论与云计算部门的产品经理Dave Salvator指出,这些性能的提升,并非基于硬件的改良,而是来自于软件对于硬件性能的优化。

MLPerf推论评比又可依据在云计算或边缘端运算,分为两大评比类别;而在云计算数据中心进行推论的类别,又可分为完全无延迟的脱机运算(Offline)与低延迟的服务器运算(Server)。在云计算数据中心的测试中,若以A30 GPU为基准,来比较单一加速器(Accelerator)的性能,可以发现A100 GPU性能几乎领先了所有加速器。

进一步来看,这次领先的A100 GPU分别搭配了x86架构与Arm架构的CPU。评比结果显示,搭配Arm架构的A100性能仅略低于搭配x86架构的性能,其中在脱机的云计算推论类别,Arm架构服务器在医疗图片AI的推论性能,更胜过x86架构。

Nvidia在今天发布的博客指出,全球数据中心正在加速采用Arm架构,因Arm架构具有低耗电、高效率与高性能的优势,还有持续扩展的软件生态系统统。在这个趋势下,Nvidia提交Arm架构的A100服务器来参加MLPerf推论评比,评比成果更显示,基于Arm的GPU加速平台,已经准备好处理数据中心的各种AI工作负载。

评比结果显示,搭配Arm架构的A100性能略低于搭配x86架构的性能。

除了在云计算推论评比取得领先地位,在边缘端的推论评比上,Nvidia也以A100 PCIe取得了最佳成绩。若以Nvidia嵌入式边缘运算芯片Jetson Xavier NX的性能为基准,可以发现A30与A100 PCIe遥遥领先其他芯片性能,尤其A100 PCIe在医疗图片识别、NLP与高解析对象侦测等推论成效,大幅领先其他芯片。

Dave Salvator也特别强调软件在推论评比中扮演的加速角色。在AI推论上,Nvidia靠深度学习推论软件开发组件Tensor RT来优化AI模型,通过稀疏性与量化感知训练两大功能,在不影响推论准确率的情况下,缩减模型权重与精度,来加快模型运算效率。

同时,Nvidia也通过开源推理软件Triton,简化AI模型在生产环境的大规模部署。Dave Salvator解释,Triton主要可以自动化基础架构的管理,具有弹性化扩展(auto scaling)及负载均衡(Load balancing)两大功能,尤其将AI模型部署到推论环境中执行时,对于计算资源的需求可能突然来到高峰,若计算资源已经饱和,就会延长模型推论时间。但通过Triton,当运算需求突然增加时,可以自动将工作分配到闲置的CPU资源上执行,优化利用CPU或GPU,来加速模型推论。

Dave Salvator也披露一张图表,比较使用Triton来部署AI模型,以及通过定制化程序代码来部署AI模型的性能差异。Nvidia指出,使用Triton的A100推论效率,可以达到定制化程序代码的93%,使用Triton的A30更可达到与定制化程序代码相同的成效。

在这项推论评比中,Nvidia也运用多实例GPU(Multiple Instance GPU,MIG)来进行评比,MIG可以将每个A100 GPU最多分为七个执行实例,各自独立且具备个别的内存、缓存和运算核心,来执行不同的AI工作负载。由于MLPerf推论评比只有六项应用,Nvidia还多执行了一个图片分类的AI应用,将7项应用同时在A100中执行。得到的结果是,每项工作负载的推论性能均达到独立执行的95%。Dave Salvator指出,能达到这个成果,Triton功不可没,因为Triton可以让不同框架的多个模型同时在单一GPU或CPU上执行,而不需增加额外的程序代码。