根据今日发布的MLPerf基准测试结果,NVIDIA (英伟达) 提供全球最快的人工智能 (AI) 训练性能,领先所有市面上的产品。
A100 Tensor Core GPU于全部8项MLPerf基准测试中,展现每个加速器的最快性能。针对最快的大规模解决方案,连接HDR InfiniBand的大规模DGX A100系统集群DGX SuperPOD系统,树立了8项新的性能里程碑。然而真正的赢家则是现正使用这些性能,并通过AI加速运营以及提高成本效益的客户。
此次是NVIDIA连续三次参加于2018年5月创立的业界基准测试MLPerf,而此次成果也是NVIDIA表现最强劲的一次。NVIDIA于2018年12月首次MLPerf中创下6项记录,并在2019年7月创下8项记录。
此外,NVIDIA还刷新最受客户关注的“市售产品”分类记录。我们使用最新的NVIDIA Ampere架构以及Volta架构进行测试。
NVIDIA DGX SuperPOD系统为大规模AI训练树立新里程碑。
NVIDIA是唯一一家以旗退市售产品进行所有测试项目的公司,其他多数公司送测的产品皆属于未来几个月不会上市的预览类别,或是短时间内不会上市的开发类别。
除了刷新性能记录外,首款采用NVIDIA Ampere架构的A100 GPU,也较NVIDIA先前所有的GPU更快上市。A100推出之际便支持NVIDIA第三代DGX系统,更在推出仅仅六周后导入Google云计算服务。
此外,A100也满足全球各大云计算供应商的强劲需求,包括Amazon Web Services (AWS)、百度云(Baidu Cloud)、微软(Microsoft) Azure、腾讯云(Tencent Cloud),以及其他数十家服务器制造商,包括戴尔科技(Dell Technologies)、慧与科技(Hewlett Packard Enterprise)、浪潮集团(Inspur) 以及美超微(Supermicro)。
全球各地的用户通过采用A100来面对AI、资料科学与科学运算等领域中最复杂的挑战。
无论是用于开发新的推荐系统或对话式AI应用,或是针对新冠肺炎(COVID-19)的医药研究,所有人都能享受NVIDIA八代GPU中,有史以来最大的性能跃进。
NVIDIA Ampere架构席卷所有市售加速器产品的8项测试。
最新测试结果展现NVIDIA持续致力于AI平台的发展,包含从处理器、网络、软件到系统等各个层面。
例如,测试结果显示,当前的DGX-1系统以相同的吞吐量所提供的性能,较第一回MLPerf训练测试中搭载V100 GPU的系统大幅提升4倍。此外,如今通过最新的软件优化,最初基于NVIDIA V100的DGX-1系统可以提供高达2倍的性能。
这些在不到两年所获得的性能提升,凭借的是AI平台各领域的创新。当今的NVIDIA A100 GPU结合CUDA-X函数库的软件更新,为通过Mellanox HDR 200Gb/s InfiniBand联网技术打造的扩展集群系统提供支持。
HDR InfiniBand支持极低延迟与高资料吞吐量,同时通过SHARP (Scalable Hierarchical Aggregation and Reduction Protocol) 技术,提供多种智能深度学习运算加速引擎。
NVIDIA持续通过全新GPU、软件更新与扩展系统设计,推动AI性能的发展。
MLPerf基准测试由亚马逊(Amazon)、百度(Baidu)、Facebook、Google、哈佛大学(Harvard)、英特尔(Intel)、微软(Microsoft) 以及斯坦福大学(Stanford)等组织支持,并随着AI的发展持续跟进演化,以保持密切的关联性。
最新的基准测试包含两项新的项目,以及一项大幅改版的项目,而NVIDIA在这些项目中皆表现优异。其中一项是推荐系统测试,这也是越来越受欢迎的AI应用;另一项为采用BERT的对话式AI,采用当前复杂度首屈一举的类神经网络模型。而强化学习测试则采用Mini-go以及19×19全尺寸Go机板,是这次其中最复杂的测试项目,涉及从游戏到训练等种类众多的处理作业。
客户采用NVIDIA AI来执行对话式AI与推荐系统。
许多企业已从这些AI策略应用中获得性能带来的益处。
阿里巴巴在11月创下380亿美元的双十一销售记录,而搭载NVIDIA GPU的推荐系统所提供的每秒查询次数,较搭载CPU的推荐系统提升100多倍。此外,对话式AI协助从金融到医疗等诸多产业提升运营绩效,逐渐成为业界广泛讨论的焦点。
NVIDIA不仅提供各界执行这些高强度工作所需的性能,同时简化采用新技术的流程,使其简单易用。
今年5月,NVIDIA宣布推出两个应用框架,分别是用于对话式AI的Jarvis,以及用于推荐系统的Merlin。Merlin内置用于最新MLPerf测试结果的HugeCTR训练框架。
这些框架是针对汽车 (NVIDIA DRIVE)、医疗 (Clara)、机器人 (Isaac) 以及零售/ 智慧城市 (Metropolis) 等市场中,不断增长的应用程序框架的一部分。
NVIDIA应用程序框架协助企业简化从开发到部署的AI流程。
NVIDIA针对在Selene上的系统进行MLPerf测试,Selene是基于DGX SuperPOD的内部集群,其针对大规模GPU集群的公开参考架构可于数周内完成部署。该架构扩展DGX POD采用的设计原理与最佳运用,以解决当今最具挑战性的AI难题。
Selene最近于Top500排行榜中首次亮相,成为全美最快的工业系统,并具备超过1 exaflops的AI性能。此外,Selene也是Green 500排行榜中,全球排名第二的节能系统。
许多客户已采用这些参考架构组建自己的DGX POD与DGX SuperPOD。其中包括美国最快的学术用AI超级计算机HiPerGator,未来佛罗里达大学 (University of Florida) 将以此系统作为推动跨学科AI计划的基础。
同时,顶尖的超级计算机中心阿贡国家实验室 (Argonne National Laboratory) 也正采用DGX A100研究对抗COVID-19疫情的方法。阿贡国家实验室是首批六间高性能计算中心中,率先采用A100 GPU的实验室。
NVIDIA DGX POD被广泛采用。
DGX SuperPOD已为汽车业的大陆集团(Continental)、航空航天业的洛克希德•马丁(Lockheed Martin),以及提供云计算服务的微软(Microsoft) 等公司带来商业绩效。
这些系统皆已上线运行,这要感谢广泛的生态系统合作伙伴对于NVIDIA GPU与DGX系统的支持。
提交测试成果的九家公司中,有七家采用NVIDIA GPU,包含云计算服务供应商如阿里巴巴、Google、腾讯,以及服务器制造商如戴尔科技、富士通、浪潮集团,显示出NVIDIA生态系统合作伙伴的优势。
合作伙伴提交采用NVIDIA AI平台的成果。
许多合作伙伴通过采用NVIDIA软件中心NGC上的容器,以及公开使用的框架来提交成果。
MLPerf合作伙伴代表的是近二十家云计算服务供应商与OEM厂商组成的生态系统,其中包含采用NVIDIA A100 GPU的线上执行实例、服务器及PCIe卡的产品与计划。
许多被NVIDIA与其合作伙伴用以进行最新MLPerf基准测试的软件,今日已在NGC上开放给客户使用。
NGC内置多种GPU优化容器、软件脚本、预先训练的模型,以及软件开发组件 (SDK)。它们让资料科学家与开发者在TensorFlow与PyTorch等热门框架上加速其AI工作流程。
许多组织正采用容器以加速获得关键商业绩效,而这也是最为重要的基准。