Nvidia力推BlueField多用途运算卸载技术与DOCA软件开发组件

在现行的服务器应用方式其中,网络适配器(NIC)纯粹只是用于提供网络连接能力,以及网络流量的卸载处理,可减轻中央处理器的负担,无论是服务器虚拟化/软件定义网络、存储、安全、IT基础架构管理等虚拟机应用,以及容器化应用,都大幅依赖中央处理器。

而Nvidia在2020年3月完成并购Mellanox,正式取得以太网络、InfiniBand、SmartNIC、DPU(Data Processing Unit,资料处理器)等技术,随即开始大张旗鼓布局高性能计算与企业IT基础架构应用,例如,在5月举行的GTC Digital线上用户大会上,积极主推数据中心规模的加速运算(Data-Center-Scale Accelerated Computing),当时发布了A100 GPU、AI集成应用设备DGX A100、结合GPU与SmartNIC的边缘运算加速卡EGX A100、支持Omniverse协同设计平台的RTX专业绘图处理共享服务器。

到了本周举行的GTC秋季大会,Nvidia发布了多款DPU产品,分别是:BlueField-2、DOCA、BlueField-2X。

在Mellanox旗下的多种产品其中,大家较熟悉的是以太网络与InfiniBand的网络适配器、交换机、互联缆线与收发器,在超大规模数据中心、高性能计算等领域,均占有一席之地,近期较受各界瞩目的技术应用,则是对于NVMe、RDMA、GPUDirect、25GbE,以及SmartNIC的支持。因此,我们也曾陆续报道了ConnectX-6 Dx与ConnectX-6 Lx等两张网络适配器产品。

不过,Mellanox还有一个系列产品迟迟未受到各界关注,那就是BlueField。这系列产品是在2016年6月问世,结合了他们的ConnectX网络卸载技术、64位元Armv8处理器,当时并购EZchip公司而得到的Tilera互联技术,随后陆续主打NVMe over Fabrics(NVMe-oF)、SmartNIC等应用,对应存储与网络层面的需求,并以可程序化处理器(Programmable Processors)或可程序化适配器(Programmable Adapter)来称呼,并强调其具有系统单芯片(SoC)的特性。

到了2018年,Mellanox改以DPU来称呼BlueField。例如,他们在一篇探讨SmartNIC博客文章其中,提到产品实例类型时,将其区隔成ASIC、FPGA、SoC等三种,而这些类型皆可对应到该公司当时的代表产品,分别是ConnectX-5、Innova-2 Flex、BlueFileld。

不过,SmartNIC是因为5G和边缘运算应用崛起,于是,从去年起受到各界关注,开始拓展许多使用场景,至于性能更为强大的DPU,在实际应用方式上,似乎还是很难与SmartNIC有所区隔,直到今年Nvidia并购Mellanox之后,终于帮这类产品找到明确的使用定位,而且还能搭配企业级系统软件平台,实用性有望大增。

这款DPU产品其实早在VMware去年8月底举办的VMworld大会期间,就与ConnectX-6 Dx一起亮相,到了今年2月,Mellanox宣布BlueField-2的I/O处理器(I/O Processing Unit,IPU)即将推出,而在本次的GTC大会期间,Nvidia创办人暨首席执行官黄仁勋正式以该公司产品来介绍它,并以“芯片上的数据中心基础架构(Data Center Infrastructure-on-a-Chip)”来形容它。BlueField-2包含了8颗64位元Arm A72核心,以及ConnectX-6 Dx的网络接口芯片,可提供2个100 Gb/s的以太网络端口或InfiniBand端口,而且是采用PCIe 4.0的I /O接口,每秒可处理0.7次AI运算(0.7 TOPS)。

在架构上,黄仁勋特别提到,BlueField-2能够进行安全的运算处理,将应用程序范围,从IT基础设施的范围间隔开来,可存储加密密钥,并且加速SHA -256认证与加密协议处理,而且能够执行正规表达式与深度封包检测,可用于应用程序识别、入侵防护、网站应用程序防火墙,以及从频外(out-of-band)角度来进行的恶意软件侦测,此外,它也可以支持NVMe存储应用,能用在可伸缩式区块存储(Elastic Block Storage)、区块存储加密、重复资料删除、压缩。

Nvidia认为,若单纯使用中央处理器,同时提供上述这些功能且要达到100 Gbps的性能,可能会需要用到125颗处理核心才足够。

黄仁勋强调,BlueField-2使用了70亿个晶体管,而且是一套可程序化的数据中心芯片(Programmable data center on-a-chip),他承诺将Nvidia长期提供支持。

这是专为BlueField而设的软件开发组件(SDK),其中集成了多种开放API,像是用于网络的DPDK、用于存储的SPDK、用于封包处理的P4(编按:这是一种用来控制封包转送层的程序语言,见于路由器、交换机等网络设备),以及Nvidia发展的CUDA、AI软件应用。

相较于BlueField-2,BlueField-2X多了一颗Ampere架构的Nvidia GPU,每秒可处理60次AI运算(60 TOPS),能以软件的形式执行多种安全防护功能,像是异常侦测、即时流量分析(线速)、主机恶意活动检测、动态安全调度指挥、即时线上分析已上传的视频,而且,未来推出的BlueField-4就会直接采用这样集成的架构。

如何让DPU能够支持更多应用,软件支持的发展将是关键。也因此,黄仁勋花了一些时间介绍DOCA软件开发组件。他特别将他们长期发展的CUDA来类推DOCA具有同样的性质,并将其称为可程序化数据中心基础设施处理器架构(Programmable data center infrastructure processor architecture),开发者可用它来撰写各种IT基础设施的应用程序,像是软件定义网络系统、软件定义存储系统、网络安防护系统、遥测(远程集中管理),以及目前尚未开发出来的网络内运算(In-Network Computing)应用程序。

他强调,DOCA将完全兼容与无缝集成到所有主要的操作系统,以及Hypervisor,而基于DOCA所撰写而成的应用程序,可执行在BlueFileld-2,以及后续的BlueField版本。

接着,关于Nvidia与VMware上周在VMworld大会期间宣布合作,例如Project Monterey,黄仁勋也在此重申此事,因为其中的关键正是DPU。他说,“我们要将VMware移植到BlueField上,诚如BlueField是数据中心基础设施的处理器,而VMware是数据中心基础设施的操作系统,我们的合作将重新定义数据中心。”他强调,Nvidia能将虚拟化、网络、存储、安全等工作处理,卸载到BlueField,实践分布式的零信任安全运算环境,在双方的努力之下,能让全球三到四千万台服务器的执行性能与安全防护程度,获得大跃进。

为了印证BlueField在卸载、加速与隔离等层面的成效,他们播放了一段视频来比较差异。其中呈现的是汽车制造大厂Vovlo实际设计车辆构造的环境,他们通过虚拟化的环境,来进行产品生命周期(PLM)的CAD资料内容操作,在RTX GPU之上执行的OmniVerse提供逼真的光线路径关注处理,VMware提供虚拟化、软件定义堆栈架构,以及虚拟工作站应用,基于这样的架构,可具备良好的网络安全防护能力,而对于大量资料的截取、流媒体、加载,用于画面的渲染,也都相当顺畅。

企业可以选择纯粹采用中央处理器的服务器架构,或是采用搭配DPU的服务器架构,让安全、存储、网络的负载都卸除到BlueField其中执行,来实现上述配置。然而,若这两种系统设计都面临分布式拒绝服务攻击(DDoS),就会发生不同的状况──前者的服务器端处理器使用率将大幅增加,设计者操作CAD内容的各种交互,将会产生严重延迟,因为底层的服务器端需同时应对攻击者的网络流量请求;后者的使用体验维持不变,服务器端处理器使用率无明显暴增,设计者操作CAD内容仍然很顺畅。

基于上述的展示,以及两家公司的合作,黄仁勋认为,他们一起拥有了可程序化数据中心基础设施平台的一些部分,正如Nvidia握有BlueField-2资料处理器、DOCA软件开发组件,VMware掌控了操作系统平台。

他也预告,如今的BlueField-2只是开端,目前已经能提供样品,BlueField-3处于完成阶段,而BlueField-4正在加紧脚步开发,在增添了CUDA与Nvidia AI应用技术之后,有望更快实现网络内运算的愿景。他强调,BlueField系列将彼此兼容,并且采用单一软件应用架构,也就是DOCA。

而在运算性能与网络速度的部分,黄仁勋也披露BlueField在2020年到2023年的发展蓝图,届时BlueField的运算吞吐量将提升1,000倍,网络速度也将从现行的200 Gbps增加到400 Gbps。

为了推动、拓展DPU的应用,Nvidia也找来许多厂商与其合作。举例来说,单是VMware的Project Monterey,他们旗下的软件定义数据中心平台VMware Cloud Foundation(VCF),将会支持SmartNIC/DPU技术,他们也将针对VCF进行重构,实现服务器处理的分散运行,而且可支持裸机形态的服务器部署。在这样的架构下,应用程序的工作负载可执行在一台实体服务器上,所耗用的FPGA硬件加速资源则是坐落在其他台实体服务器。同时,ESXi虽然执行在SmartNIC/DPU之上,企业仍然可以使用单一管理框架来控制所有运算基础设施,并将网络、存储、安全防护等功能,从原本需集中在主要的服务器执行,改而释放到其他地方(SmartNIC/DPU)执行,而这些功能的漏洞修补与升级作业,可独立于服务器本身之外来执行。

Project Monterey的进行,主要成员除了VMware、Nvidia,还有英特尔、Pensando Systems,戴尔科技集团、HPE、联想等服务器厂商也将基于这个计划,推出集成系统。

若单就BlueField- 2而言,Red Hat、Canonical(Ubuntu)这两大Linux操作系统与云计算软件平台开发商,也计划或宣布支持BlueField-2。同时,网络防火墙厂商Check Point也宣布集成BlueField-2,该公司旗下的Infinity Next Nano Agent代理程序软件搭配DPU之后,可在不需损耗服务器CPU资源的状态下,针对服务器进行微分段(Micro-Segmentation t)等多种安全处理运算。

在硬件服务器的部分,Nvidia也号召多家厂商与其合作,华硕、Atos、戴尔科技集团、富士通、技嘉、新华三(H3C)、浪潮(Inspur)、联想、广达/云达、Supermicro等公司,都计划推出集成Nvidia DPU的企业级服务器。