特斯拉(Tesla)于CVPR 2021大会上宣布,推出专用于训练自动辅助驾驶与自动驾驶功能的深度神经网络超级计算机;该集群使用720个节点,每个节点搭载8个NVIDIA A100 Tensor核心GPU (共5,760个GPUs),实现1.8 exaflops的运算性能。
特斯拉在本次大会上也披露自家自动驾驶汽车的训练过程。在训练拓程中,特斯拉以“影子模式(Shadow mode)”运行的深度神经网络,在不实际控制车辆的情况下,会在汽车的行驶过程中悄悄进行感知并做出预测。此时这些预测内容与错误或误判的情况会被记录下来,接着,特斯拉的工程师使用这些执行实例,创建一个复杂且多样场景的训练资料集,让深度神经网络(DNN)更加完善。
为此,特斯拉收集了约一百万个以36 FPS录制的十秒钟画面,累计出高达1.5PB的资料量。接着,深度神经网络在数据中心反复执行这些场景,直到未出现任何错误。最后,再将训练完的深度学习神经网络送回车辆,并再次展开这个过程。
GPU集群是特斯拉垂直集成自动驾驶的其中一部分。 (Source:NVIDIA)
特斯拉人工智能部门资深总监Andrej Karpathy表示,这种以大量资料来训练深度神经网络的方式,需要使用“庞大的运算量” ,这也是为什么特斯拉使用高性能的A100 GPU来创建和部署当前的超级计算机。
NVIDIA则说明,采用NVIDIA Ampere架构的A100 GPU,其性能表现较前一代提升20倍,且可以分割多达七个GPU执行实例,并依照不断变化的需求进行调整。GPU集群是特斯拉垂直集成自动驾驶的其中一部分,其通过超过百万辆在路上行驶的汽车来完善和创建新功能,并持续改进。
据悉,特斯拉目前部署的深度神经网络结构,可以让二十名工程师同时在一个网络上工作,并区隔不同的功能以进行同步开发。接着,这些深度神经网络能以较过去快速反复运算的速度还要更快的方式,运行训练资料集。
Karpathy指出,计算机视觉是特斯拉进行研发及实现自动辅助驾驶的基本要素。要让它真正发挥作用,就得训练一个大型的神经网络并进行大量实验。这正是特斯拉在运算领域投入许多心力和资金的原因。
(首图来源:特斯拉)