AWS机器学习服务Amazon SageMaker现在开始能够使用,EC2中最强的P3执行实例p3dn.24xlarge,其专为分布式机器学习训练和高性能计算,提供比其他P3执行实例多一倍的GPU内存,而且vCPU也多了50%,可以大幅加速大型且复杂的分布式模型训练工作。
AWS提到,深度学习的发展突飞猛进,可以应用在侦测皮肤癌或是开发自动驾驶汽车上,具有从大量非结构化数据,截取特征并构建复杂模型的能力,但训练神经网络需要大量的运算能力,而这也使得开发者转而使用GPU加速运算,AWS在Amazon SageMaker上提供了EC2的P2以及P3执行实例选项,供有GPU运算需求的用户使用。
这次在Amazon SageMaker服务加入的P3dn.24xlarge,是P3系列中最快的执行实例,其搭载了8个Nvidia V100 GPU,和96个AWS订制的第二代英特尔Xeon可扩展vCPU,存储使用1.8 TB的本机NVMe型SSD,AWS提到,由于P3dn.24xlarge提供达100 Gbps的网络传输量,因此开发人员能够有效的利用16、32或64个P3dn.24xlarge执行实例,进行分布式训练,以缩短模型训练时间。
除了P3dn.24xlarge提供足够的网络之外,其使用的V100 Tensor Core GPU以及32 GB的内存,都能支持开发人员训练更大型的机器学习模型,并处理更大批次的数据。目前P3dn执行实例可用于Amazon SageMaker服务,仅在美东北维吉尼亚还有美西俄勒冈区域开放,其他区域还要再等一等。