AWS机器学习服务Amazon SageMaker开放使用EC2最强GPU执行实例

AWS机器学习服务Amazon SageMaker现在开始能够使用，EC2中最强的P3执行实例p3dn.24xlarge，其专为分布式机器学习训练和高性能计算，提供比其他P3执行实例多一倍的GPU内存，而且vCPU也多了50％，可以大幅加速大型且复杂的分布式模型训练工作。

AWS提到，深度学习的发展突飞猛进，可以应用在侦测皮肤癌或是开发自动驾驶汽车上，具有从大量非结构化数据，截取特征并构建复杂模型的能力，但训练神经网络需要大量的运算能力，而这也使得开发者转而使用GPU加速运算，AWS在Amazon SageMaker上提供了EC2的P2以及P3执行实例选项，供有GPU运算需求的用户使用。

这次在Amazon SageMaker服务加入的P3dn.24xlarge，是P3系列中最快的执行实例，其搭载了8个Nvidia V100 GPU，和96个AWS订制的第二代英特尔Xeon可扩展vCPU，存储使用1.8 TB的本机NVMe型SSD，AWS提到，由于P3dn.24xlarge提供达100 Gbps的网络传输量，因此开发人员能够有效的利用16、32或64个P3dn.24xlarge执行实例，进行分布式训练，以缩短模型训练时间。

除了P3dn.24xlarge提供足够的网络之外，其使用的V100 Tensor Core GPU以及32 GB的内存，都能支持开发人员训练更大型的机器学习模型，并处理更大批次的数据。目前P3dn执行实例可用于Amazon SageMaker服务，仅在美东北维吉尼亚还有美西俄勒冈区域开放，其他区域还要再等一等。