Google云计算K8s服务Autopilot模式添加支持GPU和超大型Pod

Google更新Kubernetes服务GKE全托管操作模式Autopilot,现在加入支持GPU,使用户能够将其用于机器学习训练和推理等工作负载上,另外,Google还在GKE Autopilot提供更大型的Pod,供用户执行大规模运算。

不少工作负载,像是机器学习模型的训练和推理等任务,都需要使用GPU,而Google通过在Autopilot添加Nvidia T4和A100 GPU,以进一步支持这类工作负载,使用户在Autopilot全托管的操作环境中,也可以执行机器学习训练、推理、视频编码和各种需要GPU的工作负载。

在Autopilot上执行GPU工作负载的优点是,用户仅需要指定GPU需求,剩下的便由Autopilot处理,无需单独安装驱动程序,也不需要担心在GPU节点上却执行非GPU Pod,Autopilot会自动处理GPU和Pod配置,且因为使用Autopilot,用户仅需要针对Pod执行时间付费,因此当没有工作负载运行GPU Pod终止,相关费用也会停止计算。

用户可以请求多个T4和A100 GPU预定义数量,并使用CPU和内存默认值,或在特定范围内自订。Autopilot会避免在GPU节点上运行非GPU Pod,同时自动配置符合要求的GPU节点,包括需要的Nvidia驱动程序。

另外,Autopilot现在还推出平衡运算类别,提供更大型的Pod,支持高达222个vCPU和851 GiB的Pod资源。Autopilot原本就有提供28个vCPU的大型Pod,以及多达54个vCPU的横向扩展运算类别Pod,但是当用户还需要更多计算资源时,便可以使用最新推出的平衡运算类别Pod。