关于运算形态的公有云服务提供,AWS的EC2发展至今已长达14年之久,每年新推出的执行实例(instance)服务,往往反映了当时的运算技术发展重点,而在今年的全球用户大会上,AWS基于他们自行设计的硅芯片,以及其他厂商最新发布的中央处理器(CPU)、图形处理器(GPU),也发布新的执行实例服务。
举例来说,AWS去年发布他们设计的Arm架构处理器Graviton2,以及采用这个运算技术的多个执行实例,像是一般用途类型的M6g与M6gd,运算密集型C6g与C6gd,内存密集型R6g与R6gd,而在今年年中,这些服务都已陆续上线提供。而在12月,AWS宣布推出新的执行实例C6gn,搭配100 Gbps网络连接性能。
在x86架构处理器的部分,AWS在今年12月,基于英特尔第二代Xeon Scalable处理器,发布M5zn、D3/D3en、R5b等3套执行实例服务。其中的M5zn,属于一般用途的执行实例,主要特色是可针对单绪执行提供最高性能,处理核心运行时脉可达到4.5GHz;针对存储应用的D3/D3en,可搭配相当巨大的硬盘存储容量,单台执行实例最大可配置336TB;R5b属于可搭配大量内存的执行实例服务系列,与区块存储EBS之间的访问带宽,最大可达到60Gbps,并且提供26万IOPS的存储性能,以此支持超大型数据库工作负载。
关于搭配图形处理器的执行实例服务,AWS基于AMD Radeon Pro V520的图形处理器,以及AMD第二代EPYC处理器,在12月推出G4ad,可针对图形处理密集型应用,提供更理想的性价比。
推出多款自行设计的芯片,支持高性能与低成本的应用需求
在2013年,AWS开始研发第一代Nitro芯片,到了2015年,他们并购芯片制造商Annapurna Labs,于是,AWS除了持续发展Nitro硬件系统架构,也开始研发Arm架构芯片Graviton。2017年AWS正式公开Nitro系统架构,2018年11月发布基于Graviton的执行实例服务A1,以及机器学习推论芯片Inferentia。
Graviton提供性价比更高的通用运算
在2019年底,AWS基于第二代Graviton芯片,推出支持Arm架构的执行实例服务,像是:M6g、C6g、R6g,以及搭配NVMe SSD的C6gd、M6gd、R6gd,强调相较于x86架构的执行实例服务,性价比更好(提升40%)。
今年AWS在自研芯片的应用上,又有哪些进展?5月M6g正式推出,6月C6g与R6g上市,7月M6gd、C6gd、R6gd也开始提供。9月,AWS宣布推出另一个Arm执行实例服务T4g,支持性能需求爆涨型(Burstable Performance)负载,可在短时间内迅速提供大量运算能力。
在12月初的全球用户大会期间,AWS又发布可搭配100Gbps超大网络带宽的C6gn,预计将于稍后正式推出。而且,C6gn沿袭了AWS现有Arm架构执行实例服务的特色,以及性能成本效益,但拥有更大的网络带宽(M6g、C6g、R6g最大可配置25Gbps)。
在此之前,他们原本就有强调网络优化用途的执行实例服务,如M5n、C5n、R5n,可支持网络密集型工作负载,例如,防火墙、路由器、负载均衡、视频转码、资料分析等应用需求,让用户可运用超大型的带宽吞吐量,以及封包传输性能,执行这些网络处理。但这些执行实例的最大封包传输率都面临局限,用户甚至需启动多个执行实例,才能得到更大封包传输性能。
而即将问世的C6gn,不仅与M5n、C5n、R5n一样,用户可选择配置100 Gbps的执行实例,与区块存储服务EBS之间的带宽,可提供到38 Gbps(M5n、C5n、R5n最高可提供19,000 Mbps)。另外,在封包传输性能上,相较于上述执行实例服务,C6gn可再提升40%。
AWS设计了基于Arm架构的处理器Graviton,目前他们运用第二代芯片,也就是Graviton 2,推出了多个执行实例服务,可分别针对一般用途、内存密集型、运算密集型、超大型网络带宽,以及性能暴涨等使用场景。
Inferentia提供低成本推论加速应用
在2018年11月,AWS发布自行设计的Inferentia硬件运算芯片,每颗芯片可提供数百TFLOPS的运算性能,搭配这款芯片的单个执行实例,可提供数千TFLOPS的运算性能。
隔年12月,他们基于这颗芯片,推出用于机器学习推论的执行实例服务Inf1,可提供2000 TOPS的运算性能,并强调这是市面上最便宜的机器学习推论执行实例。相较于搭配GPU的G4执行实例,Inf1可提供3倍的推论处理吞吐量,以及减少4成的单位推论成本,至于单颗Inferentia芯片的运算性能,他们则表明是128 TOPS(INT8),以及64TOPS(FP16、BF16混合精度)。
而在组态配置与部署方式上,用户可选择搭配1个、4个或16个Inferentia芯片的Inf1执行实例,而且可搭配AWS专为深度学习所集成的AMI软件映像使用。这些映像内置当时刚推出的AWS Neuron SDK,这套软件开发组件提供多种指令,IT人员可借此在Inferentia编译、调校、执行机器学习模型
AWS也预告,可在多种托管服务里面搭配使用Inf1,像是专攻机器学习应用的SageMaker,以及Kubernetes托管服务、EKS容器调度服务ECS。
到了今年,上述三个托管服务陆续支持Inf1。9月AWS宣布两个自家案例。
首先,就是母公司Amazon的Alexa语音助理应用服务团队,已将大量基于GPU的机器学习推论工作负载(80%的语音回应处理作业),迁移到Inf1。
他们得到了哪些成效?AWS表示,各层面的延迟度降低25%,若单就文本转语音的工作负载而言,以GPU执行实例为基准,改用Inf1后,成本降低30%。
另一个采用Inf1的案例,是AWS的图片与视频识别服务Rekognition。执行物体分类这种机器学习模型时,若以交由GPU执行实例来处理为基准,改用Inf1后,延迟度降至1/8,吞吐量提升1倍
关于Inferentia的硬件设计架构,AWS今年也首度透露更多细节。他们表示,每颗Inferentia芯片包含4个名为NeuronCore的核心,而每个核心实例脉动数组(systolic array)矩阵乘法引擎,可大幅提升卷积、变形这类典型深度学习处理的速度。
Trainium锁定机器学习训练应用需求
今年AWS全球用户大会期间,该公司首席执行官Andy Jassy宣布,他们将在2021年推出另一款硬件芯片,名为Trainium,专门用于机器学习的训练,他们希望在云计算服务环境其中,提供更具成本效益的训练应用,可针对任何机器学习执行实例,提供TFLOPS等级的处理性能。
而在软件搭配的部分,Trainium能支持TensorFlow、PyTorch、MXNet等深度学习框架,并可继续采行原本专用于Inferentia的软件开发组件Neuron。
至于结合云计算服务供应的形式上,AWS预计将在EC2提供搭配这套机器学习训练芯片的执行实例,或是在SageMaker里面提供。
针对机器学习的应用需求,AWS提供多种执行实例服务,除了搭配英特尔的中央处理器,以及Nvidia的图形处理器,他们也采用自行研发的加速芯片Inferentia,以及明年即将推出的Trainium。