Google公布Cloud TPU v4 AI芯片技术,号称性能更快、更节能

Google昨(6)日公布用于云计算的Cloud TPU v4技术细节,号称性能更快,且更节能。

TPU v4是Google于2021年宣布,专门用于执行机器学习的AI芯片,是Google第5代Google特殊领域架构(domain specific architecture,DSA)及第3代用于ML模型的超级计算机平台。Google TPU架构长Norm Jouppi及Google杰出工程师David Patterson本周在一篇论文中说明TPUv4技术细节。Google工程师指出,拜互联技术及特殊领域加速器(domain specific accelerator,DSA)技术之赐,TPUv4的机器学习系统(ML)性能扩展速度较前一代TPUv3提升近10倍,能源效率则为现代ML DSA的2、3倍,而二氧化碳排放则比一般本地部署的数据中心减少20倍,是执行大型语言模型的最理想平台。

它每芯片性能是TPU v3 2.1倍,每瓦性能提高2.7倍。意味着TPU v4芯片用电率仅200瓦。每颗TPU v4包含SparseCores,SparseCores为一种资料流处理器,可使深度学习模型嵌入(embeddings)执行速度提升5到7倍,但TPU v4裸晶(die)面积仅5%。借由Sparsecores,搭载TPUv4的系统可用于执行搜索、广告、YouTube和Google Play的AI内容推荐。

TPU v4也是第一个部署可配置OCS的超级计算机平台。OCS可动态配置互联拓扑,以提升扩展性、可用性、利用率、模块化、安全、性能及用电效率。和Infiniband相比,OCS及其底层光纤组件,系统成本不到5%,用电小于3%。

TPU v4从2020年用于Google Cloud,搭载TPUv4的超级计算机提供Exascale等级的ML性能,4096个芯片以Google自有光纤回路交换(optical circuit switch,OCS)互联。

此外,Google宣称,以类似大小的系统来看,使用TPU v4的系统比Graphcore IPU Bow的系统快4.3到4.5倍,也比搭载Nvidia A100的系统快1.2到1.7倍,用电却少1.3到1.9倍。而Google Cloud使用TPU v4,和本地部署数据中心的当代DSA相较,能耗量少5倍,排碳量更是仅1/20。

Google Cloud去年宣布其位于奥克拉荷马州机器学习集群使用TPU v4,总和运算性能峰值达9 exaflops,Google声称是已知最大的,且使用90%非碳能源的ML运算中枢。Google并宣布,提供AI文本生成图片服务的AI创业公司Midjourney已经利用Cloud TPUv4来训练其第4版模型。