Google公布Cloud TPU v4 AI芯片技术，号称性能更快、更节能

Google昨（6）日公布用于云计算的Cloud TPU v4技术细节，号称性能更快，且更节能。

TPU v4是Google于2021年宣布，专门用于执行机器学习的AI芯片，是Google第5代Google特殊领域架构（domain specific architecture，DSA）及第3代用于ML模型的超级计算机平台。Google TPU架构长Norm Jouppi及Google杰出工程师David Patterson本周在一篇论文中说明TPUv4技术细节。Google工程师指出，拜互联技术及特殊领域加速器（domain specific accelerator，DSA）技术之赐，TPUv4的机器学习系统（ML）性能扩展速度较前一代TPUv3提升近10倍，能源效率则为现代ML DSA的2、3倍，而二氧化碳排放则比一般本地部署的数据中心减少20倍，是执行大型语言模型的最理想平台。

它每芯片性能是TPU v3 2.1倍，每瓦性能提高2.7倍。意味着TPU v4芯片用电率仅200瓦。每颗TPU v4包含SparseCores，SparseCores为一种资料流处理器，可使深度学习模型嵌入（embeddings）执行速度提升5到7倍，但TPU v4裸晶（die）面积仅5%。借由Sparsecores，搭载TPUv4的系统可用于执行搜索、广告、YouTube和Google Play的AI内容推荐。

TPU v4也是第一个部署可配置OCS的超级计算机平台。OCS可动态配置互联拓扑，以提升扩展性、可用性、利用率、模块化、安全、性能及用电效率。和Infiniband相比，OCS及其底层光纤组件，系统成本不到5%，用电小于3%。

TPU v4从2020年用于Google Cloud，搭载TPUv4的超级计算机提供Exascale等级的ML性能，4096个芯片以Google自有光纤回路交换（optical circuit switch，OCS）互联。

此外，Google宣称，以类似大小的系统来看，使用TPU v4的系统比Graphcore IPU Bow的系统快4.3到4.5倍，也比搭载Nvidia A100的系统快1.2到1.7倍，用电却少1.3到1.9倍。而Google Cloud使用TPU v4，和本地部署数据中心的当代DSA相较，能耗量少5倍，排碳量更是仅1/20。

Google Cloud去年宣布其位于奥克拉荷马州机器学习集群使用TPU v4，总和运算性能峰值达9 exaflops，Google声称是已知最大的，且使用90%非碳能源的ML运算中枢。Google并宣布，提供AI文本生成图片服务的AI创业公司Midjourney已经利用Cloud TPUv4来训练其第4版模型。