Google揭晓最新AI超级计算机,声称性能胜过Nvidia

Nvidia在AI模型训练和产品部署具有主导地位,市场占有率超过90%,目前最受瞩目的AI模型及其产品即是OpenAI的ChatGPT,结合大量计算机设备和数千个Nvidia A100芯片来训练模型。而自2016年以来,Google一直在设计和部署称为Tensor Processing Units(TPU)的自研AI芯片,现在有进一步的成果。

Google 4日发布论文,公开其中一部AI超级计算机的详细资讯,声称比竞争对手Nvidia的系统运算更快、功耗更低。

Google已经构建一套系统,其中包括超过4,000个TPU,并结合执行和训练AI模型的定制化零件,这部以TPU为基础的AI超级计算机称为TPU v4。它从2020年开始运行,用于训练自家PaLM模型超过50天。

“在性能、可扩展性、可用性上TPU v4成为大型语言模型的主力”,Google研究人员表示,TPU v4能比Nvidia A100组成类似大小的系统,运算快1.2~1.7倍,功耗低1.3~1.9倍。不过,Google的TPU并未与Nvidia最新AI芯片H100进行比较,因为后者推出不久,且采用更先进的制程。

另一方面,由学术界和产业人士组成的人工智能领袖联盟制定出MLPerf基准,在5日公布全产业AI芯片测试结果和排名。对此Nvidia首席执行官黄仁勋表示,Nvidia H100的测试结果明显优于上一代。

“今日MLPerf 3.0突显出以Hopper架构为基础的H100,其性能是A100的4倍”,黄仁勋在官方博客写道,并认为下一阶段的生成式AI(Generative AI)需要新的基础设施,以训练高性能的大型语言模型。

AI所需的大量算力是相当昂贵的,于是Nvidia、Google等产业人士大多专注于开发新的芯片、光学连接零件等,或从软件技术方面着手,以减少大量运算所需的功耗。

Google被认为是AI领域的主要先驱,旗下研究人员在过去10年已经取得重要进展。然而随着OpenAI推出ChatGPT,引爆人工智能热潮,部分人士认为Google AI技术商业化方面明显落后,这也迫使Google现在竞相发布产品并试图证明没有挥霍领先优势。

(首图来源:shutterstock)