Google揭晓最新AI超级计算机，声称性能胜过Nvidia

Nvidia在AI模型训练和产品部署具有主导地位，市场占有率超过90%，目前最受瞩目的AI模型及其产品即是OpenAI的ChatGPT，结合大量计算机设备和数千个Nvidia A100芯片来训练模型。而自2016年以来，Google一直在设计和部署称为Tensor Processing Units（TPU）的自研AI芯片，现在有进一步的成果。

Google 4日发布论文，公开其中一部AI超级计算机的详细资讯，声称比竞争对手Nvidia的系统运算更快、功耗更低。

Google已经构建一套系统，其中包括超过4,000个TPU，并结合执行和训练AI模型的定制化零件，这部以TPU为基础的AI超级计算机称为TPU v4。它从2020年开始运行，用于训练自家PaLM模型超过50天。

“在性能、可扩展性、可用性上TPU v4成为大型语言模型的主力”，Google研究人员表示，TPU v4能比Nvidia A100组成类似大小的系统，运算快1.2~1.7倍，功耗低1.3~1.9倍。不过，Google的TPU并未与Nvidia最新AI芯片H100进行比较，因为后者推出不久，且采用更先进的制程。

另一方面，由学术界和产业人士组成的人工智能领袖联盟制定出MLPerf基准，在5日公布全产业AI芯片测试结果和排名。对此Nvidia首席执行官黄仁勋表示，Nvidia H100的测试结果明显优于上一代。

“今日MLPerf 3.0突显出以Hopper架构为基础的H100，其性能是A100的4倍”，黄仁勋在官方博客写道，并认为下一阶段的生成式AI（Generative AI）需要新的基础设施，以训练高性能的大型语言模型。

AI所需的大量算力是相当昂贵的，于是Nvidia、Google等产业人士大多专注于开发新的芯片、光学连接零件等，或从软件技术方面着手，以减少大量运算所需的功耗。

Google被认为是AI领域的主要先驱，旗下研究人员在过去10年已经取得重要进展。然而随着OpenAI推出ChatGPT，引爆人工智能热潮，部分人士认为Google AI技术商业化方面明显落后，这也迫使Google现在竞相发布产品并试图证明没有挥霍领先优势。

（首图来源：shutterstock）