在看完了GeForce RTX 4090的性能测试后,接着我们就继续来分析全新的Ada Lovelace绘图架构,深入了解其改进之处。
首先我们以GeForce RTX 4090的AD102 GPU来说明Ada Lovelace绘图架构的运算单元组成方式。
完整的AD102具有12组图像处理集群(Graphics Processing Clusters,GPC)、72组材质处理集群(Texture Processing Clusters,TPC)、144组流媒体多重处理器(Streaming Multiprocessors,SM),总共有18432组CUDA核心。至于内存部分,则是由12组宽度为32bit的控制器组成总宽度为384bit的内存信道,此外还有独立的光流加速器(Optical Flow Accelerator),以及NVENC编码器、NVDEC解码器各3组,并通过PCIe Gen 4×16总线连接至主板。
NVIDIA也在Ada Lovelace白皮书中提到,每组SM中具有2个FP64运算核心(总量为288个),由于FP64资料格式程序的执行效率仅有FP32的1/64,因此这些少量的FP64运算核心目的仅为确保FP64程序能够正常运行。
与前代架构相比,Ada Lovelace的SM具有2倍的运算性能与电力效率,因此能在不增加电力消耗的前提下,达到相同性能输出,或是在消耗相同电力的情况下,将性能输出提升2倍。
而实际搭载于GeForce RTX 4090的AD102则屏蔽1组GPC,因此总共少了6组TPC、12组SM、1536组CUDA核心,详细规格请参考下表。此外GeForce RTX 4090也仅保留2组NVENC编码器与1组NVDEC解码器,但内存控制器与光流加速器则无异动。
(若手机版浏览器无法显示表格,请点我看完整表格)
第8代NVENC x2
完整的AD102具有12组GPC,以及NVENC编码器、NVDEC解码器各2组。
GeForce RTX 4090的AD102则屏蔽部分组件,变成只有11组GPC,也仅保留2组NVENC编码器与1组NVDEC解码器。
SM的细部组成如图所示。需要注意的是文中提到的FP64运算核心并未搭建于图中。
在软件支持的情况下,GeForce RTX 4090的2组NVENC编码器可以同时运行,进行即时8K编码转档。
根据官方提供的测试数据,GeForce RTX 4090的编码速度比GeForce RTX 3090 Ti高出1倍以上。