NVIDIA Ada Lovelace架构解析（一）：光线关注性能大爆发

在看完了GeForce RTX 4090的性能测试后，接着我们就继续来分析全新的Ada Lovelace绘图架构，深入了解其改进之处。

首先我们以GeForce RTX 4090的AD102 GPU来说明Ada Lovelace绘图架构的运算单元组成方式。

完整的AD102具有12组图像处理集群（Graphics Processing Clusters，GPC）、72组材质处理集群（Texture Processing Clusters，TPC）、144组流媒体多重处理器（Streaming Multiprocessors，SM），总共有18432组CUDA核心。至于内存部分，则是由12组宽度为32bit的控制器组成总宽度为384bit的内存信道，此外还有独立的光流加速器（Optical Flow Accelerator），以及NVENC编码器、NVDEC解码器各3组，并通过PCIe Gen 4×16总线连接至主板。

NVIDIA也在Ada Lovelace白皮书中提到，每组SM中具有2个FP64运算核心（总量为288个），由于FP64资料格式程序的执行效率仅有FP32的1/64，因此这些少量的FP64运算核心目的仅为确保FP64程序能够正常运行。

与前代架构相比，Ada Lovelace的SM具有2倍的运算性能与电力效率，因此能在不增加电力消耗的前提下，达到相同性能输出，或是在消耗相同电力的情况下，将性能输出提升2倍。

而实际搭载于GeForce RTX 4090的AD102则屏蔽1组GPC，因此总共少了6组TPC、12组SM、1536组CUDA核心，详细规格请参考下表。此外GeForce RTX 4090也仅保留2组NVENC编码器与1组NVDEC解码器，但内存控制器与光流加速器则无异动。

（若手机版浏览器无法显示表格，请点我看完整表格）

第8代NVENC x2

完整的AD102具有12组GPC，以及NVENC编码器、NVDEC解码器各2组。