Итак, подробности новой архитектуры – Fermi. NVIDIA утверждает, что это крупнейшее и важнейшее обновление архитектуры с момента выпуска G80 (GeForce 8800 GTX).
Потоковые процессоры (CUDA Cores). Их число составляет 512 штук, причём в отличие от GT200, теперь за расчёты с одинарной (FP32) и двойной (FP64) точностью отвечают одни и те же блоки. При использовании FP64 темп работы снижается вдвое, обеспечивая таким образом 256 вычислений с двойной точностью за такт. У GT200, для сравнения, было только 30 выделенных блоков для подобных расчётов. Кроме того, каждое CUDA Core содержит в себе помимо устройства для операций с плавающей запятой, отдельное устройство для целочисленных операций с 64-битной точностью. Все расчёты выполняются этими устройствами за один такт. Никуда не делись и блоки для специальных операций (SFU), которые позволяют вычислять синус, косинус, квадратный корень и другие сложные функции. Но если раньше соотношение SP и SFU составляло 4 к 1, то теперь на каждый SFU приходится 8 SP, т.е. в два раза больше. С другой стороны, их производительность выросла примерно в четыре раза, так что общий удельный прирост можно оценить как двукратный;
Иерархическая организация чипа тоже изменилась. Если раньше базовой единицей был TPC (текстурно-процессорный кластер), содержащий в себе восемь блоков выборки текстур (TMU) и три массива потоковых процессоров (SM), то теперь TPC фактически упразднён, уступив место SM, который “располнел” с 8 потоковых процессоров до 32. Таким образом, GF100 (GT300) содержит в себе 16 блоков SM, каждый из которых состоит из 2х16 CUDA Cores, 16 блоков загрузки и выгрузки данных (LSU) и 4 SFU;
Два диспетчера потоков на каждом SM обеспечивают фактически аналог технологии Hyper-Threadingна GPU, что благоприятно сказывается на эффективности загрузки исполнительных устройств и, следовательно, на производительности;
GPU содержит настраиваемые кэши первого уровня суммарным объёмом 1 Мб и кэш второго уровня объёмом 768 Кб.
Уже видно, что большое количество имений направлено на повышение КПД расчётов общего назначения на GPU, надеюсь, что обновление архитектуры не сильно скажется на и на 3D приложениях, а даже повысит производительность. Кроме того, новая архитектура чипа изменена настолько, что в ней не осталось фактически ничего от оригинала – G80.