Максвелл (микроархитектура) - Maxwell (microarchitecture)

Nvidia Maxwell
Дата выпуска Февраль 2014 года
Процесс изготовления TSMC 28 нм
История
Предшественник Кеплер
Преемник Паскаль

Maxwell - это кодовое название микроархитектуры графического процессора, разработанной Nvidia в качестве преемника микроархитектуры Kepler . Архитектура Maxwell была введена в более поздних моделях серии GeForce 700 , а также используется в серии GeForce 800M , GeForce 900 серии , и Quadro серии MXXX, а также некоторые JETSON продукты, все производимые с TSMC «s 28 нм процесса.

Первыми продуктами на базе Maxwell были GeForce GTX 750 и GeForce GTX 750 Ti. Оба были выпущены 18 февраля 2014 года, оба с кодовым номером чипа GM107. Ранее графические процессоры серии GeForce 700 использовали чипы Kepler с кодовыми номерами G K 1xx. Графические процессоры GM10x также используются в сериях GeForce 800M и Quadro Kxxx. Второе поколение продуктов на базе Maxwell было представлено 18 сентября 2014 г. с GeForce GTX 970 и GeForce GTX 980, за ним последовали GeForce GTX 960 22 января 2015 г., GeForce GTX Titan X 17 марта 2015 г. и GeForce GTX 980 Ti, 1 июня 2015 г. Эти графические процессоры имеют кодовые номера микросхем GM 2 0x.

Максвелл представил улучшенную конструкцию потокового мультипроцессора (SM), которая повысила энергоэффективность, PureVideo HD шестого и седьмого поколений и CUDA Compute Capability 5.2.

Архитектура названа в честь Джеймса Клерка Максвелла , основателя теории электромагнитного излучения.

Архитектура Maxwell используется в системе на кристалле (SOC) процессора мобильных приложений Tegra X1 .

Максвелл первого поколения (GM10x)

Чип Maxwell 107 на видеокарте GTX 750 Ti со снятым радиатором.

Графические процессоры Maxwell первого поколения (GM107 / GM108) были выпущены как GeForce GTX 745, GTX 750/750 Ti, GTX 850M / 860M (GM107) и GeForce 830M / 840M (GM108). Эти новые чипы представили несколько дополнительных функций, ориентированных на потребителя, поскольку Nvidia вместо этого сосредоточилась на повышении энергоэффективности графического процессора. Кэш L2 был увеличен с 256 КБ на Kepler до 2 МБ на Maxwell, что снизило потребность в увеличении пропускной способности памяти. Соответственно, шина памяти была уменьшена с 192 бит на Kepler (GK106) до 128 бит, уменьшая площадь кристалла, стоимость и энергопотребление.

Конструкция потокового мультипроцессора «SMX» от Kepler также была переоборудована и разбита на разделы, переименованные в «SMM» для Maxwell. Структура планировщика деформации была унаследована от Kepler, при этом блоки текстуры и ядра FP64 CUDA по-прежнему были общими, но расположение большинства исполнительных блоков было разделено так, что каждый планировщик деформации в SMM контролирует один набор из 32 ядер FP32 CUDA, один набор из 8 блоков загрузки / хранения и одного набора из 8 блоков специальных функций. Это контрастирует с Kepler, где у каждого SMX было 4 планировщика, которые были запланированы для общего пула исполнительных модулей. Последнее потребовало наличия поперечной панели SMX, которая потребляла ненужную мощность, чтобы все исполнительные блоки могли использоваться совместно. И наоборот, более модульная конструкция Maxwell позволяет более детально и эффективно распределять ресурсы, экономя электроэнергию, когда рабочая нагрузка не оптимальна для общих ресурсов. Nvidia утверждает, что SMM со 128 ядрами CUDA имеет 90% производительности SMX со 192 ядрами CUDA, в то время как эффективность увеличивается в 2 раза. Кроме того, каждый кластер обработки графики, или GPC, содержит до 4 модулей SMX в Kepler и до 5 отрядов СММ в Maxwell первого поколения.

GM107 также поддерживает CUDA Compute Capability 5.0 по сравнению с 3.5 на графических процессорах GK110 / GK208 и 3.0 на графических процессорах GK10x. Динамический параллелизм и HyperQ, две функции графических процессоров GK110 / GK208, также поддерживаются всей линейкой продуктов Maxwell. Maxwell также предоставляет атомарные операции с собственной общей памятью для 32-разрядных целых чисел и 32-разрядные и 64-разрядные атомарные операции с общей памятью (CAS), которые можно использовать для реализации других атомарных функций.

Видеокодер Nvidia, NVENC, был обновлен и теперь работает в 1,5–2 раза быстрее, чем на графических процессорах на базе Kepler, что означает, что он может кодировать видео со скоростью воспроизведения в 6–8 раз. Nvidia также заявляет о восьми-десятикратном увеличении производительности декодирования видео PureVideo Feature Set E за счет кеша видеодекодера в сочетании с повышением эффективности памяти. Однако H.265 не поддерживается для полного аппаратного декодирования в графических процессорах Maxwell первого поколения, полагаясь на сочетание аппаратного и программного декодирования. При декодировании видео на графических процессорах Maxwell используется новое состояние низкого энергопотребления «GC5» для экономии энергии.

Считалось, что графические процессоры Maxwell используют тайловый рендеринг , но на самом деле они используют тайловое кэширование.

Чипсы

  • GM107
  • GM108

Максвелл второго поколения (GM20x)

Снимок графического процессора GM200 внутри видеокарт GeForce GTX 980 Ti

Графические процессоры Maxwell второго поколения представили несколько новых технологий: динамическое суперразрешение, сжатие дельта-цветов третьего поколения, многопиксельная программная выборка, Nvidia VXGI (Real-Time-Voxel- Global Illumination ), VR Direct, Multi-Projection Acceleration, Multi-Frame Sampled Сглаживание (MFAA) (однако поддержка сглаживания выборки покрытия (CSAA) была удалена) и API Direct3D12 на уровне функций 12_1. Также была добавлена ​​поддержка HDMI 2.0.

Соотношение ROP к контроллеру памяти было изменено с 8: 1 на 16: 1. Однако некоторые из ROP обычно простаивают в GTX 970, потому что не хватает задействованных SMM, чтобы дать им работу, что снижает его максимальную скорость заполнения.

Модуль Polymorph Engine, отвечающий за тесселяцию, был обновлен до версии 3.0 в графических процессорах Maxwell второго поколения, что привело к повышению производительности тесселяции на единицу / такт.

Maxwell второго поколения также имеет до 4 модулей SMM на GPC, по сравнению с 5 модулями SMM на GPC.

GM204 поддерживает CUDA Compute Capability 5.2 (по сравнению с 5.0 на графических процессорах GM107 / GM108, 3.5 на графических процессорах GK110 / GK208 и 3.0 на графических процессорах GK10x).

Графические процессоры GM20x имеют обновленный NVENC, который поддерживает кодирование HEVC и добавляет поддержку разрешений кодирования H.264 при 1440p / 60FPS и 4K / 60FPS (по сравнению с NVENC на графических процессорах Maxwell GM10x первого поколения, которые поддерживали только кодирование H.264 1080p / 60FPS).

После жалоб потребителей Nvidia показала, что может отключать отдельные блоки, каждый из которых содержит 256 КБ кеш-памяти L2 и 8 ROP, без отключения всех контроллеров памяти. Это происходит за счет разделения шины памяти на высокоскоростные и низкоскоростные сегменты, к которым нельзя получить доступ одновременно для чтения, поскольку блок L2 / ROP, управляющий обоими контроллерами GDDR5, совместно использует канал возврата чтения и шину данных записи. между контроллерами GDDR5. Это делает невозможным одновременное чтение с обоих контроллеров GDDR5 или одновременную запись на оба контроллера GDDR5. Это используется в GeForce GTX 970, которая, следовательно, может быть описана как имеющая 3,5 ГБ в высокоскоростном сегменте на 224-битной шине и 512 МБ в низкоскоростном сегменте на 32-битной шине. Пиковая скорость такого графического процессора все еще может быть достигнута, но показатель максимальной скорости доступен только в том случае, если один сегмент выполняет операцию чтения, а другой сегмент выполняет операцию записи.

Чипсы

  • GM200
  • GM204
  • GM206

Представление

Теоретическая мощность обработки одинарной точности графического процессора Maxwell в FLOPS вычисляется как 2 (операций на инструкцию FMA на ядро ​​CUDA за цикл) × количество ядер CUDA × тактовая частота ядра (в Гц).

Теоретическая мощность обработки с двойной точностью графического процессора Maxwell составляет 1/32 от производительности с одинарной точностью (которая была отмечена как очень низкая по сравнению с Kepler предыдущего поколения ).

Преемник

Преемник Максвелла носит кодовое имя Паскаль . Архитектура Pascal отличается объединенной памятью с более высокой пропускной способностью и NVLink .

Смотрите также

Рекомендации