Обзор архитектуры и особенностей видеокарт NVIDIA RTX 5000 Blackwell
Обзор архитектуры и особенностей видеокарт NVIDIA RTX 5000 Blackwell

Обзор архитектуры и особенностей видеокарт NVIDIA RTX 5000 Blackwell

Обзор архитектуры и особенностей видеокарт NVIDIA RTX 5000 Blackwell - Фото 1

В предыдущий раз мы упоминали RTX 3000 Ampere и RTX 4000 Ada. Сегодня пришло время посмотреть на новые RTX 5000 Blackwell. Рассмотрим особенности видеокарт нового поколения (GDDR7, DLSS), их SM блоки и новые технологии в Тензорных ядрах. Да и скажем несколько слов о RTX 5070.

Содержание

  • 1 Особенности NVIDIA RTX 5000 Blackwell
  • 2 Архитектура NVIDIA RTX 5000 Blackwell
    • 2.1 Чип GB202 и SM блоки
    • 2.2 Что не так с RTX 5070?
    • 2.3 Подсистема памяти GDDR7
    • 2.4 Тензорные ядра Blackwell 5-го поколения
    • 2.5 RT Ядра Blackwell 4-го поколения
    • 2.6 Процессор управления AI (AI Management Processor, AMP)
  • 3 Deep Learning Super Sampling 4
    • 3.1 DLSS 4 Multi Frame Generation
    • 3.2 Модели Transformer в DLSS 4
    • 3.3 DLSS Super Resolution (SR)
    • 3.4 DLSS Ray Reconstraction (RR)
    • 3.5 Deep Learning Anti-Aliasing (DLAA)

Особенности NVIDIA RTX 5000 Blackwell

Основными видеокартами NVIDIA RTX Blackwell являются:

  • Новые функции для SM-блоков Новые функции RT Core и Tensor Core, улучшают и ускоряют возможности нейронной визуализации. Они обеспечивают удвоение пропускной способности для целочисленной математики за такт по сравнению с графическими процессорами RTX 4000 Ada
  • Новые ядра RT 4-го поколения. Значительные усовершенствования архитектуры ядра RT были внесены в Blackwell, что позволяет использовать новые технологии трассировки лучей и нейронной визуализации.
  • Новые Тензорные Ядра 5-го поколения – включают новые возможности FP4, которые могут удвоить пропускную способность искусственного интеллекта, вдвое уменьшив требования к памяти. Также включена поддержка нового FP8 Transformer Engine второго поколения, который используется для центров обработки данных.
  • NVIDIA DLSS 4. Архитектура Blackwell поддерживает АІ генерацию нескольких кадров, которая повышает частоту кадров до 2 раз по сравнению с предыдущей версией DLSS 3/3.5, сохраняя или даже превышая оригинальное качество изображения и обеспечивая низкие задержки у систем.
  • Процессор управления искусственным интеллектом (AMP) – позволяет АИ моделям, которые могут генерировать разговоры, перевод, видение образов, анимацию, поведение и многое другое, и параллельно использовать GPU для графических нагрузок.
  • Память GDDR7 — это новый стандарт памяти GDDR со сверхнизким напряжением, который использует технологию сигнализации PAM3 (Pulse Amplitude Modulation), включая более скоростные подсистемы памяти и улучшение энергоэффективности.
  • Технология Mega Geometry – новая технология RTX, направленная на резкое увеличение геометрических деталей, возможных в программах с трассировкой лучей.

Архитектура NVIDIA RTX 5000 Blackwell

Чип GB202 и SM блоки

Чип GB202 – это новый флагманский процессор у видеокарт сегодняшнего поколения для потребительского рынка. Пока есть лишь в составе новой графической карты GeForce RTX 5090. Графический процессор GB203 используется в видеокартах GeForce RTX 5080 и GeForce RTX 5070 Ti, а GB205 — у GeForce RTX 5070. Эти графические процессоры основаны на одной базовой архитектуре и предназначены для разных сегментов рынка.

Про GB205 скажу несколько слов отдельно ниже.

Полноценный графический процессор GB202 включает 12 кластеров обработки графики (GPC), 96 кластеров обработки текстур (TPC), 192 потоковых мультипроцессора (SM) и 512-разрядный интерфейс памяти с шестнадцатью 32-разрядными контроллерами памяти.GPC является доминирующим высокоуровневым аппаратным блоком во всех графических процессорах семейства GB20x Blackwell, при этом все ключевые графические процессоры находятся в GPC. Каждый GPC включает специальный Raster Engine, два раздела Raster Operations (ROP), причем каждый раздел содержит восемь отдельных блоков ROP и восемь TPC. Каждый TPC включает один PolyMorph Engine и два SM блока.Однако, у RTX 5090 хотя и стоит GB202, он несколько «порезан». А именно, отключен 1 GPC.

GB202 (полный)GB202 (RTX 5090)
GPC1211
TPC9685
SM блоки192170
CUDA ядра2457621760
RT ядра192170
Тензорные ядра768680
L2 кэш128 МБ96 МБ


Обзор архитектуры и особенностей видеокарт NVIDIA RTX 5000 Blackwell - Фото 2
Изображение №1. GPU GB202. Автор: Nvidia.

Каждый SM блок состоит из: 128 ядер CUDA, одно RT ядро четвертого поколения, четыре тензорных ядра пятого поколения, 4 блока текстуры, регистровый файл размером 256 КБ и 128 КБ L1/общей памяти.Обратите внимание, что количество возможных целочисленных операций INT32 в Blackwell удвоено по сравнению с Ada благодаря их полной унификации с ядрами FP32, как показано на Рисунке №2 ниже. Однако унифицированные ядра могут работать только как ядра FP32 или INT32 в любом заданном тактовом цикле

Спецпроекты

Обзор архитектуры и особенностей видеокарт NVIDIA RTX 5000 Blackwell - Фото 3
Изображение №2. SM блок в архитектуре Blackwell. Автор: Nvidia.

Еще раз напомню, что в отношении RTX 4000 Ada я делал отдельное сообщение. Подробнее есть в том материале. Однако даже сейчас видно, что новое поколение будет лучше подходить для новых нейронных шейдеров и работы с AI.

Обзор архитектуры и особенностей видеокарт NVIDIA RTX 5000 Blackwell - Фото 4
Изображение №3. Сравнение SM блоков двух поколений. Автор: Nvidia.

Что не так с RTX 5070?

И первым, о чем вы могли подумать — Нет, RTX 5070 не ровня RTX 4090. То, что эта фраза была сказана и показана на презентации является полной чушью. Она просто слишком слаба для этого. Конечно, если включить DLSS 4 с генератором кадров, то fps возможно будет тем же. Однако, задержки нажатия клавиш и артефакты изображения отменить нельзя.

Обзор архитектуры и особенностей видеокарт NVIDIA RTX 5000 Blackwell - Фото 51

Изображение №4 и №5. Слайд из презентации и классная шутка. Автор: NVIDIA, IndianGaming.

Спецпроекты

Однако интересно другое. Приведу таблицу базовых характеристик RTX 3070/4070/5070.

RTX 3070RTX 4070RTX 5070
Чип GPUGA104AD104 GB105
GPC655
TPC232324
SM блоки464648
CUDA ядра588858886144
Тензорные ядра184184192
RT ядра464648
Частота GPU172524752512
Шина256-bit256-bit192-bit
К-во видеопамяти8 GB GDDR68 GB GDDR6X12 GB GDDR7

Так вот мы можем увидеть кое-что странное — название графического чипа сильно выделяется. Это GB205. Вот эта последняя пятерка все разрушает, потому что обычно, просто не было такого названия у чипов. Были либо xx204, либо xx206. Поэтому я думаю, что RTX 5070 изначально называлась RTX 5060 или RTX 5060 Ti.

Для тех кому интересно, у 5070 Ti стоит тот же чип, что у RTX 5080 — GB203. И получается, что нет промежуточного GB204, который и должен был стоять у RTX 5070.


Подсистема памяти GDDR7

Видеокарты Blackwell поставляются с новой видеопамятью стандарта GDDR7 – со сверхнизким напряжением, который использует технологию сигнализации PAM3 обеспечивает существенный прогресс в высокоскоростной конструкции памяти. Сотрудничество NVIDIA с технологической ассоциацией JEDEC, помогло в создании PAM3 (Амплитудная Модуляция Импульса с тремя уровнями). Именно она является основополагающей технологией высокочастотной сигнализации для GDDR7 DRAM.

Обзор архитектуры и особенностей видеокарт NVIDIA RTX 5000 Blackwell - Фото 7
Изображение №6. Сравнение GDDR6X и GDDR7. Автор: Nvidia.

Переход от PAM4 (4 уровня передают 2 бита за цикл) в GDDR6X к PAM3 (3 уровня передают 1,5 бита за цикл) в GDDR7, в сочетании с инновационной схемой pin-кодирования, позволяет GDDR7 достичь значительно улучшенного соотношения сигнал/шум (SNR). Эта эволюция также удваивает количество независимых каналов с минимальными затратами на плотность ввода-вывода.

И нет, это не квантовый компьютер или квантовая память.

Благодаря увеличенной плотности каналов, улучшенному SNR PAM3, расширенным схемам выравнивания, обновленной архитектуре тактирования и усовершенствованному обучению ввода/вывода GDDR7 обеспечивает значительно более высокую пропускную способность. GeForce RTX 5090 поставляется с памятью GDDR7 28 Гбит/с и обеспечивает пиковую пропускную способность памяти 1,792 ТБ/с, тогда как GeForce RTX 5080 поставляется с памятью GDDR7 30 Гбит/с, что обеспечивает пиковую пропускную способность памяти 960 ГБ/с.

Тензорные ядра Blackwell 5-го поколения

Тензорные ядра Blackwell поддерживают операции с FP4, FP6, FP8, INT8, FP16, BF16, TF32. Однако, именно с поддержкой FP4 связана необходимость запускать новые генеративные модели искусственного интеллекта. Эти модели увеличивают требования к вычислительным ресурсам и памяти, и из-за этого бывает трудно запускать такие модели даже на новейшем аппаратном обеспечении.

FP4 обеспечивает метод более низкого квантования, подобный сжатию файлов, который уменьшает размер модели. По сравнению с FP16 (используется большинством моделей по умолчанию), FP4 требует меньше половины памяти, а графические процессоры Blackwell обеспечивают в 2 раза большую производительность по сравнению с предыдущим поколением. FP4 практически не теряет качества благодаря расширенным методам квантования, которые предлагает NVIDIA TensorRT Model Optimizer.

RT Ядра Blackwell 4-го поколения

В графических процессорах RTX 2000 Turing, RTX 3000 Ampere и RTX 4000 Ada существуют специальные аппаратные блоки для ускорения обхода структуры данных Иерархии Ограничительных Томов (Bounding Volume Hierarchy, BVH) и выполнения вычислений как пересечения лучей с треугольником (Ray-triangle intersection), так и пересечения ограничительных прямоугольников (Ray-bounding box intersection). Подсчет пересечения лучей — это сложная операция, которая выполняется с высокой частотой во время визуализации сцены с трассировкой лучей. Ядро RT четвертого поколения обеспечивает вдвое большую пропускную способность, чем в Ada.

Обзор архитектуры и особенностей видеокарт NVIDIA RTX 5000 Blackwell - Фото 8
Изображение №7. Новое четвертое поколение RT ядер. Автор: Nvidia.

Ядра RT, которые есть как в графических процессорах Ada, так и в Blackwell, включают специальный блок, известный как Opacity Micromap Engine. Механизм Opacity Micromap Engine оценивает Маску Непрозрачности (Opacity Mask), которая является обычным треугольным мешем/сеткой, определенной с помощью барицентрической системы координат, которая используется для отчетности о пересечениях лучей и треугольников.

Остальные два блока (Triangle Cluster Intersection Engine и Triangle Cluster Compression Engine) необходимы для использования новой технологии – Mega Geometry. Это новая технология RTX, направленная на резкое увеличение геометрической детализации, которая возможна в программах с трассировкой лучей. В частности, Mega Geometry позволяет таким игровым движкам, как Unreal Engine 5, которые используют современные системы уровня детализации (Level-of-Detail, LOD), такие как Nanite, отслеживать свою геометрию с полной точностью. Больше не нужно возвращаться к прокси с низким разрешением для эффектов трассировки лучей, что обеспечивает новые уровни качества для теней, отражений и непрямого освещения. 

Различные варианты примитивов кривых обычно используются для изображения волос, меха, травы и других пасмообразных объектов. Для трассировки лучей эти примитивы, как правило, реализуются в программном обеспечении с помощью специальных шейдеров пересечения. Однако пересечение лучевой кривой требует интенсивных вычислений, что ограничивает использование кривых в рендеринге с трассировкой лучей в реальном времени и увеличивает время визуализации для офлайн-рендеринга.

Blackwell’s RT Core представляет аппаратную поддержку пересечения лучей для нового примитива под названием Линейные развернутые сферы (Linear Swept Spheres, LSS). LSS похожа на мозаичную кривую, но построена путем развертывания сфер в пространстве линейными сегментами. Радиусы сфер могут отличаться между начальной и конечной точками каждого сегмента, что позволяет гибко аппроксимировать различные типы нитей. В обычных случаях использования, таких как визуализация волос на людях, LSS примерно в 2 раза быстрее, а для хранения геометрии требуется примерно в 5 раз меньше VRAM.

Обзор архитектуры и особенностей видеокарт NVIDIA RTX 5000 Blackwell - Фото 9

Изображение №8. Линейные развернутые сферы (Linear Swept Spheres, LSS). Автор: Nvidia.

Процессор управления AI (AI Management Processor, AMP)

Процессор управления AI (AMP) — это полностью программируемый планировщик контекстов на графическом процессоре, предназначенный для разгрузки контекстов от CPU до GPU. AMP улучшает планирование контекстов GPU в Windows, чтобы более эффективно управлять различными рабочими нагрузками, выполняемыми на GPU. Контекст GPU инкапсулирует всю информацию о состоянии, необходимую GPU для выполнения одной или нескольких задач. Несколько контекстов можно использовать для обеспечения того, чтобы несколько приложений могли одновременно использовать GPU без конфликтов. Примером может быть координация и планирование рабочих нагрузок асинхронной модели искусственного интеллекта, такой как NVIDIA Avatar Cloud Engine (ACE) с моделями речи, перевода, видения, анимации и поведения, а также G-Assist, которые работают одновременно с другими графическими рабочими нагрузками на GPU.

AMP реализован с помощью специального процессора RISC-V, расположенного на передней части GPU, и обеспечивает более быстрое планирование контекстов графического процессора с меньшей задержкой, чем предыдущие методы, управляемые CPU. Архитектура планирования Blackwell AMP соответствует архитектурной модели Microsoft, которая описывает настраиваемое ядро планирования на GPU с помощью Аппаратно-Ускоренного Графического Планирования Windows (Hardware-Accelerated GPU Scheduling, HAGS), представленного еще в Windows 10 (Обновление от мая 2020 г.!). HAGS позволяет графическому процессору более эффективно управлять собственной памятью, уменьшая задержку и потенциально улучшая производительность в играх и других приложениях, интенсивно работающих с графикой.

Обзор архитектуры и особенностей видеокарт NVIDIA RTX 5000 Blackwell - Фото 10
Изображение №9. AMP планирует работу различных задач. Автор: Nvidia.

Роль AMP заключается в том, чтобы взять на себя ответственность за планирование задач GPU, уменьшая зависимость от CPU, который часто является узким местом для производительности игры. Фактически, позволив GPU управлять собственной очередью задач, можно уменьшить задержку из-за меньшей обратной связи между графическим и центральным процессором. Это обеспечивает более плавную частоту кадров в играх и лучшую многозадачность в Windows, поскольку CPU менее загружен.

Deep Learning Super Sampling 4

И здесь нужно сделать поправку. Сейчас NVIDIA использует под названием DLSS несколько технологий. А именно:

  • DLSS (Deep Learning Super Sampling) – масштабирование изображения из меньшего разрешения в нужное пользователю;
  • MFG (Multi Frame Generation) – тот самый генератор дополнительных кадров между реальными;
  • RR (Ray Reconstruction) – улучшение работы трассировки лучей;
  • SR (Super Resolution) – также масштабирование изображения;
  • DLAA (Deep Learning Anti-Aliasing) – технология сглаживания изображения.

Поэтому уместнее заменить слово Sampling (Семплинг/Отбор) в DLSS на Services (Сервисы). Так будет значительно понятнее, как по мне.

Изображение №10. Поддержка новых технологий в разных RTX сериях. Автор: Nvidia.

А для тех, кому дальше лень читать, NVIDIA подготовила специальное видео:

DLSS 4 Multi Frame Generation

Технология генерации кадров была впервые представлена в архитектуре Ada в 2022 году. Один кадр был сгенерирован между каждой парой традиционно воспроизводимых кадров с помощью поля оптического потока вместе с векторами движения игры и сетью AI. Архитектура Blackwell позволяет DLSS Multi Frame Generation повышать FPS, генерируя до трех дополнительных кадров на каждый традиционно визуализированный кадр.

Новая модель генерации кадров на 40% быстрее, использует на 30% меньше видеопамяти и требует только одного запуска для воспроизводимого кадра для создания нескольких кадров. Генерация поля оптического потока была ускорена благодаря замене аппаратного оптического потока очень эффективной моделью AI

Обзор архитектуры и особенностей видеокарт NVIDIA RTX 5000 Blackwell - Фото 11
Изображение №11 Пример работы MFG. Автор: Nvidia.

Модели Transformer в DLSS 4

DLSS переходит на совершенно новую архитектуру нейронной сети, и это приносит много преимуществ. Способность искусственного интеллекта классифицировать изображения была революционной благодаря технологии, называемой Сверточной Нейронной Сетью (Convolutional Neural Network, CNN). CNN работают путем локального агрегирования пикселей и анализа данных в форме дерева от низшего уровня к высшему.

DLSS 4 улучшает качество изображения и плавность рендеринга, внедряя более мощные модели искусственного интеллекта на основе Transformer для DLSS Super Resolution, DLSS Ray Reconstruction и Deep Learning Anti-Aliasing (DLAA), обученные суперкомпьютерами NVIDIA для лучшего понимания и воспроизведения сложных сцен. Нейронные сети, использующие архитектуру Transformer, прекрасно справляются с задачами, связанными с последовательными и структурированными данными. Идея моделей Transformer заключается в том, что внимание к тому, как расходуются вычисления и как они анализируются, должны управлять сами данные, поэтому нейронная сеть должна научиться направлять свое внимание, чтобы смотреть на части данных, которые являются наиболее интересными или полезными для принятия решений.

По сравнению с CNN, Transformer использует самоуважение и может легче идентифицировать долгосрочные шаблоны в гораздо большем пиксельном окне. Transformer также более эффективно масштабируется, позволяя моделям, используемым для DLSS 4, получать вдвое больше параметров, а также использовать больше процессорной мощности тензорных ядер для реконструкции изображений с еще лучшим качеством для всех владельцев RTX. Результатом является улучшенная стабильность от одного кадра к другому, улучшенная детализация освещения и больше деталей в движении. Изменение архитектуры нейронной сети с CNN на Transformer привело к значительному повышению качества изображения во многих сценариях.

DLSS Super Resolution (SR)

SR повышает производительность, используя искусственный интеллект для вывода кадров высшего разрешения из более низкого. DLSS отбирает несколько изображений с более низким разрешением и использует данные движения и обратную связь из предыдущих кадров для создания высококачественных изображений. Конечный продукт модели Transformer является более стабильным во времени с меньшим количеством ореолов, большей детализацией изображения в движении и улучшенным сглаживанием по сравнению с предыдущими версиями DLSS.

Изображение №12. Пример работы Super Resolution. Автор: Nvidia.

DLSS Ray Reconstraction (RR)

RR улучшает качество изображения с помощью искусственного интеллекта для создания дополнительных пикселей для интенсивных сцен с трассировкой лучей. DLSS заменяет настроенные вручную шумоподавители сетью искусственного интеллекта, обученной суперкомпьютером NVIDIA, которая генерирует пиксели высшего качества между выборочными лучами. В интенсивном контенте с трассировкой лучей модель Transformer для RR получает еще большее повышение качества, особенно для сцен со сложным освещением. Фактически, все обычные артефакты типичных шумоподавителей значительно уменьшены.

Изображение №13. Пример работы Ray Reconstruction. Автор: Nvidia.

Deep Learning Anti-Aliasing (DLAA)

DLAA обеспечивает более высокое качество изображения с помощью технологии сглаживания на основе искусственного интеллекта. DLAA использует ту же технологию Super Resolution, разработанную для DLSS, создавая более реалистичное высококачественное изображение с оригинальным разрешением


Статья подготовлена ​​на основе официальных материалов: NVIDIA.

Не забудьте почитать редакционные обзоры от ITC.ua о лучших представителях поколения Blackwell:

Обзор видеокарты MSI GeForce RTX 5090 32G SUPRIM SOC: холодный император 4К гейминга

Обзор видеокарты MSI GeForce RTX 5080 16G SUPRIM OC: «ледяной холод» для 4К гейминга

 

 

Обзор архитектуры и особенностей видеокарт NVIDIA RTX 5000 Blackwell - Фото 12
Источник материала
loader
loader