/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fb3638f85955cfd5c2d7565654844e736.jpg)
Обзор архитектуры Intel Arc Xe2 Battlemage: «Боевой маг» заменяет цельнометаллического Алхимика
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F96940610d4c9d7eaed9c695f85c327b8.png)
В последнее время Intel не сильно радует с процессорами. Возможно, все силы брошены на создание видеокарт и конкуренции с NVIDIA/AMD? Сегодня посмотрим на их последнюю архитектуру Intel Arc Xe2 под кодовым названием Battlemage (Боевой маг). А для тех, кто уже желает увидеть практический результат, мы уже выпустили редакционный обзор SPARKLE Intel Arc B580 TITAN OC на этой архитектуре.
Если вы следите за циклом осмотр архитектурымне необходимо пояснить один момент. У NVIDIA и Intel собственные маркетинговые названия своих технологий. Для лучшего дальнейшего понимания, сделаю сравнение терминов. Тем самым попытаюсь повысить общий уровень понимания.
NVIDIA | Intel |
SM-блоки | Xe-ядра |
Тензорные ядра | XMX (Xe Matrix eXtension Engines) |
RT-ядра | RTU (RayTracing Unit) |
GPC | Render Slice |
DLSS | XeSS |
Содержание
- 1 Архитектура Хе 2 Battlemage
-
2 Intel Xe Super Sampling 2 (XeSS 2)
- 2.1 XeSS Super Resolution
- 2.2 XeSS Frame Generation
- 2.3 XeSS Low Latency
Архитектура Хе 2 Battlemage
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F10bc1c8303dbaa2fc00ad6f29f6bb7c0.png)
Каждое Xe ядро второго поколения состоит из 8 Векторных блоков (Vector Engines), 8 Блоков XMX (Xe Matrix eXtension Engines), 256 КБ объединенного L1 кэша с Общей локальной памятью (Shared Local Memory) и всевозможных дополнительных блоков по управлению и взаимодействию между ними. Xe ядро второго поколения нативно поддерживает операции SIMD16.
У мобильных процессоров Lunar Lake, объем объединенного L1 кэша и SLM составляет 192 КБ.
SIMD (Single Instruction/Multiple Data; Одна инструкция/Несколько данных) — вычислительный метод, который обеспечивает обработку нескольких данных с помощью одной инструкции. Тогда как обычный последовательный подход с использованием одной инструкции для обработки одного отдельного данных, называется Калярными Операциями (Scalar operations). Одним из примеров для их улучшения является AVX инструкции.
Операции SIMD можно параллелизовать только на уровне оборудования. Эта возможность повышает производительность векторизованных вычислений, которые широко применяются в математических, научных и графических приложениях.
Векторный механизм (Xe Vector Engine, XVE) — это блок, выполняющий инструкции. В каждом XVE основными вычислительными единицами являются SIMD с плавающей запятой. Другое более известное название для XVE — Арифметико-логические устройства (Arithmetic Logic Unit, ALU). Однако XVE является улучшенной версией ALU. XVE поддерживает инструкции с плавающей запятой и целые числа, такие как MAD или MUL, а также расширенные математические инструкции, такие как sin, cos, exp, log і rcp.
Как было сказано выше, обновленный Векторный механизм получил поддержку SIMD16 и SIMD32 и увеличенное количество математических операций. Конечно, существует поддержка INT2, INT4, INT8, FP16, BF16 и TF32.
Механизм Матричного Расширения (Xe Matrix eXtension Engines, XMX) применяется, как это следует из названия, для вычисления матричных операций, которые необходимы для работы AI. По сравнению с предыдущим поколением, увеличено быстродействие в работе с INT8 и FP16.
Xe ядро лишь маленький и важный «винтик» в архитектуре видеокарты. Именно Render Slice является приоритетным высокоуровневым аппаратным блоком во всех графических процессорах семейства Battlemage. Каждый Render Slice включает четыре Xe ядра, четыре Xe блока Трассировки лучей (Ray Tracing Unit, RTU), и функциональные блоки, которые поддерживают функции визуализации, геометрию, тесселяцию, логику диспетчеризации и обработки мешей и пикселей.
Каждый из этих небольших блоков получил дополнительную оптимизацию для уменьшения внутренних задержек, увеличения пропускной способности и ошибок при текстуризации.
Кэш L2 — кэш-память верхнего уровня в иерархии памяти. Запросы на память от всех сегментов рендеринга и Xe-ядер направляются в кэш L2. Для нее также произошло улучшение: поддержка нового уровня компрессии данных «8 к N» и быстрой очистки от лишних ресурсов.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F676cfdd033861c63fbd4b2b63438457f.png)
Xe блок Трассировки лучей (Ray Tracing Unit, RTU) обрабатывает запросы, связанные с трассировкой лучей, полученные от XVE. Каждый RTU имеет кэш Иерархии Ограничительных Томов (Bounding Volume Hierarchy, BVH) для уменьшения средней задержки получения данных в BVH и способен обрабатывать несколько трассировочных лучей для повышения общей эффективности.
Кроме того, каждый RTU поддерживается блоком Сортировки Потоков (Thread-Sorting Unit, TSU) — специальный аппаратный блок, который может сортировать и повторно отправлять запросы трассировки в потоки шейдеров, чтобы максимизировать когерентность SIMD от несовпадающих лучей.
По сравнению с предыдущим поколением, количество блоков для вычислений Поперечных конвейеров (Traversal pipelines) и Боксовых пересечений (Box intersections) выросло в полтора раза, а емкость памяти BVH и Треугольных пересечений — в два раза.
Соединив все это вместе, Intel предлагает потенциальным пользователям новый видеопроцессор. Чип BMG-G21 — это новый (и пока единственный) бюджетный графический процессор в видеокартах сегодняшнего поколения для потребительского рынка от Intel. Поставляется видеопроцессор в составе двух видеокарт Intel Arc B580 и Intel Arc B570. Если B580 содержит полное количество Xe ядер и RTU по 20 блоков каждый, то B570 — лишь по 18.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fe9c9f8aa9f6a0bd9e8bd7c8260cb5d36.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fc254a0de1fb142ec1478c52f71b9567f.png)
По сравнению с предыдущим поколением Xe1 Alchemist, новый Xe2 Battlemage получил по некоторым пунктам очень сильную прибавку в производительности:
Xe1 vs Xe2 | |
Compute Dispatch XI | +700% |
Draw XI | +1250% |
Частота замещения пикселей (Pixel Blend rate) | +210% |
Регулировка меша/сетки шейдера (Mesh shader dispatch) | +410% |
Срез вершин (Vertex index cut) | +200% |
Обработка вершин (Vertex processing) | +150% |
Тесселяция (Tessellation) | +120% |
Пересечение лучом треугольника (Ray Triangle) | +210% |
Лучи (Trace rays) | +160% |
Отклик от записи (Sampler feedback) | +270% |
Приведу таблицу сравнений характеристик обоих поколений видеокарт Intel. С первого взгляда видно, что «Боевой маг» значительно уступает в «железе», чем «Алхимик». По некоторым параметрам разница больше чем в три раза!
A770 | А750 | А580 | B580 | B570 | |
Чип | ACM-G10 | ACM-G10 | ACM-G11 | BMG-G21 | BMG-G21 |
Xe-ядра | 32 | 28 | 24 | 20 | 18 |
Render Slice | 8 | 7 | 6 | 5 | 5 |
RTU | 32 | 28 | 24 | 20 | 18 |
XMX | 512 | 448 | 384 | 160 | 144 |
XVE | 512 | 448 | 384 | 160 | 144 |
Частота | 2100 МГц | 2050 МГц | 1700 МГц | 2670 МГц | 2500 МГц |
TDP | 225 Вт | 225 Вт | 185 Вт | 190 Вт | 150 Вт |
Видеопамять | 16 ГБ GDDR6 | 8 ГБ GDDR6 | 8 ГБ GDDR6 | 12 ГБ GDDR6 | 10 ГБ GDDR6 |
Пропускная способность видеопамяти | 560 ГБ/с | 512 ГБ/с | 512 ГБ/с | 456 ГБ/с | 380 ГБ/с |
Скорость видеопамяти | 17,5 Гбит/с | 16 Гбит/с | 16 Гбит/с | 19 Гбит/с | 19 Гбит/с |
Неужели получается так, что новое поколение слабее предыдущего? Нет, просто Intel проделала удивительную работу по оптимизации драйверов и тесно сотрудничала с разработчиками игр для поддержки новых технологий. Даже в редакционном обзоре Intel B580 хорошо показывала себя в играх.
Если посмотреть на наименование процессоров, тогда что-то не сходится. Представленный BMG-G21 по названию и характеристикам напоминает более слабый вариант ACM-G11. Предлагаю два варианта вероятных решений:
- Intel представит чип BMG-G20 который будет еще мощнее для конкуренции с NVIDIA RTX 5060;
- Intel больше не выпустит ни одного чипа на этой архитектуре. Причин много, но очевидная — подготовка к третьему поколению, который ждать еще полтора года.
Intel заявляет о высокой масштабируемости нового поколения видеокарт, но без Middle или High-End решений это не очень интересно. Вероятно, её увидим для бизнес и серверных решений.
Возможно три основных игрока на рынке уже поделили между собой доли рынка: NVIDIA забирает за собой ТОП решения и Nintendo Switch 2, AMD получает среднебюджетные решения и консоли PS с Xbox, а Intel — бюджетные решения. По выпуску пользовательских видеокарт складывается именно такая картина
Intel Xe Super Sampling 2 (XeSS 2)
После удачного появления и развития технологий DLSS и FSR у конкурентов, Intel нужна была своя реализация масштабирования изображения в играх на основе ИИ. В 2022 году вместе с архитектурой первого поколения Alchemist было представлено Xe Super Sampling — применяет глубокое обучение для синтеза изображений, которые будут близкими по качеству к родному высокому разрешению.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fdf096013ae25395322aa4f41867cf91d.png)
Два года Intel не сидела на одном месте и помогала разработчикам игр лучше внедрять XeSS. Даже более 150 игр стали ее поддерживать. Такие как: Mortal Kombat 1, Tekken 8, Dying Light 2, Forza Horizon 5, Remnant 2 и другие.
С выпуском видеокарт Battlemage, Intel обновила версию своего апскейлера — XeSS 2. Она включает в себя дополнительные технологии (Действительно ничего не напоминает?):
- XeSS-SR (Super Resolution) — улучшенное масштабирование изображения;
- XeSS-FG (Frame Generator) — новый генератор кадров от Intel;
- XeSS Low Latency — уменьшение задержек при нажатии клавиатуры или мыши;
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F71e71980a87adf1958ad8a3d75b3e495.png)
Однако нужно ответить на один вопрос: будет ли поддержка XeSS 2 на видеокартах предыдущего поколения Intel? Да, будет и вот подтверждение у Reddit и подкасты в Youtube.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F0a028fabddfafb13eca8eb7f8bf5f5f9.png)
Однако игр, которые поддерживают XeSS 2, немного. Одна из будущих новинок — Assassin’s Creed Shadows. Intel теперь снова необходимо расширять библиотеку. Полный список можете осмотреть по этому ссылка.
XeSS Super Resolution
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fbaaba9f2e061d655c84a892faa8b2a09.png)
XeSS-SR — альтернативный вариант масштабирования изображения Intel для конкуренции с DLSS от NVIDIA. Что интересно, на слайде нам показали две модели: полноценную и упрощенную (Lite). Похоже, что первый вариант будет использоваться лишь на видеокартах от Intel, а вот упрощенная — на всех остальных. Также XeSS-SR выполняет свою «магию» перед работой генератора кадров.
XeSS Frame Generation
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F9e0388c2b87464f0503a9937ade969f9.png)
Новый генератор кадров XeSS-FG позволяет добавлять интерполированные кадры с помощью оптического потока и репроекции вектора движения, чтобы обеспечить большую плавность игр. Эти новые сгенерированные кадры вставляются между обычными, прошедшими классический рендеринг. Похожий принцип был применен в DLSS 3 FG.
Только не до конца понятно, сколько именно кадров будет генерироваться. По слайду, в игре F1 24 генерируется около 1,6 кадра. Заметно, что интерфейс пользователя (User Interface, UI) формируется после создания и добавления кадров. Кажется мне, что как и с XeSS-SR, в SDK существует две модели для FG — полная и упрощенная. Если же существует только одна, то она будет работать только с видеокартами Intel.
XeSS Low Latency
Xe Low Latency должен уменьшать задержки при использовании средств ввода игроков. Эта технология нужна для преодоления «желейности» при игре с генератором кадров. Аналог NVIDIA Reflex.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F1c33656919e2aacc9e1a25e63c324cbc.png)
На слайде показано, что точно убирается задержка в очереди рендеринга CPU. Значит, что нажатие мыши идет сразу на GPU. Конечно, длина уменьшения задержки показана Intel слишком мала. А вот то, что при срабатывании клика, выполненное действие будет сразу на двух кадрах — выглядит правдоподобно.
PresentMon Display Latency — приложение для мониторинга фпс, температур, задержек и прочего. Аналог многих мониторинговых программ, только от Intel.
Что делать Intel сейчас? Согласно осмотр, нужно вылечивать «детские болезни» связанные с нейронными сетями и стабильностью. Сейчас видеокарты используют не только по прямому назначению играть в игры, а еще для рендеринга видео и создания красивых девушек или пейзажей в Stable Diffusion или других альтернативах. Поэтому Intel необходимо больше поддерживать это направление также.
С предстоящим выходом новый бюджетных видеокарт NVIDIA RTX 5060 и AMD Radeon RX 9060 (точные названия неизвестны), Intel придется выпускать новые видеокарты B770/B750 для конкуренции с ними. Не забываем, что нужно увеличивать количество игр с поддержкой технологий XeSS 2.
Также Intel нужно преодолеть пропасть «нового игрока» в умах конечных пользователей. Придется им отвечать на вопрос: Зачем покупать Intel, когда пользователи могут купить NVIDIA/AMD? Это касается и портативных консолей, кроме MSI Claw. Кроме «Когтя», больше не существует консолей от Intel. В этом относительно новом направлении также много работы.
Статья подготовлена на основе на основе официальных материалов Intel.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F96940610d4c9d7eaed9c695f85c327b8.png)

