/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F1afd18e1943c9c2d33eca92c94154ab2.jpg)
Огляд архітектури Intel Arc Xe2 Battlemag: «бойовий маг» замінює цільнометалевого Алхіміка
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Ff628e1a9d4d92dfe8f6ffb7460af9c71.png)
Останнім часом Intel не сильно радує з процесорами. Можливо, всі сили кинуті на створення відеокарт та конкуренції з NVIDIA/AMD? Сьогодні подивимось на їхню останню архітектуру Intel Arc Xe2 під кодовою назвою Battlemag (Бойовий маг). А для тих, хто вже бажає побачити практичний результат, ми вже випустили редакційний огляд SPARKLE Intel Arc B580 TITAN OC на цій архітектурі.
Якщо ви слідкуєте за циклом огляду архітектур, мені необхідно пояснити один момент. У NVIDIA та Intel власні маркетингові назви своїх технологій. Для кращого подальшого розуміння, зроблю порівняння термінів. Тим самим спробую підвищити загальний рівень розуміння.
NVIDIA | Intel |
SM-блоки | Xe-ядра |
Тензорні ядра | XMX (Xe Matrix eXtension Engines) |
RT-ядра | RTU (RayTracing Unit) |
GPC | Render Slice |
DLSS | XeSS |
Зміст
- 1 Архітектура Хе 2 Battlemage
-
2 Intel Xe Super Sampling 2 (XeSS 2)
- 2.1 XeSS Super Resolution
- 2.2 XeSS Frame Generation
- 2.3 XeSS Low Latency
Архітектура Хе 2 Battlemage
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F7d6d0e3e9967bec903c200156c5260e0.png)
Кожне Xe ядро другого покоління складається з 8 Векторних блоків (Vector Engines), 8 Блоків XMX (Xe Matrix eXtension Engines), 256 КБ об’єднаного L1 кешу зі Спільною локальною пам’яттю (Shared Local Memory) та всіляких додаткових блоків з управління та взаємодії між ними. Xe ядро другого покоління нативно підтримує операції SIMD16.
У мобільних процесорів Lunar Lake, об’єм об’єднаного L1 кешу та SLM складає 192 КБ.
SIMD (Single Instruction/Multiple Data; Одна інструкція/Кілька Даних) – обчислювальний метод, який забезпечує обробку кількох даних за допомогою однієї інструкції. Тоді як звичайний послідовний підхід із використанням однієї інструкції для обробки одного окремого даних, називається Cкалярними Операціями (Scalar operations). Одним із прикладів для їх покращення – AVX інструкції.
Операції SIMD можна паралелізувати лише на рівні обладнання. Ця можливість підвищує продуктивність векторизованих обчислень, які широко застосовуються у математичних, наукових та графічних додатках.
Векторний механізм (Xe Vector Engine, XVE) — це блок, що виконує інструкції. У кожному XVE основними обчислювальними одиницями є SIMD з плаваючою комою. Інша більш відома назва для XVE – Арифметико-логічні пристрої (Arithmetic Logic Unit, ALU). Проте XVE є покращеною версією ALU. XVE підтримує інструкції з плаваючою комою та цілі числа, такі як MAD або MUL, а також розширені математичні інструкції, такі як sin, cos, exp, log і rcp.
Як було сказано вище, оновлений Векторний механізм отримав підтримку SIMD16 та SIMD32 та збільшену кількість математичних операцій. Звісно існує підтримка INT2, INT4, INT8, FP16, BF16 та TF32.
Механізм Матричного Розширення (Xe Matrix eXtension Engines, XMX) застосовується, як це випливає з назви, для обчислення матричних операцій, які необхідні для роботи AI. Порівняно з попереднім поколінням, збільшено швидкодію у роботі з INT8 та FP16.
Xe ядро лише маленький та важливий «гвинтик» в архітектурі відеокарти. Саме Render Slice є пріоритетним високорівневим апаратним блоком у всіх графічних процесорах сімейства Battlemage. Кожен Render Slice включає чотири Xe ядра, чотири Xe блоків Трасування променів (Ray Tracing Unit, RTU), та функціональні блоки, які підтримують функції візуалізації, геометрію, теселяцію, логіку диспетчеризації та обробки мешів та пікселів.
Кожен з цих невеличких блоків отримав додаткову оптимізацію для зменшення внутрішніх затримок, збільшення пропускної здатності та помилок при текстуризації.
Кеш L2 – кеш-пам’ять верхнього рівня в ієрархії пам’яті. Запити на пам’ять від усіх сегментів рендерингу та Xe-ядер спрямовуються до кешу L2. Для неї також відбулося покращення: підтримка нового рівня компресії даних «8 до N» та швидкого очищення від зайвих ресурсів.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fe5aef189376942994474f8237ca6fee4.png)
Xe блок Трасування променів (Ray Tracing Unit, RTU) обробляє запити, пов’язані з трасуванням променів, отримані від XVE. Кожен RTU має кеш Ієрархії Обмежувальних Томів (Bounding Volume Hierarchy, BVH) для зменшення середньої затримки отримання даних до BVH та здатний обробляти кілька трасувальних променів для підвищення загальної ефективності.
Крім того, кожен RTU підтримується блоком Сортування Потоків (Thread-Sorting Unit, TSU) – спеціальний апаратний блок, який може сортувати та повторно відправляти запити трасування в потоки шейдерів, щоб максимізувати когерентність SIMD від розбіжних променів.
Порівняно з попереднім поколінням, кількість блоків для обчислень Поперечних конвеєрів (Traversal pipelines) та Боксових перетинів (Box intersections) зросла в півтора раза, а місткість пам’яті BVH та Трикутникових перетинів – у два рази.
Поєднавши все це разом, Intel пропонує потенційним користувачам новий відеопроцесор. Чіп BMG-G21 – це новий (і поки єдиний) бюджетний графічний процесор у відеокартах сьогоднішнього покоління для споживчого ринку від Intel. Постачається відеопроцесор в складі двох відеокарт Intel Arc B580 та Intel Arc B570. Якщо B580 містить повну кількість Xe ядер та RTU по 20 блоків кожен, то B570 – лише по 18.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Ff0da045feb02bd994f888b2ac13a20a7.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F2157f4112f96acea89b13ca9c0f4ae07.png)
Порівняно з попереднім поколінням Xe1 Alchemist, новий Xe2 Battlemag отримав по деяким пунктам дуже сильне збільшення в продуктивності:
Xe1 vs Xe2 | |
Compute Dispatch XI | +700% |
Draw XI | +1250% |
Частота заміщення пікселів (Pixel Blend rate) | +210% |
Регулювання меша/сітки шейдера (Mesh shader dispatch) | +410% |
Зріз вершин (Vertex index cut) | +200% |
Обробка вершин (Vertex processing) | +150% |
Теселяція (Tessellation) | +120% |
Перетин променем трикутника (Ray Triangle) | +210% |
Промені (Trace rays) | +160% |
Відгук від запису (Sampler feedback) | +270% |
Наведу таблицю порівнянь характеристик обох поколінь відеокарт Intel. З першого погляду видно, що «Бойовий маг» значно поступається в «залізі», ніж «Алхімік». За деякими параметрам різниця більше ніж в три рази!
A770 | А750 | А580 | B580 | B570 | |
Чіп | ACM-G10 | ACM-G10 | ACM-G11 | BMG-G21 | BMG-G21 |
Xe ядер | 32 | 28 | 24 | 20 | 18 |
Render Slice | 8 | 7 | 6 | 5 | 5 |
RTU | 32 | 28 | 24 | 20 | 18 |
XMX | 512 | 448 | 384 | 160 | 144 |
XVE | 512 | 448 | 384 | 160 | 144 |
Частота | 2100 МГц | 2050 МГц | 1700 МГц | 2670 МГц | 2500 МГц |
TDP | 225 Вт | 225 Вт | 185 Вт | 190 Вт | 150 Вт |
Відеопам’ять | 16 ГБ GDDR6 | 8 ГБ GDDR6 | 8 ГБ GDDR6 | 12 ГБ GDDR6 | 10 ГБ GDDR6 |
Пропускна здатність відеопам’яті | 560 ГБ/с | 512 ГБ/с | 512 ГБ/с | 456 ГБ/с | 380 ГБ/с |
Швидкість відеопам’яті | 17,5 Гбіт/с | 16 Гбіт/с | 16 Гбіт/с | 19 Гбіт/с | 19 Гбіт/с |
Невже виходить так, що нове покоління слабкіше за попереднє? Ні, просто Intel зробила дивовижну роботу по оптимізації драйверів та тісно співпрацювала з розробниками ігор для підтримки нових технологій. Навіть у редакційному огляді Intel B580 добре показувала себе в іграх.
Якщо подивитися на найменування процесорів, тоді щось не сходиться. Представлений BMG-G21 по назві та характеристикам нагадує слабкіший варіант ACM-G11. Пропоную два варіанти ймовірних рішень:
- Intel представить чіп BMG-G20, який буде ще потужнішим для конкуренції з NVIDIA RTX 5060;
- Intel більше не випустить жодного чіпа на цій архітектурі. Причин багато, але очевидна — підготовка до третього покоління, який чекати ще півтора року.
Intel заявляє про високу масштабованість нового покоління відеокарт, але без Middle чи High-End рішень це не дуже цікаво. Ймовірно, цю масштабованість побачимо для бізнесу та серверних рішень.
Можливо три основні гравці на ринку вже поділили між собою частки ринку: NVIDIA забирає за собою ТОП рішення та Nintendo Switch 2, AMD отримує середньобюджетні рішення та консолі PS з Xbox, а Intel – бюджетні рішення. По випуску користувацьких відеокарт складається саме така картина.
Intel Xe Super Sampling 2 (XeSS 2)
Після вдалої появи та розвитку технологій DLSS та FSR у конкурентів, Intel потрібна була своя реалізація масштабування зображення в іграх на основі АІ. У 2022 році разом з архітектурою першого покоління Alchemist було представлено Xe Super Sampling – застосовує глибоке навчання для синтезу зображень, які будуть близькими за якістю до рідної високої роздільної здатності.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F550a5f8ee008d9aec7114af839dc303a.png)
Два роки Intel не сиділа на одному місці та допомагала розробникам ігор краще впроваджувати XeSS. Навіть понад 150 ігор стали її підтримувати. Такі як: Mortal Kombat 1, Tekken 8, Dying Light 2, Forza Horizon 5, Remnant 2 та інші.
З випуском відеокарт Battlemage, Intel оновила версію свого апскейлеру — XeSS 2. Вона містить в собі додаткові технології (Дійсно нічого не нагадує?):
- XeSS-SR (Super Resolution) — покращене масштабування зображення;
- XeSS-FG (Frame Generator) — новий генератор кадрів від Intel;
- XeSS Low Latency — зменшення затримок при натисканні клавіатури чи миші;
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fa41715054e1afdbad80cff9cf91ced65.png)
Однак потрібно відповісти на одне питання: чи буде підтримка XeSS 2 на відеокартах попереднього покоління Intel? Так, буде й ось підтвердження у Reddit та подкасті в Youtube.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F48fd28188d9d5d01767da2d9dcded022.png)
Проте ігор, які підтримують XeSS 2, небагато. Одна з майбутніх новинок — Assassin’s Creed Shadows. Intel тепер знову необхідно розширювати бібліотеку. Повний список можете оглянути за цим посиланням.
XeSS Super Resolution
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F88a7cc2d7d93bd011e4ba0d9778fcb8b.png)
XeSS-SR — альтернативний варіант масштабування зображення Intel для конкуренції з DLSS від NVIDIA. Що цікаво, на слайді нам показали дві моделі: повноцінну та спрощену (Lite). Виглядає, що перший варіант буде використовуватися лише на відеокартах від Intel, а ось спрощена — на всіх інших. Також XeSS-SR виконує свою «магію» перед роботою генератора кадрів.
XeSS Frame Generation
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fa7af4d15cc6435e6fe81ffebb49b4b3e.png)
Новий генератор кадрів XeSS-FG дозволяє додавати інтерпольовані кадри за допомогою оптичного потоку та репроекції вектора руху, щоб забезпечити більшу плавність ігор. Ці нові згенеровані кадри вставляються між звичайними, що пройшли класичний рендеринг. Схожий принцип було застосовано в DLSS 3 FG.
Тільки не до кінця зрозуміло, скільки саме кадрів буде генеруватися. По слайду, в грі F1 24 генерується близько 1,6 кадра. Помітно, що інтерфейс користувача (User Interface, UI) формується після створення та додавання кадрів. Здається мені, що як і з XeSS-SR, в SDK існує дві моделі для FG — повна та спрощена. Якщо ж існує лише одна, то вона буде працювати лише з відеокартами Intel.
XeSS Low Latency
Xe Low Latency повинен зменшувати затримки при користуванні засобами вводу гравців. Ця технологія потрібна для подолання «желейності» при грі з генератором кадрів. Аналог NVIDIA Reflex.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fb5853e05fab65e80f06f53ad79290f64.png)
На слайді показано, що точно прибирається затримка у черзі рендерингу CPU. Значить, що натискання миші йде відразу на GPU. Звісно, довжина зменшення затримки показана Intel занадто мала. А ось те, що під час спрацювання кліку, виконана дія буде відразу на двох кадрах — виглядає правдоподібно.
PresentMon Display Latency — застосунок для моніторингу фпс, температур, затримок та іншого. Аналог багатьох моніторингових програм, тільки від Intel.
Що робити Intel зараз? Згідно огляду, потрібно виліковувати «дитячі хвороби» повʼязані з нейронними мережами та стабільністю. Зараз відеокарти використовують не тільки по прямому призначенню грати в ігри, а ще для рендерингу відео та створення красивих дівчат чи краєвидів у Stable Diffusion чи інших альтернативах. Тому Intel необхідно більше підтримувати цей напрямок також.
З майбутнім виходом новий бюджетних відеокарт NVIDIA RTX 5060 та AMD Radeon RX 9060 (точні назви невідомі), Intel доведеться випускати нові відеокарти B770/B750 для конкуренції з ними. Не забуваємо, що потрібно збільшувати кількість ігор з підтримкою технологій XeSS 2.
Також Intel потрібно подолати прірву «нового гравця» у розумах кінцевих користувачів. Доведеться їм відповідати на питання: Навіщо купувати Intel, коли користувачі можуть купити NVIDIA/AMD? Це стосується і портативних консолей, окрім MSI Claw. Крім «Кігтя», більше не існує консолей від Intel. В цьому відносно новому напрямку також багато роботи.
Стаття підготовлена на основі нофіційних матеріалів Intel.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Ff628e1a9d4d92dfe8f6ffb7460af9c71.png)

