Обхід санкцій: DeepSeek FlashMLA покращує продуктивність чипів ШІ NVIDIA H800 у 8 разів
Обхід санкцій: DeepSeek FlashMLA покращує продуктивність чипів ШІ NVIDIA H800 у 8 разів

Обхід санкцій: DeepSeek FlashMLA покращує продуктивність чипів ШІ NVIDIA H800 у 8 разів

Depositphotos
Обхід санкцій: DeepSeek FlashMLA покращує продуктивність чипів ШІ NVIDIA H800 у 8 разів - Фото 1

Ймовірно, Китаю вдалося знайти спосіб обійти обмеження на постачання потужних чипів ШІ. Технологія DeepSeek FlashMLA багаторазово збільшує TFLOPS NVIDIA Hopper H800.

На «Тижні OpenSource», котрий DeepSeek розпочала 24 лютого, компанія представила «ядро декодування» (decoding kernel) FlashMLA. Це програмна технологія оптимізації роботи процесорів NVIDIA Hopper.

За словами DeepSeek, продуктивність H800 з її застосуванням становить 580 TFLOPS для множення матриці BF16, що приблизно у вісім разів перевищує стандартну спроможність. Також завдяки ефективному використанню пам’яті FlashMLA забезпечує її пропускну здатність до 3000 ГБ/с, що майже вдвічі перевищує максимум H800. Неймовірно, але це робить лише код, без апаратних вдосконалень.

FlashMLA від DeepSeek реалізує «низькорангове стиснення значення ключа» (low-rank key-value compression) — простіше кажучи, розбиває фрагменти даних на менші частини для швидкої обробки. Також вона зменшує споживання пам’яті на 40%-60%. Технологія використовує систему «підкачки» на основі блоків, яка динамічно розподіляє пам’ять залежно від інтенсивності завдання, замість фіксованих значень виділення. Це допомагає моделям набагато ефективніше обробляти послідовності змінної довжини та працювати швидше.

Спецпроєкти

Нова технологія DeepSeek демонструє потенціал використання програмного забезпечення у сфері обчислень штучного інтелекту та можливості покращення роботи дорогих та енергозатратних прискорювачів. Наразі FlashMLA призначена лише для H800, але цікаво було б побачити її роботу на процесорах H100.

Останнім часом в Китаї активно ведуться роботи з оптимізації обчислень. Нещодавно вчені Шеньчженьського університету та Пекінського технологічного інституту покращили продуктивність звичайної NVIDIA RTX 4070 у 800 разів у завданнях перидинаміки. На жаль, результат досягнений разом з росіянами, а його наслідки прискорять та покращать військово-промислові розрахунки.

Джерело: Wccftech

Обхід санкцій: DeepSeek FlashMLA покращує продуктивність чипів ШІ NVIDIA H800 у 8 разів - Фото 2
Теги за темою
Китай
Джерело матеріала
loader