/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fcd8c7a29f4e0063b25f7ec182c2f8a55.jpg)
Обход санкций: DeepSeek FlashMLA улучшает производительность чипов ИИ NVIDIA H800 в 8 раз
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fe1e89ad695987725b78696baadff6df8.png)
Вероятно, Китаю удалось найти способ обойти ограничения на поставки мощных чипов ИИ. Технология DeepSeek FlashMLA многократно увеличивает TFLOPS NVIDIA Hopper H800.
На «Неделе OpenSource», которая DeepSeek начала 24 февраля, компания представила «ядро декодирования» (decoding kernel) FlashMLA. Это программная технология оптимизации работы процессоров NVIDIA Hopper.
По словам DeepSeek, производительность H800 с ее применением составляет 580 TFLOPS для умножения матрицы BF16, что примерно в восемь раз превышает стандартную производительность. Также благодаря эффективному использованию памяти FlashMLA обеспечивает ее пропускную способность до 3000 ГБ/с, что почти вдвое превышает максимум H800. Невероятно, но это делает только код, без аппаратных усовершенствований.
This is crazy.
-> Blazing fast: 580 TFLOPS on H800, ~8x industry avg (73.5 TFLOPS).
-> Memory wizardry: Hits 3000 GB/s, surpassing H800’s 1681 GB/s peak.— Visionary x AI (@VisionaryxAI) February 24, 2025
FlashMLA от DeepSeek реализует «низкоранговое сжатие значения ключа» (low-rank key-value compression) — проще говоря, разбивает фрагменты данных на меньшие части для быстрой обработки. Также она уменьшает потребление памяти на 40%-60%. Технология использует систему «подкачки» на основе блоков, которая динамически распределяет память в зависимости от интенсивности задачи вместо фиксированных значений выделения. Это помогает моделям намного эффективнее обрабатывать последовательности переменной длины и работать быстрее.
Новая технология DeepSeek демонстрирует потенциал использования программного обеспечения в сфере вычислений искусственного интеллекта и возможности улучшения работы дорогих и энергозатратных ускорителей. Пока FlashMLA предназначена только для H800, но интересно было бы увидеть ее работу на процессорах H100.
В последнее время в Китае активно ведутся работы по оптимизации вычислений. Недавно ученые Шэньчжэньского университета и Пекинского технологического института улучшили производительность обычной NVIDIA RTX 4070 в 800 раз в задачах перидинамики. К сожалению, результат достигнут вместе с россиянами, а его последствия ускорят и улучшат военно-промышленные расчеты.
Источник: Wccftech
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fe1e89ad695987725b78696baadff6df8.png)

