Обход санкций: DeepSeek FlashMLA улучшает производительность чипов ИИ NVIDIA H800 в 8 раз
Обход санкций: DeepSeek FlashMLA улучшает производительность чипов ИИ NVIDIA H800 в 8 раз

Обход санкций: DeepSeek FlashMLA улучшает производительность чипов ИИ NVIDIA H800 в 8 раз

Обход санкций: DeepSeek FlashMLA улучшает производительность чипов ИИ NVIDIA H800 в 8 раз - Фото 1

Вероятно, Китаю удалось найти способ обойти ограничения на поставки мощных чипов ИИ. Технология DeepSeek FlashMLA многократно увеличивает TFLOPS NVIDIA Hopper H800.

На «Неделе OpenSource», которая DeepSeek начала 24 февраля, компания представила «ядро декодирования» (decoding kernel) FlashMLA. Это программная технология оптимизации работы процессоров NVIDIA Hopper.

По словам DeepSeek, производительность H800 с ее применением составляет 580 TFLOPS для умножения матрицы BF16, что примерно в восемь раз превышает стандартную производительность. Также благодаря эффективному использованию памяти FlashMLA обеспечивает ее пропускную способность до 3000 ГБ/с, что почти вдвое превышает максимум H800. Невероятно, но это делает только код, без аппаратных усовершенствований.

FlashMLA от DeepSeek реализует «низкоранговое сжатие значения ключа» (low-rank key-value compression) — проще говоря, разбивает фрагменты данных на меньшие части для быстрой обработки. Также она уменьшает потребление памяти на 40%-60%. Технология использует систему «подкачки» на основе блоков, которая динамически распределяет память в зависимости от интенсивности задачи вместо фиксированных значений выделения. Это помогает моделям намного эффективнее обрабатывать последовательности переменной длины и работать быстрее.

Спецпроекты

Новая технология DeepSeek демонстрирует потенциал использования программного обеспечения в сфере вычислений искусственного интеллекта и возможности улучшения работы дорогих и энергозатратных ускорителей. Пока FlashMLA предназначена только для H800, но интересно было бы увидеть ее работу на процессорах H100.

В последнее время в Китае активно ведутся работы по оптимизации вычислений. Недавно ученые Шэньчжэньского университета и Пекинского технологического института улучшили производительность обычной NVIDIA RTX 4070 в 800 раз в задачах перидинамики. К сожалению, результат достигнут вместе с россиянами, а его последствия ускорят и улучшат военно-промышленные расчеты.

Источник: Wccftech

Обход санкций: DeepSeek FlashMLA улучшает производительность чипов ИИ NVIDIA H800 в 8 раз - Фото 2
Теги по теме
Китай
Источник материала
loader
loader