Обход санкций: DeepSeek FlashMLA улучшает производительность чипов ИИ NVIDIA H800 в 8 раз

26 февраля, 17:43, 2025

Вероятно, Китаю удалось найти способ обойти ограничения на поставки мощных чипов ИИ. Технология DeepSeek FlashMLA многократно увеличивает TFLOPS NVIDIA Hopper H800.

На «Неделе OpenSource», которая DeepSeek начала 24 февраля, компания представила «ядро декодирования» (decoding kernel) FlashMLA. Это программная технология оптимизации работы процессоров NVIDIA Hopper.

По словам DeepSeek, производительность H800 с ее применением составляет 580 TFLOPS для умножения матрицы BF16, что примерно в восемь раз превышает стандартную производительность. Также благодаря эффективному использованию памяти FlashMLA обеспечивает ее пропускную способность до 3000 ГБ/с, что почти вдвое превышает максимум H800. Невероятно, но это делает только код, без аппаратных усовершенствований.

This is crazy.
-> Blazing fast: 580 TFLOPS on H800, ~8x industry avg (73.5 TFLOPS).
-> Memory wizardry: Hits 3000 GB/s, surpassing H800’s 1681 GB/s peak.

— Visionary x AI (@VisionaryxAI) February 24, 2025

FlashMLA от DeepSeek реализует «низкоранговое сжатие значения ключа» (low-rank key-value compression) — проще говоря, разбивает фрагменты данных на меньшие части для быстрой обработки. Также она уменьшает потребление памяти на 40%-60%. Технология использует систему «подкачки» на основе блоков, которая динамически распределяет память в зависимости от интенсивности задачи вместо фиксированных значений выделения. Это помогает моделям намного эффективнее обрабатывать последовательности переменной длины и работать быстрее.

Спецпроекты

Новая технология DeepSeek демонстрирует потенциал использования программного обеспечения в сфере вычислений искусственного интеллекта и возможности улучшения работы дорогих и энергозатратных ускорителей. Пока FlashMLA предназначена только для H800, но интересно было бы увидеть ее работу на процессорах H100.

В последнее время в Китае активно ведутся работы по оптимизации вычислений. Недавно ученые Шэньчжэньского университета и Пекинского технологического института улучшили производительность обычной NVIDIA RTX 4070 в 800 раз в задачах перидинамики. К сожалению, результат достигнут вместе с россиянами, а его последствия ускорят и улучшат военно-промышленные расчеты.

Источник: Wccftech

Обход санкций: DeepSeek FlashMLA улучшает производительность чипов ИИ NVIDIA H800 в 8 раз - Фото 2

Теги по теме

Китай

Источник материала

ITC

Поделиться сюжетом

Технологии

Наука Космос Гаджеты Игры Интернет Другие

Инопланетные цивилизации могут общаться как светлячки у всех на виду, считают ученые

Фокус

7 января 2026

Мы излучаем свет, пока живы: ученые сделали шокирующее открытие

TSN

7 января 2026

У "Резерв+" появились уведомления о бумажных повестках: считается ли это официальным вручением

UAToday

7 января 2026

Іноземцям зовсім скоро стане простіше придбати українську землю

AgroNews

30 минут назад

В новом ChatGPT теперь доступны разговоры о здоровье: OpenAI представила специализированный сервис ChatGPT Health

Знай

2 часа назад

NASA впервые в истории начинает эвакуацию Международной космической станции

Comments UA

2 часа назад

Магнитная буря 11 января: чего ждать от активности Солнца

TSN

3 часа назад

Онлайн Battlefield 6 в Steam обрушился на 90% — игроки покидают шутер, жалуясь на технические проблемы и агрессивную монетизацию

GameMag

11 часов назад

«Адские десантники будут гибнуть»: Глава Arrowhead Game Studios намекнул на будущие обновления Helldivers 2

GameMag

11 часов назад