/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2F8d0e20cfc776cf759ff506662ff3658f.jpg)
DeepSeek показала метод, що робить великі ШІ-моделі ефективнішими
Китайська компанія DeepSeek у 2025 році опублікувала дослідження, в якому запропонувала новий підхід до навчання базових моделей штучного інтелекту. Один із авторів роботи – голова компанії Лян Веньфен (Liang Wenfeng).
Метод називається “гіперзв’язки з обмеженням на різноманіття” (mHC). Він допомагає моделям працювати ефективніше, зберігаючи конкурентоспроможність із американськими розробками, які мають більше обчислювальних ресурсів. Статті DeepSeek виходять у відкритому доступі, що відображає культуру відкритого обміну знаннями в Китаї, і дають уявлення про технології, що готуються до комерційного використання.
Метод mHC тестували на моделях із 3, 9 і 27 млрд параметрів. Він не збільшує значно обчислювальне навантаження порівняно зі звичайними гіперзв’язками (HC), які ByteDance запропонувала ще у 2024 році як модифікацію ResNet – популярної архітектури глибокого навчання. ResNet допомагає навчати дуже глибокі мережі, зберігаючи ключову інформацію через усі шари. Але стандартні гіперзв’язки навантажують пам’ять і ускладнюють масштабування великих моделей.
Метод mHC вирішує цю проблему, зберігаючи потік даних і ефективність, але без сильного збільшення навантаження на пам’ять. Це відкриває нові шляхи для розвитку архітектур нового покоління. За прогнозами, DeepSeek може представити нову велику модель уже у середині лютого 2026 року.

