/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2F0c8ad1ca34871ecaa944afbcfd07164d.jpg)
DeepSeek презентував інноваційний проєкт у сфері штучного інтелекту
Китайський стартап DeepSeek, який став відомим завдяки своїй міркуючій ШІ-моделі R1, представив новий метод навчання, що обіцяє суттєве підвищення ефективності штучного інтелекту. У співпраці з дослідниками з університету Цінхуа компанія опублікувала наукову роботу, в якій описала інноваційний підхід до тренування моделей через механізм позитивного підкріплення.
Розроблений метод спрямований на поліпшення відповідності ШІ-моделей людським уподобанням. Він використовує систему винагород, що заохочує створення точніших і зрозуміліших відповідей. Хоча навчання з підкріпленням вже довело свою ефективність у спеціалізованих задачах, його застосування до більш загальних сценаріїв залишалося обмеженим. Команда DeepSeek запропонувала вирішення цієї проблеми, об’єднавши генеративне моделювання винагороди (GRM) із самокоригуванням на основі принципів.
Як показали результати дослідження, новий підхід перевершує наявні методики в розвитку міркувальних здібностей великих мовних моделей (LLM). Тестування підтвердило, що моделі, треновані за допомогою GRM, демонструють вищу ефективність у роботі з широким спектром запитів, водночас споживаючи менше обчислювальних ресурсів.
Нові ШІ-моделі отримали назву DeepSeek-GRM — від Generalist Reward Modeling (універсальне моделювання винагороди).

