/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2Fffc3597f60b4de86b70714de7e54b632.png)
Doom жорстко «розправився» з передовими моделями штучного інтелекту
ШІ-моделі, включно з найсучаснішими версіями від великих розробників, показали слабкі результати в новому бенчмарку VideoGameBench. Згідно з дослідженням, вони насилу справляються із завданнями в класичних відеоіграх — навіть таких, як Doom, Age of Empires і Warcraft II.
Платформа тестує здатність агентів ухвалювати рішення, спираючись лише на зображення з екрана. Однак через високу затримку між візуальним введенням і відповіддю моделі, дії часто виявляються неактуальними — гра вже змінилася.
Дослідження виявило, що ШІ особливо вразливі в динамічних шутерах. Навіть Claude 3.7 Sonnet, найкраща з протестованих моделей, лише знайшла синю кімнату в Doom — і не змогла впевнено рухатися далі. Причина — швидкий розвиток подій і нерозуміння загроз.
Класичні ігри 1990-х були обрані через простоту графіки та різноманітні типи введення — від миші до клавіатури. Це дало можливість перевірити просторове мислення моделей та їхній “комп’ютерний зір”.
Агенти не тільки не справлялися з переміщенням і прицілюванням, а й не могли вибрати базові дії. В іграх на кшталт Civilization і Warcraft II ШІ часто помилявся при наведенні курсору і виборі юнітів.
Розробник тесту, дослідник Алекс Чжан, наголосив, що відсутність інструкцій і складність ігрових механік ставить перед ШІ серйозні виклики. Це доводить: навіть найбільш просунуті моделі поки що не здатні замінити людину у віртуальному середовищі.

