Doom жорстко «розправився» з передовими моделями штучного інтелекту
Doom жорстко «розправився» з передовими моделями штучного інтелекту

Doom жорстко «розправився» з передовими моделями штучного інтелекту

ШІ-моделі, включно з найсучаснішими версіями від великих розробників, показали слабкі результати в новому бенчмарку VideoGameBench. Згідно з дослідженням, вони насилу справляються із завданнями в класичних відеоіграх — навіть таких, як Doom, Age of Empires і Warcraft II.

Платформа тестує здатність агентів ухвалювати рішення, спираючись лише на зображення з екрана. Однак через високу затримку між візуальним введенням і відповіддю моделі, дії часто виявляються неактуальними — гра вже змінилася.

Дослідження виявило, що ШІ особливо вразливі в динамічних шутерах. Навіть Claude 3.7 Sonnet, найкраща з протестованих моделей, лише знайшла синю кімнату в Doom — і не змогла впевнено рухатися далі. Причина — швидкий розвиток подій і нерозуміння загроз.

Класичні ігри 1990-х були обрані через простоту графіки та різноманітні типи введення — від миші до клавіатури. Це дало можливість перевірити просторове мислення моделей та їхній “комп’ютерний зір”.

Агенти не тільки не справлялися з переміщенням і прицілюванням, а й не могли вибрати базові дії. В іграх на кшталт Civilization і Warcraft II ШІ часто помилявся при наведенні курсору і виборі юнітів.

Розробник тесту, дослідник Алекс Чжан, наголосив, що відсутність інструкцій і складність ігрових механік ставить перед ШІ серйозні виклики. Це доводить: навіть найбільш просунуті моделі поки що не здатні замінити людину у віртуальному середовищі.

Джерело матеріала
loader
loader