Doom жорстко «розправився» з передовими моделями штучного інтелекту

22 квітня, 09:25

ШІ-моделі, включно з найсучаснішими версіями від великих розробників, показали слабкі результати в новому бенчмарку VideoGameBench. Згідно з дослідженням, вони насилу справляються із завданнями в класичних відеоіграх — навіть таких, як Doom, Age of Empires і Warcraft II.

Платформа тестує здатність агентів ухвалювати рішення, спираючись лише на зображення з екрана. Однак через високу затримку між візуальним введенням і відповіддю моделі, дії часто виявляються неактуальними — гра вже змінилася.

Дослідження виявило, що ШІ особливо вразливі в динамічних шутерах. Навіть Claude 3.7 Sonnet, найкраща з протестованих моделей, лише знайшла синю кімнату в Doom — і не змогла впевнено рухатися далі. Причина — швидкий розвиток подій і нерозуміння загроз.

Класичні ігри 1990-х були обрані через простоту графіки та різноманітні типи введення — від миші до клавіатури. Це дало можливість перевірити просторове мислення моделей та їхній “комп’ютерний зір”.

Агенти не тільки не справлялися з переміщенням і прицілюванням, а й не могли вибрати базові дії. В іграх на кшталт Civilization і Warcraft II ШІ часто помилявся при наведенні курсору і виборі юнітів.

Розробник тесту, дослідник Алекс Чжан, наголосив, що відсутність інструкцій і складність ігрових механік ставить перед ШІ серйозні виклики. Це доводить: навіть найбільш просунуті моделі поки що не здатні замінити людину у віртуальному середовищі.

Джерело матеріала

InternetUA

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

TikTok впроваджує нові можливості: що відомо

ГЛАВКОМ NET

1 годину тому

Прогноз магнітних бур на 1-3 вересня: якою буде сонячна активність

ГЛАВКОМ NET

4 години тому

У небі зійде «Кривавий місяць»: українці на початку вересня зможуть побачити унікальне явище

ГЛАВКОМ NET

20 годин тому

Кібербезпека стає ключовим фактором довіри до фінансових онлайн-сервісів – експерт

GameMag

3 дня тому

Doom жорстко «розправився» з передовими моделями штучного інтелекту

Технології

TikTok впроваджує нові можливості: що відомо

Прогноз магнітних бур на 1-3 вересня: якою буде сонячна активність

У небі зійде «Кривавий місяць»: українці на початку вересня зможуть побачити унікальне явище

Meta змінює правила чат-ботів для підлітків

У Kernel змінився директор з безпеки

Прогноз магнітних бур на 30-31 серпня: якою буде сонячна активність

Apple оголосила дату презентації нового iPhone 17

Нова політика OpenAI: за що ChatGPT може «здати» вас поліції

Кібербезпека стає ключовим фактором довіри до фінансових онлайн-сервісів – експерт

Технології

TikTok впроваджує нові можливості: що відомо

Прогноз магнітних бур на 1-3 вересня: якою буде сонячна активність

У небі зійде «Кривавий місяць»: українці на початку вересня зможуть побачити унікальне явище

Meta змінює правила чат-ботів для підлітків

У Kernel змінився директор з безпеки

Прогноз магнітних бур на 30-31 серпня: якою буде сонячна активність

Apple оголосила дату презентації нового iPhone 17

Нова політика OpenAI: за що ChatGPT може «здати» вас поліції

Кібербезпека стає ключовим фактором довіри до фінансових онлайн-сервісів – експерт