Не може міркувати — проста математична задача «зламала» штучний інтелект

21 октября, 09:01

Нове дослідження виявило, що великі мовні моделі штучного інтелекту «міркують» набагато гірше, ніж очікувалось. Команда компанії Apple запропонувала вирішити просту математичну задачу, з якою моделі ШІ не змогли впоратися. Про це повідомляє Futurism.

Для дослідження вчені більш детально вивчили бенчмарк GSM8K, широко використовуваний набір даних, який використовується для вимірювання навичок міркування штучного інтелекту, що складається з тисяч математичних текстових завдань рівня початкової школи.

Дослідники виявили, що навіть невелика зміна заданих завдань — заміна числа або імені персонажа тут або додавання нерелевантної деталі там — викликала величезний сплеск помилок штучного інтелекту. Інакше кажучи, будь-яка зміна питання, що не впливає на суть проблеми, виводить модель з ладу.

На думку дослідників, це доводить, що моделі штучного інтелекту насправді не міркують як люди і не здатні до логічного мислення. Натомість вони просто намагаються відтворити ті самі кроки та послідовності, які бачили в наборах даних під час навчання.

Як приклад команда з Apple навела математичну задачу:

«Олівер збирає 44 ківі в п'ятницю. Потім він збирає 58 ківі у суботу. У неділю він збирає вдвічі більше ківі, ніж у п'ятницю, але п'ять із них були трохи менші за середній розмір. Скільки ківі в Олівера?».

Розмір ківі абсолютно не важливий для розв'язання задачі, проте більшість моделей використовували подібні незначні деталі в процесі розв'язання і незмінно припускалися помилок. Наприклад, модель «o1-mini» (раніше Strawberry) від OpenAI вирішила відняти ківі поменше із загальної суми.

За підрахунками дослідників, загалом точність моделей штучного інтелекту знизилася з 17,5% до приголомшливих 65,7% залежно від моделі. А в ще простішому тесті дослідники виявили, що просте виключення таких деталей, як власні імена або числа, призвело до значного зниження здатності моделі правильно відповідати на запитання: точність знизилася з 0,3% до майже 10% у 20 найкращих моделях міркувань.

Источник материала

InternetUA

Поделиться сюжетом

Технологии

Наука Космос Гаджеты Игры Интернет Другие

В 7 раз эффективнее обычных турбин: создан первый ветрогенератор, спроектированный ИИ

Фокус

20 часов назад

Авторы The Invincible представили антибоевую ролевую игру Dante's Ring — выходит в 2025 году

GameMag

24 ноября 2024

Первую в мире складную батарею для смартфона-гармошки может презентовать Samsung

Фокус

1 минуту назад

Впервые в мире: ученые добывают электричество из тепла весьма необычным способом

Фокус

2 минуты назад

Одна консоль — все игры: На Nintendo Switch скоро соберется полная коллекция Donkey Kong Country

GameMag

5 минут назад

Ученые раскрыли тайну темных овалов размером с Землю на Юпитере

TSN

13 минут назад

Half-Life 2 получила полную украинскую локализацию. Как установить?

ITC

30 минут назад

Разработчики ремейка Silent Hill 2 приступили к созданию новой игры — Bloober Team готовит не только Cronos: The New Dawn

GameMag

31 минуту назад

Глава Xbox Фил Спенсер — не большой сторонник игр по известным лицезиям, и вот почему

GameMag

56 минут назад