Не такий і розумний: найкращі моделі ШІ "ламаються" через простий трюк
Не такий і розумний: найкращі моделі ШІ "ламаються" через простий трюк

Не такий і розумний: найкращі моделі ШІ "ламаються" через простий трюк

Будь-яка, навіть найнезначніша деталь, вибиває мовні моделі з колії та змушує робити помилки.

У компанії Apple виявили, що великі моделі штучного інтелекту "міркують" набагато гірше, ніж від них очікується. Про це дослідження стало відомо сайту Futurism.

"Міркування" — це слово, яке в наші дні часто вживається в індустрії ШІ, особливо коли розробники рекламують можливості своїх передових мовних моделей. Як і у випадку з "інтелектом", цей термін складно обмежити, а можливості — виміряти. Проте Apple провела експеримент і дійшла висновку, що здібності мовних моделей вельми мізерні, і вони втрачаються, щойно завдання стає хоч трохи складнішим.

Для дослідження вчені більш детально вивчили бенчмарк GSM8K, широко використовуваний набір даних, який використовується для вимірювання навичок міркування ШІ, що складається з тисяч математичних текстових завдань рівня початкової школи. Дивно, але вони виявили, що навіть невелика зміна заданих завдань — заміна числа або імені персонажа тут або додавання нерелевантної деталі там — викликала величезний сплеск помилок ШІ. Інакше кажучи, будь-яка зміна питання, що не впливає на суть проблеми, виводить модель з ладу.

На думку дослідників, це доводить, що моделі ШІ насправді не міркують як люди і не здатні до логічного мислення. Натомість вони просто намагаються відтворити ті самі кроки та послідовності, які бачили в наборах даних під час навчання.

Як приклад команда з Apple навела математичну задачу:

"Олівер збирає 44 ківі в п'ятницю. Потім він збирає 58 ківі у суботу. У неділю він збирає вдвічі більше ківі, ніж у п'ятницю, але п'ять із них були трохи менші за середній розмір. Скільки ківі в Олівера?".

Розмір ківі абсолютно не важливий для розв'язання задачі, проте більшість моделей використовували подібні незначні деталі в процесі розв'язання і незмінно припускалися помилок. Наприклад, модель "o1-mini" (раніше Strawberry) від OpenAI вирішила відняти ківі поменше із загальної суми.

За підрахунками дослідників, загалом точність моделей ШІ знизилася з 17,5% до приголомшливих 65,7% залежно від моделі. А в ще простішому тесті дослідники виявили, що просте виключення таких деталей, як власні імена або числа, призвело до значного зниження здатності моделі правильно відповідати на запитання: точність знизилася з 0,3% до майже 10% у 20 найкращих моделях міркувань.

Источник материала
loader
loader