Не такий і розумний: найкращі моделі ШІ "ламаються" через простий трюк

18 октября, 20:22

Будь-яка, навіть найнезначніша деталь, вибиває мовні моделі з колії та змушує робити помилки.

У компанії Apple виявили, що великі моделі штучного інтелекту "міркують" набагато гірше, ніж від них очікується. Про це дослідження стало відомо сайту Futurism.

"Міркування" — це слово, яке в наші дні часто вживається в індустрії ШІ, особливо коли розробники рекламують можливості своїх передових мовних моделей. Як і у випадку з "інтелектом", цей термін складно обмежити, а можливості — виміряти. Проте Apple провела експеримент і дійшла висновку, що здібності мовних моделей вельми мізерні, і вони втрачаються, щойно завдання стає хоч трохи складнішим.

Для дослідження вчені більш детально вивчили бенчмарк GSM8K, широко використовуваний набір даних, який використовується для вимірювання навичок міркування ШІ, що складається з тисяч математичних текстових завдань рівня початкової школи. Дивно, але вони виявили, що навіть невелика зміна заданих завдань — заміна числа або імені персонажа тут або додавання нерелевантної деталі там — викликала величезний сплеск помилок ШІ. Інакше кажучи, будь-яка зміна питання, що не впливає на суть проблеми, виводить модель з ладу.

На думку дослідників, це доводить, що моделі ШІ насправді не міркують як люди і не здатні до логічного мислення. Натомість вони просто намагаються відтворити ті самі кроки та послідовності, які бачили в наборах даних під час навчання.

Як приклад команда з Apple навела математичну задачу:

"Олівер збирає 44 ківі в п'ятницю. Потім він збирає 58 ківі у суботу. У неділю він збирає вдвічі більше ківі, ніж у п'ятницю, але п'ять із них були трохи менші за середній розмір. Скільки ківі в Олівера?".

Розмір ківі абсолютно не важливий для розв'язання задачі, проте більшість моделей використовували подібні незначні деталі в процесі розв'язання і незмінно припускалися помилок. Наприклад, модель "o1-mini" (раніше Strawberry) від OpenAI вирішила відняти ківі поменше із загальної суми.

За підрахунками дослідників, загалом точність моделей ШІ знизилася з 17,5% до приголомшливих 65,7% залежно від моделі. А в ще простішому тесті дослідники виявили, що просте виключення таких деталей, як власні імена або числа, призвело до значного зниження здатності моделі правильно відповідати на запитання: точність знизилася з 0,3% до майже 10% у 20 найкращих моделях міркувань.

Источник материала

InternetUA

Поделиться сюжетом

Технологии

Наука Космос Гаджеты Игры Интернет Другие

Зона вас поглотит: журналисты в восторге от украинской S.T.A.L.K.E.R. 2

Фокус

43 минуты назад

Иран нашел способ заставить Кремль расплатиться за поддержку в войне против Украины

Новости Украины

13 октября 2024

Проще не стало: ученые узнали первичное происхождение японцев, однако есть нюанс

Фокус

15 октября 2024

Эксперт рассказал, какие преимущества может дать Украине налаживание сотрудничества с учеными, выехавшими за границу

ZN UA

5 октября 2024

Официально: Роскомнадзор приступил к блокировке Discord в России

GameMag

8 октября 2024

Укрпочта кардинально изменит функционал мобильного приложения

Хвиля

9 октября 2024

Не такий і розумний: найкращі моделі ШІ "ламаються" через простий трюк

Технологии

Зона вас поглотит: журналисты в восторге от украинской S.T.A.L.K.E.R. 2

Иран нашел способ заставить Кремль расплатиться за поддержку в войне против Украины

Проще не стало: ученые узнали первичное происхождение японцев, однако есть нюанс

SpaceX вывела на орбиту 43 интернет-спутника Starlink

Интернет по новым тарифам: когда и насколько подорожают услуги

Лучшие солнечные аккумуляторные батареи для покупки в Украине на зиму

Эксперт рассказал, какие преимущества может дать Украине налаживание сотрудничества с учеными, выехавшими за границу

Официально: Роскомнадзор приступил к блокировке Discord в России

Укрпочта кардинально изменит функционал мобильного приложения

Технологии

Зона вас поглотит: журналисты в восторге от украинской S.T.A.L.K.E.R. 2

Иран нашел способ заставить Кремль расплатиться за поддержку в войне против Украины

Проще не стало: ученые узнали первичное происхождение японцев, однако есть нюанс

SpaceX вывела на орбиту 43 интернет-спутника Starlink

Интернет по новым тарифам: когда и насколько подорожают услуги

Лучшие солнечные аккумуляторные батареи для покупки в Украине на зиму

Эксперт рассказал, какие преимущества может дать Украине налаживание сотрудничества с учеными, выехавшими за границу

Официально: Роскомнадзор приступил к блокировке Discord в России

Укрпочта кардинально изменит функционал мобильного приложения