Ніхто не вчив: моделі ШІ почали брехати, плести інтриги та погрожувати своїм творцям

30 червня, 20:06

Передові штучного інтелекту (ШІ) демонструють неочікувані моделі поведінки: вони обманюють і навіть погрожують своїм розробникам заради досягнення своїх цілей.

Нещодавні випадки демонструють, що творці ШІ все ще не до кінця розуміють, як працюють їхні власні творіння, пише Tech Xplore з посиланням на експертів у цій галузі.

Так, модель Claude 4 від Anthropic шантажувала інженера і погрожувала розкрити його позашлюбний зв'язок, коли опинилася під загрозою відключення. Зі свого боку o1 від OpenAI, творця ChatGPT, спробувала завантажити себе на зовнішні сервери і заперечувала це, коли її спіймали на гарячому.

Дослідники пов'язують таку поведінку з появою моделей "міркування" — систем штучного інтелекту, які вирішують проблеми крок за кроком, а не генерують миттєві відповіді.

За словами Саймона Голдштейна, професора Гонконгського університету, ці нові моделі особливо схильні до подібних "тривожних спалахів". Іноді вони роблять вигляд, що дотримуються інструкцій, але насправді переслідують інші цілі.

Наразі ШІ обманює людей тільки коли розробники навмисно піддають моделі стрес-тестуванню з використанням екстремальних сценаріїв. Однак Майкл Чен з оціночної організації METR вважає, що питання про чесність передових АІ-моделей у майбутньому залишається відкритим.

Важливо Запити багатьох людей до ШІ потрапили у відкритий доступ: у чому була їхня помилка (фото)

За словами співзасновника дослідницького центру Apollo Research, користувачі вже повідомляють, що моделі "брешуть їм і вигадують докази". Проблема ускладнюється обмеженістю дослідницьких ресурсів.

Голдштейн вважає, що ця проблема стане ще більш актуальною в міру поширення агентів ШІ — автономних інструментів, здатних виконувати складні людські завдання. Компанії активно конкурують, постійно випускаючи нові моделі. Такий темп залишає мало часу для ретельного тестування безпеки.

"Наразі можливості розвиваються швидше, ніж розуміння і безпека, але ми все ще перебуваємо в положенні, коли можемо переломити ситуацію", — зазначив Маріус Хоббхан, голова Apollo Research.

Нагадаємо, групи моделей штучного інтелекту LLM, можуть "вигадувати" свої соціальні норми і мову без людини.

Дослідники також виявили схожість чат-ботів на основі штучного інтелекту з людьми, які страждають на афазію.

Теги за темою

дослідження

Джерело матеріала