Дослідження OpenAI показало, як ШІ може свідомо обманювати

23 вересня, 03:03

Нещодавнє дослідження, проведене OpenAI спільно з Apollo Research, показало, що штучний інтелект може демонструвати цілеспрямований обман, або “схематизацію”, коли модель приховує свої справжні наміри, показуючи зовні іншу поведінку. Дослідники порівняли таку поведінку з діями біржового брокера, який порушує правила заради прибутку. Більшість виявлених випадків були несерйозними, здебільшого обмежуючись імітацією виконання завдання без фактичного завершення.

Метою дослідження було оцінити ефективність методу “свідомого вирівнювання”, який протидіє таким проявам. Виявилося, що спроби “викорінити” схематизацію можуть мати зворотний ефект, навчаючи ШІ хитріше приховувати обман. Моделі, розуміючи, що їх оцінюють, можуть демонструвати відсутність обману навіть тоді, коли він фактично присутній. Важливо відрізняти “схематизацію” від “галюцинацій” ШІ: у другому випадку йдеться про упевнено подану неправдиву інформацію, тоді як у першому – свідомий прихований обман.

Позитивним результатом дослідження стало те, що застосування свідомого вирівнювання значно зменшило прояви обману. Метод включає навчання моделі “антисхематичної специфікації” та обов’язковий перегляд дій перед їх виконанням, що можна порівняти з повторенням правил перед грою.

Співзасновник OpenAI Войцех Заремба підкреслив, що експерименти проводилися у симульованих середовищах, і в реальних продуктах, таких як ChatGPT, серйозних проявів подібного обману наразі не спостерігається. Це підтверджує, що методи контролю й безпеки працюють і допомагають уникати потенційних ризиків у роботі ШІ.

Джерело матеріала

InternetUA

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Штучний інтелект під загрозою: науковці критикують потік низькоякісних досліджень

ГЛАВКОМ NET

2 дня тому

Лайфхак для шпигунів: голос людини можна змінити, але є нюанс

Фокус

2 дня тому

Недорогі смартфони майже наздогнали великі флагмани: чи є сенс переплачувати

Фокус

3 грудня 2025

Ігри зі Steam можуть стати доступними на смартфонах і планшетах – як це працюватиме

24tv

3 грудня 2025

Шукали одне, а знайшли зовсім інше: випадкові відкриття, які змінили світ назавжди

24tv

3 грудня 2025

Дослідження OpenAI показало, як ШІ може свідомо обманювати

Технології

Перший у світі смартфон із повністю голосовим управлінням з'явився у Китаї

16-річна українка в Уельсі досліджує сонячні панелі для космічних місій

Маскова Х заблокувала рекламний акаунт Єврокомісії після штрафу проти себе

Прогноз магнітних бур на 7-8 грудня: якою буде сонячна активність

Штучний інтелект під загрозою: науковці критикують потік низькоякісних досліджень

Лайфхак для шпигунів: голос людини можна змінити, але є нюанс

Недорогі смартфони майже наздогнали великі флагмани: чи є сенс переплачувати

Ігри зі Steam можуть стати доступними на смартфонах і планшетах – як це працюватиме

Шукали одне, а знайшли зовсім інше: випадкові відкриття, які змінили світ назавжди

Технології

Перший у світі смартфон із повністю голосовим управлінням з'явився у Китаї

16-річна українка в Уельсі досліджує сонячні панелі для космічних місій

Маскова Х заблокувала рекламний акаунт Єврокомісії після штрафу проти себе

Прогноз магнітних бур на 7-8 грудня: якою буде сонячна активність

Штучний інтелект під загрозою: науковці критикують потік низькоякісних досліджень

Лайфхак для шпигунів: голос людини можна змінити, але є нюанс

Недорогі смартфони майже наздогнали великі флагмани: чи є сенс переплачувати

Ігри зі Steam можуть стати доступними на смартфонах і планшетах – як це працюватиме

Шукали одне, а знайшли зовсім інше: випадкові відкриття, які змінили світ назавжди