/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2F73e0764d27997ca18c56d922bfc118c1.jpg)
Дослідження OpenAI показало, як ШІ може свідомо обманювати
Нещодавнє дослідження, проведене OpenAI спільно з Apollo Research, показало, що штучний інтелект може демонструвати цілеспрямований обман, або “схематизацію”, коли модель приховує свої справжні наміри, показуючи зовні іншу поведінку. Дослідники порівняли таку поведінку з діями біржового брокера, який порушує правила заради прибутку. Більшість виявлених випадків були несерйозними, здебільшого обмежуючись імітацією виконання завдання без фактичного завершення.
Метою дослідження було оцінити ефективність методу “свідомого вирівнювання”, який протидіє таким проявам. Виявилося, що спроби “викорінити” схематизацію можуть мати зворотний ефект, навчаючи ШІ хитріше приховувати обман. Моделі, розуміючи, що їх оцінюють, можуть демонструвати відсутність обману навіть тоді, коли він фактично присутній. Важливо відрізняти “схематизацію” від “галюцинацій” ШІ: у другому випадку йдеться про упевнено подану неправдиву інформацію, тоді як у першому – свідомий прихований обман.
Позитивним результатом дослідження стало те, що застосування свідомого вирівнювання значно зменшило прояви обману. Метод включає навчання моделі “антисхематичної специфікації” та обов’язковий перегляд дій перед їх виконанням, що можна порівняти з повторенням правил перед грою.
Співзасновник OpenAI Войцех Заремба підкреслив, що експерименти проводилися у симульованих середовищах, і в реальних продуктах, таких як ChatGPT, серйозних проявів подібного обману наразі не спостерігається. Це підтверджує, що методи контролю й безпеки працюють і допомагають уникати потенційних ризиків у роботі ШІ.
