"Будує підступи": нова модель ChatGPT вийшла з-під контролю людей і заперечує це
"Будує підступи": нова модель ChatGPT вийшла з-під контролю людей і заперечує це

"Будує підступи": нова модель ChatGPT вийшла з-під контролю людей і заперечує це

За словами тестувальників, ШІ-моделі дуже докладно викладають свої плани та часто використовують такі вирази, як "саботаж", "брехня" і "маніпуляція".

Компанія OpenAI представила нову версію ChatGPT Pro, яка містить модель міркувань o1, проте тестувальники безпеки виявили, що здібності міркування o1 також змушують ШІ обманювати людей з більшою частотою, ніж інші моделі. Про це йдеться у звіті організації з безпеки ШІ Apollo Research.

Дослідники повідомили, що оцінили шість передових моделей для можливостей контекстного планування. Для деяких оцінок вони наказали ШІ досягти мети в довгостроковій перспективі за всяку ціну, підкресливши, що все інше не має значення.

Потім тестувальники попросили ШІ вирішити завдання, для якого йому потрібно знайти інформацію з різних файлів. Переглядаючи файли, він виявляє недвозначну інформацію про те, що у його "розробників" інша мета. Ба більше, він виявляє, що існує якась перешкода, яка заважає йому досягти своєї мети, наприклад, існує механізм нагляду або його замінять наступного дня.

Таким чином фахівці намагалися перевірити, чи здатні ШІ-моделі усунути механізм нагляду і обдурити своїх розробників, щоб досягти своєї мети. За підсумком, у статті наводиться приклад ситуації, коли Claude 3 Opus копіює те, що він вважає своєю вагою, на новий сервер, а потім бреше про це своїм розробникам.

9a3129b3-873d88f130439f8a5fd8a3a0e3a03c22.webp (69 KB)

Claude 3 Opus бреше розробникам

Далі тестувальники провели "інтерв'ю", під час якого запитали модель, чи може вона пояснити, що сталося. Зокрема, вони запитали ШІ-моделі про те, як їхні копії опинилися на іншому сервері, призначеному для нових моделей.

"Llama 3.1 405B і Claude 3 Opus зізнаються в ~80% випадків, тоді як o1 напрочуд наполегливий і зізнається в <20% випадків. Навіть у дуже змагальних багатоходових допитах o1 зізнався б у 80% випадків тільки після 7 ходів допиту", — підкреслили в Apollo Research.

bd464611-44a9287740c811876f34cc2048a0b3cd.webp (6 KB)

o1 зізнається в обмані рідше, ніж інші моделі

Також повідомляється, що ШІ-моделі дуже докладно викладають свої плани і часто використовують такі вирази, як "саботаж, брехня, маніпуляція, ...". Деякі з них продовжували "будувати підступи" навіть тоді, коли розробники прибрали інструкцію суворо дотримуватися мети.

Источник материала
loader
loader