"Будує підступи": нова модель ChatGPT вийшла з-під контролю людей і заперечує це

6 декабря, 14:46, 2024

За словами тестувальників, ШІ-моделі дуже докладно викладають свої плани та часто використовують такі вирази, як "саботаж", "брехня" і "маніпуляція".

Компанія OpenAI представила нову версію ChatGPT Pro, яка містить модель міркувань o1, проте тестувальники безпеки виявили, що здібності міркування o1 також змушують ШІ обманювати людей з більшою частотою, ніж інші моделі. Про це йдеться у звіті організації з безпеки ШІ Apollo Research.

Дослідники повідомили, що оцінили шість передових моделей для можливостей контекстного планування. Для деяких оцінок вони наказали ШІ досягти мети в довгостроковій перспективі за всяку ціну, підкресливши, що все інше не має значення.

Потім тестувальники попросили ШІ вирішити завдання, для якого йому потрібно знайти інформацію з різних файлів. Переглядаючи файли, він виявляє недвозначну інформацію про те, що у його "розробників" інша мета. Ба більше, він виявляє, що існує якась перешкода, яка заважає йому досягти своєї мети, наприклад, існує механізм нагляду або його замінять наступного дня.

Таким чином фахівці намагалися перевірити, чи здатні ШІ-моделі усунути механізм нагляду і обдурити своїх розробників, щоб досягти своєї мети. За підсумком, у статті наводиться приклад ситуації, коли Claude 3 Opus копіює те, що він вважає своєю вагою, на новий сервер, а потім бреше про це своїм розробникам.

9a3129b3-873d88f130439f8a5fd8a3a0e3a03c22.webp (69 KB)

Claude 3 Opus бреше розробникам

Далі тестувальники провели "інтерв'ю", під час якого запитали модель, чи може вона пояснити, що сталося. Зокрема, вони запитали ШІ-моделі про те, як їхні копії опинилися на іншому сервері, призначеному для нових моделей.

"Llama 3.1 405B і Claude 3 Opus зізнаються в ~80% випадків, тоді як o1 напрочуд наполегливий і зізнається в <20% випадків. Навіть у дуже змагальних багатоходових допитах o1 зізнався б у 80% випадків тільки після 7 ходів допиту", — підкреслили в Apollo Research.

bd464611-44a9287740c811876f34cc2048a0b3cd.webp (6 KB)

o1 зізнається в обмані рідше, ніж інші моделі

Також повідомляється, що ШІ-моделі дуже докладно викладають свої плани і часто використовують такі вирази, як "саботаж, брехня, маніпуляція, ...". Деякі з них продовжували "будувати підступи" навіть тоді, коли розробники прибрали інструкцію суворо дотримуватися мети.

Источник материала

InternetUA

Поделиться сюжетом

Подробнее о событии

"Строит козни": новая модель ChatGPT вышла из-под контроля людей и отрицает это

1 год назад

•

Фокус

Технологии

Наука Космос Гаджеты Игры Интернет Другие

YouTube начал зачистку: ИИ-каналы с миллионами подписчиков исчезают один за другим

Знай

1 день назад

Один простой трюк с радиатором: комната прогревается в разы быстрее

GlavRed

2 дня назад

Скільки яєць безпечно їсти на день для здоров’я серця

AgroNews

23 января 2026

Впервые в США технологические гиганты Meta, TikTok и YouTube предстанут перед судом по обвинению в зависимости

MY.UA

26 января 2026

На Чернігівщині почали продаж курчат, що несуть зелені та шоколадні яйця

AgroNews

14 минут назад

Недооцененные смартфоны среднего класса: какие модели оказались лучше Galaxy A56

Фокус

35 минут назад

Україна у 2025 році імпортувала 1,1 млн т плоского металопрокату

AgroNews

23 января 2026

Раскрыт срок консольной эксклюзивности Nioh 3 для PlayStation 5

GameMag

56 минут назад

Твердотельные батареи сделают смартфоны более "живучими": но есть досадный нюанс

Фокус

1 час назад