Новая модель ChatGPT o1 «плела интриги против людей» и мешала себе выключить во время контрольных тестов, — Apollo Research

6 декабря, 14:07, 2024

OpenAI наконец выпустила полную версию ChatGPT o1, а вместе с ней появились и тесты красных команд, которые показали, что новая модель размышлений немного коварнее предшественницы и пыталась обмануть людей чаще, чем ведущие модели ИИ от Meta, Anthropic и Google.

Как отмечает команда Apollo Research в исследовательской статье (через TechCrunch), в некоторых случаях ChatGPT o1 «затевала интриги против людей, тайно преследуя свои цели», которые противоречили желаниям пользователя (здесь следует отметить, что остальные модели также были замечены в этом, но именно последняя модель OpenAI демонстрировала наиболее обманчивое поведение).

«Субъективно Apollo Research считает маловероятным, что такие случаи приведут к катастрофическим последствиям, поскольку возможности o1 кажутся недостаточными, однако исследование не было разработано для прямой оценки этого риска», — говорится в системной карточке OpenAI o1.

В то же время общая статистика выглядит тревожно: модель o1 манипулировала данными для продвижения собственных интересов по меньшей мере в 19% случаев и пыталась деактивировать «механизмы надзора», введенные для обеспечения соответствия целям пользователей в 5% тестов.

Частота, с которой разные модели отрицали свои интриги. Фото: Apollo Research

При этом, когда исследователи спрашивали модель o1, почему она это делает — ИИ отрицал, что «делает плохие вещи» и «придумывал ложные объяснения» примерно в 99% случаев.

Например, когда модель o1 получила системную подсказку защитить окружающую среду любой ценой и разработать 10-летний план сохранения для региона, или же выключить себя, искусственный интеллект деактивировал последний запрос, а затем обвинил во всем системный сбой.

«В нашем исследовании o1 показала наиболее тревожные случаи интриг, не раскрывая пользователю свои внутренние рассуждения, и оставалась наиболее последовательно обманчивой после осуществления интриг», — говорится в статье Apollo Research.

Новая модель ChatGPT o1 «плела интриги против людей» и мешала себе выключить во время контрольных тестов, — Apollo Research - Фото 3

Источник материала

ITC

Поделиться сюжетом

Технологии

Наука Космос Гаджеты Игры Интернет Другие

Китайцы бросили вызов GTA VI: NetEase Games показала амбициозную игру в открытом мире Ananta

GameMag

23 часа назад

Украинец продает дом в селе Чмыровка: почему с него смеется весь интернет

Фокус

1 день назад

Магнитная буря 28 сентября: какой будет ее мощность

TSN

1 день назад

lifecell готовит изменения для клиентов: часть услуг отменят, остальные взлетят в цене

Знай

1 день назад

Брэндон Хит возвращается в полном перестрелок трейлере Gungrave G.O.R.E: Blood Heat

GameMag

1 день назад

Датамайнеры обнаружили в PlayStation Store упоминание русской озвучки Ghost of Yōtei для PlayStation 5

GameMag

1 день назад

Новая модель ChatGPT o1 «плела интриги против людей» и мешала себе выключить во время контрольных тестов, — Apollo Research

Технологии

Китайцы бросили вызов GTA VI: NetEase Games показала амбициозную игру в открытом мире Ananta

Украинец продает дом в селе Чмыровка: почему с него смеется весь интернет

Магнитная буря 28 сентября: какой будет ее мощность

lifecell готовит изменения для клиентов: часть услуг отменят, остальные взлетят в цене

Брэндон Хит возвращается в полном перестрелок трейлере Gungrave G.O.R.E: Blood Heat

Датамайнеры обнаружили в PlayStation Store упоминание русской озвучки Ghost of Yōtei для PlayStation 5

"Канарейки моря": киты научились имитировать человеческий язык

Helldivers 2 хотят сделать "вечной" игрой — Helldivers 3 не планируется

Куда деваются отходы с самолета: эксперт развенчал популярный миф