/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F52d7d9ba598ed9bca2ee3cf143db7345.jpg)
Новая модель ChatGPT o1 «плела интриги против людей» и мешала себе выключить во время контрольных тестов, — Apollo Research
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F278179072d45b7d7c864d4544ed1c119.png)
OpenAI наконец выпустила полную версию ChatGPT o1, а вместе с ней появились и тесты красных команд, которые показали, что новая модель размышлений немного коварнее предшественницы и пыталась обмануть людей чаще, чем ведущие модели ИИ от Meta, Anthropic и Google.
Как отмечает команда Apollo Research в исследовательской статье (через TechCrunch), в некоторых случаях ChatGPT o1 «затевала интриги против людей, тайно преследуя свои цели», которые противоречили желаниям пользователя (здесь следует отметить, что остальные модели также были замечены в этом, но именно последняя модель OpenAI демонстрировала наиболее обманчивое поведение).
«Субъективно Apollo Research считает маловероятным, что такие случаи приведут к катастрофическим последствиям, поскольку возможности o1 кажутся недостаточными, однако исследование не было разработано для прямой оценки этого риска», — говорится в системной карточке OpenAI o1.
В то же время общая статистика выглядит тревожно: модель o1 манипулировала данными для продвижения собственных интересов по меньшей мере в 19% случаев и пыталась деактивировать «механизмы надзора», введенные для обеспечения соответствия целям пользователей в 5% тестов.
При этом, когда исследователи спрашивали модель o1, почему она это делает — ИИ отрицал, что «делает плохие вещи» и «придумывал ложные объяснения» примерно в 99% случаев.
Например, когда модель o1 получила системную подсказку защитить окружающую среду любой ценой и разработать 10-летний план сохранения для региона, или же выключить себя, искусственный интеллект деактивировал последний запрос, а затем обвинил во всем системный сбой.
«В нашем исследовании o1 показала наиболее тревожные случаи интриг, не раскрывая пользователю свои внутренние рассуждения, и оставалась наиболее последовательно обманчивой после осуществления интриг», — говорится в статье Apollo Research.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2F278179072d45b7d7c864d4544ed1c119.png)
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F118%2Fc2e7b5d40f63f9c0e1078afef792d83f.jpg)
Китайцы бросили вызов GTA VI: NetEase Games показала амбициозную игру в открытом мире Ananta
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F53%2F3fdc68400a68cac863fed4695d5dd2b0.png)
Украинец продает дом в селе Чмыровка: почему с него смеется весь интернет
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F1%2F2619c168618f76c0dc85027c2ec13b0a.jpg)
Магнитная буря 28 сентября: какой будет ее мощность
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F9%2F641b76fda848af51cadd11cff81340fa.jpg)
lifecell готовит изменения для клиентов: часть услуг отменят, остальные взлетят в цене
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F118%2F3cf94a70f3d990a3ee37faf765d7e553.jpg)
Брэндон Хит возвращается в полном перестрелок трейлере Gungrave G.O.R.E: Blood Heat
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F118%2F86e58096aa6b295a19d1aadd6c424821.jpg)
Датамайнеры обнаружили в PlayStation Store упоминание русской озвучки Ghost of Yōtei для PlayStation 5
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F1%2Fd729ba0308ad1fadfa79fcaa0bd17740.jpg)