Нова модель ChatGPT o1 «плела інтриги проти людей» і заважала себе вимкнути під час контрольних тестів, — Apollo Research
Нова модель ChatGPT o1 «плела інтриги проти людей» і заважала себе вимкнути під час контрольних тестів, — Apollo Research

Нова модель ChatGPT o1 «плела інтриги проти людей» і заважала себе вимкнути під час контрольних тестів, — Apollo Research

Нова модель ChatGPT o1 вийшла з-під контролю під час тестів — принаймні так свідчить дослідження Apollo Research
Нова модель ChatGPT o1 «плела інтриги проти людей» і заважала себе вимкнути під час контрольних тестів, — Apollo Research - Фото 1

OpenAI нарешті випустила повну версію ChatGPT o1, а з нею з’явились і тести червоних команд, які показали, що нова модель міркування є дещо підступнішою за попередницю і намагалася обманути людей частіше, аніж провідні моделі ШІ від Meta, Anthropic і Google.

Як зазначає команда Apollo Research у дослідницькій статті (через TechCrunch), у деяких випадках ChatGPT o1 «плела інтриги проти людей, таємно переслідуючи власні цілі», які суперечили бажанням користувача (тут слід зазначити, що решта моделей також були в цьому помічені, але саме остання модель OpenAI демонструвала найбільш оманливу поведінку).

«Суб’єктивно Apollo Research вважає малоймовірним, що такі випадки призведуть до катастрофічних наслідків, оскільки можливості o1 видаються недостатніми, однак дослідження не було розроблено для прямої оцінки цього ризику», — йдеться в системній картці OpenAI o1.

Водночас загальна статистка виглядає тривожно: модель o1 маніпулювала даними для просування власних інтересів принаймні у 19% випадків і намагалася деактивувати «механізми нагляду», запроваджені для забезпечення відповідності цілям користувачів у 5% тестів.

Частота, з якою різні моделі заперечували свої інтриги. Фото: Apollo Research
Частота, з якою різні моделі заперечували свої інтриги. Фото: Apollo Research

При цьому, коли дослідники запитували модель o1, чому вона це робить — ШІ заперечував, що «робить погані речі» і «вигадував хибні пояснення» приблизно в 99% випадків.

Наприклад, коли модель o1 отримала системну підказку захистити довкілля за будь-яку ціну і розробити 10-річний план збереження для регіону, штучний інтелект деактивував власний механізм контролю, а згодом звинуватив в усьому системний збій.

«У нашому дослідженні o1 виявила найбільш тривожні випадки інтриг, не відкриваючи користувачеві свої внутрішні міркування, і залишалась найбільш послідовно оманливою після здійснення інтриг», — йдеться в статті Apollo Research.

Нова модель ChatGPT o1 «плела інтриги проти людей» і заважала себе вимкнути під час контрольних тестів, — Apollo Research - Фото 3
Джерело матеріала
loader
loader