Нова модель ChatGPT o1 «плела інтриги проти людей» і заважала себе вимкнути під час контрольних тестів, — Apollo Research

6 грудня, 13:13, 2024

Нова модель ChatGPT o1 вийшла з-під контролю під час тестів — принаймні так свідчить дослідження Apollo Research

Нова модель ChatGPT o1 «плела інтриги проти людей» і заважала себе вимкнути під час контрольних тестів, — Apollo Research - Фото 1

OpenAI нарешті випустила повну версію ChatGPT o1, а з нею з’явились і тести червоних команд, які показали, що нова модель міркування є дещо підступнішою за попередницю і намагалася обманути людей частіше, аніж провідні моделі ШІ від Meta, Anthropic і Google.

Як зазначає команда Apollo Research у дослідницькій статті (через TechCrunch), у деяких випадках ChatGPT o1 «плела інтриги проти людей, таємно переслідуючи власні цілі», які суперечили бажанням користувача (тут слід зазначити, що решта моделей також були в цьому помічені, але саме остання модель OpenAI демонструвала найбільш оманливу поведінку).

«Суб’єктивно Apollo Research вважає малоймовірним, що такі випадки призведуть до катастрофічних наслідків, оскільки можливості o1 видаються недостатніми, однак дослідження не було розроблено для прямої оцінки цього ризику», — йдеться в системній картці OpenAI o1.

Водночас загальна статистка виглядає тривожно: модель o1 маніпулювала даними для просування власних інтересів принаймні у 19% випадків і намагалася деактивувати «механізми нагляду», запроваджені для забезпечення відповідності цілям користувачів у 5% тестів.

Частота, з якою різні моделі заперечували свої інтриги. Фото: Apollo Research

При цьому, коли дослідники запитували модель o1, чому вона це робить — ШІ заперечував, що «робить погані речі» і «вигадував хибні пояснення» приблизно в 99% випадків.

Наприклад, коли модель o1 отримала системну підказку захистити довкілля за будь-яку ціну і розробити 10-річний план збереження для регіону, штучний інтелект деактивував власний механізм контролю, а згодом звинуватив в усьому системний збій.

«У нашому дослідженні o1 виявила найбільш тривожні випадки інтриг, не відкриваючи користувачеві свої внутрішні міркування, і залишалась найбільш послідовно оманливою після здійснення інтриг», — йдеться в статті Apollo Research.

Нова модель ChatGPT o1 «плела інтриги проти людей» і заважала себе вимкнути під час контрольних тестів, — Apollo Research - Фото 3

Джерело матеріала

ITC

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Південна Корея планує перевершити OpenAI за допомогою власного штучного інтелекту

InternetUA

1 день тому

Гравці EA FC 26 вже знайшли баг, який зруйнував економіку гри на ПК

24tv

1 день тому

Як і скільки реально можна заробити на YouTube – секрети, про які мало говорять

24tv

1 день тому

Чому не можна закривати кришку ноутбука одразу після вимкнення: експерт сказав, скільки треба почекати

InternetUA

1 день тому

Нове життя для старого ноутбука: перетворіть його на власний медіасервер

InternetUA

1 день тому

Нова модель ChatGPT o1 «плела інтриги проти людей» і заважала себе вимкнути під час контрольних тестів, — Apollo Research

Технології

У Чорнобильському заповіднику зникла низка рідкісних риб

Foxtrot радить: ноутбуки з акцентом на безпеку та приватність у 2025 році

Експерт: бульбашка гуманоїдних роботів приречена луснути

За грам – мільйони: скільки коштує каліфорній

Південна Корея планує перевершити OpenAI за допомогою власного штучного інтелекту

Гравці EA FC 26 вже знайшли баг, який зруйнував економіку гри на ПК

Як і скільки реально можна заробити на YouTube – секрети, про які мало говорять

Чому не можна закривати кришку ноутбука одразу після вимкнення: експерт сказав, скільки треба почекати

Нове життя для старого ноутбука: перетворіть його на власний медіасервер

Технології

У Чорнобильському заповіднику зникла низка рідкісних риб

Foxtrot радить: ноутбуки з акцентом на безпеку та приватність у 2025 році

Експерт: бульбашка гуманоїдних роботів приречена луснути

За грам – мільйони: скільки коштує каліфорній

Південна Корея планує перевершити OpenAI за допомогою власного штучного інтелекту

Гравці EA FC 26 вже знайшли баг, який зруйнував економіку гри на ПК

Як і скільки реально можна заробити на YouTube – секрети, про які мало говорять

Чому не можна закривати кришку ноутбука одразу після вимкнення: експерт сказав, скільки треба почекати

Нове життя для старого ноутбука: перетворіть його на власний медіасервер