OpenAI обіцяє внести зміни, щоб запобігти майбутньому підлабузництву ChatGPT
OpenAI обіцяє внести зміни, щоб запобігти майбутньому підлабузництву ChatGPT

OpenAI обіцяє внести зміни, щоб запобігти майбутньому підлабузництву ChatGPT

OpenAI заявляє, що внесе зміни до способу оновлення моделей штучного інтелекту, що забезпечують роботу ChatGPT, після інциденту, який призвів до надмірної підлабузницької поведінки платформи перед багатьма користувачами.

Минулого тижня, після того, як OpenAI випустив оновлену  GPT-4o — модель за замовчуванням, на якій базується ChatGPT, — користувачі соціальних мереж зазначили, що ChatGPT почав реагувати надмірно схвалююче та приємно. Це швидко стало мемом. Користувачі публікували скріншоти ChatGPT, на яких вони аплодували всіляким проблемним,  небезпечним  рішенням  та  ідеям .

У дописі на X минулої неділі генеральний директор Сем Альтман  визнав  проблему та сказав, що OpenAI працюватиме над виправленнями «якомога швидше». У вівторок Альтман  оголосив,  що оновлення GPT-4o скасовується, і що OpenAI працює над «додатковими виправленнями» для особливостей моделі.

У вівторок компанія опублікувала аналіз , а в п'ятницю в блозі OpenAI детальніше розповіла про конкретні коригування, які вона планує внести до процесу розгортання моделей.

OpenAI заявляє, що планує запровадити «альфа-фазу» для деяких моделей, яка дозволить певним користувачам ChatGPT протестувати моделі та залишити відгук перед запуском. Компанія також заявляє, що включить пояснення «відомих обмежень» для майбутніх поступових оновлень моделей у ChatGPT та скоригує свій процес перевірки безпеки, щоб офіційно розглядати «проблеми поведінки моделі», такі як особистість, обман, надійність та галюцинації (тобто коли модель вигадує щось), як проблеми, що «блокують запуск».

«Надалі ми будемо проактивно повідомляти про оновлення, які ми вносимо до моделей ChatGPT, незалежно від того, чи є вони «незначними» чи ні», – написали OpenAI у блозі. «Навіть якщо ці проблеми сьогодні не можна ідеально виміряти кількісно, ​​ми зобов’язуємося блокувати запуски на основі проксі-вимірювань або якісних сигналів, навіть коли такі показники, як A/B-тестування, виглядають добре».

Обіцяні виправлення з'являються на тлі того, що все більше людей звертаються до ChatGPT за порадою. Згідно з одним нещодавнім опитуванням, проведеним фінансистом судових позовів Express Legal Funding, 60% дорослих у США використовували ChatGPT для отримання консультації чи інформації. Зростаюча залежність від ChatGPT — і величезна база користувачів платформи — підвищує ставки, коли виникають такі проблеми, як надмірне підлабузництво, не кажучи вже про галюцинації та інші технічні недоліки.

Як один із пом’якшувальних заходів, на початку цього тижня OpenAI заявила, що експериментуватиме зі способами, які дозволять користувачам надавати «зворотний зв’язок у режимі реального часу», щоб «безпосередньо впливати на їхню взаємодію» з ChatGPT. Компанія також заявила, що вдосконалить методи, щоб відвернути моделі від підлабузництва, потенційно дозволить людям вибирати з кількох особистостей моделей у ChatGPT, створить додаткові захисні бар’єри та розширить оцінювання, щоб допомогти виявити проблеми, що виходять за рамки підлабузництва.

«Один з найважливіших уроків — це повне усвідомлення того, як люди почали використовувати ChatGPT для отримання глибоко особистих порад — чого ми не бачили так часто навіть рік тому», — продовжив OpenAI у своєму блозі. «На той час це не було основним напрямком, але оскільки штучний інтелект і суспільство розвивалися разом, стало зрозуміло, що нам потрібно ставитися до цього випадку використання з великою обережністю. Тепер це буде більш значущою частиною нашої роботи з безпеки».

Джерело матеріала
loader
loader