Новітні моделі штучного інтелекту OpenAI мають новий захист для запобігання біоризикам

18 апреля, 09:31

OpenAI каже, що розгорнула нову систему для моніторингу своїх останніх моделей міркування штучного інтелекту, o3 і o4-mini , для підказок, пов’язаних із біологічними та хімічними загрозами. Згідно зі звітом OpenAI про безпеку , система спрямована на те, щоб моделі не пропонували поради, які могли б інструктувати когось щодо здійснення потенційно шкідливих атак.

O3 і o4-mini представляють суттєве збільшення можливостей порівняно з попередніми моделями OpenAI, кажуть у компанії, і, таким чином, створюють нові ризики в руках зловмисників. Відповідно до внутрішніх тестів OpenAI, o3 краще відповідає на запитання щодо створення певних типів біологічних загроз. З цієї причини — а також для пом’якшення інших ризиків — OpenAI створив нову систему моніторингу, яку компанія описує як «монітор міркування, орієнтований на безпеку».

Монітор, спеціально навчений міркувати про політику вмісту OpenAI, працює поверх o3 та o4-mini. Він розроблений, щоб ідентифікувати підказки, пов’язані з біологічними та хімічними ризиками, і наказувати моделям відмовлятися надавати поради з цих тем.

Щоб встановити базову лінію, OpenAI запропонував червоним командам витратити близько 1000 годин, позначаючи «небезпечні» розмови, пов’язані з біоризиками, з o3 і o4-mini. За даними OpenAI, під час тесту, в якому OpenAI симулював «логіку блокування» свого монітора безпеки, моделі відмовлялися реагувати на ризиковані підказки в 98,7% випадків.

OpenAI визнає, що в його тесті не враховувалися люди, які могли спробувати нові підказки після того, як їх заблокував монітор, тому компанія каже, що продовжить частково покладатися на людський моніторинг.

За словами компанії, O3 і o4-mini не перевищують поріг «високого ризику» OpenAI для біоризиків. Однак, порівняно з o1 і GPT-4, OpenAI каже, що ранні версії o3 і o4-mini виявилися більш корисними у відповідях на запитання щодо розробки біологічної зброї.

Новітні моделі штучного інтелекту OpenAI мають новий захист для запобігання біоризикам - Фото 1

Відповідно до нещодавно оновленої OpenAI Preparedness Framework , компанія активно відстежує, як її моделі можуть полегшити зловмисникам розробку хімічних і біологічних загроз.

OpenAI все більше покладається на автоматизовані системи, щоб зменшити ризики від своїх моделей. Наприклад, OpenAI стверджує, що для запобігання створенню власним генератором зображень GPT-4o матеріалу сексуального насильства над дітьми (CSAM) використовується монітор міркування, подібний до того, який компанія розгорнула для o3 і o4-mini.

Проте кілька дослідників висловили занепокоєння, що OpenAI не надає пріоритету безпеці настільки, як мав би. Один із партнерів компанії, Metr, сказав, що у нього було відносно мало часу, щоб перевірити o3 на еталонному тесті на оманливу поведінку. Тим часом OpenAI вирішила не публікувати звіт про безпеку своєї моделі GPT-4.1 , яка була запущена на початку цього тижня.

Источник материала

InternetUA

Поделиться сюжетом

Технологии

Наука Космос Гаджеты Игры Интернет Другие

Крупнейшие течения океана дестабилизированы: древние живые летописцы океана бьют тревогу

Фокус

15 минут назад

У птиц есть звук, общий для разных пернатых на четырех континентах — исследования

ZN UA

51 минуту назад

У берегов Австралии найден новый вид, светящийся в толще воды: скрывается на глубине 600 м

Фокус

1 час назад

Хакеры получили доступ к данным пользователей Discord

Лига

2 часа назад

Зонд NASA, изучающий Юпитер, мог завершить свою работу: это невозможно подтвердить

Фокус

2 часа назад

Земля находится в постоянном движении: почему мы его не ощущаем

Фокус

2 часа назад

Новітні моделі штучного інтелекту OpenAI мають новий захист для запобігання біоризикам

Технологии

Крупнейшие течения океана дестабилизированы: древние живые летописцы океана бьют тревогу

Астронавт показал, как выглядит "Пояс Венеры" на высоте 400 км над Землей

Взломали аккаунт в Telegram: как вернуть доступ и как не попасться мошенникам

Рада ЄС змінить квоти для українського експорту

У птиц есть звук, общий для разных пернатых на четырех континентах — исследования

У берегов Австралии найден новый вид, светящийся в толще воды: скрывается на глубине 600 м

Хакеры получили доступ к данным пользователей Discord

Зонд NASA, изучающий Юпитер, мог завершить свою работу: это невозможно подтвердить

Земля находится в постоянном движении: почему мы его не ощущаем

Технологии

Крупнейшие течения океана дестабилизированы: древние живые летописцы океана бьют тревогу

Астронавт показал, как выглядит "Пояс Венеры" на высоте 400 км над Землей

Взломали аккаунт в Telegram: как вернуть доступ и как не попасться мошенникам

Рада ЄС змінить квоти для українського експорту

У птиц есть звук, общий для разных пернатых на четырех континентах — исследования

У берегов Австралии найден новый вид, светящийся в толще воды: скрывается на глубине 600 м

Хакеры получили доступ к данным пользователей Discord

Зонд NASA, изучающий Юпитер, мог завершить свою работу: это невозможно подтвердить

Земля находится в постоянном движении: почему мы его не ощущаем