/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2Fdf64ec5e1c89613ee29db503aa18d97b.jpg)
Новітні моделі штучного інтелекту OpenAI мають новий захист для запобігання біоризикам
OpenAI каже, що розгорнула нову систему для моніторингу своїх останніх моделей міркування штучного інтелекту, o3 і o4-mini , для підказок, пов’язаних із біологічними та хімічними загрозами. Згідно зі звітом OpenAI про безпеку , система спрямована на те, щоб моделі не пропонували поради, які могли б інструктувати когось щодо здійснення потенційно шкідливих атак.
O3 і o4-mini представляють суттєве збільшення можливостей порівняно з попередніми моделями OpenAI, кажуть у компанії, і, таким чином, створюють нові ризики в руках зловмисників. Відповідно до внутрішніх тестів OpenAI, o3 краще відповідає на запитання щодо створення певних типів біологічних загроз. З цієї причини — а також для пом’якшення інших ризиків — OpenAI створив нову систему моніторингу, яку компанія описує як «монітор міркування, орієнтований на безпеку».
Монітор, спеціально навчений міркувати про політику вмісту OpenAI, працює поверх o3 та o4-mini. Він розроблений, щоб ідентифікувати підказки, пов’язані з біологічними та хімічними ризиками, і наказувати моделям відмовлятися надавати поради з цих тем.
Щоб встановити базову лінію, OpenAI запропонував червоним командам витратити близько 1000 годин, позначаючи «небезпечні» розмови, пов’язані з біоризиками, з o3 і o4-mini. За даними OpenAI, під час тесту, в якому OpenAI симулював «логіку блокування» свого монітора безпеки, моделі відмовлялися реагувати на ризиковані підказки в 98,7% випадків.
OpenAI визнає, що в його тесті не враховувалися люди, які могли спробувати нові підказки після того, як їх заблокував монітор, тому компанія каже, що продовжить частково покладатися на людський моніторинг.
За словами компанії, O3 і o4-mini не перевищують поріг «високого ризику» OpenAI для біоризиків. Однак, порівняно з o1 і GPT-4, OpenAI каже, що ранні версії o3 і o4-mini виявилися більш корисними у відповідях на запитання щодо розробки біологічної зброї.
Відповідно до нещодавно оновленої OpenAI Preparedness Framework , компанія активно відстежує, як її моделі можуть полегшити зловмисникам розробку хімічних і біологічних загроз.
OpenAI все більше покладається на автоматизовані системи, щоб зменшити ризики від своїх моделей. Наприклад, OpenAI стверджує, що для запобігання створенню власним генератором зображень GPT-4o матеріалу сексуального насильства над дітьми (CSAM) використовується монітор міркування, подібний до того, який компанія розгорнула для o3 і o4-mini.
Проте кілька дослідників висловили занепокоєння, що OpenAI не надає пріоритету безпеці настільки, як мав би. Один із партнерів компанії, Metr, сказав, що у нього було відносно мало часу, щоб перевірити o3 на еталонному тесті на оманливу поведінку. Тим часом OpenAI вирішила не публікувати звіт про безпеку своєї моделі GPT-4.1 , яка була запущена на початку цього тижня.

