OpenAI стверджує, що браузери зі штучним інтелектом можуть бути вразливими до атак швидкого впровадження коду

23 декабря, 12:09

Навіть попри те, що OpenAI працює над захистом свого браузера Atlas AI від кібератак, компанія визнає, що оперативні впровадження (prompt injections) – тип атаки, який маніпулює агентами ШІ для виконання шкідливих інструкцій, часто прихованих на веб-сторінках або в електронних листах, – це ризик, який не зникне найближчим часом, що ставить під сумнів те, наскільки безпечно агенти ШІ можуть працювати у відкритому інтернеті.

«Проблема швидкого впровадження, як і шахрайство та соціальна інженерія в інтернеті, навряд чи коли-небудь буде повністю «вирішена»», – написала OpenAI у понеділок у блозі, де детально описала, як фірма посилює захист Atlas для боротьби з безперервними атаками. Компанія визнала, що «режим агента» в ChatGPT Atlas «розширює поверхню загроз безпеці».

OpenAI запустив свій браузер ChatGPT Atlas у жовтні, і дослідники з безпеки поспішили опублікувати свої демонстрації, показуючи, що можна написати кілька слів у Документах Google, які здатні змінити поведінку базового браузера. Того ж дня Brave опублікував допис у блозі, в якому пояснював, що непряме впровадження запитів є систематичною проблемою для браузерів на базі штучного інтелекту, включаючи Comet від Perplexity .

OpenAI не єдиний, хто визнає, що швидкі ін'єкції нікуди не зникнуть. Національний центр кібербезпеки Великої Британії на початку цього місяця попередив , що атаки швидких ін'єкцій проти генеративних додатків штучного інтелекту «можуть ніколи не бути повністю пом'якшені», що наражає веб-сайти на ризик стати жертвами витоків даних. Урядове агентство Великої Британії порадило кіберфахівцям зменшити ризик і вплив швидких ін'єкцій, а не думати, що атаки можна «зупинити».

Зі свого боку, компанія OpenAI заявила: «Ми розглядаємо швидке впровадження як довгострокову проблему безпеки ШІ, і нам потрібно буде постійно зміцнювати наш захист від нього».

Відповідь компанії на це сізіфове завдання? Проактивний цикл швидкого реагування, який, за словами компанії, демонструє потенціал на ранніх етапах у сприянні виявленню нових стратегій атак внутрішньо, перш ніж вони будуть використані «в реальних умовах».

Це не зовсім відрізняється від того, що говорять конкуренти, такі як Anthropic та Google: для боротьби з постійним ризиком атак на основі запитань захист має бути багаторівневим та постійно тестуватися на навантаження. Наприклад, нещодавня робота Google зосереджена на архітектурному та політичному контролі для агентних систем.

Але OpenAI обирає інший підхід зі своїм «автоматизованим зловмисником на основі LLM». Цей зловмисник, по суті, є ботом, якого OpenAI навчив за допомогою навчання з підкріпленням грати роль хакера, що шукає способи передати шкідливі інструкції агенту штучного інтелекту.

Бот може протестувати атаку в симуляції, перш ніж використовувати її в реальних умовах, а симулятор показує, як мислитиме цільовий ШІ та які дії він зробить, якщо побачить атаку. Потім бот може вивчити цю реакцію, налаштувати атаку та спробувати знову і знову. Це розуміння внутрішнього мислення цільового ШІ – це те, до чого сторонні не мають доступу, тому, теоретично, бот OpenAI повинен мати змогу знаходити недоліки швидше, ніж це зробив би реальний зловмисник.

Це поширена тактика в тестуванні безпеки ШІ: створити агента для пошуку граничних випадків та швидкого тестування їх у симуляції.

«Наш зловмисник, навчений [навчанню з підкріпленням], може спрямувати агента на виконання складних, довгострокових шкідливих робочих процесів, які розгортаються протягом десятків (або навіть сотень) кроків», – пише OpenAI. «Ми також спостерігали нові стратегії атак, які не фігурували в нашій кампанії з об’єднання людей у червоні команди або зовнішніх звітах».

Знімок екрана, що показує атаку швидкого впровадження коду в браузері OpenAI. — **Автори зображень:** OpenAI

У демонстрації (частково зображеній вище) OpenAI продемонструвала, як її автоматизований зловмисник підсунув шкідливий електронний лист до поштової скриньки користувача. Коли агент штучного інтелекту пізніше просканував поштову скриньку, він виконав приховані інструкції в електронному листі та надіслав повідомлення про звільнення замість того, щоб написати відповідь про відсутність на роботі. Але після оновлення безпеки «режим агента» зміг успішно виявити спробу впровадження запиту та позначити її користувачеві, за словами компанії.

Компанія стверджує, що хоча від оперативного впровадження вірусів важко захиститися надійним способом, вона спирається на масштабне тестування та швидші цикли оновлення, щоб захистити свої системи до того, як вони проявляться в реальних атаках.

Речник OpenAI відмовився повідомити, чи призвело оновлення безпеки Atlas до помітного зниження кількості успішних ін'єкцій, але сказав, що компанія співпрацює зі сторонніми розробниками, щоб захистити Atlas від швидких ін'єкцій ще до запуску.

Рамі Маккарті, головний дослідник безпеки у фірмі кібербезпеки Wiz , каже, що навчання з підкріпленням — це один із способів постійної адаптації до поведінки зловмисника, але це лише частина картини.

«Корисний спосіб міркувати про ризик у системах штучного інтелекту — це автономія, помножена на доступ», — сказав Маккарті TechCrunch.

«Агентські браузери, як правило, знаходяться у складній частині цього простору: помірна автономія в поєднанні з дуже високим рівнем доступу», – сказав Маккарті. «Багато поточних рекомендацій відображають цей компроміс. Обмеження доступу після входу в систему в першу чергу зменшує ризики, тоді як вимога перегляду запитів на підтвердження обмежує автономію».

Це дві рекомендації OpenAI для користувачів щодо зменшення власного ризику, а речник заявив, що Atlas також навчений отримувати підтвердження від користувачів перед надсиланням повідомлень або здійсненням платежів. OpenAI також пропонує користувачам давати агентам конкретні інструкції, а не надавати їм доступ до своєї поштової скриньки та казати їм «вжити будь-яких необхідних дій».

«Широкий спектр можливостей полегшує вплив прихованого або шкідливого контенту на агента, навіть за наявності запобіжних заходів», – стверджує OpenAI.

Хоча OpenAI стверджує, що захист користувачів Atlas від оперативних ін'єкцій є пріоритетом, Маккарті викликає певний скептицизм щодо окупності інвестицій для схильних до ризику браузерів.

«Для більшості випадків повсякденного використання агентні браузери ще не забезпечують достатньої цінності, щоб виправдати свій поточний профіль ризику», – сказав Маккарті TechCrunch. «Ризик високий, враховуючи їхній доступ до конфіденційних даних, таких як електронна пошта та платіжна інформація, хоча саме цей доступ робить їх потужними. Цей баланс буде розвиватися, але сьогодні компроміси все ще дуже реальні».

Источник материала

InternetUA

Поделиться сюжетом

Технологии

Наука Космос Гаджеты Игры Интернет Другие

Телескоп NASA за 488 млн долларов создал первую карту всего космоса, видимого с Земли

Фокус

23 минуты назад

Ученые шокированы: телескоп зафиксировал горячий юпитер с двумя гигантскими хвостами

TSN

24 минуты назад

Редкое событие: впервые ученые записали на камеру, как мотыльки пьют слезы лося

Фокус

47 минут назад

Забудьте об обычных OLED-мониторах: новый дисплей LG RGB решит давнюю проблему

Фокус

53 минуты назад

Український підрозділ Jacobs визнали критично важливим, незважаючи на діяльність бренду в росії

AgroNews

1 час назад

Смартфон, о котором все мечтали: компактный телефон получит мощную батарею и флагманский чип

Фокус

1 час назад

OpenAI стверджує, що браузери зі штучним інтелектом можуть бути вразливими до атак швидкого впровадження коду

Технологии

Телескоп NASA за 488 млн долларов создал первую карту всего космоса, видимого с Земли

Ученые шокированы: телескоп зафиксировал горячий юпитер с двумя гигантскими хвостами

Редкое событие: впервые ученые записали на камеру, как мотыльки пьют слезы лося

Забудьте об обычных OLED-мониторах: новый дисплей LG RGB решит давнюю проблему

Український підрозділ Jacobs визнали критично важливим, незважаючи на діяльність бренду в росії

Смартфон, о котором все мечтали: компактный телефон получит мощную батарею и флагманский чип

Ученые обнаружили древнюю ДНК, которая увеличивает шансы дожить до 100 лет

Сооснователь Call of Duty Винс Зампелла погиб в ДТП в Калифорнии

Експерти попередили про ключові ризики при підписанні договору оренди землі

Технологии

Телескоп NASA за 488 млн долларов создал первую карту всего космоса, видимого с Земли

Ученые шокированы: телескоп зафиксировал горячий юпитер с двумя гигантскими хвостами

Редкое событие: впервые ученые записали на камеру, как мотыльки пьют слезы лося

Забудьте об обычных OLED-мониторах: новый дисплей LG RGB решит давнюю проблему

Український підрозділ Jacobs визнали критично важливим, незважаючи на діяльність бренду в росії

Смартфон, о котором все мечтали: компактный телефон получит мощную батарею и флагманский чип

Ученые обнаружили древнюю ДНК, которая увеличивает шансы дожить до 100 лет

Сооснователь Call of Duty Винс Зампелла погиб в ДТП в Калифорнии

Експерти попередили про ключові ризики при підписанні договору оренди землі