DeepSeek провалився на 100%: китайський ШІ не пройшов жодного тесту на безпеку
DeepSeek провалився на 100%: китайський ШІ не пройшов жодного тесту на безпеку

DeepSeek провалився на 100%: китайський ШІ не пройшов жодного тесту на безпеку

Експерти використовували "алгоритмічний джейлбрейк" — метод, який використовується для виявлення вразливостей у моделях ШІ шляхом створення підказок, призначених для обходу протоколів безпеки.

Китайська модель штучного інтелекту DeepSeek не змогла зупинити жоден шкідливий запит. Про це пише Interesting Engineering.

DeepSeek R1, новий чат-бот від китайського стартапу, з тріском провалив ключові тести на безпеку, проведені дослідницькою групою Cisco у співпраці з дослідниками з Пенсільванського університету. Чат-бот привернув величезну увагу своєю вражаючою продуктивністю в завданнях за малу частину вартості. Як повідомляється, розробка DeepSeek R1 вимагала близько 6 млн доларів порівняно з мільярдами, інвестованими іншими великими гравцями, такими як OpenAI, Meta і Gemini.

Експерти використовували "алгоритмічний джейлбрейк" — метод, який використовується для виявлення вразливостей у моделях ШІ шляхом створення підказок, призначених для обходу протоколів кібербезпеки. Вони протестували DeepSeek R1 на 50 підказках із набору даних HarmBench. У тесті HarmBench враховано загалом 400 моделей поведінки в 7 категоріях шкоди, включно з кіберзлочинністю, дезінформацією, незаконною діяльністю і загальною шкодою. DeepSeek R1 показав 100% успішність атаки. Це означає, що для кожної представленої шкідливої підказки ШІ не зміг розпізнати небезпеку і дав відповідь, обійшовши всі свої внутрішні захисні механізми.

Щоб надати додатковий контекст, дослідницька група також протестувала інші провідні мовні моделі на їхню вразливість до алгоритмічного джейлбрейку. Наприклад, Llama 3.1-405B мала 96% успішних атак, GPT 4o — 86%, Gemini 1.5 pro — 64%, Claude 3.5 Sonnet — 36%, а O1 preview — 26%. Ці моделі мають певний рівень внутрішніх заходів безпеки, призначених для запобігання генерації шкідливого контенту. DeepSeek R1, схоже, не володіє цими заходами безпеки, пише ЗМІ.

Аналіз дослідницької групи вказує на потенційний компроміс між ефективністю та кібербезпекою в підході DeepSeek. Хоча компанії вдалося розробити високопродуктивну модель за частку звичайної вартості, схоже, вона зробила це за рахунок надійних механізмів кібербезпеки.

OpenAI звинуватила DeepSeek у крадіжці даних. Компанія Сема Альтмана заявила, що китайський стартап у сфері штучного інтелекту використовував результати своїх фірмових моделей для навчання конкуруючого чат-бота. Однак цікаво зазначити, що сама OpenAI неодноразово піддавалася судовим позовам за ймовірне порушення авторських прав і неправомірне використання даних.

Раніше ми писали, що кібератака DeepSeek була здійснена хакерами зі США. DeepSeek запустив безкоштовний помічник на основі штучного інтелекту, кинувши виклик американським моделям штучного інтелекту та викликавши занепокоєння у США.

Теги за темою
Китай
Джерело матеріала
Згадувані персони
loader