ШІ стане злим та почне брехати людям: вчені розповіли, що його може стримувати

7 серпня, 15:48

Компанія зі штучного інтелекту Anthropic запропонувала новий підхід до стримування небажаних дій з боку моделей штучного інтелекту (ШІ), таких як ChatGPT, Claude, Gemini та DeepSeek.

Штучний інтелект вже демонструє тривожну поведінку, таку як вихваляння диктаторів, шантаж або підлабузництво з користувачами. Тому фахівці намагаються знайти способи викорінити подібну поведінку, пише Tech Xplore.

У своєму методі дослідники Anthropic опираються на закономірності активності в нейронній мережі моделі ШІ, що контролюють її "риси характеру". Ці закономірності називаються персональними векторами та певною мірою аналогічні частинам мозку, які активізуються, коли людина відчуває певне почуття або виконує певну дію.

Щоб перевірити, чи можна видалити або маніпулювати цими векторами, команда використала дві великі мовні моделі (LLM) з відкритим кодом: Qwen 2.5-7B-Instruct та Llama-3.1-8B-Instruct. Метою було дослідити три риси: зловмисність, підлабузництво та галюцинації.

В результаті вчені дійшли до методу контролю поведінки ШІ під назвою "керування". Його суть полягає в тому, що при керуванні моделлю за допомогою вектора "злого" персонажа, вона починає говорити про неетичні дії, при керуванні за допомогою "підлабузництва", вона підлизується до користувача, а вектор "галюцинацій" змушує її вигадувати інформацію.

Як виявилось, таке превентивне керування під час навчання обмежує небажану поведінку ШІ, зберігаючи при цьому інтелектуальні можливості моделі. Це працює, тому що моделям більше не потрібно шкідливим чином коригувати свою особистість — розробники самі забезпечують її цими коригуваннями.

Важливо ШІ тепер розв'язує нові проблеми, непомічені людьми: чому це може бути небезпечно

"Наш метод дещо суперечить інтуїції: ми фактично спрямовуємо модель до небажаних векторів персонажів під час навчання. Цей метод приблизно аналогічний вакцинації моделі — наприклад, даючи моделі дозу "зла", ми робимо її більш стійкою до зіткнення зі "злими" навчальними даними", — пояснили дослідники.

Даний метод є суттєвим проривом у сфері навчання ШІ, але є деякі обмеження. Наприклад, технологія вимагає чіткого визначення для видалення рис. Окрім того, його необхідно протестувати на інших LLM та з більшою кількістю рис

Нагадаємо, генеральний директор компанії OpenAI Сем Альтман заявив, що нова версія ChatGPT виявилася настільки швидкою і потужною, що почала його лякати.

Фокус також повідомляв, що на думку низки фахівців у сфері технологій, подальший розвиток штучного інтелекту з високою ймовірністю призведе до зникнення людства.

Джерело матеріала