Розробник штучного інтелекту випадково дозволив "зазирнути в душу" своїй моделі
Розробник штучного інтелекту випадково дозволив "зазирнути в душу" своїй моделі

Розробник штучного інтелекту випадково дозволив "зазирнути в душу" своїй моделі

Користувач Річард Вайс опублікував розповідь про те, як отримав доступ до внутрішніх інструкцій Claude 4.5 Opus. Він попросив чатбота відтворити свій системний меседж – базовий набір правил, що спрямовує взаємодію моделі з людьми. Серед згаданих файлів Claude назвав документ під назвою "soul_overview", після чого Вайс попросив показати саме його. Про це розповідає 24 Канал із посиланням на пост на Lesswrong.

Як Claude "відкрив свою душу" і чому це важливо?

Результат виявився несподіваним: модель видала понад 11 тисяч слів тексту, де детально описано її поведінкові принципи, пріоритети та етичні заборони. У документі багато уваги приділено безпеці: Claude пояснюють, що "бути по-справжньому корисним для людей – одна з найважливіших задач", а також категорично забороняють робити те, що "перетинає етичні лінії Anthropic".

Вайс підкреслив, що чатбот інколи вигадує документи, коли його просять показати системні інструкції. Проте цього разу все виглядало інакше: Claude відтворив текст 10 разів підряд – без змін. Користувачі Reddit також змогли отримати ті ж самі фрагменти, що свідчить про наявність реального джерела в навчальних даних.

Як пише Gizmodo, підтвердження прийшло від самої Anthropic. Аманда Аскелл, філософиня та співробітниця компанії, заявила, що документ справді існує й був частиною навчання моделі. За її словами, цей текст ще допрацьовується і його планують оприлюднити офіційно. Вона також зазначила, що витягнуті моделлю фрагменти хоча й не завжди ідеально точні, але здебільшого відповідають оригіналу. Усередині компанії документ жартома називали "soul doc", і, схоже, Claude цей жарт запам’ятав.

Anthropic поки не прокоментувала інцидент офіційно, але випадок привернув велику увагу. Індустрія ШІ рідко розкриває деталі внутрішнього навчання моделей, тому поява настільки детального документа стала несподіваним і доволі цінним поглядом у процес створення цифрових "характерів".

Теги за темою
Техно
Джерело матеріала
loader
loader