Большие языковые модели и генераторы изображений (искусственный интеллект), как выяснилось, буквально сходят с ума, когда их пытаются обучать на сгенерированном ими самими контенте. Такое, похожее на уроборос (обвивающий Землю мифологический змей, схватив себя за хвост) самопотребление приводит к тому, что цифровой мозг генеративной модели ломается.
Об этом говорится в исследовании ученых из Университета Райса и Стэнфордского университета, доступном на сайте препринтов arXiv. Таким образом ученые обнаружили своеобразный криптонит (камень, превращавший Супермена в обычного человека, лишая суперсил) искусственного интеллекта.
Как объяснили исследователи, значительные достижения в генеративных алгоритмах ИИ для изображений, текста и других типов данных привели к тому, что у его разработчиков возник соблазн использовать синтетические данные для обучения моделей ИИ следующего поколения. Но никто не знал, как именно будет реагировать ИИ, если скормить ему его собственные творения.
"Наш основной вывод из всех сценариев состоит в том, что без достаточного количества свежих реальных данных в каждом поколении автофаговой (самопоглощающей) петли будущие генеративные модели обречены на постепенное снижение качества (точности) или разнообразия", – заявили ученые по результатам исследования.
Состояние, возникающее в результате такого действия, они назвали MAD (прямой перевод – безумие). Аббревиатура происходит от Model Autophagy Disorder, что в переводе с английского означает расстройство аутофагии у модели.
Вероятно, разговоры о революцию ИИ можно немного приостановить, поскольку без свежих реальных данных, а проще – оригинальной человеческой работы, результаты ИИ станут существенно хуже.
Исследователям удалось установить, что при многократном обучении на синтетическом контенте выдача ИИ становится более примитивной, пока не превращается в однообразную.
Термин MAD, придуманный исследователями, отражает этот процесс самопоглощения.
Как подробно описано в статье, протестированная модель ИИ прошла всего пять раундов обучения с синтетическим контентом, прежде чем начали появляться серьезные проблемы.
Такая ситуация может стать настоящей проблемой для компании OpenAI, которая является одним из главных игроков на рынке ИИ прямо сейчас. Выяснилось, что компания для обучения своему искусственному интеллекту использовала огромное количество текстов, которые были сгенерированы пользователями интернета, часто это делалось в нарушение авторского права.
И поскольку против OpenAI уже поданы судебные иски, связанные с незаконным использованием контента, компании нужно что-то собственного производства, чтобы ИИ продолжал развиваться. Но теперь возникла ситуация, когда самый простой вариант, который мог все спасти – использование того, что было создано самим ИИ, ни к чему хорошему не приведет.
Ранее OBOZREVATEL также рассказывал о том, что будет, когда искусственный интеллект достигнет сингулярности и будет ли он способен убить людей.
Подписывайтесь на каналы OBOZREVATEL в Telegram, Viber и Threads, чтобы быть в курсе последних событий.