/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F53%2F19f72945e22705ed7e947b017e525475.jpg)
Странная фраза продолжает появляться в научных работах: откуда она берется
В этом году ученые столкнулись с необычным термином, который начал все чаще появляться в опубликованных работах. Этот термин не имеет никакого смысла, и до недавнего времени было непонятно откуда он вообще появляется в научных работах.
Об этом сообщает ScienceAlert.
Фраза "вегетативная электронная микроскопия" полная бессмыслица, которая стала "цифровым ископаемым" – ошибка, которую сохранил и приумножил искусственный интеллект. Теперь эту ошибку невозможно удалить из хранилищ знаний.
У Фокус.Технологии появился свой Telegram-канал. Подписывайтесь, чтобы не пропускать самые свежие и захватывающие новости из мира науки!
Как и биологические ископаемые, запертые в скале, цифровые артефакты могут становиться постоянными элементами нашей информационной экосистемы. Случай с "вегетативной электронной системой" показывает, как системы ИИ могут увековечивать и усиливать ошибки в человеческих коллективных знаниях.
Ошибочный термин, по словам ученых, появился в результат совпадения несвязанных ошибок. Все началось с того, что были отсканированы и оцифрованы две статьи 1950-х годов, которые публиковались в журнале Bacteriological Reviews.
В процессе оцифровки ошибочно объединились "вегетативный" из одного столбца текста с "электроном" из другого. В результате этого появился фантомный термин. Спустя десятилетия "вегетативная электронная микроскопия" появилась в нескольких работах иранских ученых. В 2017 и 2019 годах в двух работах этот термин использовался в английских подписях и аннотациях.
Такое могло произойти из-за ошибки перевода. Дело в том, что на фарси слова "вегетативный" и "сканирование" отличаются всего одной точкой.
Дальше больше. На сегодняшний день, по данным Google Scholar, термин "вегетативная электронная микроскопия" встречает в 22 работах. Также он появляется и в научных статьях. Чаще ошибочный термин начал появляться в 2020-х годах. Для того, чтобы выяснить, почему это начало происходить, ученые заглянули внутрь современных моделей ИИ и провели археологические раскопки в слоях данных.
Большие языковые модели, на которых базируется ChatGPT и другие, "обучаются" на огромных объемах текста. Точное содержание данных обучения модели часто является тщательно охраняемым секретом.
Для того, чтобы проверить, "знает" ли модель о вегетативной электронной микроскопии, ученые вводили фрагмента исходных статей. Дальше они смотрели, завершит ли модель эти фразы бессмысленным термином или нет.
В результате, GPT-3 OpenAI упорно завершал эти фразу с помощью "вегетативной электронной микроскопии". При этом более ранние модели, такие как GPT-2 и BERT, этого не делали. Таким образом ученые смогли изолировать ошибку, узнав когда и где произошло загрязнение.
Ошибка перешла и в более поздние модели, среди которых GPT-4o и Claude 3.5 от Anthropic. Это может говорить о том, что бессмысленный термин может быть навсегда встроен в базы знаний ИИ.
По словам экспертов, найти такого рода ошибки весьма непросто, а исправить почти невозможно.
Основная сложность заключается в масштабах. К примеру, набор данных CommonCrawl измеряется в миллионах гигабайтов. Для большинства исследователей, которые не работают в крупных технологических компаниях, такие вычислительные ресурсы просто недоступны.
Вторая проблема заключается в отсутствии прозрачности в коммерческих ИИ. OpenAI и многие другие разработчики отказываются предоставлять точные сведения об обучающих данных для своих моделей.
Теперь ученые задаются вопросом о том, сколько же еще бессмысленных терминов существует в системах ИИ, ожидающих своего открытия.
