/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F53%2Fb61924f643b7231f46cb3ca6d3814041.jpg)
Дивна фраза продовжує з'являтися в наукових роботах: звідки вона береться
Цього року вчені зіткнулися з незвичайним терміном, який почав дедалі частіше з'являтися в опублікованих роботах. Цей термін не має жодного сенсу, і донедавна було незрозуміло, звідки він узагалі з'являється в наукових роботах.
Про це повідомляє ScienceAlert.
Фраза "вегетативна електронна мікроскопія" повна нісенітниця, яка стала "цифровою копалиною" — помилка, яку зберіг і примножив штучний інтелект. Тепер цю помилку неможливо видалити зі сховищ знань.
У Фокус.Технології з'явився свій Telegram-канал. Підписуйтесь, щоб не пропускати найсвіжіші та найзахопливіші новини зі світу науки!
Як і біологічні копалини, замкнені в скелі, цифрові артефакти можуть ставати постійними елементами нашої інформаційної екосистеми. Випадок із "вегетативною електронною системою" показує, як системи ШІ можуть увічнювати й посилювати помилки в людських колективних знаннях.
Помилковий термін, за словами вчених, з'явився в результаті збігу непов'язаних помилок. Усе почалося з того, що було відскановано й оцифровано дві статті 1950-х років, які публікувалися в журналі Bacteriological Reviews.
У процесі оцифрування помилково об'єдналися "вегетативний" з одного стовпчика тексту з "електроном" з іншого. У результаті цього з'явився фантомний термін. Через десятиліття "вегетативна електронна мікроскопія" з'явилася в кількох роботах іранських учених. У 2017 і 2019 роках у двох роботах цей термін використовувався в англійських підписах і анотаціях.
Таке могло статися через помилку перекладу. Річ у тім, що на фарсі слова "вегетативний" і "сканування" відрізняються лише однією крапкою.
Далі більше. На сьогодні, за даними Google Scholar, термін "вегетативна електронна мікроскопія" зустрічається у 22 роботах. Також він з'являється і в наукових статтях. Найчастіше помилковий термін почав з'являтися у 2020-х роках. Для того, щоб з'ясувати, чому це почало відбуватися, вчені зазирнули всередину сучасних моделей ШІ та провели археологічні розкопки в шарах даних.
Великі мовні моделі, на яких базується ChatGPT та інші, "навчаються" на величезних обсягах тексту. Точний зміст даних навчання моделі часто є ретельно охоронюваним секретом.
Для того, щоб перевірити, чи "знає" модель про вегетативну електронну мікроскопію, вчені вводили фрагменти вихідних статей. Далі вони дивилися, завершить модель ці фрази безглуздим терміном чи ні.
У результаті, GPT-3 OpenAI наполегливо завершував ці фрази за допомогою "вегетативної електронної мікроскопії". При цьому більш ранні моделі, такі як GPT-2 і BERT, цього не робили. У такий спосіб учені змогли ізолювати помилку, дізнавшись коли та де сталося забруднення.
Помилка перейшла і в пізніші моделі, серед яких GPT-4o і Claude 3.5 від Anthropic. Це може говорити про те, що безглуздий термін може бути назавжди вбудований у бази знань ШІ.
За словами експертів, знайти такого роду помилки вельми непросто, а виправити майже неможливо.
Основна складність полягає в масштабах. Наприклад, набір даних CommonCrawl вимірюється в мільйонах гігабайтів. Для більшості дослідників, які не працюють у великих технологічних компаніях, такі обчислювальні ресурси просто недоступні.
Друга проблема полягає у відсутності прозорості в комерційних ШІ. OpenAI і багато інших розробників відмовляються надавати точні відомості про навчальні дані для своїх моделей.
Тепер вчені задаються питанням про те, скільки ж ще безглуздих термінів існує в системах ШІ, які очікують на своє відкриття.
Нагадаємо, вчені зробили гучну заяву про правдивість досліджень. У сучасному світі, де наука розвивається швидкими темпами, кількість досліджень, що виходять і публікуються, зростає з кожним роком. Однак нещодавній аналіз їхніх публікацій і скандалів змусив деяких учених проявити сумнів у їхній правдивості.
