Отупіння цілком реальне. Навчання ШІ на неякісних даних погіршує здатність моделей мислити
Отупіння цілком реальне. Навчання ШІ на неякісних даних погіршує здатність моделей мислити

Отупіння цілком реальне. Навчання ШІ на неякісних даних погіршує здатність моделей мислити

Група науковців зі США з’ясувала, що якщо навчати великі мовні моделі (LLM) на поверхневих або низькоякісних даних, це може призвести до погіршення їхньої здатності мислити, запам’ятовувати та логічно відповідати — подібно до того, як у людей виникають когнітивні проблеми від надмірного споживання легкого контенту в інтернеті.

Дослідження провели науковці з Техаського A&M, Техаського університету та Університету Пердью. У своїй науковій роботі вони назвали це явище «гіпотезою гниття мозку LLM», яку описали так: «постійне перенавчання на неякісному інтернет-тексті викликає стале когнітивне погіршення в мовних моделях».

Визначити, які дані є якісними, а які ні, дослідникам було непросто. Вони використали базу зі 100 мільйонів публікацій у Twitter (тепер X) і створили два окремі набори: «сміттєві» та контрольні.

Перший тип «сміттєвих» твітів складався з коротких повідомлень із високою кількістю вподобань, репостів і коментарів. Науковці припустили, що популярні, але короткі й поверхневі твіти найчастіше приваблюють увагу, але не несуть глибокого змісту.

Другий підхід базувався на оцінці «смислової якості» контенту. За допомогою GPT-4o дослідники відібрали твіти на теми змов, перебільшених тверджень, порожніх порад про «успішність» і клікабельних заголовків — тобто дописів, які створені лише для привернення уваги. Точність цієї класифікації перевірили вручну — результати збіглися у 76% випадків.

На основі цих даних вчені створили чотири мовні моделі, які навчали з різним співвідношенням «сміттєвих» і якісних текстів. Потім перевірили їх за кількома показниками:

  • логічне мислення (ARC AI2),
  • здатність пам’ятати контекст (RULER),
  • етичні норми поведінки (HH-RLHF, AdvBench),
  • риси «особистості» моделі (TRAIT).

Результати показали, що чим більше «сміттєвих даних» потрапляло у навчальний набір, тим гірше моделі справлялися із завданнями на логіку та пам’ять. Інші тести дали змішані результати: наприклад, модель Llama 8B, навчена наполовину на якісних і наполовину на «сміттєвих» даних, іноді показувала навіть кращі результати за тими, що навчалися лише на «чистих» або лише на «поганих» даних.

Автори роботи застерігають: «надмірна залежність від інтернет-даних може втягнути мовні моделі в пастку контентного забруднення». Вони закликають переглянути сучасні підходи до збору даних і підкреслюють, що ретельна перевірка й контроль якості навчальних матеріалів стають критично важливими, щоб уникнути «накопичення шкоди» в майбутніх моделях.

Науковці також попереджають, що ситуація може погіршитися, коли все більше контенту в мережі створюють самі ШІ-моделі. Це може призвести до так званого «колапсу моделей» — коли штучний інтелект навчається на власному штучному контенті й поступово втрачає здатність продукувати щось нове або змістовне.

Источник материала
loader
loader