/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F53%2F77541f179750247c1633d75b3a1bb04c.jpg)
ChatGPT и другие популярные ИИ-системы провалили украинское ВНО: ни одна модель не набрала 70%
Ни одна из популярных языковых моделей искусственного интеллекта, в частности ChatGPT, не смогла сдать украинское ВНО.
Результаты исследования обнародовали на платформе arXiv, в котором украинские ученые проверили, насколько хорошо искусственный интеллект работает с украинским языком, образовательным контентом и национальной культурой. Для этого они создали специальный бенчмарк под названием ZNO-Vision — первый в Украине комплексный мультимодальный тест, который оценивает знания моделей ИИ в этих сферах.
Бенчмарк сформировали на основе реальных заданий ВНО по различным дисциплинам: математике, физике, химии, биологии, истории Украины, украинскому языку и литературе. В целом он содержит более 4 тысяч вопросов, часть из которых требует анализа не только текста, но и изображений, схем и графиков.
В рамках исследования авторы протестировали ряд популярных языковых моделей: Gemini Pro, Claude 3.5, Qwen2-VL, GPT-4o, LLaMA, Paligemma и другие. Результаты оказались довольно неожиданными: ни одна из моделей не смогла преодолеть 70% правильных ответов — то есть не сдала экзамен по украинским стандартам.
Наилучшим оказался результат модели Gemini Pro, которая дала правильные ответы в 67,5% случаев. За ней — Claude 3.5 (64,3%), Qwen2-VL (51,2%), а GPT-4o набрала всего 47%. Для сравнения: условный "базовый уровень", предусматривающий случайный выбор ответов, обеспечивает около 22% правильных ответов.
Отсутствие украиноязычных данных ограничивает эффективность современных ИИ
По мнению исследователей, результаты указывают на ограниченность даже самых современных ИИ в работе с украинским языком и украинским контентом. Среди основных проблем, с которыми сталкивались модели, — ошибки в распознавании украинского текста, сложности в выполнении инструкций, путаница между украинским и другими языками в ответах, а также отсутствие понимания культурного контекста.
Так, в отдельном задании на знание украинской кухни большинство моделей путали блюда, неправильно указывали ингредиенты, а украинский борщ, который ЮНЕСКО признала культурным наследием, часто ошибочно называли "русским".
Современные ИИ плохо работают с украинским языком, потому что их создавали на основе преимущественно англоязычных данных. Но если дополнить их украинскими примерами, модели дают лучшие результаты. Например, Paligemma после такой адаптации точнее распознавала украинские блюда. В конце концов ученые объяснили, что сейчас ИИ не может полноценно работать с украиноязычной информацией, однако развитие в этом направлении важно.
Также ученые Колумбийского университета в США разработали роботов, которые могут ремонтироваться и совершенствоваться, интегрируя материал из своей среды или от других роботов.

