ChatGPT и другие популярные ИИ-системы провалили украинское ВНО: ни одна модель не набрала 70%

17 июля, 20:27

Ни одна из популярных языковых моделей искусственного интеллекта, в частности ChatGPT, не смогла сдать украинское ВНО.

Результаты исследования обнародовали на платформе arXiv, в котором украинские ученые проверили, насколько хорошо искусственный интеллект работает с украинским языком, образовательным контентом и национальной культурой. Для этого они создали специальный бенчмарк под названием ZNO-Vision — первый в Украине комплексный мультимодальный тест, который оценивает знания моделей ИИ в этих сферах.

Бенчмарк сформировали на основе реальных заданий ВНО по различным дисциплинам: математике, физике, химии, биологии, истории Украины, украинскому языку и литературе. В целом он содержит более 4 тысяч вопросов, часть из которых требует анализа не только текста, но и изображений, схем и графиков.

В рамках исследования авторы протестировали ряд популярных языковых моделей: Gemini Pro, Claude 3.5, Qwen2-VL, GPT-4o, LLaMA, Paligemma и другие. Результаты оказались довольно неожиданными: ни одна из моделей не смогла преодолеть 70% правильных ответов — то есть не сдала экзамен по украинским стандартам.

Наилучшим оказался результат модели Gemini Pro, которая дала правильные ответы в 67,5% случаев. За ней — Claude 3.5 (64,3%), Qwen2-VL (51,2%), а GPT-4o набрала всего 47%. Для сравнения: условный "базовый уровень", предусматривающий случайный выбор ответов, обеспечивает около 22% правильных ответов.

Наилучшим оказался результат модели Gemini Pro

Отсутствие украиноязычных данных ограничивает эффективность современных ИИ

По мнению исследователей, результаты указывают на ограниченность даже самых современных ИИ в работе с украинским языком и украинским контентом. Среди основных проблем, с которыми сталкивались модели, — ошибки в распознавании украинского текста, сложности в выполнении инструкций, путаница между украинским и другими языками в ответах, а также отсутствие понимания культурного контекста.

Так, в отдельном задании на знание украинской кухни большинство моделей путали блюда, неправильно указывали ингредиенты, а украинский борщ, который ЮНЕСКО признала культурным наследием, часто ошибочно называли "русским".

Современные ИИ плохо работают с украинским языком, потому что их создавали на основе преимущественно англоязычных данных. Но если дополнить их украинскими примерами, модели дают лучшие результаты. Например, Paligemma после такой адаптации точнее распознавала украинские блюда. В конце концов ученые объяснили, что сейчас ИИ не может полноценно работать с украиноязычной информацией, однако развитие в этом направлении важно.

Также ученые Колумбийского университета в США разработали роботов, которые могут ремонтироваться и совершенствоваться, интегрируя материал из своей среды или от других роботов.

Источник материала