Математики разработали сложные задачи для проверки мышления Gemini, Claude и GPT-4o — они провалили почти все тесты

20 ноября, 14:21

Самые современные модели искусственного интеллекта решили лишь 2% сложных математических задач, разработанных ведущими математиками мира.

Исследовательский институт Epoch AI представил новый набор тестов FrontierMath, который требует докторского уровня математических знаний. К разработке привлекли профессоров математики, в частности лауреатов Филдсовской премии Математики разработали сложные задачи для проверки мышления Gemini, Claude и GPT-4o — они провалили почти все тесты - Фото 2 Филдсовская премия (Fields Medal) — самая престижная международная награда в математике, которую вручают раз в четыре года математикам в возрасте до 40 лет за выдающиеся достижения. Премию часто называют «математическим Нобелем».. На решение таких задач у математиков-докторов может уходить от нескольких часов до дней.

Если в предыдущих тестах MMLU Математики разработали сложные задачи для проверки мышления Gemini, Claude и GPT-4o — они провалили почти все тесты - Фото 4 MMLU (Measuring Massive Multitask Language Understanding) — это стандартный набор тестов для оценки возможностей моделей искусственного интеллекта. Тесты охватывают более 57 предметных областей, включая математику, физику, историю, право, медицину и другие науки. Их используют для сравнения различных моделей ИИ и оценки их способности понимать и применять знания в различных сферах. модели ИИ успешно решали 98% математических задач школьного и университетского уровня, то с новыми задачами ситуация кардинально иная.

«Эти задачи чрезвычайно сложные. Сейчас их можно решить только с участием специалиста в этой области или с помощью аспиранта в смежной сфере в сочетании с современным ИИ и другими алгебраическими инструментами», — отметил лауреат Филдсовской премии 2006 года Теренс Тао.

В исследовании протестировали шесть ведущих моделей ИИ. Gemini 1.5 Pro (002) от Google и Claude 3.5 Sonnet от Anthropic показали лучший результат — 2% правильных ответов. Модели o1-preview, o1-mini и GPT-4o от OpenAI справились с 1% задач, а Grok-2 Beta от xAI не смогла решить ни одной задачи.

FrontierMath охватывает различные математические области — от теории чисел до алгебраической геометрии. Все тестовые задания доступны на сайте Epoch AI. Разработчики создали уникальные задачи, которых нет в учебных данных моделей ИИ.

Исследователи отмечают, что даже когда модель давала правильный ответ, это не всегда свидетельствовало о правильности рассуждений — иногда результат можно было получить через простые симуляции без глубокого математического понимания.

Спецпроекты

Источник: Livescience

Математики разработали сложные задачи для проверки мышления Gemini, Claude и GPT-4o — они провалили почти все тесты - Фото 6

Источник материала

ITC

Поделиться сюжетом

Технологии

Наука Космос Гаджеты Игры Интернет Другие

"Пожалуйста, умри": искусственный интеллект устал от вопросов и нахамил пользователю

Фокус

14 ноября 2024

Семейная традиция Комонов: ученые обнаружили следы бальзамирования на телах французских аристократов

Фокус

2 дня назад

Черные "лягушки-мутанты" из Чернобыля дают надежду на возвращение людей в зону отчуждения

Фокус

20 минут назад

Первый в Steam и сотня часов приключений: все, что нужно знать перед выходом S․T․A․L․K․E․R․ 2

Знай

44 минуты назад

Служат на 66% дольше при КПД 23%: ученые нашли способ улучшить солнечные панели

Фокус

52 минуты назад

Наша звезда во всей красе: лучшие фотографии Солнца сделал аппарат Solar Orbiter

Фокус

59 минут назад

Мощная консоль PlayStation 5 Pro получила первое снижение цены в "М.Видео"

GameMag

1 час назад

В Киеве обсудили добродетель в спорте: Результаты встречи Национальной платформы и Федерации волейбола Украины

Bin UA

2 часа назад

Украинская видеоигра стала мировым лидером продаж в Steam

Comments UA

2 часа назад