OpenAI звинуватив розробників Grok 3 від xAI у публікації оманливих результатів тестування
OpenAI звинуватив розробників Grok 3 від xAI у публікації оманливих результатів тестування

OpenAI звинуватив розробників Grok 3 від xAI у публікації оманливих результатів тестування

Дебати щодо контрольних показників штучного інтелекту — і того, як їх звітують лабораторії ШІ — виливаються на загальний огляд.

Цього тижня співробітник OpenAI звинуватив компанію Ілона Маска, що займається штучним інтелектом, xAI, у публікації оманливих результатів тестування своєї останньої моделі штучного інтелекту Grok 3. Один із співзасновників xAI Ігор Бабушкін наполягав , що компанія має рацію.

У дописі в блозі xAI компанія опублікувала графік, що показує продуктивність Grok 3 на AIME 2025, збірці складних математичних запитань з нещодавнього запрошення до іспиту з математики. Деякі експерти ставлять під сумнів достовірність AIME як еталона ШІ . З усім тим, AIME 2025 і старіші версії тесту зазвичай використовуються для перевірки математичних здібностей моделі.

Графік xAI показав два варіанти Grok 3, Grok 3 Reasoning Beta та Grok 3 mini Reasoning, перевершивши найефективнішу доступну модель OpenAI, o3-mini-high , на AIME 2025. Але співробітники OpenAI на X швидко зауважили, що графік xAI не включав оцінку o3-mini-high за AIME 2025 на «мінус@64».

Ви можете запитати, що таке cons@64? Ну, це скорочення від «consensus@64», і воно в основному дає модель 64, яка намагається відповісти на кожну проблему в контрольному тесті та приймає відповіді, які найчастіше генеруються, як остаточні відповіді. Як ви можете собі уявити, cons@64 має тенденцію значно підвищувати показники моделей у тестах, і якщо його виключити з графіка, може здатися, що одна модель перевершує іншу, хоча насправді це не так.

Оцінки Grok 3 Reasoning Beta та Grok 3 mini Reasoning для AIME 2025 на рівні «@1» — це означає, що перша оцінка, отримана моделями на еталонному тесті — падають нижче оцінки o3-mini-high. Grok 3 Reasoning Beta також трохи відстає від моделі OpenAI o1 , налаштованої на «середнє» обчислення. Проте xAI рекламує Grok 3 як «найрозумніший штучний інтелект у світі».

Бабушкін стверджував на X , що OpenAI публікував подібні оманливі діаграми бенчмарків у минулому — хоча діаграми порівнювали продуктивність власних моделей. Більш нейтральна сторона в дебатах склала більш «точний» графік, що показує продуктивність майже кожної моделі за cons@64:

Але, як зазначив дослідник штучного інтелекту Натан Ламберт у своєму дописі , чи не найважливіший показник залишається загадкою: обчислювальні (і грошові) витрати, які потрібні кожній моделі для досягнення найкращого результату. Це лише показує, як мало більшість тестів штучного інтелекту повідомляють про обмеження моделей — і їхні сильні сторони.

Джерело матеріала
loader
loader