OpenAI звинуватив розробників Grok 3 від xAI у публікації оманливих результатів тестування

24 лютого, 09:01

Дебати щодо контрольних показників штучного інтелекту — і того, як їх звітують лабораторії ШІ — виливаються на загальний огляд.

Цього тижня співробітник OpenAI звинуватив компанію Ілона Маска, що займається штучним інтелектом, xAI, у публікації оманливих результатів тестування своєї останньої моделі штучного інтелекту Grok 3. Один із співзасновників xAI Ігор Бабушкін наполягав , що компанія має рацію.

У дописі в блозі xAI компанія опублікувала графік, що показує продуктивність Grok 3 на AIME 2025, збірці складних математичних запитань з нещодавнього запрошення до іспиту з математики. Деякі експерти ставлять під сумнів достовірність AIME як еталона ШІ . З усім тим, AIME 2025 і старіші версії тесту зазвичай використовуються для перевірки математичних здібностей моделі.

Графік xAI показав два варіанти Grok 3, Grok 3 Reasoning Beta та Grok 3 mini Reasoning, перевершивши найефективнішу доступну модель OpenAI, o3-mini-high , на AIME 2025. Але співробітники OpenAI на X швидко зауважили, що графік xAI не включав оцінку o3-mini-high за AIME 2025 на «мінус@64».

Ви можете запитати, що таке cons@64? Ну, це скорочення від «consensus@64», і воно в основному дає модель 64, яка намагається відповісти на кожну проблему в контрольному тесті та приймає відповіді, які найчастіше генеруються, як остаточні відповіді. Як ви можете собі уявити, cons@64 має тенденцію значно підвищувати показники моделей у тестах, і якщо його виключити з графіка, може здатися, що одна модель перевершує іншу, хоча насправді це не так.

Оцінки Grok 3 Reasoning Beta та Grok 3 mini Reasoning для AIME 2025 на рівні «@1» — це означає, що перша оцінка, отримана моделями на еталонному тесті — падають нижче оцінки o3-mini-high. Grok 3 Reasoning Beta також трохи відстає від моделі OpenAI o1 , налаштованої на «середнє» обчислення. Проте xAI рекламує Grok 3 як «найрозумніший штучний інтелект у світі».

Бабушкін стверджував на X , що OpenAI публікував подібні оманливі діаграми бенчмарків у минулому — хоча діаграми порівнювали продуктивність власних моделей. Більш нейтральна сторона в дебатах склала більш «точний» графік, що показує продуктивність майже кожної моделі за cons@64:

Але, як зазначив дослідник штучного інтелекту Натан Ламберт у своєму дописі , чи не найважливіший показник залишається загадкою: обчислювальні (і грошові) витрати, які потрібні кожній моделі для досягнення найкращого результату. Це лише показує, як мало більшість тестів штучного інтелекту повідомляють про обмеження моделей — і їхні сильні сторони.

Джерело матеріала

InternetUA

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Вимагали $60 млн викупу: кіберполіцейські допомогли знешкодити міжнародну хакерську мережу

Украина Криминальная

26 хвилин тому

Найкращі бюджетні телевізори: експерти назвали 4 моделі з пристойними характеристиками

Фокус

30 хвилин тому

Третя фаза ШІ вже тут: що таке агенти штучного інтелекту, як вони працюють і як змінять життя

24tv

35 хвилин тому

Samsung Galaxy Fold7 витримав пісок, вогонь та згинання значно краще за попередника

ITC

1 годину тому

Найкращі ноутбуки студентів у 2025 році: яку модель вибрати для навчання, роботи та ігор

Фокус

1 годину тому

Японія навчилася будувати міцні будинки із вапна і бруду

ГЛАВКОМ NET

2 години тому

OpenAI звинуватив розробників Grok 3 від xAI у публікації оманливих результатів тестування

Технології

Вимагали $60 млн викупу: кіберполіцейські допомогли знешкодити міжнародну хакерську мережу

Найкращі бюджетні телевізори: експерти назвали 4 моделі з пристойними характеристиками

Третя фаза ШІ вже тут: що таке агенти штучного інтелекту, як вони працюють і як змінять життя

INNO3D представила однослотові NVIDIA RTX 5090 та 5080 з водяним охолодженням

Лише 10% людей знаходять приховане обличчя на цьому фото: чи зможете ви

Фахівці визначили найкращі смартфони на ринку із захистом від води

Samsung Galaxy Fold7 витримав пісок, вогонь та згинання значно краще за попередника

Найкращі ноутбуки студентів у 2025 році: яку модель вибрати для навчання, роботи та ігор

Японія навчилася будувати міцні будинки із вапна і бруду

Технології

Вимагали $60 млн викупу: кіберполіцейські допомогли знешкодити міжнародну хакерську мережу

Найкращі бюджетні телевізори: експерти назвали 4 моделі з пристойними характеристиками

Третя фаза ШІ вже тут: що таке агенти штучного інтелекту, як вони працюють і як змінять життя

INNO3D представила однослотові NVIDIA RTX 5090 та 5080 з водяним охолодженням

Лише 10% людей знаходять приховане обличчя на цьому фото: чи зможете ви

Фахівці визначили найкращі смартфони на ринку із захистом від води

Samsung Galaxy Fold7 витримав пісок, вогонь та згинання значно краще за попередника

Найкращі ноутбуки студентів у 2025 році: яку модель вибрати для навчання, роботи та ігор

Японія навчилася будувати міцні будинки із вапна і бруду