Це визнали навіть в OpenAI: який ШІ допомагає з роботою та навчанням краще, ніж GPT-5

29 сентября, 18:27, 2025

Який ШІ виявився найефективнішим, ніж ChatGPT?

Традиційні бенчмарки для тестування штучного інтелекту часто критикують за відірваність від реальних сценаріїв використання. Щоб усунути цю проблему, OpenAI розробила GDPval – систему, що оцінює продуктивність ШІ-моделей під час виконання завдань, характерних для 44 різних професій, від юристів та інженерів до медсестер та розробників програмного забезпечення. Назва GDPval походить від економічного терміна "валовий внутрішній продукт" (GDP), що підкреслює прагнення OpenAI створити загальновизнаний стандарт для вимірювання прогресу ШІ, пише 24 Канал з посиланням на TechRadar.

Дослідження, проведене спільно з економістом із Гарварду Девідом Демінгом для Національного бюро економічних досліджень (NBER), порівнювало відповіді ШІ з еталонними відповідями експертів у конкретних галузях. На подив багатьох, перше місце посів не ChatGPT, а модель Claude Opus 4.1 від компанії Anthropic, йдеться в звіті OpenAI.

Згідно з результатами, Claude Opus 4.1 продемонстрував показник перемог у 47,6%, що означає, що майже в половині випадків його рішення були кращими за рішення галузевого фахівця.
На другому місці опинився "ChatGPT-5 high" з результатом 38,8%.
На третьому – "ChatGPT o3 high" з 34,1%.
Примітно, що популярна модель ChatGPT-4o показала найнижчий результат у 12,4%, поступившись навіть Grok 4 та Gemini 2.5 Pro.

Модель Claude продемонструвала найвищу ефективність у восьми з дев'яти тестованих секторів економіки, включно з державним управлінням, охороною здоров'я та соціальною допомогою. Завдання, які ставили перед штучним інтелектом, були максимально наближені до реальних робочих ситуацій: написання відповіді незадоволеному клієнту, який вимагає повернення товару, оптимізація розміщення торгових точок на ярмарку чи перевірка розбіжностей цін у замовленнях на закупівлю.

Чому OpenAI не приховала це?

OpenAI пояснює публікацію таких невтішних для себе результатів своєю філософією радикальної прозорості. У компанії заявили, що їхня місія – забезпечити, щоб сильний штучний інтелект приносив користь усьому людству, а прозоре інформування про прогрес є частиною цієї місії.

Ці результати можуть спонукати OpenAI переглянути фокус своїх розробок, адже попередні версії ChatGPT були значною мірою орієнтовані саме на робочі завдання, такі як кодування та створення презентацій.

Теги по теме

Техно

Источник материала

24tv

Поделиться сюжетом

Технологии

Наука Космос Гаджеты Игры Интернет Другие

YouTube начал зачистку: ИИ-каналы с миллионами подписчиков исчезают один за другим

Знай

1 день назад

Один простой трюк с радиатором: комната прогревается в разы быстрее

GlavRed

2 дня назад

Скільки яєць безпечно їсти на день для здоров’я серця

AgroNews

23 января 2026

Впервые в США технологические гиганты Meta, TikTok и YouTube предстанут перед судом по обвинению в зависимости

MY.UA

26 января 2026

"Call of Duty, которую мы потеряли": Китайский шутер The Defiant в сеттинге Второй мировой войны получил новый трейлер — выйдет на русском языке

GameMag

2 часа назад

Отмечаем в календаре: Названа дата проведения церемонии The Game Awards 2026 — Grand Theft Auto VI может остаться без номинации

GameMag

2 часа назад

Це визнали навіть в OpenAI: який ШІ допомагає з роботою та навчанням краще, ніж GPT-5

Який ШІ виявився найефективнішим, ніж ChatGPT?

Чому OpenAI не приховала це?

Технологии

YouTube начал зачистку: ИИ-каналы с миллионами подписчиков исчезают один за другим

Один простой трюк с радиатором: комната прогревается в разы быстрее

Скільки яєць безпечно їсти на день для здоров’я серця

Впервые в США технологические гиганты Meta, TikTok и YouTube предстанут перед судом по обвинению в зависимости

Логическая головоломка: найдите пропущенное число — прокачайте мозг

5 настроек, которые сохранят заряд батареи смартфона

Україна у 2025 році імпортувала 1,1 млн т плоского металопрокату

"Call of Duty, которую мы потеряли": Китайский шутер The Defiant в сеттинге Второй мировой войны получил новый трейлер — выйдет на русском языке

Отмечаем в календаре: Названа дата проведения церемонии The Game Awards 2026 — Grand Theft Auto VI может остаться без номинации

Технологии

YouTube начал зачистку: ИИ-каналы с миллионами подписчиков исчезают один за другим

Один простой трюк с радиатором: комната прогревается в разы быстрее

Скільки яєць безпечно їсти на день для здоров’я серця

Впервые в США технологические гиганты Meta, TikTok и YouTube предстанут перед судом по обвинению в зависимости

Логическая головоломка: найдите пропущенное число — прокачайте мозг

5 настроек, которые сохранят заряд батареи смартфона

Україна у 2025 році імпортувала 1,1 млн т плоского металопрокату

"Call of Duty, которую мы потеряли": Китайский шутер The Defiant в сеттинге Второй мировой войны получил новый трейлер — выйдет на русском языке

Отмечаем в календаре: Названа дата проведения церемонии The Game Awards 2026 — Grand Theft Auto VI может остаться без номинации