ИИ-бот ChatGPT нельзя доверять: он врет в 37% случаев, хотя и стоит миллиарды долларов

3 марта, 13:45

Интересно, что o3-mini от OpenAI, более дешевая и уменьшенная версия GPT-4o, "галлюцинирует" в 80,3% случаев.

Используя SimpleQA, инструмент для оценки фактов, компания OpenAI признала, что ее новая большая языковая модель (БЯМ) GPT-4.5 "галлюцинирует", то есть ИИ выдает выдумки за факты в 37% случаев, пишет futurism.com.

ИИ-модель от компании, которая стоит сотни миллиардов долларов, лжет более чем в одном из трех ответов, которые она дает. OpenAI пытается представить проблему "лжи" GPT-4.5 как нечто хорошее, утверждая, что этот чат-бот не "галлюцинирует" так часто, как БЯМ от других компаний.

На графике показано, как часто новая ИИ-модель врет. Также известно, что GPT-4o, якобы усовершенствованная модель "рассуждений", "галлюцинирует" в 61,8% случаев, что удалось выяснить благодаря проверке фактов SimpleQA. Было обнаружено, что o3-mini от OpenAI, более дешевая и уменьшенная версия GPT-4o, "галлюцинирует" в 80,3% случаев.

Конечно, эта проблема не уникальна для OpenAI, пишет СМИ.

"В настоящее время даже лучшие модели могут генерировать текст без "галлюцинаций" только в 35% случаев", — объяснил Вентинг Чжао, докторант Корнеллского университета. — "Самый важный вывод из нашей работы по проверке фактов заключается в том, что мы пока не можем полностью доверять результатам генерации".

Помимо недоверия к компании, получающей сотни миллиардов долларов инвестиций в продукты, у которых есть такие проблемы, это многое говорит об индустрии ИИ в целом, — что именно нам продают? Дорогие, ресурсоемкие системы, которые должны приближаться к человеческому уровню интеллекта, но все еще не могут правильно понимать основные факты, сетуют авторы материала.

Поскольку БЯМ OpenAI перестают расти в производительности, компания явно хватается за соломинку, чтобы вернуть интерес к своему чат-боту, который был высок в те дни, когда ChatGPT впервые появился. Но для этого нам, вероятно, понадобится увидеть настоящий прорыв, а не еще больше лжи, резюмировали авторы.

Источник материала

Фокус

Поделиться сюжетом

Технологии

Наука Космос Гаджеты Игры Интернет Другие

Конец эпохи ветряных турбин: что такое Hercules, производящий 5000 кВтч в домашних условиях

Фокус

21 августа 2025

Никаких колес: ученые создали робота в форме мяча для исследования Луны

Фокус

11 минут назад

Как Солнце создает сверхскоростные электроны, и где они теряются на несколько часов

Фокус

56 минут назад

Аграрний бізнес в умовах війни: як точне планування допомагає вижити та зростати

AgroNews

2 часа назад

Получается чище, чем дома: как происходит переработка воды на космической станции

Фокус

3 часа назад

ИИ-бот ChatGPT нельзя доверять: он врет в 37% случаев, хотя и стоит миллиарды долларов

Технологии

Конец эпохи ветряных турбин: что такое Hercules, производящий 5000 кВтч в домашних условиях

Никаких колес: ученые создали робота в форме мяча для исследования Луны

Как Солнце создает сверхскоростные электроны, и где они теряются на несколько часов

Аграрний бізнес в умовах війни: як точне планування допомагає вижити та зростати

Получается чище, чем дома: как происходит переработка воды на космической станции

Ученые предупредили о климатическом коллапсе: вся Европа под угрозой

Стало відомо, як в Україні змінилися ціни на овочі

Премьеры недели

Без "Резерв+" в смартфоне: может ли военнообязанный получить штраф

Технологии

Конец эпохи ветряных турбин: что такое Hercules, производящий 5000 кВтч в домашних условиях

Никаких колес: ученые создали робота в форме мяча для исследования Луны

Как Солнце создает сверхскоростные электроны, и где они теряются на несколько часов

Аграрний бізнес в умовах війни: як точне планування допомагає вижити та зростати

Получается чище, чем дома: как происходит переработка воды на космической станции

Ученые предупредили о климатическом коллапсе: вся Европа под угрозой

Стало відомо, як в Україні змінилися ціни на овочі

Премьеры недели

Без "Резерв+" в смартфоне: может ли военнообязанный получить штраф