АІ-боту ChatGPT не можна довіряти: він бреше у 37% випадків, хоча й коштує мільярди доларів

3 березня, 13:45, 2025

Цікаво, що o3-mini від OpenAI, дешевша і зменшена версія GPT-4o, "галюцинує" у 80,3% випадків.

Використовуючи SimpleQA, інструмент для оцінки фактів, компанія OpenAI визнала, що її нова велика мовна модель (ВММ) GPT-4.5 "галюцинує", тобто ШІ видає вигадки за факти в 37% випадків, пише futurism.com.

ШІ-модель від компанії, яка коштує сотні мільярдів доларів, бреше більш ніж в одній із трьох відповідей, які вона дає. OpenAI намагається представити проблему "брехні" GPT-4.5 як щось хороше, стверджуючи, що цей чат-бот не "галюцинує" так часто, як БЯМ від інших компаній.

На графіку показано, як часто нова ШІ-модель бреше. Також відомо, що GPT-4o, нібито вдосконалена модель "міркувань", "галюцинує" у 61,8% випадків, що вдалося з'ясувати завдяки перевірці фактів SimpleQA. Було виявлено, що o3-mini від OpenAI, дешевша та зменшена версія GPT-4o, "галюцинує" у 80,3% випадків.

Звичайно, ця проблема не унікальна для OpenAI, пише ЗМІ.

"Наразі навіть найкращі моделі можуть генерувати текст без "галюцинацій" тільки в 35% випадків", — пояснив Вентінг Чжао, докторант Корнельського університету. — "Найважливіший висновок із нашої роботи з перевірки фактів полягає в тому, що ми поки що не можемо повністю довіряти результатам генерації".

Крім недовіри до компанії, яка отримує сотні мільярдів доларів інвестицій у продукти, у яких є такі проблеми, це багато що свідчить про індустрію ШІ загалом, — що саме нам продають? Дорогі, ресурсомісткі системи, які мають наближатися до людського рівня інтелекту, але все ще не можуть правильно розуміти основні факти, нарікають автори матеріалу.

Оскільки БЯМ OpenAI перестають рости в продуктивності, компанія вочевидь хапається за соломинку, щоб повернути інтерес до свого чат-боту, який був високим у ті дні, коли ChatGPT вперше з'явився. Але для цього нам, ймовірно, знадобиться побачити справжній прорив, а не ще більше брехні, резюмували автори.

Раніше ми писали, що у пошукової системи Google з'явився дуже серйозний конкурент. Пошук ChatGPT без входу в систему робить його більш життєздатною альтернативою Google.

Джерело матеріала

Фокус

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Земля зіткнулася з проблемою, яку неможливо вирішити: токсичні частинки проникають усюди

Фокус

4 хвилини тому

Anthropic стверджує, що її ШІ моделі порушили безпеку трьох компаній під час тестів

InternetUA

2 години тому

В океані мешкає істота, яка може налякати навіть косаток: хто це

ZN UA

2 години тому

Завдяки штучному інтелекту - Google у червні виправила більше помилок Chrome, ніж за останні два роки

InternetUA

2 години тому

Кнопкові телефони знову в моді: чому люди відмовляються від смартфонів

InternetUA

3 години тому

Вода допомогла майже вдвічі підвищити ефективність натрій-іонних батарей

InternetUA

3 години тому

АІ-боту ChatGPT не можна довіряти: він бреше у 37% випадків, хоча й коштує мільярди доларів

Технології

Земля зіткнулася з проблемою, яку неможливо вирішити: токсичні частинки проникають усюди

Чому телефон сідає швидше з 5G і як це виправити

Магнітна буря майже 6-бального рівня накрила Землю: скільки триватиме шторм

Без рису та фена: знайдено швидкий спосіб очистити динамік смартфона від води

Anthropic стверджує, що її ШІ моделі порушили безпеку трьох компаній під час тестів

В океані мешкає істота, яка може налякати навіть косаток: хто це

Завдяки штучному інтелекту - Google у червні виправила більше помилок Chrome, ніж за останні два роки

Кнопкові телефони знову в моді: чому люди відмовляються від смартфонів

Вода допомогла майже вдвічі підвищити ефективність натрій-іонних батарей

Технології

Земля зіткнулася з проблемою, яку неможливо вирішити: токсичні частинки проникають усюди

Чому телефон сідає швидше з 5G і як це виправити

Магнітна буря майже 6-бального рівня накрила Землю: скільки триватиме шторм

Без рису та фена: знайдено швидкий спосіб очистити динамік смартфона від води

Anthropic стверджує, що її ШІ моделі порушили безпеку трьох компаній під час тестів

В океані мешкає істота, яка може налякати навіть косаток: хто це

Завдяки штучному інтелекту - Google у червні виправила більше помилок Chrome, ніж за останні два роки

Кнопкові телефони знову в моді: чому люди відмовляються від смартфонів

Вода допомогла майже вдвічі підвищити ефективність натрій-іонних батарей