/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F53%2F092e803419e0afd6dbdd16c88b3f0e8b.jpg)
АІ-боту ChatGPT не можна довіряти: він бреше у 37% випадків, хоча й коштує мільярди доларів
Цікаво, що o3-mini від OpenAI, дешевша і зменшена версія GPT-4o, "галюцинує" у 80,3% випадків.
Використовуючи SimpleQA, інструмент для оцінки фактів, компанія OpenAI визнала, що її нова велика мовна модель (ВММ) GPT-4.5 "галюцинує", тобто ШІ видає вигадки за факти в 37% випадків, пише futurism.com.
ШІ-модель від компанії, яка коштує сотні мільярдів доларів, бреше більш ніж в одній із трьох відповідей, які вона дає. OpenAI намагається представити проблему "брехні" GPT-4.5 як щось хороше, стверджуючи, що цей чат-бот не "галюцинує" так часто, як БЯМ від інших компаній.
На графіку показано, як часто нова ШІ-модель бреше. Також відомо, що GPT-4o, нібито вдосконалена модель "міркувань", "галюцинує" у 61,8% випадків, що вдалося з'ясувати завдяки перевірці фактів SimpleQA. Було виявлено, що o3-mini від OpenAI, дешевша та зменшена версія GPT-4o, "галюцинує" у 80,3% випадків.
Звичайно, ця проблема не унікальна для OpenAI, пише ЗМІ.
"Наразі навіть найкращі моделі можуть генерувати текст без "галюцинацій" тільки в 35% випадків", — пояснив Вентінг Чжао, докторант Корнельського університету. — "Найважливіший висновок із нашої роботи з перевірки фактів полягає в тому, що ми поки що не можемо повністю довіряти результатам генерації".
Крім недовіри до компанії, яка отримує сотні мільярдів доларів інвестицій у продукти, у яких є такі проблеми, це багато що свідчить про індустрію ШІ загалом, — що саме нам продають? Дорогі, ресурсомісткі системи, які мають наближатися до людського рівня інтелекту, але все ще не можуть правильно розуміти основні факти, нарікають автори матеріалу.
Оскільки БЯМ OpenAI перестають рости в продуктивності, компанія вочевидь хапається за соломинку, щоб повернути інтерес до свого чат-боту, який був високим у ті дні, коли ChatGPT вперше з'явився. Але для цього нам, ймовірно, знадобиться побачити справжній прорив, а не ще більше брехні, резюмували автори.
Раніше ми писали, що у пошукової системи Google з'явився дуже серйозний конкурент. Пошук ChatGPT без входу в систему робить його більш життєздатною альтернативою Google.
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F52%2F9a90a4e43aefe479a01f3b9f4d6b7cd1.jpg)
Мав шість кубиків: учені приголомшили новою заявою про ймовірну зовнішність Ісуса
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2Fa2abc8dadf46bd5c5ba92ec23bd71d6c.jpg)
Новий застосунок Google потайки сканує фото без відома користувачів
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F9%2F524cfbcb31f392fa0a4a83be33b7137f.png)
Найбільше відкриття після Тутанхамона: в Єгипті відкопали величну гробницю
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F137%2Fe67808ed259264d128010fab32683817.jpg)
«Правління Intel звільнити, Пета Гелсінгера знов найняти», — колишній CEO компанії Крейг Барретт
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F434%2Fac163b79c7e22d9ceb01938a97605eaf.jpg)
Вийшов перший смартфон для дітей: що відомо про Fusion X1
Ракетний прискорювач Falcon 9 втрачений після посадки на безпілотну платформу
/https%3A%2F%2Fs3.eu-central-1.amazonaws.com%2Fmedia.my.ua%2Ffeed%2F457%2F4d7332d5b58c99ea70beeca61942de49.jpg)