Тест від "хрещеного батька ШІ" викрив правду про рівень GPT-4: він в рази тупіший за людину

30 листопада, 07:18, 2023

Команда дослідників із Meta – материнської компанії Facebook – створила новий тест для оцінки здібностей ШІ-помічників, таких як велика мовна модель (LLM) OpenAI GPT-4. Виявилося, що за інтелектуальним рівнем він значно тупіший за людей.

Результати дослідження опубліковані на сайті препринтів arXiv. Робота вчених ще очікує рецензування від наукової спільноти.

Команда дослідників, серед яких був головний науковий співробітник Meta Ян ЛеКун, якого називають "хрещеним батьком ШІ", розробила іспит під назвою GAIA. Він складається з 466 питань, які є концептуально простими для людини, але складними для більшості просунутих ШІ.

Виявилося, що респонденти-люди змогли правильно відповісти на 92% запитань іспиту. В той же час GPT-4, навіть оснащений деякими підібраними вручну плагінами, набрав лише 15%. Нещодавно випущений OpenAI GPT4 Turbo теж показав себе далеко не найкращим чином, набравши менше 10%.

Варто зазначити, що з якихось причини дослідники не включили в свою роботу конкуруючі LLM, такі як Llama 2 від тої ж Meta або Bard від Google.

Тим не менш, дослідження показує, що ШІ наразі досить далекий від того, аби досягнути загального штучного інтелекту (AGI) – стану, в якому алгоритми ШІ зможуть перевершити людину в інтелектуальних завданнях.

Як пише The Byte, висновки дослідників також суперечать гучним заявам, зробленим відомими діячами індустрії штучного інтелекту.

"Ця помітна різниця в продуктивності контрастує з нещодавньою тенденцією, коли LLM перевершували людей у виконанні завдань, що вимагали професійних навичок, наприклад, в юриспруденції або хімії", – зазначили дослідники.

У документації GPT-4 OpenAI стверджує, що їхня модель "демонструє людський рівень продуктивності в різних професійних і академічних тестах, включаючи складання імітованого іспиту на адвоката з результатом, що знаходиться в межах перших десяти відсотків учасників тестування".

Однак, вчені все ще дискутують про те, як насправді оцінити інтелект LLM, якщо GPT-4, як і інші моделі ШІ, все ще має багато недоліків і часом не може відрізнити правду від вигадки.

ЛеКун і раніше критикував хайп довкола ШІ та заперечував дані про те, що він є екзистенційною загрозою для людей.

За його словами, LLM, очевидно, "мають певне розуміння того, що вони читають і генерують … але це розуміння дуже обмежене і поверхневе".

"Інакше вони б не плуталися так часто і не робили помилок, які суперечать здоровому глузду", – підкреслив науковець.

Раніше в OBOZ.UA розповідав про те, що OpenAI, ймовірно, працює над моделлю наступного покоління під назвою Q*, яка може вивести рівень дедуктивних міркувань ШІ на висоту людського інтелекту.

Підписуйтесь на канали OBOZ.UA у Telegram і Viber, щоб бути в курсі останніх подій.

Джерело матеріала

Обозреватель

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Від Bluesky до Threads: чому мільйони людей йдуть із соцмережі Маска Х після виборів у США

24tv

24 хвилини тому

Супутники Starlink все частіше сприймаються людьми, як загадкові НЛО

24tv

24 хвилини тому

Суд зобов'язав Meta виплатити компенсації користувачам Facebook за витік даних 2021 року

InternetUA

24 хвилини тому

Порівняно автономність п'яти актуальних флагманських смартфонів

InternetUA

43 хвилини тому

Завтра знову відключатимуть світло: де і коли не буде електрики

TSN

53 хвилини тому

ІТ-системи російських судів не змогли відновитися після української хакерської атаки

InternetUA

1 годину тому

Тест від "хрещеного батька ШІ" викрив правду про рівень GPT-4: він в рази тупіший за людину

Технології

Розробники STALKER 2 повідомили час виходу гри в Україні та світі

Компанія Nike вперше надрукувала кросівки на 3D-принтері

Перше в історії спостереження зигзагоподібної подвійної гравітаційної лінзи

Від Bluesky до Threads: чому мільйони людей йдуть із соцмережі Маска Х після виборів у США

Супутники Starlink все частіше сприймаються людьми, як загадкові НЛО

Суд зобов'язав Meta виплатити компенсації користувачам Facebook за витік даних 2021 року

Порівняно автономність п'яти актуальних флагманських смартфонів

Завтра знову відключатимуть світло: де і коли не буде електрики

ІТ-системи російських судів не змогли відновитися після української хакерської атаки

Технології

Розробники STALKER 2 повідомили час виходу гри в Україні та світі

Компанія Nike вперше надрукувала кросівки на 3D-принтері

Перше в історії спостереження зигзагоподібної подвійної гравітаційної лінзи

Від Bluesky до Threads: чому мільйони людей йдуть із соцмережі Маска Х після виборів у США

Супутники Starlink все частіше сприймаються людьми, як загадкові НЛО

Суд зобов'язав Meta виплатити компенсації користувачам Facebook за витік даних 2021 року

Порівняно автономність п'яти актуальних флагманських смартфонів

Завтра знову відключатимуть світло: де і коли не буде електрики

ІТ-системи російських судів не змогли відновитися після української хакерської атаки