Велика ілюзія штучного інтелекту розпадається при роздивлянні впритул

15 липня, 09:31

Чи полягає секрет штучного інтелекту в тому, що ми маємо обманювати себе, як глядачів на магічному шоу?

Деякі захопливі нові дослідження показують, що самообман відіграє ключову роль у тому, чи сприймається штучний інтелект як успішний чи невдалий.

У рандомізованому контрольованому дослідженні – першому у своєму роді – досвідчені комп'ютерні програмісти могли використовувати інструменти штучного інтелекту для написання коду. Те, що виявило випробування, було величезною кількістю самообману.

«Результати нас здивували», – повідомила дослідницька лабораторія METR. «Розробники вважали, що вони на 20% швидші за допомогою інструментів штучного інтелекту, але насправді вони були на 19% повільнішими , коли мали доступ до ШІ, ніж коли його не мали».

Насправді використання штучного інтелекту зробило їх менш продуктивними: вони витрачали більше часу, ніж отримували. Але що найцікавіше, так це те, як вони сліпо клялися, що правдою було навпаки.

Якщо ви вважаєте, що штучний інтелект допомагає вам у роботі, можливо, це тому, що ви хочете вірити, що він працює.

Відколи наприкінці 2022 року ChatGPT від OpenAI став доступним для широкої публіки, експерти прогнозують величезне підвищення продуктивності від впровадження штучного інтелекту. Вони сподіваються, що це прискорить зростання та збільшить ВВП. Ця думка стала загальноприйнятою у високопосадових політичних колах.

Але весь цей технооптимізм ґрунтується на омані. «Життєвий досвід» використання реальних інструментів у реальному світі малює зовсім іншу картину.

Останні кілька днів здалися поворотним моментом, оскільки небажання показувати новий одяг імператора зменшується.

«Я створюю агентів зі штучним інтелектом, це те, чим я займаюся для своїх клієнтів», – написав один користувач Reddit. «Розрив між ажіотажем і тим, що насправді відбувається на місцях, перетворюється на каньйон»

Штучний інтелект недостатньо надійний, щоб виконувати обіцяну роботу. Згідно з опитуванням IBM, проведеним серед 2000 керівників, три з чотирьох проектів ШІ не продемонстрували окупності інвестицій, що є надзвичайно високим показником невдач.

Не варто також затримувати подих на очікування революції в автоматизації роботи білих комірців: згідно з дослідженням, проведеним Університетом Карнегі-Меллона та Salesforce, агенти зі штучним інтелектом не можуть успішно виконати роботу приблизно у 65-70% випадків.

Аналітична фірма Gartner Group дійшла висновку, що «сучасні моделі не мають зрілості та здатності самостійно досягати складних бізнес-цілей або дотримуватися тонких інструкцій з часом». Керівник відділу досліджень штучного інтелекту Gartner Ерік Бретену каже: «Штучний інтелект сьогодні не виконує свою роботу і повинен давати спокій».

Не дивно, що такі компанії, як Klarna, які звільнили персонал у 2023 році, впевнено заявляючи, що штучний інтелект може виконувати їхню роботу, знову наймають людей.

Це надзвичайно, і ми могли досягти цього моменту лише завдяки історичному самообману. Люди навіть присягатимуться на те, що ШІ працюватиме добре, попри власний суб'єктивний досвід протилежного, зазначив минулого тижня критик ШІ, професор Гері Маркус.

«Визнавати, що це відстій у вашій власній спеціалізації, але уявляти, що це якимось чином чудово в галузях, з якими ви менш знайомі», він називає «сліпотою ChatGPT».

Багато новин є оманливими. Фірми просто використовують штучний інтелект як привід для скорочення витрат. Скорочення витрат – це зараз головна новина в бізнесі.

У світовому масштабі нестабільна поведінка президента Трампа викликала обережність, тоді як у Великій Британії ділова довіра перебуває на «історично низькому рівні» , за даними Інституту директорів, що погіршилося після осінніх податків Рівза. Пов’язування цих звільнень з технологіями – це просто розумний піар-хід, який допомагає підвищити ціну акцій.

То чому ж віра в ШІ залишається такою сильною?

Сумнівний ажіотаж не допомагає. Кожні кілька тижнів з'являється нова модель штучного інтелекту, яка б'є галузеві рекорди. Grok 4 від xAI зробив саме це минулого тижня. Але ці дані оманливі та просто створюють більше упередженого підтвердження.

«Кожен з них не досяг цієї позначки. І жоден не вирішив проблеми з галюцинаціями, проблемами з орієнтацією чи незрозумілими помилками», — каже Маркус.

Генеративний ШІ не тільки ненадійний, але й не здатний міркувати, як показала нещодавня демонстрація: остання модель ChatGPT4o від OpenAI була перевершена 8-бітною ігровою консоллю Atari, виготовленою в 1977 році.

«Реальність — це головний орієнтир для ШІ», — пояснив минулого тижня Чомба Бупе, розробник ШІ із Замбії. «Ви ж не збираєтеся заявляти, що створили інтелект, перевершуючи іграшкові тести… Який сенс отримувати, скажімо, 90% у деяких фізичних тестах, але не вміти виконувати жодної реальної фізики?» — запитав він.

А ще є тисячі акаунтів, які я називаю «вауслоп» – стрічок у соціальних мережах, які висловлюють захоплення проривами. Окрім постачальників, на підтримку ажіотажу витрачається багато тіньових впливових грошей.

Це не означає, що генеративний ШІ не має застосування: річний дохід Anthropic досяг 4 мільярдів доларів (3 мільярди фунтів стерлінгів). Для деяких ніш, таких як переклад мов та створення прототипів, він тут надовго. Перш ніж минулого тижня він зійшов з розуму , Grok від X чудово додавав цінний контекст.

Але навіть якщо ШІ завтра «відкриє» нові матеріали чи ліки, це не компенсує трильйон доларів, які, за оцінками Goldman Sachs, бізнес уже витратив на це покоління невдалого ШІ.

Це капітал, який можна було б інвестувати набагато корисніше. Замість того, щоб бути двигуном прогресу, поганий штучний інтелект може стати його протилежністю.

METR додала до свого дослідження цікаву примітку. Дослідники використовували ще одну контрольну групу в експерименті з продуктивності, і ця група зробила найгірші, надто оптимістичні оцінки з усіх. Це були економісти.

Джерело матеріала

InternetUA

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Китайський ШІ перетворить ваші пам'ятні фотографії на 3D-світи, якими можна прогулятися

InternetUA

42 хвилини тому

Заробіток Ілона Маска у трильйон доларів вимагає лише невеликого світового панування, нічого особливого

Топ Жир

57 хвилин тому

Таємничий міжзоряний об'єкт у Сонячній системі: з’явилися нові дивовижні зображення

TSN

2 години тому

Хакери атакують смартфони: Google випустила екстрене оновлення безпеки для Android

TSN

2 години тому

ТОР із зенітними FPV-дронами: що відомо про український дрон-матку, що показали в Польщі

InternetUA

4 години тому

Велика ілюзія штучного інтелекту розпадається при роздивлянні впритул

Технології

Китайський ШІ перетворить ваші пам'ятні фотографії на 3D-світи, якими можна прогулятися

Заробіток Ілона Маска у трильйон доларів вимагає лише невеликого світового панування, нічого особливого

Таємничий міжзоряний об'єкт у Сонячній системі: з’явилися нові дивовижні зображення

Хакери атакують смартфони: Google випустила екстрене оновлення безпеки для Android

Найпростіший спосіб: як приховати непривабливий сміттєвий бак у дворі

Легендарна Subway Surfers отримала змагальний режим і кросовер з Brawl Stars

У Німеччині запустили найшвидший у Європі суперкомп'ютер за 500 млн євро

Чотири інструменти ChatGPT, що роблять його кориснішим

ТОР із зенітними FPV-дронами: що відомо про український дрон-матку, що показали в Польщі

Технології

Китайський ШІ перетворить ваші пам'ятні фотографії на 3D-світи, якими можна прогулятися

Заробіток Ілона Маска у трильйон доларів вимагає лише невеликого світового панування, нічого особливого

Таємничий міжзоряний об'єкт у Сонячній системі: з’явилися нові дивовижні зображення

Хакери атакують смартфони: Google випустила екстрене оновлення безпеки для Android

Найпростіший спосіб: як приховати непривабливий сміттєвий бак у дворі

Легендарна Subway Surfers отримала змагальний режим і кросовер з Brawl Stars

У Німеччині запустили найшвидший у Європі суперкомп'ютер за 500 млн євро

Чотири інструменти ChatGPT, що роблять його кориснішим

ТОР із зенітними FPV-дронами: що відомо про український дрон-матку, що показали в Польщі