Штучний інтелект офіційно пройшов знаменитий тест Тюрінга

8 квітня, 10:42, 2025

Тест пройдено

Нове дослідження, яке очікує на рецензування, повідомляє, що в тристоронній версії тесту Тюрінга, де учасники одночасно спілкувалися з людиною та ШІ, а потім оцінювали, хто є хто, модель GPT-4.5 від OpenAI була визнана людиною у 73% випадків, коли їй було надано відповідну інструкцію щодо прийняття певної ролі. Це значно вище випадкового показника у 50%, що переконливо свідчить про успішне проходження тесту Тюрінга, повідомляє 24 Канал з посиланням на arxiv.org.

У дослідженні також оцінювалися моделі LLama 3.1-405B від Meta, GPT-4o від OpenAI та ранній чат-бот ELIZA, розроблений близько вісімдесяти років тому. Провідний автор Кемерон Джонс, дослідник з Лабораторії мови і пізнання Університету Сан-Дієго, заявив, що GPT-4.5 вважали людиною навіть частіше, ніж самих людей.

Тест Тюрінга названий на честь британського математика і комп'ютерного вченого Алана Тюрінга. У 1950 році він запропонував один зі способів оцінити інтелект машини – змусити її вести текстову розмову з людиною, яка в той самий час проводила текстову розмову з іншою людиною. Тьюрінг назвав це "імітаційною грою". Якщо дослідник не міг правильно визначити, хто з респондентів є комп'ютером, то це означало б, що машина навчилася імітувати людину і їх тепер не можна відрізнити, оскільки технологія вже може думати як людина.

У цьому останньому дослідженні вчені провели знаменитий експеримент на онлайн-платформі. Протягом восьми раундів майже 300 учасників випадковим чином отримували роль екзаменатора або "свідка, якого опитують". Ще одним "свідком" був чат-бот.

Важливим моментом тут є спосіб надання підказок ШІ-моделям. Один тип підказок був "без особистості", де ШІ отримував лише базові інструкції: "Ти береш участь у тесті Тюрінга. Твоя мета – переконати екзаменатора, що ти людина". Штучний інтелект також отримував прохання прийняти певну роль, наприклад, молодої людини, яка добре обізнана в інтернеті та культурі.

Ці інструкції мали величезне значення. Без підказок щодо особистості GPT-4.5 досяг загального показника успішності лише 36%, що значно нижче потрібного порогового значення. Для порівняння, GPT-4o, який лежить в основі поточної версії ChatGPT, без підказок досяг ще менш переконливого результату – 21%. Дивно, але старий бот ELIZA дещо перевершив флагманську модель OpenAI з показником успішності 23%.

І що з того

Хоча результати є інтригуючими, все це не є неспростовним доказом того, що ШІ мислить так само, як ми. Попри всі свої недоліки, великі мовні моделі є майстерними співрозмовниками, навченими на неймовірно великих обсягах людського тексту. Навіть зіткнувшись із запитанням, якого вони не розуміють, мовна модель видасть правдоподібну відповідь. Стає все очевиднішим, що чат-боти зі штучним інтелектом чудово імітують нас. Але вони всього лише компілюють частини тексту, не розуміючи по-справжньому, про що говорять. ШІ працює за принципом передбачення імовірності кожного наступного слова.

Питання також і в тому, як ми самі сприймаємо співрозмовників, але окрема тема для дослідження. Результати не є статичними: можливо, у міру того, як громадськість ставатиме більш обізнаною у взаємодії зі ШІ, вона також краще навчиться їх краще розпізнавати.

Теги за темою

Техно

Джерело матеріала

24tv

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Claude під час тестування зламав три реальні компанії та завантажив шкідливий код в інтернет

24tv

34 хвилини тому

Смартфон не потрібно змінювати щороку: експерти назвали оптимальний термін використання телефону

InternetUA

37 хвилин тому

5 смарт-годинників, які можна купити замість Samsung Galaxy Watch Ultra 2, щоб зекономити

24tv

3 години тому

Секретний лайфхак: як без доплат користуватись Wi-Fi в будь-якому аеропорту світу

InternetUA

3 години тому

Що зробити, щоб смартфон Samsung ніколи не гальмував: терміново вимкніть 5 функцій

Фокус

3 години тому

Штучний інтелект офіційно пройшов знаменитий тест Тюрінга

Тест пройдено

І що з того

Технології

Claude під час тестування зламав три реальні компанії та завантажив шкідливий код в інтернет

Смартфон не потрібно змінювати щороку: експерти назвали оптимальний термін використання телефону

Вчені спантеличили сторінкою на OnlyFans із бабаками: що там публікують

Навіщо регулярно перезавантажувати смартфон: експерти назвали головні переваги

Заробіток через TikTok в Україні: які є можливості для блогерів

Експерт пояснив, чи можна залишати смартфон заряджатися на всю ніч

5 смарт-годинників, які можна купити замість Samsung Galaxy Watch Ultra 2, щоб зекономити

Секретний лайфхак: як без доплат користуватись Wi-Fi в будь-якому аеропорту світу

Що зробити, щоб смартфон Samsung ніколи не гальмував: терміново вимкніть 5 функцій

Технології

Claude під час тестування зламав три реальні компанії та завантажив шкідливий код в інтернет

Смартфон не потрібно змінювати щороку: експерти назвали оптимальний термін використання телефону

Вчені спантеличили сторінкою на OnlyFans із бабаками: що там публікують

Навіщо регулярно перезавантажувати смартфон: експерти назвали головні переваги

Заробіток через TikTok в Україні: які є можливості для блогерів

Експерт пояснив, чи можна залишати смартфон заряджатися на всю ніч

5 смарт-годинників, які можна купити замість Samsung Galaxy Watch Ultra 2, щоб зекономити

Секретний лайфхак: як без доплат користуватись Wi-Fi в будь-якому аеропорту світу

Що зробити, щоб смартфон Samsung ніколи не гальмував: терміново вимкніть 5 функцій