Дослідники вважають, що штучний інтелект також може тренувати нас
Дослідники вважають, що штучний інтелект також може тренувати нас

Дослідники вважають, що штучний інтелект також може тренувати нас

Багато систем штучного інтелекту «навчаються» шляхом взаємодії з людською поведінкою та створеною людиною інформацією. Тепер дослідники Вашингтонського університету виявили, що люди змінюють свою поведінку, коли знають, що їхні дії використовуються для навчання ШІ.

І не тільки люди змінюються, але ці зміни можуть тривати в майбутньому – створюючи нові звички у тренерів-людей. І тенденції або упередження в поведінці людини, в тому числі ті, про які вона навіть не усвідомлює, також можуть змінитися.

Отже, хто тут тренує кого?

«Це дослідження чітко показує нам, що нам потрібно розуміти поведінку людей, які взаємодіють зі штучним інтелектом, зокрема, коли вони допомагають навчати ці інструменти, щоб ми могли виміряти цю упередженість і пом’якшити її», — сказав доктор Філіп Р.О. Пейн, директор WashU. Інститут інформатики та професор медицини.

Але у покращення поведінки людей може бути недолік, якщо їхні дії використовуються для навчання ШІ. Провідний дослідник Лорен Трейман, аспірантка Вашингтонського університету, сказала, що якби люди допомагали навчати штучний інтелект для безпілотних автомобілів, наприклад, вони б керували особливо обережно. Це може зробити штучний інтелект ідеальним драйвером.

Однак у такому місці, як Сент-Луїс, де люди часто проїжджають на коротке світло на жовте світло, для безпілотного автомобіля може бути небезпечніше намагатися бути ідеальним водієм.

«Штучному інтелекту може знадобитися навчитися керувати жовтими, якщо це те, що люди зазвичай роблять», — сказала вона.

Трейман сказала, що вперше почала думати про наслідки того, як навчається штучний інтелект, і про алгоритми, які визначають те, що ми бачимо в Інтернеті, прокручуючи свою стрічку соціальних мереж.

«Коли ви отримуєте «рекомендовані» відео, алгоритм може бути надзвичайно чутливим», – сказала вона. «Посидьте на чомусь кілька секунд, і ви побачите такий вміст знову і знову».

Вона сказала, що навмисно швидко пройде повз щось або взагалі не натисне на нього, щоб алгоритми соціальних мереж навчилися показувати їй менше такого вмісту.

Досвід, змінивши її власну поведінку у відповідь на ШІ, надихнув на експерименти.

Дослідники використовували гру «Ультиматум» — «класичний академічний підхід», за словами Воутера Кула, доцента кафедри психології та наук про мозок Вашингтонського університету.

У грі Ultimatum беруть участь два гравці: один вирішує, як розділити 10 доларів США (RM43) між ними, і робить пропозицію, яку інший може прийняти або відхилити. Якщо пропозицію прийнято, кожен гравець отримує гроші, які погодився розділити. Але якщо його відхилено, жоден гравець не отримає грошей.

У дослідженні деяким гравцям сказали, що те, як вони грають у цю гру, буде використано для навчання ШІ гри. Їм нагадали про це маленький значок веб-камери в кутку екрана та слова «Пропозиція використовувалася для навчання ШІ».

Дослідники виявили, що люди, які грали, щоб навчити ШІ, як правило, відхиляли більш несправедливі пропозиції. Відмова від пропозиції зменшує фінансовий прибуток гравців наприкінці гри, але ті, хто грав, щоб навчити ШІ, робили це набагато частіше, ніж ті, хто цього не робив. Виявилося, що люди хотіли навчити ШІ грати чесно і змінили свою поведінку, щоб задовольнити це бажання.

Однак учасникам було сказано, що вони пізніше зіграють у гру «Ультиматум» проти штучного інтелекту — тож чи тренували вони її справедливо задля справедливості, чи їм пощастить більше в наступному раунді?

Щоб відповісти на це запитання, дослідники провели той самий експеримент, але цього разу сказали учасникам, що навчать ШІ, з яким хтось інший зіткнеться в наступному раунді. Результати були ті самі: люди навчили ШІ грати чесно, навіть якщо це коштувало їм певних грошей — і навіть якщо вони не грали б проти цього ШІ в майбутньому.

Нарешті, дослідники перевірили, чи спонукає учасників грати чесно відчуття того, що за ними спостерігають.

«Це давня проблема в дослідженнях», — сказав Пейн. «Люди знають, що за ними спостерігають, і це впливає на те, що (дослідники) спостерігають».

Тож дослідники прибрали значок веб-камери з екрана групи навчання штучному інтелекту, щоб люди трохи менше відчували, ніби за ними спостерігають.

Тим не менш, «люди були готові пожертвувати винагородою, щоб зробити штучний інтелект більш справедливим», — сказав Чіен-Джу Хо, дослідник і доцент кафедри інформатики та інженерії в WashU.

Усі ці експерименти свідчать про те, що люди змінюють свою поведінку під час навчання ШІ, але троє дослідників погодилися, що найцікавішим є те, як довго тривала ця зміна поведінки.

Кул сказав, що початковий експеримент зайняв лише близько п’яти хвилин. Учасники повернулися через два-три дні й грали так само, як і під час першого сеансу, навіть після того, як їм прямо сказали, що вони більше не тренують ШІ.

«Дивлячись на поведінку під час другого сеансу, ми побачили ці дійсно гарні, чіткі моделі стійкості поведінки», — сказав Кул.

Трейман сказав, що ці висновки можуть вплинути на те, як навчається штучний інтелект, і поставити інші питання.

«У грі «Ультиматум» є чітке визначення справедливості. Але в багатьох інших обставинах немає чіткого визначення», – сказав Трейман. «Ви завжди хочете отримати максимально справедливий, чесний ШІ. Але що є справедливим в інших ситуаціях? Особливо тому, що люди будуть прищеплювати свої уподобання, упередження чи переконання в системи ШІ, які вони навчають». – Служба новин St. Louis Post-Dispatch/Tribune

Джерело матеріала
loader
loader