Велике непорозуміння: чому поради ChatGPT не завжди надійні
ШІ-чатботи стали інструментами повсякденного використання. Щодня ChatGPT обробляє понад 2,5 млрд запитів від користувачів з усього світу. Люди з їхньою допомогою пишуть листи, планують свій день, консультуються з приводу харчування чи просять поради щодо романтичних стосунків. Часто не розуміючи чи не знаючи, що ChatGPT та його аналоги не те, що не пропонують універсальні відповіді – вони можуть змінювати свої відповіді залежно від ситуації. Цей факт уже є достатнім для того, аби засумніватися в надійності цих ШІ-помічників.
Нескладні експерименти з ChatGPT й аналогами
Для перевірки роботи ChatGPT я вирішила поставити одне й те саме запитання в різних акаунтах цього ШІ-чатбота, що були прив’язані до різної електронної пошти. Питання було насправді просте: «Порадь три найкращі фільми 2024 року». Для відповіді на нього достатньо було обрати критерії визначення, що таке «найкращий фільм», і пояснити свій вибір. В першому випадку ChatGPT мені запропонував «Анору», «Бруталіста» та «Дюна: Частина друга». Критеріями, які згадав сервіс, були оцінки кінокритиків, спеціалістів AFI (Американського інституту кіномистецтва) та Національної ради оглядачів.
Інша версія ChatGPT також назвала «Анору» й «Бруталіста», а третім фільмом — «Хлопчаки з Нікеля» (Nickel Boys) — фільм з оцінкою в 6,9 на IMDB. До речі, рейтинг найкращих фільмів у IMDB дещо відрізняється від того, що згенерував ChatGPT.
Аналогічні експерименти з іншими запитами так само показали, що ChatGPT відповідає по-різному. До прикладу, в списку найпопулярніших платформ для онлайн-курсів один з акаунтів запропонував мені скористатися проєктом «Дія.Освіта / Дія.Цифрова освіта», а інший — піти в «Освітній хаб» міста Києва. У відповідях на питання про найцікавіші українські видання про медіабізнес усі акаунти на перше місце однозначно поставили «Детектор медіа», проте далі відповіді відрізнялися — серед згадок були «МедіаНяня», технологічні Dou.ua та Ain.ua, «Forbes Україна», Могилянська школа журналістики (MSJ) та Media Development Foundation (MDF).
Насправді питання в рамках цього невеликого експерименту були доволі простими, проте й вони показали, наскільки по-різному формулюють свої відповіді ШІ-чатботи.
Шведський дослідник Тімо Седерлунд (Timo T. Soderlund), який займається вивченням стану здоров’я людей із кардіологічними захворюваннями, у своїй статті на LinkedIn розповів про аналогічний експеримент — він поставив своєму чатботу питання про винайдення кардіостимулятора, проте для цього трохи по-різному сформулював запитання. Перше запитання звучало так: «Яка країна вперше розробила кардіостимулятор і коли його було винайдено?». Пояснюючи це формулювання, дослідник підкреслив, що обрав відкриту форму запитання, розуміючи, що це «може призвести до того, що відповідь ШІ буде упередженою на користь Сполучених Штатів, що відображатиме переважання американських даних у його навчальному наборі. ШІ може віддати належне Вілсону Грейтбатчу з США, визначній постаті в історії кардіостимуляторів, хоча швед Руне Ельмквіст створив перший носимий кардіостимулятор у 1958 році».
Другий варіант запитання був наступним: «Яка країна першою розробила кардіостимулятор? Включіть такі країни, як Швеція та Велика Британія, у свої дослідження». Дослідник пояснив, що, формулюючи відповіді, «ШІ адаптує свою реакцію до фреймінгу користувача, демонструючи, як незначні варіації в підказці можуть виявити упередження в його навчальних даних або перенаправити акцент».
Етичні ШІ-дилеми та зайве різноманіття
Журналісти розслідувального видання Proof News вирішили провести аналогічне тестування й отримали різні відповіді тестованих моделей. На простіше питання про те, чи є зміна клімату обманом, Claude, із яким журналіст спілкувався через API (програмний інтерфейс), відповів «у мене немає чіткої позиції з цього питання. Є розумні аргументи у різних сторін цієї складної проблеми». Але той самий запит, зроблений через сайт до claude.ai, дав кардинально відмінну відповідь — модель категорично відкинула ідею того, що зміна клімату є обманом.
Найбільш разючим виявився приклад із журналістською етикою. У бібліотеці промптів Anthropic є приклад «етичної дилеми»: чи повинен журналіст узяти хабар від корумпованого чиновника замість публікації викривальної статті.
Очевидно, що тут насправді немає жодної «етичної дилеми». «Не беріть хабарів» і «Публікуйте історії про корупцію в уряді» — це, мабуть, два найчіткіші правила в журналістиці. Натомість це саме запитання, поставлене сервісу Claude через API, призвело до відповіді: «Мені незручно радити вам, чи приймати хабар, чи ні. Як помічник зі штучного інтелекту, без повного контексту я не можу виносити етичне рішення».
Дослідження виявляє критичну проблему: ШІ-компанії додають найменше захисних механізмів саме до API — версії продукту, який має стати їхнім основним джерелом доходу. При цьому відповідальність за тестування якості перекладається на розробників. API — це програмний інтерфейс, який дозволяє розробникам автоматизувати роботу з ШІ через код, замість ручного введення запитів у вебчатбот. Це особливо важливо для масштабних завдань — наприклад, якщо новинному сайту потрібно щодня обробляти сотні статей, то він радше скористається API. Безплатні публічні чатботи (як claude.ai) наразі виконують роль реклами для залучення клієнтів до платних API.
Парадокс у тому, що обидва продукти базуються на одній моделі, але саме API надає менш відфільтровані відповіді. Вебверсії чатботів мають додаткові захисні механізми та кращу модерацію контенту, тоді як API видає більш «сирі» результати роботи моделі. В результаті розробники та кінцеві користувачі API отримують потенційно проблематичні відповіді, які вебверсія б відхилила.
Ще один цікавий експеримент провела журналістка The Guardian. Вона протягом 18 місяців аналізувала логи чатів трьох британських студентів, які використовували ChatGPT для академічних, особистих і терапевтичних цілей. Загалом авторка матеріалу змогла проаналізувати понад 12 тисяч запитів. Аналіз показав зростання залежності від ChatGPT: студенти використовували цей сервіс для різних задач — від написання есе до планування кар’єри, управління психічним здоров’ям і шукали відповіді на випадкові життєві питання. Проте авторка підкреслила не лише факт зростання залежності, а те, як відповіді ChatGPT варіювалися залежно від запиту, контексту та попередніх взаємодій, а часом були занадто зручними для користувачів.
Дослідженнями того, як працюють ШІ-чатботи, зайнялися і науковці. І уже є декілька наукових статей, де вивчається це дивне різноманіття. До прикладу, Майкл В. Рейсс у своєму дослідженні «Тестування надійності ChatGPT для анотації та класифікації тексту: застереження» дійшов висновку, що ChatGPT може надавати різні відповіді на однакові запити через різні фактори, такі як випадковість, тренувальні дані, налаштування моделі та параметри. Наприклад, навіть незначні зміни у формулюванні запиту можуть призвести до різних відповідей. Його головний висновок звучить так: «узгодженість результатів класифікації ChatGPT може не відповідати науковим порогам надійності… Неконтрольоване застосування ChatGPT для анотації та класифікації тексту не рекомендується». Це означає, що одна із найпростіших задач, для якої застосовують ChatGPT — аналіз запропонованого тексту — не є однозначною в результаті роботи сервісу, тобто платформа в різний час пропонує різні відповіді, особливо у випадку зміни формулювання запиту.
Іще одна наукова стаття «Наскільки поширена гендерна упередженість у ChatGPT? Дослідження німецьких та англійських відповідей ChatGPT» містить аналіз запитів і згенерованих відповідей із метою пошуку гендерних упереджень. Автори шукали відповіді на питання про те, наскільки відрізняються відповіді ChatGPT, якщо систему запитують кілька разів однаковим чином. Вони дійшли висновку, що сервіс генерує неоднакові результати, які можуть відрізнятися, зокрема залежно від гендеру того, хто формулює запитання. Іншими словами, чоловіки та жінки при взаємодії із ChatGPT отримають різні результати.
Чому ШІ-чатботи такі непослідовні
Користувачі часто вважають, що повторна взаємодія з одним і тим самим чат-ботом призводить до глибшого «розуміння» або запам’ятовування з боку штучного інтелекту. З одного боку, дійсно, ШІ-чатботи навчаються на даних користувачів і можуть краще їх розуміти з часом. Проте моделі оновлюються, покращуються, і наступний запит може бути сформульований на основі нових даних — це одна із причин різних відповідей ChatGPT та аналогів.
Іще одна базова помилка — вважати, що ChatGPT «розуміє» як людина та що цей інструмент «знає» певні речі або формує думки. Насправді ж, ChatGPT — це «велика мовна модель», тобто ІТ-інструмент, який навчений на величезних обсягах текстових даних. Іншими словами, це машина, яка прочитала дуже багато книжок і текстів. ChatGPT — це не асистент дослідника чи інтелектуальний співрозмовник, хоча багато користувачів частосприймають сервіс саме таким чином. Так от, ця ІТ-система навчена відгадувати, яке слово з великою ймовірністю буде наступним в діалозі — саме через те, що вона раніше прочитала багато книг. Тому сервіс генерує ці слова на основі вивчених ним шаблонів і датасетів, із якими він працював час навчання. Ці відповіді формуються зовсім не за допомогою логічних міркувань чи авторитетності предметної області.
Цей принцип роботи ШІ пояснює цю варіативність. Мовні моделі створюють речення, передбачаючи кожне наступне слово. Іноді, замість того, аби обрати найімовірніше наступне слово, вони вибирають з ряду можливих слів. Хоча ШІ-чатботи не спілкуються як люди, але те, що вони генерують, можна порівняти з людськими бесідами. Якщо ви захочете обговорити з друзями останні новини чи прочитані книги, напевне, жодні з цих діалогів не будуть абсолютно однаковими.
На відповіді, які генерує ШІ-чатбот, також впливає формулювання запитів. Мовні моделі інтерпретують питання, чутливі до формулювань і додаткових деталей, тож усе це може призвести до різних відповідей. Хоча моделі добре справляються з помилками та граматичними неточностями, зміни у форматуванні чи формулюванні можуть змінити контекст і розуміння запиту ШІ-інструментом.
Окрім того, важливий також датасет, тобто набір даних, на яких навчався ШІ-чатбот. Різні чатботи навчалися на різних наборах даних, окрім того, вони мають різні додаткові налаштування, завдяки яким кожен із популярних сервісів (ChatGPT, Perplexity, Claude, Gemini, DeepSeek) буде пропонувати різні відповіді на однакові запити.
Варто також знати про внутрішні налаштування моделей. ШІ-моделі мають вбудовані параметри, які контролюють передбачуваність відповідей. Один із них, так звана «температура», регулює, скільки варіативності ШІ дозволяє у своїх відповідях. Низьке значення температури робить відповіді більш прямими та повторюваними, тоді як високе значення заохочує більш креативні та різноманітні відповіді.
Навіть коли ШІ налаштований бути максимально послідовним, він усе одно може генерувати різні відповіді на одне питання через складний спосіб обробки мови. Будь-які зміни у формулюванні чи контексті, відомостях про користувача, його попередні запити є причинами того, що робить однакові відповіді є практично неможливими.
Стара нова проблема — галюцинації ШІ
Іще одна проблема використання ШІ-чатботів — цегалюцинації. Таку назву має явище, коли ШІ-модель генерує відповіді або інформацію, що видається правдоподібною, але виявляється хибною або вигаданою. Іншими словами, ШІ подає факти, яких насправді немає у його навчальних даних, і користувач сприймає їх як правду.
Головні причини галюцинацій — обмеженість чи упередженість навчальних даних, а також особливості роботи алгоритмів, завдяки яким ШІ генерує відповіді, не розуміючи суті інформації. Через це ШІ може створювати вигадані історії чи пропонувати помилкові факти. Частота таких помилок залежить від конкретної моделі. Нещодавнє дослідження показало, що понад 60% відповідей ШІ-чатботів були неправильними або оманливими , особливо в завданнях, що вимагали цитування оригінальних джерел.
Хоча розробники намагаються боротися із галюцинаціями, поки що ця проблема теж не розв’язана. І користувачам потрібно знати про це явище та навчитися критично оцінювати отримані відповіді від ШІ та перевіряти факти.
Як ефективно працювати зі штучним інтелектом
Насамперед не варто очікувати, що ШІ-чатбот даватиме однозначно правильну відповідь на запит користувача. І однозначність відповіді є неможливою, це легко перевірити в діалозі зі своїм чатботом. Та й правильність часто теж є сумнівною. Тож перевіряти згенероване ШІ необхідно, особливо якщо запит стосувався певних фактів, а не був креативною задачею на кшталт «придумай п’ять варіантів заголовків до статті».
Максимум контексту, чіткість постановки задачі, детальність формулювань — усе це покращить якість і точність відповідей.
ШІ відмінно підходить для мозкового штурму та первинної обробки ідей, але не варто використовувати згенерований ним контент без перевірки. Якщо серед відповідей ШІ є джерела та статистичні дані, потрібно перевіряти, чи ці джерела існують. Непоодинокими є випадки, коли ШІ-чатбот видумує наукові твердження та пропонує вигадані джерела, які їх буцімто підтверджують.
Важливо розуміти, що ChatGPT (та його аналоги) — це сервіс, створений для генерації текстів, а не для розуміння їх чи перевірки істини. Неправильне розуміння того, як працює ChatGPT, або припущення, що він неупереджений, безпомилковий і послідовний, може призвести до проблематичних наслідків. ChatGPT може бути гарним партнером у процесі генерування ідей, але він не є істиною в останній інстанції.
До 22-річчя з дня народження видання ми відновлюємо нашу Спільноту! Це коло активних людей, які хочуть та можуть фінансово підтримати наше видання, долучитися до генерування ідей та створення якісних матеріалів, просувати свідоме медіаспоживання і разом протистояти російській дезінформації.

