ШІ не дуже добре розбирається в історії

20 січня, 09:16

Штучний інтелект може досягти успіху в певних завданнях, як-от кодування чи створення подкасту . Але йому важко скласти іспит з історії високого рівня, що виявила нова стаття.

Команда дослідників створила новий тест для тестування трьох найкращих великих мовних моделей (LLM) — GPT-4 від OpenAI, Llama від Meta та Gemini від Google — на історичні питання. Еталонний тест, Hist-LLM, перевіряє правильність відповідей відповідно до Seshat Global History Databank, великої бази даних історичних знань, названої на честь давньоєгипетської богині мудрості.

Результати, які були представлені минулого місяця на гучній конференції зі штучного інтелекту NeurIPS, виявилися невтішними, за словами дослідників, пов’язаних з Complexity Science Hub (CSH), дослідницьким інститутом, що базується в Австрії. Найефективнішим LLM був GPT-4 Turbo, але він досяг лише близько 46% точності — не набагато вище, ніж випадкове вгадування.

«Основний висновок цього дослідження полягає в тому, що магістерські програми, хоча й вражаючі, все ще не мають глибини розуміння, необхідної для передової історії. Вони чудові для базових фактів, але коли справа доходить до більш тонких історичних досліджень на рівні доктора філософії, вони ще не справляються із цим завданням», – сказала Марія дель Ріо-Чанона, один із співавторів статті та її колега. професор інформатики в Університетському коледжі Лондона.

Дослідники поділилися зразками історичних запитань з TechCrunch, які магістри освіти помилилися. Наприклад, GPT-4 Turbo запитали, чи була луска броня в певний період у стародавньому Єгипті. LLM відповів «так», але ця технологія з’явилася лише в Єгипті через 1500 років.

Чому LLM погано відповідають на технічні історичні питання, коли вони можуть так добре відповідати на дуже складні питання про такі речі, як кодування? Дель Ріо-Чанона сказав TechCrunch, що це, ймовірно, тому, що магістратури мають тенденцію екстраполювати історичні дані, які є дуже помітними, тому їм важко отримати більш незрозумілі історичні знання.

Наприклад, дослідники запитали GPT-4, чи була у стародавньому Єгипті професійна постійна армія в певний історичний період. Хоча правильна відповідь — ні, магістр права відповів неправильно, що так. Ймовірно, це тому, що є багато публічної інформації про інші стародавні імперії, такі як Персія, які мали постійні армії.

«Якщо вам скажуть А і В 100 разів і С 1 раз, а потім вам ставлять питання про С, ви можете просто згадати А і Б і спробувати екстраполювати з них», — сказав дель Ріо-Чанона.

Дослідники також виявили інші тенденції, включно з тим, що моделі OpenAI і Llama показали гіршу роботу в певних регіонах, таких як Африка на південь від Сахари, що вказує на потенційні упередження в їхніх навчальних даних.

Результати показують, що магістратури все ще не замінюють людей, коли мова йде про певні сфери, сказав Пітер Турчін, який керував дослідженням і є викладачем CSH.

Але дослідники все ще сподіваються, що магістратури можуть допомогти історикам у майбутньому. Вони працюють над вдосконаленням свого контрольного показника, включивши більше даних із недостатньо представлених регіонів і додавши складніші запитання.

«Загалом, хоча наші результати висвітлюють області, де LLMs потребують вдосконалення, вони також підкреслюють потенціал цих моделей для допомоги в історичних дослідженнях», — йдеться в статті.

Джерело матеріала

InternetUA

Поділитися сюжетом

Технології

Наука Космос Гаджети Ігри Інтернет Інші

Call of Duty забанила 136 тисяч акаунтів гравців: розробники почали велике "полювання на відьом"

Фокус

31 хвилину тому

ШІ не дуже добре розбирається в історії

Технології

Call of Duty забанила 136 тисяч акаунтів гравців: розробники почали велике "полювання на відьом"

Квантовий прорив: фізики виявили новий незвичайний стан матерії

Instagram анонсував новий застосунок для редагування відео схожий на CapCut

Microsoft примусово оновлює Windows 11 до версії 24H2: що потрібно знати

Вчені виявили "затонулі світи" глибоко в мантії Землі, яких там бути не повинно

Нова версія походження Місяця кидає виклик найпопулярнішій теорії

Гігантська загадка Червоної планети нарешті розгадана

Товщину смартфона iPhone 17 Air порівняли з іншими пристроями Apple

Головні помилки при заряджанні смартфона, які зашкодять батареї

Технології

Call of Duty забанила 136 тисяч акаунтів гравців: розробники почали велике "полювання на відьом"

Квантовий прорив: фізики виявили новий незвичайний стан матерії

Instagram анонсував новий застосунок для редагування відео схожий на CapCut

Microsoft примусово оновлює Windows 11 до версії 24H2: що потрібно знати

Вчені виявили "затонулі світи" глибоко в мантії Землі, яких там бути не повинно

Нова версія походження Місяця кидає виклик найпопулярнішій теорії

Гігантська загадка Червоної планети нарешті розгадана

Товщину смартфона iPhone 17 Air порівняли з іншими пристроями Apple

Головні помилки при заряджанні смартфона, які зашкодять батареї