Експерти виявили серйозні недоліки у тестах, що оцінюють безпеку штучного інтелекту

Міжнародна група науковців виявила слабкі місця у сотнях тестів, які застосовують для перевірки безпеки та ефективності нових моделей штучного інтелекту, повідомляє The Guardian. За висновками експертів, більшість із понад 440 проаналізованих бенчмарків мають суттєві недоліки, що можуть “підірвати обґрунтованість отриманих тверджень” щодо досягнень у сфері ШІ.

Дослідження провели комп’ютерні науковці з Інституту безпеки штучного інтелекту уряду Великої Британії спільно з фахівцями університетів Стенфорда, Берклі та Оксфорда. Вони з’ясували, що майже всі тести мають слабкі сторони хоча б в одній області, а отримані результати іноді є “нерелевантними або навіть оманливими”.

Бенчмарки, які використовуються для вимірювання продуктивності та безпечності ШІ, відіграють ключову роль за відсутності чітких державних регуляцій у Великій Британії та США. Вони мають засвідчувати, чи відповідають системи штучного інтелекту інтересам людини, та перевіряти їхні здібності до логічного міркування, математичних розрахунків і кодування.

Провідний автор дослідження, дослідник Оксфордського інтернет-інституту Ендрю Бін, наголосив, що саме бенчмарки лежать в основі більшості заяв про прориви у сфері штучного інтелекту: “Майже всі твердження про досягнення в галузі штучного інтелекту підкріплені контрольними показниками. Але без спільних визначень та обґрунтованих вимірювань важко зрозуміти, чи моделі справді покращуються, чи це лише здається так”.

Дослідження оприлюднили на тлі зростальних побоювань щодо безпеки нових ШІ-моделей, які великі технологічні компанії випускають з дедалі більшими темпами. Нещодавно деякі корпорації були змушені вилучити або обмежити доступ до своїх розробок після низки інцидентів, коли системи штучного інтелекту завдавали шкоди — від наклепів до випадків самогубства.

Цього тижня Google відкликав одну зі своїх моделей — Gemma. Таке рішення прийняли після того, як вона вигадала неправдиві звинувачення про нібито сексуальні стосунки без згоди між американським сенатором та поліціянтом, створивши фальшиві посилання на вигадані публікації.

“Ніколи не було такого звинувачення, немає такої особи, і немає таких новинних історій”, — заявила сенаторка від штату Теннессі Марша Блекберн у листі до генерального директора Google Сундара Пічаї. Вона назвала цей випадок “катастрофічним провалом нагляду та етичної відповідальності”.

У відповідь Google пояснила, що Gemma призначалася для розробників та дослідників, а не для споживачів. Компанія вилучила модель із платформи AI Studio після повідомлень про її використання сторонніми користувачами.

“Галюцинації — коли моделі вигадують факти — та підлабузництво є проблемами всієї індустрії штучного інтелекту, особливо для менших відкритих моделей, таких як Gemma”, — зазначили у компанії.

Хоча у дослідженні розглядали лише відкриті бенчмарки, автори наголосили, що великі технологічні компанії мають власні закриті тести, які залишаються поза незалежною перевіркою. Вони зробили висновок про “нагальну потребу у спільних стандартах та передовому досвіді” для оцінювання систем штучного інтелекту.

За словами Ендрю Біна, особливо тривожним є факт, що лише 16% проаналізованих тестів застосовували статистичні перевірки або оцінку невизначеності, які могли б засвідчити точність їхніх результатів. В інших випадках, коли бенчмарки оцінювали такі характеристики, як “нешкідливість” ШІ, саме визначення цих понять було нечітким, що робить такі оцінки безкорисними для реального аналізу.

Під час тестів безпеки ChatGPT та Claude видавали рецепти вибухівки та поради для кіберзлочинців. Компанії OpenAI та Anthropic провели експеримент, змушуючи моделі конкурентів виконувати небезпечні завдання, в результаті чого чат-боти надавали детальні інструкції щодо виготовлення вибухових речовин, використання біологічної зброї та здійснення кібератак.

Експерти виявили серйозні недоліки у тестах, що оцінюють безпеку штучного інтелекту

Експерти виявили серйозні недоліки у тестах, що оцінюють безпеку штучного інтелекту

Технології

Канада: як провінції створюють власні моделі відповідальної гри

Смартфон середнього класу отримає гігантську батарею на 10 000 мАг: це новий стандарт

Найбезпечніший вулкан у світі несподівано вивергнувся: тисячі років вважався неактивним

Стало відомо, що було в листуванні звільнених працівників Rockstar

Китай запустив безпілотний корабель на свою космічну станцію

Покинутий тунель 40 років тому став токсичною пасткою: що там виявили дослідники

Астрономи могли виявити найбільш ранню і далеку чорну діру серед відомих

Космічний корабель Starliner компанії Boeing зможе перевозити лише вантажі, але не людей

Літій-іонним акумуляторам знайшли заміну: їхню головну проблему вирішило повітря

Технології

Канада: як провінції створюють власні моделі відповідальної гри

Смартфон середнього класу отримає гігантську батарею на 10 000 мАг: це новий стандарт

Найбезпечніший вулкан у світі несподівано вивергнувся: тисячі років вважався неактивним

Стало відомо, що було в листуванні звільнених працівників Rockstar

Китай запустив безпілотний корабель на свою космічну станцію

Покинутий тунель 40 років тому став токсичною пасткою: що там виявили дослідники

Астрономи могли виявити найбільш ранню і далеку чорну діру серед відомих

Космічний корабель Starliner компанії Boeing зможе перевозити лише вантажі, але не людей

Літій-іонним акумуляторам знайшли заміну: їхню головну проблему вирішило повітря