Команда дослідників із Женевського університету (UNIGE), Женевських університетських лікарень (HUG) і Національного університету Сінгапуру (NUS) створила новаторський підхід до оцінки методів інтерпретації ШІ. Мета полягає в тому, щоб розкрити основу прийняття рішень ШІ та виявити потенційні упередження.
Команда дослідників із Женевського університету (UNIGE), лікарень Женевського університету (HUG) і Національного університету Сінгапуру (NUS) розробила новий підхід до оцінки інтерпретації технологій штучного інтелекту (AI). Цей прорив прокладає шлях до підвищення прозорості та довіри до інструментів діагностики та прогнозування на основі ШІ.
Новий метод проливає світло на таємничу роботу так званих алгоритмів штучного інтелекту «чорної скриньки», допомагаючи користувачам зрозуміти, що впливає на результати, отримані ШІ, і чи можна довіряти результатам. Це особливо важливо в сценаріях, які мають значний вплив на здоров’я та благополуччя людини, наприклад використання ШІ в медичних програмах.
Дослідження має особливу актуальність у контексті майбутнього Закону Європейського Союзу про штучний інтелект, який має на меті регулювати розробку та використання ШІ в ЄС. Висновки нещодавно були опубліковані в журналі Nature Machine Intelligence.
Дані часових рядів, що представляють еволюцію інформації з часом, є скрізь: наприклад, у медицині під час запису серцевої діяльності за допомогою електрокардіограми (ЕКГ); у вивченні землетрусів; відстеження погодних умов; або в економіці для моніторингу фінансових ринків. Ці дані можуть бути змодельовані технологіями штучного інтелекту для створення інструментів діагностики або прогнозування.
Розвиток штучного інтелекту та зокрема глибокого навчання, яке полягає в навчанні машини використовувати ці дуже великі обсяги даних з метою їх інтерпретації та вивчення корисних шаблонів, відкриває шлях до все більш точних інструментів для діагностики та прогнозування. Проте, не маючи розуміння того, як працюють алгоритми Al або що впливає на їхні результати, природа «чорної скриньки» технології штучного інтелекту викликає важливі питання щодо надійності.
«Спосіб роботи цих алгоритмів, м’яко кажучи, непрозорий», — каже професор Крістіан Ловіс, директор кафедри радіології та медичної інформатики на медичному факультеті UNIGE та керівник відділу медичної інформації в HUG, який був співкерівником цієї роботи.
«Звичайно, ставки, особливо фінансові, надзвичайно високі. Але як ми можемо довіряти машині, не розуміючи основи її міркувань? Ці питання є важливими, особливо в таких секторах, як медицина, де рішення на основі ШІ можуть впливати на здоров’я та навіть життя людей; і фінанси, де вони можуть призвести до величезної втрати капіталу».
Методи інтерпретації спрямовані на те, щоб відповісти на ці запитання, розшифровуючи, чому і як штучний інтелект прийняв дане рішення та причини, що стоять за ним. «Знання того, які елементи схилили чашу терезів на користь чи проти рішення в конкретній ситуації, що забезпечує певну прозорість, підвищує довіру до них», — каже доцент Джанмарко Менгальдо, директор MathEXLab Національного університету Коледжу дизайну та інженерії Сінгапурського університету, який керував роботою.
«Однак поточні методи інтерпретації, які широко використовуються в практичних застосуваннях і промислових робочих процесах, дають відчутно різні результати при застосуванні до одного завдання. Це викликає важливе питання: який метод інтерпретації є правильним, враховуючи, що має бути унікальна правильна відповідь? Отже, оцінка методів інтерпретації стає такою ж важливою, як інтерпретабельність сама по собі».
Відрізнення важливого від неважливого
Дискримінаційні дані мають вирішальне значення для розробки технологій ШІ, які можна інтерпретувати. Наприклад, коли ШІ аналізує зображення, він зосереджується на кількох характерних атрибутах.
Докторант лабораторії професора Ловіса та перший автор дослідження Хьюг Турбе пояснює: «Штучний інтелект може, наприклад, відрізнити зображення собаки від зображення кота. Той самий принцип застосовується до аналізу часових послідовностей: машина повинна вміти вибирати елементи – наприклад, піки, які є більш вираженими, ніж інші – для заснування своїх міркувань. З сигналами ЕКГ це означає узгодження сигналів від різних електродів для оцінки можливих дисонансів, які можуть бути ознакою конкретного серцевого захворювання.
Вибрати метод інтерпретації серед усіх доступних для конкретної мети нелегко. Різні методи інтерпретації штучного інтелекту часто дають дуже різні результати, навіть якщо застосовувати до одного набору даних і завдання.
Щоб розв’язувати цю проблему, дослідники розробили два нові методи оцінки, щоб допомогти зрозуміти, як штучний інтелект приймає рішення: один для визначення найбільш відповідних частин сигналу, а інший для оцінки їх відносної важливості щодо остаточного прогнозу. Щоб оцінити можливість інтерпретації, вони приховали частину даних, щоб перевірити, чи були вони актуальними для прийняття рішень ШІ.
Однак такий підхід іноді спричиняв помилки в результатах. Щоб виправити це, вони навчили ШІ на розширеному наборі даних, який містить приховані дані, що допомогло зберегти збалансованість і точність даних. Потім команда створила два способи вимірювання того, наскільки добре працювали методи інтерпретації, показуючи, чи використовував ШІ правильні дані для прийняття рішень і чи всі дані враховувалися справедливо. «Загалом наш метод спрямований на оцінку моделі, яка фактично використовуватиметься в його операційній області, таким чином забезпечуючи її надійність», — пояснює Хьюг Турбе.
Щоб продовжити свої дослідження, команда розробила синтетичний набір даних, який вони зробили доступним для наукової спільноти, щоб легко оцінити будь-який новий ШІ, спрямований на інтерпретацію часових послідовностей.
Майбутнє медичних програм
Надалі команда планує перевірити свій метод у клінічних умовах, де побоювання щодо ШІ залишаються широко поширеними. «Зміцнення довіри до оцінки штучного інтелекту є ключовим кроком до його впровадження в клінічних умовах», — пояснює д-р Міна Бєлогрліч, яка очолює групу машинного навчання у відділі професора Ловіса та є другим автором цього дослідження. «Наше дослідження зосереджено на оцінці штучного інтелекту на основі часових рядів, але ту саму методологію можна застосувати до штучного інтелекту на основі інших модальностей, що використовуються в медицині, таких як зображення чи текст».