Вчені розповіли про недоліки моделей AI, що аналізують медичні знімки
Вчені розповіли про недоліки моделей AI, що аналізують медичні знімки

Вчені розповіли про недоліки моделей AI, що аналізують медичні знімки

Моделі штучного інтелекту часто відіграють важливу роль у медичній діагностиці, особливо коли йдеться про аналіз зображень. Однак дослідження показали, що ці моделі не завжди добре працюють з усіма демографічними групами, особливо з жінками та темношкірими людьми. При цьому моделі демонструють деякі дивовижні здібності – вчені повідомили, що AI-моделі можуть робити точні прогнози про расову приналежність пацієнта на основі його рентгенівських знімків грудної клітки.

Вчені виявили, що моделі, які найточніше роблять прогнози, при цьому демонструють найбільші розбіжності в здатності точно розпізнавати зображення людей різних рас або статей. Отримані дані свідчать про те, що ці моделі можуть використовувати “демографічні ярлики” під час діагностичних оцінок.

Дослідники виявили, що вони можуть перенавчити моделі, щоб підвищити показник точності. Однак це працювало краще, коли моделі тестувалися на тих самих типах пацієнтів, на яких вони були навчені, наприклад, на пацієнтах з тієї самої лікарні. Коли ж ці моделі застосовували до пацієнтів з різних лікарень, розбіжності з’являлися знову.

Станом на травень 2024 року Управління продовольства та медикаментів США схвалила 882 медичних пристрої з AI, 671 з яких призначені для використання в радіології. У своєму дослідженні вчені вирішили з’ясувати, чому ці моделі не працюють так добре для певних груп. Зокрема, вони хотіли з’ясувати, чи не використовують моделі демографічні ярлики для прогнозування. Ці ярлики можуть з’являтися в моделях ШІ, коли вони використовують демографічні атрибути для визначення наявності захворювання, замість того, щоб покладатися на особливості зображень.

Використовуючи загальнодоступні бази даних рентгенівських знімків грудної клітки з Медичного центру Beth Israel Deaconess, дослідники навчили моделі визначати наявність у пацієнтів одного з трьох різних захворювань: скупчення рідини в легенях, колапс легені або збільшення серця. Потім вони протестували моделі на рентгенівських знімках, які були отримані з навчальних даних. Загалом моделі працювали добре, але більшість з них демонстрували розбіжності у точності для чоловіків і жінок, а також для білих і темношкірих пацієнтів.

Моделі змогли передбачити стать, расу та вік пацієнтів, які проходили рентгенівське обстеження. Крім того, вчені виявили значну кореляцію між точністю демографічних прогнозів кожної моделі та розміром розриву точності. Дослідники спробували зменшити розриви, використовуючи два типи стратегій. Для одного набору моделей вони навчили їх оптимізувати “надійність підгруп”, а в іншому – змусили їх видалити будь-яку демографічну інформацію із зображень, використовуючи “груповий змагальний” підхід. Обидві стратегії працювали досить добре.

Однак ці підходи працювали лише тоді, коли моделі тестувалися на даних тих самих типів пацієнтів, на яких вони були навчені – наприклад, лише на даних пацієнтів з набору даних Медичного центру Beth Israel Deaconess. Коли дослідники протестували моделі на пацієнтах з п’яти інших лікарень, вони виявили, що загальна точність моделей залишалася високою, але деякі з них демонстрували розбіжності.

Це викликає занепокоєння, оскільки в багатьох випадках лікарні використовують моделі, які були розроблені на основі даних інших лікарень, особливо в тих випадках, коли купується готова модель. “Ми виявили, що навіть найсучасніші моделі, які оптимально працюють на даних, подібних до їхніх навчальних наборів, не є оптимальними, – кажуть вчені. – На жаль, саме так модель, найімовірніше, і буде застосовуватися. Більшість моделей навчаються і перевіряються на даних однієї лікарні або одного джерела, а потім широко застосовуються”.

Тепер дослідники планують розробити та протестувати додаткові методи, щоб побачити, чи зможуть вони створити моделі, які краще роблять прогнози на нових наборах даних.

Джерело матеріала
loader
loader