Нове дослідження демонструє вектор атаки, у якому високоефективні оптичні датчики мишей фіксують акустичні вібрації та дозволяють відтворювати мовлення. Автори описують конвеєр Mic-E-Mouse, що поєднує обробку сигналів і методи машинного навчання для очищення слабкого сигналу. Результати, опубліковані на Mic-E-Mouse, показують високу якість відновленої мови та значний ризик для приватності користувачів.
Дослідники встановили, що сучасні високочутливі оптичні датчики в комп’ютерних мишах здатні виявляти акустичні вібрації, які поширюються через робочу поверхню, і перетворювати їх на аудіосигнал. Вони представили конвеєр Mic-E-Mouse — послідовність методів обробки сигналів і машинного навчання, що дозволяє подолати низьку якість зібраного сигналу та отримати зрозуміле відтворення мовлення.
Атака реалізується за допомогою лише вразливої миші та комп’ютера жертви, на якому працює скомпрометоване або звичайне програмне забезпечення, яке не викликає підозри. Збір пакетних даних миші може відбуватися непомітно, а подальша обробка і декодування аудіо виконуються поза місцем збору в зручний для зловмисника час.
Один із ключових факторів загрози — доступність таких мишей. Пристрої з високоточними датчиками вже продаються менше ніж за 50 доларів США.
У міру удосконалення технологій і зниження вартості ці миші все частіше використовуються як споживачами, так і організаціями, що розширює площу атаки. За словами авторів, через відкриті проєкти та програми з високою частотою опитування миші, зокрема відеоігри та інші додатки з низькою затримкою, зловмисники можуть доставити комп'ютерну програму або код, що призначений для проведення атаки на обчислювальну систему.
Дослідники підкреслюють, що мережевий код ігрового софту може бути використаний для виведення зібраних даних назовні без підозри користувача. Зібраний сигнал характеризується сильною квантизацією, нерівномірною вибіркою та нелінійними спотвореннями, але Mic-E-Mouse показує ефективні засоби розв’язання цих проблем.
У тестах на наборах даних VCTK та AudioMNIST конвеєр досяг покращення SI-SNR на +19 дБ, точності розпізнавання мовця близько 80% в автоматизованих тестах і WER 16,79% у дослідженні з участю людей. Аналіз частот показує, що основна енергія людської мови зосереджена в діапазоні приблизно 200-2000 Гц та легко виявляється конвеєром.
Водночас дослідники зауважують, що не всі користувачі застосовують надвисокі налаштування DPI, але тенденція до підвищення чутливості мишей може зробити ризик вищим. Відомо, що наявні методи ШІ вже забезпечують розпізнавання мови на рівні 42–61%.
Дослідження має на меті привернути увагу виробників і розробників ПЗ до цієї нової загрози та стимулювати розробку заходів захисту. На завершення автори закликають розробляти технічні й організаційні контрзаходи, а також сподіваються, що виробники не проігнорують попередження.
Нещодавно у мережі з'явився анонімний сайт Panama Playlists, який стверджував, що відстежує музичну активність американських політиків і знаменитостей на Spotify через недоліки в налаштуваннях безпеки та конфіденційності сервісу. Інформація, що включає історію прослуховувань та плейлисти, у більшості випадків підтвердилася після опитування виданням The Verge фігурантів зі списку, розкриваючи, наприклад, що віцепрезидент Джей Ді Венс слухає Джастіна Бібера.