Новое исследование демонстрирует вектор атаки, в котором высокоэффективные оптические датчики мышей фиксируют акустические вибрации и позволяют воспроизводить речь. Авторы описывают конвейер Mic-E-Mouse, сочетающий обработку сигналов и методы машинного обучения для очистки слабого сигнала. Результаты, опубликованные на Mic-E-Mouse, показывают высокое качество восстановленной речи и значительный риск для приватности пользователей.
Исследователи установили, что современные высокочувствительные оптические датчики в компьютерных мышах способны обнаруживать акустические вибрации, которые распространяются через рабочую поверхность, и преобразовывать их в аудиосигнал. Они представили конвейер Mic-E-Mouse — последовательность методов обработки сигналов и машинного обучения, что позволяет преодолеть низкое качество собранного сигнала и получить понятное воспроизведение речи.
Атака реализуется с помощью только уязвимой мыши и компьютера жертвы, на котором работает скомпрометированное или обычное программное обеспечение, которое не вызывает подозрения. Сбор пакетных данных мыши может происходить незаметно, а дальнейшая обработка и декодирование аудио выполняются вне места сбора в удобное для злоумышленника время.
Один из ключевых факторов угрозы — доступность таких мышей. Устройства с высокоточными датчиками уже продаются менее чем за 50 долларов США.
По мере усовершенствования технологий и снижения стоимости эти мыши все чаще используются как потребителями, так и организациями, что расширяет площадь атаки. По словам авторов, через открытые проекты и программы с высокой частотой опроса мыши, в частности видеоигры и другие приложения с низкой задержкой, злоумышленники могут доставить компьютерную программу или код, предназначенный для проведения атаки на вычислительную систему.
Исследователи подчеркивают, что сетевой код игрового софта может быть использован для вывода собранных данных наружу без подозрения пользователя. Собранный сигнал характеризуется сильной квантизацией, неравномерной выборкой и нелинейными искажениями, но Mic-E-Mouse показывает эффективные средства решения этих проблем.
В тестах на наборах данных VCTK и AudioMNIST конвейер достиг улучшения SI-SNR на +19 дБ, точности распознавания говорящего около 80% в автоматизированных тестах и WER 16,79% в исследовании с участием людей. Анализ частот показывает, что основная энергия человеческой речи сосредоточена в диапазоне примерно 200-2000 Гц и легко обнаруживается конвейером.
В то же время исследователи отмечают, что не все пользователи применяют сверхвысокие настройки DPI, но тенденция к повышению чувствительности мышей может сделать риск выше. Известно, что существующие методы ИИ уже обеспечивают распознавание речи на уровне 42-61%.
Цель исследования - привлечь внимание производителей и разработчиков ПО к этой новой угрозе и стимулировать разработку мер защиты. В завершение авторы призывают разрабатывать технические и организационные контрмеры, а также надеются, что производители не проигнорируют предупреждение.
Недавно в сети появился анонимный сайт Panama Playlists, который утверждал, что отслеживает музыкальную активность американских политиков и знаменитостей на Spotify из-за недостатков в настройках безопасности и конфиденциальности сервиса. Информация, включающая историю прослушиваний и плейлисты, в большинстве случаев подтвердилась после опроса изданием The Verge фигурантов из списка, раскрывая, например, что вице-президент Джей Ди Вэнс слушает Джастина Бибера.