CrowdStrike опубликовала обзор после инцидента (post incident review, PIR) относительно неисправного обновления, которое вывело из строя 8,5 млн компьютеров. В проблеме обвиняют программу для тестирования.
Из-за ошибки ПО не проверило должным образом обновление содержимого, которое было распространено на миллионы машин в пятницу. CrowdStrike обещает тщательно тестировать обновления собственных продуктов, улучшить обработку ошибок и ввести поэтапное развертывание, чтобы избежать повторения катастрофы.
Программное обеспечение Falcon от CrowdStrike используется компаниями во всем мире для борьбы с вредоносным ПО и нарушениями безопасности на миллионах компьютеров Windows. В пятницу CrowdStrike выпустила обновление конфигурации для своего продукта, которое должно было «собирать телеметрию о возможных новых методах угроз». Эти обновления поставляются регулярно, но именно это конкретное вызвало сбой Windows.
CrowdStrike обычно выпускает обновления конфигурации двумя разными способами. Есть так называемый Sensor Content (Sensor Content), который напрямую обновляет CrowdStrike Falcon, работающий на уровне ядра Windows. Еще есть контент быстрого реагирования, который обновляет поведение для обнаружения вредоносного программного обеспечения. Небольшой файл Rapid Response Content размером 40 КБ вызвал пятничную проблему. На прошлой неделе CrowdStrike выпустила два обновления быстрого реагирования — то, что компания называет экземплярами шаблонов.
«Из-за ошибки в средстве проверки содержимого один из двух экземпляров шаблона прошел проверку, несмотря на то, что содержал проблемные данные», — отмечает CrowdStrike.
Хотя CrowdStrike проводит как автоматическое, так и ручное тестирование, но все же оно оказалось недостаточно тщательным. Развертывание новых типов шаблонов в марте обеспечило «доверие к проверкам, выполняемым в Content Validator», поэтому CrowdStrike, похоже, предположила, что развертывание не вызовет проблем.
«Это неожиданное исключение не удалось грамотно обработать, что привело к сбою операционной системы Windows (BSOD)», — объясняет CrowdStrike.
Чтобы предотвратить это снова, CrowdStrike обещает усовершенствовать тестирование контента быстрого реагирования с помощью тестирования локальных разработчиков, обновления контента и тестирования отката, а также стресс-тестирования. CrowdStrike также проведет тестирование стабильности и интерфейса содержимого Rapid Response Content и обновит свой облачный инструмент проверки.
Источник: The Verge