Експерти пояснили, чому стався збій в Amazon і як має змінитися "хмара", щоб це не повторилося

22 жовтня, 14:33

Нещодавній масштабний збій у роботі Amazon Web Services (AWS) призвів до відключення тисяч вебсайтів та онлайн-сервісів по всьому світу. Цей інцидент вкотре нагадав про вразливість сучасної цифрової інфраструктури та змусив експертів говорити про необхідність фундаментальних змін у підходах до хмарних обчислень.

Чому один збій паралізував пів інтернету?

Масштабний збій, що торкнувся таких гігантів, як Reddit, Snapchat, Signal, а також низки банківських та фінансових платформ, був спричинений проблемою в одному з найбільших дата-центрів AWS у Північній Вірджинії, США. Безпосередньою технічною причиною став збій у системі доменних імен (DNS) для однієї з ключових баз даних Amazon – DynamoDB, пише 24 Канал з посиланням на Tech Xplore.

Якщо пояснювати просто, DNS працює як телефонна книга для інтернету: вона перетворює зрозумілі для людини імена сайтів (наприклад, Amazon.com) в IP-адреси, які використовують комп'ютери для зв'язку між собою. У момент збою запис про DynamoDB у цій "книзі" тимчасово зник. У результаті комп'ютери, які намагалися отримати доступ до цієї бази даних, отримували відповідь, що її не існує, що й спричинило ланцюгову реакцію та відключення сервісів.

Проте експерти зазначають, що корінь проблеми значно глибший за одну технічну помилку. Він полягає у надмірній централізації інтернету та залежності від невеликої кількості провайдерів хмарних послуг. Сьогодні на ринку домінують три компанії: Amazon Web Services (близько 30% ринку), Microsoft Azure (20%) і Google Cloud (13%). Коли в однієї з них виникають проблеми, це миттєво позначається на величезній частині глобальної мережі. Така концентрація створює єдину точку відмови, де одна помилка може викликати ефект доміно і паралізувати значні сегменти інтернету.

Процес відновлення після таких інцидентів також виявляється складним. Навіть після усунення початкової проблеми з DNS багато систем, що вийшли з ладу, потребують перезавантаження. Одночасні спроби тисяч сервісів відновити роботу створюють колосальне навантаження на сервери, що може провокувати нові збої. Експерти порівнюють цей процес із грою "вдар крота", де вирішення однієї проблеми негайно породжує іншу.

Що з цим робити?

Щоб уникнути подібних колапсів у майбутньому, фахівці пропонують змінити сам підхід до "хмари", пише The Conversation. Один із ключових методів – це мультихмарна стратегія, яка передбачає розподіл критично важливих додатків між різними провайдерами. Це усуває єдину точку відмови й дозволяє уникнути "прив'язки до одного постачальника", коли компанії стають заручниками послуг однієї компанії через високу вартість і складність переходу на іншу платформу.

Інший перспективний напрямок – це граничні обчислення (edge computing). Ця технологія пропонує перенести зберігання та обробку даних із великих централізованих дата-центрів на менші розподілені вузли, наприклад, локальні сервери, які компанії можуть контролювати безпосередньо.

Такий підхід не лише підвищує надійність і швидкість, але й допомагає дотримуватися суворих вимог щодо суверенітету даних, зменшуючи геополітичні та регуляторні ризики, пов'язані зі зберіганням інформації в системах, що підпадають під юрисдикцію США.

Джерело матеріала