Deklarowane SLA nie gwarantuje bezpieczeństwa. Prawdziwa odporność zaczyna się od świadomego projektowania architektury i gotowości na nieprzewidziane sytuacje.

W październiku 2025 r. świat IT wstrzymał oddech, gdy dwaj giganci chmury obliczeniowej – Amazon Web Services (AWS) i Microsoft Azure – doświadczyli poważnych awarii, które wywołały globalne zakłócenia.

W przypadku AWS awaria w kluczowym regionie US-EAST-1, wynikająca z konfliktu dwóch systemów automatycznych zmieniających ten sam wpis DNS, sparaliżowała m.in. platformy streamingowe, bankowość internetową czy usługi dostaw jedzenia.
Kilka dni później Azure odnotowało awarię związaną z błędną konfiguracją infrastruktury – problemy objęły Microsoft 365, Xbox, a także portale administracyjne, wywołując przerwy w dostępie dla milionów użytkowników. 

Te głośne wydarzenia brutalnie obnażyły jedno ważne przekonanie: sama umowa SLA (Service Level Agreement) nie jest wystarczającym zabezpieczeniem, a źle rozumiana daje fałszywe poczucie bezpieczeństwa. SLA określa tylko deklarowaną dostępność i ewentualne rekompensaty (zazwyczaj nie pokrywające rzeczywistych strat), ale nie eliminuje ryzyka awarii ani nie zapewnia ciągłości działania. Poza formalnym zapisem umownym kluczowa jest więc świadomość, że nawet najlepsze chmurowe platformy mogą mieć „czarne wtorki”, a wpływ kosztownych przerw odczuje każda firma. 

Jak więc przygotować się na takie zawirowania? Oto kilka naszych refleksji i wskazówek:

  • Nie polegaj tylko na jednym dostawcy ani jednej lokalizacji. Rozproszenie obciążeń infrastruktury między różne regiony geograficzne lub nawet różne platformy chmurowe (tzw. multi-cloud) zmniejsza ryzyko całkowitej utraty usługi. To jak posiadanie kilku niezależnych źródeł zasilania zamiast jednego przyłącza – jeśli jedno z nich ulegnie awarii, drugie przejmuje funkcję. 

  • Monitoruj i reaguj na symptomy awarii zanim nadejdą. Prawdziwe incydenty często poprzedza szereg niepokojących sygnałów: spowolnienia, wzrost błędów, anomalie w przepływie danych. Ustawienie odpowiednich alarmów i narzędzi monitorujących pozwala na prewencyjną reakcję zamiast gaszenia pożarów.

  • Testuj odporność swoich systemów w warunkach awaryjnych. Regularne symulacje awarii i przeciążeń pomagają wykryć słabe punkty infrastruktury i pozwalają wypracować skuteczne procedury awaryjne, które działają nie tylko na papierze, ale i w praktyce. 

  • Buduj architekturę z myślą o odporności, nie tylko dostępności. Zabezpieczenia przed pojedynczymi punktami awarii, nadmiarowość, automatyczne przełączniki awaryjne to nie luksus, a konieczność. To inwestycja w spokój, którego nie zastąpią procenty SLA.

Patrząc na rozmiar tych awarii, nasuwa się wniosek: nawet najwięksi dostawcy chmury to tylko ludzie i technologia, które mogą zawieść. Sukces cyfrowy firmy coraz częściej zależy od gotowości na te nieoczekiwane sytuacje, a nie wyłącznie od podpisanych dokumentów i uzyskanych certyfikatów. Dlatego zachęcamy do nieustannego podnoszenia świadomości i wdrażania praktyk, które realnie wspierają antykruchość i chronią biznes przed skutkami awarii.

Dariusz Czerniawski,

Ekspert ds. Cyberbezpieczeństwa i Governance w KIGC