Der nachstehende Auszug aus dem Bericht eines Rechenzentrums beschreibt einen gravierenden Serverausfall. Handelt es sich bei dem beschriebenen Vorfall um eine Störung oder um einen IT-Notfall? Wie würden Sie die Frage für Ihr Unternehmen beantworten?
„Verursacht wurde das Problem letztlich von einer defekten Festplatte im zentralen Storage, einem Verbund aus ca. 50 Festplatten, an den alle Server angeschlossen sind. Die Festplatte ist jedoch nicht ausgefallen, sondern zeigte nur leichte Performance-Abweichungen, weshalb sie nicht sofort als defekt erkannt wurde und auch nicht automatisch deaktiviert wurde. Beim Austausch der Festplatte ist dem Techniker dann ein folgenschwerer Fehler unterlaufen, der zunächst zu erheblichen Performance-Einbußen und schließlich zum Totalausfall des Systems geführt hat. Man entschied sich zum Wechsel auf ein identisches Backup-System, das jedoch mit einem Zeitversatz von 6 Stunden synchronisiert wird. Um Datenverlust zu vermeiden, wurden die beiden Systeme vor der Inbetriebnahme noch einmal abgeglichen, was jedoch aufgrund der vorhandenen Probleme im Master-Storage deutlich länger gedauert hat als erwartet.“
Um die Frage zu beantworten, ob es sich bei dem Vorfall um eine Störung oder einen IT-Notfall handelt, muss zunächst geklärt werden: Was ist eigentlich ein Notfall?
Was ist ein IT-Notfall?
An dieser Stelle ist ein Blick in den BSI-Standard 100-4 sinnvoll. Der ca. 120 Seiten umfassende Standard 100-4 Notfallmanagement wurde vom Bundesamt für Sicherheit in der Informationstechnik Ende 2008 veröffentlicht und beschreibt eine Methode zum Aufbau eines eigenständigen Managementsystems für die Notfallvorsorge und die Notfallbewältigung. Das BSI ordnet den Standard 100-4 formal der Standardreihe zur Informationssicherheit und IT-Grundschutz zu.
Auf Seite 5 heißt es hier: »Ein Notfall ist ein Schadensereignis, bei dem Prozesse oder Ressourcen einer Institution nicht wie vorgesehen funktionieren. Die Verfügbarkeit der entsprechenden Prozesse oder Ressourcen kann innerhalb einer geforderten Zeit nicht wiederhergestellt werden. Der Geschäftsbetrieb ist stark beeinträchtigt. Eventuell vorhandene SLAs (Service Level Agreements) können nicht eingehalten werden. Es entstehen hohe bis sehr hohe Schäden, die sich signifikant und in inakzeptablem Rahmen auf das Gesamtjahresergebnis eines Unternehmens oder die Aufgabenerfüllung einer Behörde auswirken. Notfälle können nicht mehr im allgemeinen Tagesgeschäft abgewickelt werden, sondern erfordern eine gesonderte Notfallbewältigungsorganisation«.
Vor allem zwei Punkte sind hier wesentlich:
- Im Mittelpunkt stehen das Unternehmen und dessen Geschäftsprozesse
- Ein Notfall ist definiert durch eine erhebliche Schadenshöhe mit Auswirkungen auf das Gesamtunternehmen und das Erfordernis einer gesonderten Organisation zur Bewältigung des Notfalls
Auswirkungen müssen individuell betrachtet werden
Betrachten wir die Definition allerdings genauer, wird deutlich, dass es sich hierbei eher um einen „Lückentext“, als um eine umsetzbare Definition handelt. Denn was sich hinter den Begriffen „nicht wie vorgesehen funktionieren“, „innerhalb der geforderten Zeit“, „stark beeinträchtigt“, „hohe bis sehr hohe Schäden“ und ein „inakzeptabler Rahmen“ verbirgt, ist unternehmensspezifisch und muss aus Sicht der jeweiligen Geschäftsprozesse definiert werden.
Ihr Vorteil: Dokumente für die Notfallplanung sind ein Muss für jedes Unternehmen. Hierzu gehören neben den Dokumenten für die Notfallvorsorge, auch ein Notfallhandbuch sowie entsprechende Notfallpläne. Wir unterstützen Sie bei der Erstellung der Dokumente für das IT-Notfallmanagement. Mehr erfahren …
Demzufolge kann auch der im Beispiel beschriebene Vorfall, nicht pauschal als Notfall eingestuft werden. Zwar gab es einen Totalausfall des Systems und ein Wechsel auf ein identisches Backup-System war notwendig, der dann länger gedauert hat, als erwartet. Einen Notfall würde dies aber nur begründen, wenn, beispielsweise aufgrund von Imageschäden oder Strafzahlungen aufgrund von SLA-Verletzungen, die vom Unternehmen definierten Schwellenwerte für hohe oder sehr hohe Schäden überschritten werden würden. Der Totalausfall allein rechtfertigt hingegen nicht die Einstufung als IT-Notfall.
Häufig vernachlässigt: Business-Impact-Analyse – BIA
Das Instrument zur Ermittlung der notwendigen Kenngrößen ist die Business Impact-Analyse (BIA). Aufgabe einer Business-Impact-Analyse ist es, zu untersuchen, wie gravierend sich Ausfälle von Prozessen und Ressourcen auswirken können. Das Ergebnis gibt Aufschluss darüber, welche Prozesse und Ressourcen besonders abzusichern sind, damit Unternehmen auch in Notfällen ihre wichtigsten Ziele und Aufgaben erfüllen kann. Diese Einordnung bildet die Grundlage für die Risikoanalyse und die Entwicklung von Notfallvorsorgemaßnahmen.
Nur auf Basis der Ergebnisse einer BIA ist es letztlich möglich, die tolerierbaren Ausfallzeiten einzelner Prozesse und der sie unterstützenden IT-Komponenten zu definieren. Für die IT-Organisation spielen dabei die folgenden Parameter eine wichtige Rolle:
- Maximal tolerierbare Ausfallzeit (MTA): Dieser Wert gibt an, wann ein System/Anwendung wie lange ein System/Anwendung maximal ausfallen darf.
- Recovery Time Objective (RTO): Maximale Zeit vom Zeitpunkt des Schadens bis zur vollständigen Wiederherstellung des Geschäftsprozesses.
- Recovery Point Objective (RPO): Maximal tolerierbarer Datenverlust. Hieraus resultiert, welcher Zeitraum maximal zwischen zwei Datensicherungen liegen darf.
- Maximal tolerierbare Wiederanlaufzeit (WAZ): Dieser Wert gibt an, wie lange es dauern darf, bis ein System im Notbetrieb zur Verfügung stehen muss.
Tipp: Das von uns bereits in mehreren Beiträgen erwähnte respektive vorgestellte Umsetzungsrahmenwerk zum BSI Standard 100-4 bietet auch Hilfestellungen und Vorlagen zur Erstellung einer BIA.
Die in der BIA ermittelten Ergebnisse sowie die durchzuführende Risikoanalyse zur Feststellung der Eintrittswahrscheinlichkeiten sind Voraussetzung für die Auswahl geeigneter Notfallstrategien. Sie sind damit auch die Basis für die im Notfallhandbuch zu dokumentierenden Maßnahmen, wie im Beitrag Notfallhandbuch – Ein modularer Aufbau vereinfacht nicht nur die Pflege erläutert.
Nachfolger steht in den Startlöchern
Aktuell (11/2021) ist der Standard 100-4 noch die gültige Version. Das BSI hat aber bereits Anfang 2021 eine Community Draft Version des Nachfolgers 200-4 veröffentlicht. Ein weiterer Community-Draft 2.0 des BSI-Standards 200-4 wird im Winter 2021/2022 veröffentlicht. Wir stellen Ihnen den neuen Standard im Beitrag vor: BSI Standard 200-4 – Neuer BCM Standard für das Notfallmanagement.
Manuela Reiss dokuit®