Disaster Recovery - Opitz Consulting
Disaster Recovery - Opitz Consulting
Disaster Recovery - Opitz Consulting
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
<strong>Disaster</strong> <strong>Recovery</strong> im Datenbankumfeld<br />
Einordnung in die Business-Continuity-LÄsungsansÅtze<br />
Katastrophen – unabhÅngig davon, ob sie menschlichen oder natÉrlichen<br />
Ursprungs sind – kÄnnen ein Unternehmen jederzeit treffen.<br />
Telekommunikationskabel, die vom Bagger des StraÑenausbesserungsdienstes<br />
durchtrennt werden, Öberflutungen oder KabelschmorbrÅnde, die ganze<br />
Rechenzentren auÑer Betrieb setzen … Der Totalausfall von IT-Komponenten ist<br />
jederzeit denkbar und jederzeit mÄglich!<br />
S<br />
tudien namhafter Analysten wie Gartner u. a. zeigen, dass viele Unternehmen den<br />
Totalausfall geschäftskritischer IT-Prozesse über einen längeren Zeitraum hinweg<br />
nicht verkraften und in der Folge ihr Geschäft aufgeben müssen.<br />
Doch auch, wenn ein IT-K-Fall nicht zwangsläufig zu einem Gesamt-K-Fall eines<br />
Unternehmens führt, ist der Totalausfall auch nur eines kritischen Prozesses in der Regel<br />
mit hohen Folgekosten verbunden, was nicht zuletzt an der stetig wachsenden<br />
Komplexität und Verzahnung von Betriebsprozessen liegt. Dass Unternehmensnetze und<br />
damit die angeschlossenen Prozesse empfindlich gestört werden können, hat sich<br />
mittlerweile in den meisten Betrieben herumgesprochen. Firewall-Systeme, aufwendige<br />
hochautomatisierte Update-Systeme und komplexe Antivirenprogramme gehören heute<br />
zum Standardprogramm EDV-gestützter Betriebe. Die Notwendigkeit solcher<br />
Sicherheitsmaßnahmen muss heute kein Administrator gegenüber seinem Vorgesetzten<br />
mehr rechtfertigen.<br />
Im K-Fall können unscheinbare Kleinigkeiten die Kosten einer Wiederherstellung<br />
explosionsartig in die Höhe treiben, wie etwa:<br />
<br />
<br />
<br />
<br />
<br />
nicht notierte Kennwörter<br />
fehlerhafte oder gänzlich fehlende Dokumentation der Sicherungs- und<br />
Wiederherstellungsprozeduren<br />
nicht lesbare Sicherungsbänder<br />
verlorengegangene Lizenzschlüssel, die für die Softwareinstallation benötigt<br />
werden<br />
nicht vorhandener Ersatz von (veralteten) Hardwarekomponenten<br />
Nicht selten ist die falsche Strategie zur Sicherung und Wiederherstellung die Ursache für<br />
eine finanzielle Folgekatastrophe: Wenn ein Unternehmen durch die Unterbrechung eines<br />
kritischen Prozesses in der Stunde mehrere hunderttausend Euro Verlust schreibt, kann
im schlimmsten Fall ein Wiederherstellungsverfahren, das mehrere Stunden oder gar<br />
Tage dauert, die tatsächliche Ursache einer Betriebsaufgabe sein, und nicht die<br />
Komponente, die den Ausfall ursprünglich ausgelöst hat.<br />
Business Continuity versus <strong>Disaster</strong> <strong>Recovery</strong><br />
Betriebliches Kontinuitätsmanagement (engl. Business Continuity Management, BCM)<br />
erhielt in den 1950er Jahren Einzug in die Betriebswirtschaftslehre und bekam seit den<br />
Anschlägen vom 11. September 2001 und den Bombenattentaten in London und Madrid<br />
neuen Aufschwung. BCM beschreibt Methoden, die es einem Unternehmen erlauben, den<br />
betrieblichen Prozess unter Krisenbedingungen und unvorhersehbar erschwerten<br />
Bedingungen abzusichern und somit den Fortbestand eines Unternehmens zu<br />
gewährleisten.<br />
Für die erfolgreiche Entwicklung eines BCM-Programms ist es notwendig, das<br />
Unternehmen sehr genau zu analysieren hinsichtlich<br />
<br />
<br />
<br />
<br />
der Unternehmensziele,<br />
des Wegs, auf dem diese Ziele erreicht werden sollen,<br />
der tatsächlich erbrachten Produkte und Leistungen<br />
sowie der Art und Weise, wie diese Leistungen zu erbringen sind.<br />
Die aus dieser Analyse gewonnenen Erkenntnisse werden einer Business-Impact-Analyse<br />
(BIA) unterzogen. Die BIA bietet somit eine Grundlage, um die Folgen von Verlust<br />
beziehungsweise Störung betrieblicher Prozesse zu bestimmen und zu qualifizieren.<br />
Maximum Tolerable Period of Disruption (MTPD)<br />
Die MTPD beschreibt die maximal akzeptable Zeit, die eine Betriebsunterbrechung dauern<br />
darf. Sie sollte von der Geschäftsleitung festgelegt werden und muss als absoluter<br />
Basiswert für alle weiteren Maßnahmen zur Planung von Verfahrensweisen im<br />
Katastrophenfall gelten. Zur Bestimmung der MTPD stehen zwei weitere Richtlinien zur<br />
Verfügung:<br />
<strong>Recovery</strong> Time Objective (RTO):<br />
Die RTO legt die Zeit fest, in der ein bestimmter Betriebsablauf nach Schadenseintritt<br />
wieder vollständig funktionieren muss. Eine Festlegung von »0 Minuten« bedeutet, dass<br />
Systeme sofort verfügbar sein müssen.<br />
<strong>Recovery</strong> Point Objective (RPO:)<br />
RPO beschreibt den Wiederherstellungszeitpunkt für eine Information, die erforderlich ist,<br />
um einen Prozess wieder starten zu können. Hierbei wird festgelegt, wie viele Daten<br />
zwischen der letzten Sicherung und dem Schadenseintritt maximal verloren gehen<br />
dürfen. Eine »RPO = 0« bedeutet, dass Datenverlust nicht akzeptabel ist.<br />
<strong>Disaster</strong> <strong>Recovery</strong> Management (DRM)<br />
DRM ist prinzipiell gleichbedeutend mit Business Continuity Management (BCM), wird<br />
aber begrifflich verwendet für die Anwendung von BCM auf die IT-Infrastruktur eines<br />
Unternehmens. Aus Unternehmenssicht ist DRM daher keine vom Gesamtbetrieb<br />
losgelöste IT-Strategie, sondern integraler Bestandteil des betrieblichen Gesamtkonzepts.<br />
»<strong>Disaster</strong>« meint dabei in der Regel den Totalausfall einer IT-Komponente, die für die<br />
Bereitstellung eines IT-Services als Bestandteil eines kritischen Betriebsprozesses<br />
verantwortlich ist. Der Ausfall einer gespiegelten Festplatte (RAID 1) ist demnach kein<br />
<strong>Disaster</strong>-<strong>Recovery</strong>-Fall, da alle Informationen identisch auf beide Platten geschrieben<br />
werden. Dagegen ist der Ausfall einer Festplatte, die mit einer weiteren Festplatte zu<br />
einer logischen Einheit mit der Gesamtgröße beider Platten zusammen betrieben wird<br />
(RAID 0), ein DR-Fall, weil bei RAID 0 die Informationen getrennt und zu gleichen Teilen<br />
auf beide Platten verteilt werden. Ein Plattenausfall aller im RAID 0 zusammengefasster<br />
Platten ist daher gleichbedeutend mit dem Ausfall beider Platten und damit<br />
gleichbedeutend mit einem totalen Datenverlust.
Auf dem Weg zu DRM<br />
<strong>Disaster</strong> <strong>Recovery</strong> ist kein SelbstlÄufer. Im K-Fall ist ein funktionierender DR-Plan die<br />
allerwichtigste Komponente der bestehenden IT-Sicherheitsstrategie. Katastrophen<br />
treten im Allgemeinen vÅllig unerwartet ein und schaffen unmittelbar brenzlige<br />
Situationen fÇr alle Betroffenen. Es bedarf bei allen Beteiligten groÉer Ruhe und<br />
ÄuÉerster Sorgfalt, um die richtigen Schritte zum richtigen Zeitpunkt am richtigen Ort<br />
durchfÇhren zu kÅnnen. Wer untrainiert in eine derartige Lage gerÄt, kann schnell in<br />
Hektik verfallen und dabei Fehler begehen, die ein <strong>Recovery</strong> erschweren oder gar<br />
unmÅglich machen kÅnnen. Ein funktionierender DR-Plan stellt daher unter UmstÄnden<br />
den entscheidenden Faktor fÇr den Erhalt oder den Verlust eines Unternehmens dar.<br />
Der erste Schritt zu einem erfolgreichen DR-Plan besteht darin, bei allen Beteiligten ein<br />
ausgeprÄgtes gemeinsames VerstÄndnis fÇr die Notwendigkeit des Plans und seiner<br />
AusprÄgung zu schaffen. Nur wenn alle Prozesse richtig erfasst und alle MaÉnahmen<br />
logisch aufeinander abgestimmt sind und diese Schritte fÇr die Beteiligten verstÄndlich<br />
und auch in hektischen Stresssituationen zielgerichtet ausfÇhrbar sind, ist es mÅglich,<br />
<strong>Disaster</strong> <strong>Recovery</strong> effizient und erfolgreich umzusetzen. Das bedeutet, dass alle<br />
MaÉnahmen und einzuleitenden Schritte ebenso wie die betroffenen Prozesse vollstÄndig<br />
und detailliert dargelegt werden mÇssen. Und es bedeutet, das ÑMantraÖ jeder<br />
Sicherheitsstrategie zu verinnerlichen und konsequent zu leben: PrÇfen. Testen.<br />
Anpassen. Testen. PrÇfen. Testen ...<br />
<strong>Disaster</strong> <strong>Recovery</strong> als iterativer Prozess<br />
Analysephase<br />
ZunÄchst geht es darum, die als kritisch anzusehenden Prozesse zu identifizieren. Es ist<br />
empfehlenswert, hierbei vom Gesamtprozess ausgehend kleine Assets zu bilden und<br />
diese nach ihrer PrioritÄt und ihrer eventuellen AbhÄngigkeit untereinander zu gewichten.<br />
Die Analyse sollte sich dann auf die herausgehobenen Prozesse konzentrieren und diese<br />
einer strengen Risikobewertung unterziehen. Die Ergebnisse dieser Bewertung werden in<br />
Form von <strong>Recovery</strong> Time Objective (RTO) und <strong>Recovery</strong> Point Objective (RPO)<br />
maÉgebend fÇr alle weiteren Phasen sein. Diesem Schritt fÄllt daher strategische<br />
Bedeutung zu. Hilfreich ist es, die Risiken in Form potenzieller Katastrophenszenarien<br />
und bestehender Alternativen zu beleuchten. Solche Szenarien machen es mÅglich,<br />
bislang unerkannte Schwachstellen kritischer Prozesse zu entdecken; sie helfen aber<br />
auch, das tatsÄchliche GefÄhrdungspotenzial realistisch einschÄtzen zu kÅnnen. Dass alle<br />
Ergebnisse nachvollziehbar und ausfÇhrlich dokumentiert werden, sollte<br />
selbstverstÄndlich sein.<br />
Designphase<br />
Liegen die Ergebnisse der Analysephase vor, mÇssen im nÄchsten Schritt fÇr jeden<br />
kritisch eingestuften Prozess konkrete MaÉnahmen aus den Festlegungen fÇr RPO und<br />
RTO abgeleitet und spezifiziert werden. Auch hier gilt es wieder, mÅgliche AbhÄngigkeiten<br />
der jeweiligen Schritte zu betrachten und ggf. erneut zur Analysephase zurÇckzukehren.<br />
Das Vorgehen sollte dabei vom GroÉen zum Kleinen fÇhren: ZunÄchst sollte eine<br />
Unterteilung in Themenbereiche wie ÑDatenÖ, ÑServicesÖ, ÑKommunikationÖ erfolgen<br />
und im Anschluss daran eine Untergliederung in verfeinerte Unterthemen. Auch hier ist<br />
es wichtig, mÅglichst alle Aspekte zu erfassen, also auch Teilaspekte wie<br />
Stromversorgung, Telekommunikation oder Zugangsberechtigungen nicht<br />
unberÇcksichtigt zu lassen. Ein wichtiger Teilschritt in der Designphase ist die Erstellung<br />
von TestplÄnen, mit denen die MaÉnahmen spÄter zu prÇfen sind. Es empfiehlt sich,<br />
TestplÄne mÅglichst strikt und eindeutig zu fassen –, ohne Raum fÇr Interpretationen.<br />
Am besten sollten die erwarteten Testergebnisse bereits in die PlÄne aufgenommen<br />
werden, so dass im Test spÄter nur noch auf eventuelle Abweichungen hin geprÇft<br />
werden muss.<br />
Implementierungsphase<br />
In der Implementierungsphase geht es darum, die MaÉnahmen, die in der Designphase<br />
festgelegt wurden, konkret umzusetzen und die technischen Gegebenheiten zu schaffen,
die im DR-Plan spezifiziert wurden. Dies ist zugleich ein wichtiger erster Test für die<br />
erstellten Pläne, bei dem die Machbarkeit geprüft werden kann. Sollten während der<br />
Implementierung Fehler oder Schwächen entdeckt werden, sollte ggf. die<br />
Implementierung gestoppt und zu einer der vorherigen Phasen zurückgekehrt werden,<br />
ehe die nachfolgende Phase eingeleitet wird. Ein solches Vorgehen sollte helfen,<br />
Unstimmigkeiten oder parallele Mehrstufigkeiten in den Phasen zu vermeiden. Während<br />
der Implementierung sollten potenzielle Einflüsse unbedingt gering gehalten werden, um<br />
den erstellten Plan nicht zu gefährden. Sollte es sich nicht vermeiden lassen, während<br />
der Implementierung neuere und unter Umständen ebenfalls geschäftskritische Prozesse<br />
in Betrieb zu nehmen, so ist unverzüglich in die Analysephase zurückzukehren, um<br />
etwaige Auswirkungen und Abhängigkeiten der bestehenden Prozesse auf den neu<br />
eingeführten Prozess und vice versa zu analysieren und die bereits bestehenden<br />
Maßnahmen ggf. um weitere Designstufen zu erweitern.<br />
Testphase<br />
In der Testphase geht es darum, den DR-Plan vollständig zu testen. Dies sollte unbedingt<br />
im Rahmen eines kompletten <strong>Disaster</strong> <strong>Recovery</strong> erfolgen. Nur so kann sichergestellt<br />
werden, dass auch wirklich alle Aspekte ineinandergreifen und aufeinander abgestimmt<br />
sind. Der beste DR-Plan wird ad absurdum geführt, wenn er nicht vor dem Eintritt eines<br />
Ernstfalles geprobt und auf seine Anwendbarkeit und Durchführung hin geprüft wird.<br />
Getestet werden sollte immer auf Basis der Testpläne, die in der Designphase erstellt<br />
wurden. Auftretende Abweichungen von den erwarteten Ergebnissen, die zuvor notiert<br />
wurden, sind zu dokumentieren und müssen ggf. zur Wiederaufnahme der Designphase<br />
führen. Auf diese Weise sollte es möglich sein, Probleme und potenzielle Schwachstellen<br />
hinreichend zu entdecken und den DR-Plan entsprechend zu optimieren.<br />
Wartungsphase<br />
Wichtig ist es zu verstehen, dass auch Geschäftsprozesse gewissen Veränderungen<br />
ausgesetzt sind. Diese Veränderungen gilt es zeitnah in den DR-Plan einzupflegen. In der<br />
Wartungsphase geht es darum, den bestehenden DR-Plan aktuell zu halten.<br />
Ausgewechselte Kennwörter oder geänderte Sicherungsverzeichnisse sind dabei relativ<br />
einfach zu behandeln, doch infrastrukturelle Änderungen an den Geschäftsprozessen<br />
sollten in jedem Fall dazu führen, eine neue Iteration des DRM anzustoßen.<br />
Wird es auf diese Weise von allen Beteiligten gelebt, kann DRM eine Katastrophe zwar<br />
nicht verhindert, wohl aber die Voraussetzung dafür schaffen, dass die richtigen<br />
»Rettungsmaßnahmen« zur richtigen Zeit am richtigen Ort durchgeführt werden können.<br />
DRM trägt also dazu bei, die Folgen des K-Falles effizient und zielgerichtet zu mildern und<br />
die Wiederaufnahme des Geschäftsbetriebs zu beschleunigen.<br />
Backup/High Availability versus <strong>Disaster</strong>: Welches <strong>Recovery</strong> darf es denn sein?<br />
Backup & <strong>Recovery</strong> (B&R) gehört (hoffentlich) längst zum Alltag eines professionellen IT-<br />
Betriebs. Wer auf eine ausgereifte Methode zur Sicherung und Wiederherstellung von<br />
Geschäftsdaten verzichtet, handelt entweder grob fahrlässig oder weiß sehr genau, was<br />
er tut. Aber leistet ein bestehendes Verfahren auch das, was aus betrieblicher Sicht,<br />
genauer: aus Sicht des Business Continuity Management (BCM), gefordert wird? Zwei<br />
Beispiele sollen die Wichtigkeit dieser Anforderung an B&R verdeutlichen.
Gut gerüstet für den K-Fall?<br />
Für einen beispielhaften datenbankbasierten Geschäftsprozess wird nach der Business-<br />
Impact-Analyse (BIA) eine RPO=0 festgelegt, Datenverlust ist folglich inakzeptabel.<br />
Bestünde für diese Datenbank ausschließlich ein sogenanntes Cold-Backupverfahren, bei<br />
dem die Datenbank zu bestimmten Zeitpunkten gestoppt und anschließend mit<br />
Betriebssystembefehlen als Kopie der Datendateien gesichert würde, und wäre außerdem<br />
nicht gesichert, dass Änderungen am Datenbestand zwischen den Cold-Backups ebenfalls<br />
gesichert und bei einem <strong>Recovery</strong> wieder eingespielt werden könnten, würde die B&R-<br />
Strategie die geforderte RPO nicht einhalten, obwohl sie in sich wahrscheinlich korrekt<br />
wäre. Der entscheidende Punkt ist jedoch, dass im K-Fall nur auf die letzte Sicherung<br />
zurückgegriffen werden kann und alle Änderungen ab diesem Zeitpunkt verloren gehen<br />
würden.<br />
Bei einem ähnlichen Fall besteht für eine Datenbankanwendung vielleicht eine RTO von<br />
15 Minuten. Da eine B&R-Strategie auf Basis einer Bandsicherung im <strong>Recovery</strong>-Fall unter<br />
Umständen mehrere Stunden in Anspruch nehmen würde, wäre die Anforderung aus der<br />
RTO nicht erfüllbar.<br />
Die Beispiele verdeutlichen, dass eine funktionierende B&R-Strategie auf keinen Fall mit<br />
einem DR-Plan verwechselt werden sollte. In beiden Fällen leisten die gewählten<br />
Strategien zwar eine Sicherung der Daten, sie können jedoch nicht die Anforderungen<br />
erfüllen, die sich aus der BIA ergeben. Daraus ergibt sich die Schlussfolgerung, dass B&R<br />
»<strong>Disaster</strong> Aware« sein muss. Bei der Erstellung eines DR-Plans geht es folglich darum,<br />
bestehende B&R-Strategien dahingehend zu prüfen, ob sie die Anforderungen an die<br />
Wiederherstellung, die sich aus RTO und RPO ergeben, tatsächlich erfüllen können.<br />
Niemals sollte eine bestehende Strategie dazu verwendet werden, um aus ihr einen DR-<br />
Plan abzuleiten.<br />
Ähnlich, wenngleich mit einer anderen Zielrichtung, verhält es sich mit den klassischen<br />
Clustermodellen, die häufig als »Hochverfügbarkeitslösungen« bezeichnet werden.<br />
Cluster können dazu eingesetzt werden, Rechenlast zu verteilen, wie das beispielsweise<br />
bei Oracle Real Application Cluster (RAC) der Fall ist. Sie können auch zur Verbesserung<br />
der Systemverfügbarkeit verwendet werden. Diese kann wiederum auch mit RAC mithilfe<br />
des »Mehr-Knoten-Prinzips« erreicht werden, beziehungsweise auch mittels der Lösung<br />
Oracle Failsafe, die auf dem Aktiv-Passiv-Modell des Microsoft Cluster Servers aufsetzt<br />
und auf Microsoft Windows beschränkt ist oder auch durch Cluster-Konzepte namhafter<br />
Hersteller wie Veritas. Die trügerische Annahme, eine hochverfügbare Systemumgebung<br />
schütze im Ernstfall vor Systemverlust, wird durch den Umstand genährt, dass bei allen<br />
Cluster-Modellen durch das Bereitstellen zusätzlicher Rechner und einer mehr oder<br />
weniger intelligenten Umschaltfunktionalität der Systemausfall einer Komponente<br />
abgefangen werden kann. Allen genannten Modellen ist jedoch gemeinsam, dass sie sich<br />
lediglich auf die zum Cluster gehörenden Rechner beziehen, während die ebenfalls zu<br />
schützenden Daten in der Regel in einem singulären Speichersystem (Storage Area
Network, SAN) gehalten werden. Deshalb sehen neuere Konzepte inzwischen redundante<br />
Speichersysteme vor, die sich zusÄtzlich in rÄumlich getrennten Umgebungen<br />
unterbringen lassen. Dennoch schÇtzen auch solche Systeme nicht vor Anwendungsoder<br />
Systemfehlern. Ein durch Softwarefehler herbeigefÇhrtes LÅschen von Daten wirkt<br />
sich ebenso auch bei einem redundanten Speichersystem aus. Eine DR-LÅsung, die<br />
diesen Umstand nicht berÇcksichtigt, kann man deshalb nicht mit gutem Gewissen als<br />
echte HochverfÇgbarkeitslÅsung bezeichnen.<br />
Resümee<br />
<strong>Disaster</strong> <strong>Recovery</strong> ist – als integraler Bestandteil eines gesamtbetrieblichen Business<br />
Continuity Managements – zweifellos ein unabdingbarer Aspekt moderner IT-Strategien.<br />
Die AbhÄngigkeiten der meisten Betriebsprozesse von der unterlagerten IT-Infrastruktur<br />
sind lÄngst elementar, so dass der zwischenzeitliche Verlust einer Teilkomponente oder<br />
gar der kompletten Infrastruktur in den meisten FÄllen zum betrieblichen Aus fÇhrt … Es<br />
sei denn, diese Komponente kann in einer Art und Weise wiederhergestellt werden, wie<br />
es fÇr den Fortbestand der Unternehmung notwendig ist. Eine ultimative LÅsung fÇr alle<br />
FÄlle gibt es sicherlich nicht, doch eine geschickte Kombination aus unterschiedlichen<br />
AnsÄtzen (etwa die Kombination eines Cluster-Systems mit Data Guard) kann durchaus<br />
helfen, einem Ausfall gelassener ins Auge zu blicken.<br />
Martin Dohse<br />
____________________________________<br />
OPITZ CONSULTING GmbH