08.05.2014 Aufrufe

Disaster Recovery - Opitz Consulting

Disaster Recovery - Opitz Consulting

Disaster Recovery - Opitz Consulting

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Disaster</strong> <strong>Recovery</strong> im Datenbankumfeld<br />

Einordnung in die Business-Continuity-LÄsungsansÅtze<br />

Katastrophen – unabhÅngig davon, ob sie menschlichen oder natÉrlichen<br />

Ursprungs sind – kÄnnen ein Unternehmen jederzeit treffen.<br />

Telekommunikationskabel, die vom Bagger des StraÑenausbesserungsdienstes<br />

durchtrennt werden, Öberflutungen oder KabelschmorbrÅnde, die ganze<br />

Rechenzentren auÑer Betrieb setzen … Der Totalausfall von IT-Komponenten ist<br />

jederzeit denkbar und jederzeit mÄglich!<br />

S<br />

tudien namhafter Analysten wie Gartner u. a. zeigen, dass viele Unternehmen den<br />

Totalausfall geschäftskritischer IT-Prozesse über einen längeren Zeitraum hinweg<br />

nicht verkraften und in der Folge ihr Geschäft aufgeben müssen.<br />

Doch auch, wenn ein IT-K-Fall nicht zwangsläufig zu einem Gesamt-K-Fall eines<br />

Unternehmens führt, ist der Totalausfall auch nur eines kritischen Prozesses in der Regel<br />

mit hohen Folgekosten verbunden, was nicht zuletzt an der stetig wachsenden<br />

Komplexität und Verzahnung von Betriebsprozessen liegt. Dass Unternehmensnetze und<br />

damit die angeschlossenen Prozesse empfindlich gestört werden können, hat sich<br />

mittlerweile in den meisten Betrieben herumgesprochen. Firewall-Systeme, aufwendige<br />

hochautomatisierte Update-Systeme und komplexe Antivirenprogramme gehören heute<br />

zum Standardprogramm EDV-gestützter Betriebe. Die Notwendigkeit solcher<br />

Sicherheitsmaßnahmen muss heute kein Administrator gegenüber seinem Vorgesetzten<br />

mehr rechtfertigen.<br />

Im K-Fall können unscheinbare Kleinigkeiten die Kosten einer Wiederherstellung<br />

explosionsartig in die Höhe treiben, wie etwa:<br />

<br />

<br />

<br />

<br />

<br />

nicht notierte Kennwörter<br />

fehlerhafte oder gänzlich fehlende Dokumentation der Sicherungs- und<br />

Wiederherstellungsprozeduren<br />

nicht lesbare Sicherungsbänder<br />

verlorengegangene Lizenzschlüssel, die für die Softwareinstallation benötigt<br />

werden<br />

nicht vorhandener Ersatz von (veralteten) Hardwarekomponenten<br />

Nicht selten ist die falsche Strategie zur Sicherung und Wiederherstellung die Ursache für<br />

eine finanzielle Folgekatastrophe: Wenn ein Unternehmen durch die Unterbrechung eines<br />

kritischen Prozesses in der Stunde mehrere hunderttausend Euro Verlust schreibt, kann


im schlimmsten Fall ein Wiederherstellungsverfahren, das mehrere Stunden oder gar<br />

Tage dauert, die tatsächliche Ursache einer Betriebsaufgabe sein, und nicht die<br />

Komponente, die den Ausfall ursprünglich ausgelöst hat.<br />

Business Continuity versus <strong>Disaster</strong> <strong>Recovery</strong><br />

Betriebliches Kontinuitätsmanagement (engl. Business Continuity Management, BCM)<br />

erhielt in den 1950er Jahren Einzug in die Betriebswirtschaftslehre und bekam seit den<br />

Anschlägen vom 11. September 2001 und den Bombenattentaten in London und Madrid<br />

neuen Aufschwung. BCM beschreibt Methoden, die es einem Unternehmen erlauben, den<br />

betrieblichen Prozess unter Krisenbedingungen und unvorhersehbar erschwerten<br />

Bedingungen abzusichern und somit den Fortbestand eines Unternehmens zu<br />

gewährleisten.<br />

Für die erfolgreiche Entwicklung eines BCM-Programms ist es notwendig, das<br />

Unternehmen sehr genau zu analysieren hinsichtlich<br />

<br />

<br />

<br />

<br />

der Unternehmensziele,<br />

des Wegs, auf dem diese Ziele erreicht werden sollen,<br />

der tatsächlich erbrachten Produkte und Leistungen<br />

sowie der Art und Weise, wie diese Leistungen zu erbringen sind.<br />

Die aus dieser Analyse gewonnenen Erkenntnisse werden einer Business-Impact-Analyse<br />

(BIA) unterzogen. Die BIA bietet somit eine Grundlage, um die Folgen von Verlust<br />

beziehungsweise Störung betrieblicher Prozesse zu bestimmen und zu qualifizieren.<br />

Maximum Tolerable Period of Disruption (MTPD)<br />

Die MTPD beschreibt die maximal akzeptable Zeit, die eine Betriebsunterbrechung dauern<br />

darf. Sie sollte von der Geschäftsleitung festgelegt werden und muss als absoluter<br />

Basiswert für alle weiteren Maßnahmen zur Planung von Verfahrensweisen im<br />

Katastrophenfall gelten. Zur Bestimmung der MTPD stehen zwei weitere Richtlinien zur<br />

Verfügung:<br />

<strong>Recovery</strong> Time Objective (RTO):<br />

Die RTO legt die Zeit fest, in der ein bestimmter Betriebsablauf nach Schadenseintritt<br />

wieder vollständig funktionieren muss. Eine Festlegung von »0 Minuten« bedeutet, dass<br />

Systeme sofort verfügbar sein müssen.<br />

<strong>Recovery</strong> Point Objective (RPO:)<br />

RPO beschreibt den Wiederherstellungszeitpunkt für eine Information, die erforderlich ist,<br />

um einen Prozess wieder starten zu können. Hierbei wird festgelegt, wie viele Daten<br />

zwischen der letzten Sicherung und dem Schadenseintritt maximal verloren gehen<br />

dürfen. Eine »RPO = 0« bedeutet, dass Datenverlust nicht akzeptabel ist.<br />

<strong>Disaster</strong> <strong>Recovery</strong> Management (DRM)<br />

DRM ist prinzipiell gleichbedeutend mit Business Continuity Management (BCM), wird<br />

aber begrifflich verwendet für die Anwendung von BCM auf die IT-Infrastruktur eines<br />

Unternehmens. Aus Unternehmenssicht ist DRM daher keine vom Gesamtbetrieb<br />

losgelöste IT-Strategie, sondern integraler Bestandteil des betrieblichen Gesamtkonzepts.<br />

»<strong>Disaster</strong>« meint dabei in der Regel den Totalausfall einer IT-Komponente, die für die<br />

Bereitstellung eines IT-Services als Bestandteil eines kritischen Betriebsprozesses<br />

verantwortlich ist. Der Ausfall einer gespiegelten Festplatte (RAID 1) ist demnach kein<br />

<strong>Disaster</strong>-<strong>Recovery</strong>-Fall, da alle Informationen identisch auf beide Platten geschrieben<br />

werden. Dagegen ist der Ausfall einer Festplatte, die mit einer weiteren Festplatte zu<br />

einer logischen Einheit mit der Gesamtgröße beider Platten zusammen betrieben wird<br />

(RAID 0), ein DR-Fall, weil bei RAID 0 die Informationen getrennt und zu gleichen Teilen<br />

auf beide Platten verteilt werden. Ein Plattenausfall aller im RAID 0 zusammengefasster<br />

Platten ist daher gleichbedeutend mit dem Ausfall beider Platten und damit<br />

gleichbedeutend mit einem totalen Datenverlust.


Auf dem Weg zu DRM<br />

<strong>Disaster</strong> <strong>Recovery</strong> ist kein SelbstlÄufer. Im K-Fall ist ein funktionierender DR-Plan die<br />

allerwichtigste Komponente der bestehenden IT-Sicherheitsstrategie. Katastrophen<br />

treten im Allgemeinen vÅllig unerwartet ein und schaffen unmittelbar brenzlige<br />

Situationen fÇr alle Betroffenen. Es bedarf bei allen Beteiligten groÉer Ruhe und<br />

ÄuÉerster Sorgfalt, um die richtigen Schritte zum richtigen Zeitpunkt am richtigen Ort<br />

durchfÇhren zu kÅnnen. Wer untrainiert in eine derartige Lage gerÄt, kann schnell in<br />

Hektik verfallen und dabei Fehler begehen, die ein <strong>Recovery</strong> erschweren oder gar<br />

unmÅglich machen kÅnnen. Ein funktionierender DR-Plan stellt daher unter UmstÄnden<br />

den entscheidenden Faktor fÇr den Erhalt oder den Verlust eines Unternehmens dar.<br />

Der erste Schritt zu einem erfolgreichen DR-Plan besteht darin, bei allen Beteiligten ein<br />

ausgeprÄgtes gemeinsames VerstÄndnis fÇr die Notwendigkeit des Plans und seiner<br />

AusprÄgung zu schaffen. Nur wenn alle Prozesse richtig erfasst und alle MaÉnahmen<br />

logisch aufeinander abgestimmt sind und diese Schritte fÇr die Beteiligten verstÄndlich<br />

und auch in hektischen Stresssituationen zielgerichtet ausfÇhrbar sind, ist es mÅglich,<br />

<strong>Disaster</strong> <strong>Recovery</strong> effizient und erfolgreich umzusetzen. Das bedeutet, dass alle<br />

MaÉnahmen und einzuleitenden Schritte ebenso wie die betroffenen Prozesse vollstÄndig<br />

und detailliert dargelegt werden mÇssen. Und es bedeutet, das ÑMantraÖ jeder<br />

Sicherheitsstrategie zu verinnerlichen und konsequent zu leben: PrÇfen. Testen.<br />

Anpassen. Testen. PrÇfen. Testen ...<br />

<strong>Disaster</strong> <strong>Recovery</strong> als iterativer Prozess<br />

Analysephase<br />

ZunÄchst geht es darum, die als kritisch anzusehenden Prozesse zu identifizieren. Es ist<br />

empfehlenswert, hierbei vom Gesamtprozess ausgehend kleine Assets zu bilden und<br />

diese nach ihrer PrioritÄt und ihrer eventuellen AbhÄngigkeit untereinander zu gewichten.<br />

Die Analyse sollte sich dann auf die herausgehobenen Prozesse konzentrieren und diese<br />

einer strengen Risikobewertung unterziehen. Die Ergebnisse dieser Bewertung werden in<br />

Form von <strong>Recovery</strong> Time Objective (RTO) und <strong>Recovery</strong> Point Objective (RPO)<br />

maÉgebend fÇr alle weiteren Phasen sein. Diesem Schritt fÄllt daher strategische<br />

Bedeutung zu. Hilfreich ist es, die Risiken in Form potenzieller Katastrophenszenarien<br />

und bestehender Alternativen zu beleuchten. Solche Szenarien machen es mÅglich,<br />

bislang unerkannte Schwachstellen kritischer Prozesse zu entdecken; sie helfen aber<br />

auch, das tatsÄchliche GefÄhrdungspotenzial realistisch einschÄtzen zu kÅnnen. Dass alle<br />

Ergebnisse nachvollziehbar und ausfÇhrlich dokumentiert werden, sollte<br />

selbstverstÄndlich sein.<br />

Designphase<br />

Liegen die Ergebnisse der Analysephase vor, mÇssen im nÄchsten Schritt fÇr jeden<br />

kritisch eingestuften Prozess konkrete MaÉnahmen aus den Festlegungen fÇr RPO und<br />

RTO abgeleitet und spezifiziert werden. Auch hier gilt es wieder, mÅgliche AbhÄngigkeiten<br />

der jeweiligen Schritte zu betrachten und ggf. erneut zur Analysephase zurÇckzukehren.<br />

Das Vorgehen sollte dabei vom GroÉen zum Kleinen fÇhren: ZunÄchst sollte eine<br />

Unterteilung in Themenbereiche wie ÑDatenÖ, ÑServicesÖ, ÑKommunikationÖ erfolgen<br />

und im Anschluss daran eine Untergliederung in verfeinerte Unterthemen. Auch hier ist<br />

es wichtig, mÅglichst alle Aspekte zu erfassen, also auch Teilaspekte wie<br />

Stromversorgung, Telekommunikation oder Zugangsberechtigungen nicht<br />

unberÇcksichtigt zu lassen. Ein wichtiger Teilschritt in der Designphase ist die Erstellung<br />

von TestplÄnen, mit denen die MaÉnahmen spÄter zu prÇfen sind. Es empfiehlt sich,<br />

TestplÄne mÅglichst strikt und eindeutig zu fassen –, ohne Raum fÇr Interpretationen.<br />

Am besten sollten die erwarteten Testergebnisse bereits in die PlÄne aufgenommen<br />

werden, so dass im Test spÄter nur noch auf eventuelle Abweichungen hin geprÇft<br />

werden muss.<br />

Implementierungsphase<br />

In der Implementierungsphase geht es darum, die MaÉnahmen, die in der Designphase<br />

festgelegt wurden, konkret umzusetzen und die technischen Gegebenheiten zu schaffen,


die im DR-Plan spezifiziert wurden. Dies ist zugleich ein wichtiger erster Test für die<br />

erstellten Pläne, bei dem die Machbarkeit geprüft werden kann. Sollten während der<br />

Implementierung Fehler oder Schwächen entdeckt werden, sollte ggf. die<br />

Implementierung gestoppt und zu einer der vorherigen Phasen zurückgekehrt werden,<br />

ehe die nachfolgende Phase eingeleitet wird. Ein solches Vorgehen sollte helfen,<br />

Unstimmigkeiten oder parallele Mehrstufigkeiten in den Phasen zu vermeiden. Während<br />

der Implementierung sollten potenzielle Einflüsse unbedingt gering gehalten werden, um<br />

den erstellten Plan nicht zu gefährden. Sollte es sich nicht vermeiden lassen, während<br />

der Implementierung neuere und unter Umständen ebenfalls geschäftskritische Prozesse<br />

in Betrieb zu nehmen, so ist unverzüglich in die Analysephase zurückzukehren, um<br />

etwaige Auswirkungen und Abhängigkeiten der bestehenden Prozesse auf den neu<br />

eingeführten Prozess und vice versa zu analysieren und die bereits bestehenden<br />

Maßnahmen ggf. um weitere Designstufen zu erweitern.<br />

Testphase<br />

In der Testphase geht es darum, den DR-Plan vollständig zu testen. Dies sollte unbedingt<br />

im Rahmen eines kompletten <strong>Disaster</strong> <strong>Recovery</strong> erfolgen. Nur so kann sichergestellt<br />

werden, dass auch wirklich alle Aspekte ineinandergreifen und aufeinander abgestimmt<br />

sind. Der beste DR-Plan wird ad absurdum geführt, wenn er nicht vor dem Eintritt eines<br />

Ernstfalles geprobt und auf seine Anwendbarkeit und Durchführung hin geprüft wird.<br />

Getestet werden sollte immer auf Basis der Testpläne, die in der Designphase erstellt<br />

wurden. Auftretende Abweichungen von den erwarteten Ergebnissen, die zuvor notiert<br />

wurden, sind zu dokumentieren und müssen ggf. zur Wiederaufnahme der Designphase<br />

führen. Auf diese Weise sollte es möglich sein, Probleme und potenzielle Schwachstellen<br />

hinreichend zu entdecken und den DR-Plan entsprechend zu optimieren.<br />

Wartungsphase<br />

Wichtig ist es zu verstehen, dass auch Geschäftsprozesse gewissen Veränderungen<br />

ausgesetzt sind. Diese Veränderungen gilt es zeitnah in den DR-Plan einzupflegen. In der<br />

Wartungsphase geht es darum, den bestehenden DR-Plan aktuell zu halten.<br />

Ausgewechselte Kennwörter oder geänderte Sicherungsverzeichnisse sind dabei relativ<br />

einfach zu behandeln, doch infrastrukturelle Änderungen an den Geschäftsprozessen<br />

sollten in jedem Fall dazu führen, eine neue Iteration des DRM anzustoßen.<br />

Wird es auf diese Weise von allen Beteiligten gelebt, kann DRM eine Katastrophe zwar<br />

nicht verhindert, wohl aber die Voraussetzung dafür schaffen, dass die richtigen<br />

»Rettungsmaßnahmen« zur richtigen Zeit am richtigen Ort durchgeführt werden können.<br />

DRM trägt also dazu bei, die Folgen des K-Falles effizient und zielgerichtet zu mildern und<br />

die Wiederaufnahme des Geschäftsbetriebs zu beschleunigen.<br />

Backup/High Availability versus <strong>Disaster</strong>: Welches <strong>Recovery</strong> darf es denn sein?<br />

Backup & <strong>Recovery</strong> (B&R) gehört (hoffentlich) längst zum Alltag eines professionellen IT-<br />

Betriebs. Wer auf eine ausgereifte Methode zur Sicherung und Wiederherstellung von<br />

Geschäftsdaten verzichtet, handelt entweder grob fahrlässig oder weiß sehr genau, was<br />

er tut. Aber leistet ein bestehendes Verfahren auch das, was aus betrieblicher Sicht,<br />

genauer: aus Sicht des Business Continuity Management (BCM), gefordert wird? Zwei<br />

Beispiele sollen die Wichtigkeit dieser Anforderung an B&R verdeutlichen.


Gut gerüstet für den K-Fall?<br />

Für einen beispielhaften datenbankbasierten Geschäftsprozess wird nach der Business-<br />

Impact-Analyse (BIA) eine RPO=0 festgelegt, Datenverlust ist folglich inakzeptabel.<br />

Bestünde für diese Datenbank ausschließlich ein sogenanntes Cold-Backupverfahren, bei<br />

dem die Datenbank zu bestimmten Zeitpunkten gestoppt und anschließend mit<br />

Betriebssystembefehlen als Kopie der Datendateien gesichert würde, und wäre außerdem<br />

nicht gesichert, dass Änderungen am Datenbestand zwischen den Cold-Backups ebenfalls<br />

gesichert und bei einem <strong>Recovery</strong> wieder eingespielt werden könnten, würde die B&R-<br />

Strategie die geforderte RPO nicht einhalten, obwohl sie in sich wahrscheinlich korrekt<br />

wäre. Der entscheidende Punkt ist jedoch, dass im K-Fall nur auf die letzte Sicherung<br />

zurückgegriffen werden kann und alle Änderungen ab diesem Zeitpunkt verloren gehen<br />

würden.<br />

Bei einem ähnlichen Fall besteht für eine Datenbankanwendung vielleicht eine RTO von<br />

15 Minuten. Da eine B&R-Strategie auf Basis einer Bandsicherung im <strong>Recovery</strong>-Fall unter<br />

Umständen mehrere Stunden in Anspruch nehmen würde, wäre die Anforderung aus der<br />

RTO nicht erfüllbar.<br />

Die Beispiele verdeutlichen, dass eine funktionierende B&R-Strategie auf keinen Fall mit<br />

einem DR-Plan verwechselt werden sollte. In beiden Fällen leisten die gewählten<br />

Strategien zwar eine Sicherung der Daten, sie können jedoch nicht die Anforderungen<br />

erfüllen, die sich aus der BIA ergeben. Daraus ergibt sich die Schlussfolgerung, dass B&R<br />

»<strong>Disaster</strong> Aware« sein muss. Bei der Erstellung eines DR-Plans geht es folglich darum,<br />

bestehende B&R-Strategien dahingehend zu prüfen, ob sie die Anforderungen an die<br />

Wiederherstellung, die sich aus RTO und RPO ergeben, tatsächlich erfüllen können.<br />

Niemals sollte eine bestehende Strategie dazu verwendet werden, um aus ihr einen DR-<br />

Plan abzuleiten.<br />

Ähnlich, wenngleich mit einer anderen Zielrichtung, verhält es sich mit den klassischen<br />

Clustermodellen, die häufig als »Hochverfügbarkeitslösungen« bezeichnet werden.<br />

Cluster können dazu eingesetzt werden, Rechenlast zu verteilen, wie das beispielsweise<br />

bei Oracle Real Application Cluster (RAC) der Fall ist. Sie können auch zur Verbesserung<br />

der Systemverfügbarkeit verwendet werden. Diese kann wiederum auch mit RAC mithilfe<br />

des »Mehr-Knoten-Prinzips« erreicht werden, beziehungsweise auch mittels der Lösung<br />

Oracle Failsafe, die auf dem Aktiv-Passiv-Modell des Microsoft Cluster Servers aufsetzt<br />

und auf Microsoft Windows beschränkt ist oder auch durch Cluster-Konzepte namhafter<br />

Hersteller wie Veritas. Die trügerische Annahme, eine hochverfügbare Systemumgebung<br />

schütze im Ernstfall vor Systemverlust, wird durch den Umstand genährt, dass bei allen<br />

Cluster-Modellen durch das Bereitstellen zusätzlicher Rechner und einer mehr oder<br />

weniger intelligenten Umschaltfunktionalität der Systemausfall einer Komponente<br />

abgefangen werden kann. Allen genannten Modellen ist jedoch gemeinsam, dass sie sich<br />

lediglich auf die zum Cluster gehörenden Rechner beziehen, während die ebenfalls zu<br />

schützenden Daten in der Regel in einem singulären Speichersystem (Storage Area


Network, SAN) gehalten werden. Deshalb sehen neuere Konzepte inzwischen redundante<br />

Speichersysteme vor, die sich zusÄtzlich in rÄumlich getrennten Umgebungen<br />

unterbringen lassen. Dennoch schÇtzen auch solche Systeme nicht vor Anwendungsoder<br />

Systemfehlern. Ein durch Softwarefehler herbeigefÇhrtes LÅschen von Daten wirkt<br />

sich ebenso auch bei einem redundanten Speichersystem aus. Eine DR-LÅsung, die<br />

diesen Umstand nicht berÇcksichtigt, kann man deshalb nicht mit gutem Gewissen als<br />

echte HochverfÇgbarkeitslÅsung bezeichnen.<br />

Resümee<br />

<strong>Disaster</strong> <strong>Recovery</strong> ist – als integraler Bestandteil eines gesamtbetrieblichen Business<br />

Continuity Managements – zweifellos ein unabdingbarer Aspekt moderner IT-Strategien.<br />

Die AbhÄngigkeiten der meisten Betriebsprozesse von der unterlagerten IT-Infrastruktur<br />

sind lÄngst elementar, so dass der zwischenzeitliche Verlust einer Teilkomponente oder<br />

gar der kompletten Infrastruktur in den meisten FÄllen zum betrieblichen Aus fÇhrt … Es<br />

sei denn, diese Komponente kann in einer Art und Weise wiederhergestellt werden, wie<br />

es fÇr den Fortbestand der Unternehmung notwendig ist. Eine ultimative LÅsung fÇr alle<br />

FÄlle gibt es sicherlich nicht, doch eine geschickte Kombination aus unterschiedlichen<br />

AnsÄtzen (etwa die Kombination eines Cluster-Systems mit Data Guard) kann durchaus<br />

helfen, einem Ausfall gelassener ins Auge zu blicken.<br />

Martin Dohse<br />

____________________________________<br />

OPITZ CONSULTING GmbH

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!