Steeds meer organisaties zijn in grote mate afhankelijk van hun ICT-systemen voor hun bedrijfskritische activiteiten en diensten. Systemen en bedrijfsprocessen worden steeds verder met elkaar verweven. De beschikbaarheid van deze systemen heeft dus een immense impact op de organisatie. Toch wordt die afhankelijkheid vaak onderschat of geminimaliseerd in het kader van bezuinigingen, met als gevolg dat organisaties onvoldoende beschermd en uiterst kwetsbaar blijken voor calamiteiten.
Zo’n disaster hoeft ook zelfs geen zware overstroming of brand te zijn om catastrofale gevolgen te hebben. Een menselijke fout, virus, corrupt softwaresysteem, serverstoring of zelfs een eenvoudige elektriciteitspanne kunnen volstaan om een organisatie substantiële schade te berokkenen.
Disaster Recovery binnen Business Continuity
Business Continuity is de verzamelnaam voor alle activiteiten die ervoor moeten zorgen dat:
- er voortgang blijft in de bedrijfsactiviteiten,
- dat de bedrijfskritische functies beschikbaar zijn voor klanten, leveranciers en andere stakeholders.
De kans bestaat altijd dat een onvoorzien incident of calamiteit die bedrijfscontinuïteit onderbreekt en de dienstverlening aan de stakeholders in het gedrang brengt. Het is dan ook van wezenlijk belang dat organisaties de tijd nemen om vast te stellen wat beschermd moet worden en hoe dat vorm moet krijgen.
Daarom heeft elke organisatie een weloverwogen Disaster Recovery Plan nodig, dat:
- aansluit bij de eisen en verwachtingen van die stakeholders,
- de bedrijfscontinuïteit zo snel mogelijk herstelt wanneer een incident zich voordoet,
- de economische impact van het incident zoveel mogelijk beperkt.
Noot: Emergency Management zijn de acties die nodig zijn in situaties waarbij er gewonden zijn of waarbij eerstehulpverleners gecontacteerd moeten worden.
Wat is een Disaster Recovery Plan?
Een Disaster Recovery Plan beschrijft een gestructureerde aanpak die gehanteerd wordt:
- wanneer een onvoorzien incident zich voordoet dat de bedrijfscontinuïteit in gevaar brengt,
- om de kans op en de impact van zo’n incident zoveel mogelijk te beperken.
Een DRP is eigenlijk een soort draaiboek, dat stap voor stap beschrijft wie wat moet doen om correct en adequaat te kunnen reageren op een calamiteit. Dit plan is ontworpen om duidelijke en efficiënte processen aan te reiken met de bedoeling de IT-storing zo snel mogelijk te herstellen en een aanvaardbaar operationeel niveau te bereiken.
De bouwstenen van een Disaster Recovery Plan
Een Disaster Recovery Plan schudt u niet zomaar even uit uw mouw. Er komt heel wat voorbereiding en zorgvuldig denkwerk bij kijken. Een degelijke Disaster Recovery Plan hoeft geen titanenwerk te zijn, maar moet weloverwogen worden opgesteld en geactualiseerd blijven om continu voorbereid te zijn op eventuele calamiteiten.
Fase 1: Voorbereiding
Risicoanalyse
In de IT-wereld houden we vooral rekening met onderstaande risicoscenario’s:
- vernietiging van (delen van) de fysieke organisatie
- verlies van cruciale data
- onbeschikbaarheid van bedrijfskritische IT-functionaliteiten
die het gevolg kunnen zijn van :
- stroomstoring,
- menselijke fout,
- diefstal of verlies,
- computervirus of cyberaanval,
- hardware-, software- of systeemstoringen,
- overmacht (overstroming, brand, storm, …),
- …
Tijdens zo’n risicoanalyse gaan we na wat de impact zou zijn op de business wanneer bepaalde bedrijfskritische applicaties of diensten niet meer geleverd kunnen worden, omwille van bijvoorbeeld een brand of het uitvallen van een server, en proberen we de waarschijnlijkheid van zo’n scenario in te schatten.
Om dit te kunnen doen, is het cruciaal exact te weten welke applicaties en diensten op welke onderdelen van uw ICT-infrastructuur draaien en waar deze zich bevinden.
Business Impact Analyse
Tijdens een Business Impact Analyse wordt bekeken hoe de verschillende businessunits werken, welke bedrijfskritische processen afhankelijk zijn van IT en welke gevolgen bepaalde risico’s zouden kunnen hebben voor dat specifieke proces maar ook voor de andere bedrijfsactiviteiten.
Deze dienen opgedeeld te worden volgens hun prioriteit. Zo zullen sommige risico’s de hele organisatie kunnen impacteren en andere slechts een klein onderdeel ervan aantasten. Zo zullen de operationele en financiële verliezen in sommige gevallen significant zijn, terwijl andere incidenten veeleer de concurrentiële positie of reputatie van het bedrijf zullen schaden.
Na zo’n analyse hebben we een duidelijk zicht op alle mogelijke gevolgen van een disaster voor een bedrijf, zowel de praktische problemen als de mogelijke kosten ervan.
Ons doel is nu te bepalen hoe (in)tolerant de bedrijfskritische applicaties en diensten zijn voor een mogelijke storing en wat de maximaal aanvaardbare downtime ervan mag zijn.
Daarna kunnen we pas de mogelijke opties evalueren om hun resistentie te verhogen en het risico op onderbreking te reduceren, zodanig dat de dienstverlening binnen een aanvaardbare tijdsspanne kan hersteld worden.
RTO: Recovery Time Objective
Recovery Time Objective is de streeftijd waarbinnen een bepaalde functie, proces of dienst opnieuw operationeel moet zijn na een storing, om onaanvaardbare gevolgen voor de bedrijfsactiviteiten te vermijden.
We willen dus berekenen hoe snel uw organisatie zich moet kunnen herstellen, en op basis daarvan bepalen welke maatregelen en budgetten voorzien kunnen worden om de bedrijfscontinuïteit zo goed mogelijk te verzekeren.
Voorbeeld:
Als de RTO geschat wordt op 5 uur, en een bedrijf een langere downtime dus niet kan overleven, dan zal die organisatie meer moeten investeren om voldoende voorbereid te zijn om hun systemen binnen die tijdsspanne te kunnen herstellen.
Als de RTO echter op 2 weken wordt geschat, dan zal die organisatie het zich kunnen veroorloven om minder budget te spenderen en te investeren in minder geavanceerde oplossingen.
RPO: Recovery Point Objective
Recovery Point Objective beschrijft het tijdsinterval dat mag voorbijgaan zonder dat de hoeveelheid verloren data de maximum toelaatbare drempel overschrijdt.
De RPO wordt bepaald op basis van de tijd tussen 2 back-ups en de hoeveelheid gegevens die tussen die 2 back-ups verloren zouden kunnen gaan.
Voorbeeld:
In veel ICT-omgevingen wordt elke nacht een back-up gemaakt. Wanneer de calamiteit zich echter op het einde van de werkdag of ’s nachts voordoet, nog vóór de back-up kon worden gemaakt, dan is de kans reëel dat de data van die volledige werkdag verloren gaat.
Is de organisatie dan in staat om de verloren data te recupereren of opnieuw te verwerken, zonder dat het bedrijf daar echt onder lijdt? Indien dat niet het geval is, moet de RPO verkort worden en is het beter om meermaals per dag een back-up te nemen.
Fase 2: ICT-omgeving in kaart brengen
Het is essentieel goed te weten hoe de bedrijfsprocessen verlopen en hoe de ICT-omgeving in elkaar zit, om te kunnen identificeren welke bedrijfskritische activiteiten of diensten op welke onderdelen van uw ICT-infrastructuur draaien en wanneer deze dus kwetsbaar kunnen zijn.
In deze fase gaan we ook na:
- wat technisch allemaal nodig is om de verschillende systemen te laten draaien,
- of en in welke mate het uitvallen van een systeem de andere systemen impacteert,
- of elk systeem al dan niet ontdubbeld of beveiligd is,
- welke garanties en service level agreements actief zijn voor dat systeem,
- of voor elk systeem regelmatig genoeg een correcte back-up wordt gemaakt en waar deze bewaard wordt.
Fase 3: Disaster Recovery Strategie
Na de risicoanalyse en de BIA-oefening, het bepalen van de RTO & RPO en het in kaart brengen van de ICT-omgeving, zijn we eindelijk klaar om concrete acties en procedures op te stellen, waarop men kan terugvallen wanneer een ramp of storing zich effectief zou voordoen.
Rollen en verantwoordelijkheden
Allereerst moet duidelijk gesteld worden wie wat moet en mag doen in geval van een calamiteit. Dit kan eenvoudig weergegeven worden in een tabel met:
- de contactgegevens van de verschillende leden van het Disaster Recovery Team,
- hun rol en verantwoordelijkheden,
- hun uitgavelimieten (vb. als er materialen moeten aangekocht worden),
- de beperkingen van hun autoriteit in geval van een incident.
Incident Response
Het Disaster Recovery Plan stipuleert wie van hen de ernst van de situatie in eerste instantie zal evalueren, het incident onder controle zal proberen krijgen en de nodige contactpersonen op de hoogte zal brengen.
Activatie plan
Op basis van die eerste evaluatie wordt dan beslist om al dan niet (onderdelen van) het Disaster Recovery Plan te activeren. Het DRP beschrijft gedetailleerd en stap per stap hoe gehandeld moet worden om het geaffecteerde bedrijfsproces of netwerkelement zo snel en efficiënt mogelijk te herstellen of de taken ervan door een ander systeem te laten overnemen, zodat een normaal operationeel niveau bereikt kan worden.
Documentatie
Een Disaster Recovery Plan bevat ook alle mogelijke nuttige informatie:
- contactgegevens van leveranciers,
- gekende herstelprocedures beschreven door die leveranciers,
- systeem- en applicatie-inventarissen,
- netwerkbeschrijvingen en -schema’s,
- contracten en Service Level Agreements,
- …
Fase 4: Testen & Evaluatie
Testen
Het is van wezenlijk belang uw Disaster Recovery Plan regelmatig te testen en bij te sturen, wanneer u vaststelt dat de gedefinieerde procedures niet de gewenste resultaten opleveren of de afgesproken RTO en RPO overschrijden.
Updaten
Het is van even groot belang uw Disaster Recovery Plan minstens 1x per jaar te updaten. Een DRP met verouderde contact- en contractinformatie is nutteloos, waardoor kostbare tijd verloren zal gaan op cruciale momenten.
Bij elke nieuwe investering loont het de moeite om af te wegen welke impact dit nieuwe systeem zal hebben op uw DRP en in welke mate het plan zal moeten bijgewerkt worden.
Hoe starten met een eigen Disaster Recovery Plan?
Hoewel het opstellen van een degelijk Disaster Recovery Plan geen titanenwerk hoeft te zijn, is het cruciaal om doordacht en systematisch te werk te gaan, zodat geen enkel element over het hoofd wordt gezien en eenduidig en snel gehandeld kan worden in geval van een incident.
De jarenlange ervaring van onze DRP-expert kan u helpen om snel en eenvoudig een werk- en betrouwbaar DRP op te stellen met duidelijke draaiboeken.