9 fév 2017
Gert Lambers

De plus en plus d'organisations sont en large mesure tributaires de leurs systèmes TIC pour leurs activités et services critiques. Les systèmes et processus d’entreprise sont de plus en plus entremêlés. La disponibilité de ces systèmes a donc un impact majeur sur l’organisation. Cette dépendance est cependant souvent sous-estimée ou minimisée au nom d'économies. Les organisations ne sont dès lors pas assez protégées ou extrêmement vulnérables aux calamités.

Un tel désastre ne doit pas nécessairement prendre la forme d’une grave inondation ou d’un incendie pour avoir des conséquences catastrophiques. Une erreur humaine, un virus, un système informatique corrompu, une panne de serveur voire une panne d’électricité peuvent suffire à infliger des dommages substantiels à une organisation.

Reprise d’activité dans le cadre de la continuité des affaires

La continuité des affaires est un nom qui regroupe toutes les activités ayant pour but :

  • d’assurer l’avancement des activités de l’entreprise
  • de permettre aux fonctions critiques de rester disponibles pour les clients, fournisseurs et autres parties prenantes

Il y a toujours un risque qu'un incident ou une calamité imprévue interrompe la continuité des affaires et mette en péril la prestation de services aux parties prenantes. Il est donc essentiel que les organisations prennent le temps de déterminer ce qui doit être protégé et la forme que cette protection doit prendre.

C’est pourquoi chaque organisation a besoin d’un Plan de reprise d’activité réfléchi, qui :

  • correspond aux exigences et attentes de ces parties prenantes,
  • rétablit la continuité des affaires le plus rapidement possible en cas d’incident,
  • limite l’impact économique de l'incident.

Disaster Recovery schema

Remarque : La gestion des urgences implique les actions à entreprendre dans des situations dans lesquelles il y a des blessés ou dans lesquelles des prestataires de premiers soins doivent être contactés.

Qu’est-ce qu’un plan de reprise d’activité ?

Un plan de reprise d’activité décrit une approche structurée à suivre :

  • lorsque survient un incident imprévu qui met en péril la continuité de l’entreprise,
  • afin de limiter au maximum la probabilité d'un tel incident et son impact.

Un PRA est en fait une sorte de scénario, qui décrit étape par étape ce qu'il y a lieu de faire pour réagir de manière correcte et adéquate à une calamité. Ce plan a été conçu pour offrir des processus clairs et efficaces dans le but de rétablir le plus rapidement l’IT et d’atteindre un niveau opérationnel acceptable.  

Les fondements d’un plan de reprise d’activité

Un plan de reprise d’activité ne se fait pas en un claquement de doigts. Une foule de préparatifs et une soigneuse réflexion s'imposent. Un plan de reprise d’activité de qualité ne doit pas nécessiter un travail de titan mais être établi de manière réfléchie et être actualisé pour assurer une préparation optimale aux éventuelles calamités.

Phase 1 : Préparation

Analyse des risques

Dans le monde informatique, nous tenons surtout compte des scénarios de risque suivants :

  • destruction de l'organisation physique (d’une partie de celle-ci)
  • perte de données cruciales
  • indisponibilité de fonctionnalités IT critiques

Qui peuvent être la conséquence :

  • d'une panne de courant
  • d'une erreur humaine
  • d’un vol ou d'une perte
  • d'un virus informatique ou d'une cyberattaque
  • d'une panne matérielle, logicielle ou de système
  • d’un cas de force majeure (inondation, incendie, tempête, etc.)

Dans le cadre d’une analyse de risques de ce type, nous évaluons l’impact sur l’entreprise de l’indisponibilité de certaines applications ou de certains services critiques, suite par exemple à un incendie ou à la panne d'un serveur, et tentons d'évaluer la probabilité d'un tel scénario.

Pour y parvenir, il est crucial de savoir exactement quels services et applications tournent sur les différentes parties de votre infrastructure informatique et leur emplacement.

Business Impact Analyse (analyse des incidences sur les activités)

Lors d’une Business Impact Analyse, il convient d'évaluer la manière dont les différentes business units travaillent, quels processus critiques dépendent de l’IT et quelles pourraient être les conséquences de certains risques sur ce processus spécifique, mais aussi pour les autres activités d’entreprise.

Ces services sont classés par priorité. Certains risques pourront avoir un impact sur l’ensemble de l’organisation, et d’autres n’en affecteront qu’une petite partie. Les pertes opérationnelles et financières seront dans certains cas notables, tandis que d’autres incidents nuiront plutôt à la position concurrentielle ou réputation de l’entreprise.

Une analyse de ce type permet de se faire une idée claire de toutes les conséquences possibles d’une catastrophe pour une entreprise, et ce, tant les problèmes pratiques que les coûts potentiels.

Notre but est de déterminer la mesure dans laquelle les applications et services critiques sont (in)tolérants à une panne potentielle et le temps d'immobilisation maximal acceptable.

Ce n’est qu’alors que nous pourrons évaluer les options possibles pour accroître leur résistance et réduire le risque d'interruption, afin que les services puissent être rétablis dans un délai acceptable.

RTO : Recovery Time Objective (objectif de temps de reprise)

Le Recovery Time Objective est le délai dans lequel une fonction, un processus ou un service spécifique doit redevenir opérationnel après une panne, pour éviter des conséquences inacceptables sur les activités de l’entreprise.

Nous voulons donc calculer la rapidité avec laquelle votre organisation doit pouvoir se rétablir, et, sur cette base, nous déterminerons les mesures et budgets qui peuvent être prévus pour assurer au maximum la continuité des affaires.

Exemple :

Si le RTO est estimé à 5 heures, et qu'une entreprise ne peut donc survivre à un temps d'interruption supérieur, l’organisation devra investir davantage pour être suffisamment préparée afin de pouvoir rétablir ses systèmes dans ce laps de temps.

Si le RTO est cependant estimé à 2 semaines, cette organisation pourra se permettre de dépenser un moindre budget et d’investir dans des solutions moins avancées.

RPO : Recovery Point Objective (objectif de point de reprise)

Le Recovery Point Objective décrit l’intervalle de temps qui peut s’écouler sans que la quantité de données perdues dépasse le seuil autorisé maximum.

Le RPO est déterminé sur la base du temps qui s’écoule entre 2 sauvegardes et la quantité de données qui pourrait se perdre entre 2 sauvegardes.

Exemple :

Dans nombre d’environnements TIC, une sauvegarde est réalisée chaque nuit. Lorsque la calamité survient cependant à la fin de la journée de travail ou de nuit, avant que la sauvegarde n’ait pu se faire, il y a un risque réel que les données de toute la journée de travail se perdent.

L’organisation est-elle en mesure de récupérer les données ou de les retraiter sans que l’entreprise en pâtisse vraiment ? Si ce n’est pas le cas, le RPO doit être raccourci et il est préférable de procéder à une sauvegarde plusieurs fois par jour. 

RPO RTO schema

Phase 2 : Identification de l’environnement TIC

Il est essentiel de savoir comment les processus d’entreprise fonctionnent et la composition de l’environnement TIC, afin de pouvoir identifier les activités ou services critiques qui tournent sur votre infrastructure informatique et le moment auquel ils peuvent donc être vulnérables.

Dans cette phase, nous allons également évaluer :

  • Ce qui est nécessaire sur le plan technique pour faire tourner les différents systèmes ;
  • Si et dans quelle mesure la panne d’un système affecte les autres systèmes ;
  • Si chaque système a déjà été dédoublé ou sécurisé ;
  • Quels service level agreements et garanties sont actifs pour ce système ;
  • Si chaque système fait l’objet d’une sauvegarde correcte et son lieu d’enregistrement.

Phase 3 : Stratégie de reprise d’activité

Après l’analyse des risques et l’exercice BIA, la définition des RTO et RPO et l’identification de l’environnement TIC, nous voilà fin prêts pour établir des actions et procédures concrètes, auxquelles il pourra être fait appel lorsqu'une catastrophe ou panne survient effectivement.

Rôles et responsabilités

Il convient avant toute chose d’établir qui doit et peut faire quoi en cas de calamité. Il peut pour ce faire être fait appel à un tableau comportant :

  • Les coordonnées des différents membres de la Disaster Recovery Team,
  • Leurs rôle et responsabilités,
  • Leurs limites de dépenses (par ex. si des matériaux doivent être achetés),
  • Les limitations de leur autorité en cas d’incident.

Incident Response

Le plan de reprise d’activité stipule lequel d’entre eux évaluera en premier lieu la gravité de la situation, tentera de maîtriser l’incident et informera les personnes de contact nécessaires.

Plan d'activation

Sur la base de cette première évaluation, il sera alors décidé d’activer ou non le plan de reprise d’activité (ou une partie de celui-ci). Le plan de reprise d’activité décrit de manière détaillée et étape par étape la façon de réagir pour rétablir le plus rapidement et le plus efficacement possible le processus d’entreprise ou l’élément de réseau affecté ou en confier les tâches à un autre système, afin qu’un niveau opérationnel normal puisse être atteint.

Documentation

Un plan de reprise d’activité contient également toutes les informations utiles :

  • Coordonnées des fournisseurs,
  • Procédures de rétablissement connues décrites pour ces fournisseurs,
  • Inventaires des systèmes et applications,
  • Descriptions et schémas de réseau,
  • Contrats et Service Level Agreements,

Phase 4 : Tests et évaluations

Tests

Il est crucial que votre plan de reprise d’activité soit régulièrement testé et adapté, lorsque vous constatez que les procédures définies ne permettent pas d’atteindre les résultats souhaités ou dépassent les RTO et RPO convenus.

Actualisations

Il est essentiel que votre plan de reprise d’activité soit actualisé au moins une fois par an. Un plan de reprise d’activité comportant des informations de contact et de contrat désuètes est inutile et induit la perte d'un temps précieux à des moments cruciaux.

Lors de chaque nouvel investissement, il est intéressant de déterminer l’impact que ce nouveau système aura sur votre plan de reprise d’activité et la mesure dans laquelle le plan devra être adapté.

Comment initier son propre plan de reprise d’activité ?

Même si l’établissement d’un plan de reprise d’activité de qualité ne doit pas nécessiter un travail de titan, il est crucial de procéder de manière réfléchie et systématique, afin qu’aucun élément ne soit oublié et qu’il soit possible d’agir de manière claire et rapide en cas d’incident.

L’expérience longue de plusieurs années de notre expert en plan de reprise d’activité vous aidera à établir rapidement et facilement un plan de reprise d’activité fonctionnel et fiable assorti de feuilles de route claires.

New Call-to-action