Definizione, processo, tecniche e strategie di Disaster Recovery

Definizione, processo, tecniche e strategie di Disaster Recovery

Il Disaster Recovery

Il Disaster Recovery (o più brevemente DR) può essere definito come una delle possibili soluzioni per la continuità operativa a seguito di un disastro che può essere contemplata in un piano di Business Continuity. Come tale, la soluzione riguarda la garanzia di continuità del business, anche in presenza di casi estremi, dove il disastro coincide con un evento catastrofico che ha come conseguenze la perdita permanente di dati, applicazioni e infrastrutture che reggono l’attività.
Il Disaster Recovery fornisce le procedure e l’infrastruttura tecnica per mantenere attivi i servizi critici in caso di indisponibilità della infrastruttura IT che li eroga. L’approccio è quindi di tipo reattivo, perchè le attività pianificate e le strutture vengono messe in atto a seguito dell’evento e non hanno natura preventiva ma risolutiva.
Un Disaster Recovery è implementato da un’organizzazione quando l’attività di business, si appoggia su dati, applicazioni e infrastrutture la cui perdita può compromettere l’intero business. Quando questi elementi vengono a mancare, è necessario che esistano strutture alternative su cui far ripartire le attività. L’obiettivo di un DR è quello di garantire la sopravvivenza del business e di pianificare come lo stesso debba permanere. La sopravvivenza del business è normalmente garantita da infrastrutture e applicazioni alternative.
I sistemi di un’organizzazione possono consistere di applicazioni e dati più o meno critici in quanto detentori di un valore economico particolarmente importante. Solitamente la criticità dei sistemi, come visto in precedenza, viene determinata attraverso un’analisi dei rischi, precedente alla definizione della strategia e al Recovery Planning.

Quando accade che un incidente rende indisponibili particolari servizi (si immagini una intera città o regione impossibilitata di effettuare chiamate telefoniche in quanto l’operatore non è disponibile), l’organizzazione richiede non solo il ripristino della attività cessata, ma anche che il tempo, in cui il tutto viene riesumato, sia incluso entro un definito arco. Il tempo è un fattore di estrema importanza, quando si tratta di far ripartire le normali attività. Quando l’azienda è in stato di fermo subisce delle perdite economiche ogni minuto, per cui si capisce bene come sia importante riprendere le attività in un tempo immediato.

Definizione, processo, tecniche e strategie di Disaster Recovery

Tecniche di Disaster Recovery

Una delle fasi fondamentali, riguardanti l’implementazione del Disaster Recovery, è la scelta della strategia di recovery da utilizzare, la quale come già detto è molto vincolata dal risultato della Business Impact Analysis o BIA. Per esempio il tempo di recovery, individuato durante l’analisi degli impatti, costituisce una delle driving force nella determinazione del tipo di ripristino tecnico che si deve utilizzare.
La scelta della strategia da utilizzare è l’output di un vero e proprio processo decisionale. Nel prossimo paragrafo spiegheremo appunto questo processo attraverso cui si sviluppano le strategie.

Il processo di sviluppo di una strategia di recovery

La determinazione delle strategie di recovery coinvolge l’inclusione di una serie di azioni predefinite, implementate per rispondere in modo adeguato all’interruzione imprevista e inaccettabile delle attività di business. Quello che si vuole fare, in tale sede, è stabilire prima di tutto un timeframe (un arco di tempo) che possa essere adeguato al ripristino delle operazioni critiche di business. Le riflessioni sul tempo di indisponibilità di servizio, nonché di ripristino, devono anche congiungersi con quelle relative ai requisiti sulle risorse (personale, sistemi, strumenti hardware, supporto nella comunicazione ecc.) e all’identificazione di tutte le alternative disponibili.

Lo sviluppo di una strategia, come si può ben capire, è sempre relativo ad una serie di riflessioni pre-decisionali sviluppate lungo una serie di passi. Riportiamo in basso le azioni mediante cui si portano avanti questi passi. Infatti è necessario:

  1. Documentare di tutti i costi e delle strategie;
  2. Valutare i costi per ogni servizio esterno. Anche l’RFP (Request for Proposal, ovvero una richiesta di offerta ai venditori di un servizio o un prodotto), nei confronti dei vendors esterni, rientra in questa attività, che comprende gli obiettivi di recovery, i costi, gli approcci tecnici per gli obiettivi, i termini di pagamento e la data ultima di risposta;
  3. Sviluppare accordi scritti, come responsabilità, necessità di recovery, costi, opzioni di testing;
  4. Valutare le strategie di riduzione del rischio e di reintegrazione del sistema, nel caso di una totale perdita della facility;
  5. Identificare le misure di riduzione del rischio e la revisione delle priorità di ripristino;
  6. Documentare le strategie di recovery e la loro presentazione al management per ottenere commenti e approvazioni.

Le strategie di Recovery

In questo paragrafo vogliamo fornire una visione di quelle che sono le possibili strategie da applicare ai casi specifici. Ognuna delle tecniche utilizzate non è mutuamente esclusiva, tanto più è possibile l’uso congiunto di più strategie insieme. È necessario anche specificare che si tratta di strategie di ripristino, quindi di modalità attraverso cui deve essere riportato in vita il sistema, a seguito del disastro. Solitamente, la perdita permanente di dati viene prevenuta con backup preventivi, in grado di agevolare l’organizzazione nel processo di riesumazione delle attività, dopo il verificarsi di un disastro.
Tratteremo dunque le tecniche riguardanti i problemi indicati in basso:

  • Business recovery;
  • Facility and supply recovery;
  • User recovery;
  • Technical recovery;
  • Data recovery.

Le diverse strategie si focalizzano sui differenti elementi che possono necessitare di essere ripristinati. Ciò sta a sottolineare il fatto che non sono solo le strutture informatiche e i dati a dover essere recuperati, ma anche una serie di elementi, quali il luogo di lavoro e le stesse attività operanti, che devono essere ridisposte per la normale esecuzione delle attività.

Strategie di Business Recovery

Questo tipo di strategia mira a proteggere le funzioni di business e a salvaguardarle in caso di disastro. Il focus è posto sulle risorse critiche, per le singole funzioni di business, e sull’MTD (maximum tolerable downtime) ovvero il tempo massimo in cui l’attività di business può restare in stato di fermo, calcolato in fase di BIA. Essenziale anche la stima delle criticità delle funzioni soggette al rischio e di quanto tempo esse possono essere non-disponibili, senza creare un danno eccessivamente gravoso per l’organizzazione. Le strategie di business recovery hanno lo scopo di capire e determinare quali sono gli elementi in grado di riportare in vita le attività di business, dopo che queste sono state accidentalmente interrotte.
L’output, risultante dalla definizione di una strategia di questo tipo, coincide con l’elencazione delle linee guida, in grado di guidare operativamente il personale nella ripresa delle normali attività. Quanto determinato dallo sviluppo della strategia è riassumibile nei prossimi punti. Di fatto essa è in grado di definire:

  • le unità di business critiche e le funzioni associate;
  • le componenti necessarie per i sistemi IT critici, calcolate per ogni funzione (hardware, software, elementi necessari per le funzioni di telecomunicazione);
  • le procedure di connettività per le infrastrutture IT(LAN,WAN);
  • l’attrezzatura critica e le esigenze di supporto ad ogni funzione di business ( quindi il numero di workstation necessarie, i server, le linee telefoniche ecc. );
  • gli spazi d’ufficio essenziali per ogni unità di business, per ognuna delle quali si considera, di norma, il minimo spazio necessario e il minimo numero di impiegati che possono essere locati fisicamente in tale spazio;
  • il personale adatto per ogni unità di business. Per uno specifico arco di tempo, ad ogni funzione, viene assegnato un valido numero di risorse;
  • il reindirizzamento del servizio mail, delle chiamate vocali e delle reti di dati sul sito di recovery;
  • l’interdipendenza fra funzioni di business;
  • lo storage off-site;
  • i vendors di servizi.

Strategie di Facility and Supply Recovery

Le strategie di facility e supply recovery hanno lo scopo di definire il miglior piano d’azione per ripristinare le facility di esercizio. Per facility si intende un edificio che offre un determinato servizio o che viene utilizzato per un determinato settore dell’azienda.
Questo tipo di strategia include la determinazione delle procedure di recovery, per attivare l’uso di siti alternativi, calcolando di questi lo spazio, gli elementi che servono a garantirne la sicurezza, la protezione antincendio, le infrastrutture tecniche e altro.

Una volta definiti tutti gli elementi necessari, si passa alla predisposizione fisica del sito alternativo, disponendo tutti gli elementi necessari al suo avvio, qualora un incidente induca l’organizzazione a trasferire su di esso le normali attività. Per quanto riguarda il ripristino della facility primaria, invece, per essa si predispone semplicemente un piano d’azione, da eseguire solo dopo l’evento avverso si dota l’organizzazione di elementi utili alla ricostruzione del sito. Gli elementi sono chiaramente definiti in precedenza, come indicato dall’elenco puntato, e scritti sul piano di recovery.

Strategie di User Recovery

Sono strategie che mirano a suggerire al personale quali azioni perseguire in caso di guasto. Proprio per questo motivo si pone insistentemente il focus sui manuali delle procedure, sulle informazioni “vitali”, contenute nelle basi di dati, e anche sulle misure di ripristino. Infatti, proprio l’esistenza di un manuale rappresenta un modo per identificare quali processi avviare durante il periodo di guasto. Inoltre suggerisce al personale, quali sono gli elementi che detengono una certa criticità e su cui quindi va mantenuta una certa attenzione.
Un elemento critico, nella definizione di una strategia di tipo user recovery, è stabilire i metodi che mantengono i record della base di dati, in maniera tale che l’informazione possa essere facilmente ed efficacemente aggiornata nel formato elettronico, quando il servizio viene ripristinato.
Gli item da considerare includono riflessioni circa il possibile compimento manuale di alcuni processi e la probabile perdita di dati o transazioni. Si considera dunque come potrebbe essere tracciato il tutto su record o carta. Inoltre è necessario capire quali sono le modalità per conservare e reperire, se distrutti accidentalmente, i record vitali.
Altre analisi, effettuate per il disegno della strategia, si basano su bisogni specifici per gli impiegati, come trasporti o ogni tipo di necessità logistica (come ad esempio la necessità che l’amministratore del database stia fisicamente vicino al server che lo contiene), e le procedure di notificazione.

Strategie di Technical Recovery

Sono strategie che definiscono tecniche alternative per il recupero di componenti critiche, siano esse data center o elementi dell’infrastruttura di rete. Il recovery tecnico è sempre rafforzato da un processo antecedente di pianificazione delle attività e delle risorse da predisporre, a tutela di componenti fortemente critiche, come quelle citate. Generalmente vengono redatti piani per Data Center, Rete e Telecomunicazioni

  1. Data center recovery: si tratta per lo più di un piano che fornisce le linee guida per rispondere ad un disastro gravante sul sito primario, ovvero quello su cui si esercitano tutte le attività di routine dell’azienda. Questo documento mira a predisporre una serie di attività per il riavvio repentino del sito. Nel piano si riportano inoltre le responsabilità, la check-list, ovvero l’elenco che indica una serie di azioni da eseguire, e ogni elemento infrastrutturale o applicativo su cui si pone una esigenza di ripristino. Anche per la redazione di questo piano viene preventivamente effettuata un’analisi dei rischi, cercando di capire la probabilità e la frequenza con cui le minacce individuate si possono manifestare. Oltre all’analisi dei probabili incidenti che possono manifestarsi sulla facility, viene anche condotta una valutazione dell’entità del probabile danno. Il processo sfocia infine nello sviluppo di un BCP Plan, quando il tempo stimato, per il ripristino delle attività, eccede il massimo tollerabile.
  2. Network and communications Recovery planning: è una pianificazione delle attività inerenti il recupero dei sistemi di rete. È un compito che, di norma, è suddiviso fra le singole funzioni aziendali, oppure viene direttamente svolto in siti alternativi. Come prima cosa, si determina quali sono le necessità da soddisfare per supportare la rete e si provvede al rifornimento dell’ hardware (computer, periferiche ecc.). Per quanto riguarda invece il sistema delle comunicazioni, può essere necessario fornire una lista dell’hardware utile e una lista di ciò che si ritiene necessario per la connessioni dei device (le periferiche) utili al disaster recovery. Altro focus importante viene posto sui tipi di link esistenti fra i siti locali dell’organizzazione, dunque reti telefoniche e di servizi.
  3. Telecommunications recovery: anche qui si tratta di un tipo di pianificazione atta a predisporre quanto è necessario per rispristinare in tempi brevi le comunicazioni, dopo un’interruzione imprevista. In questo contesto tipiche check-list da compilare devono includere informazioni sui sistemi telefonici usati, sulle componenti LAN e sui sistemi di sicurezza fisica.

Strategie di Data Recovery

Sono strategie utilizzate per decidere quale forma di back-up dei dati e del software critico, devono essere adottati all’interno del Disaster Recovery Plan. Durante il processo decisionale, che porta alla definizione della strategia da adottare, devono essere fatte considerazioni approfondite sulle locazioni degli off-site, in modo che il processo di recupero dei dati, nella fase di restoration, conseguente ad un evento disastroso, risulti particolarmente veloce.
Di solito nel backup sono inclusi il software del sistema operativo e le utilità, le applicazioni, i dati di produzione e il database, con i log delle transazioni associati.

La selezione delle tecnologie per il Disaster Recovery

La selezione delle tecnologie da utilizzare per garantire la continuità, o il ripristino, di un’attività, varia solitamente a seconda dell’ambiente in cui si vuole implementare il Disaster Recovery. Lo scopo, in ambiente software, è sempre quello di minimizzare la perdita dei dati. In questo paragrafo vogliamo infatti porre il focus sull’ambito dei sistemi software e su quanto si può fare per salvaguardarli da un probabile disastro.
Chiaramente, l’analisi delle tecnologie esistenti per il DR dei sistemi software, è sempre posteriore a tutta una serie di attività inerenti la Business Impact Analysis e il Risk Management.

Pubblicato da Vito Lavecchia

Lavecchia Vito Ingegnere Informatico (Politecnico di Bari) Email: lavecc[email protected] Sito Web: https://vitolavecchia.altervista.org

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *