Alta Disponibilità: un investimento o una necessità?


Le tecnologie rivolte alla continuità del business “mission critical” diventano indispensabili. Come calcolare l’investimento dimostrando perché è necessario.

L’obiettivo di quest’articolo è di dimostrare in forma analitica  il ritorno d’investimento prodotto dall’adozione di tecnologia di alta disponibilità. I metodi di analisi riportati permetteranno di verificare che l’adozione di soluzioni tecnologiche rivolte alla continuità producono un tangibile risparmio economico, evitano perdite significative e che sono applicabili efficacemente anche in piani di disaster recovery. Tali soluzioni inizialmente nate per garantire livelli di servizio soprattutto in ambienti mainframe, sono ora estendibili anche al di fuori dei perimetri fisici del proprio sito coprendo scenari di rischio più ampi. Sebbene l’alta disponibilità applicata al disaster recovery prevede variabili di costo aggiuntive (come per es. i data center esterni, gli storage replicati e le linee di comunicazione), è possibile applicare la stessa metodologia considerando una totale indisponibilità del datacenter e di tutte le infrastrutture associate.

Tuttavia nell’ambito del tema più vasto che riguarda l’alta disponibilità, c’è da ricordare che la soluzione tecnica non è la sola parte importante; come al solito è importante riconoscere prima di tutto il valore organizzativo e gestionale attraverso l’applicazione delle migliori pratiche di gestione e tramite adozione di politiche di sicurezza ben definite come ad esempio lo standard BS7799.

 

L’alta disponibilità tradotta in numeri

L’obiettivo dell’alta disponibilità è senza dubbio quello di garantire un livello più elevato di continuità in caso di “downtime” pianificati o imprevisti sui sistemi. Il valore corrispondente “all’altezza” della soluzione da adottare è però in genere oggetto di discussione. Un fatto condivisibile è che l’”altezza” richiesta, e quindi l’investimento associato, deve essere proporzionale alla criticità del servizio e quindi proporzionale ai costi diretti ed indiretti che un interruzione di servizio produce all’azienda. In tal senso un’analisi di rischio e d’impatto (Business Impact Analysis) può aiutare a chiarire meglio le idee. Nel corso degli anni si è passati rapidamente da uno stato di euforia tecnologica a una sempre più crescente attenzione verso gli investimenti; per investire in tecnologia è necessario dimostrare un Return Of Investment finanziario ed è dunque importante dimostrare in forma analitica il ROI nell’adozione di tecnologie nel campo della protezione e sicurezza. Sfortunatamente le soluzioni di alta disponibilità, così come i “downtime” di servizio, prevedono comunque dei costi significativi (es. nuovo hardware, nuove licenze software, costi di start-up iniziali, formazione del personale maintenance delle licenze). Diventa necessario capire fino a che punto si può e si deve investire.

 

Il calcolo della disponibilità e il mito dei 99.999

Dal punto di vista matematico la disponibilità può essere tradotta nella formula riportata nella tabella. 

1 - fattore di disponibilità

2 - Il ritorno di investimento

3 - effetto totale senza alta disponibilità

4 - effetto totale con alta disponibilità
5 - rischio senza alta disponabilità
6 - rischio con allta disponibilità
7 - risparmio ottenuto con l’alta affidabilità

Tabella1


In sintesi l’aumento del livello di disponibilità può essere ottenuto in due modi: o attraverso l’incremento del MTBF (tempo medio di failure della componente nel tempo) o attraverso la riduzione del tempo di riparazione della componente guasta (MTTR).Siccome le medie hanno un valore relativo in quanto statistico, è difficile prevedere il momento e la frequenza esatta del failure per tutte le componenti del sistema. Si può tuttavia agire aumentando l’MTTR ottenendo un immediato incremento del fattore di disponibilità per la componente di sistema che si vuole considerare.
Per esempio, nel caso dell’adozione di un mirror sui dischi, si possono ridurre i tempi di downtime causati dalla rottura di un disco da ore a zero. Implementando una soluzione di failover attraverso l’uso di un cluster è possibile ridurre i tempi di downtime di un intero sistema da giorni a pochi minuti.
Se per esempio il costo di downtime di un sistema è di 100€ al minuto (l’esempio si riferisce a un valore più basso alle medie reali) considerando il periodo di una settimana e riducendo la durata del downtime da 4 ore (240 minuti) a 10 minuti, si ottiene un risparmio per l’azienda di  23.000€ .

Applicando la formula matematica il fattore di disponibilità passerebbe immediatamente da 97,6% a 99,8%. Se poi si considera che una frequenza media di un particolare downtime è di una volta al mese, l’implementazione delle misure protettive applicate genererà all’azienda un risparmio di 276.000€ all’anno (pari a 23.000 x12 mesi).

Fino a qui sembra abbastanza chiaro, ma quanto è il costo ragionevole da prevedere in investimenti in alta disponibilità ?

Sono giustificati 20.000€, 100.000€ o 200.000€ ? 

 

Il ROI di una soluzione di alta disponibilità.

Sempre con l’ausilio della matematica, il ritorno d’investimento è quantificabile nella formula descritta nella seconda riga dalla tabella. Come si può notare il ROI equivale al prodotto tra la differenza tra i rischi esistenti prima e dopo l’implementazione dell’alta affidabilità ed i costi da sostenere per implementare e gestire la soluzione stessa nel tempo. Bisogna quindi tradurre questi dati in forma economica.

 

Il calcolo del rischio

Di fatto si può parlare di rischi di downtime che possono essere causati da diversi scenari di failure sia fisici che logici, ognuno dei quali ha pesi diversi. Nella realtà all’interno degli scenari di downtime, oltre ai failure non pianificati, sono da considerare anche i downtime prodotti da aggiornamenti ciclici dei sistemi sia hardware che software (aggiornamento di patch di sicurezza, service pack, partizionamenti di volume, upgrade di memoria, aggiornamenti del bios etc).
Nell’ambito di ciascun sistema esistono quindi rischi differenziati legati a diversi scenari di downtime, per ciascuno di questi è necessario calcolare l’effetto prodotto sia prima che dopo l’implementazione della soluzione di alta affidabilità.

Per ogni scenario (con e senza alta disponibilità), i risultati degli effetti prodotti da ogni singolo evento d’outage devono essere sommati tra loro per ottenere il valore di effetto totale.
Dal punto di vista matematico l’effetto prodotto non è altro che la moltiplicazione di tre variabili:

1-Probabilità che l’evento si manifesti (P) , 2-Durata dell’effetto prodotto (D) , 3-Percentuale degli utenti che subiscono l’outage (I).

Per il fattore di probabilità bisogna prevedere la frequenza media con cui l’evento può manifestarsi per l’intera durata di vita del proprio sistema. Non esiste nessun metodo per calcolarlo nel futuro. Tuttavia questo dato può essere ottenuto sulla base dell’analisi storica dei downtime (ecco dunque l’importanza di avere policy per l’auditing dei disservizi).

Per ciò che riguarda la “durata” è necessario considerare il tempo medio di interruzione prodotto dall’outage. In questa valutazione bisogna prevedere non solamente il tempo di disservizio ma anche i tempi necessari al ripristino dei dati e al ripristino delle attività da parte degli utenti. L’unità di misura risulta essere il tempo. Nella valutazione occorre essere molto conservativi e basarsi sulle esperienze vissute.

Per area di impatto si considera invece la percentuale di utenti coinvolta nel disservizio.
Per esempio un downtime pianificato può impattare solo il 15% della totalità degli utenti mentre un downtime non pianificato può raggiungere facilmente il 100% se si manifesta durante gli orari di picco.
Nella Tabella 1: sono dunque riportati le formule per il calcolo degli effetti prodotti da ogni singolo scenario d’outage (variabile x), sia prima (Ep) che dopo (Ed) l’implementazione della soluzione di alta disponibilità.

A questo punto per calcolare il rischio economico per ciascuna delle due situazioni (senza e con l’implementazione della soluzione) è necessario moltiplicare l’effetto ottenuto per il costo di downtime al minuto (variabile Cd).

Nel calcolo di rischio che considera lo scenario di alta disponibilità, sarà inoltre necessario sommare al prodotto anche i costi di implementazione della soluzione adottata  (supporto, software, hardware etc).Rd-Rp equivale al risparmio (Saving) ottenuto. Applicando la formula del ROI=S/Ci si ottiene il ritorno di investimento.

Dalla teoria alla pratica

Analizziamo una case study di una società che opera nel campo della grande distribuzione e che utilizza un applicazione CRM su un proprio server. La società ha considerato di adottare una soluzione di alta disponibilità acquistando un secondo server e un prodotto software per  cluster. La società si aspetta che la vita del proprio sistema sia di 5 anni, e che il proprio costo medio di downtime del servizio sia di circa 70€ al minuto.

Per implementare la soluzione di alta disponibilità ha dovuto acquistare un secondo server, installare un software di cluster su entrambi i nodi, implementare una rete di back end per la gestione del cluster, configurare le opzioni del cluster per rendere automatico lo switch over, sottoscrivere un contratto di manutenzione per il software, prevedere dei corsi di formazione al proprio personale.

Calcolando il totale dei singoli costi d’investimento e manutenzione nell’arco di 5 anni della vita del proprio sistema, il totale dei costi da sostenere ammonta a circa di 100.000€ da ammortizzare nel periodo di vita stimato (5 anni) del proprio sistema.


Senza alta disponibilità

Con alta disponibilità

Tipo di disservizio

Durata

(D)

Probabilità

(P)

Impatto

(I)

Effetto

(D x P x I)

Durata

(D)

Probabilità

(P)

Impatto

(I)

Effetto

(D x P x I)

Crash di sistema e riavvio (all'interno degli orari di produzione)

30 minuti

10

100 %

EP1 = 300 min

3 minuti

10

100 %

ED1 = 30 min

Crash di sistema e riavvio (al di fuori degli orari di produzione)

60 minuti

10

50 %

EP2 = 300 min

3 minuti

10

75 %

ED2 = 22,5 min

Riavvio pianificato

15 minuti

60

50 %

EP3 = 450 min

3 minuti

60

50 %

ED3 = 90 min

Rottura della MotherBoard o di altre componenti importanti

1080 minuti

2

100 %

EP4 = 2160 min

3 minuti

2

100 %

ED4 = 6 min

Rottura di una componente di rete

180 minuti

2

100 %

EP5 = 360 min

1 minuti

2

100 %

ED5 = 2 min

Crash applicativo

60 minuti

20

100 %

EP6 = 1200 min

2 minuti

20

100 %

ED6 = 40 min

Manutenzione programmata

240 minuti

20

50 %

EP7 = 2400 min

3 minuti

20

50 %

ED7 = 30 min

Test delle funzionalità di failover

0 minuti

0

0 %

EP8 = 0 min

3 minuti

20

0 %

ED8 = 0

Effetto totale del disservizio

7170 minuti

220,5 minuti


Tabella 2

 

La tabella “2” riporta l’applicazione delle formule precedenti riferite al calcolo dell’effetto per i diversi scenari di outage considerati sia prima che dopo l’implementazione della soluzione di alta disponibilità. Applicando i dati prodotti alle formule descritte in precedenza:


 

 

 

 

 

 

 

 

 

In sintesi si ottiene in 5 anni un risparmio (Saving) di 386.465€ corrispondente a un ritorno di investimento del 386%. L’investimento di 100.000€ sostenuto si ripaga nel giro di 1 anno e 3 mesi circa. Sebbene nello scenario analizzato in tabella siano state fatte numerose assunzioni, attraverso questo modello di calcolo si può efficacemente dimostrare ai propri Decision Maker il vero valore ed il reale ritorno di investimento derivato dall’introduzione di tecnologie di alta disponibilità.