A cosa servono i blackout programmati nei data center?

I blackout programmati rappresentano una necessità significativa per i data center. È noto che per tutte le aziende i piani di disaster recovery rivestono un ruolo fondamentale, ed è questa una delle ragioni principali per cui le modalità di approccio ai failure, cioè ai fallimenti di sistema, negli ultimi anni abbiano conosciuto una rapida evoluzione.

Sul tema è intervenuto anche Jay Parikh, che si occupa della divisione infrastruttura e ingegneria di Facebook. Come è facile immaginare, il social network più diffuso e utilizzato del mondo non può fare a meno di essere pronto a far fronte a possibili situazioni di emergenza, e il ricorso ai blackout programmati fornisce un valido aiuto da questo punto di vista.

Si tratta, come si può intuire dal loro nome, di blackout che sono volontariamente indotti allo scopo di verificare la prontezza dello staff tecnico: esercitazioni vere e proprie, il cui valore è decisamente elevato.

In casa Facebook la necessità di prevedere e prepararsi a situazioni al limite si è palesata nel 2012, in corrispondenza dei danni provocato dall’uragano Sandy, un evento meteorologico che ha messo in ginocchio gli Stati Uniti causando danni anche gravi a numerosi data center americani, molti dei quali hanno dato origine a disservizi prolungati andando offline.

In quel caso l’infrastruttura del social di Menlo Park non ha subìto danni evidenti, anche i data center più importanti sono collocati a una distanza consistente rispetto alle zone in cui l’uragano ha causato i danni più ingenti. Quella è stata l’occasione per riflettere su quel che sarebbe potuto succedere nel caso in cui uno o più dei data center in questione fossero stati chiamati in causa.

Ecco perché si è deciso di formare, da quel momento, il cosiddetto Project Storm, un team di ingegneri che, con regolarità, viene coinvolto in esercitazioni su larga scala che, per altro, chiamano in causa molti altri membri della compagnia e, in particolare, dello staff tecnico.

Non si deve pensare, per altro, che organizzare e gestire i blackout programmati sia un gioco da ragazzi. Anche solo un data center da mandare offline presuppone un lavoro molto complicato, dal momento che tutte le infrastrutture processano ogni secondo decine di terabyte di traffico, eseguendo migliaia di servizi software e consumando megawatt e megawatt di energia elettrica.

Anche per questo motivo, lo stesso Parikh ha evidenziato che nelle prime esercitazioni non tutto è andato bene, anche se gli utenti di Facebook non hanno avuto modo di rendersene conto.

Con il passare del tempo il team ha saputo far tesoro degli insegnamenti appresi e ha potuto rafforzare e incrementare la propria esperienza relativa ai disservizi.

I fattori che permettono di assicurare resilienza e scalabilità delle infrastrutture, in occasione dei blackout programmati e quindi in occasione dei blackout non programmati, sono la capacità di far fronte a situazioni al limite, l’impiego di strumenti adeguati e la dedizione: questo, almeno, è quel che pensa Parikh.

Un aspetto che non può essere trascurato, poi, è quello del tempo. C’è bisogno di tempo, per esempio, per riportare online un data center, ed è questo uno dei motivi per cui molte compagnie optano per soluzioni alternative, come per esempio il mandare offline il data center in questione.

D’altra parte vale lo stesso ragionamento in molti altri ambiti: smontare una libreria è più semplice e più veloce che rimontarla, per dire. C’è bisogno di esperienza e di competenza, quindi, per gestire i blackout programmati dei data center nel miglior modo possibile.

Condividi