109 CONDIVISIONI
video suggerito
video suggerito

Perché Facebook ci ha messo 7 ore a risolvere un blackout gestibile in pochi minuti

I problemi alle app della multinazionale si sono protratti per 7 ore nonostante la causa – come ha affermato la stessa azienda – fosse un errore di configurazione tutto sommato banale. Ecco dunque come un problema di portata limitata è potuto degenerare in un disastro costato miliardi di dollari a Facebook e centinaia di milioni alle economie di tutto il mondo.
A cura di Lorenzo Longhitano
109 CONDIVISIONI
Immagine

Il blackout di Facebook che si è verificato ieri sera ha rappresentato sicuramente un disagio e un danno economico per milioni di utenti del social, di Instagram e di WhatsApp; per i dipendenti dell'azienda però quei momenti sono stati un autentico incubo. I problemi alle app della multinazionale si sono protratti per 7 lunghissime ore nonostante la causa – come ha affermato la stessa azienda – fosse un errore di configurazione tutto sommato banale. Ecco dunque come un problema di portata limitata è potuto degenerare in un disastro costato miliardi di dollari a Facebook e centinaia di milioni alle economie di tutto il mondo.

Perché le app Facebook sono finite offline

Per Facebook la causa del problema avvertito da centinaia di milioni di persone in tutto il mondo è stato un "cambio di configurazione sui router backbone che coordinano il traffico di rete tra i data center" – cambio che per un errore imprevisto ha interrotto la comunicazione tra questi snodi. I server che contengono i dati di Facebook non sono tutti nello stesso luogo; a tenerli in comunicazione c'è una rete interna che ha bisogno di essere configurata attentamente, ma l'ultimo di questi aggiornamenti è andato storto, causando effetti che Facebook descrive come "a cascata" su tutti i servizi del gruppo.

Ad approfondire il discorso ci ha pensato l'azienda statunitense CloudFlare – che si occupa di content delivery network e che per prima è riuscita a descrivere a grandi linee cosa stesse succedendo in seno al social. Secondo CloudFlare i cambi di configurazione citati da Facebook riguardano le tabelle BGP, o broader gateway protocol: si tratta di mappe che definiscono il percorso che i dati devono seguire all'interno della rete di Facebook per arrivare alla destinazione desiderata. L'errore avrebbe portato alla cancellazione delle tabelle, con un effetto paradossale: mentre Facebook e i suoi servizi accessori rimanevano correttamente online, le comunicazioni che giungevano al cospetto dei server del gruppo finivano perse per mancanza di un percorso da seguire.

Perché il blackout è durato tanto

Non è stato dunque solo Facebook a sparire dalla faccia di Internet, ma anche tutti i prodotti e i servizi che fanno affidamento sui server della casa di Menlo Park. Di questo insieme – oltre a Instagram e WhatsApp – fanno parte anche tutti gli strumenti che i dipendenti del gruppo utilizzano per comunicare tra loro, configurare i sistemi informatici in remoto e risolvere eventuali problemi. Una volta propagata la configurazione errata insomma i dipendenti si sono trovati chiusi fuori dalla piattaforma e dai suoi pannelli di controllo; incapaci di coordinarsi e perfino di capire con precisione cosa stesse andando storto.

A The Verge alcuni impiegati hanno ammesso di aver ripreso a comunicare tramite email, e che perfino strumenti esterni come Google Docs e Zoom risultavano bloccati per tutti coloro che dovevano riautenticarsi con l'email di lavoro fornita da Facebook. Mentre gli utenti si rivolgevano a Twitter e Telegram per rimanere in contatto, i dipendenti di Facebook abbandonavano forzatamente gli strumenti interni di Workplace per ripiegare su Discord e FaceTime.

Fisicamente chiusi fuori

I problemi si sono estesi anche al mondo fisico. Al The New York Times una fonte ha raccontato che i dipendenti del gruppo non erano neppure in grado di entrare negli edifici dell'azienda per valutare i danni, perché i loro badge non potevano sbloccare le porte d'ingresso. Un utente di Reddit che ha poi cancellato il suo account ha dato un resoconto generico della situazione, raccontando che il problema dei tesserini non funzionanti ha contribuito a rallentare la soluzione del blackout: "Ci sono impiegati che stanno provando ad accedere ai terminali sui quali occorre intervenire", ha dichiarato l'anonimo testimone su Reddit. "Al momento però, chi ha fisicamente accesso alle strutture non saprebbe come autenticarsi ai sistemi né cosa fare una volta al loro interno".

109 CONDIVISIONI
autopromo immagine
Più che un giornale
Il media che racconta il tempo in cui viviamo con occhi moderni
api url views