Incident report – Venerdì 5 Marzo 2021
Gentili utenti,
in seguito al disservizio che si è verificato Venerdì 5 Marzo 2021, riteniamo doveroso informarvi circa l’accaduto attraverso questo report tecnico.
Nel corso degli anni ci siamo sempre contraddistinti per aver offerto un servizio solido, basato soprattutto sul principio della continuità operativa, il quale ha permesso alla società di ottenere il primato mondiale come piattaforma di trading di bitcoin e criptovalute più longeva al mondo: ben 11 anni di operatività consolidata ad oggi.
Abbiamo sempre manifestato la facoltà aziendale di affrontare le turbolenze reagendo positivamente e superando, con consapevolezza, i momenti critici. Competenza che ha contribuito a sviluppare la capacità di imparare dall’esperienza, comprendendo gli errori e cercando di farne un bagaglio utile al miglioramento della nostra azienda.
Purtroppo Venerdì 5 Marzo abbiamo riscontrato, per la prima volta nella nostra storia, un problema tecnico che ha provocato un downtime importante, il quale inevitabilmente ha reso irraggiungibili i nostri servizi. Ci teniamo ad enfatizzare e sottolineare che non abbiamo subito perdite di fondi, né di dati in quanto non è stato un attacco informatico bensì esclusivamente un problema di natura tecnica; inoltre, l’operatività dell’exchange (ordini, trading e fondi) non ha subito alcun intoppo poiché, alla fine dell’emergenza, è ripartito tutto regolarmente dallo stato precedente al disservizio.
La nostra esperienza, gli errori, i traguardi raggiunti, il know-how acquisito, hanno portato la società, tenendo conto anche di quest’ultima esperienza mai accaduta prima, a migliorare ulteriormente i propri sistemi e rafforzare notevolmente la capacità di far fronte alle situazioni di emergenza, confermando ancora una volta l’ottima resilienza organizzativa del nostro Gruppo.
Incident report
Incident Description
Irraggiungibilità del cluster primario presso il provider di riferimento con la conseguente non erogazione dei servizi in essere nello stesso.
Incident Duration
La mattina di Venerdì 5 e il primo pomeriggio per le necessarie verifiche al fine di ripristinare l’operatività regolare.
Incident Cause
Problema generato dal Provider presso il quale deteniamo i sistemi coinvolti. Attendiamo incident report ufficiale da parte del fornitore con cui siamo in costante contatto.
Event Description
- 1.37 AM (CEST) – I sistemi di monitoring di 3 differenti servizi segnalano un global DOWN della nostra piattaforma, API & WEB
- 1.50 AM – 6:55 AM (CEST) – Il personale IT in reperibilità, realizzata l’irraggiungibilità dei servizi, ignari dell’errore del provider, provvede immediatamente a comprendere le cause del malfunzionamento effettuando inizialmente le verifiche di routine al fine di escludere la possibilità di un attacco informatico; a termine verifiche e analisi, iniziano un’accurata diagnosi della causa per comprendere il tipo di problema: software oppure hardware.
Il personale IT in reperibilità esegue un escalation interna presumendo che il problema potesse essere lato software e quindi non di competenza del provider.
In seguito alle verifiche, il personale IT comprende che il problema è di natura probabilmente hardware e purtroppo non risolvibile in modo autonomo. Dopo una prolungata attesa, il nostro personale IT riceve un primo riscontro dal provider alle 6.55 AM. - 6.55 AM (CEST): Il provider segnala che, in seguito a una verifica da parte dei tecnici di data center, non vengono riscontrate anomalie e che sarebbe stato necessario effettuare ulteriori verifiche da parte del loro team networking ipotizzando che il problema potesse essere a questo livello di rete.
- 8.30 AM (CEST): Il provider, in seguito alle verifiche in loco tra i vari reparti, ci informa che c’è stato un errore interno che ha portato al decommissionamento: la rimozione dei nostri sistemi e il deposito in uno dei propri warehouse, a causa di un non ben definito problema, probabilmente procedurale (siamo in attesa di un report completo dell’indagine interna del provider che ci sarà consegnato in non meno di 7 giorni lavorativi).
Poco dopo riceviamo una comunicazione del Provider che ci informa di aver preso in carico, con criterio di estrema urgenza, il ripristino fisico dei server, fornendoci come tempistica per il ripristino al massimo 1 ora.
Parallelamente avevamo già iniziato le procedure per effettuare, solo in caso di completa irrecuperabilità dei sistemi, l’attivazione del Disaster Recovery.
- 09.30 – 13.30 (CEST): Il provider recupera e verifica lo stato hardware dei sistemi e si attiva con massima priorità per reinserire nel rack tutti i sistemi coinvolti ed eseguire le complicate attività di cablaggio e verifica a basso livello.
Tenuto conto della situazione e alla luce delle comunicazioni ricevute dal provider, le quali ci inducevano a credere che il ripristino si sarebbe finalizzato nell’arco di un’ora, abbiamo valutato di attendere l’attivazione del DR site.
La complessa attività di ripristino, a causa anche di alcuni imprevisti del fornitore del servizio, ha richiesto al Provider più tempo del necessario; permettendoci così l’accesso totale ai sistemi solo alle 13.30.
- 13.30 – 15.00 (CEST): Il nostro team IT, a questo punto, ha iniziato immediatamente le estese procedure di controllo e verifica dell’integrità di fondi, dati e database, trovando alcuni sottosistemi non vitali che presentavano criticità ma che comunque hanno richiesto una verifica accurata, per non incorrere in eventuali problematiche al momento della riattivazione della piattaforma.
A questo punto abbiamo deciso di attivare la piattaforma originale e interrompere definitivamente il DR. - 15.45 (CEST): Il team IT riattiva le API in prima istanza e pochi minuti dopo, la piattaforma e relativi servizi.
Nonostante la natura eccezionale e imprevedibile dell’evento, è uno scenario che, per quanto improbabile, era già stato preso in considerazione. Proprio per questo avevamo già contrattualizzato, precedentemente all’incidente, una soluzione che, oltre a potenziare l’infrastruttura tecnologica, potesse anche migliorare ulteriormente l’attuale canale prioritario, per ridurre il più possibile i tempi di intervento e risposta. Tuttavia, purtroppo, la sfortunata circostanza si è verificata prima della data che attiverà, come da contratto, l’efficacia dell’accordo e delle nuove condizioni.
Per più informazioni, rimaniamo a disposizione al seguente indirizzo email: support@therocktrading.com