The incident started at 16:08. Up to 16:11:20 users might have noticed slow performance. From 16:11:20 to 16:13:29 our platform was unavailable, and back online since.
The problem was caused by a server with failing hardware. The storage system in this server was temporary unavailable because the disk controller decided a reset was needed. He reason for this reset is, and probably will remain, unknown. In the next few days we will be migrating key parts of our software to other servers to avoid future incidents.
We will also investigate and fix the software problem in our application, failure of a single server should not cause a full service interruption.
Het incident begon om 16:08. Tot 16:11:20 hebben gebruikers mogelijk traagheid ervaren. Van 16:11:20 tot 16:13:29 was ons platform onbereikbaar, en sindsdien weer online.
De oorzaak was een server met hardware problemen. Het opslagsysteem van de server was tijdelijk onbereikbaar omdat de server had besloten dat een reset nodig was. De reden voor de reset van het opslag systeem is niet duidelijk, we hebben daar helaas geen informatie over. De komende dagen gaan we essentiƫle onderdelen van ons platform verhuizen naar andere servers om storingen in de toekomst te voorkomen.
Het zou niet zo moeten zijn dan een storing in een enkele server leidt tot een algehele onderbreking, we gaan dat softwareprobleem onderzoeken en oplossen.