Eigen fout Microsoft haalt Windows Azure onderuit

Het cloudplatform Windows Azure heeft in West-Europa enige tijd plat gelegen vanwege een verkeerd geconfigureerd netwerkapparaat, dat het netwerkverkeer verstoorde. Klanten krijgen een tegemoetkoming.

Windows Azure lag er vlak voor het weekeinde ongeveer twee en een half uur uit in delen van West-Europa. Een netwerkstoring maakte een deel van de clouddiensten van Microsoft onbereikbaar. Het ging ditmaal om de Compute Service, de dienst die rauwe rekenkracht biedt. De storing werd veroorzaakt door een verkeerd geconfigureerd netwerkapparaat, schrijft Mike Neil, general manager van Windows Azure bij Microsoft, op zijn blog.

Dat netwerkapparaat was ingesteld met een limiet in het aantal externe verbindingen dat kon worden aangegaan. Was die limiet bereikt, dan creŽerde dat "voorheen niet bekende problemen" in een ander netwerkapparaat in hetzelfde cluster, dat weer complicaties opleverde in het netwerkmanagementsysteem, dat het weer moeilijker maakte het systeem weer terug op poten te krijgen. Dat is uiteindelijk wel gelukt.

Diepgaand onderzoek naar fout
Neil zegt dat Microsoft de zaak tot de bodem uitzoekt om de oorzaak van de fout te ontdekken, niet alleen hoe het apparaat verkeerd kon worden geconfigureerd, maar ook waarom dat zoveel impact kon hebben op het gehele cluster en de dienst. De uitkomsten van dat onderzoek moeten deze week al bekend zijn. Neil zegt die uitkomsten op zijn eigen blog te willen delen met de klanten. Wellicht wordt dan ook bekend of de storing zich in de datacenters in Dublin of Amsterdam voordeed.

Die klanten kunnen een compensatie krijgen als zij hinder hebben ondervonden van de storing. Daarbij kunnen ze een beroep doen op de afgesloten Service Level Agreement (SLA).

Azure heeft eerder last gehad van storingen door toedoen van Microsoftmedewerkers.. In september vorig jaar zorgde een fout van een medewerker in een configuratiebestand ervoor dat het Domain Name System van Azure verstoord raakte.