Google Cloud aufgrund menschlichen Versagens herabgesetzt

Aufgrund eines Engineeringfehlers am vergangenen Montag haben Teile der Google Cloud die Kundenkonnektivität am vergangenen Montag für etwa 70 Minuten verloren, nachdem Google-Netzwerk-Ingenieure einen neuen Peering-Link manuell verbunden und dabei das System automatischer Prüfungen umgangen haben, die solche Links überprüfen, wenn entsprechende Verfahren eingehalten werden.

Der Fehler machte die Google Compute Engine der Region Europa-West1 aus einer Reihe von Destinationen, vor allem in Osteuropa und dem Nahen Osten, nicht erreichbar. Das Problem strikt mit dem Netzwerk, nicht auf Compute Engine-Instanzen in der gleichen Region an anderen Orten. Der Verkehr innerhalb des Google-Werbenetzwerks wurde ebenfalls nicht beeinträchtigt.

Das Problem wurde durch die Hinzufügung einer neuen Verbindung zu einem globalen Peer verursacht, mit dem Google bereits verbunden war. Die Ingenieure brachten den Link manuell, nicht zu realisieren, dass der Link würde weit mehr Kapazität anbieten als tatsächlich verfügbar war. Netzwerk-Systeme automatisch geroutet Verkehr auf die neue, scheinbar hohe Kapazität Link, und vier Minuten nach der Erstellung der Verbindung wurde es gesättigt und begann zu fallenlassen die Mehrheit der Netzwerk-Verkehr durch den Link geroutet.

Der Prozess wurde manuell durchgeführt, weil die Automatisierung, die normalerweise die Verbindung und die damit verbundenen Sicherheitskontrollen behandelt hätten, nach Google, aufgrund eines nicht verwandten Fehlers. Es wird erwartet, dass diese Automatisierung das Netzwerk vor Problemen schützt, wie etwa einer Stunde. Wegen des Automatisierungsproblems wurde das Problem für 61 Minuten nicht entdeckt, weil die Nachaktivierungsprüfungen, die normalerweise während dieser Stunde durchgeführt wurden, nicht verfügbar waren und das Problem entdeckt wurde, als die normale Systemüberwachung übernommen wurde.

Um dieses spezielle Problem von wiederkehrenden Google zu verhindern, ändert sich die Operationsrichtlinie und nicht mehr zulassen, dass diese Verbindungen manuell aufgerufen werden. In Zukunft muss das Automatisierungssystem voll funktionsfähig sein, bevor zusätzliche Links hinzugefügt werden.

Cloud Computing wächst, eine API zu einer Zeit

Süße SUSE! HPE snags sich eine Linux-Distribution

Twilio rollt neuen Unternehmensplan aus, der mehr Agilität verspricht

Intel, Ericsson erweitern Partnerschaft mit Fokus auf Medienindustrie

Cloud, Cloud Computing wächst, eine API zu einer Zeit, Enterprise-Software, Sweet SUSE! HPE schneidet sich eine Linux-Distribution, Cloud, Twilio rollt neuen Unternehmensplan aus, der mehr Agilität verspricht, Cloud, Intel, Ericsson erweitern Partnerschaft, um sich auf die Medienindustrie zu konzentrieren