AT&T-Telefonnetz (2)


15. Januar 1990:

70 Millionen von 138 Millionen Ferngesprächen innerhalb USA konnten 9 Stunden lang nicht vermittelt werden.

Schaden:

$ 75 Millionen bei AT&T (ohne Folgeschäden)

Mehrere $ 100 Millionen bei den Kunden (Versandhandel, Transportunternehmen, Reisebüros usw.)

Ursache:

Eine Schaltzentrale in New York setzte sich nach einer Fehlfunktion in den RESET-Modus:
  Ausfall-Meldung an alle anderen Zentralen
  Neubesetzung interner Tabellen (Reset)
  OK-Meldung an alle anderen Zentralen
  Weiterleiten neuer Ferngespräche

Alle Zentralen mußten daraufhin ihre Tabellen ändern

Bei 3 Schaltzentralen kamen aber kurz nach der OK-Meldung mehrere neue Gespräche an

Verarbeitung der Meldung und der neuen Gespräche zerstörte Daten, was zum Rechnerausfall führte

Im Schneeball-System wurden 9 Stunden lang alle Zentralen lahmgelegt (zu 50% im RESET-Modus)

Notlösung: keine OK-Meldungen mehr verschicken

Eigentlicher Fehler wurde eine Woche später gefunden:

Der break-Befehl von C wurde falsch eingesetzt

Existierte seit Programm-Optimierung 4 Wochen vorher


Ingolf Giese