Montag-Morgen-Chaos: "eth0: Detected Hardware Unit Hang"

Montag Morgen – noch ohne die erste Tasse Kaffee zeigten sich schon erste Probleme. Nach den gestrigen Problemen kein schöner Start in die neue Woche.

Irgendwann doch ein Blick in die richtigen Logfiles:

Feb  4 06:41:28 terra kernel: [4393193.820426] e1000e 0000:12:00.0: eth0: Detected Hardware Unit Hang:
Feb  4 06:41:28 terra kernel: [4393193.820428]   TDH
Feb  4 06:41:28 terra kernel: [4393193.820429]   TDT
Feb  4 06:41:28 terra kernel: [4393193.820430]   next_to_use
Feb  4 06:41:28 terra kernel: [4393193.820430]   next_to_clean
Feb  4 06:41:28 terra kernel: [4393193.820431] buffer_info[next_to_clean]:
Feb  4 06:41:28 terra kernel: [4393193.820432]   time_stamp
Feb  4 06:41:28 terra kernel: [4393193.820433]   next_to_watch
Feb  4 06:41:28 terra kernel: [4393193.820434]   jiffies
Feb  4 06:41:28 terra kernel: [4393193.820435]   next_to_watch.status
Feb  4 06:41:28 terra kernel: [4393193.820436] MAC Status
Feb  4 06:41:28 terra kernel: [4393193.820437] PHY Status
Feb  4 06:41:28 terra kernel: [4393193.820438] PHY 1000BASE-T Status
Feb  4 06:41:28 terra kernel: [4393193.820439] PHY Extended Status
Feb  4 06:41:28 terra kernel: [4393193.820440] PCI Status
Feb  4 06:41:29 terra kernel: [4393194.832013] e1000e 0000:12:00.0: eth0: Reset adapter
Feb  4 06:41:32 terra kernel: [4393197.968949] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx

Da weder Kernel-Tausch noch Shutdown Besserung brachten, muss von einem Hardware-Defekt ausgegangen werden. Bei einem Server, der seit März 2008 ansonsten fehlerfrei seinen Dienst verrichtet, wäre der Tausch des Mainboards nur auf Grund einer defekten Netzwerkkarte unglücklich.

Die temporäre Lösung des ganzen? Alle Supermicro-Mainboards (zumindest in unseren Systemen) haben zwei Netzwerkkarten – die zweite war bisher nicht in Verwendung, so dass per udev die Devices getauscht sowie die Netzwerkkabel im Rechenzentrum umgesteckt wurden.

Seit dem gab es keine erneuten Störungen 🙂