Anton Dollmaier


Montag-Morgen-Chaos: “eth0: Detected Hardware Unit Hang”

04 Feb 2013 »

Montag Morgen – noch ohne die erste Tasse Kaffee zeigten sich schon erste Probleme. Nach den gestrigen Problemen kein schöner Start in die neue Woche.

  • PuTTY meldete nach dem Verbindungsaufbau plötzlich “corrupted MAC on input, decryption failed”
  • ähnliches Rsync beim Transfer von Daten weg vom Host
  • TCP-Verbindungen rissen ab
  • Der Server war zeitweise weder per IPv4 noch per IPv6 pingbar, benachbarte Systeme aber voll
  • Ein Reboot war ergebnislos, genauso ein Wechsel des Kernels

Irgendwann doch ein Blick in die richtigen Logfiles:

Feb  4 06:41:28 terra kernel: [4393193.820426] e1000e 0000:12:00.0: eth0: Detected Hardware Unit Hang:
Feb  4 06:41:28 terra kernel: [4393193.820428]   TDH
Feb  4 06:41:28 terra kernel: [4393193.820429]   TDT
Feb  4 06:41:28 terra kernel: [4393193.820430]   next_to_use
Feb  4 06:41:28 terra kernel: [4393193.820430]   next_to_clean
Feb  4 06:41:28 terra kernel: [4393193.820431] buffer_info[next_to_clean]:
Feb  4 06:41:28 terra kernel: [4393193.820432]   time_stamp
Feb  4 06:41:28 terra kernel: [4393193.820433]   next_to_watch
Feb  4 06:41:28 terra kernel: [4393193.820434]   jiffies
Feb  4 06:41:28 terra kernel: [4393193.820435]   next_to_watch.status
Feb  4 06:41:28 terra kernel: [4393193.820436] MAC Status
Feb  4 06:41:28 terra kernel: [4393193.820437] PHY Status
Feb  4 06:41:28 terra kernel: [4393193.820438] PHY 1000BASE-T Status
Feb  4 06:41:28 terra kernel: [4393193.820439] PHY Extended Status
Feb  4 06:41:28 terra kernel: [4393193.820440] PCI Status
Feb  4 06:41:29 terra kernel: [4393194.832013] e1000e 0000:12:00.0: eth0: Reset adapter
Feb  4 06:41:32 terra kernel: [4393197.968949] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx

Da weder Kernel-Tausch noch Shutdown Besserung brachten, muss von einem Hardware-Defekt ausgegangen werden. Bei einem Server, der seit März 2008 ansonsten fehlerfrei seinen Dienst verrichtet, wäre der Tausch des Mainboards nur auf Grund einer defekten Netzwerkkarte unglücklich.

Die temporäre Lösung des ganzen? Alle Supermicro-Mainboards (zumindest in unseren Systemen) haben zwei Netzwerkkarten – die zweite war bisher nicht in Verwendung, so dass per udev die Devices getauscht sowie die Netzwerkkabel im Rechenzentrum umgesteckt wurden.

Seit dem gab es keine erneuten Störungen 🙂

© Anton Dollmaier