Montag Morgen – noch ohne die erste Tasse Kaffee zeigten sich schon erste Probleme. Nach den gestrigen Problemen kein schöner Start in die neue Woche.

  • PuTTY meldete nach dem Verbindungsaufbau plötzlich “corrupted MAC on input, decryption failed”
  • ähnliches Rsync beim Transfer von Daten weg vom Host
  • TCP-Verbindungen rissen ab
  • Der Server war zeitweise weder per IPv4 noch per IPv6 pingbar, benachbarte Systeme aber voll
  • Ein Reboot war ergebnislos, genauso ein Wechsel des Kernels

Irgendwann doch ein Blick in die richtigen Logfiles:

Feb  4 06:41:28 terra kernel: [4393193.820426] e1000e 0000:12:00.0: eth0: Detected Hardware Unit Hang:
Feb  4 06:41:28 terra kernel: [4393193.820428]   TDH                  
Feb  4 06:41:28 terra kernel: [4393193.820429]   TDT                  
Feb  4 06:41:28 terra kernel: [4393193.820430]   next_to_use          
Feb  4 06:41:28 terra kernel: [4393193.820430]   next_to_clean        
Feb  4 06:41:28 terra kernel: [4393193.820431] buffer_info[next_to_clean]:
Feb  4 06:41:28 terra kernel: [4393193.820432]   time_stamp           
Feb  4 06:41:28 terra kernel: [4393193.820433]   next_to_watch        
Feb  4 06:41:28 terra kernel: [4393193.820434]   jiffies              
Feb  4 06:41:28 terra kernel: [4393193.820435]   next_to_watch.status 
Feb  4 06:41:28 terra kernel: [4393193.820436] MAC Status             
Feb  4 06:41:28 terra kernel: [4393193.820437] PHY Status             
Feb  4 06:41:28 terra kernel: [4393193.820438] PHY 1000BASE-T Status  
Feb  4 06:41:28 terra kernel: [4393193.820439] PHY Extended Status    
Feb  4 06:41:28 terra kernel: [4393193.820440] PCI Status             
Feb  4 06:41:29 terra kernel: [4393194.832013] e1000e 0000:12:00.0: eth0: Reset adapter
Feb  4 06:41:32 terra kernel: [4393197.968949] e1000e: eth0 NIC Link is Up 1000 Mbps Full Duplex, Flow Control: Rx/Tx

Da weder Kernel-Tausch noch Shutdown Besserung brachten, muss von einem Hardware-Defekt ausgegangen werden. Bei einem Server, der seit März 2008 ansonsten fehlerfrei seinen Dienst verrichtet, wäre der Tausch des Mainboards nur auf Grund einer defekten Netzwerkkarte unglücklich.

Die temporäre Lösung des ganzen? Alle Supermicro-Mainboards (zumindest in unseren Systemen) haben zwei Netzwerkkarten – die zweite war bisher nicht in Verwendung, so dass per udev die Devices getauscht sowie die Netzwerkkabel im Rechenzentrum umgesteckt wurden.

Seit dem gab es keine erneuten Störungen 🙂

Next Post Previous Post