[technique] Incident sur gw a TH2 => redemarrage a distance via IPMI

Laurent GUERBY laurent at guerby.net
Mar 10 Juil 13:54:42 CEST 2012


Bonjour,

Notre serveur gw (Dell R210) a Paris a cessé de répondre au ping vers 13h08.
Je l'ai redémarré via le controle a distance IPMI a 13h19. gw était up
depuis le 8 decembre 2011.

Le routage depuis Toulouse a automatiquement basculé sur le transit
Jaguar sans coupure visible pour les utilisateurs, avec
seulement la limitation de débit a 10 Mbit/s en dehors des
peer du TouIX.

Il n'y a pas de reprise automatique des IP de gw sur notre routeur a
Toulouse par contre donc les tunnels depuis Saint-Gaudens, Mones et
Trebons ont coupé (ils sont configurés vers 91.224.148.1 en UDP).

Apres le reboot de gw tous les services sont revenus automatiquement
incluant le routage BGP qui a rebasculé sur Paris et les tunnels.

Je pense que le freeze est du a un bug noyau : dans /var/log/kern.log
il y a eu quelques messages inhabituels la semaine derniere :

Jul  4 00:10:55 gw kernel: [17990459.027471] icmpv6_send: no reply to icmp error
Jul  4 06:50:03 gw kernel: [18446744027.802786] BUG: soft lockup - CPU#0 stuck for 17163091969s! [bird:28607]
...
Jul  4 16:52:34 gw kernel: [36024.074950] htb: too many events!
...

Lors du reboot un nouveau kernel a été mis en place:

Dec  8 06:33:12 gw kernel: [    0.000000] Linux version 2.6.32-5-amd64 (Debian 2.6.32-30) (ben at decadent.org.uk) (gcc version 4.3.5 (Debian 4.3.5-4) ) #1 SMP Wed Jan 12 03:40:32 UTC 2011
Jul 10 13:19:47 gw kernel: [    0.000000] Linux version 2.6.32-5-amd64 (Debian 2.6.32-41squeeze2) (dannf at debian.org) (gcc version 4.3.5 (Debian 4.3.5-4) ) #1 SMP Thu Mar 22 17:26:33 UTC 2012

Au prochain reboot gw aura au moins 2.6.32-44.

Le ticket :

http://chiliproject.tetaneutral.net/issues/126

Sincerement,

Laurent






Plus d'informations sur la liste de diffusion technique