[technique] Analyse de l'incident du 20120914

Laurent GUERBY laurent at guerby.net
Sam 15 Sep 09:13:17 CEST 2012


Bonjour,

Voila mon analyse de l'incident de vendredi a partir des données sur les
interfaces du routeur h3 :

http://guerby.org/ftp/cogent-ttnn-storm-touix-20120914.csv
http://guerby.org/ftp/cogent-ttnn-storm-touix-20120914.png

On voit sur le VLAN 4031 a l'heure de la coupure Cogent une augmentation
du PPS jusque vers 11k pps rx avec des paquets de 46 bytes (en faisant
la division avec les bytes rx) et ce qui explique la totalité du PPS de
l'interface physique eth0. Pas de pic en tx de notre coté.

Jusqu'a hier le VLAN 4031 etait prolongé jusqu'a Paris via le L2 cogent
(sans IP a Paris, juste L2 "vide" au cas ou) ce qui explique la
detection du storm et la coupure du port cogent toulouse.

Le parametrage du port coté cogent est le suivant avec
une limite a 5k PPS broadcast :

> nsw01.b015578-0.tls01#sh storm-control FastEthernet0/20
> Load for five secs: 1%/0%; one minute: 1%; five minutes: 0%
> Time source is NTP, 15:22:31.497 UTC Fri Sep 14 2012
> 
> Interface    Filter State          Upper       Lower         Current
> ---------        -------------              -----------
-----------       
> ----------
> Fa0/20     Forwarding         5k pps       5k pps        0 pps

J'ai demandé confirmation de mon analyse a fullsave et si c'est validé
on demandera a IMS s'ils peuvent trouver et prevenir le membre du
TouIX a la source du probleme.

J'ai rebasculé la production sur le L2 cogent.

Sincèrement,

Laurent





Plus d'informations sur la liste de diffusion technique