[technique] Debriefing de l'intervention reseau du 10 aout a 22h20

Laurent GUERBY laurent at guerby.net
Jeu 11 Aou 10:03:00 CEST 2011


Bonjour,

Pour eviter une interruption significative du reseau, et de durée
indeterminée en cas de probleme non anticipé avec la mise a jour de h3,
nous avons configuré un netbook pour remplacer temporairement h3
durant la mise a jour.

Sur le netbook débranché du réseau, fabrication d'un clone du 
routeur h3 en reprenant les VLAN, IPv4 et IPv6 :

http://wiki.tetaneutral.net/index.php/Architecture

# config
ip link set eth0 up
ip addr add 192.168.3.8/24 dev eth0.3175
ip addr add 91.224.148.3/31 dev eth0.3100
ip -6 addr add 2a01:6600:8000::131/120 dev eth0.3100
ip addr add 91.224.149.254/25 dev eth0.3131
ip -6 addr add 2a01:6600:8081:ffff::/48 dev eth0.3131
ip -6 addr add fe80::31/64 dev eth0.3131
ip addr add 91.224.148.4/31 dev eth0.375
ip -6 addr add 2a01:6600:8000::3103/120 dev eth0.375
ip -6 route add default via 2a01:6600:8000::175 dev eth0.3100
ip route add default via 91.224.148.2 dev eth0.3100

Le routage est en statique tout vers Paris : la configuration
BGP TouIX de h3 n'a pas ete reprise sur le netbook. De meme pour les
IPv4 et IPv6 DNS qui sont en anycast entre Toulouse et Paris
et donc service assuré par gw a Paris.

Sur le switch s3 configuration d'un port avec les bons
VLAN en previsition du branchement du netbook et reperage
des cables sur le switch.

Lors d'une reprise d'IPv4 par une machine differente
les caches ARP des autres machines doivent expirer
ce qui donne une interruption visible de 10 a 30 secondes.

Pour minimiser l'interruption ARP il suffit
de lancer d'un arping sur le netbook pour forcer une mise a 
jour rapide des caches ARP des autres machines :

# minimiser l'interruption :
arping -I eth0.3175 -A 192.168.3.8    > /dev/null 2>&1 < /dev/null & 
arping -I eth0.3100 -A 91.224.148.3   > /dev/null 2>&1 < /dev/null &
arping -I eth0.3131 -A 91.224.149.254 > /dev/null 2>&1 < /dev/null &
arping -I eth0.375  -A 91.224.148.4   > /dev/null 2>&1 < /dev/null &

La manipulation : apt-get update & upgrade sur h3, puis 
debrancher h3 et brancher le netbook, verifier la breve
interruption sur les ping de test.

Avec l'ecran et clavier sur h3 en console reboot et verification
du retour des services et des IP, lancement des arping sur h3 puis 
debrancher le netbook et rebrancher h3.

Quelques notes :

1. Sur h3 eviter les checks disques au boot :
tune2fs -i 0 -c 0 -m 0 /dev/sda1

2. Sur h3 eviter le rc.local qui
s'arrete au milieu en enlevant "-e" sur la ligne 
"#!/bin/sh -e"

3. Verifier que l'acces au net via la
freebox de Myrys marche avant la manipulation, 
eventuellement la 3G.

4. Il y a deux versions incompatibles
d'arping :
arping - sends IP and/or ARP pings (to the MAC address)
iputils-arping - Tool to send ICMP echo requests to an ARP address
Nous avons utilisé iputils-arping.

5. killall arping apres la manipulation.

6. Au cas ou la partie debrancher/rebrancher peut se faire
logiciellement a distance en reconfigurant les VLAN
sur les ports du switch s3, comme tout le traffic tetaneutral.net
est sur VLAN. Un switch plus évolué permettrai de faire off et on 
plus simplement sur les ports.

7. Nous n'avons pas regardé l'ICMPv6 pour la reprise d'IPv6
donc la coupure a du etre de 30 secondes sur cette partie la,
si quelqu'un sait comment proceder on est preneur.

Au final cette intervention nous a permis de voir qu'on
pouvait rapidement restaurer le routage a Myrys en cas de defaillance de
h3 avec juste une dizaine de lignes de configuration, faisable sur une
VM. Une solution plus automatisée pourrait venir soit de ucarp
soit en utilisant du hot mirroring KVM, qui aurait l'avantage
de ne pas flapper les connections BGP lors d'une reprise.

Pour completer la partie redondance il faudra faire un test de reprise
sur coupure de la liaison vers TouIX / Paris avec une sortie par la
freebox Myrys en tunnel vers gw et eventuellement via une fibre optique
sur le reseau radio TSF pour avoir un meilleur upload. Et sans doutes
quelques regles de QoS par IP source/destination. Et bien
sur tester une reprise depuis Toulouse en cas d'arret de gw a Paris

Suggestions et remarques bienvenues :).

Sincerement,

Laurent






Plus d'informations sur la liste de diffusion technique