[technique] Incident cluster openstack dimanche 29 septembre 19h
Mehdi Abaakouk
sileht at sileht.net
Lun 29 Sep 09:58:44 CEST 2014
-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA256
Bonjour,
Hier vers 19h, deux osd du cluster ceph ont freezés, ce qui a généré des
accès disque très très lent
Ceph ayant détecté la panne, il s'est occupé des recréer les replicats
manquant.
Plusieurs processus (ceph-osd, kworkers, kswapd) est bloqué à l'état D
(un-interruptible task) alors que c'est processus ne fesait plus d'IO.
Le dmesg des machines comportaient des messages concernant le blocage
des ces processus, la raison est un bug dans le module xfs:
http://oss.sgi.com/archives/xfs/2014-05/msg00311.html
Le problème étant un deadlock dans le module xfs, nous avons été obligé
de rebooter les deux machines.
Le bug étant corrigé depuis le noyau 3.15, nous avons éffectué l'upgrade
du noyau du 3.14 vers le 3.16.
Mais après reboot de la machine g1 vers 21h , celle-ci ne revenait pas,
j'ai pu me connecter via l'interface vpro des machines, la machine avait
bien rebooté mais le réseau ne fonctionnait pas.
En revenant à l'ancien kernel, le réseau fonctionnait de nouveau.
La situation est revenu à la normal vers 21h30 mais avec l'ancien kernel
3.14, le cluster ceph est revenu à son état nominal peu de temps après.
Les VMs qui étaient sur les machines g1 et g3 ont donc été rebooté.
Aucune donnée n'a été perdu, le fsck de ceph (ceph osd scrub) n'a
détecté que 3 erreurs, qu'il a réparé.
Nous n'avons pas encore trouvé la raison du non fonctionnement du réseau
avec le kernel 3.16,
Nous allons maintenant essayer de le résoudre pour ne plus être affecté
par ce problème avec xfs, pour cela ce matin toutes les vm de g1 ont été
migré sur g2 et g3 de façon transparente.
La machine g1 sera rebooté plusieurs fois dans la journée pour des
tests, mais cela n'impactera pas les autres machines.
Cordialement,
Mehdi
Trace kernel du bug xfs sur g1:
Sep 28 19:16:02 g1 kernel: [962660.220585] INFO: task kworker/3:1:6037
blocked for more than 120 seconds.
Sep 28 19:16:02 g1 kernel: [962660.224400] Tainted: G W
3.14-2-amd64 #1
Sep 28 19:16:02 g1 kernel: [962660.226783] "echo 0 >
/proc/sys/kernel/hung_task_timeout_secs" disables this message.
Sep 28 19:16:02 g1 kernel: [962660.230418] kworker/3:1 D
ffff88000975a4e8 0 6037 2 0x00000000
Sep 28 19:16:02 g1 kernel: [962660.233506] Workqueue: xfs-log/sda2
xfs_log_worker [xfs]
Sep 28 19:16:02 g1 kernel: [962660.235868] ffff88000975a0d0
0000000000000046 0000000000014380 ffff880087389fd8
Sep 28 19:16:02 g1 kernel: [962660.239374] 0000000000014380
ffff88000975a0d0 ffff8807fb306800 ffff880143ccf378
Sep 28 19:16:02 g1 kernel: [962660.242810] ffff8807fb3069c0
0000000000000ab4 0000000000015180 0000000000000000
Sep 28 19:16:02 g1 kernel: [962660.246100] Call Trace:
Sep 28 19:16:02 g1 kernel: [962660.247230] [<ffffffffa07f879a>] ?
xlog_grant_head_wait+0x9a/0x190 [xfs]
Sep 28 19:16:02 g1 kernel: [962660.250469] [<ffffffffa07f8911>] ?
xlog_grant_head_check+0x81/0xd0 [xfs]
Sep 28 19:16:02 g1 kernel: [962660.253428] [<ffffffffa07fbe1c>] ?
xfs_log_reserve+0xbc/0x180 [xfs]
Sep 28 19:16:02 g1 kernel: [962660.256479] [<ffffffffa07b98a5>] ?
xfs_trans_reserve+0x1f5/0x200 [xfs]
Sep 28 19:16:02 g1 kernel: [962660.259357] [<ffffffffa07aa6fe>] ?
xfs_fs_log_dummy+0x2e/0x80 [xfs]
Sep 28 19:16:02 g1 kernel: [962660.262428] [<ffffffffa07fa132>] ?
xfs_log_need_covered+0x72/0xb0 [xfs]
Sep 28 19:16:02 g1 kernel: [962660.265339] [<ffffffffa07fb758>] ?
xfs_log_worker+0x38/0x40 [xfs]
Sep 28 19:16:02 g1 kernel: [962660.268047] [<ffffffff81079c6d>] ?
process_one_work+0x16d/0x420
Sep 28 19:16:02 g1 kernel: [962660.270979] [<ffffffff8107a876>] ?
worker_thread+0x116/0x3b0
Sep 28 19:16:02 g1 kernel: [962660.273553] [<ffffffff8107a760>] ?
rescuer_thread+0x380/0x380
Sep 28 19:16:02 g1 kernel: [962660.276095] [<ffffffff81080af8>] ?
kthread+0xb8/0xd0
Sep 28 19:16:02 g1 kernel: [962660.278658] [<ffffffff81080a40>] ?
kthread_create_on_node+0x170/0x170
Sep 28 19:16:02 g1 kernel: [962660.281511] [<ffffffff814d308c>] ?
ret_from_fork+0x7c/0xb0
Sep 28 19:16:02 g1 kernel: [962660.283982] [<ffffffff81080a40>] ?
kthread_create_on_node+0x170/0x170
- - --
Mehdi Abaakouk
mail: sileht at sileht.net
irc: sileht
-----BEGIN PGP SIGNATURE-----
Version: OpenPGP.js v.1.20131017
Comment: http://openpgpjs.org
wkYEAREIABAFAlQpETUJEJZbdE7sD8foAAA1zwCgwmzOEArGdYT0ETmBGz4a
fzhs4qQAmwc/qYZrXARb/3UHpFYZ6k7TMElh
=dHjm
-----END PGP SIGNATURE-----
-------------- section suivante --------------
Un texte encapsulé et encodé dans un jeu de caractères inconnu a été nettoyé...
Nom : pubkey.asc
URL : <http://lists.tetaneutral.net/pipermail/technique/attachments/20140929/8306dd0c/attachment.asc>
Plus d'informations sur la liste de diffusion technique