[technique] Incident cluster 20170614, problème carte réseau sur g9

Mehdi Abaakouk sileht at sileht.net
Mer 14 Juin 14:19:36 CEST 2017


Bonjour,

A 02:31:48 ce matin, la machine g9 n'était plus joignable, j'ai rebooté
la machine à 07:23:04 via vpro, elle est revenu.

Les disques Ceph et les machines virtuelles sont remontés tous seul
correctement.

Le problème c'est reproduit à 13:33:50, j'ai pu cette fois prendre le
temps d'investiguer avant le reboot.

La carte réseau avait disparu du système

   ixgbe 0000:01:00.0: Adapter removed

J'ai activé le debug du module de cette carte (rmmod ixgbe ; modprobe ixgbe debug=1)

[23415.333436] ixgbe: Intel(R) 10 Gigabit PCI Express Network Driver - version 4.4.0-k
[23415.333438] ixgbe: Copyright (c) 1999-2016 Intel Corporation.
[23415.351808] ixgbe 0000:01:00.0: Refused to change power state, currently in D3
[23415.352194] ixgbe 0000:01:00.0: Adapter removed
[23415.359782] ixgbe: probe of 0000:01:00.0 failed with error -5

La carte a vraisemblablement un problème d'alimentation.

J'irai dans les jours qui viennent la vérifier, voir la remplacer.

En attendant, j'ai déplacé les machines virtuelles sur d'autres machines du cluster.

Cordialement,

--
Mehdi Abaakouk
mail: sileht at sileht.net
irc: sileht
-------------- section suivante --------------
Une pièce jointe autre que texte a été nettoyée...
Nom: signature.asc
Type: application/pgp-signature
Taille: 884 octets
Desc: non disponible
URL: <http://lists.tetaneutral.net/pipermail/technique/attachments/20170614/f943b77f/attachment.sig>


Plus d'informations sur la liste de diffusion technique