[technique] [INCIDENT] perte de disque sur le cluster 20151130 17h et recovery tres difficile / arret des VM

Mar 1 Déc 13:52:13 CET 2015

Bonjour,

Lundi 20151130 vers 17h nous avons un perdu un disque, avec
Mehdi nous avons alors pris la decision d'ajouter les
deux nouvelles machines au cluster pour compenser en activant
quelques bug fix ceph de repartition de donnee au passage.

Malheureusement len recovery es OSD ont commencé a prendre enormement
de RAM jusqu'a plus de 10 GB RAM / TB disque alors que la documentation
ceph recommande 1 GB par TB.

Une description plus technique est la :

http://lists.ceph.com/pipermail/ceph-users-ceph.com/2015-December/006428.html

Mehdi a reconstruit les packages ceph 0.94.5 avec trois bug fix
liés a la memoire mais cela n'a pas suffit. Nous avons ensuite  :
- arrete toutes les VM
- revenu en arriere sur les repartition de donnees
- desactivé la plupart des actions ceph :
norecovery nobackfill notieragent noout nodown
- ajouté 64 GB de swap a chaque machine en swapfile
- forcé des release de RAM via ceph tell osd.N heap release
- et enfin volontairement arrete quelques OSD
qui n'arrivaient pas a rester stable, puis
nous les avons relancé progressivement au fur
et a mesure de l'amelioration

Nous sommes actuellement revenus a un cluster
avec tous les OSD up et un recovery qui progresse
meme si le volume de donnee a replacer est tres consequent.

Liste des trackers de bug ceph mentionnés sur IRC :

http://tracker.ceph.com/issues/12565
http://tracker.ceph.com/issues/12681
http://tracker.ceph.com/issues/13642
http://tracker.ceph.com/issues/13692
http://tracker.ceph.com/issues/13821

Nous allons relancer prudemment toutes les VM entre
aujourd'hui et demain.

Sincèrement,

Laurent

root at g2:~# ceph -s
    cluster 1fe74663-8dfa-486c-bb80-3bd94c90c967
     health HEALTH_WARN
            2424 pgs backfill
            5 pgs backfilling
            3200 pgs degraded
            7 pgs recovering
            2793 pgs recovery_wait
            3200 pgs stuck degraded
            5 pgs stuck inactive
            5229 pgs stuck unclean
            401 pgs stuck undersized
            401 pgs undersized
            recovery 6856503/105606816 objects degraded (6.492%)
            recovery 39949831/105606816 objects misplaced (37.829%)
            noout,noscrub,nodeep-scrub,notieragent flag(s) set
     monmap e8: 3 mons at
{g1=192.168.99.251:6789/0,g2=192.168.99.252:6789/0,g3=192.168.99.253:6789/0}
            election epoch 1374, quorum 0,1,2 g1,g2,g3
     osdmap e221429: 50 osds: 50 up, 50 in; 2520 remapped pgs
            flags noout,noscrub,nodeep-scrub,notieragent
      pgmap v35402763: 11264 pgs, 6 pools, 44128 GB data, 13185 kobjects
            68298 GB used, 32359 GB / 100658 GB avail
            6856503/105606816 objects degraded (6.492%)
            39949831/105606816 objects misplaced (37.829%)
                6035 active+clean
                2704 active+recovery_wait+degraded
                2029 active+remapped+wait_backfill
                 389 active+undersized+degraded+remapped+wait_backfill
                  82 active+recovery_wait+degraded+remapped
                   7 active+recovery_wait+undersized+degraded+remapped
                   5 active+recovering+degraded
                   5 undersized+degraded+remapped+wait_backfill+peered
                   5 active+degraded+remapped+backfilling
                   2 active+recovering+degraded+remapped
                   1 active+degraded+remapped+wait_backfill
recovery io 170 MB/s, 42 objects/s
  client io 0 B/s rd, 214 kB/s wr, 21 op/s