<div dir="ltr">Un grand merci à tous les bénévoles qui se sont investis dans la remise en état de la plateforme TTNN après cette coupure.<div>Et j'imagine que ça a pas du être très drôle non plus chez FS.</div><div><br></div><div>@+ <br></div></div><br><div class="gmail_quote"><div dir="ltr">Le ven. 13 juil. 2018 à 22:39, Mehdi Abaakouk via technique <<a href="mailto:technique@lists.tetaneutral.net">technique@lists.tetaneutral.net</a>> a écrit :<br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Bonsoir,<br>
<br>
Une coupure électrique non prévue a eu lieu à TLS00 le jeudi 12/07/2018<br>
à 5h00.<br>
<br>
Cette coupure a:<br>
* fait rebooter des switches TTNN de la baie jolie brain (donc coupure<br>
  en DC ondulé/groupe aussi)<br>
* fait sauter les disjoncteurs de la salle <a href="http://tetaneutral.net" rel="noreferrer" target="_blank">tetaneutral.net</a> a TLS00<br>
* cramé la batterie d'un de nos onduleur<br>
<br>
Nicolas Gonzalez (eZag) est allé le matin même à TLS00, il a<br>
<br>
* remplacé l'onduleur HS par celui de spare<br>
* rallumé toutes les machines/switches éteintes<br>
<br>
Malheureusement la machine G11 ne s'allumais plus, et un disque de n7<br>
était HS.<br>
<br>
Nicolas a essayé de changer l'alim mais ce n'était pas cela.<br>
<br>
La machine G11 contiens 4 disques et 2 SSDs<br>
<br>
Vers 12h, après que le gros du recovery Ceph soit passé, j'ai relancé<br>
les VMs du cluster.<br>
<br>
Vers 19h, nous avons perdu un nouveau disque (sdb) sur G1.<br>
<br>
Toutes les VMs qui étaient sur disques et pas sur SSDs ont freezé à ce<br>
moment la.<br>
<br>
2 placement group (PG) Ceph sur les 4096  n'avaient plus de quorum (2<br>
sur 3 replicats des data) pour assurer que nous n'allons pas perdre de<br>
donner sur ces PGs.<br>
<br>
Ceph étant protecteur des données, il freeze les IOs des VMs.<br>
<br>
Ceph attends que on lui confirme les données perdues ou que les OSDs<br>
manquant reviennent.<br>
<br>
Ne pouvant réssucité les disques mort de g1 ert N7. Il nous fallait<br>
absoluement les disques de G11.<br>
<br>
De plus les disques restant du Cluster ne permettait pas à Ceph<br>
d'acueillir tous les replicats manquant.<br>
<br>
Ceph nous a rempli plusieurs disques à 100% pour garantir ses replicats.<br>
Mais quand un disque arrive à 100%.<br>
Ceph freeze les IOs de toutes les VMs.<br>
<br>
Toutes les VMs ont été stoppées vers 21h.<br>
<br>
Par chance nous avions remplacé la VM <a href="http://apt.tetaneutral.net" rel="noreferrer" target="_blank">apt.tetaneutral.net</a> par une<br>
machine physique (NUC avec SSD 4 TB)  ce qui a permis de supprimer<br>
quelques objets Ceph pour le faire repartir.<br>
<br>
Vers 23h, j'ai redémaré toutes les VMs. Mais uniquement les VMs sur SSDs<br>
ont refonctionnées correctement.<br>
<br>
Le lendemain vendredi 13/07/2018, Nicolas est retourné à TLS00 pour<br>
récupérer G11 et l'a réparé.<br>
Le problème venait des boutons de la tour qui ne marchait plus...<br>
<br>
Vers 19h, Nicolas est retourné à TLS00 pour rebrancher G11.<br>
<br>
Le cluster Ceph a retrouvé les données manquantes et est reparti<br>
correctement.<br>
<br>
Le recovery "normal/habituelle" de Ceph est cours:<br>
<a href="https://nagios.tetaneutral.net/grafana/d/CSs7ydkmk/ceph-cluster?refresh=1m&orgId=1&from=1531340909134&to=1531513709134&var-interval=1m" rel="noreferrer" target="_blank">https://nagios.tetaneutral.net/grafana/d/CSs7ydkmk/ceph-cluster?refresh=1m&orgId=1&from=1531340909134&to=1531513709134&var-interval=1m</a><br>
<br>
Si votre VM ne fonctionne toujours pas, n'hésitez pas à envoyer un mail<br>
à <a href="mailto:question@tetaneutral.net" target="_blank">question@tetaneutral.net</a>.<br>
<br>
Un grand merci à Nicolas pour les 3 interventions à TLS00 !<br>
<br>
-- <br>
Mehdi Abaakouk<br>
mail: <a href="mailto:sileht@sileht.net" target="_blank">sileht@sileht.net</a><br>
irc: sileht<br>
_______________________________________________<br>
technique mailing list<br>
<a href="mailto:technique@lists.tetaneutral.net" target="_blank">technique@lists.tetaneutral.net</a><br>
<a href="http://lists.tetaneutral.net/listinfo/technique" rel="noreferrer" target="_blank">http://lists.tetaneutral.net/listinfo/technique</a><br>
</blockquote></div><br clear="all"><div><br></div>-- <br><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature">Patrick<br></div>