<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body text="#000000" bgcolor="#FFFFFF">
<p>Bonsoir Mehdi,</p>
<p><br>
</p>
<p>Notre VM "sameswireless.tetaneutral.net" ne fonctionne pas.</p>
<p><br>
</p>
<p>Amicalement,</p>
<p>Fernando<br>
</p>
<br>
<div class="moz-cite-prefix">Le 13/07/2018 à 22:39, Mehdi Abaakouk
via technique a écrit :<br>
</div>
<blockquote type="cite"
cite="mid:20180713203941.7z4yuua6aetpnt72@sileht.net">Bonsoir,
<br>
<br>
Une coupure électrique non prévue a eu lieu à TLS00 le jeudi
12/07/2018
<br>
à 5h00.
<br>
<br>
Cette coupure a:
<br>
* fait rebooter des switches TTNN de la baie jolie brain (donc
coupure
<br>
en DC ondulé/groupe aussi)
<br>
* fait sauter les disjoncteurs de la salle tetaneutral.net a TLS00
<br>
* cramé la batterie d'un de nos onduleur
<br>
<br>
Nicolas Gonzalez (eZag) est allé le matin même à TLS00, il a
<br>
<br>
* remplacé l'onduleur HS par celui de spare
<br>
* rallumé toutes les machines/switches éteintes
<br>
<br>
Malheureusement la machine G11 ne s'allumais plus, et un disque de
n7
<br>
était HS.
<br>
<br>
Nicolas a essayé de changer l'alim mais ce n'était pas cela.
<br>
<br>
La machine G11 contiens 4 disques et 2 SSDs
<br>
<br>
Vers 12h, après que le gros du recovery Ceph soit passé, j'ai
relancé
<br>
les VMs du cluster.
<br>
<br>
Vers 19h, nous avons perdu un nouveau disque (sdb) sur G1.
<br>
<br>
Toutes les VMs qui étaient sur disques et pas sur SSDs ont freezé
à ce
<br>
moment la.
<br>
<br>
2 placement group (PG) Ceph sur les 4096 n'avaient plus de quorum
(2
<br>
sur 3 replicats des data) pour assurer que nous n'allons pas
perdre de
<br>
donner sur ces PGs.
<br>
<br>
Ceph étant protecteur des données, il freeze les IOs des VMs.
<br>
<br>
Ceph attends que on lui confirme les données perdues ou que les
OSDs
<br>
manquant reviennent.
<br>
<br>
Ne pouvant réssucité les disques mort de g1 ert N7. Il nous
fallait
<br>
absoluement les disques de G11.
<br>
<br>
De plus les disques restant du Cluster ne permettait pas à Ceph
<br>
d'acueillir tous les replicats manquant.
<br>
<br>
Ceph nous a rempli plusieurs disques à 100% pour garantir ses
replicats.
<br>
Mais quand un disque arrive à 100%.
<br>
Ceph freeze les IOs de toutes les VMs.
<br>
<br>
Toutes les VMs ont été stoppées vers 21h.
<br>
<br>
Par chance nous avions remplacé la VM apt.tetaneutral.net par une
<br>
machine physique (NUC avec SSD 4 TB) ce qui a permis de supprimer
<br>
quelques objets Ceph pour le faire repartir.
<br>
<br>
Vers 23h, j'ai redémaré toutes les VMs. Mais uniquement les VMs
sur SSDs
<br>
ont refonctionnées correctement.
<br>
<br>
Le lendemain vendredi 13/07/2018, Nicolas est retourné à TLS00
pour
<br>
récupérer G11 et l'a réparé.
<br>
Le problème venait des boutons de la tour qui ne marchait plus...
<br>
<br>
Vers 19h, Nicolas est retourné à TLS00 pour rebrancher G11.
<br>
<br>
Le cluster Ceph a retrouvé les données manquantes et est reparti
<br>
correctement.
<br>
<br>
Le recovery "normal/habituelle" de Ceph est cours:
<br>
<a class="moz-txt-link-freetext" href="https://nagios.tetaneutral.net/grafana/d/CSs7ydkmk/ceph-cluster?refresh=1m&orgId=1&from=1531340909134&to=1531513709134&var-interval=1m">https://nagios.tetaneutral.net/grafana/d/CSs7ydkmk/ceph-cluster?refresh=1m&orgId=1&from=1531340909134&to=1531513709134&var-interval=1m</a>
<br>
<br>
Si votre VM ne fonctionne toujours pas, n'hésitez pas à envoyer un
mail
<br>
à <a class="moz-txt-link-abbreviated" href="mailto:question@tetaneutral.net">question@tetaneutral.net</a>.
<br>
<br>
Un grand merci à Nicolas pour les 3 interventions à TLS00 !
<br>
<br>
<br>
<fieldset class="mimeAttachmentHeader"></fieldset>
<br>
<pre wrap="">_______________________________________________
technique mailing list
<a class="moz-txt-link-abbreviated" href="mailto:technique@lists.tetaneutral.net">technique@lists.tetaneutral.net</a>
<a class="moz-txt-link-freetext" href="http://lists.tetaneutral.net/listinfo/technique">http://lists.tetaneutral.net/listinfo/technique</a>
</pre>
</blockquote>
<br>
</body>
</html>