<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
  </head>
  <body text="#000000" bgcolor="#FFFFFF">
    <p>Bonsoir Mehdi,</p>
    <p><br>
    </p>
    <p>Notre VM "sameswireless.tetaneutral.net" ne fonctionne pas.</p>
    <p><br>
    </p>
    <p>Amicalement,</p>
    <p>Fernando<br>
    </p>
    <br>
    <div class="moz-cite-prefix">Le 13/07/2018 à 22:39, Mehdi Abaakouk
      via technique a écrit :<br>
    </div>
    <blockquote type="cite"
      cite="mid:20180713203941.7z4yuua6aetpnt72@sileht.net">Bonsoir,
      <br>
      <br>
      Une coupure électrique non prévue a eu lieu à TLS00 le jeudi
      12/07/2018
      <br>
      à 5h00.
      <br>
      <br>
      Cette coupure a:
      <br>
      * fait rebooter des switches TTNN de la baie jolie brain (donc
      coupure
      <br>
       en DC ondulé/groupe aussi)
      <br>
      * fait sauter les disjoncteurs de la salle tetaneutral.net a TLS00
      <br>
      * cramé la batterie d'un de nos onduleur
      <br>
      <br>
      Nicolas Gonzalez (eZag) est allé le matin même à TLS00, il a
      <br>
      <br>
      * remplacé l'onduleur HS par celui de spare
      <br>
      * rallumé toutes les machines/switches éteintes
      <br>
      <br>
      Malheureusement la machine G11 ne s'allumais plus, et un disque de
      n7
      <br>
      était HS.
      <br>
      <br>
      Nicolas a essayé de changer l'alim mais ce n'était pas cela.
      <br>
      <br>
      La machine G11 contiens 4 disques et 2 SSDs
      <br>
      <br>
      Vers 12h, après que le gros du recovery Ceph soit passé, j'ai
      relancé
      <br>
      les VMs du cluster.
      <br>
      <br>
      Vers 19h, nous avons perdu un nouveau disque (sdb) sur G1.
      <br>
      <br>
      Toutes les VMs qui étaient sur disques et pas sur SSDs ont freezé
      à ce
      <br>
      moment la.
      <br>
      <br>
      2 placement group (PG) Ceph sur les 4096  n'avaient plus de quorum
      (2
      <br>
      sur 3 replicats des data) pour assurer que nous n'allons pas
      perdre de
      <br>
      donner sur ces PGs.
      <br>
      <br>
      Ceph étant protecteur des données, il freeze les IOs des VMs.
      <br>
      <br>
      Ceph attends que on lui confirme les données perdues ou que les
      OSDs
      <br>
      manquant reviennent.
      <br>
      <br>
      Ne pouvant réssucité les disques mort de g1 ert N7. Il nous
      fallait
      <br>
      absoluement les disques de G11.
      <br>
      <br>
      De plus les disques restant du Cluster ne permettait pas à Ceph
      <br>
      d'acueillir tous les replicats manquant.
      <br>
      <br>
      Ceph nous a rempli plusieurs disques à 100% pour garantir ses
      replicats.
      <br>
      Mais quand un disque arrive à 100%.
      <br>
      Ceph freeze les IOs de toutes les VMs.
      <br>
      <br>
      Toutes les VMs ont été stoppées vers 21h.
      <br>
      <br>
      Par chance nous avions remplacé la VM apt.tetaneutral.net par une
      <br>
      machine physique (NUC avec SSD 4 TB)  ce qui a permis de supprimer
      <br>
      quelques objets Ceph pour le faire repartir.
      <br>
      <br>
      Vers 23h, j'ai redémaré toutes les VMs. Mais uniquement les VMs
      sur SSDs
      <br>
      ont refonctionnées correctement.
      <br>
      <br>
      Le lendemain vendredi 13/07/2018, Nicolas est retourné à TLS00
      pour
      <br>
      récupérer G11 et l'a réparé.
      <br>
      Le problème venait des boutons de la tour qui ne marchait plus...
      <br>
      <br>
      Vers 19h, Nicolas est retourné à TLS00 pour rebrancher G11.
      <br>
      <br>
      Le cluster Ceph a retrouvé les données manquantes et est reparti
      <br>
      correctement.
      <br>
      <br>
      Le recovery "normal/habituelle" de Ceph est cours:
      <br>
<a class="moz-txt-link-freetext" href="https://nagios.tetaneutral.net/grafana/d/CSs7ydkmk/ceph-cluster?refresh=1m&orgId=1&from=1531340909134&to=1531513709134&var-interval=1m">https://nagios.tetaneutral.net/grafana/d/CSs7ydkmk/ceph-cluster?refresh=1m&orgId=1&from=1531340909134&to=1531513709134&var-interval=1m</a>
      <br>
      <br>
      Si votre VM ne fonctionne toujours pas, n'hésitez pas à envoyer un
      mail
      <br>
      à <a class="moz-txt-link-abbreviated" href="mailto:question@tetaneutral.net">question@tetaneutral.net</a>.
      <br>
      <br>
      Un grand merci à Nicolas pour les 3 interventions à TLS00 !
      <br>
      <br>
      <br>
      <fieldset class="mimeAttachmentHeader"></fieldset>
      <br>
      <pre wrap="">_______________________________________________
technique mailing list
<a class="moz-txt-link-abbreviated" href="mailto:technique@lists.tetaneutral.net">technique@lists.tetaneutral.net</a>
<a class="moz-txt-link-freetext" href="http://lists.tetaneutral.net/listinfo/technique">http://lists.tetaneutral.net/listinfo/technique</a>
</pre>
    </blockquote>
    <br>
  </body>
</html>