<html>

  <head>

    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">

  </head>

  <body text="#000000" bgcolor="#FFFFFF">

    <p>Bonsoir Mehdi,</p>

    <p><br>

    </p>

    <p>Notre VM "sameswireless.tetaneutral.net" ne fonctionne pas.</p>

    <p><br>

    </p>

    <p>Amicalement,</p>

    <p>Fernando<br>

    </p>

    <br>

    <div class="moz-cite-prefix">Le 13/07/2018 à 22:39, Mehdi Abaakouk

      via technique a écrit :<br>

    </div>

    <blockquote type="cite"

      cite="mid:20180713203941.7z4yuua6aetpnt72@sileht.net">Bonsoir,

      <br>

      <br>

      Une coupure électrique non prévue a eu lieu à TLS00 le jeudi

      12/07/2018

      <br>

      à 5h00.

      <br>

      <br>

      Cette coupure a:

      <br>

      * fait rebooter des switches TTNN de la baie jolie brain (donc

      coupure

      <br>

       en DC ondulé/groupe aussi)

      <br>

      * fait sauter les disjoncteurs de la salle tetaneutral.net a TLS00

      <br>

      * cramé la batterie d'un de nos onduleur

      <br>

      <br>

      Nicolas Gonzalez (eZag) est allé le matin même à TLS00, il a

      <br>

      <br>

      * remplacé l'onduleur HS par celui de spare

      <br>

      * rallumé toutes les machines/switches éteintes

      <br>

      <br>

      Malheureusement la machine G11 ne s'allumais plus, et un disque de

      n7

      <br>

      était HS.

      <br>

      <br>

      Nicolas a essayé de changer l'alim mais ce n'était pas cela.

      <br>

      <br>

      La machine G11 contiens 4 disques et 2 SSDs

      <br>

      <br>

      Vers 12h, après que le gros du recovery Ceph soit passé, j'ai

      relancé

      <br>

      les VMs du cluster.

      <br>

      <br>

      Vers 19h, nous avons perdu un nouveau disque (sdb) sur G1.

      <br>

      <br>

      Toutes les VMs qui étaient sur disques et pas sur SSDs ont freezé

      à ce

      <br>

      moment la.

      <br>

      <br>

      2 placement group (PG) Ceph sur les 4096  n'avaient plus de quorum

      (2

      <br>

      sur 3 replicats des data) pour assurer que nous n'allons pas

      perdre de

      <br>

      donner sur ces PGs.

      <br>

      <br>

      Ceph étant protecteur des données, il freeze les IOs des VMs.

      <br>

      <br>

      Ceph attends que on lui confirme les données perdues ou que les

      OSDs

      <br>

      manquant reviennent.

      <br>

      <br>

      Ne pouvant réssucité les disques mort de g1 ert N7. Il nous

      fallait

      <br>

      absoluement les disques de G11.

      <br>

      <br>

      De plus les disques restant du Cluster ne permettait pas à Ceph

      <br>

      d'acueillir tous les replicats manquant.

      <br>

      <br>

      Ceph nous a rempli plusieurs disques à 100% pour garantir ses

      replicats.

      <br>

      Mais quand un disque arrive à 100%.

      <br>

      Ceph freeze les IOs de toutes les VMs.

      <br>

      <br>

      Toutes les VMs ont été stoppées vers 21h.

      <br>

      <br>

      Par chance nous avions remplacé la VM apt.tetaneutral.net par une

      <br>

      machine physique (NUC avec SSD 4 TB)  ce qui a permis de supprimer

      <br>

      quelques objets Ceph pour le faire repartir.

      <br>

      <br>

      Vers 23h, j'ai redémaré toutes les VMs. Mais uniquement les VMs

      sur SSDs

      <br>

      ont refonctionnées correctement.

      <br>

      <br>

      Le lendemain vendredi 13/07/2018, Nicolas est retourné à TLS00

      pour

      <br>

      récupérer G11 et l'a réparé.

      <br>

      Le problème venait des boutons de la tour qui ne marchait plus...

      <br>

      <br>

      Vers 19h, Nicolas est retourné à TLS00 pour rebrancher G11.

      <br>

      <br>

      Le cluster Ceph a retrouvé les données manquantes et est reparti

      <br>

      correctement.

      <br>

      <br>

      Le recovery "normal/habituelle" de Ceph est cours:

      <br>

<a class="moz-txt-link-freetext" href="https://nagios.tetaneutral.net/grafana/d/CSs7ydkmk/ceph-cluster?refresh=1m&orgId=1&from=1531340909134&to=1531513709134&var-interval=1m">https://nagios.tetaneutral.net/grafana/d/CSs7ydkmk/ceph-cluster?refresh=1m&orgId=1&from=1531340909134&to=1531513709134&var-interval=1m</a>

      <br>

      <br>

      Si votre VM ne fonctionne toujours pas, n'hésitez pas à envoyer un

      mail

      <br>

      à <a class="moz-txt-link-abbreviated" href="mailto:question@tetaneutral.net">question@tetaneutral.net</a>.

      <br>

      <br>

      Un grand merci à Nicolas pour les 3 interventions à TLS00 !

      <br>

      <br>

      <br>

      <fieldset class="mimeAttachmentHeader"></fieldset>

      <br>

      <pre wrap="">_______________________________________________

technique mailing list

<a class="moz-txt-link-abbreviated" href="mailto:technique@lists.tetaneutral.net">technique@lists.tetaneutral.net</a>

<a class="moz-txt-link-freetext" href="http://lists.tetaneutral.net/listinfo/technique">http://lists.tetaneutral.net/listinfo/technique</a>

</pre>

    </blockquote>

    <br>

  </body>

</html>