<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
  </head>
  <body>
    <p>Merci pour vos réponses à tous les deux.</p>
    <p>La situation semble stabilisée pour moi, j'ai dumpé des mails +
      recréé une boite vide pour la seule boite qui était abîmée (et qui
      est destinataire des mails de cron et logwatch au boot).</p>
    <p>Peut-être que ça montre qu'il y a des IO pas forcément exécutées
      "dans l'ordre" sur le pool SSD avec le setup actuel alors que
      pourtant : <br>
    </p>
    <pre>(ttn)root@piou:~# cat /sys/block/sda/queue/scheduler 
[noop] deadline cfq 
</pre>
    <p>Habituellement (machine simple ou sur disques locaux), pour des
      fichiers de logs sur ext4 en tout cas, on se retrouve à avoir un
      fichier de la taille "d'avant" le power fail et pas des 0x00
      dedans. Est-ce qu'il y a aussi du "noop" sur les schedulers des
      hôtes pour le pool SSD ? Est-ce que ce point a déjà été regardé
      dans le passé ?<br>
    </p>
    <p>Merci,<br>
    </p>
    <div class="moz-cite-prefix">Le 14/06/2020 à 21:43, Hugues Brunel
      via technique a écrit :<br>
    </div>
    <blockquote type="cite"
      cite="mid:BBECEA8C-BEDD-46C2-A626-E965803183B4@fullsave.com">
      <pre class="moz-quote-pre" wrap="">Hello,

Il faut faire attention au mot "sans impact" des prévenances TLS00.
Le qualificatif est relatif aux clients hébergés dans le datacenter (donc derrière les onduleurs "officiels").

La salle associative n'étant pas derrière ces onduleurs, il y a toujours un impact (micro coupure) à chaque test des groupes electrogènes (tous les 3 mois).
N'hésitez pas à demander si vous avez un doute sur l'impact d'une maintenance.

Lors des tests de groupe voie A, l'impact est de 4 micro-coupures (~1 seconde) dans la journée (soit le matin à ~8h, soit l'apres-midi à ~13h).
Les tests sur la voie B ne doivent pas induire de micro-coupure puisque la voie A est prioritaire.

La séquence de coupure doit être la suivante pour la salle TTN:
t0: arret elec voie A: bascule sur la voie B (microcoupure)
t0+10s: démarrage groupe electrogene voie A: retour sur la voie A (microcoupure)
t0+2h:arret groupe electrogene: bascule sur la voie B (microcoupure)
t0+2h+2s: repassage sur Enedis voie A: bascule sur la voie A (microcoupure)

Normalement les onduleurs TTN doivent tenir ces quelques secondes, mais vu la température dans la salle, les batteries souffrent beaucoup et régulièrement des onduleurs rendent l'âme à ces moments là :-(
La mise en place d'un extracteur d'air sous peu devrait améliorer ce point.

Une deuxième solution serait d'utiliser des onduleurs avec des types de batterie moins sensible à la chaleur, mais ces technos ne semble pas encore très matures... (certains se sont renseignés sur le sujet... (je n'ai pas vu passer les retours))

++
Ughy.


</pre>
      <blockquote type="cite">
        <pre class="moz-quote-pre" wrap="">Le 14 juin 2020 à 20:04, Aymeric via technique <a class="moz-txt-link-rfc2396E" href="mailto:technique@lists.tetaneutral.net"><technique@lists.tetaneutral.net></a> a écrit :


On 13/06/2020 22:08, Ludovic Pouzenc via technique wrote:
</pre>
        <blockquote type="cite">
          <pre class="moz-quote-pre" wrap="">
Bonsoir,

Je constate un behavior bizare à la suppression d'emails sur
pouzenc.fr. C'est un dovecot sur la VM piou.tetaneutral.net.

Les logs de dovecot continent des erreurs depuis le 27 mai vers 13h.
Le fichier de log de dovecot est lui même abîmé (un bloc de 0x00 au
beau milieu), et les index de mails (stockage mdbox) le sont aussi
apparemment. Le fsck mdbox ne converge pas.

J'ai un borg chez moi avec presque une version par jour s'il y a lieu
d'investiguer. Est-ce que cette date correspond à une manip
particulière côté hosting ?

</pre>
        </blockquote>
        <pre class="moz-quote-pre" wrap="">Le 27 il y'a eu des tests "sans impacts" sur les groupes, effectués par
fullsave ce qui avait fait redémarré quelques machines (cause onduleur
hs ?).

De mémoire c’était une bonne partie de la journée du 27, je ne serai pas
dire si des machines du cluster avait été touché, le routeur oui.

--
Aymeric
_______________________________________________
technique mailing list
<a class="moz-txt-link-abbreviated" href="mailto:technique@lists.tetaneutral.net">technique@lists.tetaneutral.net</a>
<a class="moz-txt-link-freetext" href="http://lists.tetaneutral.net/listinfo/technique">http://lists.tetaneutral.net/listinfo/technique</a>
</pre>
      </blockquote>
      <pre class="moz-quote-pre" wrap="">
</pre>
      <br>
      <fieldset class="mimeAttachmentHeader"></fieldset>
      <pre class="moz-quote-pre" wrap="">_______________________________________________
technique mailing list
<a class="moz-txt-link-abbreviated" href="mailto:technique@lists.tetaneutral.net">technique@lists.tetaneutral.net</a>
<a class="moz-txt-link-freetext" href="http://lists.tetaneutral.net/listinfo/technique">http://lists.tetaneutral.net/listinfo/technique</a>
</pre>
    </blockquote>
    <pre class="moz-signature" cols="72">-- 
Ludovic Pouzenc
<a class="moz-txt-link-abbreviated" href="http://www.pouzenc.fr">www.pouzenc.fr</a>

This is GNU/Linux land. In silent nights you can hear the Windows machines rebooting.</pre>
  </body>
</html>