<p dir="ltr">Plantages des VM. <br>

Et question sur OS pour routeur Ubiquti EdgeRouter 8.</p>

<p dir="ltr">Il y avait quoi comme outils de travaux utilisés. </p>

<p dir="ltr">Si ce sont des perceuses, des foreuse et autres super-perturbateurs, ce n'est plus la loi de Murphy à prendre en compte, mais la loi du génocide des VM. <br>

😁</p>

<p dir="ltr">Sinon, je découvre tout ce qu'on peut faire avec mon petit routeur d'ubiqiti EdgeRouter 8.<br>

La base Linux créée par Ubiquti est assez intéressante. <br>

Je suppose qu'elle est bien optimisée. </p>

<p dir="ltr">Mais, quand je regarde l'interface et tout ce qui a été déjà fait avec OpenWRT, je dois avouer que j'hésite. </p>

<p dir="ltr">Le top pour moi serait d'y faire passer deux accès Internet ADSL en bounding et un accès Internet via Tetaneutral (pour un usage plus domestique, l'accès Tetaneutral). <br>

Pour le bounding, il faut un serveur loué dans un data-center, je n'ai pas encore choisi chez qui louer un petit serveur pour y monter un VPN bounding entre mon routeur Ubiquti et le serveur loué en passant par les deux liens ADSL. </p>

<p dir="ltr">J'aimerais connaître vos avis car je ne suis pas trop habitué avec de genre de montage. </p>

<p dir="ltr">Bon Week-end ! </p>

<p dir="ltr">Synclinal <br>

</p>

<div class="gmail_quote">Le 30 oct. 2015 12:00 PM,  <<a href="mailto:technique-request@lists.tetaneutral.net">technique-request@lists.tetaneutral.net</a>> a écrit :<br type="attribution"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Envoyez vos messages pour la liste technique à<br>

        <a href="mailto:technique@lists.tetaneutral.net">technique@lists.tetaneutral.net</a><br>

<br>

Pour vous (dés)abonner par le web, consultez<br>

        <a href="http://lists.tetaneutral.net/listinfo/technique" rel="noreferrer" target="_blank">http://lists.tetaneutral.net/listinfo/technique</a><br>

<br>

ou, par email, envoyez un message avec 'help' dans le corps ou dans le<br>

sujet à<br>

        <a href="mailto:technique-request@lists.tetaneutral.net">technique-request@lists.tetaneutral.net</a><br>

<br>

Vous pouvez contacter l'administrateur de la liste à l'adresse<br>

        <a href="mailto:technique-owner@lists.tetaneutral.net">technique-owner@lists.tetaneutral.net</a><br>

<br>

Si vous répondez, n'oubliez pas de changer l'objet du message afin<br>

qu'il soit plus spécifique que "Re: Contenu du digest de<br>

technique..."<br>

<br>

<br>

Thèmes du jour :<br>

<br>

   1. Re: INCIDENT: upgrade ceph+downgrade kernel / perte de deux<br>

      machines physiques du cluster g2 et stri 20151026 / cluster down<br>

      (Laurent GUERBY)<br>

<br>

<br>

----------------------------------------------------------------------<br>

<br>

Message: 1<br>

Date: Thu, 29 Oct 2015 14:05:39 +0100<br>

From: Laurent GUERBY <<a href="mailto:laurent@guerby.net">laurent@guerby.net</a>><br>

To: "<a href="mailto:technique@lists.tetaneutral.net">technique@lists.tetaneutral.net</a>"<br>

        <<a href="mailto:technique@lists.tetaneutral.net">technique@lists.tetaneutral.net</a>><br>

Subject: Re: [technique] INCIDENT: upgrade ceph+downgrade kernel /<br>

        perte de deux machines physiques du cluster g2 et stri 20151026 /<br>

        cluster down<br>

Message-ID: <<a href="mailto:1446123939.2019.234.camel@guerby.net">1446123939.2019.234.camel@guerby.net</a>><br>

Content-Type: text/plain; charset="UTF-8"<br>

<br>

Bonjour,<br>

<br>

Le cluster n'etant toujours pas stable nous avons migré<br>

ceph en 0.94.5 ce qui a permis de recuperer nos OSD<br>

qui ne voulait pas demarrer.<br>

<br>

Nous avons aussi remplacé un disque dur defaillant,<br>

et ajouté un SSD au cluster le temps de remplacer<br>

les deux autres SSD defaillants.<br>

<br>

Avec un ecran nous avons pu observer sur deux machines differentes<br>

des "BUG: softlockup - CPU#12 stuck for 22s! [ceph-osd:xxx" et<br>

la console ne repondait plus vraiment.<br>

<br>

En regardant en detail il y a une correlation entre<br>

la version du kernel et l'uptime des machines :<br>

<br>

g1 === 10:52:14 up 3 days, 2:44, 2 users, load average: 5.90, 6.56, 7.21<br>

g2 === 10:52:14 up 1 day, 2:16, 0 users, load average: 5.64, 5.79, 5.84<br>

g3 === 10:52:14 up 11:25, 0 users, load average: 5.48, 5.87, 6.27<br>

g4 === 10:52:14 up 55 min, 1 user, load average: 38.11, 17.31, 12.59<br>

g5 === 10:52:15 up 148 days, 12:54, 0 users, load average: 6.41, 6.01, 5.95<br>

g6 === 10:52:15 up 36 min, 0 users, load average: 7.59, 7.37, 6.41<br>

n7 === 10:52:15 up 149 days, 21:14, 2 users, load average: 12.56, 10.58, 10.13<br>

g8 === 10:52:15 up 17:12, 0 users, load average: 12.00, 10.85, 10.55<br>

g9 === 10:52:15 up 21:56, 0 users, load average: 8.37, 8.21, 8.06<br>

g10 === 10:52:15 up 1 min, 0 users, load average: 4.11, 1.28, 0.45<br>

stri === 10:52:15 up 1:34, 0 users, load average: 5.74, 6.40, 5.77<br>

<br>

g1 === Linux version 3.16.0-4-amd64 (<a href="mailto:debian-kernel@lists.debian.org">debian-kernel@lists.debian.org</a>) (gcc version 4.8.4 (Debian 4.8.4-1) ) #1 SMP Debian 3.16.7-ckt11-1+deb8u3 (2015-08-04)<br>

g2 === Linux version 3.16.0-4-amd64 (<a href="mailto:debian-kernel@lists.debian.org">debian-kernel@lists.debian.org</a>) (gcc version 4.8.4 (Debian 4.8.4-1) ) #1 SMP Debian 3.16.7-ckt11-1+deb8u3 (2015-08-04)<br>

g3 === Linux version 3.16.0-4-amd64 (<a href="mailto:debian-kernel@lists.debian.org">debian-kernel@lists.debian.org</a>) (gcc version 4.8.4 (Debian 4.8.4-1) ) #1 SMP Debian 3.16.7-ckt11-1+deb8u3 (2015-08-04)<br>

g4 === Linux version 3.16.0-4-amd64 (<a href="mailto:debian-kernel@lists.debian.org">debian-kernel@lists.debian.org</a>) (gcc version 4.8.4 (Debian 4.8.4-1) ) #1 SMP Debian 3.16.7-ckt11-1+deb8u3 (2015-08-04)<br>

g5 === Linux version 3.16.0-4-amd64 (<a href="mailto:debian-kernel@lists.debian.org">debian-kernel@lists.debian.org</a>) (gcc version 4.8.4 (Debian 4.8.4-1) ) #1 SMP Debian 3.16.7-ckt9-3~deb8u1 (2015-04-24)<br>

g6 === Linux version 3.16.0-4-amd64 (<a href="mailto:debian-kernel@lists.debian.org">debian-kernel@lists.debian.org</a>) (gcc version 4.8.4 (Debian 4.8.4-1) ) #1 SMP Debian 3.16.7-ckt11-1+deb8u3 (2015-08-04)<br>

n7 === Linux version 3.16.0-4-amd64 (<a href="mailto:debian-kernel@lists.debian.org">debian-kernel@lists.debian.org</a>) (gcc version 4.8.4 (Debian 4.8.4-1) ) #1 SMP Debian 3.16.7-ckt9-3~deb8u1 (2015-04-24)<br>

g8 === Linux version 3.16.0-4-amd64 (<a href="mailto:debian-kernel@lists.debian.org">debian-kernel@lists.debian.org</a>) (gcc version 4.8.4 (Debian 4.8.4-1) ) #1 SMP Debian 3.16.7-ckt11-1+deb8u3 (2015-08-04)<br>

g9 === Linux version 3.16.0-4-amd64 (<a href="mailto:debian-kernel@lists.debian.org">debian-kernel@lists.debian.org</a>) (gcc version 4.8.4 (Debian 4.8.4-1) ) #1 SMP Debian 3.16.7-ckt11-1+deb8u4 (2015-09-19)<br>

g10 === Linux version 3.16.0-4-amd64 (<a href="mailto:debian-kernel@lists.debian.org">debian-kernel@lists.debian.org</a>) (gcc version 4.8.4 (Debian 4.8.4-1) ) #1 SMP Debian 3.16.7-ckt11-1+deb8u4 (2015-09-19)<br>

stri === Linux version 3.16.0-4-amd64 (<a href="mailto:debian-kernel@lists.debian.org">debian-kernel@lists.debian.org</a>) (gcc version 4.8.4 (Debian 4.8.4-1) ) #1 SMP Debian 3.16.7-ckt11-1+deb8u3 (2015-08-04)<br>

<br>

g5 et n7 avaient 148+ jours d'uptime avec le kernel 3.16.7-ckt9-3~deb8u1<br>

nous avons donc downgradé toutes les autres machines de ckt11-1+deb8u3 a<br>

3.16.7-ckt9-3~deb8u1.<br>

<br>

Meme avec cela ce matin il y a encore eu un reboot mais rien sur<br>

l'ecran : il est possible que les travaux en cours a TLS00 perturbent<br>

notre alimentation car les ouvriers sont sur le meme tableau que nous.<br>

La partie decoupe et percussion s'est terminee ce matin, il reste<br>

cependant de la soudure dans les jours qui viennent (d'apres google la<br>

norme EN 61000-3-12 est censé fixer les limites d'harmoniques d'un<br>

poste a souder a l'arc).<br>

<br>

20 VM ne sont pas reparties a cause d'erreur dans la base openstack,<br>

Mehdi va regarder depuis Tokyo, 103 VM sont a priori fonctionnelles.<br>

<br>

Si le taux de plantage de machine physique ne diminue pas nous<br>

installerons un onduleur a double conversion 3kVA en amont<br>

des machines.<br>

<br>

Sincèrement,<br>

<br>

Laurent<br>

<br>

On Tue, 2015-10-27 at 23:45 +0100, Laurent GUERBY wrote:<br>

> Bonsoir,<br>

><br>

> Dans la suite des aventures au pays de Murphy la machine g4 a planté<br>

> plusieurs fois dans la journée, comme c'est probablement un probleme<br>

> materiel je l'ai remplacée par une machine donnée par l'association ISF<br>

> <a href="http://www.isf.cc/" rel="noreferrer" target="_blank">http://www.isf.cc/</a> a <a href="http://tetaneutral.net" rel="noreferrer" target="_blank">tetaneutral.net</a> la semaine derniere. En transvasant<br>

> les disques cela a l'air de fonctionner depuis un peu plus d'une heure.<br>

><br>

> J'ai envoyé une requete sur la liste des utilisateurs ceph<br>

> et notre probleme d'OSD qui ne demarre pas semble<br>

> etre corrigé en 0.94.4 (on est en 0.94.2) :<br>

><br>

> <a href="http://tracker.ceph.com/issues/13060" rel="noreferrer" target="_blank">http://tracker.ceph.com/issues/13060</a><br>

> <a href="http://lists.ceph.com/pipermail/ceph-users-ceph.com/2015-October/005727.html" rel="noreferrer" target="_blank">http://lists.ceph.com/pipermail/ceph-users-ceph.com/2015-October/005727.html</a><br>

><br>

> On ne peut pas utiliser directement 0.94.4 a cause d'un bug ceph/KVM<br>

> deja identifié sur ceph-users :<br>

><br>

> <a href="https://www.mail-archive.com/ceph-users@lists.ceph.com/msg24339.html" rel="noreferrer" target="_blank">https://www.mail-archive.com/ceph-users@lists.ceph.com/msg24339.html</a><br>

> <a href="http://tracker.ceph.com/issues/13559" rel="noreferrer" target="_blank">http://tracker.ceph.com/issues/13559</a><br>

><br>

> Et d'un autre bug qu'on a reporté il y a un moment et dont le fix a eté<br>

> commité seulement apres 0.94.4 :<br>

><br>

> <a href="http://tracker.ceph.com/issues/10399" rel="noreferrer" target="_blank">http://tracker.ceph.com/issues/10399</a><br>

><br>

> 0.94 est une release LTS de ceph, reste a voir si on package une<br>

> 0.94.4 + fix qui nous interessent (probable).<br>

><br>

> Sincèrement,<br>

><br>

> Laurent<br>

><br>

> On Mon, 2015-10-26 at 22:53 +0100, Laurent GUERBY wrote:<br>

> > Bonsoir,<br>

> ><br>

> > Le cluster est toujours en recovery mais ca n'impacte plus trop les VM<br>

> > visiblement.<br>

> ><br>

> > Il reste 3 VM adherents down (ilico, phoeneeks, uind) que je ne peux pas<br>

> > redemarrer a cause d'un etat openstack incoherent ("cannot xxx while it<br>

> > is in task_state powering-off"), il faudra que Mehdi jette un oeil<br>

> > depuis Tokyo :).<br>

> ><br>

> > Sincèrement,<br>

> ><br>

> > Laurent<br>

> ><br>

> > On Mon, 2015-10-26 at 12:48 +0100, Laurent GUERBY wrote:<br>

> > > Bonjour,<br>

> > ><br>

> > > Le cluster est toujours en recovery :<br>

> > ><br>

> > >             102 requests are blocked > 32 sec<br>

> > >             recovery 2954723/65811225 objects degraded (4.490%)<br>

> > >             recovery 2587563/65811225 objects misplaced (3.932%)<br>

> > >             recovery 13/10406629 unfound (0.000%)<br>

> > ><br>

> > > pg 87.16 is active+recovery_wait+undersized+degraded+remapped, acting<br>

> > > [30,8,16,25,18,2147483647,1,14,39,9], 7 unfound<br>

> > > pg 87.7b is active+recovery_wait+undersized+degraded+remapped, acting<br>

> > > [17,30,15,2147483647,25,1,9,35,39,16], 6 unfound<br>

> > ><br>

> > ><br>

> > > Les "unfound" sont sur un pool utilisé par une seule VM, a priori<br>

> > > il n'y aura pas de perte de donnée malgré la perte de 3 disques (2 dans<br>

> > > le pool SSD qui est en redondance triple, et 1 dans le pool HDD qui est<br>

> > > soit triple soit 4+1 en cours de migration vers 4+2) mais la recovery<br>

> > > risque de durer encore une journee.<br>

> > ><br>

> > > Une fois la recovery finie nous ajouterons quelques disques<br>

> > > SSD neufs et proposerons une migration des petits disques systeme<br>

> > > (20G) sur le pool ceph SSD : les VMs qui sont sur le pool ceph SSD sont<br>

> > > deja revenues en ligne.<br>

> > ><br>

> > > Sincèrement,<br>

> > ><br>

> > > Laurent<br>

> > ><br>

> > > On Mon, 2015-10-26 at 08:31 +0100, Laurent GUERBY wrote:<br>

> > > > Bonjour,<br>

> > > ><br>

> > > > A 23h04 dimanche 20151025 la machine physique "stri" du cluster a planté<br>

> > > > et ce lundi 20151026 a 5h17 la machine "g2" du cluster a aussi planté.<br>

> > > ><br>

> > > > Avec IPMI j'ai redemarré stri et la machine est revenue, avec vPro<br>

> > > > sur g2 j'ai fait un fsck manuel sur sda2 puis la machine est<br>

> > > > revenue.<br>

> > > ><br>

> > > > Pendant le redemarrage g1 a 7h56 a aussi disparu, la aussi<br>

> > > > redemarrage au vPro.<br>

> > > ><br>

> > > > Apres ces redemarrages il y a actuellement 3 OSD avec un soucis :<br>

> > > ><br>

> > > > osd.0 hdd sur g1 refuse de demarrer sur un ASSERT :<br>

> > > > <a href="http://tracker.ceph.com/issues/13594" rel="noreferrer" target="_blank">http://tracker.ceph.com/issues/13594</a><br>

> > > ><br>

> > > > osd.12 SSD n'existe plus (?) sur stri<br>

> > > > root@stri:/var/log/ceph# /etc/init.d/ceph start osd.12<br>

> > > > /etc/init.d/ceph: osd.12 not found (/etc/ceph/ceph.conf defines osd.14<br>

> > > > osd.13 osd.15 , /var/lib/ceph defines osd.14 osd.13 osd.15)<br>

> > > ><br>

> > > > osd.4 SSD sur g2 pareil :<br>

> > > > root@g2:/var/log/ceph# /etc/init.d/ceph start osd.4<br>

> > > > /etc/init.d/ceph: osd.4 not found (/etc/ceph/ceph.conf defines mon.g2<br>

> > > > osd.1 osd.21 osd.7 , /var/lib/ceph defines mon.g2 osd.1 osd.21 osd.7)<br>

> > > ><br>

> > > > Probablement un probleme puppet, j'attend le retour de Mehdi.<br>

> > > ><br>

> > > > En l'etat actuel les VM sont quasiment toutes down.<br>

> > > ><br>

> > > > Sincèrement,<br>

> > > ><br>

> > > > Laurent<br>

> > ><br>

> ><br>

><br>

<br>

<br>

<br>

<br>

------------------------------<br>

<br>

Subject: Pied de page des remises groupées<br>

<br>

_______________________________________________<br>

technique mailing list<br>

<a href="mailto:technique@lists.tetaneutral.net">technique@lists.tetaneutral.net</a><br>

<a href="http://lists.tetaneutral.net/listinfo/technique" rel="noreferrer" target="_blank">http://lists.tetaneutral.net/listinfo/technique</a><br>

<br>

<br>

------------------------------<br>

<br>

Fin de Lot technique, Vol 52, Parution 20<br>

*****************************************<br>

</blockquote></div>