[tetaneutral] Intervention sur le cluster de machine virtuelle

Aymeric mulx at aplu.fr
Mon Feb 7 16:51:34 CET 2022


Je ne crois pas qu'on est ça proprement lisible accessible sur une page 
mais voici la liste des machines actuellement du cluster avec nombre de 
VM ; vCPU (allocation VM), CPUs physique et ram utilisé  / totale):

  	* g1: UP (5 VMs using 5 vCPUs on 8 CPUs and 8.0 GiB of 31.0 GiB RAM ; 
ram cached+free: 2.9 GiB) ; load average: 1.40 1.52 1.77
  	* g2: UP (14 VMs using 18 vCPUs on 8 CPUs and 22.5 GiB of 31.0 GiB RAM 
; ram cached+free: 6.1 GiB) ; load average: 1.65 2.13 2.11
  	* g3: UP (14 VMs using 19 vCPUs on 4 CPUs and 22.8 GiB of 31.0 GiB RAM 
; ram cached+free: 2.8 GiB) ; load average: 1.32 1.83 2.19
  	* g4: UP (1 VMs using 1 vCPUs on 4 CPUs and 2.0 GiB of 62.5 GiB RAM ; 
ram cached+free: 32.3 GiB) ; load average: 1.57 1.74 1.91
  	* g6: UP (2 VMs using 2 vCPUs on 4 CPUs and 1.2 GiB of 62.5 GiB RAM ; 
ram cached+free: 34.7 GiB) ; load average: 2.31 2.47 2.38
  	* g8: UP (6 VMs using 10 vCPUs on 4 CPUs and 15.5 GiB of 31.0 GiB RAM 
; ram cached+free: 14.1 GiB) ; load average: 1.03 0.78 0.77
  	* g9: UP (7 VMs using 7 vCPUs on 4 CPUs and 9.8 GiB of 31.3 GiB RAM ; 
ram cached+free: 8.4 GiB) ; load average: 1.75 1.42 1.41
  	* g10: UP (12 VMs using 13 vCPUs on 8 CPUs and 14.2 GiB of 31.1 GiB 
RAM ; ram cached+free: 10.6 GiB) ; load average: 2.97 2.84 2.95
  	* g11: UP (11 VMs using 12 vCPUs on 4 CPUs and 10.5 GiB of 31.0 GiB 
RAM ; ram cached+free: 12.1 GiB) ; load average: 2.83 2.19 1.92
  	* stri: UP (9 VMs using 13 vCPUs on 8 CPUs and 19.0 GiB of 31.3 GiB 
RAM ; ram cached+free: 9.0 GiB) ; load average: 1.44 1.36 1.35
  	* g20: UP (20 VMs using 20 vCPUs on 24 CPUs and 28.8 GiB of 125.8 GiB 
RAM ; ram cached+free: 69.0 GiB) ; load average: 1.91 1.53 1.34
  	* g21: UP (46 VMs using 62 vCPUs on 24 CPUs and 89.0 GiB of 125.8 GiB 
RAM ; ram cached+free: 20.9 GiB) ; load average: 7.42 6.94 6.34
  	* g22: UP (37 VMs using 67 vCPUs on 24 CPUs and 82.0 GiB of 125.8 GiB 
RAM ; ram cached+free: 22.0 GiB) ; load average: 2.26 2.34 2.54

	* g23: UP (23 VMs using 24 vCPUs on 24 CPUs and 30.5 GiB of 125.8 GiB 
RAM ; ram cached+free: 62.1 GiB) ; load average: 2.40 2.09 2.25

g20, g21, g22 et g23 sont les AMD Ryzen dans des boitiers 3U.

stri est une machine rackable simple alim;

Les autres sont des boitiers PC tour que l'ont va remplacer par les 
nouveaux boitiers (on ne veut pas remplacer 1:1 mais plutôt faire 2:1 ou 
3:1 selon les disques/RAM).

Toutes les machines sont interconnectés en 10Gb/s, la fois pour le 
stockage ceph et pour les VM.

Les nouveaux boitiers ont 16 emplacements SATA, actuellement on n'en 
utilise que 8 car il nous manque une carte extension sur la carte mère 
pour utiliser les 8 slots restants, on prévoit d'ajouter une carte 
extension a moyen terme.

Le cluster ceph est visible en "temps réel" ici : 
https://nagios.tetaneutral.net/grafana/d/r6lloPJmz/ceph-cluster ; un osd 
= disque physique, donc actuellement 61 disques (60 en vrai il y'en a un 
qui a été partiellement sorti pour des soucis de perf :) mais je ne 
crois pas qu'on est le detail des disques.

A noter aussi on ne remplace pas systématiquement un disque dur physique 
HS par un disque neuf, les nouveaux disques font 8To certains disques 
sont encore en 2 ou 3To.

Aymeric

On 2022-02-07 14:58, Richard Baret wrote:

> Bonjour Aymeric,
> merci pour les details !
> On a un diagramme quelque part pour l'orga logique des machines ? (La 
> liste des noeuds du/des clusters de stockage et des hyperviseurs, leur 
> liens etc ?)
> 
> Bonne journée,
> Richard
> 
> Le lun. 7 févr. 2022, 14:35, Aymeric via tetaneutral 
> <tetaneutral at lists.tetaneutral.net> a écrit :
> 
>> Plop,
>> 
>> Je voulais envoyer un mail après l'opération pour dire que tout était
>> fini.. puis d'une chose a une autre j'ai totalement zappé :).
>> 
>> Ce qui a été fait :
>> 
>> - Installation de deux boîtiers avec une carte mère ASRackRock X570D4U 
>> ;
>> CPU AMD Ryzen 5900X et 128G de RAM ainsi que test des emplacement SATA
>> du boîtier.
>> Ceci a été fait sans impact sur le cluster entre fin décembre et début
>> janvier dans le nouveau local à Picto.
>> - Installation d'un système d'exploitation sur une de ces deux 
>> machines
>> (nommée g23) + préparation pour joindre la machine au cluster.
>> 
>> - Le vendredi 28 janvier après midi :
>> 
>> - remplacement 1:1 d'un des hyperviseurs du cluster (g20) par le
>> nouveau boîtier avec nouvelle carte mère, sans remplacement de disque 
>> ni
>> réinstallation d'OS.
>> La machine qui a été remplacé était dans le cluster depuis environ 1
>> an mais pour une raison inconnu perdais les disques SATA environ 1 
>> fois
>> par mois, voir plus.
>> => On va remplacer la carte mère de cette machine et la réintégrer
>> en tant que nouvelle machine, il s'agit d'un boîtier 3U récent on
>> suppose donc un problème sur la carte mère (il s'agit d'une asrock
>> X470D4U acheté il y'a un peu plus d'un en vu d'expérimenter le
>> renouvellement du cluster).
>> - remplacement de deux anciens hyperviseurs (n7 et g12) du cluster par
>> le nouveau boîtier (g23) avec récupération des disques durs.
>> g12 est une machine qui avait des soucis de disque ou
>> d'alimentation, en tout cas les nouveaux disques qui avait été branché
>> dessus n'étais pas reconnu. On suppose un soucis sur la carte mère
>> aussi.
>> => Cette machine sera probablement benné après récupéré ce qui est
>> intéressant (core i5 6500 avec 64G de RAM).
>> n7 va être utilisé pour tester des montées de version de logiciel au
>> niveau du cluster mais ne fait déjà plus parti intégrante du cluster.
>> => A terme cette machine sera peut être proposé à des adhérents qui
>> souhaitent venir avec leur disque mais sans hardware (il s'agit d'un 
>> i5
>> 4570 avec 32G de RAM) ou juste vendu.
>> 
>> - Modification des associations disques/machines dans ceph pour 
>> prendre
>> en compte le remplacement de n7 et g12 par g23 (ce qui a entraîné un
>> déplacement d'environ 25% des données stocké sur le cluster).
>> 
>> Nous allons aussi continuer le renouvellement du cluster et retirer
>> progressivement les anciennes machines pour les remplacer par les
>> boîtiers 3U avec des AMD Ryzen.
>> 
>> L'intérêt de ces boîtiers a été annoncé en décembre 2020 ici :
>> https://lists.tetaneutral.net/pipermail/technique/2020-December/004146.html
>> 
>> Aymeric
>> 
>> On 2022-02-07 11:27, Alexandre GUY wrote:
>>> Bonjour Aymeric,
>>> 
>>> L'intervention a été effectivement transparente, bravo et merci.
>>> 
>>> Par curiosité, vous avez fait quoi sur le cluster ?
>>> 
>>> Les accès disques sont beaucoup plus rapides, mon backup infernal se
>>> termine avec plus d'une heure d'avance par rapport à avant.
>>> 
>>> Belle journée à tous,
>>> 
>>> Alex.
>>> 
>>> 
>>>> Le 27 janv. 2022 à 21:24, Aymeric via tetaneutral
>>>> <tetaneutral at lists.tetaneutral.net> a écrit :
>>>> 
>>>> Bonsoir
>>>> 
>>>> Demain (vendredi) à partir de 14h jusqu'à environ 18h nous allons
>>>> effectuer des opérations de remplacement de matériel sur le cluster
>>>> afin de moderniser.
>>>> 
>>>> En théorie c'est totalement invisible pour les adhérents, à part
>>>> quelques ralentissements sur le stockage.
>>>> 
>>>> Aucune interruption sur les machines virtuelles n'est a prévoir,
>>>> cependant il est possible que Murphy s'invite de force... :)
>>>> 
>>>> Les lenteurs sur le stockage pourront durer un peu plus durant le
>>>> week-end le temps que les données se répartissent correctement.
>>>> 
>>>> Aymeric pour tetaneutral.net [1].
>>>> _______________________________________________
>>>> tetaneutral mailing list
>>>> tetaneutral at lists.tetaneutral.net
>>>> http://lists.tetaneutral.net/listinfo/tetaneutral
>> _______________________________________________
>> tetaneutral mailing list
>> tetaneutral at lists.tetaneutral.net
>> http://lists.tetaneutral.net/listinfo/tetaneutral



Links:
------
[1] http://tetaneutral.net
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.tetaneutral.net/pipermail/tetaneutral/attachments/20220207/984ede51/attachment-0001.htm>


More information about the tetaneutral mailing list