[technique] DELL R720

Mer 7 Oct 18:57:42 CEST 2020

> Le 6 oct. 2020 à 22:58, Fabien ADAM via technique <technique at lists.tetaneutral.net> a écrit :
> 
> Le 04/10/2020 à 20:57, Alexandre GUY a écrit :
>> 
>>> En réalité cela n'a pas (encore ?) changé. Il se trouve qu’on fait une reconstruction 1 fois tous les 6 mois environ (quand on change plusieurs disques en panne), donc le reste du temps ça va bien.
>> La dernière fois, vous avez changé 6 disques sur 57. Peux-tu me dire sur quelle période ces 6 disques dur ont grillé ?
> 
> 6 mois.

Ca va, je m’attendais à plus court. 6 disques grillés en 6 mois, c’est raisonnable.

Petite question con en passant : est-il possible d’avoir des disques en spare ?

Deuxième question con : est-ce que l’on supervise les statuts SMART des disques ?

> 
>> 
>> A partir de combien de disques changés la reconstruction est-elle obligatoire ?
> 
> La reconstruction se fait dès que le cluster de disque change : à chaque ajout ou suppression (remplacement inclus), ça se reconstruit. Mais à l’inverse d'un RAID où la reconstruction coûte très cher, Ceph est prévu pour faire une reconstruction d'une toute petite partie du cluster (par exemple un 57ème chez nous), afin d'avoir un impact minime.

Ce qu’il faut surtout comprendre, c’est que Ceph, c’est plus prêt du RAID5/6 que du RAID1.

> Ainsi dans un très gros cluster (1000 disques), changer 1 disque même chaque jour n'a aucun impact visible sur les performances.
> Plus on change de disque d’un coup, plus la "reconstruction" pénalise les performances.

Rien d’étonnant

> 
> Je ne sais pas répondre à la question en fait :
> - la reconstruction est "obligatoire" à chaque changement de disque
> - OU la reconstruction est obligatoire au moment où on a perdu la redondance si bien qu’une panne supplémentaire peut entraîner une perte de données partielle (comme elle est triplée, ça laisse un peu de marge)

Il doit y avoir un quorum où la perte de n disques ou n noeuds du cluster en même temps entraine une perte de données. Cela serait bien de le connaitre avant d’être confronté à la situation :)

> 
>> 
>>> La supervision des machines physiques est relativement limitée, car jusque là on s'aperçoit très vite de l'ensemble des problèmes "binaires". Pour les problèmes plus diffus comme une baise de performance CPU, ça fait effectivement défaut aujourd’hui.
>> Je pense qu’il faudrait au moins superviser (avec notifications) sur les machines physiques :
>> - vitesses de rotation de tous les ventilateurs
>> - status SMART des disques durs
>> - capteurs de températures de la CM
>> - métriques système classique (CPU, RAM, IO)
> On est d'accord.
> 
> A+

La question qui va se poser : on l’installe sur quelle machine cette supervision ? si c’est pour la mettre dans une VM du cluster, c’est un peu débile :)

Pourquoi pas le DELL ?

Bonne soirée,

Alex.

> _______________________________________________
> technique mailing list
> technique at lists.tetaneutral.net
> http://lists.tetaneutral.net/listinfo/technique