[technique] Premiers tests de la plateforme Openstack + ceph + 10Gbit/s a tetaneutral.net

Laurent GUERBY laurent at guerby.net
Sam 20 Sep 16:37:20 CEST 2014


Le Saturday 20 September 2014 à 16:11 +0200, Gaël a écrit :
> Salut !

Salut Gaël,

> C'est excellent ce projet :)
> 
> 
> Je me demande :
> Comment ça se passe pour profiter du cluster ? (je vois ça dans le fil
> de jocelyn)
> Je sais que c'est pas prêt et tout, je questionne juste.

Le cluster va servir aux VM (migration de celles actuellement sous
ganeti en cours) avec en plus le service d'hebergement de disque dur et
reexport (2.5 ou 3.5 d'ailleurs). Donc si tu prends une VM
tu sera sur le cluster, et si tu as un hebergement physique
tu pourra faire heberger des disques durs en plus.

> Si je viens avec mes disques (mettons 20To), je peux en mettre 10To
> qui s'auto backupent sur les 10 autres To ou ça marche différemment ?

Actuellement ceph (la partie stockage distribuée) est configuré
a tetaneutral.net en redondance triple (donc pour 1 TB utile
il faut 3 TB). En cas de perte de 1 sur les 3 le cluster
de stockage continue de fonctionner, si perte de 2 sur
les 3 tous les utilisateurs sont bloqués par le protocole ceph jusqu'a
qu'on revienne a 2 sur 3. Pour information ce sont
les parametres size (3) et min_size (2) d'un pool ceph :

http://ceph.com/docs/master/rados/operations/pools/

> Évidemment, je chiffre tout. Aucun problème ?
> Le protocole d'accès et ceph c'est ça ? 

Oui c'est via le protocole "rbd" qui est supporté sous Linux
(qui te fabrique un /dev/rbd/...) et directement par KVM/libvirt aussi.

https://ceph.com/docs/master/start/quick-rbd/
https://ceph.com/docs/master/rbd/libvirt/

On livrera l'acces au pool ceph sur un VLAN (eth0.3199)
a la machine de l'adherent ou sur un deuxieme port
reseau de la machine si disponible.

> Ça transite chiffré sur le réseau ?
> Jusqu'à ma machine à Myrys j'entends.

Le cluster ceph tetaneutral.net est authentifié par clé via
cephx :

http://docs.ceph.com/docs/v0.71/rados/operations/authentication/

Mais la partie donnée n'est pas chiffrée par ceph/cephx, cependant si tu
utilises du chiffrement avec luks au final sur le reseau
il n'y aura que des blocs chiffrés donc pas besoin de rajouter
une couche supplémentaire.

> D'ailleurs ça serait quoi le débit myrys/TLS00 ?

Actuellement c'est 1 Gbit/s entre TLS00 et Myrys mais
on va passer  a 10 Gbit/s, il faut juste qu'on installe le CRS226 a
Myrys et deux SFP 10G + patch fibre.

http://chiliproject.tetaneutral.net/projects/tetaneutral/wiki/Inventaire#Commande-i4wifieu-20140714

Apres les machines adherents ont en general seulement 
un port 1 Gbit/s mais cela permettra d'avoir plus
de Gbit/s simultanés.

Sincèrement,

Laurent

> Merci pour tout tetaneutral, ça envoie :)
> 
> 
> 
> Gaël
> 
> Le 19 septembre 2014 19:14, Laurent GUERBY <laurent at guerby.net> a écrit :
> > Bonsoir,
> >
> > Fabien, Jérôme et Mehdi ont installé a TLS00 le cluster
> > ceph de test g1+g2+g3 et les switch s9 et s4810a (48x10G) ce mardi
> > 20140916 vers 18h :
> >
> > http://chiliproject.tetaneutral.net/projects/tetaneutral/wiki/Openstack#Ressources
> >
> > Depuis avec Mehdi et les conseils de Loic nous avons commencé a tester
> > le comportement et la performance en reseau et stockage du cluster
> >
> > Au niveau reseau avec notre solution tout routé en /32 (aucun L2
> > partagé, chaque VM est sur son propre tap sans aucun bridge) + BGP avec
> > BIRD pour le suivi des VM on a obtenu en iperf TCP :
> > - 35 Gbit/s de VM  a VM sur le meme hote
> > - 9.5 Gbit/s de VM a VM sur deux hotes differents donc
> > a la limite de l'interface physique (si on fait
> > du bonding des 2x10G ca devrait monter vers 20Gbit/s).
> >
> > Ces resultats sont sans aucun tuning de la partie reseau kernel, la MTU
> > est donc a 1500 partout.
> >
> > En mode bridge (VLAN3131 91.224.149.0/24) avec Openvswitch et la
> > configuration par defaut d'openstack ajoute quelques dizaine de regles
> > iptables qui ne servent a rien dans notre cas on etait limité a
> > 600 Mbit/s entre deux VM sur le meme host.
> >
> > Mehdi a trouvé le moyen de desactiver ces regles et dans ce cas
> > ca remonte a 20 Gbit/s VM sur le meme host.
> >
> > Coté stockage apres un peu de tuning et l'activation du cache tiering de
> > ceph entre notre pool SSD et celui HDD nous sommes arrivés a  55 Mbyte/s
> > agregé en write de 6 VM simultanés sur une dizaine de minutes soit
> > environ 9 Mbyte/s par VM, chaque VM executant :
> >
> > dd if=/dev/zero of=test5G bs=5M count=1024 oflag=direct
> >
> > La redondance du stockage ceph est triple donc chaque donnée
> > est ecrite 6 fois : 1 fois dans le journal puis une fois en stockage
> > et ca sur 3 machines. Ensuite au fil de l'eau les données
> > passent du pool cache SSD vers le rotationnel, il nous
> > reste a comprendre le tuning de cette partie la.
> >
> > En read l'agrégé monte a 2.6 Gbyte/s soit plus de 400 Mbyte/s
> > sur chacune des 6 VM :
> >
> > dd if=test1G of=/dev/null bs=20M iflag=direct
> >
> > Le nombre d'IO/s vu de la VM a l'air de plafonner vers
> > 2400 IO/s, donc avec "bs=4k" on est a 10 Mbyte/s.
> >
> > A noter que lors des tests meme dans les cas ou nous avions mis
> > de tres mauvais parametres ce qui bloquait les VM sur les IO
> > (un des disques full, etc...) tout c'est bien passé
> > et la VM a été mise en pause par le systeme, on a pu
> > la unpause avec libvirt sans autre soucis.
> >
> > Il nous reste aussi a regler un probleme de flag cpuinfo
> > qui empechent la migration live dans certains cas.
> >
> > La doc en cour de redaction sur l'installation :
> >
> > http://chiliproject.tetaneutral.net/projects/tetaneutral/wiki/Openstack_Installation_TTNN
> >
> > Sincèrement,
> >
> > Laurent
> >
> >
> > _______________________________________________
> > technique mailing list
> > technique at lists.tetaneutral.net
> > http://lists.tetaneutral.net/listinfo/technique





Plus d'informations sur la liste de diffusion technique