Une architecture IBM pour accélerer la vitesse d’exécution des applications analytiques

Destinée aux applications d’analyse haute performance et visant aussi le cloud computing, l’architecture GPFS-SNC que prépare IBM apparaît deux fois plus rapide que le système de gestion de fichiers HDFS (Hadoop Distributed File System), selon les tests effectués par le constructeur.

Sur la conférence Supercomputing 2010 (13-19 novembre, Nouvelle-Orléans), IBM a annoncé avoir créé une architecture distribuée exploitant une technologie de système de fichiers réparti deux fois plus rapide que celles qui existent actuellement et qui comprend des techniques avancées de suivi des réplications de données (*).

Dénommée GPFS-SNC (pour General Parallel File System-Shared Nothing Cluster), cette architecture est conçue pour offrir une disponibilité élevée au travers de technologies avancées de clustering. Prasenjit Sarkar (en photo), ingénieur spécialisé dans le stockage des applications analytiques pour la branche recherche d’IBM (un collaborateur adoubé ‘master inventor’ par Big Blue), a expliqué à nos confrères de Computerworld que ce système montait en puissance de façon linéaire. Si un système de gestion de fichiers à 40 noeuds offre un débit de 12 Go par seconde, un système à 400 noeuds atteindra un débit de 120 Go/s, donne-t-il en exemple.  « C’est une bande passante très rentable, 1 Mo/s par dollar. Alors que si vous essayez d’obtenir la même chose avec un réseau de stockage, c’est beaucoup plus coûteux ».

Chaque noeud de l’architecture est auto-suffisant

La nouvelle architecture est conçue pour la prise en charge d’applications analytiques à haute performance et pour le cloud computing. Prasenjit Sarkar décrit GPFS-SNC comme une technologie où chaque noeud ou serveur x86 standard dispose de ses propres métadonnées, de son propre cache, et de ses outils de stockage et de gestion de données, tout en accédant aussi, en même temps, à chaque autre noeud dans la grappe à travers des ports Gigabit Ethernet.

« Ce que nous avons fait, contrairement au système de gestion de fichiers de Google [GFS**], qui a un noeud de domaine unique, c’est que nous avons distribué chaque aspect du système : les métadonnées, l’allocation, la gestion du verrouillage et la gestion des tickets (token management), explique-t-il. Même si vous détachez un rack de serveurs de la grappe, l’ensemble pourra néanmoins continuer à travailler ». En ne partageant rien (d’où la mention « sharing nothing cluster » figurant  dans le nom de la technologie), poursuit Prasenjit Sarkar, il devient possible d’atteindre de nouveaux niveaux de disponibilité, de performance et de montée en puissance avec le système de fichier en grappe. Chaque noeud dans l’architecture GPFS-SNC est également auto-suffisant. Les tâches sont divisées entre ces ordinateurs indépendants et aucun d’entre eux n’a besoin d’en attendre un autre, précise l’ingénieur d’IBM.

GPFS-SNC supporte Posix

Le code GPFS-SNC supporte aussi Posix, qui permet à un large éventail d’applications traditionnelles de fonctionner au-dessus du système de fichiers, et d’exécuter à la fois les opérations de lecture et d’écriture. « Vous pouvez ouvrir un fichier, lire un fichier, puis faire des ajouts et remplacer n’importe quelle section. Avec le système de fichier distribué Hadoop de Google, vous ne pouvez pas faire d’ajout à un fichier, ni réécrire une section. Vous êtes donc assez limité », pointe le master inventor d’IBM.

GPFS-SNC supporte la totalité des fonctionnalités de stockage de données pour l’entreprise, telles que la sauvegarde, l’archivage, la capture instantanée d’images (snapshot), la gestion du cycle de vie de l’information, le data caching, la réplication de données en réseau étendu et la mise en place de politiques de gestion. L’architecture dispose d’un nom de domaine logique unique, ce qui permet de transférer les machines virtuelles entre des noeuds d’hyperviseurs.

« Ainsi, par exemple, dans notre grappe, vous pouvez faire tourner Hadoop aussi bien qu’une base de données DB2 en cluster ou des bases de données Oracle, explique encore Prasenjit Sarkar. Nous pouvons de ce fait utiliser un système de fichier générique pouvant être exploité par une grande variété d’utilisateurs. »

Big Blue vise les applications Hadoop MapReduce

IBM n’a pas précisé quand le système de fichiers GPFS-SNC sortirait de ses laboratoires pour arriver sur le marché. En revanche, Prasenjit Sarkar a indiqué que lorsqu’il serait disponible, il viserait trois domaines : les entrepôts de données (datawarehouses), les applications Hadoop MapReduce et le cloud computing.

« Le cloud n’est pas naturellement une architecture parallèle, mais nous y trouvons des machines virtuelles sur chaque noeud d’hyperviseurs et de nombreux noeuds d’hyperviseurs en parallèle. Chaque machine virtuelle accède à son propre stockage de façon indépendante par rapport aux autres VM. Par conséquent, vous obtenez de nombreux accès parallèles au stockage ».

L’actuelle technologie GPFS d’IBM est au coeur des systèmes haute performance du constructeur américain, Information Archive, Scale-Out Network Attached Storage (SONAS) et Smart Business Compute Cloud. La capacité de la future GPFS-SNC à exploiter en temps réel des applications Hadoop sur un cluster a valu à IBM une distinction dans la catégorie « storage challenge » lors de la conférence Supercomputing 2010.

(*) Les tests ont été faits avec les benchmarks MapReduce sur un cluster de 16 noeuds avec quatre disques SATA par noeud pour comparer GPFS-SNC (pour General Parallel File System-Shared Nothing Cluster) et HDFS (Hadoop Distributed File System).

(**) Google File System (GFS) est un système de gestion de fichiers développé par Google pour ses besoins. Il est conçu pour fournir un accès fiable aux données en s’appuyant sur d’importantes grappes de serveurs.

Source: LeMondeInformatique.fr