ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Auteurs : soumettez
votre article en ligne
Autres revues >>

Technique et Science Informatiques

0752-4072
Revue des sciences et technologies de l'information
 

 ARTICLE VOL 31/8-10 - 2012  - pp.1049-1078  - doi:10.3166/tsi.31.1049-1078
TITRE
HydEE, vers un protocole de recouvrement arrière hiérarchique pour les machines exascales. De l’exploitation du déterminisme des émissions dans les protocoles de recouvrement arrière

TITLE
HydEE, towards a hierarchical rollback-recovery protocol for exascale computers. Leveraging send-determinism in rollback-recovery protocols

RÉSUMÉ

Dans la perspective de la conception de supercalculateurs exascales, de nouvelles solutions de tolérance aux fautes doivent être trouvées. Pour les applications parallèles à échange de messages, les protocoles de tolérance aux fautes fondées sur le recouvrement arrière sont privilégiés. Pour pouvoir supporter des applications de très grande taille et des fréquences de défaillance élevées, un protocole doit être capable de confiner les conséquences des défaillances à un petit sous-ensemble de processus tout en offrant de bonnes performances en fonctionnement normal, et en limitant les quantités de données à sauvegarder, en particulier en mémoire. Cet article offre un état de l’art détaillé des protocoles de recouvrement arrière, et met en évidence les limites des solutions existantes à répondre à ces objectifs. Pour pallier ce problème, nous proposons HydEE, un protocole de recouvrement arrière hiérarchique combinant sauvegarde de points de reprise coordonnés et enregistrement de messages. HydEE se fonde sur le déterminisme des émissions des applications parallèles du calcul scientifique pour pouvoir tolérer des fautes multiples sans recourir à un support de stockage stable. Pour vérifier l’applicabilité de notre approche, nous présentons une analyse qui montre que pour la plupart des applications, sauvegarder le contenu de moins de 15% des messages en mémoire, permet de limiter les retours arrières après une défaillance à moins de 15% des processus.



ABSTRACT

The move towards exascale super-computers requires new fault tolerance solutions. Fault tolerance for message passing applications is usually based on a rollback-recovery protocol. To be able to deal with very large scale applications and high failure rate, a protocol should be able to confine failures consequences to a small subset of the processes, while providing good failure free performance, and logging a limited amount of data, especially in memory. This article gives a detailed state-of-the-art of existing rollback-recovery solutions, and highlights that none of them manage to meet the requirements for exascale fault tolerance. We propose HydEE, a hierarchical rollback-recovery protocol that combines coordinated checkpointing and message logging. HydEE leverages the send-determinism of scientific parallel applications to tolerate multiple failures without relying on a stable storage. To access the applicability of our approach, we present an analysis showing that for most applications, saving less than 15% of the messages payload in memory is enough to limit the rollbacks after a failure to less than 15% of the processes.



AUTEUR(S)
Amina GUERMOUCHE, Thomas ROPARS, Franck CAPPELLO

MOTS-CLÉS
calcul haute performance, applications parallèles, MPI, tolérance aux fautes, recouvrement arrière, protocoles hiérarchiques.

KEYWORDS
high performance computing, parallel applications, MPI, fault tolerance, rollback-recovery, hierarchical protocols.

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 12.5 €
• Non abonné : 25.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (302 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier