Un protocole de sauvegarde/reprise coordonné pour les applications à flot de données reconfigurables
La probabilité d'apparition d'une défaillance durant l'exécution d'une application parallèle de longue durée sur un grand nombre de processeurs est importante. Dans cet article, nous considérons l'étude d'un nouveau protocole de sauvegarde/reprise basé sur la construction coordonnée d'un état global cohérent, et dont la reprise après défaillance d'un processus ne nécessite qu'un redémarrage partiel de certains autres processus. Ce protocole repose sur l'existence d'une représentation abstraite de l'exécution.
Fault tolerance protocols play an important role in today long runtime scientific parallel applications. The probability of a failure may be important due to the number of unreliable components involved during simulation. In this paper we present our approach and preliminary results about a new checkpoint/recovery protocol based on a coordinated scheme. One feature of this protocol is that fault recovery fault only requires a partial restart of other processes. This protocol is tightly coupled to the availability of an abstract representation of the execution.
X.BESSERON, L.PIGEON, T.GAUTIER, S.JAFAR
Reçu le 23 janvier 2007.
Accepté le 25 octobre 2007.
grille, tolérance aux fautes, calcul parallèle, flot de données.
grid, fault tolerance, parallel computing, dataflow graph.
Français
|