Mise en page 1 - IRIT

Architecture, 

Systèmes et Réseaux 

Traces stands for Research 

group on Architecture 

and Compilation 

for Embedded Systems 

(Recherche en Architecture et Compilation pour les Systèmes Embarqués) 

TRACES 

6Thème 

■ Problématique et résultats 

L’équipe TRACES rassemble des chercheurs issus de deux anciennes équipes (APARA 

et RSDP) qui s’intéressent aux aspects matériels des systèmes embarqués temps-réel. 

L’objectif premier est de garantir que le temps d’exécution d’une application est compatible 

avec les contraintes temporelles du système. 

Deux approches sont explorées : 

• l’approche descendante consiste à générer de manière automatique un matériel 

dédié à l’application qui garantit le respect de contraintes temporelles spécifiées. 

Cette approche a été explorée dans le cadre du projet RSDP dont l’objectif est 

de définir une méthodologie de spécification et de développement permettant ensuite 

la conception automatique d’une architecture répartie dédiée. 

• l’approche ascendante, qui repose sur l’utilisation de processeurs généralistes, 

cherche à en caractériser les propriétés temporelles. L’objectif est de proposer 

des modes d’utilisation permettant une estimation à la fois précise et fiable 

des temps d’exécution ainsi que des extensions architecturales améliorant la prévisibilité 

temporelle des composants. 

Le temps d’exécution d’un programme dépend des données en entrée. Or le domaine 

de variation de ces données est souvent trop large pour envisager de tester tous 

les cas. C’est pourquoi les recherches de ces dernières années se sont orientées vers 

des méthodes permettant d’évaluer le temps d’exécution pire cas (WCET : Worst-Case 

Execution Time) à partir de mesures de segments de code (typiquement des blocs 

de base). Cette évaluation comporte trois volets : une analyse statique du code permet 

d’identifier les chemins d’exécution possibles ; une étude du matériel cible détermine 

le temps d’exécution des blocs de base ; enfin, les résultats de ces deux analyses 

sont combinés pour calculer une borne supérieure du temps d’exécution. Nos travaux 

s’inscrivent dans le second volet : analyse du comportement temporel du matériel. 

Les processeurs généralistes haute performance seront sans aucun doute les processeurs 

embarqués de demain si la tendance actuelle se poursuit (le système de commande 

de vol de l’A380 intègre déjà un PowerPC 750). Or ces processeurs comportent des mécanismes 

dynamiques (ordonnancement des instructions, prédiction de branchement, 

mémoires caches, ...) qui rendent leur analyse statique très difficile et coûteuse. 

Les obstacles à leur prévisibilité temporelle sont liés à l’ordonnancement dynamique 

des instructions et à l’exploitation, par certains éléments (ex : prédicteur de branchement), 

de l’historique d’exécution. Il résulte de ces deux éléments que le temps d’exécution 

d’un bloc de base dépend de ce qui est exécuté avant lui. 

PERSONNEL 

Professeurs 

Daniel Dours (10/05) 

Pascal Sainrat 

Maîtres de conférence 

Hugues Cassé (09/04) 

Marianne De Michiel 

Christine Rochange 

Doctorants 

Jonathan Barre (09/04) 

Reda Bekkouche (12/03) 

Claire Burguière (09/04) 

Belkacem Cherfaoui 

(12/03) 

Thierry Haquin (09/03) 

Tahiry Ratsiambahotra 

(09/04) 

Philippe Reynès (07/04) 

Contractuels 

Marc Finet (12 mois) 

Antoine Barthe (4 mois) 

// 111

Architecture, 


Traces stands for Research group on Architecture and Compilation for Embedded Systems (Recherche en Architecture 

et Compilation pour les Systèmes Embarqués) – TRACES 

RÉFÉRENCES 

[4834] 

Hugues Cassé, Christine 

Rochange, Pascal Sainrat. 

An Open Framework for WCET 

Analysis. IEEE Real-Time Systems 

Symposium - WIP session, 

décembre 2004. 

[4919] 

Claire Burguiere, 

Christine Rochange. 

A contribution to branch 

prediction modeling 

in WCET analysis. 

DATE’2005 (Design, Automation 

and Test in Europe), mars 2005. 

[5143] 

Christine Rochange, 

Pascal Sainrat. 

A Time-Predictable Execution 

Mode for Superscalar Pipelines 

with Instruction Prescheduling. 

ACM Int. Conf. on Computing 

Frontiers. Mai 2005. 

[5785] 

Daniel Dours, 

Marianne De Michiel, 

Patrick Magnaud, 

Reda Bekkouche, 

Belkacem Cherfaoui. 

Estimations pour 

le partitionnement de systèmes 

temps rée strict sur FPGA. 

Technique et science 

informatiques, 

vol. 23, n° 4, août 2004. 

RÉSULTATS IMPORTANTS 

Archtecture, 


En ce qui concerne l’approche descendante, le projet RSDP a abouti au développement 

de l’outil RSDT (Real-time Systems Design Tool) qui permet de partitionner une application 

et de générer automatiquement un système réparti (à partir de composants 

logiciels ou matériels dédiés) qui réalise l’application en respectant les contraintes 

temporelles spécifiées [5785]. 

Pour l’approche ascendante, nos contributions pour une amélioration de la prévisibilité 

temporelle se sont portées sur deux éléments du processeur : le prédicteur de branchements 

et le pipeline. 

Les travaux antérieurs au sujet de la prédiction de branchements cherchaient à analyser 

ce mécanisme de la même manière qu’une mémoire cache (autre composant exploitant 

l’historique d’exécution), c’est-à-dire en prenant en compte tous les chemins possibles 

dans le graphe de flot de contrôle ou dans l’arbre syntaxique. Nous avons proposé une 

approche beaucoup plus simple basée sur une analyse des structures algorithmiques 

dans le code source. Cette analyse permet de borner de manière statique le nombre d’erreurs 

de prédiction, ce qui permet d’intégrer les pénalités correspondantes dans le temps 

d’exécution [4919]. Nous avons également montré qu’une prédiction statique de certains 

branchements permet parfois de réduire le WCET [5834]. 

En ce qui concerne le pipeline, il a été montré dans la littérature que, dans un pipeline 

un tant soit peu évolué, le temps d’exécution d’un bloc de base peut dépendre 

d’un bloc situé bien en amont sur le chemin d’exécution. Nous avons quantifié ces 

effets (appelés effets temporels longs) pour un processeur superscalaire à exécution 

non ordonnée et nous en avons analysé les sources. Nous avons, par la suite, proposé 

l’intégration, dans le processeur, d’un dispositif de régulation du flot d’instructions 

qui impose une distance (calculée dynamiquement) entre deux blocs de base suffisante 

pour empêcher la survenue de tout effet temporel long [5143]. 

Ces recherches nécessitent de nombreuses expérimentations visant à évaluer les performances 

moyennes et pire-cas des mécanismes proposés. Pour cela, nous sommes 

amenés à mettre en oeuvre divers algorithmes proposés dans la littérature et, parfois, 

à les composer en fonction des éléments soumis à évaluation. Nous développons 

actuellement la plate-forme OTAWA destinée à faciliter le processus d’expérimentation, 

et de permettre l’exploration de nouvelles méthodes de calcul de WCET adaptées 

à des processeurs toujours plus complexes. Cette plate-forme fournit des outils permettant 

de manipuler un code objet et une bibliothèque de fonctions d’analyse qui peuvent 

enrichir le code avec des informations temporelles qui peuvent ensuite être exploitées 

pour borner le temps d’exécution [4834]. 

■ Prospective 

Les difficultés de borner le temps d’exécution sur un processeur haute-performance 

sont liées aux interférences entre blocs de base qui se manifestent au niveau de l’ordonnancement 

des instructions et au sein de mécanismes qui exploitent l’historique 

d’exécution (comme les caches). 

Or, pour contourner les limites de la technologie qui ne permet pas d’augmenter indéfiniment 

la fréquence des processeurs, les constructeurs commencent à mettre en oeuvre 

des mécanismes qui visent à accroître encore le parallélisme des traitements et donc 

les risques d’interférences. L’approche multiflot simultané (simultaneous multithreading, 

ou SMT) permet l’exécution en parallèle de plusieurs flots d’instructions (threads) sur 

un même processeur : chaque flot dispose d’un ensemble de ressources privées 

(registres, …) et l’ensemble des flots actifs partagent des ressources de calcul communes 

(unités fonctionnelles, mémoires cache, …). La présence de plusieurs flots permet d’occuper 

au mieux les unités fonctionnelles et de se rapprocher des performances crête. 

L’approche multicœur (multicore) consiste à intégrer sur une même puce plusieurs cœurs 

d’exécution, un réseau de communication et de la mémoire. Le système est alors similaire 

à un multiprocesseur à mémoire partagée classique, capable d’exécuter plusieurs pro- 

112 //

cessus en parallèle. Cette approche permet d’obtenir des performances plus importantes 

qu’avec un seul cœur, ou, à performances égales (avec des cœurs plus simples), de réduire 

la consommation, ce qui peut être un paramètre important dans un système embarqué. 

Des processeurs mettant en oeuvre une ou l’autre de ces approches (et même les deux) 

sont déjà disponibles et seront probablement utilisés dans un contexte temps-réel dans un 

futur proche. 

Dans un processeur multiflot, l’entrelacement temporel des flots influence l’ordonnancement 

de leurs instructions respectives (par « ordonnancement », on n’entend pas 

seulement « ordre d’exécution » mais aussi « dates d’exécution »). Dans un processeur 

multicœur à mémoire partagée, le partage de ressources telles que le bus mémoire est 

également susceptible d’avoir une influence sur le temps d’exécution de chaque flot 

(à cause de son impact sur les latences d’accès à la hiérarchie mémoire). Ainsi, il n’est 

plus envisageable d’évaluer le temps d’exécution d’un flot considéré isolément et 

il devient nécessaire d’analyser plusieurs flots de manière conjointe, en prenant 

en compte tous les entrelacements possibles. Par ailleurs, par le biais du partage 

de certaines unités de mémorisation (caches de niveau 1, prédicteur de branchement… 

pour les processeurs multiflot, caches de niveau 2 et 3 pour les processeurs multicœur), 

plusieurs flots exécutés en parallèle sont susceptibles d’interférer les uns avec 

les autres. En effet, ces unités ne sont généralement pas partitionnées, et chaque flot 

peut remplacer des éléments mémorisés par un autre flot par des éléments qui 

le concernent. 

Par ailleurs, dans le cas où les différents flots font partie d’une même application et 

se partagent une partie de l’espace mémoire, le mécanisme matériel de gestion de 

la cohérence des données dans les caches est lui aussi susceptible d’éliminer certains 

éléments des caches. Là encore, cela remet complètement en cause les techniques 

actuelles d’analyse de ces unités et nécessite une approche globale prenant en compte 

l’ensemble des flots concurrents. 

[5834] 

Claire Burguière, 

Christine Rochange, 

Pascal Sainrat. 

A Case for Static Branch 

Prediction in Real-Time Systems. 

IEEE International Conference 

on Embedded and Real-Time 

Computing Systems 

and Applications (RTCSA), 

août 2005. 

Nos travaux à venir se situent dans ce cadre. Tout d’abord, nous envisageons de déterminer 

les spécificités de ces architectures et d’identifier précisément les obstacles 

à leur prévisibilité temporelle. Notre objectif est, à terme, de définir l’architecture idéale 

d’un processeur haute performance pour les systèmes embarqués afin de répondre à un 

besoin clairement affiché par l’industrie. Cette architecture devra présenter les bonnes 

propriétés temporelles et être accompagnée d’une représentation formelle de son fonctionnement 

facilement manipulable par des outils de haut niveau. 

■ Thèses et habilitations 

• Reda Bekkouche. Contribution à la conception sûre de sytèmes complexes, critiques 

et distribués. Thèse UPS, 12/2003 

• Belkacem Cherfaoui. Partitionnement de systèmes temps-réel-strict pour une 

implantation sur FPGAs. Thèse UPS, 12/2003 

• Thierry Haquin. Séquences de branchement : prédiction de branchements et optimisation 

du chargement des instructions. Thèse UPS, 09/2003 

• Philippe Reynès. Étude de mécanismes de réutilisation d’instructions.Thèse UPS, 

07/2004 

■ Collaborations, contrats et transfert 

• RNTL précompétitif ATLAS (Analyse par Test des Logiciels embarqués en Appliquant 

la Simulation généralisée). Partenaires : EADS, TNI, CEA, LRI. 2002-2004 

• RNTL exploratoire COP (Centre d’optimisation de programmes). Partenaires : 

Hewlett-Packard, ST Microelectronics, LRI. 2003-2005 

• Participation au cluster « Multithreading » du NoE Hipeac (réseau d’excellence européen). 

Partenaires : UPC Barcelona, University of Augsburg. 2005 

// 113

Architecture, 


Traces stands for Research group on Architecture and Compilation for Embedded Systems (Recherche en Architecture 

et Compilation pour les Systèmes Embarqués) – TRACES 

• Avant-Projet FERIA. ALCAAM. Partenaires : ONERA, ENSICA. 2004 

• Avant-Projet FERIA. METEoRe. Partenaire : LAAS. 2005 

• Action spécifique « Nouvelles technologies et nouveaux paradigmes d’architectures 

» du RTP Architecture et Compilation 

• Action spécifique « Adéquation architecture OS » du RTP System on Chip 

• Distribution du générateur de simulateurs fonctionnels GLISS : cet outil génère à 

partir d’une description de haut niveau du jeu d’instructions d’un processeur, 

le simulateur de ce jeu d’instructions. 

• Participation à la création de la bibliothèque Microlib : cette bibliothèque permet 

de construire aisément un simulateur précis au cycle près de processeur et doit 

permettre de reproduire tout aussi aisément des expériences. 

■ Animation, gestion et vulgarisation 

de la recherche 

• Animation du RTP Architecture et Compilation 

• Animation du groupe Architecture du GDR ARP 

• Membre du réseau d’excellence européen HiPEAC 

• Expertise pour la commission européenne, la région Rhône-Alpes, le RNTL, l’université 

Paris-Sud 

• Comités de programme (PACT, IPDPS, Sympa) 

• Comités de rédaction de “noir sur blanc”, rédaction d’un article « L’objet informatisé » 

NsB numéro 3 

114 //

Mise en page 1 - IRIT

Create successful ePaper yourself

Delete template?

Save as template?