Architecture de base d'un processeur embarquÃ© - Moodle

Chapitre 3 : Introduction auxarchitectures de systèmes embarqués1. Architectures RISC et difficultés (rappel)2. Parallélisme d’instructions3. Architectures pour ILP (superscalaire, SIMD etVLIW)4. Déroulement de boucles5. Prédiction de branchementINF3610 Systèmes embarqués1

Architecture RISC (rappel)• Cycle d'horloge court• Petit nombre de cycles/instruction• Efficacité du pipeline d'instruction• Comparaisons avec CISC (Complex Instruction-Set Computer):– Pour diminuer les accès mémoires autrefois dispendieuses (de plus, on neconnaissait pas encore la mémoire cache).– Pour simplifier la construction des compilateurs.– Instruction complexe en langage assembleur pour simplifier le mappingavec un langage de programmation de haut niveau.– Pipeline difficile à réaliser donc Ncpi > 1.– N.B. Le CISC est réapparu avec le processeur configurable (RISC + DSP+VLIW + CISC)2INF3610 Systèmes embarqués

Architecture RISC (rappel)• DLX peut être réalisé avec 5 étapes du pipeline:• LI: lecture d'instruction• DI: décodage de l'instruction et lecture des registres• EX: exécution et calcul de l'adresse effective (réalisationde l'opération indiquée par le code d'opération ou additionpour accès mémoire ou addition pour branchement/saut)• MEM: accès mémoire ou fin de branchement (exécutionde l'accès mémoire ou du branchement)• ER: écriture du résultat dans le banc de registres3INF3610 Systèmes embarqués

Architecture RISC (rappel)INF3610 Systèmes embarqués4

Architecture RISC (rappel)INF3610 Systèmes embarqués5

Adresse calculéeLe pipeline DLXCondition de branchementLI/DIDI/EXEX/MEMMEM/ERCP4ADDMUXRINCPRI[6:10]RI[11:15]RegistresMEM/ERABMUXMUXZéro?MémoireinstructionsBranchementprisUALDonnée à écrire enregistreMémoiredonnéesAdresseValeur chargée(DMC)MUXDonnée à écrireRI[16:31]ÉtendreImmRI[0:5] Instruction InstructionINF3610 Systèmes embarqués6Donnée à écrire enregistre

Architecture RISC (rappel)• Objectif du concepteur: équilibrer la taille des étages du pipeline.• L'accélération liée au pipeline = nombre d'étages= 5• Remarques:– La difficulté principale de la technique du pipeline est ce qu'onappelle les aléas du pipeline, en effet il existe des situations,appelées aléas de données, qui empêchent l'instruction suivante duflux d'instruction de s'exécuter au cycle d'horloge qui lui estaffecté.– 3 types aléas: structurels, données et de contrôle– Par conséquent, les aléas réduisent la performance du pipeline(accélération inférieure à 5)• Les aléas (ou dépendance) de données et de contrôle sont ceux quiaffectent l’accélération de 5 (typiquement entre 3.5 et 5 selon lastratégie)INF3610 Systèmes embarqués7

Regardons plus en détail ces dépendances•Dépendances de données•aléas de type LAE (ADD démarreavant que LD soit complété)LDADDDSDF0, 0(R1)F4, F0, F20(R1), F4•antidépendances•aléas de type EAL (à cause dudélai d’exécution de l’opérationDIV, LD est complété avant quele DIV soit complété).LDDIVSDLDDIVSDF0, 0(R1)F4, F0, F20(R1), F4F0, 0(R1)F4, F0, F20(R1), F4INF3610 Systèmes embarqués8

Regardons plus en détail ces dépendances•dépendances de sortie•aléas de type EAE(ADD termine avant DIV)LDDIVSDLDADDSDF0, 0(R1)F4, F0, F20(R1), F4F0, 0(R1)F4, F0, F20(R1), F4INF3610 Systèmes embarqués9

Regardons plus en détail ces dépendances• LAE (lecture après écriture): j essaie de lire la sourceavant que i ne l'ait écrite: j obtient alors l'anciennevaleur. C'est l'aléas le plus fréquent.• EAL (écriture après lecture): j essaie d'écrire dans unedestination avant qu'elle ne soit lue par i. i obtient alorspar erreur la nouvelle valeur.• EAE (écriture après écriture): j essaie d'écrire uneopérande avant qu'il ne soit écrit par i. L'écriture se faitalors dans le mauvais ordre, et laisse dans la destinationla valeur écrite par i plutôt que celle écrite par j.INF3610 Systèmes embarqués10

Regardons plus en détail ces dépendances•Dépendances de contrôleinstruction1 possède une dépendancede contrôle par rapport condition1instruction2 possède une dépendancede contrôle par rapport condition1if (condition1)instruction1;elseinstruction2;if (condition3)instruction3;instruction3 possède une dépendancede contrôle par rapport condition3•Le compilateur doit analyser ces dépendancesINF3610 Systèmes embarqués11

Regardons plus en détail ces dépendances•Dépendances de contrôleinstruction1 possède une dépendancede contrôle par rapport condition1instruction2 possède une dépendancede contrôle par rapport condition1instruction3 possède une dépendancede contrôle par rapport condition3sortie...SUBIBEQZ•Le compilateur doit analyser ces dépendancesLDADDDSDSUBIBEQZ...R1,R1,#8R1, sortieF6,0(R1)F8,F6,F20(R1),F8R1,R1,#8R1, sortieINF3610 Systèmes embarqués12

Technique d’optimisation pour le point flottant (suite)Code DLX sans optimisationB: LD F0, 0(R1) ; chargement element vecteurADDD F4, F0, F2 ; x[i] = x[i] + s;SD 0(R1), F4 ; rangerSUBI R1, R1, #8 ; pointeur (double-mot)BNEZ R1, B ; R1 0AnalyseB: LD F0, 0(R1) 1suspension 2ADDD F4, F0, F2 3suspension 4suspension 5SD 0(R1), F4 6SUBI R1, R1, #8 7BNEZ R1, B 8suspension 91 itération = 9 cycles1000 itérations = 9000 cyclesINF3610 Systèmes embarqués14

Technique d’optimisation pour le point flottant (suite)• On a donc un modèle pipeline avec une seule unité EXqui peut jouer le rôle d’entier ou de flottante. Lorsqu’onfait un ADDD (addition sur un double mot), ça demande4 cycles dans l’unité EX alors que si on fait un ADD(addition sur un entier) ça demande 1 cycle seulement.INF3610 Systèmes embarqués15

Technique d’optimisation pour le point flottant (suite)• Notez également que les 3 étages du ADDD peut êtrepipelinées si il n’y a pas de dépendances de données:Exemple 1: ADDD et SD aux cycles 5 et 6 (pageprécédente)Exemple 2: Deux ADDD consécutifs (ADDD et ADDD auxcycles 5, 6, 7, 8 et 9 de la page suivante)INF3610 Systèmes embarqués16

Technique d’optimisation pour le point flottant (suite)• En résumé on aura:Instruction produisantle résultatINF3610 Systèmes embarquésInstructionutilisant le résultatLatence en cyclesd’horlogeADDD ADDD 3ADDD SD 2LD sur un double ADDD 1LD sur un double SD sur un double 017

Technique d’optimisation pour le point flottant (suite)• Schématiquement on aura:INF3610 Systèmes embarqués18

Technique d’optimisation pour le point flottant (suite)Autres modèles possibles:• Modèle pipeline sauf pour EX qui supporte à la fois lesopérations entières et flottantes.• Modèle pipeline sauf pour EX qui supporte desopérations entières et flottantes distinctes.Réf.: Computer Architecture, A Quantitative Approach, H&P, 1996. p228-251INF3610 Systèmes embarqués19

Technique d’optimisation pour le point flottant (suite)OrdonnancementB: LD F0, 0(R1) 1suspension 2ADDD F4, F0, F2 3SUBI R1, R1, #8 4BNEZ R1, B 5SD 8(R1), F4 61 itération = 6 cycles1000 itérations = 6000 cyclesA = 9000/6000 = 1.5Réf.: Computer Architecture, A Quantitative Approach, H&P, 1996. p228-251INF3610 Systèmes embarqués20

Technique d’optimisation pour le point flottant (suite)Déroulage de la boucle pour 4 itérationsB: LD F0, 0(R1)ADDD F4, F0, F2SD 0(R1), F4LD F6, -8(R1) ; retrait des SUBI etADDD F8, F6, F2 ; BNEZ à chaqueSD -8(R1), F8 ; itérationLDADDDSDLDADDDSDF10, -16(R1)F12, F10, F2-16(R1), F12F14, -24(R1)F16, F14, F2-24(R1), F16SUBI R1, R1, #32BNEZ R1, B1 itération = 27 cycles250 itérations = 6750 cyclesA = 9000/6750 = 1.33Réf.: Computer Architecture, A Quantitative Approach, H&P, 1996. p228-251INF3610 Systèmes embarqués21

Technique d’optimisation pour le point flottant (suite)Déroulage + OrdonnancementB: LD F0, 0(R1)LD F6, -8(R1)LD F10, -16(R1)LD F14, -24(R1)ADDD F4, F0, F2ADDD F8, F6, F2ADDD F12, F10, F2ADDD F16, F14, F21 itération = 14 cycles250 itérations = 3500 cyclesA = 9000/3500 = 2.57SD 0(R1), F4SD -8(R1), F8SD -16(R1), F12; SD -24(R1), F16SUBI R1, R1, #32BNEZ R1, BSD 8(R1), F16 ; 8 - 32 = -24Réf.: Computer Architecture, A Quantitative Approach, H&P, 1996. p228-251INF3610 Systèmes embarqués22

Architectures pour ILP(Superscalaire, SIMD, VLIW)Idée: Exécuter plus d’une instruction par cycleImpact: CPI < 1 !Solutions:Architecture superscalaireplusieurs pipelines travaillent en parallèle surplusieurs instructionsArchitecture VLIW (Very Long Instr. Word)Une seule instruction effectue plusieurs traitementsINF3610 Systèmes embarqués23

Exemple de superscalaire (ARM Cortex A8)INF3610 Systèmes embarqués24

Architecture superscalairePlusieurs pipelines en parallèle•Ordonnancement dynamique selon le cours de l’exécutionExemple 1:INF3610 Systèmes embarqués25

Architecture superscalairePlusieurs pipelines en parallèle•Ordonnancement dynamique selon le cours de l’exécutionPour 2 pipelines on aura:INSTRUCTIONENTIÈRE LI DI EX ME ERFLOTTANT LI DI E1 E2 E3 … En ME ERENTIÈRE LI DI EX ME ERFLOTTANT LI DI E1 E2 E3 … En ME ERENTIÈRE LI DI EX ME ERFLOTTANT LI DI E1 E2 E3 … En ME ERINF3610 Systèmes embarqués26

Architecture superscalaireExemple: Paralléliser: B:LD F0,0(R1)ADDD F4,F1,F2SD 0(R1), F4SUBI R1, R1, #8BNEZ R1, BProblème:Le microprocesseur ne peut pas résoudre tous les aléasde données.Solution:Trouver un ordonnancement déroulé sans délai nisuspension qu’on peut séparer sur 2 pipelines.INF3610 Systèmes embarqués27

Architecture superscalaireLe calcul de l’addition se faiten 3 cyclesAu moins 3 itérations doiventêtre déroulées …Pour 1000 éléments(ou 200 itérations)1 itération = 17 cycles200 itérations = 3400 cyclesA = 9000/3400 = 2.65B:LD F0,0(R1)LD F6,-8(R1)LD F10,-16(R1)LD F14,-24(R1)LD F18,-32(R1)ADDD F4,F0,F2ADDD F8,F6,F2ADDD F12,F10,F2ADDD F16,F14,F2ADDD F20,F18,F2SD 0(R1),F4SD -8(R1),F8SD -16(R1),F12SD -24(R1),F16SUBI R1, R1, #40BNEZ R1, BSD 8(R1),F16INF3610 Systèmes embarqués28

Architecture superscalairePIPELINE ENTIERB:LD F0,0(R1)LD F6,-8(R1)LD F10,-16(R1)LD F14,-24(R1)LD F18,-32(R1)SD 0(R1),F4SD -8(R1),F8SD -16(R1),F12SD -24(R1),F16SUBI R1, R1, #40BNEZ R1, BSD 8(R1),F16PIPELINE FLOTTANTB:ADDDADDDADDDADDDADDDF4,F0,F2F8,F6,F2F12,F10,F2F16,F14,F2F20,F18,F21 itération = 12 cycles200 itérations = 2400 cyclesA = 9000/2400 = 3.75INF3610 Systèmes embarqués29

En résumé:4 modèles possibles pour une architecture (super) scalaire:1. Modèle pipeline avec une seule unité EX (elle aussipipelinable) qui supporte à la fois les opérations entièreset flottantes (ref slide 15 à 18).2. Modèle pipeline sauf pour EX (non pipelinable) quisupporte à la fois les opérations entières et flottantes (refslide 19).3. Modèle pipeline sauf pour EX (non pipelinable) quisupporte des opérations entières et flottantes distinctes(ref slide 19).4. Modèle pipeline avec pour EX plusieurs pipelines enparallèle (ref slide 25).INF3610 Systèmes embarqués30

Architecture VLIWINF3610 Systèmes embarqués31

Architecture VLIW• Une architecture VLIW utilisent plusieurs unitésfonctionnelles indépendantes.• Plutôt que d’essayer de lancer plusieurs instructionsindépendantes vers les unités, une VLIW met plusieursopérations dans une seule instruction très longue, d’oùson nom.INF3610 Systèmes embarqués32

VLIW• Voir aussi:http://marcel.developpez.com/cours/systeme/architectureordinateur/html/node222.html33INF3610 Systèmes embarqués

Architecture VLIWOrdonnancement statiquele compilateur cherche plusieursinstructions indépendantes et les encode enune seuleExemple:Des unités spéciales exécutent chaqued’instructionLD F0,0(R1) || LD F6,-8(R1) || ADDD F10,F12,F16 ||ADDD F11,F13,F17 || bnez r1,b || sub r2,r2,#1INF3610 Systèmes embarqués34

Architecture VLIWUNITÉ TRANSFERT 1LD F0,0(R1)LD F10,-16(R1)LD F18,-32(R1)SD 0(R1),F4SD -16(R1),F12SD -32(R1),F20UNITÉ TRANSFERT 2LD F6,-8(R1)LD F14,-24(R1)SD -8(R1),F8SD -24(R1),F16UNITÉ EXÉCUTION 1 UNITÉ EXÉCUTION 2ADDD F4,F0,F2ADDD F12,F10,F2ADDD F20,F18,F2ADDD F8,F6,F2ADDD F16,F14,F2UNITÉ ENTIÈRESUBI R1, R1, #40BNEZ R1, Bsuspension1 itération = 10 cycles200 itérations = 2000 cyclesA = 9000/2000 = 4.5INF3610 Systèmes embarqués35

Exemple deVLIW(TMS320C6472)INF3610 Systèmes embarqués36

Attention il y a une limite à dérouler les boucles et àvouloir tout paralléliser: parallélisme de boucleL’itération 1 indépendante del’itération 2for (i=1; i

Il y aussi les dépendances de données à traversles itérations de boucle: parallélisme de boucleB[i] de l’itération 2 dépend deB[i+1] de l’itération 1Sauf qu’il n’y a pas de dépendancecirculaire…for (i=1; i

Prédiction de branchement• Prédiction statique• Prédiction dynamique• Délai de branchement39INF3610 Systèmes embarqués

Prédiction statique• Hennessy et Patterson on amassé suffisamment destatistiques pour affirmer que tous les processeurs ont unefréquence d'instructions de branchement conditionnel de11% à 17%, alors que la fréquence des instructions debranchement inconditionnelles varie entre 2% et 8%.• La plupart des branchements à partir du test de bit ne sontpas effectués (trivial sur 32 ou 64 bits)• Pour le DLX ils ont trouvé que:– 53% des branchements cond. sont effectués.– 75% des branchements exécutés sont des branchements avantINF3610 Systèmes embarqués40

Prédiction statique• Par conséquent, à l'aide de ce genre de prédictions,deux actions sont possibles:1. Considérer que le branchement n'est pas effectué ou2. Considérer que le branchement est effectué. L'adressede la destination doit être connue avant le résultat dubranchement.• Remarque: dans les deux cas, si la prédictions'avère fausse, on "flush" le pipeline et on doit toutremettre comme avant (dangereux si on fait desécritures en mémoire).INF3610 Systèmes embarqués41

Prédiction dynamique (matérielle)• On utilise un tampon de prédiction de branchement, c’està-direune petite cache auquel on accède par l'adresse del'instruction à l'étage LI du pipeline ou par 2 bits attachés àchaque bloc du cache instruction et lu avec l'instruction.INF3610 Systèmes embarqués42

Délai de branchement• Soit un délai de branchement de n cycles :Instruction de branchementsuccesseur 1 suivantsuccesseur 2 suivant...successeur n suivantdest du branch si effectué#on ajoute un ordonnancement de n#instructions non dommageables• où les successeurs sont dans les délais de branchement. Ce sont desinstructions non dommageables et autant que possible utile, sinon onpeut utiliser des NOP (No Operation).43INF3610 Systèmes embarqués

Délai de branchement• Il existe au moins 3 façons d'ordonnancerun délai:1. Avant le branchement2. À partir de la cible3. Après le branchement44INF3610 Systèmes embarqués

Délai de branchementINF3610 Systèmes embarqués45

Architecture de base d'un processeur embarquÃ© - Moodle

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?