Solution Quiz automne 2009 - Moodle - Ãcole Polytechnique de ...

INF8500 - Intra - Automne 2009Question 1 (4 points)SystemC et raffinement des communicationsa) (.5 pt) Pourquoi est-il toujours préférable, lorsque cela est possible, d’utiliser leSC_METHOD plutôt que le SC_THREAD ou même le SC_CTHREAD ?C’est d’abord et avant tout une question de performance (vitesse d’exécution). En effet unSC_METHOD c’est comme une fonction C/C++ alors qu’un SC_THREAD ouSC_CTHREAD c’est implémenté à partir d’une librairie de thread POSIX (Linux) ou encoreFIBERS pour Windows. Or à cause de son implémentation dans le noyau du OS, le threadest beaucoup moins rapide que la fonction en temps d’exécution.b) (.5 pt) Pour quel type de lecture n’a-t-on pas le choix que d’utiliser le SC_THREAD ?Expliquez.Lecture bloquantec) (1 pt) Quelle(s) différence(s) existe-t-il entre les 2 modèles suivants (Fig. 1.1) du point devue comportement ? Expliquez.#include "systemc.h"SC_MODULE (code1) {sc_in data, clk, reset ;sc_out q;};bool q_l ;void tff () {if (reset.read()) {q_l = 0;} else if (data.read()) {q_l = !q_l;}q.write(q_l);}SC_CTOR(code1) {SC_METHOD (tff);sensitive

INF8500 - Intra - Automne 2009d) (2 pts) Soit le raffinement des communications en SystemC BCA obtenu pour l’applicationJPEG illustrée à la figure 1.2 (page suivante).d.1) (1 pt) Complétez la fonction Requete_Acceptee du code des pages 3 et 4. Complétezdans votre cahier de réponse.Voir page 4d.2) (1 pt) À la figure 1.2, on suppose qu’on a une version TF de m_iquant et une inversionTF de m_table. Quelle(s) modification(s) devrait-on apporter aux adaptateurs AdaptQ etAdaptT afin de supporter une version TF de m_iquant et une inversion RTL (CA) dem_table. Donnez les grandes lignes de ces modifications.La méthode AdapQ reste inchangée alors qu’il faut raffiner la méthode AdapT au niveauRTL. Ce raffinement implique de définir une version cycle accurate sous forme d’unemachine à états (tel que présenté dans le cours).Page 2 de 21

INF8500 - Intra - Automne 2009#include "systemc.h"//#############################Interface Maison#######################################class quant_vers_table_if : virtual public sc_interface{public:// du côté du quantificateur inversevirtual void Demande_Requete(int Sel, int Ind) =0;virtual int Lire_Coefficient() = 0;};class table_vers_quant_if : virtual public sc_interface{public:// du côté de la table des valeurs précalculéesvirtual void Requete_Acceptee(int *Sel, int *Ind) = 0;virtual void Envoie_Coefficient(int Coeff) = 0;};class adaptQ: public sc_channel, public quant_vers_table_if{public:sc_in clk;sc_out req;sc_in ack;sc_inout data;// constructeurSC_CTOR(adaptQ) {}void init () {req.write(false); // Tous les signaux de contrôle sont initialisés à 0// afin d'assurer un blocage au démarrage}void Demande_Requete(int Sel, int Ind) {//envoie du sélecteurdo {wait(clk ->posedge_event());} while (!ack.read());data.write(Sel);req.write(true);wait(clk->posedge_event());req.write(false);}//envoie de l'indexdo {wait(clk->posedge_event());} while (!ack.read());data.write(Ind);req.write(true);wait(clk->posedge_event());req.write(false);int Lire_Coefficient() {req.write(true);do {wait(clk->posedge_event());} while (not ack.read());Page 4 de 21

INF8500 - Intra - Automne 2009};};req.write(false);return(data.read());class adaptT: public sc_module, public table_vers_quant_if{public:sc_in clk;sc_out req;sc_in ack;sc_inout data;// constructeurSC_CTOR(adaptT) {}void init () {req.write(false); // Tous les signaux de contrôle sont initialisés à 0}void Requete_Acceptee (int *Ind, int *Sel) {//On lit le sélecteur et sa valeur est retournée à la tablereq.write(true); // On est prêt à recevoirdo { //On attend le signal de m_iquant pour démarrerwait(clk->posedge_event());} while (!ack.read());*Sel = data.read();req.write(false); // La lecture de Sel est complétéewait(clk->posedge_event());//On lit l'index et sa valeur est retournée à la tablereq.write(true); // On est à nouveau prêt à recevoirdo { //On attend le signal de m_iquant pour redémarrerwait(clk->posedge_event());} while (!ack.read());*Ind = data.read();}req.write(false); // La lecture de Ind est complétée};void Envoie_Coefficient (int Coeff) {do {wait(clk->posedge_event());} while (not ack.read());data.write(Coeff);req.write(true);wait(clk->posedge_event());req.write(false);}Page 5 de 21

INF8500 - Intra - Automne 2009Question 2 (6 points) Algorithmes d’ordonnancement pour le matérielyxzr+n1cn5 * -n2asn6+*n3bqn7**n4n9-+n8s o rFigure 2.1a) (3 pts) Appliquez l’algorithme du list scheduling sur le DFG de la figure 2.1 avec lescontraintes de ressource suivantes: deux unités arithmétiques et un multiplieur. Chaque typed’opération demande 1 cycle. Vous devez :a.1) Faire le ASAP et le ALAP pour les besoins du problème;a.2) Donner la mobilité des nœuds;a.3) En vous servant du résultat de cette mobilité, appliquer l’algorithme du listscheduling. Utilisez une Plist par opérateur et en cas d’égalité, utilisez l’ordretopologique. Expliquez clairement votre démarche.Page 6 de 21

INF8500 - Intra - Automne 2009a.1)ASAPALAPa.2)Mobilité :n1 n2 n3 n4 n5 n6 n70 0 0 0 0 0 0a.3) Nous avons deux additionneurs/soustracteurs et un multiplieur :Cycle 1 :Plist x = {n5}Plist +/- = {n1}On choisi n1 et n5Cycle 4 :Plist x = {n4 et n7}Plist +/- = {n8}On choisi n7 et n8 et lamobilité de n4 passe à -1.Cycle 2 :Plist x = {}Plist +/- = {n2 et n6}On choisi n2 et n6Cycle 5 :Plist x = {n4}Plist +/- = {n9}On choisi n4 et n9Cycle 3 :Plist x = {n3 et n7}Plist +/- = {}On choisi n3 et la mobilité den7 passe à -1.On obtient graphiquement :Page 7 de 21

INF8500 - Intra - Automne 2009n5x +n1n6+-n2xn3n7xn8+xn4n9-b) (3 pts) On vous demande d’appliquer l’algorithme force directed sur le DFG de la figure 2.1en 5 étapes de contrôle avec une unité arithmétique et un multiplieur. Pour cela vous devez :b.1) Faire le ASAP et le ALAP pour les besoins du problème;b.2) Donner la mobilité des nœuds;b.3) Calculer Fcost k,j où k est une étape de contrôle et j un opérateur. Faites aussi leschéma de distribution;b.4) En vous servant du résultat de cette mobilité, appliquez l’algorithme du forcedirected sur le nœud n1 et n8 en utilisant les forces directes et indirectes. Expliquezclairement votre démarche. Parmi n1 et n8, lequel des deux nœuds devrait êtrechoisi? Selon ce choix, mettez Fcost k,j à jour et refaites un schéma de distribution.Page 8 de 21

INF8500 - Intra - Automne 2009b.1) On a un maximum de 5 cycles :b.2)Mobilité :n1 n2 n3 n4 n5 n6 n71 1 1 1 1 1 1b.3)D’abord Pi,jPage 9 de 21

INF8500 - Intra - Automne 2009Calculons F cost k,jF cost 1,+/- = ½F cost 2,+/- = ½ + ½ + ½ = 1.5F cost 3,+/- = ½ + ½ = 1F cost 4,+/- = ½ + ½ = 1F cost 5,+/- = ½ + ½ = 1F cost 1,* = ½F cost 2,* = ½F cost 3,* = ½ + ½ = 1F cost 4,* = ½ + ½ + ½ = 1.5F cost 5,* = ½b.4)Appliquons l’algorithme en utilisant les forces directes et indirectes :où i, est le numéro du nœud traité, k est l’étape de contrôle et j le type de ressourcesTotal-Force 1,+/-, 1 = Force 1,+/-, 1 = ½ - (1/2 + 3/2)/2 = -1/2Total-Force 1,+/-, 2 = Force 1,+/-, 2 +Force 2,+/-, 3 + Force 3,*, 4 + Force 4,*, 5 +Force 6,+/-, 3 + Force 7,*, 4 + Force 8,+/-, 5 + Force 9,+/-, 5// Forces directes// Forces indirectes// Forces indirectesTotal-Force 8,+/-, 5 = Force 8,+/-, 5 = 1 - (1 + 1)/2 = 0Total-Force 1,+/-, 2 = Force 8,+/-, 5 +Force 6,+/-, 2 + Force 3,*, 3 + Force 2,*, 2 +Force 1,+/-, 1 + Force 5,*, 1// Forces directes// Forces indirectes// Forces indirectesP.S. Comme personne ne c’est rendu la et que j’ai annulé cette partie, je n’ai pas développer leforces indirectes. Je vous laisse le faire en exercices…Pour une solution complète voir le no 3 des exercicesPage 10 de 21

INF8500 - Intra - Automne 2009Question 3 (3 points) Estimateurs logicielsSoit le DFG de la figure 3.1 :yxzr+n1cn5 * -n2asn6+*n3bqn7**n4n9-+n8s o rFigure 3.1Considérez d’abord que le délai pour le multiplieur est de 2 cycles alors que celui de l’unitéarithmétique et logique est de 1 cycle. Ensuite, soit les contraintes temporelles (de l’usager)suivantes :1 L’opération n4 démarre au moins 6 cycles après le démarrage de n2;2 L’opération n7 démarre au plus 2 cycles après que l’opération n1 soit démarrée.a) (2 pts) Sans appliquer l’algorithme de linéarisation étape par étape, donnez un résultat delinéarisation possible qui minimiserait le temps d’exécution sur un processeur embarquéayant une seule unité de calcul multifonctionnel (+, - et *) tout en tenant compte descontraintes temporelles de l’usager. Sur votre graphe d’ordonnancement, donnez pourchaque nœud l’étape de contrôle où il sera cédulé.b) (1 pt) En tolérant un spill set maximal de 1, indiquez quel serait le nombre minimal deregistres requis sur le processeur selon votre résultat de linéarisation.Page 11 de 21

INF8500 - Intra - Automne 2009a)*n5+n1+n6*n7-n2-n9*n3+n8*n4-26Cycle 1 cycle3 cycle 4 cycle5 cycle 7 cycle 8 cycle 9 cycle 11 cycle 13En sachant qu’entre n1 et n7 on a 2 cycles (addition) la contrainte 2) est respectée. D’autre part,entre n2 et n4 je dois avoir au moins 6 cycles. Il faut donc que je cédule n4 au cycle 13. Il y adonc 2 cycles inutilisés.b)J’ai besoin au maximum de 5 registres (voir entre n2 et n9). Pour obtenir un spill set de 1 il fautdonc 4 registres. Notez qu’ici je n’ai pas considéré l’allocation de registres pour lesentrées/sorties mais j’aurais pu le faire. Quel serait alors les changements?Page 12 de 21

INF8500 - Intra - Automne 2009Question 4 (3 points) Estimateurs matérielsS1S2V1V2V3*V10V4+V5V11+V6V12-V7 V8 V9S3V13V14+V15*V16S4*V17V18V19S5-*V20V21S6Figure 4.1a) (1.5 pt) À partir de la figure 4.1, faites le tableau du temps de vie des variables (v1 à v21).(Suggestion : Utilisez un mode paysage).b) (1.5 pt) Dans le cours, nous avons vu le tableau de la Figure 4.2 (page suivante) pour letemps de vie des interconnexions. Sachant que les interconnexions A à H sont lesinterconnexions d’entrée, déterminez le nombre de bus requis en entrée pour le coprocesseurqui calcule la racine carrée. Utilisez une approche par clique ou par coloration de graphe.Expliquez clairement votre démarche.Page 13 de 21

INF8500 - Intra - Automne 2009a)S1 S2 S3 S4 S5 S6V1 X X X X XV2 X X X XV3 XV4 XV5 XV6 XV7 X XV8 X X XV9 X X X X XV10 X XV11 X XV12 X XV13 X X XV14 X XV15 X XV16 X XV17 X XV18 X X X XV19 X X XV20XV21XPage 14 de 21

INF8500 - Intra - Automne 2009b)En gras on a les partages possibles sur deux bus (cliques) et en pointillés on a les conflitspossibles.Le minimum de clique est de 2, ce qui fait 2 bus seulement. Mais il faut alors unmultiplexeur (D et E) à l’entrée droite du 2 e unité arithmétique et logique.En effet, même si sur le tableau il y a un recouvrement entre C et D à l’étape de contrôles2, ce n’est pas véritablement un conflit car les 2 opérations (qui s’exécutent enparallèle) utilisent les mêmes valeurs d’entrées.Évidemment, j’ai accepté des cliques de 3 et même de 4 (si pas de MUX).Page 15 de 21

INF8500 - Intra - Automne 2009S0 S1 S2 S3 S4 S5 S6 S7AxB x xC x x xD x xExF x x x xGxHxI x x xJ x x x xKxLxM xN xFigure 4.2Page 16 de 21

INF8500 - Intra - Automne 2009Question 5 (4 points) Synthèse ESL avec Cynthesizer (labo 1)Considérez un module SystemC avec les ports d’entrée in et valid_in, les ports de sortie out etvalid_out, et dont la fonctionnalité (son SC_CTHREAD) est donnée par le bout de code cidessous:1: int i;2: unsigned int in_data [256];3: unsigned int out_data[256];4:5: while(1) {6:7: while(valid_in.read() == false) {8:9: }10:11: for(i=0;i

INF8500 - Intra - Automne 2009a) Ajouter wait(1); à la ligne 8, après la ligne 12 et après la ligne 23.b) Envelopper le bloc de lecture (lignes 7 à 13) et le bloc d’écriture (lignes 21 à 25) chacun dansun bloc CYN_PROTOCOL.c) Remplacer unsigned int par sc_uint ou unsigned char aux lignes 2 et 3.(L’algorithme utilise seulement les 8 bits de poids faible de in_data à la ligne 17)d) Utiliser une directive CYN_LATENCY pour l’ensemble de cette boucle. Elle peut être exécutéeen moins de 256 cycles si elle est déroulée et si les tableaux in_data et out_data sontimplémentés en registres (et non en mémoire RAM).Page 18 de 21

INF8500 - Intra - Automne 2009AnnexeConcernant le list scheduling :Concernant le Force Directed :Page 19 de 21

INF8500 - Intra - Automne 2009Concernant la linéarisation :Page 20 de 21

INF8500 - Intra - Automne 2009Concernant l’algorithme de la racine carrée :UF1 = [abs(a),max]UF2 = [abs(b),min,+,-]UF3 = [>> 1]UF4 = [>> 3]R1 = [a,t1,x,t7]R2 = [b,t2,y,t3,t5,t6]R3 = [t4]Sources etdestinations desconnexionsa)b)Page 21 de 21

Page 22 de 21INF8500 - Intra - Automne 2009

Solution Quiz automne 2009 - Moodle - Ãcole Polytechnique de ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?

Solution Quiz automne 2009 - Moodle - Ãcole Polytechnique de ...