Processeurs de traitement du signal (DSP) - Université de Savoie

Processeurs de traitement du 

signal (DSP) 

Sylvain MONTAGNY 

sylvain.montagny@univ-savoie.fr 

Bâtiment chablais, bureau 13 

04 79 75 86 86 

Retrouver tous les documents de Cours/TD/TP sur le site 

www.master-electronique.com

Présentation des cours : Sommaire 

Cours : 13.5 h en 9 séances 

Chapitre 1 : Introduction aux systèmes de traitement numérique 

Chapitre 2 : Représentation numérique du signal 

Chapitre 3 : Les unités spécifiques des DSP 

Chapitre 4 : Le DSP TMS320C5416 

Chapitre 5 : Un outil de développement logiciel, code composer 

studio 

Université de Savoie 2

Présentation TD 

TD : 7.5 h en 5 séances 

TD1 : Codage des nombres et architecture numérique 

TD2 : Etude avancée de l’architecture d’un DSP, le DSPic30F2010 

TD3 : Organisation mémoire et organisation du code 


Présentation TP 

TP : 16h en 4 séances de 4h 

TP1 : Prise en main de l’environnement de programmation 

Code Composer Studio 

TP2 : Détection de fréquence dans un signal DTMF 


Examens 

Un contrôle final : 1h30 

Une note de travaux pratiques 


Chapitre 1 : Introduction aux systèmes de 

traitement numérique 

1.1 Chaîne de traitement numérique 

1.2 Solutions classiques de traitement 

numérique et problématiques 

1.3 Le marché des DSP 


Chaîne de traitement numérique 

Capteurs 

Acquisition Numérisation DSP Reconstruction Restitution 

Université de Savoie 7 

Actionneurs


Avantages 

Pas de dérive des composants : Température, 

vieillissement, valeurs 

Précision : Garantie et calculable par le nombre de 

bits 

Souplesse : Plusieurs tâches simultanées possibles 

Prédiction : Simulation sur ordinateur 

Prototypes : Changements par modifications du 

logiciel 



Inconvénients 

Coût : Elevé pour des réalisations simples 

Vitesse : Faible bande passante, vitesse de calcul 

faible devant la fréquence d’échantillonnage parfois 

élevée 

Complexité : Réalisation à la fois matérielle et 

logicielle 



Exemples d’applications (1) 

A la Maison 

Télévision à la demande, Télévision Satellite, Jeu Vidéo et Réalité 

Virtuelle, Electroménager, Réseaux, ... 

DVD, HDTV, CD, DAB, DVB 

Au Bureau 

Vidéoconférence, Fax, Modems, Pagers, etc. 

Réseaux rapides, Sans-fil (WLAN, WiFi, etc.) 

ATM, ISDN, ADSL 

Sur la route 

Téléphone cellulaires, Commande vocale, Radar et Sonar, GPS et 

traceur de route, Fax/Modems sans-fil, Véhicules intelligents, etc. 




Télécommunications : détection de 

tonalité 

697 Hz 

770 Hz 

852 Hz 

941 Hz 

1 2 3 

4 5 6 

7 8 9 

* 0 # 

1209 Hz 1336 Hz 1477 Hz 

Fréquences de tonalité du clavier numérique 

Schéma de détection 

de tonalité 

LP Filter 

HP Filter 

Limiter 

Limiter 

-0 dB 

-3 dB 

-30 dB 

|G| (dB) 

BP Filter Detector 







Gabarit du filtre numérique 

697 Hz 

770 Hz 

852 Hz 

941 Hz 

1209 Hz 

1336 Hz 

1477 Hz 

S1 

S2 

Université de Savoie F 

11 

F 

FP P2 

1 

F 

Fe 

2



12



1.1 Chaine de traitement numérique 





Problématique et solutions 

Filtrage numérique sur processeur classique (1) 

Fonction de transfert d’un filtre numérique 

h( 

z) 

= 

Programme d’un filtre numérique 

loop: 

mov *r0,x0 

mov *r1,x1 

mpy x0,x1,a 

add a,b 

mov x1,*r2 

inc r0 

inc r1 

inc r2 

dec ctr 

tst ctr 

jnz loop 

b0 

+ b1. 

z −1+ 

... + bqz − q 

a0 

+ a1. 

z −1+ 

... + ap. 

z − p 

Lecture des opérandes sources 

Opération MAC 

Vieillissement de l’échantillon 

Gestion des pointeurs d’adresse 

Gestion de la boucle 

Exécution en 15 à 20 cycles 

14


Filtrage numérique sur processeur classique (2) 

Problèmes : 

Temps d’accès aux échantillons 

Temps d’accès aux coefficients 

Gestion des pointeurs d’adresse 

Multiplication lente 

Stockage du résultat 



Objectifs des DSP 

On cherche donc à : 

Obtenir une gestion aisée (automatisée) des pointeurs 

pour les boucles 

Multiplier le nombre de chemin entre le processeur et la 

mémoire pour éviter le goulot d’étranglement 

Réaliser des multiplications en 1 coup d’horloge 



Exemple d’une opération 

MAC : Multiplication / Accumulation 

A ← A + (X.Y) 

Processeur classique: 

Accès mémoire X puis Y 2 cycles 

Multiplication 1 cycle 

Addition 1 cycle 

Processeur DSP spécialisé: 

Accès mémoires + MAC 1 cycle 



Objectifs d’un DSP 

Très faible coût 

Le coût est proportionnel à la surface du circuit 

Faible consommation 

Pmoy = K . V dd 2 . FHorloge 

K : facteur lié au type de processeur 

Une partie importante de la consommation est liée à la mémoire 

V dd : Tension d’alimentation du composant 

Gestion du temps réel 

Implémentation efficace des applications de Traitement du 

signal. 



Gestion du temps réel 

Te = Période d’échantillonnage 

T = Temps de traitement 

Horloge 

acquisition 

Activité 

processeur 

T 

Te 

Interruption 

Entrée de l’échantillon Sortie du résultat 


t 

t


Solutions architecturales 

Compromis performance – flexibilité 

Cf article : Architecture reconfigurable, les processeurs du futurs 

Efficacité énergétique 

En MIPS/W 

100-1000 MOPS/mW 

ASIC 

Embedded 

FPGA 

Pleiades 

10-50 MOPS/mW 

Reconfigurable 

Processor 

2 V DSP 

3 MOPS/mW 

DSP 

E E : Efficiency : MIPS / Watt 

Embedded 

Processor 

SA110 

0.4 MIPS/mW 

Alpha 

0.007 MIPS/mW 

20 

Flexibility



1.1 Chaine de traitement numérique 





Le marché des DSP 

De 1992 à 2007 

Les DSP ont connu une des plus fortes croissances du 

marché de l’industrie des semi-conducteurs. 

14000 

12000 

10000 

8000 

6000 

4000 

2000 

0 

1992 

1993 

1994 

DSP Market Trends (M$) 

1995 

1996 

1997 

1998 

1999 

2000 

2001 

2002 

2003 

2004 

2005 


2006 

2007


Par constructeur 

70% 

60% 

50% 

40% 

30% 

20% 

10% 

0% 

Texas 

Instruments 

Freescale (Agere) 

Chiffres 2007 

S ource : Forward C oncepts 

Wireless/DSP Market Bulletin, 4 Fevrier 2008 

Analog 

Devices 

Autres (NXP, 

NEC, 

65% 12% 7% 3% 13% 



Historique et évolutions 

1 e génération 1979-1985 

Architecture Harvard 

Multiplieur câblé 


Parallélisme 

Bus multiples 

Mémoire sur la puce 


Virgule flottante 

4e génération 1992-1997 

Image et vidéo 

Processeurs faible consommation 

5e génération 1997-2008 

VLIW 

Hybrides 

Multicore 

DSP + RISC 


Chapitre 2 : Représentation numérique du 

signal 

2.1 De l’analogique au numérique 

2.2 Le codage des nombres entiers 

2.3 Le codage des nombres réels 


De l’analogique au numérique 

Volts 

Signal Analogique 

Temps 

Discrétisation en temps 

Valeurs continues de tension 

en fonction du temps 

Discrétisation en temps par 

échantillonneur-bloqueur à la 

fréquence 

fs = 1 / Ts 

Signal Discrétis Discr tisé en temps 


T S

Valeurs continues 


Signal Echantillonné 

Echantillonn 

Discrétisation 

en amplitude 

Restriction des instants considérés 

Restriction des valeurs de magnitude 

possible 

Valeurs discrètes 

Signal Numéris Num risé 


q


Signal 

Analogique 

Echantillonnage 

Restriction des instants 

considérés 

Fréquence d’échantillonnage 

fs = 1 / Ts 

Signal 

Echantillonné 

Quantification 

Signal 

Numérique 

0011100101 

0010010110 

1101001011 

Restriction des valeurs de 

magnitude possibles 

Ensemble fini de valeurs 

quantifiées 

Représentables par un mot 

binaire de N bits 



Caractéristiques du signal échantillonné 

0 

0 

fc 

Spectre de Fréquence Fr quence du Signal Analogique 

Spectre de Fréquence Fr quence du Signal d’é d’échantillonnage 

chantillonnage 

fs 2fs 3fs 

Spectre de Fréquence Fr quence du Signal échantillonn chantillonné 

fc fs 2fs 3fs 



Théorème de Shannon 

Fs > 2Fc 

Fs = 2Fc 

Fs < 2Fc 

0 fc fs 2fs 3fs 

4fs 

0 fc fs 2fs 3fs 4fs 5fs 

fc fs 2fs 3fs 

0 4fs 5fs 6fs 7fs 

Repliement de spectre, 

donc impossible de retrouver le signal d’origine 

30


Effets du repliement de spectre 

Reconstitution d’un signal 

échantillonné à fs > 2fc 

Reconstitution d’un signal 

échantillonné à fs < 2fc 



Quantification Uniforme 

On parle de quantification uniforme si les intervalles (valeurs 

du signal numérisés) sont de même longueur q ( q est le pas 

de quantification ) 

L’erreur de quantification est l’écart entre la valeur réelle et la 

valeur quantifiée : 

1. Erreur de d’arrondi 

e ≤ 

q 

2 

2. Erreur de saturation xvaleur max 



1. Erreur d’arrondi 

Plage globale de 

quantification 

q 

0 

0 1 2 3 4 5 6 7 8 

Temps 

Rapport signal sur bruit relatif à la quantification 

dB dB ⎛ P ⎞ 

⎜ 

Px 

⎞ 

RSB 

⎟ 

dB = Px 

− Pe 

= 10log 

x 

RSB 

⎜ 

⎝ P ⎟ 

dB = Px 

− Pe 

= 10log ⎝ P 

⎟ 

e ⎠ 

On peut montrer que le RSB se rapproche de l’expression 

⎟ 

dB dB ⎛ P ⎞ x 

RSB = − = 

⎜ 

dB Px 

Pe 

10log 

⎝ Pe 

⎠ 

2 ⎛ 3 ⎞ 

≈ + 6 −10log10( 

max ) + log10⎜ 

⎟ 

⎝ 2 ⎠ 

x 

N P RSB 

dB 

2 ⎛ 3 ⎞ 

dB ≈ x + 6 −10log10( 

max ) + log10⎜ 

⎟ 

⎝ 2 ⎠ 

x 

N P RSB 

dB 

2 ⎛ 3 ⎞ 

≈ + 6 −10log 

( ) + 

dB x 

10 max log10⎜ 

⎟ 

⎝ 2 ⎠ 

x 

N P RSB 

dB 

dB x 

e 

9 

33


2. Erreur de saturation 

xmax 

0 

0 1 2 3 4 5 6 7 8 

Temps 

e 

9 

Cette erreur se produit 

lorsque l’amplitude de 

l’échantillon à convertir 

dépasse xmax ou xmin 

C’est une erreur non bornée, 

on cherche donc à minimiser 

la probabilité de saturation. 

Le RSB se dégrade très 

rapidement au-delà d'un seuil 

où cette probabilité est non 

négligeable. 



Quantification uniforme et RSB 

RSB (dB) 

120 

100 

80 

60 

40 

20 

Quantification uniforme 16 bits sur [-1,1] 

pente de +1 (10dB/décade) 

erreur d’arrondi 

saturation 

0 

-60 -50 -40 -30 -20 -10 0 10 

puissance du signal (dB) 

Quantification uniforme 16 bits signés sur [-1,1] 

35


Quantification uniforme vs logarithmique 

1 

0.5 

0 

-0.5 

Signal original x 

-1 

0 0.2 0.4 0.6 0.8 1 

1 

0.5 

0 

-0.5 

Signal quantifié x q =Q(x) 

-1 

0 0.2 0.4 0.6 0.8 1 

quantif. uniforme 

domaine linéaire 

1 

0.5 

0 

-0.5 

Signal original x 

-1 

0 0.2 0.4 0.6 0.8 1 

1 

0.5 

0 

-0.5 

Signal quantifié x q =C -1 (y q ) 

-1 

0 0.2 0.4 0.6 0.8 1 

quantif. logarithmique 

domaine linéaire 

1 

0.5 

0 

-0.5 

Signal compressé y=C(x) 

-1 

0 0.2 0.4 0.6 0.8 1 

1 

0.5 

0 

-0.5 

Signal quantifié y q =Q(y) 

-1 

0 0.2 0.4 0.6 0.8 1 

quantif. uniforme 

domaine compressé 

36


Quantification Uniforme vs Logarithmique 

RSB (dB) 

45 

40 

35 

30 

25 

20 

15 

10 

5 

Loi A sur 8 bits 

Uniforme sur 8 bits 

0 

-60 -50 -40 -30 -20 -10 0 10 

puissance du signal (dB) 

granulation 

saturation 

Loi A 

RSB à peu près constant 

sur une plage de 30 dB 

La compression limite les 

effets de la granulation 

Quantification uniforme 

L’effet de granulation est 

linéaire par rapport à la 

puissance du signal 








Le codage des nombres entiers 

Non signées 

A chaque chiffre est affecté un poids exprimé en puissance de 2 : 

Exemple 

( 101 ) 2 1.2 2 + 0.2 1 + 1.2 0 = ( 5 ) 10 

∑ − N 

1 

i 

= 

0 

x = ∑ − 

x = ∑ − 

x 

= 

Signées : Complément à 2 

C’est le format le plus utilisé en arithmétique binaire. Le bit de poids fort 

représente le signe 

Nombre positif : codé comme un non-signé 

Nombre négatif : codé par son C2 (Inversion des bits puis 

ajout de1) 

b 

2 


i 

i


Entiers signés : Format complément à 2 

2 1 N − 

− 

Dynamique 

1 

1 

2 − 

− N 

Signe 

Nombre Codage 

3 

2 

1 

0 

-1 

-2 

-3 

-4 

0 

0 

0 

0 

1 

1 

1 

1 

Format le plus utilisé en arithmétique binaire 

1 

1 

0 

0 

1 

1 

0 

0 

1 

0 

1 

0 

1 

0 

1 

0 

Complément à 2 de x : 

C2(x) = 2 N –x 

Implantation efficace : 

Inversion des bits puis ajout de 1 

C2(x) = C1(x) + 1 

40


Propriétés du codage en complément à 2 

Représentation “circulaire” 

En ajoutant 1 à la plus 

grande valeur positive on 

obtient la valeur négative 

extrême 

Les DSP peuvent être 

configurés pour opérer de 

deux manières: 

C2 pur 

C2 avec arithmétique de 

saturation 

-2 

-1 

-3 

111 

110 

101 

000 001 

100 

010 

011 

C2 pur C2 avec saturation 


0 

-4 

1 

3 

2







Le codage des nombres réels 

La représentation des nombres doit répondre à deux 

exigences contradictoires : 

Précision: intervalle entre deux rationnels codés : 

>>> Doit être le plus petit possible 

Dynamique: Rapport entre le plus grand rationnel et le plus petit 

rationnel codés : 

>>> Doit être la plus étendue possible 

Dans ce contexte les unités de calcul des DSP travaillent 

Soit en format fixe (notation décimale) 

Soit en format flottant (notation scientifique) 



1. Codage en virgule fixe 

2. Codage en virgule flottante 



1.Codage en virgule fixe (1) 

Le format d’une donnée ne varie pas au cours du temps 

Représentation : partie entière - partie fractionnaire 

-2 m-1 

x = ( −2) 

2 1 2 0 

S bm-1 bm-2 b1 b0 b-1 b-2 b-n+2 b-n+1 b-n Partie entière codée en C à 2 Partie fractionnaire 

m 1 

m 1 

S ∑ 

i n 

− 

− 

+ 

= − 

b 

2 -1 

i 

2 

i 

2 -2 

CA2 

2 -n 



1. Codage en virgule fixe (2) 

Propriétés: 

Partie fractionnaire codée sur k bits 

Partie entière codée sur N-k bits en C2 

Définition "format Q k " : 

La représentation Q k du réel x correspond à la 

représentation CA2 de l'entier y tel que: 

k 

y = 

round( 2 x) 

Q 0 désigne le cas particulier des entiers signés en CA2 




Si on ne précise pas le format Q k , un nombre 

binaire peut représenter plusieurs valeurs. 

Exemple : 01011101 peut représenter : 

Q2 : 23.25 

Q4 : 5.8125 

Q7 : 0.7265625 




Exemple: Q 5 sur 8 bits 

Partie entière codé sur 3 bits (dont 1 de signe) 

Partie fractionnaire codée sur 5 bits 

Valeurs comprises entre -4 et +3.96875 

Erreur maximale q /2 = 2 -6 si arrondi au plus proche 

48



2 

-4 1 0 0 

0 21 -22 #/Poids , 

-3.96875 

0 

3.9375 

3.96875 

1 

0 

0 

0 

0 

0 

1 

1 

0 

0 

1 

1 

2 -1 

0 

0 

0 

1 

1 

2 -2 

0 

0 

0 

1 

1 

2 -3 

0 

0 

0 

1 

1 

2 -4 

0 

0 

0 

1 

1 

2 -5 

0 

1 

0 

0 

1 

49



Précision: quantification uniforme de pas q 

q=2 -k 

Dynamique: 

-2 N-k-1 >> 2 N-k-1 -2 -k 

Exemple format sur 16 bits: 

Quel format faut-il pour représenter tous les réels : 

entre -1 et 1? 

Entre -8 et 8 

Entre -200 et 200 

>>Donner la précision de chaque codage. 



2. Codage en virgule flottante 


Représentation : exposant - mantisse 

La mantisse et l’exposant sont représenter eux même en CA2. 

Ils peuvent donc prendre des valeurs négatives. 

dE-1 d1 d0 cM-1 c2 c1 c0 Exposant 

x = Mantisse . 2 

Mantisse 

Exposant 

Norme IEEE : 

Exposant sur 8 bits 

Mantisse sur 24 bits 

1 ≤ |Mantisse|


Comparaison fixe - flottant 

Niveau de dynamique 

DN ( dB) 

⎛ max( x) 

⎞ 

= 20. 

log⎜ 

⎟ 

⎜ 

= 

min( x) 

⎟ 

⎝ ⎠ 

Rapport Signal à Bruit de 

Quantification 

⎛ P ⎞ s 

ρ dB = 10. 

log ⎜ = 

P ⎟ 

⎝ e ⎠ 

Dynamique en dB 

RSB en dB 

1500 

1000 

500 

0 

100 

80 

60 

40 

20 

0 

Dynamique virgule fixe/flottante 

10 15 20 25 30 

Nombre de bits 

Rapport Signal à Bruit virgule fixe/flottante 


Virgule fixe 


Virgule fixe 

-50 0 50 

Dynamique du signal d entré e en dB 

52


3.1 Architecture générale et objectifs 

3.2 Unité de commande 

3.2 Unité de traitement 

3.3 Unité de mémorisation 

3.4 Unité de communication 

3.5 Performance / Consommation 


Architecture générale et objectifs 

Unité de 

commande 

Mémoire 

interne 

Processeur 

CPU 

Bus internes 

Unités de 

traitement 

Unité de 

Communication 

Périphériques 

et mémoire externes 



Unité de commande 

Rôle : 

Permet de séquencer le déroulement des instructions 

Objectifs pour être performant 

Pilotage de chaque module du DSP indépendamment les uns des 

autres 

Gestion efficace des boucles 

Encodage des instructions : 

Minimiser la taille des instructions 

Encoder le maximum de parallélisme 



Unité de traitement 

Rôle : 

Assure les traitement nécessaire àl’exécution des instructions 


Réaliser efficacement les traitements typiques 

1 MAC par cycle 

1 décalage de N bits (droite ou gauche) en 1 cycle 



Unité de mémorisation 

Rôle : 

Mémoire de programme 

Mémoire de donnée 


Alimenter efficacement en données l’unité de traitement afin 

de ne pas la ralentir 

Gérer efficacement les pointeurs d’adresse 



Unité de communication 

Rôle : 

Contrôle les accès aux données, aux instructions externes ou 

à d'autres processeurs 


Limiter l’utilisation des ressources processeur lors de ces 

accès. 











Chef d’orchestre du CPU 

Chargement des instructions 

Compteur de programme (PC) 

Registre d’instruction 

Cache d’instructions 

Séquençage 

Décodage des instructions 

Pilotage les autres unités 



Le pipeline 

La gestion des boucles 


Les phases du Pipeline 

P (Prefecth) - Generate program address = Incrémentation du compteur ordinal 

F (Fetch) - Get Opcode = Lecture du code de l’instruction en mémoire 

D (Decode) - Decode instruction = Décodage de l’instruction 

A (Access) - Generate read address = Calcul des adresses des opérandes 

= Calcul de l’adresse du résultat 

R (Read) - Read operands = Lecture des opérandes en mémoire 

X ( Execute) = Exécution de l’instruction 

= Ecriture du résultat l’adresse calculée 

P F D A R X 

Full Pipeline : Toutes les unités 

matérielles du DSP sont en activités 

P 

F 

P 

D A R X 

F 

P 

D A R X 

F 

P 

D A R X 

F 

P 

D A R X 

F 

D A R X


Séquentiel vs pipeline 

t1 t2 t3 t4 t5 t6 t7 t8 

Instruction Instruction 1 Instruction 2 

Fetch F1 F2 

Decode D1 D2 

Read R1 R2 

Execute X1 X2 

t1 t2 t3 t4 t5 t6 t7 t8 

Fetch F1 F2 F3 F4 F5 … … … 

Decode D1 D2 D3 D4 D5 … … 

Read R1 R2 R3 R4 R5 … 

Execute X1 X2 X3 X4 X5 

Amorçage du pipeline 

Exécution séquentielle 

Exécution avec pipeline : entrelacement des instructions 

CPU 

CPU 

F1 - 

D1 - 

R1 - 

X1 

- 

F4 F5 

D3 D4 

R2 R3 

X1 X2 

MemP 

MemD 

MemD 

MemP 

MemD 

MemD 



Exemple de rupture de séquence 

Code à exécuter : 

1: Instr1 

2: Si B==1 Alors GOTO 10: 

3: Instr3 

4: Instr4 

5: Instr5 

6: Instr6 

Si prédiction incorrecte (B=1) Si prédiction correcte (B≠1) 

t1 t2 t3 t4 t5 t6 t7 t8 

F F1 F2 F3 F4 F5 F10 F11 F12 

D D1 D2 D3 D4 ! D10 D11 

R R1 R2 R3 ! ! R10 

X X1 X2 ! ! ! 

Evaluation du prédicat (B==1) 

=> rupture de séquence 

… 

10: Instr10 

11: Instr11 

12: Instr12 

… 

Etat du pipeline avec prédiction que B≠1 : 

Vidange du pipeline: 

Perte de 3 cycles 

t1 t2 t3 t4 t5 t6 t7 t8 

F F1 F2 F3 F4 F5 F6 … … 

D D1 D2 D3 D4 D5 D6 … 

R R1 R2 R3 R4 R5 R6 

X X1 X2 X3 X4 X5 

Evaluation du prédicat (B==1) 

=> pas de rupture


Exemple de conflit d'accès mémoire 

Programmes et Données dans la même mémoire à 1 accès par cycle 

t1 t2 t3 t4 t5 t6 t7 t8 

Fetch F1 F2 conflit conflit F3 F4 ! ! 

Decode D1 D2 ! ! D3 D4 ! 

Read R1 R2 ! ! R3 R4 

Execute X1 X2 ! ! X3 

Conflit pour l’accès mémoire entre Fetch et Read 

Les lectures de données R1/R2 empêchent les chargements d'instruction F3/F4 

Réductions des performances d'au moins 50% 

Problème réglé si 

Mémoire multi-accès 

Programmes et Données dans des mémoires différentes (ou multi-bloc) 


8


Effets du pipeline lors du débogage 

Code à exécuter : 

1: A=1 

2: B=1 

3: C=1 

… NOP … 

10: A=2 

11: B=2 

12: C=2 

13: D=2 

14: E=2 

… 

Watch Window 

A 1 

B 1 

C 1 

Watch Window 

A 1 ??? 

B 1 

C 1 

Watch Window 

A 2 !!! 

B 1 

C 1 

Watch Window 

A 2 

B 2 

C 1 

La flèche indique la position du PC 

Plusieurs cycles sont nécessaires 

avant que la variable soit modifiée : 

Cela n’intervient qu’à l’étape X 

(exécution) 

t1 t2 t3 t4 t5 t6 t7 t8 

F F10 F11 F12 F13 F14 … … … 

D D10 D11 D12 D13 D14 … … 

R R10 R11 R12 R13 R14 … 

X A=2 B=2 C=2 D=2 E=2

Programme 1 

Visualisation des variables 

Programme 2 

Visualisation des variables


Utilisation des ressources par le pipeline 

Etage 

pipeline 

P 

F 

D 

A 

R 

X 

Generate program address 

Get Opcode 

Decode instruction 

Generate read address 

Read Operand 

Generate write address 

Execute instruction 

Write result 

Description 

Partie hardware utilisée 

PC 

Program memory 

Decoder 

ARs, ARAU 

Data memory 

ARs, ARAU 

MAC, ALU 

Data Memory 

68


Retards dans le pipeline 

Le pipeline atteint son plein rendement une 

fois qu’il est “rempli” 

Un retard peut se produire 

S’il existe un conflit de ressources (retard ponctuel) 

accès à la mémoire 

utilisation des bus 

En cas de rupture de séquence (vidange du 

pipeline) 

branchement non prévu 

appel de sous-programme 

interruption 



Gestion des boucles 

L’objectif est d’optimiser le traitement des 

boucles de petite taille 

Initialisation des paramètres de la boucle en 1 instruction 

Pas d'instructions supplémentaires pour la gestion de la fin 

de la boucle 

Exemple boucle mono-instruction 

MOVE #16,B 

LOOP MAC (R0)+,(R4)+,A 

DEC B 

JNE LOOP 

RPT #16 

MAC (R0)+,(R4)+,A 

Boucle logicielle Boucle matérielle 



Exemple : Calcul d’un filtre RIF 

Gestion matérielle des boucles : 

Unité de génération d’adresses programme 

A=0; 

for (i=0; i> 15; 

A = A + B[i] * X[i]; 

Code C 

Unité MAC matérielle 

+ Chargement simultané 

de l’instruction et des 

opérandes 

Unité de génération 

d’adresses données 

y 

∑ − N 1 

i= 

0 

( n) 

= b( 

i) 

x( 

n − i) 

B[i] X[i] 


Y 

SSBX FRCT 

STM #B, AR2 

STM #X, AR3 

STM #Y, AR4 

RPTZ A, #N-1 (x1) 

MAC *AR2+,*AR3+, A (xN) 

STH A, *AR4 (x1) 

Equivalent ASM


Optimisation du compilateur C 

#define N 256 

short in[N]; 

short out[N]; 

void toto() 

{ 

int i; 

} 

Code C 

for (i=0; i


Unité de contrôle du C50 

• PC sur 16 bits 

• pile de 8 * 16 bits 

• PFC,IR: pour le pipeline 

• Registres de status ST0,ST1,PMST 

• Gestion des boucles 

• RPTC: repeat instruction 

• BRCR: repeat bloc 

• Interruptions : 

• IMR: masque interruptions 

• IFR: flags interruptions 

• BMAR: bloc move 

• GREG: mémoire globale 











DSP virgule fixe / virgule flottante 

Il existe deux types de DSP : 

Les DSPs à virgule fixe traitent des nombres 

entiers seulement 

Les DSPs à virgule flottante traitent des 

nombres réels codés sous la forme mantisse 

exposant. 



DSP virgule fixe (1) 

Arithmétique : 

Dynamique limitée : [-X max et X max ] : Possibilité de 

débordement nécessité de recadrer les données 

Développement : 

Temps de développement plus long : Étude de la 

dynamique des données, détermination du codage et 

des recadrages 



DSP virgule fixe (2) 

Architecture : 

Opérateurs plus simples 

Largeur des données b : 16 bits 

Efficacité énergétique plus importante, consommation moins 

importante 

Processeur plus rapide 

Processeur moins cher (surface du circuit moins importante) 

Marché : applications grand public 

95% des ventes en 96 TMS320C62x : 

- f CLK : 

CLK : 300 MHz (150 MHz - 300 MHz) 

- On Chip Memory 72 Kbytes 896 Kbytes 

- Price : $9 

TMS320C64x : 

- f CLK : 

CLK : 1 GHz (300 MHz - 1GHz) 


77 

- Price : $18


DSP virgule flottante (1) 

Arithmétique : 

Dynamique importante : 1500 dB pour 32 bits 

Développement 

Temps de développement plus court 

Recadrage des données assuré par le processeur 

Compilateur de langage de haut niveau plus efficace : plus 

grande portabilité 



DSP virgule flottante (2) 

Architecture : 

Largeur des données : 32 bits 

Opérateurs plus complexes (gestion de la mantisse et de 

l’exposant) 

Marché 

Processeur plus cher et consommant plus 

Applications nécessitant une grande dynamique : 

audionumérique 

Applications avec des faibles volumes 

TMS320C67x : 

- f CLK : 

CLK : 300 MHz (100 MHz - 300 MHz) 


- Price : $14 105 

79


Fonctions typiques 

Quelques fonctions à réaliser en 1 cycle d’horloge : 

Filtrage, convolution 

Adaptation 

y = y + x.h : MAC (multiplication-accumulation) 

y n = y n-1 + x.h : MAD (multiplication-addition) 

FFT, multiplication complexe 

Viterbi 

xr = xr.wr - xi.wi 

xi = xr.wi + xi.wr 

a1 = x1 + x2; a2 = y1 + y2; 

y = (a1>a2) ? a1 : a2 : ACS 



Exemple 

Filtre numérique FIR sur N points 

x(n) 

y( 

n) 

x 

= 

∑ − N 1 

i= 

0 

h( 

i). 

x( 

n− 

i) 

= x( 

n) 

∗h( 

n) 

D D D D 

x 

h(0) h(1) h(2) h(3) h(4) 

+ 

x 

+ 

Cellule 

x 

+ 

y(n) 

Objectif : traitement d’une cellule par cycle 


x 

+


Eléments de l’unité de traitement (1) 

Opérateurs 

Multiplieur câblé 

Multiplication en 1 cycle ou pipelinée (1 résultat de multiplication 

par cycle) 

Le résultat est fourni directement à l’UAL ou il est stocké dans un 

registre (P register) 

Largeur des opérandes source : b 

résultat : b multiplication =2.b 

Unités de saturation ou d’arrondi 

Unités spécifiques 

Unité de manipulation de bit, Viterbi, ... 



Eléments de l’unité de traitement (2) 

U.A.L. 

Opérations arithmétiques : addition, soustraction, 

incrémentation, négation 

Opérations logiques : and, or, not 

Additionneur indépendant de l’UAL 

Registres à décalage (recadrage des données) 

spécialisé : réalisation de quelques décalages 

prédéfinis en // 

en barillet : réalisation d ’un décalage quelconque 

en 1 cycle 



Éléments de l’unité de traitement (3) 

Unités de stockage de l’unité de traitement 

Registres opérandes 

Stockage des opérandes sources ou des résultats intermédiaires 

Registres d’accumulation 

Stockage du résultat de l ’additionneur 

Nombre de registres d’accumulation limité (1 à 4) 

Données stockées en double précision 

Possibilité de bits de garde pour stocker les bits supplémentaires 

issus d ’accumulations successives b add =b multiplication + b garde 

Bits de garde ACC H ACC L 

b garde 

2.b 

84


Structure de l’unité de traitement MAC 

b add 

b 

+ 

AA 

Accumulateur 

Sat /Arr 

× 

P 

b mult 

BB 

b 

MAC 



Exemple : TMS320C54x 

DB PB CB DB CB DB CB EB 

DB 

1 multiplieur 16*16 bits 

Op source 1 : registre T 

Op source 2 : mémoire 

Op destination : 

1 additionneur 40 bits 

1 ALU (40 bits) 

2 registres d ’accumulation 40 

bits 

1 registre à décalage en 

barillet 

1 unité dédiée à l ’algorithme 

de Viterbi 











Les différents accès à la mémoire 

Exemple Filtre FIR 

Recherche de l’instruction 

Lecture de la donnée x n-k 

Lecture du coefficient h k 

Vieillissement des données x n-k-1 = x n-k 

x(n) 

D D D D 

x 

x 

x 

x 

h(0) h(1) h(2) h(3) h(4) 

+ 

+ 

TAP 

+ 

x 

+ 

y(n) 

88


Rappels : Bus 

Le CPU est le maître du bus 

Il est le seul à écrire sur les bus adresse et contrôle 

Le périphérique obtempère sur le bus données 

Lecture : il fournit la donnée demandée 

Ecriture : il récupère la donnée fournie par le CPU 

Haute impédance : il se déconnecte du bus 

CPU 

CPU 

BUS 

adresses 

données 

contrôle 

Périphérique 

Périphérique 

Adresses : sélection du périphérique 

et localisation d’une donnée 

Données : valeur de la donnée à échanger 

Contrôle : lire / écrire / haute impédance 



Accès mémoire pour un calcul 

CPU 

(1) Charger une instruction depuis la mémoire 

(2) Charger les opérandes depuis la mémoire 

(3) Effectuer les calculs 

(4) Stocker le résultat en mémoire 

3 

1 

2 

4 

Mémoire 



Architecture Von Neuman 

CPU BUS 

Mémoire 

Programme 

+ Données 

Un seul chemin d'accès à la mémoire 

Architecture des processeurs d’usage général (Pentium, 

68000) 

Goulot d'étranglement pour l'accès à la mémoire 



Architecture Harvard 

CPU 

Mémoire Programme 

Mémoire Données 

Séparation des mémoires programme et données 

Meilleure utilisation du CPU 

Chargement du programme et des données en parallèle 



Architecture Harvard modifiée 

CPU 



+ Données 


Mémoire programme contient des données 

Possibilité de charger 2 données en un cycle 

Utilisation classique en TNS 

Mémoire Programme+Données → coefficients des filtres 

Mémoire Données → échantillons d’entrée 



Accès mémoire multi-port 

CPU 


+ Données 


Plusieurs bus de données 

Accès simultané à plusieurs données 

Combiné avec 

mémoire multi-accès (plusieurs accès à la même mémoire en un 

cycle) 

mémoire multi-blocs (accès simultané à deux blocs de mémoire 

distincts) 

Exemple du TMS320C54xx : 

1 bus programme (P) 

2 bus de lecture des données (C et D) 

1 bus d’écriture des données (E) 

94


Exemple du TMS320C5416 

Internal 

Memory 

Program A/D Bus (P) 

Data Read A/D Bus (D) 

Data Read A/D Bus (C) 

Data Write A/D Bus (E) 

Internal: Up to 4 accesses / cycle 

Exemple du TMS320C54xx : 

1 bus programme (P) 

2 bus de lecture des données (C et D) 

1 bus d’écriture des données (E) 

Ext’l 

Mem 

I/F 


A 

D 

External 

Memory 

External: 1 access / cycle 

up to 8M words program






P Bus 

D Bus 

C Bus 

E Bus 

Program 

ROM 

Data 

ROM 

SARAM DARAM 

Ext’l 

Mem 

I/F 


A 

D


Cache d'instructions 

cache 

d’instructions 

CPU 



+ Données 


Cache = mémoire associative rapide 

Contient les dernières instructions exécutées 

Utile en cas de boucle 

Accès aux instructions sans accès en mémoire programme 

Libère le bus pour des données 

Pas appliqué aux données 

Problème de validation du temps réel 



Bus externes 

CPU 

Transfert entre les bus 

internes et externe par 

multiplexage temporel 

Boitier du DSP 

MUX 


+ Données 


Limitation du nombre de broches 

Réduction des coûts 

Diminution des performances lors 

des accès au bus externe 

100


Accès Direct à la Mémoire : DMA 

CPU 

interruptions 

configuration 


+ Données 


DMA 

Accès DMA : entrées-sorties vers la mémoire interne 

indépendant du CPU et des bus internes 

Système d'interruptions "données reçues"/"données transmises" 

101


DMA et buffer ping-pong 

CAN 

McBSP2 

DRR 

PING 

IN 

13 

PONG 

IN 

2 


DMA4 DMA5 

Traitement 

PING 

OUT 

1 

PONG 

OUT 

2 

Buffers en mémoire Buffers en mémoire 

McBSP2 

DXR 

CNA 

Université de Savoie Source: Texas Instruments C5000 DSP Teaching Kit 102 102


Mémoire interne sur les C54x 

Capacité en mémoire interne de différents modèles C54x 

Plusieurs types de RAM incluse sur le chip 

Single access (SARAM) : un accès par cycle 

Dual access (DARAM) : deux accès par cycle 

Two-way shared : deux accès par cycle même depuis l'extérieur 

DARAM découpée en blocs 

Accès simultané à deux blocs de mémoire différents 

2x2=4 accès par cycle en théorie (en réalité limité par le reste de l'architecture) 

sources : "TMS320C54x DSP Functional Overview", SPRU307A, Texas Instrument 

"TMS320VC5416 DSK Reference Technical", Spectrum Digital 

Découpage en blocs 

103


Les modes d’adressages 

Adressage Immédiat 

Adressage Direct 

Adressage Indirect par registre 

Support pour l’adressage circulaire 

Accès aux registres mappés en mémoire 



Adressage immédiat 

La donnée est stockée directement dans l’instruction 

Adressage court (instruction sur 1 mot) 

Exécution en 1 cycle LD #6, DP 

Valeur stockée sur 3, 5, 8 ou 9 bits 

Utiliser pour l ’initialisation des registres de petites tailles 

Adressage long (instruction sur 2 mots) : 

Exécution en 2 cycles STM #1234h,AR2 

Valeur stockée sur 16 bits 

Utiliser pour l’initialisation des registres ARi par exemple 



Adressage direct 

L’adresse de la donnée est stockée dans l’instruction 

Adressage absolu : 

L’adresse complète 16 bits est stockée dans l’instruction 

L ’instruction doit être codée sur plusieurs mots 

Adressage paginé : 

L’adresse est composée de deux parties 

Partie stockée dans un 

registre 

. pointeur de page: DP 

. pointeur de pile: SP 

a 15 

a 8 A 7 a 6 a 5 a 0 

Partie stockée dans 

l’instruction 



Adressage indirect : *ARx (1) 

L’instruction contient un numéro de registre auxiliaire 

ARx qui contient l’adresse en mémoire ou se trouve la 

donnée 

Analogue aux pointeurs en C 

Possibilité de modifier la valeur du registre 

MPY *AR4, *AR3, A ; Multiplication de la donnée à l’adresse contenue dans AR4 

; par celle pointée par AR3 et stockage du résultat en A 

; On remarque l’accès simultané à deux données 

; A ← dm(AR4) × dm(AR3) 



Adressage indirect : exemple (1) 

Registre d’adresse (AR) pointant sur les données 

LD *AR1, A 

Possibilités de post modifications : 

linéaire : ARx= ARx ± 1 

LD *AR1+, A 

addr = AR1 

AR1 = AR1 + 1 

addr = AR1 (A (A *AR1) 




x5 

x 0 

indexé : ARx= ARx ± MR (MR: registre d’index) 

LD *AR1+0, A 

modulo : (ARx= ARx ± 1) N 

x 1 

x 2 

x 3 

LD *AR1+% ,A 

bit-reverse : FFT 

addr = AR1 

AR1 = AR1 + AR0 

addr = AR1 

AR1 = (AR1 + 1) modulo BK 

(BK) specifies the size of the circular buffer. 

addr = AR1 

AR1 = bitrev(AR1 + AR0) 

LD *AR1+0B ,A 

After access, AR0 is added to ARx with reverse carry (rc) propagation. 

109



Option Syntax Action Affected by: 

No Modification *ARn no modification to ARn 

Increment / *ARn+ post increment by 1 

Decrement *ARn- post decrement by 1 

Indexed *ARn+0 post increment by AR0 AR0 

*ARn-0 post decrement by AR0 

Circular *ARn+% post increment by 1 - circular BK 

*ARn-% post decrement by 1 - circular 

*ARn+0% post increment by AR0 - circular BK, AR0 

*ARn-0% post decrement by AR0 - circular 

Bit-Reversed *ARn+0B post inc. ARn by AR0 with reverse carry AR0 

*ARn-0B post dec. ARn by AR0 with reverse carry (=FFT size/2) 

Pre-modify *ARn (lk) *(ARn+LK), ARn unchanged 

*+ARn (lk) *(ARn+LK), ARn changed 

*+ARn (lk)% *(ARn+LK), ARn changed - circular BK 

*+ARn pre-increment by 1, during write only 

Absolute *(lk) 16-bit lk is used as an absolute address 

See Absolute Addressing 



ARAU (Unité d’adressage indirect) 

Registres d'adressage 

Unités de calcul spécialisées 

Ecriture sur les bus 

d'adresse des bus C, D et E 

111


Buffer linéaire 

Chaque nouvel échantillon donne lieu au déplacement 

de l’ensemble des données du buffer, l’adresse du 

nouvel échantillon est toujours la même. 

Time n Time n+1 Time n+2 Time n+3 

x(n) x(n+1) x(n+2) x(n+3) 

x(n-1) x(n) x(n+1) x(n+2) 

x(n-2) x(n-1) x(n) x(n+1) 

x(n-3) x(n-2) x(n-1) x(n) 



Adressage circulaire 

Exemple : stockage des échantillons d’entrée dans un 

filtre FIR. 

Time n Time n+1 Time n+2 Time n+3 

x(n-1) x(n-1) x(n-1) x(n+3) 

x(n) x(n) x(n) x(n) 

x(n-3) x(n+1) x(n+1) x(n+1) 

x(n-2) x(n-2) x(n+2) x(n+2) 

Chaque nouvel échantillon donne lieu à l’écriture d’une 

donnée. Cette adresse est calculé par le générateur 

d’adresse. 



MMR : Memory Mapped Registers Addressing 

MMRs are in page 0 of data memory. 

They can be accessed by some specific MMR 

instructions allowing simple access to page 0. 

In these cases DP, SP and CPL are ignored 

Example : STM (STore to Memory-mapped register): 

0000h 

0060h 

007Fh 

Stores an immediate value to the specified MMR or Scratch 

memory address. 

MMRs 

Scratch 

Tip: use the .mmregs directive 

to allow MMR names to be 

interpreted as addresses 



Memory Mapped Registers 

Addr. 

Name (Hex) Description 

IMR 0000 Interrupt Mask Register 

IFR 0001 Interrupt Flag Register 

----- 2 - 5 Reserved 

ST0 0006 Status 0 Register 

ST1 0007 Status 1 Register 

AL 0008 A accumulator low (A[15:00]) 

AH 0009 A accumulator high (A[31:16]) 

AG 000A A accumulator guard (A[39:32]) 

BL 000B B accumulator low (B[15:00]) 

BH 000C B accumulator high (B[31:16]) 

BG 000D B accumulator guard (B[39:32]) 

T 000E Temporary Register 

TRN 000F Transition Register 

Addr. 

Name (Hex) Description 

AR0 0010 Address Register 0 








SP 0018 Stack Pointer Register 

BK 0019 Circular Size Register 

BRC 001A Block Repeat Counter 

RSA 001B Block Repeat Start Address 

REA 001C Block Repeat End Address 

PMST 001D PMST Register 

------- 01E-01F Reserved 

Note: XPC and Peripheral MMR locations are device dependent 

115











Périphériques intégrés: 

ports séries 

ports parallèles 

timers 

DMA 

host port 

PLL 




Convertisseur A/N et N/A : 

les CAN/CNA ne sont généralement pas intégrés 

dans les DSP afin de pouvoir choisir un CAN/CNA en 

adéquation avec l’application 










Performance / Consommation 

Consommation énergétique 

Filtrage numérique FIR: 

C549 

100MHz, 2.5V 

C6201 

200MHz, 1.8V 

DSP16210 

100MHz, 3.3V 

ZSP16401 

200MHz, 2.5V 

ADSP-21160 

100MHz, 2.5V 

C6701 

167MHz, 1.8V 

120


Mesures des performances 

MFLOPS 

MOPS 

MIPS 

MMACS 

MBPS 

Million Floating–Point 

Operation Per Second 

Million Operation 

Per Second 

Million Instructions 

Per Second 

Million of MAC 

per Second 

Mega-Bytes 

Per Second 

Mesure le nombre d’opérations 

arithmétiques à virgule flottante que le 

DSP à virgule flottante peut réaliser 

en une seconde 

Mesure le nombre total d’opérations 

(calcul, accès DMA, transferts, etc.) que 

le DSP peut réaliser en une seconde 

Mesure le nombre de codes machine 

(instructions) que le DSP peut réaliser 

en une seconde 

Mesure le nombre d’opérations MAC 

(Multiply+Accumulate) que le DSP peut 

réaliser en une seconde 

Mesure la bande passante d’un bus 

particulier ou d’un dispositif d’E/S 



Panorama des DSP (2) 



DSP ou Microprocesseur ? 

Document : DSP Vs Microprocesseur 



4.1 L’architecture 

4.2 L’organisation mémoire 


L’architecture 

Diagramme bloc du TMS320C5416 (1) 




Bus externe 

D(15-0) 

MUX 

A(23-0) 

Program/Data ROM 

16K Words 

MAC 

17 x 17 MPY 

40-Bit Adder 

RND, SAT 

Shifter 

40-Bit Barrel 

(-16, 31) 

CPU 

Program/Data RAM 

128K Words 

Program/Data Buses 

ALU 

40-Bit ALU 

CMPS Operator 

(VITERBI) 

EXP Encoder 

Accumulators 

40-Bit ACC A 

40-Bit ACC B 

Addressing Unit 

8 Auxiliary Registers 

2 Addressing Units 

Power Management 

DMA 

Ch 0 

Ch 1 

Ch 2 

Ch 3 

Ch 4 

Ch 5 

Peripheral Bus 

JTAG Test/ 

Emulation 

Control 

Timer 

Muxed GP I/O 

8/16-bit Host Port 

Interface (HPI) 

Multichannel Buffered 

Serial Port (McBSP) 





PLL Clock 

Generator 

S/W Waitstate 

Generator 

Mémoire 

interne 

Entrées 

Sorties 


Schéma de principe des échanges 

CPU 

Séquenceur 

Génération 

adresses P 

pilotage 

Génération 

adresses D 

Mémoire P Mémoire D 


calcul 

addr 

data 

ctrl 

addr 

data 

ctrl 

Bus 

programme 

Bus 

données 

périphériques



Bus externe 


calcul 

Génération 

d’adresses 

CPU 

D(15-0) 

MUX 

A(23-0) 

Program/Data ROM 

16K Words 

MAC 

17 x 17 MPY 

40-Bit Adder 

RND, SAT 

Shifter 

40-Bit Barrel 

(-16, 31) 

Program/Data RAM 

128K Words 

Program/Data Buses 

ALU 

40-Bit ALU 

CMPS Operator 

(VITERBI) 

EXP Encoder 

Accumulators 

40-Bit ACC A 

40-Bit ACC B 

Addressing Unit 

8 Auxiliary Registers 

2 Addressing Units 

Power Management 

DMA 

Ch 0 

Ch 1 

Ch 2 

Ch 3 

Ch 4 

Ch 5 

Peripheral Bus 

JTAG Test/ 

Emulation 

Control 

Timer 

Muxed GP I/O 

8/16-bit Host Port 

Interface (HPI) 







PLL Clock 

Generator 

S/W Waitstate 

Generator 

Mémoire 

interne 

Entrées 

Sorties 


Structure interne du 

TMS320C54x 

Source : Texas Instruments 

TMS320C54x DSP 

Reference Set 

Vol 1 : CPU and Peripherals

Bus P 

programme 

Bus C / D 

lecture 

données 

Bus E 

écriture 

données 

Unité de controle 

Génération 

d'adresses 

programme 

Génération 

d'adresses 

données 


MAC 

Registres 

ALU 

Viterbi 

Shifter


4.1 L’architecture 

4.2 L’organisation mémoire 


L’organisation mémoire 

Les types de mémoires 

L’architecture « Harward Modifiée » du DSP lui 

donne donc une organisation autour de deux 

types de mémoire : 

De la mémoire pour le programme 

De la mémoire pour les données 

Ces types de mémoire seront physiquement de 

la ROM ou de la RAM (DARAM, SARAM…). Selon 

la version du circuit, le type (ROM, RAM) et la 

taille de la mémoire intégrée dans le circuit 

diffère. 



Quantité et type de mémoire programme 



Quantité et type de mémoire données 



Type de mémoire 

Chaque DSP possède donc une certaine 

quantité de RAM à double accès (DARAM), de 

la RAM à simple accès (SARAM) et de la ROM 

interne. 

La RAM est généralement réservé aux 

données et la ROM au programme mais on 

trouve beaucoup d’exception à cette règle. 



Mémoire Programme (1) 

La zone de la mémoire programme de 

l’adresse 0 à 13FFh , sera située à 

l’extérieur du circuit si le bit OVLY 

(Overlay) est mis à 0. 

Lorsque ce bit est à 1 la zone 80h à 

13FF (4992 mots) est située en 

mémoire interne. Elle est constitué de 

RAM à double accès commune à 

l’espace de mémoire donnée. Dans ce 

cas 0 à 7Fh est interdit. 

Lorsque la zone est commune aux 2 

espaces, cela signifie qu’elle peut 

contenir aussi bien des instructions 

que des données : on se sert de cette 

possibilité plus particulièrement 

lorsque l’on souhaite faire la mise à 

jour dynamique d’un programme 

préalablement chargé en mémoire.


Mémoire Programme (2) 

De 1400h à 8FFFh (31 Kmots) se 

trouve une zone de mémoire 

adressable à l’extérieur du circuit. La 

zone de 9000h à FFFFh (28Kmots) 

pourra être de la ROM interne si la 

broche MP/MC =0, ou de la ROM 

externe si la broche est à1. 

Dans les 2 cas, la zone située de FF80h 

à FFFFh (128 mots) est réservé aux 

vecteurs d’interruption. 

138


Mémoire de données 

Cet espace comporte une zone de RAM 

à double accès de 0 à 13FFh (5Kmots) 

dont 96 mots, de l’adresse 0 à 5 Fh 

réservés au stockage des registres 

mappés en mémoires et une zone de 

mémoire de travail de 60h à 7Fh. La 

mémoire situé de 80h à 13FFh pourra, 

comme nous l’avons vu 

précédemment, etre partagée par 

l’espace programme (OVLY=1). 

La zone suivant de 1400h à 000h 

(50Kmots) sera situé à l’extérieur du 

circuit. 

Si DROM est à 0, la mémoire de 

l’adresse E000h à FFFh sera accessible 

à l’extérieur, ce sera de la ROM interne 

si DROM=1

Chapitre 5 : Un outil de développement logiciel 

Code Composer Studio 

5.1 L’interface et la compilation 

5.2 Les librairies 


L’interface Code Composer Studio

L’interface et la compilation 

Chaîne de compilation (1) 




Outils de 

conception 

IDE 

Editeur 

de Texte 

*.h 

*.c 

*.h54 

*.asm 

*.cmd 

*.lib 

Compilateur 

C 

Assembleur 

Simulateur 

*.asm 

*.lst 

*.obj 

Linker *.map 

*.out 

Chargement 

sur la cible 


DSP



projet.pjt : 

fichier contenant l’ensemble des options du projet et qui fourni le lien 

vers tous les fichiers que contient le projet. 

program.c : 

Programme source en langage C contenant la fonction main(). Nous 

pouvons aussi avoir d’autres fichier.c pour les fonctions utilisateur. 

program.asm : 

Programme source en assembleur contenant la fonction main(). Nous 

pouvons aussi avoir d’autres fichier.asm pour les fonctions utilisateur. 

header.h : 

Fichier header pour les déclaration des fonctions ou variables du langage 

C utilisées dans le projet. 




header.h54 : 

Fichier header pour les déclaration des fonctions ou variables assembleur 

utilisées dans le projet. 

librairie.lib : 

Librairie compilée. Ce genre de fichier est souvent donné par le 

constructeur pour fournir des fonctions utilisateurs spécifiques pour son 

composant. 

program.obj : 

Fichier objet. C’est un fichier compilé depuis une fichier assembleur ou 

un fichier C. 

command.cmd: 

Fichier de commande. Indispensable pour le linker afin qu’il définisse 

l’emplacement des variables et du code en mémoire.



Fichier généré par la chaine de compilation 

program.out : 

C’est le programme exécutable pour une cible spécifique. Il s’agit 

du code chargé en mémoire. 

program.lst : 

Fichier listing, il s’agit d’un fichier où sont superposés le code en 

C, le code assembleur généré, le code machine généré, et les 

adresses mémoires utilisées pour chaque instruction. 

program.map : 

Fichier mapping, il s’agit d’un fichier résumant toutes les 

quantités et les zones mémoires utilisées. 

>> Document d’exemples de code


Outils de débogage 

Type d’outils 

Emulateur 

Communique avec le DSP à 

grande vitesse 

Capable de simuler/enregistrer 

en temps-réel l’état interne 

exact du DSP 

Boundary-scan (JTAG) 

Protocole intégré au sein du 

processeur 

Interrompt le DSP pour 

accéder à l’information 

Opérations 

Interruption et relance de 

l’exécution 

Chargement du code 

Breakpoints 

Accès en lecture/écriture 

Visualisation et modification du 

contenu mémoire 

Registres internes 


Emulateur 

ou 

Contrôleur JTAG 

Définition de breakpoints 

et modification des variables 

Récupération des données 

depuis la mémoire du DSP 

IDE 

147


Affichage du code désassemblé 

#define N 256 

short inputData[N]; 

short outputData[N]; 

void toto() 

{ 

int i; 

for (i=0; i

Chapitre 5 : Un outil de développement 

logiciel: Code Composer Studio 

5.1 L’interface et la compilation 

5.2 Les librairies 


Les librairies 

Avantages d'une librairie 

Il existe plusieurs librairies : 

CSL : Chip support Library, fourni par le constructeur de composant 

BSL : Board support Library fourni par le constructeur de la carte de 

développement. 

Librairies spécialisées : DSPLIB,IMGLIB… 

Il s’agit de faire une abstraction du matériel à travers une API logicielle 

(Application Programmable Interface). Ces interfaces logicielles sont 

pilotées par une interface graphique dans le cas du CSL et permettent : 

un temps de développement réduit 

une programmation de plus haut niveau 

Elles sont presque indispensables pour compenser la complexité des 

processeurs actuels. 



Exemple : Board Support Library 

Cas du TP 2 sur DSP TMS320 

Ces fonctions font parties des librairies de la carte (Board Support Library) 

>> Voir C:\CCStudio_v3.1\docs\hlp\C5416DSK.HLP 



Exemple : Chip Support Library 



Exemple : DSPLIB 

Cette librairies est un support pour le calcul. Elle est 

Déjà programmée 

Optimisée 

Utilisable depuis le langage C 

La library DSPLIB est composée de 3 parties 

Un fichier header : dsplib.h 

Un fichier objet (54xdsp.lib) comportant le code compilé des 

fonctions déclarées dans dsplib.h 

Un fichier source 54xdsp.src permettant la customisation des 

fonctions par l’utilisateur. 

Exemple : 

short cfft8 (DATA *x, DATA scale); 

short fir(DATA *x, DATA *h, DATA *r,DATA **d, ushort nh, ushort nx);


Vue synoptique des modules utiles 

Logiciel applicatif 

Abstraction du matériel 

et système d’exploitation 

Matériel 

User Application 

DSP/BIOS 

Kernel/Scheduler 

CPU Timer 

EMIF 

CSL 

USB/ 

JTAG DSP CODEC LED 

Boutons 

Carte DSK 

McBSP 

BSL 

Dsplib 

Imglib 

Drivers

Processeurs de traitement du signal (DSP) - Université de Savoie

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?