Multiplicación Secuencial en Dispositivos Lógicos Programables

MULTIPLICACIÓN SECUENCIAL EN 

DISPOSITIVOS L ÓGICOS 

PROGRAMABLES 

Ing. Marcos Funes 

Este Trabajo de Tesis fue presentado al Departamento de Electrónica 

de la Facultad de Ingeniería de la Universidad Nacional de Mar del Plata 

el 8 de Octubre de 2007, como requisito parcial para la obtención del título de 

Doctor en Ingeniería. Mención Electrónica 

Director: Dr. Daniel Carrica 

Co-Director: Ing. Mario Benedetti

A mis Padres. 

A Andrea. 

A Nicolás, Alejandro y Fernando

Índice general 

Agradecimientos XVII 

Resumen XVIII 

Nomenclatura XX 

1. Introducción 1 

1.1. Estructuras de Multiplicadores . . . . . . . . . . . . . . . . . . . . 2 

1.2. Objetivos de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . 4 

1.3. Organización de la tesis . . . . . . . . . . . . . . . . . . . . . . . 4 

2. Arquitecturas de Multiplicadores 6 

2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 

2.2. Algoritmo de la Multiplicación . . . . . . . . . . . . . . . . . . . . 7 

2.2.1. Operandos en punto fijo . . . . . . . . . . . . . . . . . . . 7 

2.2.2. Operandos en punto flotante . . . . . . . . . . . . . . . . . 9 

2.3. Adición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 

2.3.1. Semisumador . . . . . . . . . . . . . . . . . . . . . . . . . 12 

2.3.2. Sumador Total . . . . . . . . . . . . . . . . . . . . . . . . 13 

2.3.3. Suma por Propagación de Acarreo . . . . . . . . . . . . . . 15 

2.3.4. Suma Carry-Save . . . . . . . . . . . . . . . . . . . . . . . 16 

iii

2.3.5. Suma Multi-operandos . . . . . . . . . . . . . . . . . . . . 17 

2.4. Multiplicadores Paralelos . . . . . . . . . . . . . . . . . . . . . . . 19 

2.4.1. Multiplicador por Tabla de Look-up . . . . . . . . . . . . . 19 

2.4.2. Multiplicador Ripple Carry . . . . . . . . . . . . . . . . . 20 

2.4.3. Multiplicador Carry Save . . . . . . . . . . . . . . . . . . . 22 

2.4.4. Multiplicador Guild . . . . . . . . . . . . . . . . . . . . . . 23 

2.4.5. Multipicador McCanny-McWhinter . . . . . . . . . . . . . 25 

2.5. Consumo de recursos lógicos . . . . . . . . . . . . . . . . . . . . . 25 

2.5.1. Operandos en Punto Fijo . . . . . . . . . . . . . . . . . . . 25 

2.5.2. Operandos en punto flotante . . . . . . . . . . . . . . . . . 31 

2.6. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 

3. Nuevas Arquitecturas de Multiplicadores 33 

3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 

3.2. Multiplicación Secuencial . . . . . . . . . . . . . . . . . . . . . . . 34 

3.2.1. Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 

3.2.2. Implementación . . . . . . . . . . . . . . . . . . . . . . . . 37 

3.2.3. Multiplicador Secuencial de Base 4 . . . . . . . . . . . . . 45 

3.3. Arquitecturas Propuestas en Punto Fijo . . . . . . . . . . . . . . 56 

3.3.1. Multiplicador Secuencial Sin Entradas Registradas . . . . . 56 

3.3.2. Multiplicador Secuencial Fraccionado . . . . . . . . . . . . 61 

3.3.3. Multiplicador de Sumas Consecutivas . . . . . . . . . . . . 67 

3.4. Comparación de los multiplicadores . . . . . . . . . . . . . . . . . 75 

3.4.1. Multiplicadores optimizados en consumo de recursos . . . . 75 

3.4.2. Multiplicadores optimizados en velocidad . . . . . . . . . . 76 

3.4.3. Performance de los multiplicadores . . . . . . . . . . . . . 78 

3.5. Arquitecturas Propuestas en Punto Flotante . . . . . . . . . . . . 80 

iv

3.5.1. Variante Multiplicador Secuencial Sin Entradas Registradas 80 

3.5.2. Variante Multiplicador Secuencial de Sumas Consecutivas . 86 

3.6. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 

4. Resultados Experimentales 92 

4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 

4.2. Parámetros de interés . . . . . . . . . . . . . . . . . . . . . . . . . 92 

4.3. Multiplicación en Punto Fijo . . . . . . . . . . . . . . . . . . . . . 93 

4.3.1. Consumo de recursos lógicos . . . . . . . . . . . . . . . . . 93 

4.3.2. Comportamiento temporal . . . . . . . . . . . . . . . . . . 98 

4.3.3. Comparación de los multiplicadores . . . . . . . . . . . . . 101 

4.4. Multiplicación en Punto Flotante . . . . . . . . . . . . . . . . . . 114 

4.4.1. Consumo de recursos lógicos . . . . . . . . . . . . . . . . . 114 

4.4.2. Comportamiento temporal . . . . . . . . . . . . . . . . . . 115 

4.4.3. Performance . . . . . . . . . . . . . . . . . . . . . . . . . . 116 

4.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 

5. Conclusiones 121 

5.0.1. Trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . 127 

Bibliografía 129 

A. Dispositivos Lógicos Programables 137 

A.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 

A.2. PLD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 

A.3. CPLD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 

A.4. FPGA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 

A.4.1. Celdas Lógicas . . . . . . . . . . . . . . . . . . . . . . . . 143 

A.4.2. Recursos dedicados . . . . . . . . . . . . . . . . . . . . . . 145 

v

A.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 

B. Sistemas numéricos 150 

B.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 

B.2. Representación numérica . . . . . . . . . . . . . . . . . . . . . . . 150 

B.2.1. Punto fijo . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 

B.2.2. Punto flotante . . . . . . . . . . . . . . . . . . . . . . . . . 154 

B.2.3. No-convencionales . . . . . . . . . . . . . . . . . . . . . . . 157 

C. Multiplicación Secuencial aplicada al Control de Movimiento 159 

C.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 

C.2. Accionamientos paso a paso . . . . . . . . . . . . . . . . . . . . . 161 

C.2.1. Generación de perfiles de velocidad Off-line . . . . . . . . . 162 

C.2.2. Generación de perfiles de velocidad On-line . . . . . . . . . 162 

C.3. Generación de perfiles de velocidad mediante FPGA . . . . . . . . 167 

C.3.1. Implementación del producto Vr · nk . . . . . . . . . . . . 169 

C.4. Resultados experimentales . . . . . . . . . . . . . . . . . . . . . . 172 

C.4.1. Modo de funcionamiento en pasos . . . . . . . . . . . . . . 172 

C.4.2. Modo de funcionamiento en micropasos . . . . . . . . . . . 174 

C.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 

D. Publicaciones 179 

D.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 

D.2. Multiplicadores secuenciales en FPGA: Evaluación y Comparación 

de Parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 

D.3. Estudio comparativo de multiplicadores secuenciales implementa- 

dos en FPGA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 

D.4. Floating Point Multipliers with Reduced FPGA Area . . . . . . . 199 

vi

D.5. Performance Evaluation of FPGA Floating Point Multipliers . . . 207 

D.6. Novel FPGA based Floating Point Multiplier: Consecutive-Sums 

Sequential Multiplier . . . . . . . . . . . . . . . . . . . . . . . . . 211 

D.7. Novel Stepper Motor Controller Based on FPGA Hardware Imple- 

mentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 

D.8. FPGA based stepper motor controller . . . . . . . . . . . . . . . . 225 

vii

Índice de Tablas 

2.1. Producto de dos operandos de 4 bits . . . . . . . . . . . . . . . . 7 

2.2. Implementación de multiplicadores en FPGA. . . . . . . . . . . . 29 

3.1. Producto de dos operandos de 4 bits, acumulación de productos 

parciales. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 

3.2. Multiplicación secuencial con desplazamiento a la izquierda para 

operandos de 4 bits. . . . . . . . . . . . . . . . . . . . . . . . . . 35 

3.3. Multiplicación con desplazamiento a la derecha para operandos de 

4 bits. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 

3.4. Estimación de consumo de recursos lógicos de un SM. . . . . . . . 40 

3.5. Retardos de una FPGA Xilinx Spartan-4. . . . . . . . . . . . . . . 43 

3.6. Producto de dos operandos en base 4 . . . . . . . . . . . . . . . . 46 

3.7. Multiplicación base 4 de dos operados de 4 bits. . . . . . . . . . . 46 

3.8. Codificación de los dígitos, alternativa (-X). . . . . . . . . . . . . 47 

3.9. Multiplicación base 4, alternativa (-X). . . . . . . . . . . . . . . . 48 

3.10. Estimación de consumo de recursos de un SMB4(3X). . . . . . . . 49 

3.11. Estimación de consumo de recursos lógicos SMB4(-X). . . . . . . 50 

3.12. Estimación de consumo de recursos lógicos de un SMSR. . . . . . 57 

3.13. Estimación de consumo de recursos lógicos SMF(SM). . . . . . . . 63 

3.14. Estimación de consumo de recursos lógicos de un SMF(SMSR). . 64 

viii

3.15. Ejemplo de una multiplicación mediante sumas consecutivas . . . 68 

3.16. Estimación de consumo de recursos lógicos de un SMSC(SM). . . 69 

3.17. Estimación de consumo de recursos lógicos de un SMSC(SMSR). . 70 

3.18. Estimación de consumo de recursos lógicos de la variante SMSR 

con redondeo a cero. . . . . . . . . . . . . . . . . . . . . . . . . . 84 

3.19. Estimación de consumo de recursos lógicos de la variante SMSR 

con redondeo a +∞. . . . . . . . . . . . . . . . . . . . . . . . . . 85 

3.20. Estimación de consumo de recursos lógicos de la variante SMSC 

con redondeo a cero. . . . . . . . . . . . . . . . . . . . . . . . . . 88 

3.21. Estimación de consumo de recursos lógicos de la variante SMSC 

con redondeo a +∞. . . . . . . . . . . . . . . . . . . . . . . . . . 90 

4.1. Consumo de recursos de los multiplicadores en Spartan[CLB]. . . 94 

4.2. Consumo Estimado de recursos de los multiplicadores [CLB]. . . . 94 

4.3. Diferencia porcentual, Consumo Experimental vs Estimado [ %]. . 95 

4.4. Consumo de recursos de los multiplicadores en Virtex [slices]. . . . 98 

4.5. Consumo de recursos de los multiplicadores en Virtex II [slices]. . 98 

4.6. Retardo de propagación de los multiplicadores en Spartan [ns]. . . 99 

4.7. Retardo estimado de propagación de los multiplicadores Trd = 0 [ns]. 99 

4.8. Diferencia porcentual, Retardo de propagación Experimental vs 

Estimado [ %]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 

4.9. Velocidad de Procesamiento de los multiplicadores en Spartan [Mops/s].100 

4.10. Velocidad de Procesamiento de los multiplicadores en Virtex [Mops/s].101 

4.11. Velocidad de Procesamiento de los multiplicadores en Virtex II 

[Mops/s]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 

4.12. Consumo de recursos lógicos de los multiplicadores en punto flo- 

tante en Spartan [CLBs]. . . . . . . . . . . . . . . . . . . . . . . . 114 

ix

4.13. Consumo de recursos lógicos de las variantes en Virtex [slices]. . . 115 

4.14. Consumo de recursos lógicos de las variantes en Virtex II [slices]. . 115 

4.15. Comportamiento temporal de las variantes en Spartan [Mflop/s]. . 115 

4.16. Comportamiento temporal de las variantes en Virtex [Mflop/s]. . 116 

4.17. Comportamiento temporal de las variantes en Virtex II [Mflop/s]. 116 

5.1. Implementación de Multiplicadores Paralelos en FPGA. . . . . . . 122 

5.2. Resultados experimentales de Multiplicadores Secuenciales . . . . 123 

5.3. Resultados experimentales de los Multiplicadores Secuenciales pro- 

puestos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 

5.4. Resultados experimentales de Multiplicadores en Punto Flotante . 125 

B.1. Punto flotante estándar. . . . . . . . . . . . . . . . . . . . . . . . 156 

B.2. Punto flotante a medida. . . . . . . . . . . . . . . . . . . . . . . . 157 

x

Índice de figuras 

2.1. Diagrama en bloques de un multiplicador en punto flotante . . . . 9 

2.2. Semisumador a) Símbolo lógico, b) y c) arquitectura. . . . . . . . 13 

2.3. Sumador total,a) símbolo lógico b) y c) arquitecturas. . . . . . . . 15 

2.4. Símbolo lógico de un CPA e implementación de un RCA. . . . . 16 

2.5. CSA a) Símbolo lógico y b) implementación con FAs. . . . . . . . 17 

2.6. Sumadores concatenados a) con CPA, b) con CSA. . . . . . . . . 18 

2.7. 

Árbol de sumadores para m=9. . . . . . . . . . . . . . . . . . . . 19 

2.8. Multiplicador por Tabla de Look-up. . . . . . . . . . . . . . . . . 20 

2.9. Multiplicador Ripple Carry de 4 bits. . . . . . . . . . . . . . . . . 20 

2.10. PE de un multiplicador Ripple Carry. . . . . . . . . . . . . . . . . 21 

2.11. Esquema de un multiplicador Ripple Carry mediante PEs. . . . . 21 

2.12. Multiplicador Carry Save de 4 bits. . . . . . . . . . . . . . . . . . 22 

2.13. PE de un multiplicador Carry Save. . . . . . . . . . . . . . . . . . 22 

2.14. Esquema de un multiplicador Carry Save mediante PEs. . . . . . 23 

2.15. PE de un multiplicador paralelo Guild. . . . . . . . . . . . . . . . 23 

2.16. Multiplicador paralelo Guild. . . . . . . . . . . . . . . . . . . . . . 24 

2.17. PE de un multiplicador Mccanny - Mcwhinter. . . . . . . . . . . . 25 

2.18. Multiplicador paralelo Mccanny - Mcwhinter. . . . . . . . . . . . 26 

2.19. Consumo de recursos lógicos de MP. . . . . . . . . . . . . . . . . 28 

2.20. Multiplicadores proporcionados por Xilinx. . . . . . . . . . . . . . 29 

xi

2.21. Implementación de Multiplicadores n = 8 . . . . . . . . . . . . . . 30 

2.22. Implementación de Multiplicadores n = 16 . . . . . . . . . . . . . 30 

2.23. Implementación de un multiplicador optimizado en área de Xilinx 

n = 32. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 

3.1. Multiplicador SM con desplazamiento a la derecha. . . . . . . . . 37 

3.2. Multiplicador SM con desplazamiento a la derecha con registro 

compartido. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 

3.3. Multiplicador SM con desplazamiento a la izquierda. . . . . . . . 39 

3.4. Consumo de recursos del SM. . . . . . . . . . . . . . . . . . . . . 41 

3.5. Esquema de retardos en un sumador. . . . . . . . . . . . . . . . . 42 

3.6. Retardo de propagación estimado del SM. . . . . . . . . . . . . . 44 

3.7. Máxima frecuencia de reloj estimada aplicable al SM. . . . . . . . 44 

3.8. Velocidad máxima de procesamiento del SM. . . . . . . . . . . . . 45 

3.9. Diagrama de un SMB4(3X). . . . . . . . . . . . . . . . . . . . . . 47 

3.10. Diagrama de un SMB4(-X). . . . . . . . . . . . . . . . . . . . . . 49 

3.11. Diagrama de la variante del SMB4(-X). . . . . . . . . . . . . . . . 50 

3.12. Consumo de recursos de multiplicadores SM. . . . . . . . . . . . . 52 

3.13. Retardo de propagación estimado del SMB4(3X). . . . . . . . . . 53 

3.14. Máxima frecuencia de reloj estimada aplicable al SMB4(3X). . . . 53 

3.15. Velocidad máxima de procesamiento del SMB4(3X). . . . . . . . . 54 

3.16. Retardo de propagación estimado del SMB4(-X). . . . . . . . . . 55 

3.17. Máxima frecuencia de reloj estimada aplicable al SMB4(-X). . . . 55 

3.18. Velocidad máxima de procesamiento del SMB4(-X). . . . . . . . . 56 

3.19. Multiplicador SMSR. . . . . . . . . . . . . . . . . . . . . . . . . . 57 

3.20. Consumo de recursos del SMSR. . . . . . . . . . . . . . . . . . . . 58 

3.21. Retardo de propagación estimado del SMSR. . . . . . . . . . . . . 59 

xii

3.22. Máxima frecuencia de reloj estimada aplicable al SMSR. . . . . . 60 

3.23. Velocidad máxima de procesamiento del SMSR. . . . . . . . . . . 60 

3.24. Diagrama de operación de un SMF. . . . . . . . . . . . . . . . . . 62 

3.25. Consumo de recursos de multiplicadores SMF. . . . . . . . . . . . 65 

3.26. Retardo de propagación estimado del SMF. . . . . . . . . . . . . . 66 

3.27. Máxima frecuencia de reloj estimada aplicable al SMF. . . . . . . 66 

3.28. Velocidad máxima de procesamiento de los SMF. . . . . . . . . . 67 

3.29. Ejemplo de un SMSC(SM). . . . . . . . . . . . . . . . . . . . . . 68 

3.30. Ejemplo de un SMSC(SMSR). . . . . . . . . . . . . . . . . . . . . 69 

3.31. Consumo de recursos estimado de un SMSC. . . . . . . . . . . . . 71 

3.32. Ruta crítica de dos sumas consecutivas. . . . . . . . . . . . . . . . 72 

3.33. Retardo de propagación estimado del SMSC. . . . . . . . . . . . . 73 

3.34. Máxima frecuencia de reloj estimada aplicable al SMSC. . . . . . 74 

3.35. Velocidad máxima de procesamiento del SMSC. . . . . . . . . . . 74 

3.36. Consumo de recursos lógicos de un SM vs SMSR. . . . . . . . . . 75 

3.37. Velocidad de procesamiento de un SM vs SMSR. . . . . . . . . . . 76 

3.38. Consumo de recursos lógicos de los multiplicadores optimizados en 

velocidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 

3.39. Velocidad de procesamiento de los multiplicadores optimizados en 

velocidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 

3.40. Índice de performance de los multiplicadores. . . . . . . . . . . . . 79 

3.41. Índice de performance de los multiplicadores 20 < n < 32. . . . . 80 

3.42. Modificación del SMSR para el producto de las mantisas . . . . . 81 

3.43. Ejemplo del esquema de redondeo implementado . . . . . . . . . . 83 

3.44. Multiplicación de las mantisas. . . . . . . . . . . . . . . . . . . . . 83 

3.45. Consumo de recursos del PFPM(SMSR), r = 8. . . . . . . . . . . 85 

3.46. Consumo de recursos del PFPM(SMSR), r = 8. . . . . . . . . . . 86 

xiii

3.47. SMSC modificado para el producto de las mantisas . . . . . . . . 87 

3.48. Consumo de recursos del PFPM(SMSC), r = 8. . . . . . . . . . . 89 

3.49. Consumo de recursos del PFPM(SMSC), r = 8. . . . . . . . . . . 91 

4.1. Síntesis de un CLB del multiplicador SM. . . . . . . . . . . . . . . 95 

4.2. Consumo de recursos lógicos del SM en Spartan. . . . . . . . . . . 96 

4.3. Consumo de recursos lógicos del SM en Spartan. . . . . . . . . . . 97 

4.4. Consumo de recursos lógicos: SM vs SMSR en Spartan. . . . . . . 102 

4.5. Consumo de recursos lógicos: SM vs SMSR en Virtex. . . . . . . . 103 

4.6. Consumo de recursos lógicos: SM vs SMSR en Virtex II. . . . . . 103 

4.7. Velocidad de procesamiento: SM vs SMSR en Spartan. . . . . . . 104 

4.8. Velocidad de procesamiento: SM vs SMSR en Virtex. . . . . . . . 104 

4.9. Velocidad de procesamiento: SM vs SMSR en Virtex II. . . . . . . 105 

4.10. Consumo de recursos lógicos de multiplicadores optimizados en 

velocidad en Spartan. . . . . . . . . . . . . . . . . . . . . . . . . . 106 


velocidad en Virtex. . . . . . . . . . . . . . . . . . . . . . . . . . . 106 


velocidad en Virtex II. . . . . . . . . . . . . . . . . . . . . . . . . 107 

4.13. Velocidad de procesamiento de los multiplicadores optimizados en 

velocidad en Spartan. . . . . . . . . . . . . . . . . . . . . . . . . . 108 

4.14. Velocidad de procesamiento de multiplicadores optimizados en ve- 

locidad en Virtex. . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 

4.15. Velocidad de procesamiento de multiplicadores optimizados en ve- 

locidad en Virtex II. . . . . . . . . . . . . . . . . . . . . . . . . . 109 

4.16. Índice de performance de los multiplicadores en Spartan, 8 ≤ n ≤ 20.110 

xiv

4.17. Índice de performance de los multiplicadores en Spartan, 20 ≤ n ≤ 

32. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 

4.18. Índice de performance de los multiplicadores en Virtex, 8 ≤ n ≤ 20. 111 

4.19. Índice de performance de los multiplicadores en Virtex, 20 ≤ n ≤ 32.112 

4.20. Índice de performance de los multiplicadores en Virtex II, 8 ≤ n ≤ 20.113 

4.21. Índice de performance de los multiplicadores en Virtex II, 20 ≤ 

n ≤ 32. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 

4.22. Índice de performance de los multiplicadores con redondeo a cero 

en Spartan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 

4.23. Índice de performance de los multiplicadores con redondeo a +∞ 

en Spartan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 


en Virtex. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 


en Virtex II. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 

A.1. Diagrama en bloques de un CPLD . . . . . . . . . . . . . . . . . . 140 

A.2. Distribución de bloques de una FPGA de Xilinx . . . . . . . . . . 141 

A.3. Matriz de interconexión de una FPGA de Xilinx . . . . . . . . . . 143 

A.4. Descripción de un LE de una FPGA FLEX10K de Altera . . . . . 144 

A.5. Descripción de un CLB de una FPGA XC4000 de Xilinx . . . . . 145 

A.6. Recursos lógicos de algunas FPGAs de Xilinx . . . . . . . . . . . 146 

A.7. Lógica de acarreo dedicada de una FPGA XC4000 de Xilinx . . . 148 

B.1. Esquema de formatos numéricos . . . . . . . . . . . . . . . . . . . 151 

C.1. Esquema de motores de una sección del CLIC. . . . . . . . . . . . 161 

xv

C.2. Sistema de control de movimiento de motores de accionamiento 

incremental. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 

C.3. Diagrama de flujo de un algoritmo on-line. . . . . . . . . . . . . . 163 

C.4. Perfil de velocidad trapezoidal. . . . . . . . . . . . . . . . . . . . . 164 

C.5. Perfil de velocidad, deseado, cuantizado y la temporización resul- 

tante. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 

C.6. (Izquierda) Posición y velocidad con el algoritmo iterativo. (Dere- 

cha) Detalle del perfil de posición y velocidad del perfil iterativo . 167 

C.7. Arquitectura hardware del algoritmo de generación de perfil de 

velocidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 

C.8. Implementación del multiplicador Ripple Carry en una FPGA XC4006E.170 

C.9. Implementación de un multiplicador optimizado en área de Xilinx 

en una FPGA XC4006E. . . . . . . . . . . . . . . . . . . . . . . . 171 

C.10.Perfil de velocidad y posición del accionamiento controlado por un 

sistema basado en FPGA. 15 rev 

s 

≡ 6000 pasos 

s . . . . . . . . . . . . 173 

C.11.Perfil de velocidad del accionamiento controlado por un sistema 

basado en FPGA. 62,5 rev 

s 

≡ 25000 pasos 

s . . . . . . . . . . . . . . . 174 

C.12.Perfil de velocidad del accionamiento utilizando el modo de micro- 

pasos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 

C.13.Perfiles de posición y velocidad para un sistema de accionamiento 

en modomicropaso. . . . . . . . . . . . . . . . . . . . . . . . . . . 177 

xvi

Agradecimientos 

A Mario 

A Daniel 

A mis colegas en el Laboratorio de Instrumentación y Control 

xvii

Resumen 

El objetivo principal de esta tesis fue desarrollar arquitecturas de multiplicado- 

res binarios de menor consumo de recursos lógicos que las existentes, manteniendo 

las prestaciones de velocidad de cálculo. El propósito particular fue implementar 

las mismas en los dispositivos digitales denominados FPGA (Field Programmable 

Gate Array). 

Para ello se investigaron las estructuras de multiplicación del tipo secuencial 

que se caracterizan por poseer un consumo de recursos reducido y una velocidad 

de procesamiento baja. 

Se modelizaron los multiplicadores a partir del desarrollo de ecuaciones que 

permiten estimar el consumo de recursos lógicos y el desempeño temporal de los 

mismos. Se desarrollaron nuevas arquitecturas que se compararon con las exis- 

tentes. Se introdujo un nuevo indicador denominado índice de performance, que 

permite cuantificar el costo de un multiplicador para una dada FPGA. Los resul- 

tados teóricos se corroboraron con un exhaustivo trabajo experimental mediante 

el cual se han validado las ecuaciones obtenidas. 

A partir de la validación de los modelos de los multiplicadores, se determina- 

ron los esquemas de mayor desempeño que cumplen con los objetivos deseados. 

Así se arribó a multiplicadores en punto fijo con los que se obtuvo un consu- 

mo de recursos hasta 8 veces menor y una velocidad comparable a la de una 

arquitectura existente. Los avances se extendieron a la multiplicación en punto 

xviii

flotante, obteniendose esquemas de bajo consumo de recursos y buena velocidad 

de procesamiento. 

xix

Nomenclatura 

1C Complemento a 1 

2C Complemento a 2 

ALP Arreglo Lógico Programable 

ASIC Application Specific Integrated Circuit 

CLB Configurable Logic Block 

CPA Carry Propagate Adder 

CPLD Complex Programmable Logic Device 

CSA Carry Save Adder 

DSP Digital Signal Processor 

FA Full Adder 

FF Flip Flop 

FG Function Generator 

FPGA Field Programmable Gate Array 

GAL Generic Array Logic 

HA Half Adder 

LSB Least Significant Bit 

LUT Look-up Table 

xx

MAC Multiplicador/Acumulador 

MP Multiplicador Paralelo 

PAL Programmable Array Logic 

PE Procesador Elemental 

PLD Programmable Logic Device 

PROM Programmable Read Only Memory 

PS Processing Speed 

RCA Ripple Carry Adder 

SM Multiplicador Secuencial 

SMB4 Multiplicador Secuencial de base 4 

SMF Multiplicador Secuencial Fraccionado 

SMSC Multiplicador Secuencial de Sumas Consecutivas 

SMSR Multiplicador Secuencial Sin entradas Registradas 

SR Shift Register 

VHDL Very high speed integrated circuit Hardware Description Lan- 

fc 

pi 

guage 

Máxima frecuencia de reloj 

Bit i del operando P 

P Operando Producto 

TBY P 

Tc 

TCK 

TCKO 

CIN to COUT bypass delay 

Tiempo de cálculo 

Período de reloj 

Clock-to-output delay 

xxi

TILO 

TOCP Y 

tpd 

Trd 

TSUM 

F/G inputs to X/Y outputs delay 

Operand inputs (F1, F2, G1, G4) to COUT delay 

Propagation delay 

Route delay 

CIN through function generator to X/Y output delay 

X, Y Operando Multiplicando y multiplicador respectivamente 

xi, yi 

Vmin 

Vmax 

Bit i del operando Multiplicando y Multiplicador respectivamen- 

te 

Velocidad mínima 

Velocidad máxima 

Vr(k) Velocidad de referencia para el paso k-esimo 

∆t(k) Período de tiempo entre el paso actual y el próximo 

xxii

Capítulo 1 

Introducción 

En el Procesamiento Digital de Señales (PDS) se recurre, como operación 

elemental, al producto de dos operandos y la posterior adición de un tercero, 

estructura conocida como MAC (Multiplicador/Acumulador). 

Los dispositivos de cálculo más empleados en el PDS son los DSPs (Digital 

Signal Processors). Si bien los DSPs son baratos y flexibles, poseen sólo una uni- 

dad MAC por lo que un proceso aritmético demanda la ejecución secuencial de las 

operaciones. Como consecuencia, una operación algorítmica consume un deter- 

minado tiempo de ejecución y, si fuera necesario utilizar un tiempo de ejecución 

menor, convendría adoptar hardware a medida, alternativa proporcionada por los 

ASICs (Application-Specific Integrated Circuit) y las FPGAs (Field Programma- 

ble Gate Array). Tanto los ASICs como las FPGAs posibilitan la utilización de 

varias MACs en paralelo, logrando de este modo una notable reducción del tiempo 

de procesamiento. Los ASICs admiten implementar sistemas complejos y resguar- 

dan la propiedad intelectual de los procesos debido a que no son copiables. Sin 

embargo implican un gran costo de fabricación por lo que no aceptan errores 

en su desarrollo y, consecuentemente, su utilización representa un gran riesgo de 

producción. 

1

Capítulo 1. Introducción 2 

En cuanto a las FPGAs, éstas combinan la flexibilidad de un DSP con la 

velocidad y la densidad de componentes de un ASIC. Las FPGAs poseen una 

gran cantidad de recursos lógicos, un bajo costo de desarrollo ya que son fáciles de 

depurar y, fundamentalmente, permiten al diseñador corregir errores y actualizar 

el diseño. Estas ventajas convierten a las FPGAs en dispositivos apropiados como 

procesadores de señales o aceleradores de cálculo. 

1.1. Estructuras de Multiplicadores 

Los multiplicadores se pueden clasificar según el modo en que ingresan los 

operandos [1] [2]. Si ambos operandos ingresan en forma serie se denominan 

serie/serie. La mayor ventaja de estos multiplicadores reside en el bajo núme- 

ro de entradas/salidas utilizadas y en la bajo consumo de recursos lógicos, sin 

embargo estos multiplicadores se encuentran limitados a aplicaciones de baja 

velocidad [3] [4] [5]. Si sólo uno de los operandos ingresa en forma serie, el mul- 

tiplicador se denomina serie/paralelo [6]. Este tipo de multiplicadores presentan 

un consumo de recursos lógicos moderado y son ideales para aplicaciones de velo- 

cidad media donde los multiplicadores serie/serie son demasiado lentos. Si ambos 

operandos son ingresados en paralelo el tipo de multiplicador es denominado pa- 

ralelo/paralelo. Estos últimos son los que se tratarán en esta tesis debido a su 

capacidad de procesar los datos a alta velocidad. 

Los multiplicadores también se pueden clasificar en función del algoritmo de 

cálculo en: suma y desplazamiento, por árbol o contadores. Los multiplicadores 

por suma y desplazamiento utilizan el método conocido comúnmente como lápiz 

y papel para calcular el producto. En algunos casos esta tarea se realiza constru- 

yendo una celda de procesamiento básica que se repite en un arreglo determinado.


La diferencia de procesamiento de estos multiplicadores radica en el tipo de co- 

municación entre estas celdas, que puede ser local (solo existe comunicación entre 

celdas vecinas) o global (existe comunicación mas allá de la celda vecina). Con el 

objetivo de acelerar los productos parciales 1 C. Wallace [7] propuso originalmente 

una estructura de sumadores, conocida como Árbol de Wallace, donde el retardo 

de la suma es proporcional el logaritmo del número de sumandos. Otro modo de 

acelerar los productos parciales consiste en la utilización de contadores parale- 

los [8] para obtener la suma de los bits que forman las columnas de la matriz de 

productos parciales. 

Los multiplicadores que realizan el algoritmo de suma y desplazamiento en 

forma simultánea son denominados habitualmente multiplicadores paralelos. Es- 

tos multiplicadores realizan el producto rápidamente, pero son difíciles de realizar 

cuando un dispositivo posee una cantidad de recursos limitada. Este problema se 

acentúa, cuando el formato de los operandos esta expresado en punto flotante. 

Los multiplicadores en punto flotante utilizan típicamente multiplicadores para- 

lelos para el producto de las mantisas [9] [10]. A medida que se incrementa la 

complejidad de la operación, el consumo de recursos lógicos utilizados aumenta 

notablemente y consecuentemente los costos de implementación. 

Un esquema de multiplicación de operandos en paralelo que utiliza una menor 

cantidad de recursos lógicos es el denominado Shift and Add [11] [12] o secuencial 

(SM). Esta reducción del consumo de recursos se realiza a costa de ejecutar tantas 

iteraciones como longitud de palabra posean los operandos [13] [14]. Esto repre- 

senta una seria desventaja debido al excesivo tiempo de cálculo y por esta razón 

han sido excluidos de las aplicaciones típicas. Por otro lado, si se puede mejorar 

el desempeño en velocidad sin incurrir en la cantidad de recursos que requiere un 

1 En la multiplicación de dos números enteros de n bits se denomina producto parcial al 

producto un bit del multiplicador por el multiplicando.


multiplicador paralelo, estos multiplicadores pueden resultar más ventajosos. 

1.2. Objetivos de la tesis 

El objetivo principal de esta tesis consiste en el desarrollo de multiplicado- 

res con un reducido consumo de recursos lógicos, que mantengan un desempeño 

aceptable de la velocidad de procesamiento. 

En función de este objetivo, se caracterizarán las arquitecturas de los multi- 

plicadores existentes. Se propondrán variantes que incluyan la multiplicación de 

operandos en punto fijo y punto flotante. 

1.3. Organización de la tesis 

Esta tesis está dividida en cinco capítulos. El Capítulo 1 presenta el estado 

del arte e introduce aspectos de la temática de esta tesis. El Capítulo 2 presenta 

conceptos básicos sobre la multiplicación. Se presentan los esquemas de Multi- 

plicadores Paralelos, los cuales se caracterizan y se ensayan con el objetivo de 

cuantificar la problemática de consumo de recursos. 

El Capítulo 3 está dedicado al desarrollo de la propuesta que consiste en la 

aplicación de Multiplicadores Secuenciales al producto binario en punto fijo y en 

punto flotante. En este capítulo se desarrollan diferentes esquemas de Multipli- 

cación Secuencial para los cuales se estima su desempeño en cuanto a la cantidad 

de recursos lógicos y velocidad de procesamiento. 

El Capítulo 4 está dedicado a la verificación experimental. Para ello se ex- 

plicita la implementación práctica de los diferentes esquemas desarrollados sobre 

algunas familias de FPGAs. El objetivo de este capítulo es la contrastación de las 

estimaciones obtenidas en el capítulo anterior con los resultados experimentales.


En el mismo se establecen criterios de comparación, en términos de performance, 

entre los multiplicadores propuestos y otros existentes. 

Adicionalmente, se presentan cuatro apéndices, a saber: 

El Apéndice A realiza una breve descripción de los Dispositivos Lógicos Pro- 

gramables y sus características. 

El Apéndice B introduce los formatos numéricos utilizados en PDS. 

El Apéndice C describe la aplicación específica de los multiplicadores secuen- 

ciales en el Procesamiento Digital utilizado en el área de Control de Movimiento. 

En el mismo se aprovechan las prestaciones que brindan los multiplicadores en la 

implementación hardware de un algoritmo de control de posición. 

Finalmente, el Apéndice D presenta los trabajos publicados como resultado 

del trabajo de tesis.

Capítulo 2 

Arquitecturas de Multiplicadores 

2.1. Introducción 

La utilización de FPGA en el Procesamiento Digital de Señales (PDS) es su- 

mamente ventajosa. Una de las ventajas consiste en la posibilidad de lograr un 

hardware a medida que incluya desde la selección de la longitud de palabra de 

los operandos hasta la ejecución de los cálculos. Un hardware a medida puede 

realizar cálculos más rápidamente que uno programable porque pueden disponer- 

se varias unidades de cálculo en una sola FPGA. Estos multiplicadores pueden 

operar independientes de modo de explotar toda la potencial concurrencia de un 

algoritmo. Adicionalmente, en la FPGA se pueden ejecutar otros procesos, como 

atención de periféricos, comunicación, etc. sin interferir con el procesamiento. 

En PDS [15] [16] [17] los procesos recurren, como operación elemental, al 

producto de dos operandos y la posterior adición de un tercero, denominada 

MAC (Multiplicador/Acumulador). En una MAC, la multiplicación demanda una 

mayor cantidad de recursos lógicos que la adición. 

En este capítulo se realiza un repaso de conceptos de la multiplicación de ope- 

randos en punto fijo y punto flotante. Luego, para comprender las arquitecturas 

6

Capítulo 2. Arquitecturas de Multiplicadores 7 

de los multiplicadores se introducen aspectos relativos a la adición. Finalmente, 

se presentan las estructuras de multiplicadores paralelos y su implementación en 

FPGA. 

2.2. Algoritmo de la Multiplicación 

2.2.1. Operandos en punto fijo 

Multiplicación de enteros sin signo 

n−1 

j=0 

El producto de dos operandos binarios de n bits, un multiplicando, X = 

xj2j y un multiplicador, Y = n−1 

yj2j está representado por la Ec. (2.1). 

j=0 

P = Y · X (2.1) 

n−1 

= yj2 j · X (2.2) 

j=0 

n−1 

= 2 j · yjX (2.3) 

j=0 

Este producto, para dos operadores binarios de 4 bits sin signo X e Y , se 

puede observar en la Tabla 2.1. 

Tabla 2.1: Producto de dos operandos de 4 bits 

x3 x2 x1 x0 

y3 y2 y1 y0 

s03 s02 s01 s00 ≡ y0X2 0 

s13 s12 s11 s10 ≡ y1X2 1 

+ s23 s22 s21 s20 ≡ y2X2 2 

s33 s32 s31 s30 ≡ y3X2 3 

p7 p6 p5 p4 p3 p2 p1 p0 ≡ P 

producto parcial S = sj,n−1, ..., sj,2, sj,1, sj,0 con j = 0, 1, 2 · n − 1 

Producto P = p2n−1, ..., p2, p1, p0


El producto P se obtiene como la suma de todos los productos parciales cada 

uno desplazado 2 j veces a la izquierda con j = 0, ..., n − 1. Este producto es 

conocido también como método del lápiz y papel. 

Multiplicación de enteros con signo 

En sistemas de magnitud con signo, la magnitud y el signo son representados 

en forma separada. Existen multiples formatos para expresar los números con 

signo, como por ejemplo Magnitud y Signo, Complemento a 1 (1C) y Comple- 

mento a 2 (2C) (ver Sección B.2.1). 

La multiplicación de dos operandos expresados en Magnitud y Signo se efectúa 

como un producto de enteros sin signo, y se ejecuta con una función XOR para 

procesar el signo. 

El producto de dos operandos expresados en 1C o 2C se puede efectuar reali- 

zando el complemento del operando negativo, multiplicando luego como enteros 

sin signo y, finalmente, complementando el resultado si sólo uno de ellos hubiese 

estado complementado. Este tipo de multiplicación puede resultar sencillo para 

el caso de 1C, pero representa bastante complejidad para el caso de 2C. En este 

caso, se puede aplicar el método de lápiz y papel siempre que los operandos sean 

positivos o que el multiplicando sea negativo y el multiplicador positivo. En am- 

bos casos la suma acumulativa de los productos parciales arrojará un resultado 

correcto mientras que la acumulación contemple la extensión de signo. Esto es, 

si el bit más significativo es 0, se desplaza el operando introduciendo un 0. En el 

caso en que este bit sea 1, el desplazamiento se realiza introduciendo un 1. 

Cuando el multiplicador sea negativo se debe realizar una corrección al pro- 

cedimiento mencionado que consiste en restar el multiplicando en el último paso, 

en vez de adicionarlo.


2.2.2. Operandos en punto flotante 

Los sistemas numéricos de punto flotante fueron desarrollados para operar 

con precisión sobre un gran rango dinámico. Sin embargo, este formato numérico 

requiere algoritmos aritméticos más complejos. 

La multiplicación de dos operandos en punto flotante incluye varias operacio- 

nes: obtención del signo, adición de los exponentes, multiplicación de las mantisas 

y normalización del resultado (Ecs. (2.4 - 2.7)). 

C = A × B = SC · 2 eC−bias · 1.fC 

SC = SA ⊕ SB 

(2.4) 

(2.5) 

eC = eA + eB − bias (2.6) 

1.fC = 1.fA × 1.fB 

(2.7) 

El algoritmo para la multiplicación en punto flotante se representa de manera 

sintética en la Fig. 2.1. 

Etapa 1 

Etapa 2 

Etapa 3 

Bits de signo Exponentes Mantisas 

OR-exclusiva 

Adición de 

exponentes 

Ajuste de 

bias 

Ajuste de 

exponente 

Producto de 

mantisas 

Redondeo 

Normalización 

Bit de signo Ofl. Exponente Mantisa 

Figura 2.1: Diagrama en bloques de un multiplicador en punto flotante


ción: 

Las Ecs. (2.4 - 2.7) se realizan en varias etapas, que se describen a continua- 

Etapa 1: 

Se adicionan los exponentes eA y eB; si el resultado es menor que la repre- 

sentación, se produce un desbordamiento de capacidad inferior (underflow). 

En este caso el resultado de toda la operación se fija al valor ”cero”. En el 

caso de un overflow, el resultado se fija en el máximo número que el formato 

puede representar. 

Si el operando C es distinto de cero, se concatena el 1 implícito a la izquier- 

da del fraccional (fA y fB) representado de cada operando y se realiza el 

producto entero de los números binarios resultantes (Ec. (2.7)). 

Si el operando C es distinto de cero, se realiza la operación XOR de los 

signos de los operandos A y B. 

Etapa 2: 

Se ajusta el bias del exponente. Este ajuste se debe a que cada uno de los 

exponentes de los operandos posee un bias (ver Sección B.2.2) y la adición 

de dos operandos produce un desplazamiento superior al representado por 

el formato. 

Sólo se almacenan los n bits más significativos del producto entero de la 

etapa anterior de longitud 2n bits. Se realiza una operación de redondeo 

sobre la mantisa resultante. 

Etapa 3: 

Se normaliza el resultado de la mantisa dependiendo del bit más significativo 

del producto de la Ec. (2.7).


Se ajusta el exponente dependiendo de la normalización del producto de las 

mantisas. 

Redondeo 

Se conforma el signo, el exponente y la mantisa en el formato representado. 

La norma IEEE 754 [18], que trata el formato en punto flotante, especifican 

cuatro tipos de redondeo: redondeo al más cercano, redondeo a +∞, redondeo a 

−∞ y redondeo a cero. 

Redondeo al más cercano (al par en caso de empate): El estándar IEEE 

recomienda este redondeo por defecto. En este caso se obtiene el valor re- 

presentable más cercano al resultado infinitesimalmente preciso. 

Redondeo a +∞: El estándar indica que el valor obtenido debe ser el más 

cercano y no menor que el resultado infinitesimalmente preciso. Básicamente 

esto significa que, para un resultado positivo, si los bits a la derecha del LSB 

son todos 0, entonces el resultado es correcto. Si por el contrario, cualquiera 

de estos bits es 1, entonces se debe adicionar un 1 al LSB. 

Redondeo a −∞: Este estándar indica que el valor obtenido debe ser el más 

cercano y no mayor que el resultado infinitesimalmente preciso. Básicamente 

esto significa que, para un resultado negativo, si los bits a la derecha del LSB 

son todos 0, entonces el resultado es correcto. Si por el contrario, cualquiera 

de estos bits es 1, entonces se debe adicionar un 1 al LSB. 

Redondeo a cero: En el redondeo a cero el resultado es más cercano y 

no mayor en magnitud que el resultado infinitesimalmente preciso. Este 

redondeo se aplica truncando el resultado a la derecha del LSB.



Si el producto de mantisas de la Ec. (2.7) resulta en el rango 2 ≤ p ≤ 4, 

se debe realizar un desplazamiento de normalización a la derecha para restaurar 

el producto al rango 1 ≤ pr ≤ 2, con el apropiado ajuste del exponente en una 

unidad. 

2.3. Adición 

2.3.1. Semisumador 

El Sumador Parcial (SP) también llamado Semisumador de un bit (Half Adder 

- HA) adiciona dos operandos de un bit y genera como resultado un operando 

de dos bits. El bit menos significativo es el bit suma, que surge de realizar la 

operacion de OR-EXC s = a ⊕ b. El bit más significativo resulta de realizar la 

operación AND, cout = ab. Este bit es llamado bit de acarreo de salida debido al 

desborde de la adición. 

La expresión aritmética de un sumador parcial se puede observar en las Ecs. 

(2.8,2.9 y 2.9), a partir de las que se desprende el cálculo del bit s y el bit de 

acarreo. 

2 · cout + s = a + b (2.8) 

s = (a + b) mod 2 

cout = (a + b)div2 = 1 

(a + b − s) (2.9) 

2 

En la Fig. 2.2 se puede observar el símbolo lógico y dos posibles implementa- 

ciones del HA.


c out 

ab 

HA 

s 

(a) 

c out 

Figura 2.2: Semisumador a) Símbolo lógico, b) y c) arquitectura. 

2.3.2. Sumador Total 

A diferencia del HA, el sumador total (Full Adder - FA) posee una tercer 

entrada denominada bit de acarreo de entrada (cin). Esta entrada es utilizada 

para recibir una señal de acarreo de un bit menos significativo. 

Las Ecs. (2.10 y 2.11) representan las ecuaciones lógicas que gobiernan el 

funcionamiento del sumador. 

ab 

s 

(b) 

s = a ⊕ b ⊕ cin 

cout = ab + acin + bcin 

c out 

s 

(c) 

ab 

(2.10) 

(2.11) 

Las Ecs. (2.12 - 2.15) representan las ecuaciones aritméticas correspondientes. 

2 · cout + s = a + b + cin 

(2.12) 

s = (a + b + cin) mod 2 (2.13) 

cout = (a + b + cin)div2 (2.14) 

= 1 

2 (a + b + cin − s) (2.15) 

Otra forma de describir el funcionamiento del FA consiste en declarar dos 

señales, una señal de generación (g) y una señal de propagación (p). La señal g


indica cuando una señal de acarreo 0 o 1 es generada dentro del sumador. La 

señal p indica cuando una señal de acarreo de entrada es propagada por el FA sin 

cambio hacia el acarreo de salida. Adicionalmente se definen para este sistema 

dos señales intermedias de acarreo, c 0 y c 1 , que pueden ser calculadas para el caso 

de cin = 0 y cin = 1. De esta manera, la salida de acarreo puede ser expresada 

mediante (g, p) o (c 0 , c 1 ) y la señal de acarreo de entrada puede ser realizada 

utilizando compuertas AND-OR o mediante una estructura de multiplexación. 

g = ab (2.16) 

p = a ⊕ b (2.17) 

c 0 = ab (2.18) 

c 1 = a + b (2.19) 

s = a ⊕ b ⊕ cin = p ⊕ cin 

cout = ab + acin + bcin 

= ab + (a + b)cin = ab + (a ⊕ b)cin 

= g + cin 

= ¯pg + pcin = ¯pa + pcin 

= ¯cinc 0 + cinc 1 

(2.20) 

(2.21) 

Se debe tener en cuenta que para el cálculo de cout utilizando una estructura 

AND-OR, la señal de propagación puede ser formulada como p = a + b pero para 

el cálculo del bit de la adición debe ser implementada como p = a ⊕ b. 

Un FA puede ser implementado a partir de dos sumadores parciales, compuer- 

tas de dos entradas, multiplexores, o arreglos más complejos. En la Fig. 2.3 se 

pueden observar a), el símbolo del sumador, y dos alternativas de implementación: 

mediante dos semisumadores y mediante compuertas lógicas.


Figura 2.3: Sumador total,a) símbolo lógico b) y c) arquitecturas. 

2.3.3. Suma por Propagación de Acarreo 

Una suma de propagación de acarreo (Carry Propagate Adder - CPA) adiciona 

dos operandos de n bits A = (an−1, an−2..., a0), B = (bn−1, bn−2..., b0) y una señal 

de acarreo de entrada opcional. El resultado está representado por un operando 

de (n + 1) bits que consiste en un operando S = (sn−1, sn−2..., s0) de n bits y una 

señal de acarreo de salida. 

Las Ecs. (2.22 y 2.23) representan las ecuaciones lógicas de cada sumador. 

Se puede notar que el acarreo de salida de un bit menos significativo se propaga 

hacia un acarreo de entrada de un bit más significativo. 

sj = aj ⊕ bj ⊕ cj 

cj+1 = ajbj + (a ⊕ bj)cj 

Las Ecs. (2.24 - 2.27) representan las ecuaciones aritméticas correspondientes. 

2 n · cout + S = A + B + cin 

(2.22) 

(2.23) 

(2.24)


2 n n−1 

· cout + 

j=0 

 

2 j n−1 

sj = 2 j n−1 

aj + 2 j bj + cin 

j=0 

 

j=0 

n−1 

= 2 j (aj + bj) + cin 

j=0 

donde j = 0, 1, .., n − 1 y c0 = cin y cn = cout. 

(2.25) 

(2.26) 

2cj+1 + sj = (aj + bj + cj) (2.27) 

En la Fig. 2.4 se muestra el símbolo de este sumador, que puede ser im- 

plementado mediante varios FAs, y es comúnmente denominado Ripple Carry 

Adder (RCA). Se observa que se genera una propagación de la señal de acarreo 

c out 

A B 

CPA 

S 

(a) 

a n-1 b n-1 

cin cout FA 

s n-1 

... 

c n-1 

Figura 2.4: Símbolo lógico de un CPA e implementación de un RCA. 

que depende de la longitud de palabra de los operandos. La propagación de esta 

señal influye directamente en la velocidad de procesamiento del sumador debido 

al retardo generado. 

2.3.4. Suma Carry-Save 

Una suma Carry-Save evita la propagación del acarreo ubicando a los acarreos 

intermedios como salidas en vez de colocarlos en la cadena de propagación. La 

suma de dos operandos de n bits presenta dos dos palabras resultantes, S (suma), 

y C (acarreo). Este sumador acepta tres operandos binarios de entrada uno de 

los cuales podría operar como acarreo de entrada. 

c 2 

(b) 

a 1 b 1 

FA 

s 1 

c 1 

a 0 b 0 

FA 

s 0 

c in


Las Ecs. (2.28, 2.29 y 2.30) representan las ecuaciones aritméticas correspon- 

dientes. 

dónde i = 0, 1, .., n − 1. 

n 

i=0 

2 i ci + 

2 · C + S = A0 + A1 + A2 

n−1 

2 n−1 

i=0 

2 i si = 

2ci+1 + si = 

j=0 

2 

j=0 

i=0 

aj,i 

2 i aj,i 

(2.28) 

(2.29) 

(2.30) 

El CSA se construye a partir de un arreglo lineal de FAs y posee un retardo 

constante independiente de la longitud de palabra de los operandos, Fig. 2.5. Este 

a 2 a 1 

CSA 

c 

(a) 

s 

a 0 

c n 

a2,n-1a1,n-1 a0,n-1 FA 

s n-1 

... 

c 2 

a 2,1 a 1,1 a 0,1 

(b) 

FA 

s 1 

c 1 

a 2,0 a 1,0 a 0,0 

Figura 2.5: CSA a) Símbolo lógico y b) implementación con FAs. 

tipo de suma es utilizada en la generación de arreglos de sumadores e implica la 

necesidad de una suma final que aplique los acarreos correspondientes a la suma 

resultante. 

2.3.5. Suma Multi-operandos 

Una suma multi-operando es utilizada en la adición de m operandos de n 

bits, A0, ...., Am−1(m > 2) arrojando un resultado S con una representación de 

(n + [log m]) bits. 

S = 

m−1 

j=0 

Aj 

FA 

s 0 

(2.31)


Un sumador multi-operando puede ser realizado mediante la concatenación 

serie de m − 1 sumadores de Propagación de Acarreo (ó RCAs) ó de m − 2 

sumadores Carry-Save seguidos de un sumador de Propagación de Acarreo. 

Ambos tipos de sumadores concatenados son similares en cuanto a su es- 

tructura lógica, y requerimientos de hardware, así como la longitud de camino 

crítico. La mayor diferencia entre ambas opciones es el arribo de los bits al último 

sumador de propagación. 

En el sumador implementado sólo con RCAs los bits más significativos arriban 

más tarde que los menos significativos, debido a la propagación de la señal de 

acarreo. Por otro lado, en el sumador implementado con CSAs, el arribo de los 

bits es balanceado, dependiendo la propagación del acarreo fundamentalmente 

del CPA de la última etapa, que típicamente es un RCA, Fig. 2.6. 

FA 

s n 

A 0 

CPA 

A 1 

CPA 

A 2 

CPA 

s n-1...0 

A 3 

A 0 A 1A 2 

CSA 

CSA 

CPA 

(a) (b) 

Figura 2.6: Sumadores concatenados a) con CPA, b) con CSA. 

Otra suma multi-operando es la propuesta por Wallace [7] también denomi- 

nada árbol de sumadores (o Wallace tree). Está compuesto de sumadores CSA en 

un arreglo de árbol con un CPA final. Esta estructura esta diseñada para obtener 

un retardo de propagación mínimo. La estructura de árbol posee tantas secciones 

como sean necesarias para reducir el número de sumandos a sólo dos. En la última 

S 

A 2 

A 3


etapa, se utiliza un CPA rápido que ejecuta la adición del sumando y el acarreo 

final. En la Fig. 2.7 se muestra un árbol de sumadores para m = 9. 

A 0 A 1A 2 

CSA 

CSA 

A 3 A 4A 5 

CSA 

CSA 

CSA 

CSA 

CPA 

S 

A 6 A 7A 8 

CSA 

Figura 2.7: Árbol de sumadores para m=9. 

2.4. Multiplicadores Paralelos 

El multiplicador paralelo (MP) ejecuta el producto de dos operandos si- 

multáneamente o en ”paralelo”. Existen númerosos esquemas de MPs y las va- 

riantes radican en la forma en que se aborda la ejecución de los subproductos a 

fin de obtener una mayor velocidad de procesamiento. 

2.4.1. Multiplicador por Tabla de Look-up 

El multiplicador por Tabla de Look-up no realiza cálculo, sino que opera como 

una memoria. Se concatenan los operandos X e Y constituyendo una dirección 

de memoria, Fig. 2.8, cuyo contenido es el valor del producto X · Y previamente 

almacenado. Si bien este tipo de multiplicador depende de la velocidad de acceso 

a la memoria, es el más veloz que existe. Su desventaja radica en la cantidad de


recursos lógicos que demanda. A modo de ejemplo, un multiplicador de 16 bits 

requiere una memoria de 4,294,967,296x32 bits. 

XY 

DIR 

VALOR 

Figura 2.8: Multiplicador por Tabla de Look-up. 

2.4.2. Multiplicador Ripple Carry 

El multiplicador paralelo más difundido se basa en un esquema de propagación 

del acarreo tal como con la suma multi-operandos mediante CPA. Este multipli- 

cador es conocido como Multiplicador Ripple Carry. En la Fig. 2.9 se muestra un 

ejemplo de este producto para dos operandos de 4 bits. 

y 0 

y 1 

y 2 

y 3 

p 7 

FA 

FA 

FA 

FA 

FA 

x 3 x 3 x 1 x 0 

x 3 x 3 x 1 x 0 

x 3 x 3 x 1 x 0 

x 3 x 3 x 1 x 0 

FA 

p 6 

FA 

p 5 

FA 

p 4 

0 

Figura 2.9: Multiplicador Ripple Carry de 4 bits. 

FA 

p 3 

0 

FA 

FA 

p 2 

0 

P 

FA 

p 1 

0 

p 0


Una forma de analizar un esquema de MP es a través de la síntesis de una uni- 

dad denominada PE (Procesador Elemental) que contiene una compuerta AND y 

un FA, Fig. 2.10. Cada PE toma un bit de cada operando vía las entradas ai y bi, 

calcula su producto a través de la compuerta AND, suma el resultado proveniente 

de un PE previo a través de si y el acarreo generado de un PE previo a través 

de ci. El resultado de la suma a la salida es so con el correspondiente acarreo co. 

Los operandos son pasados a la salida a través de ao y bo. 

a o 

c o 

b o 

s i 

s o 

FA 

Figura 2.10: PE de un multiplicador Ripple Carry. 

El esquema del Multiplicador Ripple Carry representado a partir de los PEs 

se puede observar en la Fig. 2.11. 

FA 

FA 

FA FA 

FA 

FA 

FA 

b i 

a i 

c i 

FA FA 

FA 

FA 

FA FA 

x 3 x 2 x 1 x 0 

FA FA 

p7 p6 p5 p4 p3 p2 p1 p0 Figura 2.11: Esquema de un multiplicador Ripple Carry mediante PEs. 

FA 

y 0 

y 1 

y 2 

y 3


2.4.3. Multiplicador Carry Save 

Otro tipo de MP es el generado a partir de un esquema de propagación del 

acarreo como la suma Carry Save, Fig. 2.12. Este esquema busca romper la pro- 

pagación de la cadena de acarreo para disminuir el retardo de cada suma, lo cual 

permite acelerar la multiplicación. 

p 7 

y 0 

y 1 

y 2 

y 3 

FA 

p 6 

FA 

FA 

HA 

FA 

x 3 x 3 x 1 x 0 

x 3 x3 x 1 x 0 

x 3 x 3 x 1 x 0 

x 3 x 3 x 1 x 0 

FA 

p 5 

0 

FA 

FA 

p 4 

Figura 2.12: Multiplicador Carry Save de 4 bits. 

FA 

Las Figs. 2.13 y 2.14 muestran el PE del multiplicador con propagación tipo 

Carry Save y el multiplicador mediante esta representación. 

a o 

b o 

c o 

s i 

FA 

s o 

Figura 2.13: PE de un multiplicador Carry Save. 

p 3 

b i 

c i 

a i 

HA 

FA 

p 2 

HA 

p 1 

p 0


FA 

FA 

FA 

FA 

FA 

FA 

FA 

FA 

FA 

FA 

FA 

FA 

FA 

FA 

x 3 x 2 x 1 x 0 

p7 p6 p5 p4 p3 p2 p1 p0 Figura 2.14: Esquema de un multiplicador Carry Save mediante PEs. 

2.4.4. Multiplicador Guild 

El MP propuesto por H. Guild [19] se muestra en la Fig. 2.16, cuyo PE es el 

de la Fig. 2.15. 

s i 

a o 

c o 

b i 

FA 

b o 

Figura 2.15: PE de un multiplicador paralelo Guild. 

Este multiplicador está estructurado en cadenas de sumadores para cada bit 

del producto, las cuales se encuentran en dirección diagonal desde la esquina 

izquierda superior a la derecha inferior. Cada sumador de la cadena recibe un 

acarreo de entrada correspondiente a una suma de la cadena previa y envía su 

c i 

a i 

s o 

FA 

FA 

FA 

FA 

FA 

FA 

y 0 

y 1 

y 2 

y 3


salida de acarreo a un sumador de una cadena posterior. El multiplicador Guild 

se caracteriza por una alta tasa de procesamiento, debido a la utilización de 

paralelismo y la posibilidad de implementación pipelines 1 . 

y 3 x 3 y 2 x 2 y 1 x 1 y 0 x 0 

FA 

FA 

FA 

FA FA 

FA 

FA FA 

FA FA 

FA 

FA 

FA 

p7 p6 p5 p4 p3 p2 p1 p0 Figura 2.16: Multiplicador paralelo Guild. 

1 Es una técnica de aceleración de procesos que se basa en la introducción latches o registros en 

una apropiada posición del arreglo para separar la operación en etapas. Una vez implementada, 

el sistema incrementa su velocidad de procesamiento como etapas posea. 

FA 

FA 

FA


2.4.5. Multipicador McCanny-McWhinter 

Otro esquema de multiplicación paralelo es el propuesto por J. McCanny 

y J. McWhinter [20], Figs. 2.17 y 2.18. En la Fig. 2.18 se puede observar que 

el multiplicador esta estructurado en cadenas de sumadores para cada bit del 

producto, las cuales se encuentran en dirección vertical. Cada sumador de la 

cadena recibe en forma diagonal un acarreo de entrada correspondiente a una 

suma de la cadena previa y envía su salida de acarreo a un sumador de una 

cadena posterior. Este multiplicador se caracteriza por presentar comunicación 

local entre las celdas básicas. 

b o 

a i 

c o 

FA 

s i 

s o 

Figura 2.17: PE de un multiplicador Mccanny - Mcwhinter. 

2.5. Consumo de recursos lógicos 

2.5.1. Operandos en Punto Fijo 

El consumo de recursos lógicos (CR) de los Multiplicadores Paralelos mencio- 

nados varía con el esquema utilizado. 

Una estimación de este consumo expresado en términos de celdas básicas 

se realizó para una FPGA de Xilinx. Si se considera que cada CLB (ver Sección 

A.4.1) posee dos funciones de 4 entradas, cada término de salida generado implica 

b i 

c i 

a o


FA 

FA 

FA 

FA 

y 3 

FA 

FA 

FA 

FA 

y 2 

FA 

FA 

FA 

FA 

y 1 

FA 

FA 

FA 

FA 

y 0 

p7 p6 p5 p4 p3 p2 p1 p0 Figura 2.18: Multiplicador paralelo Mccanny - Mcwhinter. 

FA 

FA 

FA 

FA 

x 3 

FA 

FA 

FA 

x 2 

FA 

FA 

x 1 

FA 

x 0


el consumo de n 

2 

CLBs. Las Ecs. (2.32 - 2.35) resumen la estimación de consumo 

para las distintas arquitecturas de MPs. 

Ripple Carry: 

Carry Save: 

Guild: 

McCanny - McWhinter: 

CLB(n) = (n − 1)n + n 

2 = n2 − n 

2 

CLB(n) = n(n − 1) + n 

2 = n2 − n 

2 

CLB(n) = n 2 + 

CLB(n) = n 2 

n(n − 1) 

2 

+ n 

2 

= 3n2 

2 

(2.32) 

(2.33) 

(2.34) 

(2.35) 

En la Fig. 2.19 se grafica el consumo de recursos lógicos de estos multipli- 

cadores. En la misma figura se presenta como referencia la cantidad de recursos 

lógicos de distintas FPGAs de la serie Spartan de Xilinx. 

Se puede concluir que los multiplicadores paralelos, en sus diferentes variantes, 

presentan un consumo de recursos elevado que se incrementa cuadráticamente con 

la longitud de palabra. De las variantes ejemplificadas, la de McCanny-McWhinter 

es la más onerosa, mientras que las variantes que menos recursos lógicos consumen 

son la de Ripple Carry y la de Carry Save. En la misma figura se puede observar


también que para las FPGAs de menor capacidad sólo se pueden implementar 

multiplicadores de longitudes de palabra inferiores a 10 bits. 

CLB 

1500 

1000 

500 

XCS40 

XCS30 

XCS20 

XCS10 

XCS05 

Ripple Carry 

Carry Save 

Guild 

McCanny 

0 

0 5 10 15 20 25 30 

n 

Figura 2.19: Consumo de recursos lógicos de MP. 

Los fabricantes de FPGAs ofrecen MPs que pueden ser configurados por el 

diseñador. Por ejemplo Xilinx ofrece dos versiones, una para multiplicadores op- 

timizados en el consumo de recursos y otra para optimizados en velocidad [21]. 

La Fig. 2.20 presenta la información de referencia proporcionada por el fabricante 

donde se puede observar que aún los multiplicadores optimizados en consumo de 

recursos demandan una importante cantidad de los mismos, limitando la aplica- 

ción de estos multiplicadores a FPGAs de elevado número de CLBs. 

Implementación en FPGA 

Se realizó la implementación de multiplicadores paralelos en FPGA. En la 

la Tabla 2.2 se muestra el consumo de recursos lógicos en términos de CLBs y 

la velocidad de procesamiento de datos en Millones de Operaciones por segundo 

(Mops). Se puede notar el notable incremento de consumo de recursos lógicos que


MHz 

100 

90 

80 

70 

60 

50 

40 

30 

20 

10 

8x8 

8x8 

10x10 

12x12 

12x12 

Optimizado en Recursos 

Opt. en velocidad 

16x16 

0 

0 50 100 

150 

200 

250 

CLBs 

Figura 2.20: Multiplicadores proporcionados por Xilinx. 

demanda cada multiplicador cuando se duplica la longitud de palabra. Tal como 

se expresó anteriormente, este incremento es típicamente cuadrático. 

Tabla 2.2: Implementación de multiplicadores en FPGA. 

Spartan Virtex Virtex II 

Bits Tipo CLB Mops Slices Mops Slices Mops 

8 MP 61 20.8 64 41.9 64 45.5 

8 MX 52 17.5 36 76.3 36 62.6 

16 MP 247 10.8 257 22.0 258 24.7 

16 MX 213 11.2 140 59.0 141 47.2 

32 MX 816 3.1 544 40.5 548 38.5 

MP: Multiplicador Paralelo 

MX: Multiplicador propuesto por Xilinx 

Las Figs. 2.21(a) y 2.21(b) muestran el área de ocupación lógica para los 

multiplicadores de 8 bits en una FPGA de 256 CLBs. Las Figs 2.22(a) y 2.22(b) 

indican el área para una longitud de palabra de 16 bits. 

Nuevamente se puede observar que el consumo de recursos lógicos de los Mul- 

tiplicadores Paralelos se incrementa notablemente con la longitud de palabra. 

Esta característica hace necesaria la utilización de FPGAs con gran cantidad de 

recursos para poder implementar los multiplicadores. En la Fig 2.23 se mues- 

tra el consumo de recursos para un multiplicador optimizado en área de 32 bits


(a) Ripple Carry (b) Xilinx 

Figura 2.21: Implementación de Multiplicadores n = 8 

(a) Ripple Carry (b) Xilinx 

Figura 2.22: Implementación de Multiplicadores n = 16


de Xilinx. Para esta implementación fue necesario recurrir a una FPGA de 400 

CLBs. 

Figura 2.23: Implementación de un multiplicador optimizado en área de Xilinx 

n = 32. 

2.5.2. Operandos en punto flotante 

La multiplicación de operandos en punto flotante requiere una mayor cantidad 

de recursos que su contraparte en punto fijo, debido a que se deben realizar más 

operaciones. Sin embargo, de todas las operaciones involucradas, el producto de 

las mantisas es la que demanda la mayor cantidad de recursos lógicos. 

Como se mencionó en la Sección 2.2.2, el producto de las mantisas se efectúa 

como un producto en punto fijo. Por lo tanto, el análisis de consumo de recursos 

de la sección anterior se puede extender a la presente, con la observación que se 

debe adicionar el consumo de recursos propio de la adición de los exponentes, 

la determinación del signo y, el de las operaciones de redondeo y normalización. 

Razón por la cual, la problemática de recursos se acentúa. 

Un análisis de las implicaciones prácticas de la implementación de multiplica- 

dores de punto flotante en FPGA se puede encontrar en los trabajos de Shirazi


et al [9], de Ligon et al [10] y de Louca et al [22]. Otros aportes se pueden en- 

contrar en los trabajos de Allan y Luk [23], Jimenez et al [24] donde se presentan 

realizaciones parametrizables de multiplicadores. 

Más recientemente, en un trabajo presentado por Aty et al [25] se presenta 

un esquema de multiplicador que muestra una relación de compromiso entre la 

velocidad de procesamiento y el consumo de recursos lógicos. Sin embargo, en este 

trabajo se puede apreciar que el consumo de recursos continúa siendo sustancial. 

2.6. Conclusiones 

En este capítulo se presentaron algunos conceptos de la multiplicación con el 

objetivo de poder introducir la problemática del consumo de recursos lógicos en 

la implementación de esta operación. 

Se concluye que, si bien los multiplicadores paralelos permiten ejecutar pro- 

ductos rápidamente, el consumo de recursos de estos multiplicadores es muy ele- 

vado aumenta cuadráticamente con la longitud de palabra. Esto presenta una 

desventaja respecto a la utilización de estos dispositivos para el procesamiento 

de señales, pues restringe la implementación de los mismos a FPGAs de gran 

tamaño y costo.

Capítulo 3 

Nuevas Arquitecturas de 

Multiplicadores 


La utilización de un multiplicador con un gran consumo de recursos lógicos 

puede empeorar el desempeño general del sistema o requerir de FPGAs de mayor 

tamaño. 

El Multiplicador Secuencial denominado también Shift and Add [11] [12] uti- 

liza una cantidad reducida de recursos lógicos. El SM no es muy utilizado debido 

a la cantidad de iteraciones involucradas en un producto. 

En este capítulo se analiza la multiplicación secuencial con el objetivo de 

ampliarla a FPGAs. Se caracterizan las variantes existentes y se proponen algu- 

nos esquemas que intentan mejorar la velocidad de cálculo manteniendo un bajo 

consumo de recursos lógicos. 

33

Capítulo 3. Nuevas Arquitecturas de Multiplicadores 34 

3.2. Multiplicación Secuencial 

El Multiplicador Secuencial (SM) realiza el cálculo en forma iterativa mante- 

niendo un producto parcial acumulativo y sucesivamente sumando al mismo los 

términos yjX con el debido desplazamiento (Tabla 3.1). De esta forma, se logra 

reducir la cantidad de recursos a los necesarios para realizar la multiplicación 

yjX. 

Tabla 3.1: Producto de dos operandos de 4 bits, acumulación de productos parciales. 

x3 x2 x1 x0 

y3 y2 y1 y0 

s03 s02 s01 s00 ≡ 0 

s13 s12 s11 s10 ≡ y0X2 0 

s23 s22 s21 s20 ≡ y1X2 1 + y0X2 0 

s33 s32 s31 s30 ≡ y2X2 2 + y1X2 1 + y0X2 0 

p8 p7 p6 p5 p4 p3 p2 p1 ≡ y3X2 3 + y2X2 2 + y1X2 1 + y0X2 0 

3.2.1. Algoritmo 

En forma simplificada el algoritmo acumula cada producto parcial sobre el 

resultado parcial desplazado un bit respecto al anterior. Existen dos versiones de 

este algoritmo dependiendo del sentido de los valores a acumular, con desplaza- 

miento a la izquierda o viceversa. 

En la multiplicación con desplazamiento a la izquierda, se debe contar con 

un acumulador de longitud 2n bits. En este caso los productos parciales yjX son 

adicionados al resultado acumulado con un desplazamiento hacia la izquierda de 

un bit (2 1 ) respecto al anterior. El algoritmo se puede analizar a partir de la Ec. 

(3.1). 

p(j + 1) = 2p(j) + yn−1−jX con p(0) = 0 (3.1)


Un ejemplo de este algoritmo se muestra en la Tabla 3.2. En el mismo se 

realiza un producto de dos operandos de 4 bits. 

Tabla 3.2: Multiplicación secuencial con desplazamiento a la izquierda para operandos 

de 4 bits. 

X 1 0 0 1 

Y 1 1 0 1 

p(0) 0 0 0 0 

2p(0) 0 0 0 0 0 

+y 3X 1 0 0 1 

p(1) 1 0 0 1 

2p(1) 1 0 0 1 0 

+y 2X 1 0 0 1 

p(2) 1 1 0 1 1 

2p(2) 1 1 0 1 1 0 

+y 1X 0 0 0 0 

p(3) 1 1 0 1 1 0 

2p(3) 1 1 0 1 1 0 0 

+y 0X 1 0 0 1 

p(4) 0 1 1 1 0 1 0 1 

En la multiplicación con desplazamiento a la derecha el algoritmo se puede 

analizar con la Ec. (3.2). 

p(j + 1) = (p(j) + yjX2 n )2 −1 

o visto de otra manera con la Ec. (3.3), 

P = 2 n−1 

n−1 

 

yjX · 2 j−(n−1) 

 

j=0 

con p(0) = 0 (3.2) 

(3.3) 

En este caso los productos parciales yjX son adicionados al resultado acumu- 

lado con un desplazamiento hacia la derecha de un bit (2 −1 ) respecto al anterior.


Debido a que el desplazamiento a la derecha genera un primer producto par- 

cial multiplicado por 2 −k se debe pre-multiplicar y0X por 2 k para compensar el 

efecto del desplazamiento. Esta pre-multiplicación se puede efectuar fácilmente, 

almacenando p(j) en el segmento más significativo de un registro de 2n bit. 

Un ejemplo de este algoritmo se muestra en la Tabla 3.3. 

Tabla 3.3: Multiplicación con desplazamiento a la derecha para operandos de 4 

bits. 

X 1 0 0 1 

Y 1 1 0 1 

p(0) 0 0 0 0 

+y 0X 1 0 0 1 

2p(1) 1 0 0 1 

p(1) 0 1 0 0 1 

+y 1X 0 0 0 0 

2p(2) 0 1 0 0 1 

p(2) 0 0 1 0 0 1 

+y 2X 1 0 0 1 

2p(3) 1 0 1 1 0 1 

p(3) 0 1 0 1 1 0 1 

+y 3X 1 0 0 1 

2p(4) 1 1 1 0 1 0 1 

p(4) 0 1 1 1 0 1 0 1 

De los ejemplos presentados en las Tablas 3.2 y 3.3 se puede observar que 

ambos algoritmos son similares. Cada algoritmo realiza n sumas y n desplaza- 

mientos, sin embargo, las sumas realizadas con el algoritmo de desplazamiento 

a la izquierda son de 2n bits de longitud de palabra respecto del algoritmo de 

desplazamiento a la derecha que son de n bits. Esto se debe a que el acarreo de la 

suma se extiende hacia los bit más significativos. Por lo tanto, el algoritmo más 

utilizado es el de desplazamiento a la derecha que involucra menos recursos.


3.2.2. Implementación 

La implementación hardware de la multiplicación con desplazamiento a la 

derecha se muestra en la Figura 3.1. El multiplicador Y y la acumulación de 

los productos parciales p(j) son almacenados en registros de desplazamiento. El 

bit yj del multiplicador es el bit menos significativo disponible a la derecha del 

registro Y , el mismo es utilizado en el producto yjX seleccionando 0 o X en la 

suma. 

La suma y el desplazamiento pueden ser realizados en ciclos diferentes o en dos 

sub-ciclos dentro del mismo ciclo de reloj. En ambos casos se necesita almacenar 

la señal de acarreo del sumador. Por otro lado, el desplazamiento se puede realizar 

conectando el bit menos significativo de la suma al bit n − 1 del registro P y el 

bit de acarreo al bit 2n − 1 del mismo registro de longitud 2n y realizando de este 

modo suma y desplazamiento en un sólo ciclo de reloj. 

acarreo 

ADD 

n 

Producto 

2n-1 n 

n 

n 

n-1 

desplazamiento 

n-1 


Y 

Parcial 

Figura 3.1: Multiplicador SM con desplazamiento a la derecha. 

Se debe considerar que el multiplicador y la mitad menos significativa del 

registro P pueden compartir un mismo registro, de manera que a medida que 

los bits del multiplicador se van extrayendo del registro a partir del bit menos 

significativo, el bit menos significativo de p(j) es ingresado por el extremo más 

n 

n-1 

X 

0 

0 

0


significativo del mismo registro. El control del multiplicador, que no se muestra 

en la Figura 3.1, consiste en un contador que mantiene el número de iteración 

ejecutada y un circuito para la inicialización y carga del mismo. 

En la Figura 3.2 se puede observar un esquema de la realización del multipli- 

cador de desplazamiento a la derecha con registro compartido. 

acarreo 

ADD 

n 

Producto Parcial 

2n-1 n 

n 

n 


Figura 3.2: Multiplicador SM con desplazamiento a la derecha con registro compartido. 

La implementación hardware del algoritmo con desplazamiento a la izquierda 

se puede observar en la Figura 3.3. En este esquema, también el multiplicador Y 

y la acumulación de los productos parciales p(j) son almacenados en registros de 

desplazamiento, con la diferencia de que los registros se desplazan a la izquierda 

en vez de a la derecha. El bit yj del multiplicador es el bit más significativo 

disponible a la izquierda del registro Y , el mismo es utilizado en el producto 

yn−j−1X seleccionando 0 o X en la suma. 

En este multiplicador no se puede compartir el registro Y con la sección más 

significativa del registro P debido a que se utiliza un sumador de 2n bits. Esto 

es, que cada vez que se registra un producto parcial, se utiliza la totalidad del 

registro. El control del multiplicador, que no se muestra en la Figura 3.3, es similar 

al del multiplicador con desplazamiento a la derecha. 

n 

n-1 

n-1 

Y 

X 

0 

0


ADD 

2n 

Producto 

2n-1 n 

2n 

n 

n-1 

n-1 


Parcial 0 


Figura 3.3: Multiplicador SM con desplazamiento a la izquierda. 

n 

El hardware de este multiplicador es más complejo que el de la Figura 3.2, 

por lo que el método más utilizado es la multiplicación con desplazamiento a la 

derecha. 

Consumo de recursos 

El consumo de recursos lógicos del SM debe ser estimado en función de la 

longitud de palabra de los operandos. Si se analiza la estructura de los bloques que 

componen el multiplicador: sumadores, multiplexores, contadores y componentes 

básicos, se puede cuantificar el consumo de recursos de los mismos en función de 

la longitud de palabra. 

Un contador de módulo-n es un contador binario de log 2 n bits. Consecuente- 

mente utiliza n FFs (FlipFlops) y al menos la misma cantidad de FGs (Función 

Generators - ver Sección A.4.1). Por lo cual, este contador consume como mínimo 

log 2 (n) 

2 

FGs. 

Un multiplexor esta conformado sólo por lógica combinacional que requiere al 

menos n − 1 FGs de tres entradas. Esto genera un consumo de recursos de n−1 

2 

CLBs para una longitud de n bits entradas. 

n-1 

Y 

X 

0 

0


El consumo de recursos lógicos de un sumador depende del tipo de sumador 

seleccionado. Tal como se indicó en capítulos previos, el sumador indicado para la 

implementación de los multiplicadores en las FPGAs seleccionadas, es el sumador 

de ripple-carry. En este caso, un sumador utiliza (n+2) FGs ( n +1 celdas básicas) 

2 

considerando las salidas de acarreo y desborde. En el caso en que la salida de un 

sumador deba ser registrada, el consumo de recursos lógicos en términos de CLBs 

es el mismo dado que los FFs son nativos de cada celda básica. 

La Tabla 3.4 realiza una estimación del consumo de recursos para el SM. En 

esta estimación se considera que los n bits más significativos del registro P se 

pueden ubicar en conjunto con los FGs del sumador, y los menos significativos 

compartidos con el registro de desplazamiento Y (con carga de datos en paralelo). 

Las Ecs. (3.4 - 3.6) resumen el cálculo de la estimación en términos de FGs, FFs 

y CLBs. 

Función FG FF CLB 

Registro X 0 n n 

2 

Registro Y (SR) n + 1 n n+1 

2 

Control log2(n) + 2 log2(n) + 1 + 1 

log 2 (n) 

2 

Producto yiX n 0 n 

2 

Sumador + Reg. P n + 2 n + 2 n 

2 

+ 1 

Tabla 3.4: Estimación de consumo de recursos lógicos de un SM. 

F G(n) = 3n + log 2 n + 5 (3.4) 

F F (n) = 3n + log 2 n + 3 (3.5) 

CLB(n) = 2n + log 2 n 

2 

+ 5 

2 

(3.6) 

En la Fig. 3.4 se puede observar el consumo de estimado de recursos del SM.


CLB 

120 

100 

80 

60 

40 

20 

0 

0 5 10 15 20 25 30 35 

n 

Comportamiento temporal 

Figura 3.4: Consumo de recursos del SM. 

El comportamiento temporal del SM depende de dos factores, el retardo in- 

herente de las compuertas lógicas y registros, y el retardo por la interconexión de 

las mismas. En la mayoría de los circuitos realizados en FPGA el desempeño solo 

puede ser estimado después de ser implementado, ya que los retardos de interco- 

nexión se conocen una vez implementado el circuito. Sin embargo, en el caso de 

sumadores y contadores que utilizan recursos dedicados de lógica de acarreo, es 

posible estimar un desempeño temporal [26]. 

El período mínimo de reloj que se puede utilizar con el SM depende del retardo 

de propagación de la ruta más crítica. En este caso, la ruta más crítica es aquella 

en la cual los operandos del sumador son realimentados a través de una cadena de 

Flip Flops, Fig. 3.1. El retardo de propagación para un sumador se puede estimar 

a partir de la Fig. 3.5 en la cual se asume que n es par y que el sumador (sin 

contar las cadenas de acarreo) es implementado en n 

2 

CLBs. En esta figura los dos 

bits menos significativos de los operandos comparten un CLB y el retardo de las


A ,B 

N-1 N-1 

A ,B 

N-2 N-2 

A ,B 

N-3 N-3 

A ,B 

N-4 N-4 

A ,B 

3 3 

A ,B 

2 2 

A ,B 

1 1 

A ,B 

0 0 

T SUM 

T BYP 

T BYP 

T BYP 

T OPCY 

SALIDA DE ACARREO 

S N-1 

S N-2 

T SUM 

S N-3 

S N-4 

S 3 

S 2 

S 1 

S 0 

N-4 

2 CLBs 

Figura 3.5: Esquema de retardos en un sumador. 

entradas de estos bits a la cadena de acarreo se define como el tiempo TOP CY . Los 

dos bits más significativos también comparten un CLB y el retardo de la cadena 

de acarreo a la salida más significativa es el tiempo TSUM. Los n−4 bits restantes 

contribuyen con un retardo TBY P por cada dos bits. 

La Ec. (3.7) resume el retardo de propagación en un sumador como el que se 

describe en la Fig. 3.5. 

tpd = TOP CY + 

n − 4 

2 × TBY P + TSUM (3.7) 

Si se considera que cada bit que ingresa al sumador proviene de un registro 

se debe adicionar el retardo existente desde que se efectúa un flanco de reloj y se 

establece la salida de un Flip Flop, TCKO. La salida de este registro se realimenta 

a la entrada del sumador generando un retardo de interconexión Trd.


Otra ruta de interconexión crítica proviene de la selección del paso de itera- 

ción que incorpora un retardo entre una entrada F/G y la salida X/Y debido al 

producto yiXi, este retardo es denominado TILO. 

La Ec. (3.8) resume el retardo de propagación de la ruta de interconexión más 

crítica. 


n − 4 

2 × TBY P + TSUM + TILO + TCKO + Trd (3.8) 

Con el objetivo de poder cuantificar el retardo de propagación estimado se 

propone la utilización de los retardos de una FPGA de Xilinx de la familia Spartan 

[27]. Para esta estimación no se considera el retardo Trd dado que a priori se 

desconoce su valor. 

Retardo Valor [ns] 

TOP CY 2.7 

TBY P 0.5 

TSUM 2.0 

TILO 1.2 

2.1 

TCKO 

Tabla 3.5: Retardos de una FPGA Xilinx Spartan-4. 

En la Fig. 3.21 se graficó el retardo de propagación estimado para el SM, en 

función de la longitud de palabra n. Este retardo define la frecuencia máxima 

de reloj estimada (fc) que se puede utilizar con este multiplicador. La misma se 

muestra en la Fig. 3.7. 

La velocidad de procesamiento (Processing Speed - PS) estimada del SM se 

puede observar en la Fig. 3.8. La misma se calcula como P S = fc 

, expresado en 

n+1 

millones de operaciones por segundo. Se considera que este multiplicador requiere 

un ciclo de reloj para la carga de datos, en los registros X e Y, adicional a los n 

necesarios para calcular el producto.


Tpd [ns] 

Max. Frec. de reloj [Mhz] 

25 

20 

15 

10 

5 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.6: Retardo de propagación estimado del SM. 

120 

100 

80 

60 

40 

20 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.7: Máxima frecuencia de reloj estimada aplicable al SM.


Velocidad de Procesamiento [Mop] 

14 

12 

10 

8 

6 

4 

2 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.8: Velocidad máxima de procesamiento del SM. 

3.2.3. Multiplicador Secuencial de Base 4 

Esta variante de multiplicación secuencial reduce la cantidad de iteraciones 

aprovechando la representación numérica. 

Un número binario de n bits puede ser representado como un número de n 

2 

dígitos de base 4 ó un número de n 

3 

dígitos de base 8. De modo que para un 

dado rango de números que se pueden representar, existe una representación de 

mayor base que reduce la cantidad de dígitos. De este modo, es posible realizar 

un producto en menor tiempo de cálculo si se ejecuta una multiplicación de un 

dígito por vez en lugar de hacerlo bit a bit. 

La expresión general para este tipo de multiplicación es la de la Ec. (3.9): 

p(j + 1) = (p(j) + yjXr n )r −1 

con p(0) = 0 y p(n) = p (3.9) 

En el caso de la multiplicación en base 4 (SMB4), se debe conformar el pro- 

ducto parcial [yj+1 yj]2X y adicionarlo al resultado de la iteración anterior. El


producto de dos operadores binarios de 4 bits sin signo X e Y se puede observar 

en la Tabla 3.6. 

Tabla 3.6: Producto de dos operandos en base 4 

x3 x2 x1 x0 

y3 y2 y1 y0 

s05 s04 s03 s02 s01 s00 ≡ y1y0X4 0 

s15 s14 s13 s12 s11 s10 ≡ y3y2X4 1 

P8 P7 P6 P5 P4 P3 P2 P1 ≡ P 

Mientras que en la multiplicación de base 2 cada producto parcial está repre- 

sentado por el valor 0 o una versión desplazada de X, en la multiplicación de 

base 4 el producto parcial toma la forma del valor 0, X, 2X y 3X. El método 

más directo para la ejecución de esta multiplicación se puede realizar mediante 

una asignación pre-calculada de los productos parciales. 

Un ejemplo de este tipo de multiplicación se puede observar en la Tabla 3.7. 

Tabla 3.7: Multiplicación base 4 de dos operados de 4 bits. 

X 1 0 0 1 

Y 1 1 0 1 

p(0) 0 0 0 0 

+(01)2X = X 1 0 0 1 

4p(1) 1 0 0 1 

p(1) 0 0 1 0 0 1 

+(11)2X = 3X 1 1 0 1 1 

4p(2) 1 1 1 0 1 0 1 

p(2) 0 1 1 1 0 1 0 1 

Un diagrama de este multiplicador (en adelante SMB4(3X)) se muestra en la 

Fig. 3.9. En el mismo se debe considerar que, mientras los tres primeros valores de 

los productos parciales se pueden utilizar en forma directa, el valor 3X requiere


un período de tiempo para ejecutar la suma X + 2X. Además, como el valor pre- 

calculado 3X puede exceder el rango de X, entonces el multiplexor y el sumador 

utilizados en el multiplicador deben ser de (n + 2) bits. 

acarreo 

ADD 

n+2 


2n-1 n 

n 

n+2 

MUX 

desplazamiento 2 bits 

n-1 

n+2 

n+2 

n+2 

n+2 

0 

X 

Y 

2X 

3X 

Figura 3.9: Diagrama de un SMB4(3X). 

Una alternativa consiste en reemplazar 3X por −X generando un acarreo que 

modifica al siguiente dígito. Este set de dígitos es afectado por el acarreo según 

la Tabla 3.8, en la cual, cy(j − 1) es el acarreo correspondiente a una iteración 

anterior, cy(j) es el acarreo actual, y2j−1 e y2j son los bits seleccionados con 

cada iteración que generan una salida con los valores [0, −X, X, 2X]. Con esta 

alternativa, al final de la iteración n 

2 

último dígito de base 4 generó un bit de acarreo. 

se debe realizar una nueva iteración, si el 

Tabla 3.8: Codificación de los dígitos, alternativa (-X). 

cy(j − 1) y2j−1 y2j salida(j) cy(j) 

0 0 0 0 0 

0 0 1 X 0 

0 1 0 2X 0 

0 1 1 −X 1 

1 0 0 X 0 

1 0 1 2X 0 

1 1 0 −X 1 

1 1 1 0 1 

2 

1 

0


Un ejemplo de esta alternativa se observa en la Tabla 3.8, en la cual se ejecuta 

un producto de dos operandos de 8 bits, donde al final de la última iteración el 

acarreo debido al último dígito genera una iteración adicional. 

Tabla 3.9: Multiplicación base 4, alternativa (-X). 

X 0 1 1 1 1 0 1 1 

Y 1 1 1 1 0 1 1 0 

p(0) 0 0 0 0 0 0 0 0 

+(10)X = +2X 1 1 1 1 0 1 1 0 

4p(1) 1 1 1 1 0 1 1 0 

p(1) 0 0 1 1 1 1 0 1 1 0 

+(01)X = +X 0 1 1 1 1 0 1 1 

4p(2) 1 0 1 1 1 0 0 0 1 0 

p(2) 0 0 1 0 1 1 1 0 0 0 1 0 

+(11)X = −X 1 0 0 0 0 1 0 1 

4p(3) 1 0 1 1 0 0 1 1 0 0 1 0 

p(3) 1 1 1 0 1 1 0 0 1 1 0 0 1 0 

+(11 + cy)X = 0 0 0 0 0 0 0 0 0 

4p(4) 1 1 1 0 1 1 0 0 1 1 0 0 1 0 

p(4) 1 1 1 1 1 0 1 1 0 0 1 1 0 0 1 0 

+(00 + cy)X = X 0 1 1 1 1 0 1 1 

p(5) 0 1 1 1 0 1 1 0 0 0 1 1 0 0 1 0 

El diagrama de este multiplicador (en adelante SMB4(-X)) se muestra en la 

Fig. 3.10. 

Los esquemas de multiplicación de las Figs. 3.9 y 3.10 se pueden extender a 

multiplicadores de bases superiores, pero la estructura del multiplicador se vuelve 

más compleja debido a que se debe pre-computar una mayor cantidad de valores 

y consecuentemente el número de iteraciones deja de ser menor que n 

2 

+ 1. Por 

ejemplo, para un producto de base 8, se deben pre-computar los valores de 3X, 5X 

y 7X, o sólo pre-computar 3X y utilizar un esquema de acarreo similar al de la 

Fig. 3.10 para convertir a 5X, 6X y 7X en −3X, −2X y −X.


acarreo 

ADD 


n+1 

n 


2n-1 n 

n+1 

MUX 


n-1 

n+1 

n+1 

n+1 

n+1 

y y +cy 

2j-1 2j 

FF 

acarreo 

0 

X 

Y 

2X 

-X 

Figura 3.10: Diagrama de un SMB4(-X). 

SMB4(3X): La estimación del consumo de recursos lógicos del SMB4(3X) debe 

considerar los recursos para el pre-cálculo de 3X y que este cálculo puede resultar 

en n + 2 bits. La estimación para este multiplicador se consigna en la Tabla 3.10 


n 

Registro X 0 n 2 

n 

Sumador X + 2X n + 2 0 2 

+ 1 

n 1 

Registro Y (SR) n + 1 n + 

Control log2( n 

2 ) + 2 log2( n) 

+ 1 2 

2 

1 

2 

0 

log 2 ( n 

2 ) 

2 

Multiplexor 4 : 1 × (n + 2) 3(n + 2) 0 3n 

2 

Sumador (n + 2) + Reg. PH n + 4 n + 4 n 

2 

2 

+ 1 

+ 3 

+ 2 

Tabla 3.10: Estimación de consumo de recursos de un SMB4(3X). 

Las Ecs. (3.10 - 3.12) resumen el cálculo de la estimación en términos de FGs, 

FFs y CLBs. 

F G(n) = 6n + log2( n 

) + 15 (3.10) 

2


F F (n) = 3n + log2( n 

) + 5 (3.11) 

2 

CLB(n) = 7 

2 n + log2( n 

2 ) 

2 

+ 15 

2 

(3.12) 

SMB4(-X): En esta versión se reemplaza −X por ¯ X y se ingresa un acarreo 

de entrada al sumador. De este modo no es necesario el pre-cálculo de −X y se 

ahorran recursos. 

acarreo 

ADD 

n+1 

n 


2n-1 n 

n+1 

acarreo de entrada 

MUX 


n-1 

n+1 

n+1 

n+1 

n+1 

y y +cy 

2j-1 2j 

FF 

acarreo 

0 

X 

Y 

2X 

X 

Figura 3.11: Diagrama de la variante del SMB4(-X). 

La estimación de recursos para este multiplicador se muestra en la Tabla 3.11. 



2 

n 1 

Registro Y (SR) n + 1 n + 


2 ) + 6 log2( n) 

+ 3 2 

2 

1 

2 

0 

log 2 ( n 

2 ) 

2 

Multiplexor 4 : 1 × (n + 1) 3(n + 1) 0 3n 

2 

Sumador (n + 1) + Reg. PH n + 3 n + 3 n 

2 

2 

+ 4 

+ 3 

2 

+ 3 

2 

Tabla 3.11: Estimación de consumo de recursos lógicos SMB4(-X).



FFs y CLBs. 

F G(n) = 5n + log2( n 

) + 13 (3.13) 

2 

F F (n) = 3n + log2( n 

) + 6 (3.14) 

2 

CLB(n) = 3n + log2( n 

2 ) 

+ 

2 

15 

2 

(3.15) 

En la Fig. 3.12 se muestra el consumo de recursos lógicos de las dos variantes 

del multiplicador secuencial de base 4 en contraste con el multiplicador secuencial 

tradicional. Se observa en la misma figura que, si bien la velocidad de procesa- 

miento de los SM base 4 se incrementa casi al doble por realizar menos iteraciones, 

el costo en consumo de recursos lógicos asciende a más del doble respecto a un 

SM tradicional. 


SMB4(3X): El comportamiento temporal del SMB4(3X) involucra dos cade- 

nas de adiciones, la primera resulta de la obtención del valor 3X y la segunda de 

la operación de acumulación de los productos parciales, Fig. 3.9. 

La Ec. (3.16) resume el retardo de propagación de la ruta de interconexión 

más crítica este multiplicador. 

tpd = 2TOP CY + 

(n + 2) − 4 

2 

× TBY P + 2TSUM + TIHO + Trd 

(3.16)


CLB 

200 

180 

160 

140 

120 

100 

80 

60 

40 

20 

XCS10 

XCS05 

SMB4(3X) 

SMB4(−X) 

SM 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.12: Consumo de recursos de multiplicadores SM. 

En la Fig. 3.13 se muestra el retardo de propagación estimado para el SMB4(3X). 

Este retardo define la frecuencia máxima de reloj que se puede utilizar con este 

multiplicador, que se observa en la Fig. 3.14. 

La velocidad de procesamiento estimada del SMB4(3X) se grafica en la Fig. 

3.15. La misma es obtenida como la frecuencia máxima de reloj aplicable al 

multiplicador dividido el número de ciclos necesarios para ejecutar un producto, 

P S = fc 

n 

+1, expresado en millones de operaciones por segundo. En esta estimación 

2 

se considera que la carga de datos y el cálculo de 3X no excede un período de 

reloj.


Tpd [ns] 

30 

25 

20 

15 

10 

5 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.13: Retardo de propagación estimado del SMB4(3X). 


100 

90 

80 

70 

60 

50 

40 

30 

20 

10 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.14: Máxima frecuencia de reloj estimada aplicable al SMB4(3X).



14 

12 

10 

8 

6 

4 

2 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.15: Velocidad máxima de procesamiento del SMB4(3X). 

SMB4(-X): El comportamiento temporal del SMB4(-X), si bien evita el cálculo 

de 3X, involucra un retardo asociado a la operación de la Tabla 3.8. La Ec. (3.17) 

resume el retardo de propagación de la ruta de interconexión más crítica de este 

multiplicador. 


(n + 2) − 4 

2 

× TBY P + TSUM + TIHO + TILO + TICK + Trd (3.17) 

En la Fig. 3.16 se puede observar el retardo de propagación estimado para el 

SMB4(-X). Este retardo define la frecuencia máxima de reloj que se puede utilizar 

con este multiplicador, que se observa en la Fig. 3.17. 

La velocidad de procesamiento estimada del SMB4(-X) se muestra en la Fig. 

3.18. La misma es calculada como la frecuencia máxima de reloj aplicable al 

multiplicador dividido el número de ciclos necesarios para ejecutar un producto, 

P S = fc 

n 

+2, expresado en millones de operaciones por segundo. 

2


Tpd [ns] 

30 

25 

20 

15 

10 

5 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.16: Retardo de propagación estimado del SMB4(-X). 


100 

90 

80 

70 

60 

50 

40 

30 

20 

10 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.17: Máxima frecuencia de reloj estimada aplicable al SMB4(-X).



14 

12 

10 

8 

6 

4 

2 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.18: Velocidad máxima de procesamiento del SMB4(-X). 

3.3. Arquitecturas Propuestas en Punto Fijo 

3.3.1. Multiplicador Secuencial Sin Entradas Registradas 

El multiplicador secuencial sin entradas registradas (SMSR) es una variante 

del multiplicador SM de desplazamiento a la derecha. El SMSR presenta un es- 

quema de multiplicación simplificado ya que no realiza la carga paralelo de los 

registros del multiplicador y del multiplicando. De esta manera no existe la de- 

mora propia del ciclo de carga, lo cual constituye una ventaja. Por lo tanto, este 

multiplicador puede realizar un producto en un período T = nTCK, donde n es 

la longitud de palabra de los operandos y TCK el período de reloj aplicado sobre 

el multiplicador. 

En la Figura 3.19 se muestra un esquema del SMSR, que utiliza un sumador 

de n bits y un multiplexor para la selección de los bits yj. 

El control del multiplicador consiste en un contador que ejecuta la selección de 

los yj y que a su vez mantiene el número de iteración realizada. La inicialización


acarreo 

ADD 

n 

n 

Producto 

2n-1 n 

n 


n 

n-1 

X 

Parcial 

MUX 

Control 

Figura 3.19: Multiplicador SMSR. 

del multiplicador se realiza reseteando el registro que guarda el producto parcial 

acumulado (P ) y el contador. Este multiplicador requiere que los datos esten 

presentes durante todo el ciclo de la multiplicación. 


La Tabla 3.12 muestra el consumo de recursos lógicos del SMSR. En esta 

estimación se acepta que los n bits más significativos del registro P se ubican en 

conjunto con los FGs del sumador, y los menos significativos constituyen tan sólo 

un registro de desplazamiento serie. 


Multiplexor yi 

Producto yiX 

Control 

n − 1 

n 

log2(n) + 2 

0 

0 

log2(n) + 1 

n−1 

2 

n 

2 

log2 (n) 

+ 1 2 

+ 1 

n 

Sumador + Reg. PH n + 2 n + 2 2 

n 

Registro PL 0 n 2 

Tabla 3.12: Estimación de consumo de recursos lógicos de un SMSR. 

Las Ecs. (3.18, 3.19 y 3.20) resumen la estimación en términos de FGs, FFs 

y CLBs. 

F G(n) = 3n + log 2 n + 3 (3.18) 

n 

0 

Y


F F (n) = 2n + log 2 n + 3 (3.19) 


2 

+ 3 

2 

En la Fig. 3.20 se muestra el consumo estimado de recursos del SMSR. 

CLB 

120 

100 

80 

60 

40 

20 

XCS05 

0 

0 5 10 15 20 25 30 35 

n 


Figura 3.20: Consumo de recursos del SMSR. 

(3.20) 

El período mínimo de reloj que puede utilizar el SMSR si bien contiene los 

mismos retardos que el SM, el retardo TILO proviene del multiplexado para la 

selección de yi. 


más crítica.



n − 4 

2 × TBY P + TSUM + TILO + TCKO + Trd (3.21) 

En la Fig. 3.21 se grafica el retardo de propagación estimado para el multi- 

plicador propuesto. La máxima frecuencia de reloj que se puede utilizar con este 

multiplicador se muestra en la Fig. 3.22. 

Tpd [ns] 

25 

20 

15 

10 

5 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.21: Retardo de propagación estimado del SMSR. 

La velocidad de procesamiento estimada del SMSR se presenta en la Fig. 3.23. 

La misma se calcula como la frecuencia máxima de reloj aplicable al multiplicador 

dividido el número de ciclos necesarios para ejecutar un producto, P S = fc 

n , 

expresado en millones de operaciones por segundo.



120 

100 

80 

60 

40 

20 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.22: Máxima frecuencia de reloj estimada aplicable al SMSR. 


14 

12 

10 

8 

6 

4 

2 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.23: Velocidad máxima de procesamiento del SMSR.


3.3.2. Multiplicador Secuencial Fraccionado 

El Multiplicador Secuencial Fraccionado (SMF) permite obtener una buena 

velocidad procesamiento reduciendo el número de ciclos necesarios para ejecutar 

el producto. Esta reducción se obtiene fraccionando la sumatoria de la Ec. (3.22) 

en dos semisumatorias, (3.23). 

P = 

n−1 

P = 

j=0 

X2 j · yj 

k 

X2 j n−1 

yj + 

j=0 

j=k 

X2 j yj 

(3.22) 

(3.23) 

Aplicando el SM con desplazamiento a la derecha, el producto resultante se 

muestra en la Ec. (3.24). 

P = 2 n−1 

 

k 

X · 2 j−(n−1) n−1 

yj + X · 2 j−(n−1) 

yj 

j=0 

j=k 

(3.24) 

La primer semi-sumatoria realiza su proceso en k · TCK (donde TCK es el 

período de reloj) y la segunda en (n − 1 − k) · TCK. Si las dos semi-sumatorias co- 

mienzan al mismo tiempo y se suman sus resultados con el debido desplazamiento, 

el período de proceso estará dado por: 

k · TCK si k > (n − 1) − k 

((n − 1) − k) · TCK si k < (n − 1) − k 

o 

Para el caso particular en que k = n, 

el período de procesamiento de cada 

2 

producto será n · TCK. 

2 

La suma de las dos semi-sumatorias de la Ec. (3.24) se realiza mediante un


único sumador de 2n − k bits, ya que la primer semi-sumatoria se encontrará des- 

plazada k veces de la segunda. Por otro lado dicha suma agrega un retardo tR 

proveniente de la lógica involucrada. Este retardo se puede considerar menor que 

TCK, tomando como pauta que el retardo de involucrado en la adición de los 

productos parciales es inferior o igual al retardo definido para un multiplicador 

SM. 

El período de procesamiento para este multiplicador estará dado por T = 

( n + 1) · TCK. 

2 

SM 

Acumulación 

X[n:0] X[n:0] 

Y[m/2:0] Y[m:m/2+1] 

m/2 x n 

m/2 x n 

Y[m:0] x X[n:0] 

Figura 3.24: Diagrama de operación de un SMF. 

En la Fig. 3.24 se muestra el esquema del SMF, donde dos multiplicadores 

secuenciales realizan sus productos simultáneamente y, un período después, sus 

resultados son adicionados. 

La aplicación práctica del SMF se puede realizar en base a un SM tradicional 

o un SMSR. La utilización del SM implica que se deben cargar los datos en los 

registros, por lo que se requieren n 

2 

+ 2 iteraciones para realizar un producto. 

Por lo tanto, se justifica la utilización de este esquema para multiplicadores con 

una longitud de palabra que haga despreciables las dos iteraciones adicionales 

en comparación con n. 

En el caso del SMF basado en un SMSR, el producto se 

2 

realiza en n + 1 iteraciones. 

2



Recursos de un SMF(SM): La Tabla 3.13 muestra el consumo de recursos del 

SMF basado en el SM. En esta estimación se considera que ambos multiplicadores 

parciales son controlados por un único contador. 


Registro X 

2× Registro SR Y [ 

0 n n 

2 

n : 0] 2 

2× Producto yiX 

n 2( + 1) 2 

2n 

n 2 2 

0 

n + 1 2 

n 

Control mod n 

2 

log2( n 

2 ) + 2 log2( n 

2 ) + 1 1 

2 log2( n 

2× Sumador + Reg. PHi 2n + 4 2n + 4 

) + 1 2 

n + 2 

Sumador + Reg. Ptotal n + 2 3n 

+ 2 

3n 

+ 1 

3 

2 

Tabla 3.13: Estimación de consumo de recursos lógicos SMF(SM). 


FFs y CLBs. 

2 

F G(n) = 13 

2 n + log n 

2 + 10 (3.25) 

2 

F F (n) = 11 

2 n + log n 

2 + 7 (3.26) 

2 

CLB(n) = 15 

4 n + log2 n 

2 

2 

4 

+ 5 (3.27) 

Recursos de un SMF(SMSR): La Tabla 3.14 realiza una estimación del 

consumo de recursos del SMF basado en el SMSR. Las consideraciones de esta 

estimación son similares al SMF basado en un SM. 


FFs y CLBs.



2× Multiplexor yi 2( n 

2 − 1) 0 2× Producto yiX 2n 0 

n − 1 2 

n 

Control mod n 

2 

log2( n 

2 ) + 2 log2( n 

2 ) + 1 1 

2 log2( n 

2× Sumador + Reg. PHi 2n + 4 2n + 4 

) + 1 2 

n + 2 

2× Registro PL n 

0 2 2 n 

2 

3 

3 

Sumador + Reg. Ptotal n + 2 2 2 

n + 2 

3 

4 

n 

2 

n + 1 

Tabla 3.14: Estimación de consumo de recursos lógicos de un SMF(SMSR). 

F G(n) = 13 

2 n + log n 

2 + 6 (3.28) 

2 

F F (n) = 7 

2 n + log n 

2 + 7 (3.29) 

2 

CLB(n) = 15 

4 n + log2 n 

2 

2 

+ 3 (3.30) 

En la Fig. 3.25 se puede observar el consumo de recursos lógicos estimado del 

SMF basado en un SM tradicional y en un SMSR. 


El comportamiento temporal resulta similar al de un multiplicador SM o 

SMSR debido a que la ruta de interconexión más crítica se encuentra en la cons- 

titución de los multiplicadores fraccionados, Fig. 3.24. 


más crítica para el multiplicador propuesto. 


n − 4 

2 × TBY P + TSUM + TILO + Trd (3.31) 

En la Fig. 3.26 se grafica el retardo de propagación estimado para el SMF. 

Este retardo define la frecuencia máxima de reloj que se puede utilizar con este


CLB 

200 

180 

160 

140 

120 

100 

80 

60 

40 

20 

XCS10 

XCS05 

SMF (SM) 

SMF (SMSR) 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.25: Consumo de recursos de multiplicadores SMF. 


La velocidad de procesamiento estimada de los SMF se muestra en la Fig. 3.28. 

La misma es calculada como la frecuencia máxima de reloj dividido el número 

de ciclos necesarios para ejecutar un producto, P SSM = fc 

n 

expresado en millones de operaciones por segundo. 

2 +1 y P SSMSR = fc 

n , 

2


Tdp [ns] 

25 

20 

15 

10 

5 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.26: Retardo de propagación estimado del SMF. 


120 

100 

80 

60 

40 

20 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.27: Máxima frecuencia de reloj estimada aplicable al SMF.


Velocidad de Procesamiento [Mops] 

25 

20 

15 

10 

5 

SMF (SM) 

SMF (SMSR) 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.28: Velocidad máxima de procesamiento de los SMF. 

3.3.3. Multiplicador de Sumas Consecutivas 

Esta variante es similar al SMB4 ya que básicamente opera con dígitos de 

2 bits. La estrategia consiste en realizar dos subproductos en forma consecuti- 

va para reducir el número de iteraciones sin tener que pre-computar múltiplos 

de los operandos. El Multiplicador de Sumas Consecutivas (SMSC) realiza dos 

subproductos consecutivos en cada iteración como se puede observar en la Ec. 

(3.32). 

3.15. 

P = 2 n−1 

⎡ 

 

⎣ 

n 

2 −1 

(yjX · 2 2j−(n−1) + yj+1X · 2 2j+1−(n−1) ) 

j=0 

⎤ 

⎦ (3.32) 

Un ejemplo de la operatoria de este multiplicador es presentado en la Tabla 

La suma de los dos subproductos de la Ec. (3.32) genera un TCK superior al de 

un multiplicador secuencial debido al acarreo de los dos sumadores, sin embargo, 

para ciertas longitudes de palabras, el incremento en el retardo se ve minimizado


Tabla 3.15: Ejemplo de una multiplicación mediante sumas consecutivas 

X 1 0 0 1 

Y 1 1 0 1 

p(0) 0 0 0 0 

+y 0X 1 0 0 1 

+2y 1X 0 0 0 0 

4p(1) 0 1 0 0 1 

p(1) 0 0 1 0 0 1 

+y 3X 1 0 0 1 

+2 −1 y4X 1 0 0 1 0 

4p(2) 1 1 1 0 1 0 1 

p(2) 0 1 1 1 0 1 0 1 

frente a la ventaja de reducir a la mitad la cantidad de ciclos en el período de 

procesamiento. 

Un esquema del SMSC basado en un SM se muestra en la Fig. 3.29, donde 

se aprecia que, en cada iteración, se realiza la suma en forma consecutiva de dos 

subproductos, yjX + yj+1X · 2 j+1 de la Ec. (3.32). 

acarreo 

acarreo 

ADD 

n-1 

n 

ADD 

LSB 



Y 2n-1 n n-1 

1 0 

n 

Figura 3.29: Ejemplo de un SMSC(SM). 

El esquema basado en el SMSR se muestra en la Fig. 3.30. 

n-1 

X 

n 

0


acarreo 

acarreo 

ADD 

n-1 


n 

ADD 

LSB 

Producto 

2n-1 n 

n 

n 

n 

X 


MUX 

MUX 

Control 

n-1 

n/2 

n/2 

Parcial 

Figura 3.30: Ejemplo de un SMSC(SMSR). 

Y[bits pares] 

0 

Y[bits impares] 

Recursos de un SMSC(SM): La Tabla 3.16 muestra el consumo de recursos 

para un SMSC basado en un SM. 



2 

Registro Y (SR) n + 1 n n+1 

2 

log 2 ( n 

2 ) 

2 


2 ) + 2 log2( n 

2× Producto yiX 2n 

) + 1 2 

0 

+ 1 

n 

Sumador n + 2 0 n + 1 2 

+ 1 


2 

Tabla 3.16: Estimación de consumo de recursos lógicos de un SMSC(SM). 

Las Ecs. (3.33 - 3.35) resumen el cálculo del consumo en términos de FGs, 

FFs y CLBs. 

F G(n) = 5n + log 2 

F F (n) = 3n + log 2 


2 

2 

n 

+ 7 (3.33) 

2 

n 

+ 3 (3.34) 

2 

+ 7 

2 

(3.35)


Recursos de un SMSC(SMSR): La Tabla 3.17 expresa el consumo de re- 

cursos para un SMSC basado en el SMSR. 


2× Multiplexor yi 2( n 

2 − 1) 0 Control log2( n − 1 2 n 

2 ) + 2 log2( n) 

+ 1 2 

log2 ( n 

2 ) 

2× Producto yiX 2n 0 

+ 1 2 

n 

Sumador n + 2 0 n + 1 2 

+ 1 

n 

Sumador + Reg. P n + 2 n + 2 2 

n 

Registro PL 0 n 2 

Tabla 3.17: Estimación de consumo de recursos lógicos de un SMSC(SMSR). 

Las Ecs. (3.36 - 3.38) resumen el consumo en términos de FGs, FFs y CLBs. 

F G(n) = 5n + log 2 

F F (n) = n + log 2 

n 

+ 4 (3.36) 

2 

n 

+ 3 (3.37) 

2 

CLB(n) = 3n + 1 

2 log n 

2 + 2 (3.38) 

2 

En la Fig. 3.31 se muestra el consumo de recursos del multiplicador SMSC en 

sus dos variantes.


CLB 

120 

100 

80 

60 

40 

20 

XCS05 

SMSC (SM) 

SMSC (SMSR) 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.31: Consumo de recursos estimado de un SMSC. 


El comportamiento temporal del SMSC depende de la ruta más crítica que, 

en este caso debe tener en cuenta el acarreo los operandos a través de los dos 

sumadores consecutivos realimentados a través de una cadena de Flip Flops, Fig. 

3.29 o 3.30. 

La ruta de retardos entre los dos sumadores consecutivos es mostrada en la 

Fig. 3.32, donde se puede observar que existen dos rutas de acarreo críticas. La 

primera fue presentada en la Sección 3.3.1 y se observa sobre el sumador de la 

izquierda. La segunda, incorpora un retardo adicional TOP CY para la generación 

del acarreo del segundo sumador, proveniente del bit S1 del primer sumador, y 

un segundo retardo que se considera aditivo, proveniente del acarreo de salida del 

primer sumador. 


más crítica para el multiplicador propuesto.


A,B 

7 7 

A,B 

6 6 

A,B 

5 5 

A,B 

4 4 

A,B 

3 3 

A,B 

2 2 

A,B 

1 1 

A,B 

0 0 

T SUM 

T BYP 

T BYP 

T BYP 

T OPCY 

C O 

S 7 

S 6 

S 5 

S 4 

S 3 

S 2 

S 1 

S 0 

C,B 

O 7 

S,B 

7 6 

S,B 

6 5 

S,B 

5 4 

S,B 

4 3 

S,B 

3 2 

S,B 

2 1 

S,B 

1 0 

T SUM 

T BYP 

T BYP 

T BYP 

T OPCY 

Figura 3.32: Ruta crítica de dos sumas consecutivas. 

C O 

S 7 

S 6 

S 5 

S 4 

S 3 

S 2 

S 1 

S 0


tpd = 2 × TOP CY + 

n − 4 

2 × TBY P + 2 × TSUM + TILO + Trd (3.39) 

La Fig. 3.33 muestra el retardo de propagación estimado para el SMSC. Es- 

te retardo define la frecuencia máxima de reloj que se puede utilizar con este 


Tdp [ns] 

25 

20 

15 

10 

5 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.33: Retardo de propagación estimado del SMSC. 

La velocidad de procesamiento estimada del SMSC se grafica en la Fig. 3.35. 

La misma es calculada como la frecuencia máxima de reloj aplicable al multipli- 

cador, dividida por el número de ciclos necesarios para ejecutar un producto y 

depende del esquema en que se basa el mismo. Si se basa en un SM, la velocidad 

de procesamiento es P S = fc 

fc 

n 

+1. En el caso de un SMSR, resulta de P S = n . 

2 

2



120 

100 

80 

60 

40 

20 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.34: Máxima frecuencia de reloj estimada aplicable al SMSC. 


25 

20 

15 

10 

5 

SMSC (SM) 

SMSC (SMSR) 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.35: Velocidad máxima de procesamiento del SMSC.


3.4. Comparación de los multiplicadores 

Los multiplicadores propuestos fueron comparados entre sí y con respecto a 

los multiplicadores existentes en la literatura. Se realizaron dos comparaciones, 

la primera destinada a los multiplicadores secuenciales SM y SMSR, que son 

los optimizados en consumo de recursos lógicos, y la segunda destinada a los 

multiplicadores secuenciales optimizados en velocidad de procesamiento. 

3.4.1. Multiplicadores optimizados en consumo de recur- 

sos 

En la Fig. 3.36 se grafica el consumo de recursos lógicos de los multiplicadores 

secuenciales SM y SMSR. 

CLB 

80 

70 

60 

50 

40 

30 

20 

10 

SM 

SMSR 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.36: Consumo de recursos lógicos de un SM vs SMSR. 

Se puede observar que el SMSR posee un consumo de recursos levemente 

inferior al del SM.


El retardo de la ruta crítica para ambos multiplicadores es prácticamente 

el mismo, sin embargo la velocidad de procesamiento (que depende del número 

de iteraciones) presenta una diferencia a favor del multiplicador SMSR. Esto se 

puede observar en la Fig. 3.37. 

PS [Mops] 

14 

12 

10 

8 

6 

4 

SM 

SMSR 

2 

5 10 15 20 

n 

25 30 35 

Figura 3.37: Velocidad de procesamiento de un SM vs SMSR. 

3.4.2. Multiplicadores optimizados en velocidad 

En la Fig. 3.38 se muestra el consumo de recursos lógicos de las variantes 

optimizadas en velocidad. 

Se puede observar que los multiplicadores del tipo SMSC son los que consumen 

la menor cantidad de recursos, mientras que los del tipo SMF poseen un consumo 

relativo entre un 30 y un 40 % mayor. Por otro lado, los multiplicadores de base 

4 poseen un consumo relativo a los SMSC entre un 15 y un 20 % mayor. 

En la Fig. 3.39 se grafican las velocidades de procesamiento, donde se puede 

observar que el SMF(SMSR) es el que provee la mayor velocidad de procesamiento 

para todos los valores de n. Adicionalmente, se puede observar que la variante


CLB 

150 

100 

50 

XCS05 

SMB4(3X) 

SMB4(−X) 

SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.38: Consumo de recursos lógicos de los multiplicadores optimizados en 

velocidad. 

SMF(SM), salvo para n = 8, presenta una buena velocidad de procesamiento 

aunque inferior al SMF(SMSR) debido a que requiere una iteración adicional. 

El multiplicador SMSC(SMSR) presenta una buena velocidad de procesamien- 

to para n < 14 bits, pero para valores mayores decrece. Se observa también que 

las otras variantes logran velocidades inferiores a las del SMF(SMSR), pero su- 

periores a la velocidad del SMB4(3X).


PS [Mops] 

22 

20 

18 

16 

14 

12 

10 

8 

6 

4 

SMB4(3X) 

SMB4(−X) 

SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

2 

5 10 15 20 

n 

25 30 35 

Figura 3.39: Velocidad de procesamiento de los multiplicadores optimizados en 

velocidad. 

3.4.3. Performance de los multiplicadores 

A fin de estimar los beneficios de cada variante utilizando un único indicador, 

se propone el índice de performance p, definido en la Ec. (3.40). 

pi(n) = 


Area 

(3.40) 

en la cual, la Velocidad de Procesamiento está expresada en Millones de Opera- 

ciones por Segundo y el Area como la fracción de recursos respecto de todos los 

existentes en una FPGA, (Total de la FPGA = 1). 

En la Fig. 3.40 se muestra el índice de performance para una FPGA de 400 

CLB’s. Se puede observar que, para n < 14 bits, el SMSR presenta el mayor 

índice de performance. Esto se debe a que este multiplicador posee un consumo de 

recursos lógicos bastante reducido, y la relación entre este consumo y su velocidad 

de procesamiento es la óptima. 

Una forma de interpretar este resultado es analizando una posible aplicación


Performance 

300 

250 

200 

150 

100 

50 

SM 

SMSR 

SMB4(3X) 

SMB4(−X) 

SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

5 10 15 20 

n 

25 30 35 

Figura 3.40: Índice de performance de los multiplicadores. 

de este multiplicador. El índice de performance refleja que, si existiera la necesidad 

de realizar un cierto número de productos simultáneamente, resulta más eficiente 

utilizar arreglos paralelos de multiplicadores SMSR en lugar de un multiplicador 

optimizado en velocidad. 

El índice indica que el SMSC es casi tan eficiente como el SMF(SMSR). Por 

otro lado, los multiplicadores SMF(SM) y SMSC(SM) poseen una eficiencia me- 

nor, debido al número de iteraciones adicionales que deben realizar para ejecutar 

un producto. Comparativamente se puede observar que la eficiencia de los multi- 

plicadores de base 4 es bastante inferior. 

En la Fig. 3.41 se grafica en forma ampliada el índice para 20 < n < 32. En es- 

ta figura se puede observar que al aumentar la longitud de palabra el SMF(SMSR) 

y el SMSC(SMSR) resultan tanto o más eficientes que el SMSR.


Performance 

35 

30 

25 

20 

15 

10 

5 

SM 

SMSR 

SMB4(3X) 

SMB4(−X) 

SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

20 22 24 26 

n 

28 30 32 

Figura 3.41: Índice de performance de los multiplicadores 20 < n < 32. 

3.5. Arquitecturas Propuestas en Punto Flotan- 

te 

3.5.1. Variante Multiplicador Secuencial Sin Entradas Re- 

gistradas 

Producto de mantisas 

El producto de las mantisas es un producto de dos enteros binarios sin signo. 

El resultado de dos operandos enteros de n bits genera como resultado un número 

de 2n bits, sin embargo, en la multiplicación en punto flotante solo se representan 

los n bits más significativos. Esto permite que exista una reducción de la lógica 

del multiplicador debido a que la sección menos significativa del registro que 

almacena el P roductoparcial es reemplazada por un único Flip-Flop. Fig. 3.42.


ADD 

n 


acarreo 

n+1 n 


0 

bits descartados 

n 

n 

n 

X 

MUX 

Control 

Figura 3.42: Modificación del SMSR para el producto de las mantisas 

Redondeo y normalización 

El multiplicador propuesto se desarrolló para efectuar dos tipos de redondeo, 

el redondeo a cero y el redondeo a +∞. El multiplicador con redondeo a cero es 

el más sencillo y más económico en términos de consumo de recursos lógicos. El 

multiplicador con redondeo a +∞ es más elaborado pero más económico que el 

que utiliza el redondeo al más cercano. 

Redondeo a cero: El redondeo a cero consiste en truncar el producto de las 

mantisas a la derecha del bit menos significativo. Esta operación se efectúa por 

defecto al eliminar los registros de la sección menos significativa del producto 

de las mantisas. La particularidad de esta operación radica en que el producto 

resultante no se ve afectado por los registros eliminados debido a que son tan 

sólo una cadena de registros de desplazamiento que va ubicando el bit menos 

significativo de la acumulación de los productos parciales (ver Sec. 3.3.1). 

Cuando el producto de las mantisas resulte en el rango 2 ≤ p ≤ 4, se debe 

realizar un desplazamiento de normalización a la derecha para restaurar el pro- 

ducto al rango 1 ≤ pr ≤ 2, con el apropiado ajuste del exponente en una unidad. 

Este desplazamiento se realiza mediante una iteración adicional (ciclo n + 1) en 

la que la entrada X = 0 (equivalente al desplazamiento a la derecha). 

n 

Y


Redondeo a +∞: Este esquema presenta tres posibilidades: la primer posibi- 

lidad es el truncamiento si el producto es negativo o si todos los bits a la derecha 

del LSB son 0. Esta operación se realiza mediante la registración de los bits 

descartados en cada iteración. 

Las otras dos posibilidades de redondeo dependen de los bits más significativos 

del producto de las mantisas y se diferencian entre sí por el rango del resultado. 

La estrategia de redondeo utilizada con el multiplicador adiciona la constante 

2 −n por defecto y posteriormente evalúa el rango del producto. Si el rango del 

producto resulta comprendido en el rango 1 ≤ p ≤ 2, el redondeo se efectuó co- 

rrectamente y no es requerida ninguna operación adicional. 

Cuando el producto resulta comprendido en el rango 2 ≤ p ≤ 4, se debe 

ajustar el redondeo efectuado debido a la posterior normalización. Se presentan 

dos casos en base a los bits menos significativos: 

a) Si el bit menos significativo del producto truncado es un ”1”, para el cual la 

adición de la constante 2 −n se propaga a los bits más significativos. En este 

caso no se realiza corrección. 

b) Si el bit menos significativo del producto truncado es un ”0”. En este caso 

la adición de la constante 2 −n no se propaga a los bits más significativos y 

consecuentemente luego de normalizar debe volver a redondear. 

La Fig. 3.43 muestra el esquema de redondeo del multiplicador. 

El multiplicador resultante se presenta en la Fig. 3.5.1. 

Adición de los exponentes 

El exponente del producto resultante se puede expresar mediante la Ec. (3.41). 

ep = ex + ey − bias + normal (3.41)


Producto 

Truncamiento 

Redondeo 

Redondeo 


+ 

* * ** ** 

Overflow con error 

Sin Overflow 

1 * ** ** 

0 0 00 0...0 0 1 

1 * ** ** 

Producto 2n bits 

** ** ** ** ** 

0 0 00 0...0 0 1 

0 1 ** ** 

Producto n bit 

n bits descartados 

Sin Redondeo 

Overflow sin error 

1 * ** ** 

Figura 3.43: Ejemplo del esquema de redondeo implementado 

acarreo 

ADD 

n 

n 


n+1 n 0 

n 

redondeo 

n 

X 

normalización 


MUX 

Control 

Figura 3.44: Multiplicación de las mantisas. 

n 

Y


La Ec. (3.41) se ha ejecutado en dos etapas, la primera donde se adicionan 

los exponentes ex + ey y la segunda resta el bias al resultado. En esta etapa se 

adiciona, si es necesario, un bit correspondiente a la normalización del resultado. 

Consumo de recursos lógicos 

SMSR con redondeo a cero: La Tabla 3.18 expresa la estimación del consu- 

mo de recursos lógicos del multiplicador en punto flotante basado en un SMSR 

con redondeo a cero. 


Multiplexor 1.fyi n + 1 n 0 n 

2 

Control log2(n + 1) + 2 log2(n + 1) + 3 

log 2 (n+1) 

2 

Producto yiX n + 1 0 n+1 

2 

Sumador + Reg. PH n + 3 n + 1 n+3 

2 

Registro P0 0 1 1 

2 

Adición exponentes r + 2 0 r 

2 

Corrección Bias + normalización r + 4 0 r 

2 

Signo 1 0 1 

2 

+ 1 

+ 2 

Tabla 3.18: Estimación de consumo de recursos lógicos de la variante SMSR con 

redondeo a cero. 

Las Ecs. (3.42, 3.43 y 3.44) resumen el cálculo de la estimación en términos 

de FGs, FFs y CLBs. 

F G(n, r) = 3n + log 2(n + 1) + 13 + 2r (3.42) 

F F (n, r) = n + log 2(n + 1) + 5 (3.43) 

CLB(n, r) = 3n 

2 + log2(n + 1) 

+ 

2 

15 

+ r (3.44) 

2 

En la Fig. 3.45 se muestra el consumo estimado de recursos del SMSR. 

+ 3 

2


CLB 

120 

100 

80 

60 

40 

20 

XCS05 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.45: Consumo de recursos del PFPM(SMSR), r = 8. 

SMSR con redondeo a +∞: La Tabla 3.19 presenta la estimación del con- 

sumo de recursos lógicos del multiplicador en punto flotante basado en un SMSR 

con redondeo a +∞. 


Multiplexor 1.fyi n + 1 n 0 n 

2 

Control log2(n + 1) + 2 log2(n + 1) + 3 

log 2 (n+1) 

2 

Producto yiX n + 1 0 n+1 

2 

Sumador + Reg. PH n + 3 n + 1 n+3 

2 


2 

Redondeo + normalización 5 3 5 

2 


2 

Corrección Bias + normalización r + 4 r + 1 r 

2 

Signo 1 0 1 

2 

+ 1 

+ 2 

Tabla 3.19: Estimación de consumo de recursos lógicos de la variante SMSR con 

redondeo a +∞. 


de FGs, FFs y CLBs.


F G(n, r) = 3n + log 2(n + 1) + 10 + 2r (3.45) 

F F (n, r) = n + log 2(n + 1) + 9 (3.46) 


2 + log2(n + 1) 

+ 10 + r (3.47) 

2 

En la Fig. 3.46 se muestra el consumo de estimado de recursos del SMSR. 

CLB 

120 

100 

80 

60 

40 

20 

XCS05 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.46: Consumo de recursos del PFPM(SMSR), r = 8. 

3.5.2. Variante Multiplicador Secuencial de Sumas Con- 

secutivas 

Producto de mantisas 

El producto de las mantisas mediante el SMSC se efectúa como un producto 

de dos enteros binarios sin signo, con la reducción de la lógica del multiplicador


debido a que la sección menos significativa del registro P es reemplazada por un 

único Flip-Flop. Fig. 3.47. 

acarreo 

ADD 

acarreo 

n 

ADD 

n 

LSB 


n+1n 

1 

n 

n 

n 

X 


MUX 

MUX 

Control 

0 

n/2 

n/2 

Bits descartados 

Y[bits pares] 


Figura 3.47: SMSC modificado para el producto de las mantisas 

Redondeo y normalización 

Redondeo a cero: El redondeo a cero consiste en truncar el resultado del 

producto de las mantisas a la derecha del bit menos significativo. Esta operación 

se efectúa por defecto al eliminar los registros de la sección menos significativa 

del producto de las mantisas tal como se realiza con el multiplicador basado en 

un SMSR. 

En el caso en que el producto de las mantisas resulte en el rango 2 ≤ p ≤ 4, 

se debe realizar un desplazamiento de normalización a la derecha para restaurar 

el producto al rango 1 ≤ pr ≤ 2, con el apropiado ajuste del exponente en una 

unidad. Mientras que el multiplicador de punto flotante basado en el SMSR, la 

operación de normalización se efectúa mediante una iteración adicional (ciclo 

n + 1) en la que la entrada X = 0, con el SMSC esta operación no es posible 

debido a que una iteración del SMSC efectúa dos desplazamientos. Debido a esto, 

el multiplicador basado en el SMSC requiere de lógica adicional para la realización 

de las tareas de normalización y de corrección del redondeo.


Redondeo a +∞: El esquema de redondeo a +∞ implementado en este mul- 

tiplicador es el mismo que aquel descripto en la sección 3.5.1. La diferencia radica 

en la aplicación del mismo, ya que tal como se explica en la sección previa, se 

requiere de lógica adicional para efectuar la normalización. 

Adición de los exponentes 

La adición de los exponentes se realiza de la misma manera que en la sección 

3.5.1. El exponente del producto resultante se puede expresar mediante la Ec. 

(3.48). 

Consumo de recursos lógicos 

ep = ex + ey − bias + normal (3.48) 

SMSC con redondeo a cero: La Tabla 3.20 muestra la estimación del con- 

sumo de recursos lógicos del multiplicador en punto flotante basado en un SMSC 

con redondeo a cero. Las Ecs. (3.49, 3.50 y 3.51) resumen el cálculo de la esti- 


2× Multiplexor yi 

2( n+1 

2 − 1) 0 Control log2( n 1 − 2 2 

n+1 

2 ) + 2 log2( n+1) 

+ 3 2 

log2 ( n+1 

2 ) 

2× Producto yiX 2n + 2 0 

2 

n + 1 

Sumador n + 3 0 n 

2 


2 


2 


2 


2 

Signo 1 0 1 

2 

Tabla 3.20: Estimación de consumo de recursos lógicos de la variante SMSC con 

redondeo a cero. 

mación en términos de FGs, FFs y CLBs. En la Fig. 3.48 se grafica el consumo 

+ 3 

2 

+ 3 

2 

+ 1 

+ 5 

2 

+ 3 

2


estimado de recursos del SMSC. 

CLB 

140 

120 

100 

80 

60 

40 

20 

XCS05 

F G(n, r) = 5n + log 2( 

F F (n, r) = n + log 2( 


2 + log2( n+1 

2 ) 

2 

n + 1 

) + 16 + 2r (3.49) 

2 

n + 1 

) + 8 (3.50) 

2 

+ 19 

2 

+ r (3.51) 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.48: Consumo de recursos del PFPM(SMSC), r = 8. 

SMSC con redondeo a +∞: La Tabla 3.21 presenta la estimación del consu- 

mo de recursos lógicos del multiplicador en punto flotante basado en un SMSC.



2× Multiplexor yi 

− 1) 0 n − 1 

2( n+1 

2 

log 2 ( n+1 

2 ) 

2 

Control log2( n+1 

2 ) + 2 log2( n+1) 

+ 3 2 

2× Producto yiX 2n + 2 0 n + 1 

Sumador n + 3 0 n 

2 


2 


2 

Redondeo + norm. 2n + 4 3 n + 2 

+ 1 


2 


2 

Signo 1 0 1 

2 

Tabla 3.21: Estimación de consumo de recursos lógicos de la variante SMSC con 

redondeo a +∞. 


de FGs, FFs y CLBs. 

F G(n, r) = 7n + log 2( 

F F (n, r) = n + log 2( 

+ 3 

2 

+ 3 

2 

+ 5 

2 

+ 3 

2 

n + 1 

) + 20 + 2r (3.52) 

2 

n + 1 

) + 10 (3.53) 

2 


2 + log2(n + 1) 

+ 

2 

23 

+ r (3.54) 

2 

En la Fig. 3.49 se muestra el consumo estimado de recursos del SMSC. 


En este capítulo se caracterizaron los multiplicadores secuenciales y se pro- 

pusieron nuevas arquitecturas con el objetivo de realizar un estudio comparativo 

destinado a su implementación en FPGA. Se presentaron las estimaciones de 

consumo de recursos lógicos y de comportamiento temporal que permitieron con- 

trastar las características de los multiplicadores presentados.


CLB 

140 

120 

100 

80 

60 

40 

20 

XCS05 

0 

0 5 10 15 20 25 30 35 

n 

Figura 3.49: Consumo de recursos del PFPM(SMSC), r = 8. 

A partir de estas comparaciones se concluyó que el SMSR, el SMSC(SMSR) y 

el SMF(SMSR) son los multiplicadores que mejor índice de performance presen- 

tan. Resultando el SMSR el óptimo para aplicaciones donde se busca una reducida 

cantidad de recursos lógicos, y el SMSC(SMSR) o SMF(SMSR) en aplicaciones 

donde además de las restricciones de recursos se requiere una alta velocidad de 


Como resultado de las comparaciones, se extendieron las variantes SMSR y 

SMSC(SMSR) a la multiplicación de operandos en punto flotante. Las arquitec- 

turas propuestas contemplan los esquemas con redondeo a cero y a +∞. Para 

cada variante se obtuvo una estimación del consumo de recursos lógicos.

Capítulo 4 

Resultados Experimentales 


Los multiplicadores propuestos fueron ensayados experimentalmente con el 

objetivo de contrastar los resultados teóricos y de las estimaciones. Para ello, los 

multiplicadores se implementaron en tres series de FPGA de Xilinx: Spartan, Vir- 

tex y Virtex II. Cada una de las variantes de los multiplicadores se implementó en 

primera instancia mediante captura esquemática y posteriormente en Lenguaje 

de Descripción de Hardware (VHDL) [28] [29]. 

4.2. Parámetros de interés 

Las variables de interés para la validación experimental fueron: consumo de 

recursos lógicos, el retardo de propagación, la frecuencia maxima del reloj de la 

FPGA (inversa del retardo de propagación), la frecuencia de actualización de 

datos por segundo (inversa del tiempo que demanda realizar las iteraciones) y 

finalmente, el índice de performance, que integra los conceptos de tiempo y de 

cantidad de recursos lógicos. 

92

Capítulo 4. Resultados Experimentales 93 

El retardo de propagación tpd se obtuvo a partir del Analizador de Tiempos 

que posee la herramienta de programación de FPGA de Xilinx (Foundation 3.1i, 

Timimg Analyzer). Esta herramienta realiza un análisis estático de todos los 

retardos incluyendo el retardo entre un flanco de reloj y la correspondiente salida 

Q de un FlipFlop, considerando adicionalmente el tiempo de establecimiento de 

una señal. A partir de estos datos calcula el peor caso de temporización del diseño. 

La frecuencia máxima de funcionamiento de reloj (fc [Mhz]) es la inversa del 

tiempo tpd e indica la frecuencia máxima de reloj posible con ese diseño. A partir 

de esta última se obtiene la frecuencia de actualización de datos o velocidad 

de procesamiento (P S [Mops]). Esta frecuencia surge de dividir la frecuencia 

máxima de trabajo por el número de ciclos N que requiere ejecutar una operación, 

P S = fc 

N . 

El índice de performance definido en la Sección 3.4.3 se utilizó con el objetivo 

de comparar el desempeño de cada sistema implementado en la FPGA. 

4.3. Multiplicación en Punto Fijo 

4.3.1. Consumo de recursos lógicos 

El consumo de recursos lógicos se puede cuantificar en CLBs. Cada CLB 

está compuesto por dos generadores de funciones (FG) y dos FlipFlops (FF). En 

las series Virtex y Virtex II, cada CLB posee dos celdas denominadas slice, pero 

a fines prácticos la unidad utilizada es la de un CLB = un slice. 

A continuación se presentan los resultados experimentales de los multiplica- 

dores implementados en una FPGA XCS20-pq208, perteneciente a la Familia 

Spartan, con una capacidad de 400 CLBs. Finalmente, se presenta de forma re- 

sumida el consumo de recursos lógicos de los multiplicadores implementados en


las FPGAs XCV300e-8 y XC2V250-5 de las series Virtex y Virtex II. 

Implementación de los multiplicadores en Spartan 

En la Tabla 4.1 se muestran los resultados experimentales de los multiplica- 

dores implementados en Spartan. 

Tabla 4.1: Consumo de recursos de los multiplicadores en Spartan[CLB]. 

n 8 10 12 14 16 18 20 22 24 26 28 30 32 

SM 17 20 23 26 29 32 35 39 41 44 47 50 54 

SMSR 19 24 28 31 35 40 43 47 50 54 58 61 65 

SMB4(3X) 30 36 42 48 55 62 67 74 79 86 91 98 104 

SMB4(-x) 28 32 38 44 51 56 61 66 70 76 81 87 92 

SMSC(SM) 24 30 35 40 45 50 55 61 65 70 75 81 86 

SMSC(SMSR) 28 34 39 45 51 60 65 71 75 82 87 93 98 

SMF(SM) 32 38 45 51 59 65 72 78 85 91 97 104 111 

SMF(SMSR) 35 42 50 56 64 73 81 86 94 101 109 114 122 

Las Tablas 4.2 y 4.3 muestran, respectivamente, el consumo estimado (Capítu- 

lo 3) y la diferencia porcentual entre el consumo experimental y el estimado. 

Tabla 4.2: Consumo Estimado de recursos de los multiplicadores [CLB]. 

n 8 10 12 14 16 18 20 22 24 26 28 30 32 

SM 20 24 28 32 37 41 45 49 53 57 61 65 69 

SMSR 19 23 27 31 36 40 44 48 52 56 60 64 68 

SMB4(3X) 37 44 51 58 66 73 80 87 94 101 108 115 122 

SMB4(-x) 33 39 45 51 58 64 70 76 82 88 94 100 106 

SMSC(SM) 29 35 41 47 53 59 65 71 77 83 89 95 102 

SMSC(SMSR) 27 33 39 45 52 58 64 70 76 82 88 94 100 

SMF(SM) 35 43 50 58 66 73 81 88 96 103 111 118 126 

SMF(SMSR) 32 39 46 53 61 68 75 82 89 96 103 110 117 

Se puede observar en la Tabla 4.3 que, los multiplicadores que poseen una 

estructura basada en el SM (el SM inclusive), presentan un consumo real inferior 

al estimado. Esta diferencia se debe a que el algoritmo de síntesis e implementa- 

ción de Xilinx agrupa dos secciones de los multiplicadores en un sólo CLB. En el


Tabla 4.3: Diferencia porcentual, Consumo Experimental vs Estimado [ %]. 

n 8 10 12 14 16 18 20 22 24 26 28 30 32 

SM -15 -17 -19 -20 -21 -21 -22 -20 -22 -23 -23 -23 -22 

SMSR 0 4 3 -1 -1 1 -2 -2 -3 -3 -3 -5 -4 

SMB4(3X) -19 -18 -18 -18 -16 -15 -16 -15 -16 -15 -16 -15 -15 

SMB4(-x) -15 -18 -16 -14 -11 -12 -12 -13 -14 -13 -14 -13 -13 

SMSC(SM) -16 -13 -14 -15 -15 -15 -16 -14 -16 -16 -16 -15 -15 

SMSC(SMSR) 4 3 -1 -1 -1 4 2 2 -1 0 -1 -1 -2 

SMF(SM) -9 -11 -11 -12 -10 -11 -11 -12 -11 -12 -13 -12 -12 

SMF(SMSR) 9 7 8 5 6 8 8 5 6 5 6 4 4 

caso de este esquema de multiplicación existen dos secciones, una combinacional 

sin registros y otra que utiliza sólo registros, permitiendo, que el programa logre 

reducir el consumo de CLBs complementando dos secciones del multiplicador. 

A continuación se explica esta situación por medio de la implementación del 

SM que se muestra en la Fig. 4.1. En la estructura del SM, Fig. 3.2, el registro 

Figura 4.1: Síntesis de un CLB del multiplicador SM. 

que almacena el operando X sólo utiliza los FFs de un CLB permitiendo que los 

FGs se puedan utilizar para otras funciones. Si se introduce esta consideración de


síntesis en la estimación de consumo de recursos del multiplicador, la Ec. (3.6) es 

modificada, obteniendo la Ec. (4.1). 

CLB(n) = 3 

2 n + log2 n 5 

+ 

2 2 

(4.1) 

La Fig. 4.2 muestra gráficamente la diferencia existente entre el consumo de 

recursos estimado y el experimental para el SM. 

CLB 

120 

100 

80 

60 

40 

20 

Estimado 

Experimental 

0 

0 5 10 15 20 25 30 35 

n 

Figura 4.2: Consumo de recursos lógicos del SM en Spartan. 

La Fig. 4.3 presenta la contrastación entre la estimación de la Ec. 4.1 y los 

resultados experimentales, donde se advierte la consistencia entre los resultados 

experimentales y los estimados.


CLB 

120 

100 

80 

60 

40 

20 

Estimado 

Experimental 

0 

0 5 10 15 20 25 30 35 

n 

Figura 4.3: Consumo de recursos lógicos del SM en Spartan. 

Implementación de los multiplicadores en Virtex 

En la Tabla 4.4 se presenta el consumo de recursos lógicos de los multipli- 

cadores, en términos de slices 1 , para una FPGA XCV300e-8 de la serie Virtex 

de Xilinx. Se puede observar que en el caso de los multiplicadores en Virtex, el 

software de implementación no optimiza el uso de las celdas como lo hizo en la 

serie Spartan, por lo que el consumo coincide conlo estimado en Capítulo 3. 

Implementación de los multiplicadores en Virtex II 

La Tabla 4.5 presenta el consumo de recursos lógicos de los multiplicadores, 

en términos de slices, para una FPGA XC2V250-5 de la serie Virtex II de Xilinx. 

Se puede observar que en el caso de los multiplicadores en Virtex II el consumo 

de recursos es similar al de la serie Virtex. 

1 El contenido de un slice es similar al de un CLB de una Serie Spartan de Xilinx.


Tabla 4.4: Consumo de recursos de los multiplicadores en Virtex [slices]. 

n 8 10 12 14 16 18 20 22 24 26 28 30 32 

SM 21 25 29 33 38 42 46 50 54 58 62 66 71 

SMSR 19 24 28 31 34 41 44 48 53 57 60 64 64 

SMB4(3X) 33 39 45 51 58 65 70 76 82 89 94 100 107 

SMB4(-x) 31 36 40 46 52 57 62 67 73 77 82 87 94 

SMSC(SM) 30 36 42 49 55 62 67 73 79 86 91 97 104 

SMSC(SMSR) 28 33 39 46 50 58 64 71 76 82 88 94 96 

SMF(SM) 37 44 51 59 67 74 81 90 96 104 111 119 128 

SMF(SMSR) 35 42 50 56 64 73 81 86 94 101 109 114 122 

Tabla 4.5: Consumo de recursos de los multiplicadores en Virtex II [slices]. 

n 8 10 12 14 16 18 20 22 24 26 28 30 32 

SM 21 25 29 33 38 42 46 50 54 58 62 66 71 

SMSR 19 24 28 31 34 41 45 48 52 56 60 64 63 

SMB4(3X) 31 38 44 50 57 64 69 75 81 88 93 99 106 

SMB4(-x) 32 38 42 48 54 58 64 69 73 79 83 89 93 

SMSC(SM) 30 36 42 49 55 62 67 73 79 86 91 97 104 

SMSC(SMSR) 28 33 39 46 51 58 63 70 76 82 88 94 96 

SMF(SM) 36 44 51 59 67 74 81 90 96 104 111 119 128 

SMF(SMSR) 35 41 48 55 62 72 80 87 94 101 109 114 122 

4.3.2. Comportamiento temporal 

El comportamiento temporal de los multiplicadores depende del retardo inhe- 

rente de las compuertas lógicas y registros, y el retardo debido a la interconexión 

entre las mismas. En el capítulo anterior se estimó el comportamiento temporal 

sin considerar los retardos de interconexión debido a que los mismos recién se 

conocen una vez implementado el circuito. 


En esta sección se presentan los resultados experimentales de los multiplica- 

dores implementados en una FPGA XCS20-pq208. A partir de estos resultados, 

se obtiene una expresión de los retardos de interconexión, los que se incorporan


a la estimación del comportamiento temporal de cada multiplicador permitiendo 

caracterizarlo de manera más precisa. 

En la Tabla 4.6 se muestran los resultados experimentales de los multiplica- 

dores implementados en Spartan. 

Tabla 4.6: Retardo de propagación de los multiplicadores en Spartan [ns]. 

n 8 10 12 14 16 18 20 22 24 26 28 30 32 

SM 11.1 11.8 12.5 13.0 13.5 14.3 14.8 15.2 15.9 16.6 17.0 17.3 18.1 

SMSR 10.9 11.7 12.0 12.8 13.4 14.0 14.4 15.0 15.8 16.3 16.8 17.3 17.9 

SMB4(3X) 16.8 17.2 17.8 18.8 19.1 19.3 20.4 20.6 21.3 22.3 22.5 23.5 23.7 

SMB4(-x) 15.9 16.6 17.2 18.5 19.1 19.6 19.8 20.5 21.5 21.8 22.9 23.5 24.0 

SMSC(SM) 15.7 16.4 17.0 17.9 18.3 18.6 19.5 20.1 20.9 21.4 22.0 22.4 22.9 

SMSC(SMSR) 15.5 16.5 17.0 17.5 18.0 18.6 19.7 20.2 20.6 21.1 21.4 22.2 23.1 

SMF(SM) 11.4 12.0 12.6 13.3 14.1 14.6 15.4 16.2 17.0 17.9 18.3 19.0 20.2 

SMF(SMSR) 11.1 11.9 12.2 13.1 13.6 14.1 14.9 15.7 16.7 17.7 18.0 18.6 19.6 

La Tabla 4.7 muestra el retardo de propagación estimado en el Capítulo 3. Se 

recuerda que el retardo de propagación en las variantes SM y SMSR es el mismo, 

existiendo la diferencia en el número de iteraciones de cada modelo. 

Tabla 4.7: Retardo estimado de propagación de los multiplicadores Trd = 0 [ns]. 

n 8 10 12 14 16 18 20 22 24 26 28 30 32 

SM 9.1 9.6 10.1 10.6 11.1 11.6 12.1 12.6 13.1 13.6 14.1 14.6 15.1 

SMB4(3X) 15.0 15.5 16.0 16.5 17.0 17.5 18.0 18.5 19.0 19.5 20.0 20.5 21.0 

SMB4(-x) 13.3 13.8 14.3 14.8 15.3 15.8 16.3 16.8 17.3 17.8 18.3 18.8 19.3 

SMSC 13.9 14.5 15.0 15.4 15.9 16.4 16.9 17.4 17.9 18.4 18.9 19.4 19.9 

SMF 9.3 9.7 10.3 10.8 11.3 11.8 12.3 12.8 13.3 13.7 14.3 14.8 15.2 

La Tabla 4.8 muestra la diferencia porcentual entre el retardo experimental y 

el estimado. Se puede concluir que el retardo de interconexión genera entre un 10 

y un 30 % de retardo adicional al retardo estimado. 

La Tabla 4.9 muestra la velocidad de procesamiento resultante de los multi- 

plicadores implementados en Spartan.


Tabla 4.8: Diferencia porcentual, Retardo de propagación Experimental vs Estimado 

[ %]. 

n 8 10 12 14 16 18 20 22 24 26 28 30 32 

SM 22.5 23.1 23.6 23.0 21.5 23.2 22.1 20.5 21.6 21.8 20.8 18.5 19.8 

SMSR 20.0 22.1 19.0 20.9 20.5 20.3 19.3 19.4 20.3 19.9 19.1 18.2 18.5 

SMB4(3X) 12.0 11.2 11.1 13.7 12.6 10.4 13.1 11.4 12.3 14.5 12.7 14.7 12.7 

SMB4(-x) 19.5 20.2 20.0 24.8 25.0 24.0 21.3 22.3 24.2 22.7 25.2 25.1 24.4 

SMSC(SM) 12.6 13.7 13.9 15.6 14.9 13.0 14.8 15.1 16.3 15.8 16.3 15.2 14.6 

SMSC(SMSR) 11.2 14.3 13.4 13.3 12.6 13.2 16.0 15.7 14.7 14.2 13.0 14.3 15.6 

SMF(SM) 23.7 22.9 23.0 23.3 25.2 24.3 26.0 26.8 28.2 29.9 28.4 29.1 32.5 

SMF(SMSR) 19.6 22.0 19.1 21.9 20.6 20.1 21.8 22.9 26.4 28.6 26.1 26.0 28.8 

Tabla 4.9: Velocidad de Procesamiento de los multiplicadores en Spartan 

[Mops/s]. 

n 8 10 12 14 16 18 20 22 24 26 28 30 32 

SM 10.0 7.7 6.2 5.1 4.4 3.7 3.2 2.9 2.5 2.2 2.0 1.9 1.6 

SMSR 11.4 8.5 6.9 5.6 4.7 4.0 3.5 3.0 2.6 2.4 2.1 1.9 1.7 

SMB4(3X) 11.9 9.7 8.0 6.7 5.8 5.2 4.5 4.0 3.6 3.2 3.0 2.7 2.5 

SMB4(-x) 10.5 8.6 7.3 6.0 5.2 4.6 4.2 3.7 3.3 3.1 2.7 2.5 2.3 

SMSC(SM) 12.7 10.1 8.4 7.0 6.1 5.4 4.7 4.2 3.7 3.3 3.0 2.8 2.6 

SMSC(SMSR) 16.1 12.1 9.8 8.2 7.0 6.0 5.1 4.5 4.0 3.6 3.3 3.0 2.7 

SMF(SM) 14.6 11.9 9.9 8.4 7.1 6.2 5.4 4.8 4.2 3.7 3.4 3.1 2.7 

SMF(SMSR) 18.1 14.0 11.7 9.5 8.2 7.1 6.1 5.3 4.6 4.0 3.7 3.4 3.0 


La Tabla 4.10 presenta máxima velocidad de procesamiento que se puede obte- 

ner con los multiplicadores, en términos de Millones de operaciones por segundo, 

para la FPGA XCV300e-8. 


La Tabla 4.11 presenta máxima velocidad de procesamiento que se puede obte- 

ner con los multiplicadores, en términos de Millones de operaciones por segundo, 

para la FPGA XC2V250e-8.


Tabla 4.10: Velocidad de Procesamiento de los multiplicadores en Virtex [Mops/s]. 

n 8 10 12 14 16 18 20 22 24 26 28 30 32 

SM 23.9 19.3 16.5 14.1 12.2 10.7 9.6 8.6 7.6 6.8 6.3 5.6 5.2 

SMSR 27.5 21.4 17.4 14.4 12.5 11.1 9.5 8.4 7.6 7.0 6.4 5.3 5.4 

SMB4(3X) 28.0 23.5 19.8 17.2 15.1 13.5 11.8 10.7 9.4 8.4 7.6 7.3 6.7 

SMB4(-x) 22.9 18.9 16.7 14.7 12.5 11.2 9.8 9.1 8.2 7.3 6.5 6.1 5.9 

SMSC(SM) 31.0 25.3 21.8 18.3 15.9 14.2 12.8 11.7 10.5 9.7 8.8 8.2 7.6 

SMSC(SMSR) 38.2 29.8 24.8 21.2 17.9 15.5 13.8 12.4 11.3 10.4 9.5 8.7 8.1 

SMF(SM) 35.5 29.5 25.3 21.5 19.9 17.9 16.3 14.4 13.1 12.1 11.1 10.2 9.4 

SMF(SMSR) 42.1 35.3 29.5 24.1 21.3 18.6 16.3 14.7 13.2 12.1 11.5 10.6 9.6 

Tabla 4.11: Velocidad de Procesamiento de los multiplicadores en Virtex II 

[Mops/s]. 

n 8 10 12 14 16 18 20 22 24 26 28 30 32 

SM 30.9 25.2 20.4 17.1 14.7 12.5 11.2 9.9 8.9 8.2 7.3 6.8 6.1 

SMSR 36.1 27.5 22.0 18.5 15.7 13.7 11.7 10.6 9.4 8.4 7.4 7.0 6.5 

SMB4(3X) 34.8 28.5 23.6 20.9 18.4 16.3 14.5 13.1 11.7 10.7 9.6 8.9 8.6 

SMB4(-x) 32.1 27.5 23.2 20.4 17.9 16.1 14.2 12.9 11.7 10.7 10.1 9.4 8.5 

SMSC(SM) 35.7 28.9 24.5 20.6 18.0 16.0 14.2 13.0 11.9 10.8 9.9 9.1 8.5 

SMSC(SMSR) 45.5 34.9 28.5 24.0 20.4 17.9 16.2 14.2 12.7 11.5 10.4 10.0 9.1 

SMF(SM) 44.3 36.9 31.7 27.3 23.8 21.0 18.6 16.8 15.6 13.9 13.0 12.0 10.9 

SMF(SMSR) 53.8 44.9 37.2 30.9 27.8 24.3 21.6 19.2 16.6 15.2 13.9 12.8 11.6 

4.3.3. Comparación de los multiplicadores 

En esta sección se realiza la comparación de los multiplicadores ensayados a 

partir de los resultados obtenidos de las implementaciones. 

Multiplicadores optimizados en consumo de recursos 

La Fig. 4.4 muestra el consumo de recursos lógicos de los multiplicadores 

secuenciales SM y SMSR implementados en la serie Spartan. Se puede observar 

que el SM posee un consumo de recursos aproximadamente 20 % inferior al del 

SMSR. Esto se debe fundamentalmente al algoritmo de síntesis e implementación 

de Xilinx que agrupa dos secciones del SM en un solo CLB.


CLB 

80 

70 

60 

50 

40 

30 

20 

10 

SM 

SMSR 

0 

5 10 15 20 

n 

25 30 35 

Figura 4.4: Consumo de recursos lógicos: SM vs SMSR en Spartan. 

En la Fig. 4.5 se muestra la misma comparación en la serie Virtex. En la 

misma se puede observar que la relación de consumo entre los multiplicadores 

posee las mismas características que las estimadas en la Sección 3.4. La Fig 4.6 

muestra la comparación de los multiplicadores implementados en Virtex II. 

En cuanto a la velocidad de procesamiento de ambos multiplicadores en Spar- 

tan, la diferencia entre estas, se puede observar en la Fig. 4.7. Esta diferencia 

depende del número de iteraciones de cada multiplicador, debido a que el retardo 

de la ruta crítica para ambos multiplicadores es prácticamente el mismo. 

Las Figs. 4.8 y 4.9 muestran la misma comparación realizada para las se- 

ries Virtex y Virtex II. Se puede observar que la relación existente entre ambos 

multiplicadores se mantiene para todas las implementaciones.


CLB 

80 

70 

60 

50 

40 

30 

20 

10 

SM 

SMSR 

0 

5 10 15 20 

n 

25 30 35 

Figura 4.5: Consumo de recursos lógicos: SM vs SMSR en Virtex. 

CLB 

80 

70 

60 

50 

40 

30 

20 

10 

SM 

SMSR 

0 

5 10 15 20 

n 

25 30 35 

Figura 4.6: Consumo de recursos lógicos: SM vs SMSR en Virtex II.


PS [Mops] 

14 

12 

10 

8 

6 

4 

2 

SM 

SMSR 

0 

5 10 15 20 

n 

25 30 35 

Figura 4.7: Velocidad de procesamiento: SM vs SMSR en Spartan. 

PS [Mops] 

30 

25 

20 

15 

10 

5 

SM 

SMSR 

0 

5 10 15 20 

n 

25 30 35 

Figura 4.8: Velocidad de procesamiento: SM vs SMSR en Virtex.


PS [Mops] 

40 

35 

30 

25 

20 

15 

10 

5 

SM 

SMSR 

0 

5 10 15 20 

n 

25 30 35 

Figura 4.9: Velocidad de procesamiento: SM vs SMSR en Virtex II. 

Multiplicadores optimizados en velocidad 

En la Fig. 4.10 se grafica el consumo de recursos lógicos de las variantes 

propuestas, optimizadas en velocidad, en contraste con los multiplicadores de 

base 4. 

Al respecto se puede observar que el multiplicador del tipo SMSC(SM) es 

el que consume la menor cantidad de recursos, seguido del SMbase4(-X). El 

SMSC(SMSR) presenta un consumo de recursos lógicos alrededor de un 20 % 

superior a la variante SM. Una relación similar mantienen ambas variantes del 

multiplicador SMF. Al respecto se puede observar que la variante SMSR posee 

un consumo de recursos de casi un 142 % del SMSC(SM), y la variante SM un 

129 %. 

Las Figs. 4.11 y 4.12 muestran la comparación realizada para las series Virtex 

y Virtex II de Xilinx respectivamente. Se puede observar que las variantes de 

los multiplicadores basadas en los SM poseen un consumo de recursos similar al 

presentado en la Sección 3.4.


CLB 

120 

100 

80 

60 

40 

20 

SMB4 (3X) 

SMB4 (−X) 

SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

0 

0 5 10 15 20 25 30 35 

n 

Figura 4.10: Consumo de recursos lógicos de multiplicadores optimizados en velocidad 

en Spartan. 

CLB 

120 

100 

80 

60 

40 

20 

SMB4 (3X) 

SMB4 (−X) 

SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

0 

5 10 15 20 

n 

25 30 35 


en Virtex.


CLB 

120 

100 

80 

60 

40 

20 

SMB4 (3X) 

SMB4 (−X) 

SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

0 

5 10 15 20 

n 

25 30 35 


en Virtex II. 

En la Fig. 4.13 se grafica una comparación de las velocidades de procesamien- 

to de los multiplicadores. Se puede observar que el multiplicador SMF(SMSR) 

es el que obtiene la mayor velocidad de procesamiento para todos los valores 

de n. Adicionalmente, se puede observar que la variante SMF(SM), salvo para 

el caso de n = 8, obtiene una buena velocidad de procesamiento pero inferior 

al SMF(SMSR) debido a que requiere una iteración adicional. El multiplicador 

SMSC(SMSR) obtiene una buena velocidad de procesamiento que es comparativa 

a la velocidad obtenida por el multiplicador SMF(SM). Se observa también que 

la velocidad de la variante SMSC(SM) es superior a la velocidad obtenida por el 

SMbase4(3X).


PS [Mops] 

22 

20 

18 

16 

14 

12 

10 

8 

6 

4 

2 

SMB4 (3X) 

SMB4 (−X) 

SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

0 

5 10 15 20 

n 

25 30 35 

Figura 4.13: Velocidad de procesamiento de los multiplicadores optimizados en 

velocidad en Spartan. 

PS [Mops] 

45 

40 

35 

30 

25 

20 

15 

10 

5 

SMB4 (3X) 

SMB4 (−X) 

SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

0 

5 10 15 20 

n 

25 30 35 

Figura 4.14: Velocidad de procesamiento de multiplicadores optimizados en velocidad 

en Virtex.


PS [Mops] 

55 

50 

45 

40 

35 

30 

25 

20 

15 

10 

5 

SMB4 (3X) 

SMB4 (−X) 

SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

0 

5 10 15 20 

n 

25 30 35 

Figura 4.15: Velocidad de procesamiento de multiplicadores optimizados en velocidad 

en Virtex II. 

Performance de los multiplicadores 

A fin de estimar los beneficios que se obtienen con cada variante se utiliza el 

índice de performance propuesto en la Ec. (3.40). 

Implementación en Spartan: En la Fig. 4.16 se grafica el índice de perfor- 

mance para las distintas variantes, luego de su implementación en una FPGA de 

400 CLB’s para el rango de 8 ≤ n ≤ 20 bits. Se puede observar que los mejores 

resultados corresponden a los multiplicadores SM y SMSC(SMSR). 

En la Fig. 4.17 se grafica el índice de performance para un rango de 20 ≤ n ≤ 

32 bits. En esta figura se observa que el SM posee el mejor índice. Adicionalmente 

índice del SMSC(SM) resulta mejor que el del SMSC(SMSR) debido a que con- 

sume menor cantidad de recursos y a medida que aumenta la longitud de palabra 

de los operandos, la velocidad de procesamiento de ambos multiplicadores se hace 

más parecida.


Performance 

250 

200 

150 

100 

50 

SM 

SMSR 

SMB4 (3X) 

SMB4 (−X) 

SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

5 10 15 20 

n 

Figura 4.16: Índice de performance de los multiplicadores en Spartan, 8 ≤ n ≤ 20. 

Performance 

35 

30 

25 

20 

15 

10 

5 

SM 

SMSR 

SMB4 (3X) 

SMB4 (−X) 

SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

20 22 24 26 

n 

28 30 32 

Figura 4.17: Índice de performance de los multiplicadores en Spartan, 20 ≤ n ≤ 

32.


Implementación en Virtex: En la Fig. 4.16 se grafica el índice de perfor- 

mance para las distintas variantes, luego de su implementación en una FPGA 

Virtex de 1536 CLB’s para el rango de 8 ≤ n ≤ 20 bits. Se puede observar que el 

mejor resultado corresponde al SMSC(SMSR) y, en menor medida el SMSR Y el 

SMF(SMSR). 

Performance 

2000 

1500 

1000 

500 

SM 

SMSR 

SMB4 (3X) 

SMB4 (−X) 

SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

0 

5 10 15 20 

n 

Figura 4.18: Índice de performance de los multiplicadores en Virtex, 8 ≤ n ≤ 20. 

En la Fig. 4.17 se grafica el índice de performance para un rango de 20 ≤ 

n ≤ 32 bits, donde se observa que el índice de los multiplicadores resulta más 

comparable para las variantes SMSC(SMSR), SMF(SMSR), SMSR y SM. Esto 

es debido a que a medida que aumenta la longitud de palabra de los operandos, 

el retardo de interconexión de los multiplicadores más complejos aumenta más 

notoriamente en relación con el SM y el SMSR.


Performance 

400 

350 

300 

250 

200 

150 

100 

50 

0 

SM 

SMSR 

SMB4 (3X) 

SMB4 (−X) 

SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

20 22 24 26 

n 

28 30 32 

Figura 4.19: Índice de performance de los multiplicadores en Virtex, 20 ≤ n ≤ 32. 

Implementación en Virtex II: En la Fig. 4.16 se grafica el índice de per- 

formance para las distintas variantes, luego de su implementación en una FPGA 

Virtex II de 1536 CLB’s para el rango de 8 ≤ n ≤ 20 bits. Se puede observar que 

el mejor resultado corresponde al SMF(SMSR) y, en menor medida el SMSR Y 

EL SMF(SMSR)(salvo para el caso de n = 8, en el cual ambos poseen un mayor 

índice). 

En la Fig. 4.17 se grafica el índice de performance para un rango de 20 ≤ 

n ≤ 32 bits, donde se observa que el índice de los multiplicadores resulta más 

comparable pero manteniendo la misma relación que para valores de n < 20.


Performance 

2500 

2000 

1500 

1000 

500 

SM 

SMSR 

SMB4 (3X) 

SMB4 (−X) 

SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

0 

5 10 15 20 

n 

Figura 4.20: Índice de performance de los multiplicadores en Virtex II, 8 ≤ n ≤ 

20. 

Performance 

500 

450 

400 

350 

300 

250 

200 

150 

100 

50 

0 

SM 

SMSR 

SMB4 (3X) 

SMB4 (−X) 

SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

20 22 24 26 

n 

28 30 32 

Figura 4.21: Índice de performance de los multiplicadores en Virtex II, 20 ≤ n ≤ 

32.


4.4. Multiplicación en Punto Flotante 

Los multiplicadores en punto flotante propuestos fueron ensayados experimen- 

talmente a fin de verificar los resultados obtenidos teóricamente y de las estima- 

ciones. Con este objeto, los multiplicadores se implementaron para tres series de 

FPGA de Xilinx, Spartan, Virtex y Virtex II. Ambas variantes del multiplicador 

se implementaron en Lenguaje de Descripción de Hardware (VHDL) [28] [29] para 

una longitud de exponente r = 8 y variando la longitud de palabra de la mantisa. 

4.4.1. Consumo de recursos lógicos 


El consumo de recursos lógicos de los multiplicadores en punto flotante en 

Spartan se muestran en la Tabla 4.12. 

Tabla 4.12: Consumo de recursos lógicos de los multiplicadores en punto flotante 

en Spartan [CLBs]. 

n 9 11 13 15 17 19 21 23 25 27 

SMSR 32 35 37 40 44 46 49 51 54 57 

SMSR +∞ 35 37 40 42 46 49 51 53 57 60 

SMSC 45 50 56 61 70 75 80 85 92 97 

SMSC +∞ 51 56 64 71 80 86 93 100 108 113 


En la Tabla 4.13 se presenta el consumo de recursos lógicos de los multiplica- 

dores, en términos de slices 2 , para una FPGA XCV300e-8 de la serie Virtex de 

Xilinx. 

2 El contenido de un slice es similar al de un CLB de una Serie Spartan de Xilinx.


Tabla 4.13: Consumo de recursos lógicos de las variantes en Virtex [slices]. 

n 9 11 13 15 17 19 21 23 25 27 

SMSR 30 33 35 39 43 46 48 52 55 57 

SMSR +∞ 32 35 38 42 46 48 51 54 57 58 

SMSC 46 51 57 63 71 77 83 89 93 97 

SMSC +∞ 51 56 64 71 80 86 93 100 108 113 


En la Tabla 4.14 se presenta el consumo de recursos lógicos de los multiplica- 

dores para una FPGA XC2V250-5 de la serie Virtex de Xilinx. 

Tabla 4.14: Consumo de recursos lógicos de las variantes en Virtex II [slices]. 

n 9 11 13 15 17 19 21 23 25 27 

SMSR 32 35 37 41 45 47 50 53 55 58 

SMSR +∞ 35 38 40 44 48 50 53 57 59 61 

SMSC 46 51 57 63 71 77 83 89 93 97 

SMSC +∞ 53 60 68 73 82 90 96 102 110 116 

4.4.2. Comportamiento temporal 


En la Tabla 4.15 se presenta máxima velocidad de procesamiento que se pue- 

de obtener con los multiplicadores, en términos de Millones de operaciones por 

segundo, para una FPGA de la serie Spartan de Xilinx. 

Tabla 4.15: Comportamiento temporal de las variantes en Spartan [Mflop/s]. 

n 9 11 13 15 17 19 21 23 25 27 

SMSR 7.6 6.1 5.1 4.3 3.7 3.2 2.8 2.5 2.2 2.0 

SMSR +∞ 6.2 5.0 4.2 3.5 3.1 2.5 2.2 2.0 1.8 1.6 

SMSC 10.3 8.3 7.1 6.0 5.3 4.7 4.2 3.8 3.4 3.1 

SMSC +∞ 10.2 8.4 7.1 6.1 5.3 4.8 4.2 3.7 3.4 3.1





segundo, para una FPGA XCV300e-8 de la serie Virtex de Xilinx. 

Tabla 4.16: Comportamiento temporal de las variantes en Virtex [Mflop/s]. 

n 9 11 13 15 17 19 21 23 25 27 

SMSR 20.3 15.8 13.4 11.8 10.2 9.0 7.8 7.2 6.2 5.7 

SMSR +∞ 16.2 13.6 11.5 9.7 8.4 7.4 6.6 6.0 5.2 4.8 

SMSC 27.0 22.6 19.0 16.2 14.4 12.9 11.7 10.5 9.5 8.8 

SMSC +∞ 26.9 21.5 17.7 15.9 13.8 12.3 11.3 10.3 9.2 8.4 




segundo, para una FPGA XC2V250e-8 de la serie Virtex II de Xilinx. 

Tabla 4.17: Comportamiento temporal de las variantes en Virtex II [Mflop/s]. 

n 9 11 13 15 17 19 21 23 25 27 

SMSR 25.6 20.3 17.2 15.2 13.3 11.4 10.0 9.1 8.3 7.2 

SMSR +∞ 20.9 17.1 14.0 11.7 11.1 9.4 8.5 7.5 6.9 6.2 

SMSC 29.3 24.8 21.0 18.4 16.2 14.4 13.3 12.1 10.9 10.0 

SMSC +∞ 29.4 24.5 21.0 18.3 16.1 14.5 13.3 11.9 10.7 10.0 

4.4.3. Performance 

A fin de poder estimar los beneficios que se obtienen con cada variante a través 

de un único indicador, se utiliza del índice de performance de la Ec. (3.40). 

En la Fig. 4.22 se muestra el índice de performance para las variantes SMSR 

y SMSC con redondeo a cero. Se puede observar que la variante SMSR presenta


un índice de hasta un 15 % superior a la variante SMSC. Esto se debe fundamen- 

talmente a que el retardo de propagación de la variante SMSR con redondeo a 

cero es inferior al de la variante SMSC. 

p 

120 

100 

80 

60 

40 

20 

SMSC 

SMSR 

0 

15 20 25 30 35 40 

n 

Figura 4.22: Índice de performance de los multiplicadores con redondeo a cero en 

Spartan. 

En la Fig. 4.23 se muestra el índice de performance para las variantes SMSR 

y SMSC con redondeo a +∞. Se puede observar que el índice prácticamente es 

el mismo. Esto quiere decir que la variante SMSR es la óptima para diseños con 

fuertes restricciones en cuanto a consumo de recursos lógicos y la variante SMSC 

para restricciones en velocidad de procesamiento. 

Las Figs. 4.24 y 4.25 se muestra el índice de los multiplicadores para Virtex y 

Virtex II respectivamente. Se puede observar que, si bien el índice de la variante 

SMSR para Virtex es prácticamente igual al de la variante SMSC, en Virtex II 

el SMSR logra un porcentaje mayor de desempeño. Esto es, debido a que en ésta 

última serie de FPGA se obtuvo una mejor velocidad de procesamiento por parte 

de la variante SMSR.


p 

120 

100 

80 

60 

40 

20 

SMSC 

SMSR 

0 

15 20 25 30 35 40 

n 

Figura 4.23: Índice de performance de los multiplicadores con redondeo a +∞ en 

Spartan. 

Performance index 

1000 

900 

800 

700 

600 

500 

400 

300 

200 

100 

Experimental results SMSC 

Experimental results SM 

0 

5 10 15 20 25 30 

n 


Virtex.



1200 

1000 

800 

600 

400 

200 



0 

5 10 15 20 25 30 

n 


Virtex II. 


Se presentaron los resultados de implementación de los multiplicadores secuen- 

ciales. Estos resultados permiten validar las ecuaciones y conceptos presentados 

en capítulos previos, habilitando estas ecuaciones como una herramienta útil para 

la evaluación de multiplicadores en FPGA. 

A partir de los resultados de las comparaciones entre los multiplicadores en- 

sayados, se concluye que el SM sólo posee el mayor índice de performance cuando 

se lo implementa en la serie Spartan debido a que consume una cantidad inferior 

de recursos relativo a la implementación de los otras series. En estas últimas, 

la performance del SMSR resulta superior a la del SM según lo estimado en el 

capítulo anterior. Estos resultados se extienden a las variantes de los multiplica- 

dores basadas en uno u otro esquema. 

La variante SMSC representa en general un buena elección cuando se requiere, 

además de bajo consumo de recursos, una mejor velocidad de procesamiento. A


pesar de que esta velocidad resulta inferior que la de la variante SMF, presenta 

una notable reducción en consumo de recursos a su favor. Además se observa que 

los resultados obtenidos con ambos multiplicadores respecto a los de base 4, la 

mejora es sustancial. 

Finalmente, la extensión de los multiplicadores a punto flotante demostró que 

se pudo obtener un multiplicador de bajo consumo de recursos lógicos y buen 

desempeño en velocidad.

Capítulo 5 

Conclusiones 

Las conclusiones de esta Tesis son las siguientes: 

1. Se relevaron las arquitecturas de multiplicadores existentes en la literatura, 

corroborándose el excesivo consumo de recursos lógicos de los mismos. 

2. Se propuso la utilización de la Multiplicación Secuencial para reducir el 

consumo de recursos. Se modelaron los multiplicadores secuenciales y se 

concluyó que se debía mejorar su desempeño en velocidad. 

3. Se propusieron nuevas arquitecturas de multiplicadores secuenciales con el 

objetivo de mejorar su desempeño en velocidad. Se modelaron las variantes 

y se las comparó con los multiplicadores existentes. 

4. Se validaron experimentalmente los modelos de los multiplicadores a través 

de la implementación de los mismos en varias familias de FPGAs. Se obtu- 

vieron mejoras importantes del desempeño de los mismos. 

5. Se aplicaron las nuevas arquitecturas de Multiplicadores Secuenciales a la 

multiplicación en punto flotante. Se obtuvieron multiplicadores de punto 

flotante de reducido consumo lógico y buenas prestaciones de velocidad. 

121

Capítulo 5. Conclusiones 122 

6. Se aplicó la multiplicación secuencial a un problema concreto de control de 

movimiento. El sistema desarrollado mostró notables mejoras con respecto 

al diseño convencional basado en DSPs. 

Estas conclusiones se desarrollan con más detalle a continuación. 

Arquitecturas existentes 

Se analizaron y modelaron los multiplicadores paralelos Ripple Carry, Carry 

Save y las variantes propuestas por Guild y McCanny-McWhinter. Adicionalmen- 

te, se realizaron implementaciones en FPGA del multiplicador Ripple Carry y de 

otro propuesto por Xilinx optimizado en consumo de recursos. Los resultados de 

esta implementación obtenidos se resumen en la Tabla 5.1. 

Tabla 5.1: Implementación de Multiplicadores Paralelos en FPGA. 


Bits Tipo CLB Mops Slices Mops Slices Mops 

8 MP 61 20.8 64 41.9 64 45.5 

8 MX 52 17.5 36 76.3 36 62.6 

16 MP 247 10.8 257 22.0 258 24.7 

16 MX 213 11.2 140 59.0 141 47.2 

32 MX 816 3.1 544 40.5 548 38.5 

MP: Multiplicador Paralelo 

MX: Multiplicador propuesto por Xilinx 

Se concluyó que, si bien los multiplicadores paralelos pueden ejecutar produc- 

tos rápidamente, presentan un elevado consumo de recursos que además aumenta 

cuadráticamente con la longitud de palabra de los operandos. Por ejemplo se pu- 

do comprobar que, para 32 bits, no existen modelos de la serie Spartan, capaces 

de soportar la cantidad de recursos necesarios. Por lo tanto, la aplicación de estas 

arquitecturas se limita a FPGAs de gran tamaño.


Multiplicación Secuencial 

Se investigó el esquema de la Multiplicación Secuencial, que consume una 

cantidad inferior de recursos. En particular se modelaron y implementaron expe- 

rimentalmente tres tipos: SM, SMB4(3X) y SMB4(-X). La Tabla 5.2 resume el 

consumo de recursos y la velocidad de procesamiento de estas arquitecturas. 

Tabla 5.2: Resultados experimentales de Multiplicadores Secuenciales 


Bits Tipo CLB Mops CLB Mops CLB Mops 

8 SM 19 10.0 19 23.9 19 30.9 

8 SMB4(3X) 24 11.9 24 28.0 24 34.8 

8 SMB4(-X) 28 10.5 28 22.9 28 32.1 

16 SM 35 4.4 35 12.2 35 14.7 

16 SMB4(3X) 45 5.8 45 15.1 45 18.4 

16 SMB4(-X) 51 5.2 51 12.5 51 17.9 

32 SM 65 1.6 65 5.2 65 6.1 

32 SMB4(3X) 86 2.5 86 6.7 86 8.6 

32 SMB4(-X) 98 2.3 98 5.9 98 8.5 

Se concluyó que, si bien el consumo de recursos lógicos es sustancialmente me- 

nor, la velocidad de procesamiento de estas arquitecturas se encuentra por debajo 

del 50 % de la velocidad de los MPs ensayados. Por lo tanto, se concluyó que es 

necesario mejorar el desempeño en velocidad de los multiplicadores secuenciales. 

Arquitecturas propuestas de Multiplicadores Secuenciales 

Se realizaron propuestas para la optimización en velocidad de la Multiplica- 

ción Secuencial. Para cada uno de los multiplicadores se describió su estrategia 

y se lo modeló para poder comparar su desempeño. A partir del modelo de ca- 

da multiplicador, se expresó cada uno en Lenguaje de Descripción de Hardware 

(HDL) [28] [29] y se realizó la correspondiente implementación experimental. La 

Tabla 5.3 resume el consumo de recursos y la velocidad de procesamiento obtenida 

para estos multiplicadores.


Tabla 5.3: Resultados experimentales de los Multiplicadores Secuenciales propuestos. 


Bits Tipo CLB Mops CLB Mops CLB Mops 

8 SMSR 19 11.4 19 27.5 21 36.1 

8 SMSC(SM) 24 12.7 30 31.0 30 35.7 

8 SMSC(SMSR) 28 16.1 28 38.2 28 45.5 

8 SMF(SM) 32 14.6 37 35.5 36 44.3 

8 SMF(SMSR) 35 18.1 35 42.1 35 53.8 

16 SMSR 35 4.7 34 12.5 38 15.7 

16 SMSC(SM) 45 6.1 55 15.9 55 18.0 

16 SMSC(SMSR) 51 7.0 50 17.9 51 20.4 

16 SMF(SM) 59 7.1 67 19.9 67 23.8 

16 SMF(SMSR) 64 8.2 64 21.3 62 27.8 

32 SMSR 65 1.7 64 5.4 71 6.5 

32 SMSC(SM) 86 2.6 104 7.6 104 8.5 

32 SMSC(SMSR) 98 2.7 96 8.1 96 9.1 

32 SMF(SM) 111 2.7 127 9.4 128 10.9 

32 SMF(SMSR) 122 3.0 122 9.6 122 11.6 

Se concluye que, con las variantes propuestas, se pudo incrementar el desem- 

peño en velocidad sin un sacrificio sustancial de recursos lógicos. En particular, 

con la variante SMF(SMSR) se logró un incremento de velocidad estimado entre 

un 60 % (8 bits) y un 100 % (32 bits) con respecto al SM. Con esta variante se 

estaría alcanzando la velocidad de procesamiento del MP para la serie Spartan 

con un consumo hasta 8 veces menor. 

Nuevas Arquitecturas de Multiplicación Secuencial en Punto Flotante 

Los resultados obtenidos con las multiplicadores propuestos se aplicaron a 

la multiplicación en punto flotante. Se seleccionaron dos de los multiplicadores 

desarrollados y se realizó el respectivo modelo en punto flotante. Las ecuaciones 

se validaron a través de la implementación de los mismos en las familias de FPGA 

antes mencionadas.


La Tabla 5.4 muestra el consumo de recursos lógicos de los multiplicadores 

SMSR y SMSC aplicados a punto flotante. A su vez, se muestran los ensayos 

realizados con redondeo a cero y redondeo a +∞ (ver Sección 2.2.2). 

Tabla 5.4: Resultados experimentales de Multiplicadores en Punto Flotante 


Bits Tipo CLB Mflops CLB Mflops CLB Mflops 

18 SMSR trunc 32 7.6 30 20.3 32 25.6 

18 SMSR +∞ 35 6.2 32 16.2 35 20.9 

18 SMSC trunc 45 10.3 46 27.0 46 29.3 

18 SMSC +∞ 51 10.2 51 26.9 53 29.4 

32 SMSR trunc 51 2.5 52 7.2 53 9.1 

32 SMSR +∞ 53 2.0 54 6.0 57 7.5 

32 SMSC trunc 85 3.8 89 10.5 89 12.1 

32 SMSC +∞ 100 3.7 100 10.3 102 11.9 

Se concluye que, para multiplicadores de 18 bits, se ha obtenido un desempeño 

hasta 8 veces superior a la de la arquitectura propuesta por Shirazi et al [9]. 

Comparando los resultados con los reportados por Aty et al [25], el desempeño 

obtenido es hasta 6 veces mejor para la serie Spartan, y hasta 5 veces para la serie 

Virtex II en 18 bits. Para el caso de 32 bits, se concluye que los multiplicadores 

propuestos obtienen un desempeño al menos 3 veces superior a los reportados por 

estos autores 1 . 

Por otra parte, por ejemplo el SMSC propuesto en esta tesis consume 8 ve- 

ces menos que el propuesto por Jaenicke and Luk [23], con una velocidad tan 

sólo 2,5 veces menor. Es decir, que el desempeño logrado con los multiplicadores 

propuestos es al menos 3 veces mayor. 

1 Estos autores hacen uso del multiplicador embebido de 18 bits de la serie Virtex II


Multiplicación Secuencial aplicada al Control de Movimiento 

El controlador desarrollado permitió el control de posición de máquinas incre- 

mentales a alta velocidad en paso completo o en modo micropaso 2 . Se utilizó el 

multiplicador SMSR para el modo paso y el SMSC para el modo micropaso. Con 

el sistema desarrollado, se alcanzaron velocidades hasta 5 veces mayores que las 

obtenidas mediante DSPs en modo paso y hasta 12 veces en modo micropaso. 

Publicaciones 

”Multiplicadores secuenciales en FPGA: evaluación y comparación de paráme- 

tros”, 8th Argentine Symposium on Computing Technology (36 JAIIO) 

ISBN 1850-2776. Mar del Plata 2007. 

”Estudio comparativo de multiplicadores secuenciales implementados en 

FPGA”, XII Reunión de Trabajo en Procesamiento de la Información y 

Control. Mar del Plata 2007. 

”Floating Point Multipliers with Reduced FPGA Area”, II Southern Con- 

ference on Programmable Logic. ISBN 84-609-8998-4. Mar del Plata 2006. 

”Performance evaluation of Floating Point Multipliers”, XX Congreso Ar- 

gentino de Control Automático. ISBN 978-950-99994-4-2. Mar del Plata 

2006. 

”Novel FPGA based Floating Point Multiplier: Consecutive-Sums Sequen- 

tial Multiplier”, 8th Argentine Symposium on Computing Technology (36 

JAIIO) ISBN 1850-2776. Mar del Plata 2007. 

2 El modo micropaso consiste en el accionamiento del movimiento del motor incremental en 

fracciones de un paso.


”Novel stepper motor controler based on FPGA hardware implementation 

”, IEEE/ASME Transactions on Mechatronics, Nro. 1 Vol 8 ISSN 1083-4435 

March 2003, pg 120-124. 

”FPGA based stepper motor controller”, II Southern Conference on Pro- 

grammable Logic. ISBN 84-609-8998-4. Mar del Plata 2006. 

5.0.1. Trabajos futuros 

La implementación hardware de algoritmos de control puede resultar de suma 

utilidad en el campo de la Electrónica de Potencia. Los convertidores de potencia 

presentan permanentemente un compromiso entre la velocidad del sistema global 

y la complejidad del control. La evolución de los dispositivos digitales de las 

últimas décadas permitió el avance en el control de estos sistemas, sin embargo 

los requerimientos actuales también son mayores. 

En el campo de lógica programable, la capacidad de paralelización de tareas 

permitiría aumentar la eficiencia del control de los convertidores, ya sea aumen- 

tando la velocidad de procesamiento del sistema utilizando algoritmos de control 

y/o modulación más sofisticados que mejoraría la performance del convertidor. 

Adicionalmente, el sistema implementado en FPGA permitiría la generación de 

seguridad y protección en la conmutación de las llaves de los convertidores en 

forma independiente de la ejecución del algoritmo. 

En el marco de la investigación realizada hasta el momento, se propone ex- 

pandir los conocimientos adquiridos para el desarrollo e implementación de los 

algoritmos de control destinados a Convertidores de Potencia. Entre las herra- 

mientas necesarias, se encuentra la necesidad de desarrollar sumadores en punto 

flotante que posean las mismas características que los multiplicadores propuestos


en el Capítulo 3. Los sumadores en punto flotante consumen considerables canti- 

dades de recursos lógicos, comparables a la de los multiplicadores. Por otro lado, 

los algoritmos de control de los convertidores de potencia requieren usualmente 

el cálculo de funciones trigonométricas. Se pretende desarrollar avances en este 

campo mediante la aplicación de los conocimientos en la ejecución de algoritmos, 

entre los que se encuentra el de CORDIC [30] [31].

Bibliografía 

[1] E. Boemo, E. Juárez, and J. Meneses, “Taxonomía de multiplicadores,” Proc. 

VIII DCIS Conference. Univ. of Malaga., pp. 185–190, 1993. 

[2] D. Teixeira, A. Susim, and L. Carro, “Comparación de multiplicadores en 

fpga,” V Workshop Iberchip, vol. 1, pp. 182–187, Enero 1999. 

[3] . Ñibouche, A. Bouridarie, and M.Ñibouche, “New architectures for serialserial 

multiplication,” IEEE, pp. 705–708, 2001. 

[4] A. Aggoun, A. Ashur, and M. K. Ibrahimi, “Area-time efticient serial-serial 

multipliers,” in IEEE International Symposium on Circuits and Systems, 

2000. 

[5] A. Aggoun, A. Farwan, M. Ibrahim, and A. Ashur, “Radix-2n serialserial 

multipliers,” IEE Proc.-Circuits Devices Syst., vol. 151 No. 6, pp. 503–509, 

2004. 

[6] A. Bouridane, M. Ñibouche, D. Crookes, and B. Albesher, “A low latency bidirectional 

serial-parallel multiplier architecture,” IEEE ISCAS 2000, vol. 5, 

pp. 593–596, May 2000. 

[7] C. Wallace, “A suggestion for a fast multiplier,” IEEE Trans. on Electronic 

Comuters, pp. 14–17, 1964. 

[8] L. Dadda, “Some schemes for parallel multipliers,” Alta Frequenza, vol. XX- 

XIV, N 5, 1965. 

[9] N. Shirazi, A. Walters, and P. Athanas, “Quantitative analisis of floating 

point arithmetic on FPGA based custom computing machines,” Proceedings. 

IEEE Symposium on FPGAs for Custom Computing Machines, pp. 155–162, 

1995. 

[10] I. W. B. Ligon, S. McMillan, G. Monn, K. Schoonover, F. Stivers, and K. D. 

Underwood, “A re-evaluation of the practicality of floating-point operations 

on FPGAs,” Proceedings of IEEE Symposium on FPGAs for Custom Computing 

Machines, pp. 206–215, 1998. 

129


[11] J. L. Hennessy and D. Patterson, Computer Architecture: A Quantitative Approach. 

San Francisco, California ISBN: 1-55860-329-8: Morgan Kaufmann 

Publishers, Inc., 1996. 

[12] J. P. Hayes, Introducción al Diseño Lógico Digital. Wilmington, Delaware, 

E.U.A: Addison-Wesley Iberoamericana, 1996. 

[13] G. E. Ordoez-Fernandez, L. Lpez-Lpez, and J. Velazco-Medina, “Diseo de 

multiplicadores paralelos de 16 bits en fpgas,” in Proceedings X Taller Iberchip, 

2004. 

[14] B. Parhami, Computer Arithmetic: Algorithms and Hardware Design. New 

York, Oxford: Oxford University Press, 2000. 

[15] E. Jamro and K. Wiatr, “Constant coefficient convolution implemented in 

fpgas,” in Digital System Design, 2002. Proceedings. Euromicro Symposium 

on, 4-6 Sept. 2002, pp. 291–298. 

[16] J. B. Evans, C.-J. Chou, and S. Mohanakrishnan, “FPGA implementation 

of digital filters,” Proc. ICSPAT’93, pp. 1–9, 1993. 

[17] R. J. Landry, V. Calmettes, and E. Robin, “High speed IIR filter for xilinx 

FPGA,” Proceedings of the 1998 Midwest Symposium on Systems and 

Circuits, 1998. 

[18] I. S. 754, IEEE standard for binary floating-point arithmetic. New York: 

The Institute of Electrical and Electronics Engineers Inc., 1985. 

[19] H. Guild, “Fully iterative fast array for binary multiplication and addition,” 

Electronic Letters, vol. 5, p. 263, 1969. 

[20] J. McCanny and J. McWhirter, “Completely iterative, pipelined multiplier 

array suitable for VLSI,” IEE Proceedings, Part G - Electronic Circuits and 

Systems, vol. 129, pt. G, no. 2, Apr. 1982, p. 40-46., vol. 129, pp. 40–46, 

Apr. 1982. 

[21] “Core generator,” http://www.xilinx.com/products/logicore/coregen/index.htm, 

2000. 

[22] L. Louca, T. A. Cook, and W. H. Johnson, “Implementation of IEEE single 

precision floating point addition and multiplication on FPGAs,” Proceedings 

IEEE Symposium on FPGAs for Custom Computing Machines, pp. 107–116, 

1996. 

[23] A. Jaenicke and W. Luk, “Parameterised floating-point arithmetic on fpgas,” 

in Acoustics, Speech, and Signal Processing, 2001. Proceedings. (ICASSP 

’01). 2001 IEEE International Conference on, vol. 2, 7-11 May 2001, pp. 

897–900vol.2.


[24] M. A. Jimnez, N. G. Santiago, and D. T. Rover, “Development of a scalable 

FPGA-based floating point multiplier,” Proceedings of the Fifth Canadian 

Workshop on Field-Programmable Devices, pp. pp. 145 – 150, 1998. 

[25] G. Aty, A. Hussein, I. Ashour, and M. Mones, “High-speed, area-efficient 

fpga-based floating-point multiplier,” in Microelectronics, 2003. ICM 2003. 

Proceedings of the 15th International Conference on, 9-11 Dec. 2003, pp. 

274–277. 

[26] B. Ñew, “Estimating the performance of XC4000E adders and counters,” 

Xilinx, Tech. Rep. Xapp 018, 1996. 

[27] The Programable Logic Data Book 1999. Xilinx, 1999. 

[28] S. Ghosh, Hardware Description Languages Concepts and Principles. 445 

Hoes Lane, P.O. Box 1331 Piscataway, NJ 08855-1331: IEEE Press, 1999. 

[29] E. Villar, L. Terés, S. Olcoz, and Y. Torroja, VHDL Lenguaje Estandar de 

Diseño Electrónico. Madrid: McGraw Hill, 1997. 

[30] J. E. Volder, “The CORDIC Trigonometric Computing Technique,” IRE 

Transactions on Electronic Computers, vol. EC-8, pp. 330–334, 1959. 

[31] M. Kharrat, M. Loulou, and N. M. andL. Kamoun, “A new method to implement 

cordic algorithm,” in The 8th IEEE International Conference on 

Electronics, Circuits and Systems, vol. 2, 2001, pp. 715–718. 

[32] [Online]. Available: www.cypress.com 

[33] [Online]. Available: www.actel.com 

[34] [Online]. Available: www.quicklogic.com 

[35] [Online]. Available: www.xilinx.com 

[36] [Online]. Available: www.altera.com 

[37] [Online]. Available: http://www.alcatel-lucent.com/wps/portal 

[38] [Online]. Available: www.atmel.com 

[39] R. Bossart, H. Braun, F. Chautard, M. Comunian, J. Delahaye, 

J.C.Godot, I. Kamber, J. Madsen, L. Rinolfi, S. Schreiber, G. Suberlucq, 

I. Wilson, and W. Wuensch, “Performances obtained with the cern linear 

collider test facility,” in Proc. European Particle Accelerator Conference- 

EPAC’94, London, UK, July 1994, pp. 680–682. [Online]. Available: 

http://accelconf.web.cern.ch/AccelConf/


[40] W. Coosemans and H. Mainaud, “Pre-alignment of clic using the double-wire 

method,” European Organization of Nuclear Research (CERN), Tech. Rep. 

343, July 1997, CLIC-NOTE 343. 

[41] P. Poirier, “Lálignement dynamique submicrometrique de sections acceleratrices,” 

Memoire de soutenance du Diplome de Recherche Specialisee en 

Sciences, Universite Louis Pasteur de Strasbourg, September 1991. 

[42] D. Carrica, R. Pittin, and M. Benedetti, “Control subsystem hardware of the 

high performance electronics for alignment regulation on the CLIC 30GHz 

modules,” CERN Publication (European Laboratory for Particle Physics), 

Ginebra, Suiza., vol. CTF 99-09, March 1999. 

[43] J. Crook, “Low cost microprocessor based speed control,” in Proceedings 

of the Thirteeth Annual Symposium, Incremental Motion Control System 

and Devices, B. C. Kuo, Ed., Incremental Motion Control System Society. 

Champaign, Illinois: Board of Trustees of the University of Illinois, May 1984, 

pp. 25–30. 

[44] Z. Kang and S. Qu, “A new methodology for using single microprocessor to 

control DC stepper motors,” in Proceedings of the IEEE International Conference 

on Industrial Technology, I. of Electrical & Electronics Engineers Staff, 

Ed. Piscataway, NJ, USA: IEEE Press, Dec. 1994, pp. 543–545. 

[45] D. O. Carrica and S. A. González, “Algoritmo eficiente para la generación 

de perfiles de velocidad en el accionamiento simultáneo de múltiples motores 

paso a paso,” in ANALES VIII Reunión de Trabajo en Procesamiento de la 

Información y Control, RPIC’99, vol. 1. Mar del Plata, Argentina: Facultad 

de Ingenieria, U.N.M.d.P., Sept. 23–25, 1999, pp. 118–122. 

[46] P. Acarnley, Stepping Motors: A Guide to Modern Theory and Practice, 

4th ed., ser. IEE Control Engineering Series, no. 63. London, U.K.: Peter 

Peregrinus Ltd, Dec. 2002. 

[47] T. Kenjo and A. Sugawara, Stepping Motors and their Microprocessor Controls, 

2nd ed., ser. Monographs in Electrical and Electronic Engineering. 

Oxford, U.K.: Oxford University Press, 1995. 

[48] B. Robert, F. Alin, and C. Goeldel, “Aperiodic and chaotic dynamics in hybrid 

step motor-new experimental results,” in Proceedings of the IEEE International 

Symposium on Industrial Electronics-ISIE’2001, 2001, pp. 2136– 

2141. 

[49] M.-C. Pera, B. Robert, and C. Goeldel, “Nonlinear dynamics in electromechanical 

systems-application to a hybrid stepping motor,” Electromotion, 

vol. 7, no. 1, pp. 31–42, Jan./Mar. 2000.


[50] N. Acosta, C. Collado, and K. Larsen, “Métricas para la generación de multiplicadores 

paralelos en FPGA.” Proc. of VII Workshop Iberchip., 2001. 

[51] N. Acosta, E. Todorovich, C. Collado, and K. Larsen, “Multiplicadores paralelos: 

Estado del arte y análisis de su materialización en FPGA.” Proc. of 

VI Workshop Iberchip., pp. 158–168, 2000. 

[52] A. Booth, “A signed binary multiplication technique,” Quartelly J. of Mech. 

Appl. Math., vol. 4 Part 2, 1951. 

[53] S. Brown, “FPGA architectural research: A survey,” Design & Test of Computers, 

IEEE, vol. 13, pp. 9–15, 1996. 

[54] S. Brown and J. Rose, “FPGA and CPLD architectures: A tutorial,” Design 

& Test of Computers, IEEE, vol. 13, pp. 42–57, 1996. 

[55] D. Carrica, R. Pittin, W. Coosemans, and M. Benedetti, “Active alignment 

electronic system for CLIC 30 GHz modules in CTF2,” CERN Publication, 

CLIC Nro. 361, November 1998. 

[56] T.-S. Chang and C.-W. Jen, “Hardware-efficient implementations for discrete 

function transforms using LUT-based FPGAs,” Computers and Digital 

Designs - IEE Proceedings, vol. 146, Issue 6, p. 309, 1999. 

[57] C. Dick and F. Harris, “FPGA signal processing using sigma-delta modulation,” 

F. IEEE Signal Processing Magazine, vol. Volume: 17 Issue: 1, pp. 20 

–35, Jan. 2000. 

[58] F. Elguibaly, “A fast parallel multiplier-accumulator using the modified 

booth algorithm,” IEEE Transactions on Circuits and Systems - II: Analog 

and Digital Signal Processing, vol. 47, no. 9, pp. 902–908, September 2000. 

[59] M. Funes, D. Carrica, and M. Benedetti, “Floating point multipliers with 

reduced fpga area,” vol. 1, 2006, pp. 59–66. 

[60] ——, “Multiplicadores de punto flotante para estructuras FPGA,” vol. 1, 

2002, p. 40. 

[61] ——, “Multiplicadores secuenciales para estructuras FPGA,” vol. Vol. II, 

2001, pp. 646–651. 

[62] A. A. Gray and S. D. Hoy, “Parallel adaptive equalizer employing subconvolution: 

VLSI architecture realized in a field programmable gate array,” 

2003 MAPLD International Conference, 2003. 

[63] R. W. Hix and R. L. Haggard, “Comparative design methodologies for FPGA 

based computer arithmetic,” Proceedings of the Twenty-Ninth Southeastern 

Symposium on System Theory, pp. 374–378, 1997.


[64] B. Lee and N. Burgess, “Parameterisable floating-point operations on FP- 

GA,” Conference Record of the Thirty-Sixth Asilomar Conference on Signals, 

Systems and Computers, pp. 1064–1068, 2002. 

[65] L. Mintzer, “Large FFT’s in a single FPGA,” ICSPAT, 1996. 

[66] K. Rajagopalan and P. Sutton, “A flexible multiplication unit for an FP- 

GA logic block,” The 2001 IEEE International Symposium on Circuits and 

Systems, 2001. ISCAS 2001, vol. vol. 4, pp. 546–549, 2001. 

[67] C. Souani, M. Abid, and R. Tourki, “An FPGA implementation of the floating 

point addition,” Industrial Electronics Society IECON ’98. Proceedings 

of the 24th Annual Conference of the IEEE, vol. 3, pp. 1644–1648, 1998. 

[68] P. F. Stelling, C. U. Martel, V. G. Oklobdzija, and R. Ravi, “Optimal circuits 

for parallel multipliers,” IEEE Transactions on Computers, vol. 47, no. 3, 

pp. 273–285, March 1998. 

[69] P. F. Stelling and V. G. Oklobdzija, “Optimal designs for multipliers and 

multiply-accumulators,” Proceedings of the 15th IMACS World Congress on 

Scientific Computation, Modeling, and Applied Mathematics, vol. 4, pp. 739– 

744, August 1997. 

[70] M. Thornton, J. Gaiche, and J. Lemieux, “Tradeoff analysis of integer multiplier 

circuits implemented in FPGAs,” Communications, Computers and 

Signal Processing IEEE Pacific RIM Conference, pp. 301–304, 1999. 

[71] E. Todorovich, G. Sutter, N. Acosta, E. Boemo, and S. López-Buedo, “Relación 

entre velocidad y consumo en FPGAs,” VII Workshop Iberchip, pp. 

1–6 CD Browser, 2001. 

[72] B. Von Herzen, “Signal processing at 250mhz using highperformanceFPGA’s,” 

IEEE Transactions on Very Large Scale Integration 

(VLSI) Systems,, vol. 6, Issue 2, pp. 238–246, 1998. 

[73] The Programable Logic Data Book. Xilinx, 2000. 

[74] R. Zimmermann, Binary Adder Architectures for Cell-Based VLSI and their 

Synthesis. Swiss Federal Institute of Technology, 1997. 

[75] M. Lu, Arithmetic and Logic in Computer Systems. Wiley-Interscience, 

2004. 

[76] U. Meyer-Baese, Digital Signal Processing with Field Programmable Gate 

Arrays. Springer-Verlag, 2001. 

[77] A. Gaffar, W. Luk, P. Cheung, and N. Shirazi, “Customising floating-point 

designs,” in Symposium on Field-Programmable Custom Computing Machines. 

IEEE, 2002, pp. 315 – 317.


[78] J. Knopman, E. Fernandes, and A. Mesquita, “Implementation of hardware 

structures through configurable logic,” in EUROMICRO 94. System Architecture 

and Integration. Proceedings of the 20th EUROMICRO Conference., 

5-8 Sept. 1994, pp. 125–130. 

[79] M. Louie and M. Ercegovac, “Multiplication and inner product with field 

programmable gate arrays,” in VLSI Signal Processing, VII, 1994., [Workshop 

on], 26-28 Oct. 1994, pp. 246–255. 

[80] R. Lysecky and F. Vahid, “A configurable logic architecture for dynamic 

hardware/software partitioning,” in Design, Automation and Test in Europe 

Conference and Exhibition, 2004. Proceedings, vol. 1, 16-20 Feb. 2004, pp. 

480–485Vol.1. 

[81] T. Miyamori and U. Olukotun, “A quantitative analysis of reconfigurable 

coprocessors for multimedia applications,” in FPGAs for Custom Computing 

Machines, 1998. Proceedings. IEEE Symposium on, 15-17 April 1998, pp. 2– 

11. 

[82] T. Ñoll, “Carry-save arithmetic for high-speed digital signal processing,” in 

Circuits and Systems, 1990., IEEE International Symposium on, 1-3 May 

1990, pp. 982–986vol.2. 

[83] S. Shah, A. Al-Khalili, and D. Al-Khalili, “Comparison of 32-bit multipliers 

for various performance measures,” in Microelectronics, 2000. ICM 2000. 

Proceedings of the 12th International Conference on, 31 Oct.-2 Nov. 2000, 

pp. 75–80. 

[84] N. Vassiliadis, S. Ñikolaidis, S. Siskos, and D. Soudris, “The effect of the 

interconnection architecture on the fpga performance and energy consumption,” 

in Electrotechnical Conference, 2004. MELECON 2004. Proceedings 

of the 12th IEEE Mediterranean, vol. 1, 12-15 May 2004, pp. 213–216Vol.1. 

[85] J. S. Walther, “A Unified Algorithm for Elementary Functions,” in Proceedings 

of the Spring Joint Computer Conference, 1971. 

[86] X. Wang and S. Ziavras, “A configurable multiprocessor and dynamic load 

balancing for parallel lu factorization,” in Parallel and Distributed Processing 

Symposium, 2004. Proceedings. 18th International, 26-30 April 2004, p. 234. 

[87] L. Wayne and J. Allan, “Parameterised floating-point arithmetics on FP- 

GAs,” in International Conference on Speech, and Signal Processing, Vol. 

IEEE, 2001, pp. 897–900. 

[88] W. W. Yu and S. Xing, “Fixed-point multiplier evaluation and design with 

fpga,” in Proc. SPIE Vol. 3844, p. 153-161, Reconfigurable Technology: FP- 

GAs for Computing and Applications, Aug. 1999, pp. 153–161.

Apéndices 

136

Apéndice A 

Dispositivos Lógicos 

Programables 

A.1. Introducción 

Desde finales de la década de los ’60, los equipos electrónicos digitales se 

han construido utilizando circuitos integrados (CI) que realizan funciones lógicas 

básicas, realizados en pequeña o mediana escala de integración. A medida que los 

sistemas se volvieron más complejos, exigiendo un número más elevado de fun- 

ciones lógicas, se generó la necesidad de utilizar circuitos diseñados a medida que 

sólo sirven para una aplicación. Estos circuitos específicos, o ASIC (Application 

Specific Integrated Circuit), se producen con las especificaciones proporcionadas 

por el usuario. 

Los equipos realizados con ASICs ocupan menos espacio, son más fiables, 

consumen menos energía y resultan más baratos que los equipos equivalentes 

realizados con CI de función lógica básica cuando se fabrican en grandes series. 

Otra de las ventajas que tienen las ASICs radica en que el diseño es muy difícil 

de copiar protegiendo la propiedad intelectual. Sin embargo poseen un alto costo 

137

Apéndice A. Dispositivos Lógicos Programables 138 

de desarrollo y su empleo sólo se justifica para volúmenes de producción muy 

elevados. El tiempo necesario para el desarrollo y la construcción de una ASIC es 

considerable ya que puede oscilar de unos meses a unos años. 

A.2. PLD 

Un dispositivo que permitió reducir algunos costos de diseño surgió con la 

generación del PLD (Programmable Logic Device). Un PLD es un dispositivo 

cuyas características pueden ser modificadas y almacenadas mediante programa- 

ción. La síntesis de estos dispositivos esta fundamentada en el hecho que una 

función booleana cualquiera puede ser expresada como una suma de productos. 

El dispositivo programable más simple es una PAL (Programmable Array 

Logic). El circuito interno de una PAL consiste en un arreglo, o matriz, de com- 

puertas AND y un arreglo de compuertas OR. El arreglo AND es programable 

mientras que el OR generalmente es fijo. Mediante una matriz de conexiones se 

seleccionan las entradas que serán conectadas al arreglo AND, cuyas salidas son 

conectadas al arreglo OR y de esta manera se obtiene una función lógica en forma 

de suma de productos. 

La matriz de conexiones de un PLD es una red de conductores distribuidos en 

filas y columnas con un fusible en cada punto de intersección. Con estos recursos 

se implementan las funciones lógicas deseadas mediante un software especial y 

un programador. La síntesis de las ecuaciones lógicas se realiza mediante el que- 

mado del fusible en cada punto de intersección de los pines de entrada con las 

compuertas. 

Posteriormente, el fusible se reemplazó por una celda CMOS eléctricamen- 

te borrable (EECMOS) creandose así una Matriz Genérica Programable (GAL, 

Generic Array Logic). Un GAL en su forma básica es un PLD con una matriz


AND reprogramable, una matriz OR fija y una lógica de salida programable me- 

diante una macrocelda. Esta estructura permite implementar cualquier función 

lógica como suma de productos con un número de términos definido. Mediante 

la programación se activa o desactiva cada celda EECMOS y se puede aplicar 

cualquier combinación de variables de entrada, o sus complementos, a una com- 

puerta AND para generar cualquier operación producto que se desee. La celda 

activada conecta su correspondiente intersección de fila y columna, y una celda 

desactivada desconecta la intersección. Las celdas se pueden borrar y reprogramar 

eléctricamente. 

A.3. CPLD 

Un CPLD (Complex Programmable Logic Device) extiende el concepto de 

un PLD a un mayor nivel de integración ya que permite implementar sistemas 

con un mejor desempeño porque utilizan menor espacio y reducen costos. Un 

CPLD esta formado con múltiples bloques lógicos, cada uno similar a un PLD. 

Estos bloques lógicos se comunican entre sí utilizando una matriz programable 

de interconexiones (PIM). Esta matriz permite unir los pines de entrada/salida 

a las entradas del bloque lógico, o las salidas del bloque lógico a las entradas de 

otro bloque lógico o inclusive a las entradas del mismo (Fig. A.1). 

La mayoría de los CPLDs usan una de dos configuraciones para esta matriz: 

interconexión mediante arreglo de celdas EECMOS o interconexión mediante mul- 

tiplexores. La primera se basa en una matriz de filas y columnas con una celda 

programable de conexión en cada intersección. Al igual que en el GAL esta celda 

puede ser activada para conectar/desconectar la correspondiente fila y columna. 

Esta configuración permite una total interconexión entre las entradas y salidas 

del dispositivo o bloques lógicos.


I/O 

I/O 

I/O 

I/O 

I/O 

I/O 

I/O 

I/O 

I/O/GCK 

I/O/GSR 

I/O/GTS 

3 

1 

2or4 

Bloques 

I/O 

Figura A.1: Diagrama en bloques de un CPLD 

Matriz Programable de Interconexiones 

18 

18 

18 

18 

36 

36 

36 

36 

Bloque de 

Funciones 1 

Macroceldas 

1to18 

Bloque de 

Funciones 2 

Macroceldas 

1to18 

Bloque de 

Funciones 3 

Macroceldas 

1to18 

Bloque de 

Funciones N 

Macroceldas 

1to18 

En la interconexión mediante multiplexores, existe un multiplexor por cada 

entrada al bloque lógico. Las vías de interconexión programables son conectadas 

a las entradas de un número de multiplexores por cada bloque lógico. Las líneas 

de selección de estos multiplexores son programadas para permitir que sea selec- 

cionada únicamente una vía de la matriz de interconexión por cada multiplexor la 

cual se propagara a hacia el bloque lógico. Cabe mencionar que no todas las vías 

son conectadas a las entradas de cada multiplexor. La capacidad de interconexión 

se incrementa usando multiplexores de mayor tamaño, permitiendo que cualquier 

combinación de señales de la matriz de interconexión pueda ser interconectada 

con cualquier bloque lógico. 

En ambos casos, la capacidad de interconexión provoca que disminuya el 

desempeño del dispositivo debido al aumento de consumo de energía y el tamaño 

del componente.


A.4. FPGA 

Los Arreglos Lógicos Programables (ALPs) o Field Programmable Gate Arrays 

(FPGAs) surgieron en los ’80, como solución a las excesivas demoras del desarro- 

llo convencional de circuitos integrados digitales. Además, esta tecnología consti- 

tuyó una alternativa a la costosa implementación de circuitos integrados específi- 

cos (ASICs). A pesar de estas importantes ventajas la utilización extensiva de los 

FPGAs comenzó recién en la década de los ’90. 

La arquitectura de una FPGA consiste en arreglos de varias celdas lógicas 

las cuales se comunican unas con otras mediante canales de conexión verticales y 

horizontales como se muestra en la Fig. A.2. 

IOB 

IOB 

IOB 

IOB 

IOB 

IOB 

IOB 

IOB 

IOB 

IOB 

IOB 

IOB 

IOB 

IOB 

IOB 

IOB 

CL B CL B CL B CL B 




IOB 

IOB 

IOB 

Figura A.2: Distribución de bloques de una FPGA de Xilinx 

IOB 

La estructura de las celdas lógicas y las formas en que estas pueden ser interco- 

nectadas, tanto salidas como entradas de la celda, varían de acuerdo al fabricante. 

En general una celda lógica tiene menos funcionalidad que la combinación de su- 

mas de productos y macroceldas de un CPLD. 

La estructura de las celdas se ve fuertemente influida por la tecnología utili- 

zada para fabricar la FPGA. Una FPGA que tiene una gran cantidad de canales 

IOB 

IOB 

IOB 

IOB 

IOB 

IOB 

IOB 

IOB 

IOB 

IOB 

IOB 

IOB


de interconexión tiende a tener pequeñas celdas lógicas con muchas entradas y 

salidas en comparación con el número de compuertas que tiene la celda. Sin em- 

bargo, una FPGA que tiene una estructura pequeña en canales de interconexión 

tiende a tener celdas lógicas con pocas entradas y salidas en comparación con el 

número de compuertas que hay en la celda. 

La tecnología de interconexión se puede clasificar en dos tipos, antifusibles 

o RAM estática (SRAM). Las FPGAs con gran cantidad de canales de interco- 

nexión utilizan una tecnología de antifusibles que generan una conexión cuando 

son programados, no permitiendo la reutilización de la FPGA. La tecnología de 

antifusibles es utilizada por empresas tales como Cypress [32], Actel [33] y Qui- 

cklogic [34]. 

Por otro lado, para FPGAs con pocos canales se realiza la interconexión con 

tecnología SRAM. La primera FPGA fue introducida por Xilinx [35] en el año 

1985 y era basada en RAM estática. Esta FPGA cada vez que se aplica la ten- 

sión de alimentación se re-programa con la información que lee desde una PROM 

(Programmable Read Only Memory) de configuración externa. Una FPGA basa- 

da en SRAM admite un número ilimitado de re-programaciones sin necesidad de 

borrados previos. En la Fig. A.3 se puede observar la matriz de interconexión de 

una FPGA de Xilinx. En detalle se puede observar el conjunto de los 6 transis- 

tores de paso que permiten la interconexión de las celdas. Una vez programada 

la FPGA, una memoria SRAM mantiene el estado de conexión o desconexión de 

cada uno de estos transistores. 

A medida que se realiza la interconexión de las líneas, comúnmente denomi- 

nadas rutas, se van adicionando retardos en la trayectoria recorrida. Este efecto 

debe ser tomado en cuenta en las herramientas de programación para diseño y 

ajuste de las FPGA, de manera que el software sea capaz de establecer las co- 

nexiones más cortas posibles y luego realizar el trazado de esas conexiones, para


PSM 

PSM PSM 

CLB CLB 

PSM PSM PSM 

2 Dobles 3 Largas 8 Simples 

3 Largas 

2 Dobles 

8 Simples 

2 Dobles 

3 Longs 

3 Largas 

2 Dobles 

Transistores de paso 

Figura A.3: Matriz de interconexión de una FPGA de Xilinx 

así optimizar el rendimiento del dispositivo. 

Este mismo tipo de tecnología es además utilizado por Altera [36], Lucent 

Technologies [37] y Atmel [38] entre otros. 

A.4.1. Celdas Lógicas 

Otra consecuencia de los recursos de interconexión se presenta con el tamaño 

de las celdas. Si las celdas lógicas son demasiado pequeñas sucede que se debe 

utilizar un gran número de estas en cascada para poder implementar funciones 

lógicas grandes. Estas celdas en general resuelven funciones elementales de dos o 

tres variables (denominadas de grano fino) y presentan como desventaja que cada 

celda lógica en cascada agrega un tiempo de retardo en la función implementada. 

A medida que el tamaño de la celda lógica aumenta, sucede lo contrario. 

En este tipo de celdas lógicas, que resuelven funciones elementales de cuatro o 

más variables de entrada (denominadas de grano grueso), es posible implementar 

funciones lógicas de varios términos con pocas celdas lógicas. Entre las FPGA con 

celdas de grano grueso se encuentran las de Xilinx y algunas familias de Altera, 

la que también ofrece algunas familias con celdas de grano medio. Fabricantes 

como Actel ofrecen FPGAs de grano fino.


La celda básica de una FPGA de la serie FLEX10K de Altera, denominada 

LE (Logic Element), es una celda de grano medio que posee una LUT (Look-up 

Table) de 4 entradas y un Fliplop. La LUT puede ser configurada también como 

una LUT de 3 entradas y una lógica de acarreo rápido. El conjunto de ocho LEs 

se encuentran dispuestas en un arreglo denominado LAB (Logic Array Block). 

Adicionalmente cada fila posee un EAB (Embeded Array Block) que puede ser 

configurado como un elemento de 2048x1 hasta 256x8 de memoria. Estos LAB y 

EAB se encuentran interconectados a través de buses de alta velocidad de 100 a 

300 líneas por columna. 

data1 

data2 

data3 

data4 

labctrl1 

labctrl2 

Chip-Wide 

Reset 

labctrl3 

labctrl4 

Look-Up 

Table 

(LUT) 

Clear/ 

Preset 

Logic 

Clock 

Select 

Carry-In 

Carry 

Chain 

Carry-Out 

Cascade-In 

Cascade 

Chain 

Cascade-Out 

Register Bypass 

PRN 

DQ 

ENA 

CLRN 

Programmable 

Register 

To FastTrack 

Interconnect 

To LAB Local 

Interconnect 

Figura A.4: Descripción de un LE de una FPGA FLEX10K de Altera 

Un ejemplo de una celda básica de Xilinx denominado CLB (Configurable 

Logic Block) se puede observar en la Fig. A.5. Estos CLBs estan compuestos por 

dos LUTs (F y G) con las cuales se pueden generar funciones lógicas de cuatro 

variables independientes, o bien una función lógica combinada (H) de 5 variables. 

Cada LUT cuenta con lógica aritmética dedicada para la propagación rápida de 

acarreo a celdas vecinas. Cada CLB cuenta además con dos Flipflops con los 

cuales se pueden registrar las salidas combinacionales. Xilinx posee cinco niveles 

de interconexión, que va desde la conexión entre dos CLBs, a conexiones largas


que atraviesan toda la FPGA. Cada CLB puede ser utilizado como un elemento 

de 16x2 a 31x1 de memoria. 

G4 

G3 

G2 

G1 

SR 

H1 

IN 

F4 

F3 

F2 

F1 

K 

EC 

G4 

Logic 

G3F 

unction 

of G 

G2 G1-G4 

G1 

F4 

G-L U T 

Logic 

F3 F unction 

of G 

F2 F1-F4 

F1 

F-LUT 

A 

H-LUT 

B 

G 

Logic 

F unction 

H1 of H 

F 

F-G-H1 

Multiplexer Controlled 

by Configuration P rogram 

SR 

D Q Y 

CK 

EC 

Y 

SR 

D Q X 

Figura A.5: Descripción de un CLB de una FPGA XC4000 de Xilinx 

En la Fig. A.6 se muestra un ejemplo de los recursos lógicos de algunas FPGAs 

de Xilinx. En la misma el fabricante presenta la cantidad de celdas básicas, el 

máximo contenido de memoria que se puede generar y la cantidad de Flip-flops 

que contiene cada modelo. 

A.4.2. Recursos dedicados 

Los fabricantes de FPGAs generan en los dispositivos algunos recursos dedi- 

cados a mejorar el desempeño de los mismos. Ejemplo de ello se puede observar 

sobre la serie XC4000 de Xilinx, la cual cuenta con líneas de comunicación glo- 

bal, selección de velocidad de acceso de buffers de salidas y lógica de acarreo para 

acelerar y condensar funciones ariméticas. 

Las líneas de comunicación globales están diseñadas para distribuir señales 

de reloj o que poseen un gran fan out. Estas líneas poseen un retardo mínimo y 

pueden ser accedidas mediante la utilización de buffers especiales. 

CK 

EC 

X


FPGA 

Serie XC4000: 

Serie Spartan: 

Serie Virtex: 

Celdas Lógicas 

Comp. Lógicas 

Rango Típico 

de Compuertas 

Modelo 

XC4013XLA 1368 13K 10K-30K 18K 24x24 576 1536 

XC4020XLA 1862 20K 13K-40K 25K 28x28 784 2016 

XC4028XLA 2432 28K 18K-50K 33K 32x32 1024 2560 

XC4036XLA 3078 36K 22K-65K 42K 36x36 1296 3168 

XC4044XLA 3800 44K 27K-80K 51K 40x40 1600 3840 

XC4052XLA 4598 52K 33K-100K 62K 44x44 1936 4576 

XC4062XLA 5472 62K 40K-130K 74K 48x48 2304 5376 

XC4085XLA 7448 85K 55K-180K 100K 56x56 3136 7168 

XCS05 238 3K 2K-5K 3K 10x10 100 360 

XCS10 466 5K 3K-10K 6K 14x14 196 616 

XCS20 950 10K 7K-20K 13K 20x20 400 1120 

XCS30 1368 13K 10K-30K 18K 24x24 576 1536 

XCS40 1862 20K 13K-40K 25K 28x28 784 2016 

XCS05XL 238 3K 2K-5K 3K 10x10 100 360 

XCS10XL 466 5K 3K-10K 6K 14x14 196 616 

XCS20XL 950 10K 7K-20K 13K 20x20 400 1120 

XCS30XL 1368 13K 10K-30K 18K 24x24 576 1536 

XCS40XL 1862 20K 13K-40K 25K 28x28 784 2016 

XC2S15 432 8K 6K-15K 22K 8x12 96 384 

XC2S30 972 17K 13K-30K 36K 12x18 216 863 

XC2S50 1728 30K 23K-50K 56K 16x24 384 1536 

XC2S100 2700 53K 37K-100K 78K 20x30 600 2400 

XC2S150 3888 77K 52K-150K 102K 24x36 864 3456 

XCV50 1728 21K 34K-58K 56K 16x24 384 1536 

XCV100 2700 32K 72K-109K 78K 20x30 600 2400 

XCV150 3888 47K 93K-165K 102K 24x36 864 3456 

XCV200 5292 64K 146K-237K 130K 28x42 1176 4704 

XCV300 6912 83K 176K-323K 160K 32x48 1536 6144 

XCV400 10800 130K 282K-468K 230K 40x60 2400 9600 

XCV600 15552 187K 365K-661K 312K 48x72 3456 13824 

XCV800 21168 254K 511K-888K 406K 56x84 4704 18816 

XCV1000 27648 332K 622K-1,124K 512K 64x96 6144 24576 

Figura A.6: Recursos lógicos de algunas FPGAs de Xilinx 

Max. RAM Bits 

Matriz de CLB 

CLBs 

Flip-Flops


Las series a partir de la Familia Virtex cuentan adicionalmente con bloques 

denominados DLL (Delay-Locked Loop). Estos DLLs se encargan de monitorear 

el reloj de entrada y el distribuido en los bloques utilizados y generan un retardo 

sobre las líneas de manera que el flanco de reloj se genere sincronicamente entre 

todos los FlipFlops y el reloj de entrada. 

La velocidad de acceso de los buffers de salida por defecto se encuentra limi- 

tada para minimizar transitorios en las líneas de alimentación cuando conmutan 

entradas no prioritarias. Para el caso de líneas en las cuales se requiere mayor 

velocidad, se puede cambiar el atributo de velocidad para que la salida pueda 

operar más rápidamente. 

A partir de la serie XC4000E, Xilinx incorporó lógica de acarreo dedicada a 

las FPGAs. En la Fig. A.7 se puede observar que la lógica de acarreo comparte 

las entradas de datos y de control con los generadores de funciones. Las salidas 

de acarreo se encuentran conectadas a los generadores de funciones de manera 

de realizar las combinaciones adecuadas para la realización de una suma. Las 

salidas de tipo propagación de acarreo se comunican entre CLBs a través de 

rutas dedicadas de alta velocidad. Como se observa en la misma figura, el acarreo 

se puede propagar hacia el CLB superior o inferior. En el caso en que no existen 

CLBs en la parte superior o inferior debido a que el CLB se encuentra en los 

límites físicos de la FPGA, el acarreo se propaga hacia la derecha. 

La lógica de acarreo puede ser configurada para implementar funciones de 

adición, substracción o ambas. Además se pueden realizar operaciones de incre- 

mento, decremento y/o funciones en complemento.


G4 

G3 

G2 

G1 

H1 

F4 

F3 

F2 

F1 

LOGICA 

ACARREO 

G 

ACARREO 

F 

ACARREO 

C IN UP 

COUT CIN DOWN 

C OUT0 

C OUT 

G 

F 

Figura A.7: Lógica de acarreo dedicada de una FPGA XC4000 de Xilinx 

H 

DIN 

G 

H 

DIN 

H 

G 

F 

DIN 

H 

G 

F 

H 

F 

DQ 

DQ 

S/R 

EC 

S/R 

EC 

Y 

YQ 

XQ 

X


A.5. Conclusiones 

Desde hace ya un par de décadas el procesamiento de señales se lleva a cabo en 

lo que se denominó DSPs (Digital Signal Processors). Estos DSPs están basados 

en la arquitectura de un procesador capaz de ejecutar cálculos mediante una uni- 

dad MAC (Multiply/Accumulator) y multiples bancos de memoria destinados a 

incrementar la transferencia de datos. La ventaja de estos DSPs siempre radicó en 

que el procesamiento de señales utiliza intensivamente estas operaciones. 

Sin embargo, a pesar de que estos DSPs son flexibles en cuanto a su progra- 

mación, la arquitectura es fija y sólo disponen de una o dos unidades MAC. Como 

consecuencia, el grado de ejecuciones concurrentes está limitado por este número, 

de manera que no permite explotar toda la potencial concurrencia del algoritmo. 

En contraste, en una FPGA es posible generar la lógica necesaria para explo- 

tar esta concurrencia. Por ejemplo, si un algoritmo requiere la ejecución de 16 

multiplicaciones y la suma de estos productos, la FPGA puede ser configurada 

para la realización de estos 16 productos en forma simultánea. Adicionalmente, en 

la misma FPGA se pueden realizar otras tareas que no dependen de la realización 

del cálculo, tal como comunicación con periféricos, otros cálculos independientes, 

etc. 

Este tipo de ventaja motivó el interés respecto de las FPGAs para la aplicación 

de soluciones a medida sin perder la flexibilidad de la programación que ofrece 

un PSDP o el costo y el tiempo de fabricación de una ASIC.

Apéndice B 

Sistemas numéricos 

B.1. Introducción 

La resolución de todo algoritmo comienza por definir el tipo de las variables 

con las que se debe trabajar. A partir de la selección de estas variables, queda 

determinada el tipo de aritmética que se va a utilizar. Los Arreglos Lógicos Pro- 

gramables (ALPs o FPGAs) permiten que la resolución de un problema admita 

distintas variantes en cuanto al tipo de aritmética que se puede seleccionar. El 

tipo de aritmética seleccionado determina entonces la forma en que opera el al- 

gorítmo.En el presente capítulo se mostrarán las características de cada uno de 

los sistemas y la forma en que operan cada una de ellos. 

B.2. Representación numérica 

La elección del sistema numérico de las variables a utilizar debe realizarse 

cuidadosamente. Los sistemas numéricos de dividen en dos campos, punto fijo y 

punto flotante. En general puede ser asumido que la operatoria en punto fijo es 

mas rápida y requiere menos recursos lógicos, mientras que la operatoria en punto 

150

Apéndice B. Sistemas numéricos 151 

FORMATO NUMÉRICO 

PUNTO FIJO PUNTO FLOTANTE 

convencional no convencional convencional no convencional 

Complemento a 2 

Complemento a 1 

Disminuido a 1 

Con digito de signo 

Logarítmico 

RNS 

32-Bit IEEE 

64-Bit IEEE 

Figura B.1: Esquema de formatos numéricos 

16, 18, 20, 24 Bit 

Format 

flotante posee mayor rango dinámico y no requiere reescalar los resultados. Esto 

último puede resultar interesante para la resolución de algorítmos complicados. 

La Figura B.1 presenta el esquema de algunos sistemas numéricos para punto fijo 

y punto flotante. Los mismos pueden ser utilizados fuera del sistema estándar 

dependiendo de los requerimientos del problema a resolver. 

B.2.1. Punto fijo 

En esta sección se presentará una breve descripción de los sistemas numéricos 

de punto fijo. 

Enteros sin signo 

Sea X un número binario sin signo de n bits, el rango numérico es [0, 2 n − 1] 

y su representación esta dada por: 

n−1 

X = xj2 j 

j=0 

(B.1) 

donde xj es el j digito binario de X (por ej. xj ∈ [0, 1]). El digito x0 es 

llamado el bit menos significativo (LSB - Least Significative Bit) y tiene como


peso relativo la unidad. El digito xn−1 es el bit mas significativo (MSB - More 

Significative Bit) y posee un peso relativo de 2 n−1 . 

Magnitud con signo 

En sistemas de magnitud con signo la magnitud y el signo son representados 

en forma separada. El primer bit representa el signo y los restantes n − 1 bits 

representan la magnitud, su representación esta dada por: 

⎧ 

⎪⎨ 

X = 

⎪⎩ 

n−1 

j=0 

− n−1 

j=0 

xj2 j X ≥ 0 

xj2 j X < 0 

(B.2) 

El rango de esta representación es [−2 n−1 , 2 n−1 ]. La ventaja de la represen- 

tación de magnitud con signo es una simplicidad en la prevención de desbordes 

de cálculo, pero su desventaja es que cuando se adicionan estos números se debe 

observar cual de los operandos es mayor. 

Complemento a 1 (1C) 

Un sistema de n bits en 1C puede representar enteros binarios con signo en el 

rango [−2 n−1 , 2 n−1 −1]. En este tipo de sistema los números positivos y negativos 

se representan de la misma manera excepto por el bit de signo. La representación 

del número cero es de hecho redundante. La representación de los números en 1C 

esta dado por: 

⎧ 

⎪⎨ 

n−1 

xj2 

j=0 

X = 

⎪⎩ 

j X ≥ 0 

2n − 1 − n−1 

xj2j X < 0 

j=0 

(B.3) 

Este sistema numérico es utilizado para implementar aritmética de módulo 

2 n − 1 sin cambios en la aritmética.


Complemento a 2 (2C) 

Un sistema de n bits en 2C puede representar enteros binarios con signo en el 

rango [−2 n−1 − 1, 2 n−1 − 1]. Su representación esta dada por: 

⎧ 

⎪⎨ 

n−1 

xj2 

j=0 

X = 

⎪⎩ 

j X ≥ 0 

2n − n−1 

xj2j X < 0 

j=0 

(B.4) 

La representación de los números en 2C es una de las mas populares, esto es 

debido a que con la misma es posible sumar varios números con signo, y al final 

el resultado pertenece al rango de n bits. De este modo se puede ignorar cualquier 

desborde numérico en la aritmética. Por ejemplo, si se adicionan dos números de 

3 bits de la siguiente manera: 

310 

−210 

1112C 

1102C 

110 1 0012C 

el desborde puede ser ignorado. La ventaja de esta representación radica en 

que todos los cálculos son 2C. Aun en el caso en que haya cálculos intermedios, 

los mismos pueden no estar correctamente representados pero el resultado final es 

correcto. Esto se puede apreciar si se realiza el cálculo 2+2−3, el resultado parcial 

de 010 + 010 = 100 (−410), pero el resultado de 100 − 011 = 100 + 101 = 0012C 

es correcto. Este sistema numérico es utilizado para implementar aritmética de 

módulo 2 n sin cambios en la aritmética. 

Disminuido a 1 (D1) 

El sistema disminuido a 1 (D1) es un sistema polarizado. Los números positi- 

vos son, comparados con 2C, disminuidos en 1. El rango para un sistema D1 de


N − bits es [−2 n−1 , 2 n−1 ], excluyendo el cero. La representación de este sistema 

es: 

⎧ 

⎪⎩ 

n−1 

Para adicionar dos números D1 

xj2 

⎪⎨ j=0 

X = 

j − 1 X ≥ 0 

2n − n−1 

xj2j X < 0 

j=0 

310 

−210 

2 n X = 0 

010D1 

110D1 

110 1 000D1 

Carry × −1 0D1 

110 

000D1 

(B.5) 

se puede observar que se debe complementar y adicionar el bit de carry para 

lograr un resultado correcto. Este sistema numérico es utilizado para implementar 

aritmética de módulo 2 n + 1 sin cambios en la aritmética. 

B.2.2. Punto flotante 

Los sistemas de punto flotante fueron desarrollados para proveer alta resolu- 

ción sobre un gran rango dinámico. A menudo estos sistemas pueden resultar una 

solución cuando los sistemas de punto fijo fallan debido a su limitada precisión y 

rango dinámico. Este formato numérico se encuentra estándarizado por la norma 

IEEE 754 [18]. Esta norma establece criterios sobre diversos aspectos del diseño: 

codificación interna de los números a nivel de bits (formato numérico), técnicas 

de redondeo, tratamiento de excepciones, etc.


Los sistemas de punto flotante respecto al tratamiento de su contraparte en 

punto fijo poseen un costo importante en cuanto a la velocidad y complejidad 

de cálculo; cuestión que ha llevado a diversos autores a la utilización de esta 

representación ”a medida”. Una palabra en punto flotante se representa de la 

siguiente manera: 

Signo Exponente entero Mantisa 

Sx e m 

Algebraicamente, un número en punto flotante se representa: 

donde 

S, bit de signo. 

X = (−1) S × 2 e−bias × 1.m (B.6) 

e, exponente: Este campo se representa utilizando un desplazamiento (bias) 

bias = 2 e−1 − 1. 

m, mantisa: Es la parte fraccional de 1.m. 

Norma IEEE 754 

Los parámetros para precisión simple y doble que determina la norma IEEE 

754 se pueden observar en la Tabla B.1.


Tabla B.1: Punto flotante estándar. 

Simple Doble 

Longitud de palabra 32 64 

Exponente 8 11 

Mantisa 23 52 

Bias 127 1023 

Rango Máximo ±3,4028 × 10 38 ±1,7977 × 10 308 

Rango Mínimo ±1,1755 × 10 −38 ±2,2251 × 10 −308 

Codificaciones con significado especial 

Infinito (e=255, m=0): representan cualquier valor de la región de overflow 

NaN (Not-a-Number) (e=255, m>0): se obtienen como resultado de opera- 

ciones inválidas 

Número denormalizado (e=0, m>0): es un número sin normalizar cuyo bit 

implícito se supone que es 0. Al ser el exponente 0, permiten representar 

números en las regiones de underflow. El valor del exponente es el del ex- 

ponente más pequeño de los números no desnormalizados: -126 en precisión 

simple y –1022 en doble. 

Cero (e=0, m=0): número no normalizado que representa al cero (en lugar 

de representar al 1) 

Excepciones: 

Operación inválida: ∞ ± ∞, 0 × ∞, 0 ÷ 0, ∞ ÷ ∞, x mod 0, √ x cuando 

x < 0, x = ∞ 

Inexacto: el resultado redondeado no coincide con el real 

Overflow y underflow 

División por cero


Formato a medida 

El sistema en punto flotante, como se mencionó posee un costo en cuanto a 

velocidad y complejidad de cálculo. Es por esto que muchos autores han generado 

con el tiempo el sistema de punto flotante a medida. El formato de palabra que 

se utiliza depende del rango dinámico y la resolución que se desea. En la Tabla 

B.2 se pueden observar algunos ejemplos de estos formatos. 

Tabla B.2: Punto flotante a medida. 

Longitud de palabra 16 18 20 24 

Exponente 7 7 8 9 

Mantisa 8 10 11 14 

Bias 63 63 127 255 

RangoMáximo ±1.8411×10 19 ±1.8438×10 19 ±3.4020×10 38 ±1.1579×10 77 

RangoMínimo ±2.1769×10 −19 ±2.1705×10 −19 ±1.1761×10 −38 ±3.4547×10 −77 

B.2.3. No-convencionales 

Listema numérico logarítmico (LNS) 

El sistema numérico logarítmico (LNS) es análogo al sistema de punto flotante, 

con una mantisa de punto fijo y un exponente fraccional. Un número en LNS es 

representado por: 

X = ±r ±ex (B.7) 

donde r es la raíz del sistema, y ex es el exponente LNS. El formato LNS 

consiste en un bit de signo para el número y otro para el exponente, un exponente 

entero de I − bits y F fraccionales bits de precisión. El formato en forma gráfica 

es:


Signo Signo de exponente Exponente entero Exponente fraccional 

Sx Se I F 

El LNS como el sistema de punto flotante posee una precisión no uniforme. 

Pequeños valores de X son resueltos con gran precisión, miemtras que los grandes 

valores poseen una precisión pobre. 

La atracción histórica del LNS se encuentra en la habilidad para implementar 

eficientemente la multiplicación, la división y la potenciación. Por ejemplo, el 

producto C = A × B, donde A, B y C son palabras LNS, esta dada por: 

C = r eA × r eB = r eA+eB = r eC (B.8) 

Esto es, el exponente de un producto LNS es simplemente la suma de dos 

exponentes. La división y otras operaciones se resuelven de manera similar. La 

deventaja de este sistema es la complejidad con que se deben resolver la adición 

y la substracción. Las mismas se basan en la siguiente operatoria, sonde se asume 

que A > B. 

C = A + B = 2 eA + 2 eB = 2 eA 

eB−eA eC 

1 + 2 = 2

Apéndice C 

Multiplicación Secuencial 

aplicada al Control de 

Movimiento 

C.1. Introducción 

En sistemas de control de posición existen aplicaciones en las cuales se requiere 

la ejecución de una acción de control sobre una máquina en un período de tiempo 

que depende inversamente de la máxima velocidad que se desea imponer sobre 

la misma. Esta situación lleva a la necesidad de disponer de algoritmos muy 

rápidos y eficientes que puedan realizar el procesamiento en tiempos muy breves. 

Estos algoritmos donde se requiere alta velocidad de procesamiento constituye 

una aplicación ideal para la implementación hardware de los mismos en FPGA. 

Tal es el caso de la aplicación realizada sobre el control de posición de un 

Acelerador Lineal de Partículas, cuyas características de gran precisión en la 

posición, y de gran cantidad de motores asociados, obliga a la utilización de 

procesamiento de altísima velocidad, con la mayor economía de recursos lógicos 

159

MS aplicada al Control de Movimiento 160 

en las FPGAs. 

Control de posición del CLIC 

El control de posición del Compact Linear Collider (CLIC), acelerador lineal 

de partículas del Centro Europeo de Investigación Nuclear (Centre Europeen- 

ne pour la Recherche Nucleaire), requiere en forma intensiva el posicionamiento 

preciso y rápido de motores paso a paso, por lo que es necesario utilizariles de 

velocidad que se ajusten a la dinámica de la carga a fin de garantizar movi- 

mientos sin pérdidas de pasos. La principal ventaja tecnológica del CLIC es la 

concentración del haz de partículas en una sección mucho más reducida que en 

los aceleradores circulares [39]. Esto permite obtener partículas de mayor energía 

pero, como contrapartida existen serias exigencias en cuanto a la alineación del 

acelerador respecto de su haz de partículas. Este sistema posee una especificación 

de la desviación máxima de 10 micrones, a lo largo de los 24000 m de longitud del 

acelerador [40]. Para lograr tal especificación es necesario un control de posición 

capaz de compensar perturbaciones y desviaciones con una altísima presición [41]. 

El sistema mecánico del CLIC esta compuesto por módulos de 1.4 mts. de lon- 

gitud. Cada módulo posee dos aceleradores con un ”girder” y un ”quadrupole” 

por acelerador. Los girders son elementos que soportan mecánicamente las cavi- 

dades del acelerador mientras que los quadrupoles son electroimanes que tienen 

por objeto la concentración de los haces de partículas. La Fig. C.1 muestra un 

esquema de la distribución de los motores que requieren los girders y quadrupoles. 

El sistema de alineación del CLIC consiste en un conjunto de sensores que 

detectan la posición de las cavidades del haz. Luego de un adecuado procesa- 

miento de la información, se obtiene el movimiento que se debe operar sobre los 

elementos del acelerador a través de un conjunto de motores paso a paso.


Figura C.1: Esquema de motores de una sección del CLIC. 

El control de alineación del CLIC se encarga de procesar señales y accionar 

múltiples motores paso a paso simultáneamente utilizando perfiles de velocidad 

con una alta dinámica y gran precisión [42]. 

C.2. Accionamientos paso a paso 

Un accionamiento paso a paso está compuesto por un controlador digital de 

movimientos, un driver de potencia y el motor paso a paso, Fig. C.2. El controla- 

dor digital de movimientos genera un perfil de movimiento, típicamente un perfil 

de velocidad, en función de parámetros tales como velocidad mínima, máxima, 

aceleración, cantidad de pasos, etc. Una vez establecido el perfil de velocidad, el 

controlador de movimiento envía los pulsos de accionamiento al driver del mo- 

tor. El espaciamiento entre los pulsos de accionamiento determina la velocidad 

instantánea del eje y se lo conoce como temporización. 

La generación de un perfil de velocidad consiste en el cálculo de la temporiza- 

ción requerida acorde con los parámetros suministrados. La generación de estos 

perfiles puede ser del tipo on-line u off-line.


Generador de 

perfil de 

movimiento 

Indexador 

Controlador Motor paso a paso 

Figura C.2: Sistema de control de movimiento de motores de accionamiento incremental. 

C.2.1. Generación de perfiles de velocidad Off-line 

En el accionamiento off-line el perfil de velocidad es calculado previamente 

al desarrollo del movimiento [43] [44]. El perfil de velocidad y la temporización 

son calculados y guardados en un sistema de almacenamiento el cual es accedido 

cada vez que se ejecuta un paso. 

Estos sistemas poseen desventajas importantes: requieren una cantidad de ti- 

mers y de memoria proporcional a la extensión y precisión de los desplazamientos; 

además son poco flexibles. 

C.2.2. Generación de perfiles de velocidad On-line 

Algoritmos convencionales 

En cuanto a los perfiles on-line, los mismos son generados por un sistema 

inteligente que realiza la operación de cálculo mediante la utilización de un al- 

goritmo. La Fig. C.3 muestra un diagrama de flujo de un algoritmo básico. En 

este diagrama se distinguen dos bloques principales, la construcción de Vr(k) en 

el cual se genera el perfil de velocidad y el cálculo de ∆t(k), en el cual se calcula 

el período de tiempo entre el paso actual y el próximo. La construcción de Vr(k) 

se efectúa a partir de parámetros que caracterizan al perfil, tal como velocidad 

inicial (Vmin = Vr(0)), velocidad máxima (Vmax), aceleración (a1) y desaceleración


t k-1 

Generación 

de pulsos 

k=1 

Construcción 

de V (k) 

r 

Cálculo 

de t 

k 

Accionamiento 

de un paso 

k=N 

? 

Fin 

si 

no 

t k 

k=k+1 

Figura C.3: Diagrama de flujo de un algoritmo on-line.


(a2) del motor, y cantidad de pasos N que debe ejecutar el mismo. El controlador 

calcula para el k-esimo paso el valor de la velocidad que debe ejecutar en ese 

instante. 

paso. 

En la Fig. C.4 se muestra un perfil de velocidad trapezoidal. 

V max 

V min 

aceleración desaceleración 

Figura C.4: Perfil de velocidad trapezoidal. 

La Ec. (C.2) muestra el cálculo de ∆t(k) de un algoritmo típico para el k-esimo 

∆t(k) = 1 

Vr(k) 

2 

∆t(k) = 

V 2 

max − 2 (N − k − 1) a + V 2 max − 2 (N − 1) a 

t 

(C.1) 

(C.2) 

Este algoritmo involucra divisiones y raíces lo que conlleva un elevado tiempo de 

cálculo para obtener ∆t(k). El tiempo de cálculo, Tc, impone una limitación a la 

velocidad debido a que el período entre pasos no puede ser inferior a Tc. De este 

modo, la velocidad máxima, expresada en pasos por seg., está limitada por la Ec. 

(C.3). 

Vmax = 1 

Tc 

(C.3)


Algoritmos iterativos 

Los algoritmos convencionales poseen un Tc elevado y por lo tanto estos al- 

goritmos no pueden utilizarse para altas velocidades. Carrica et al propusieron 

un nuevo algoritmo on-line que reduce sensiblemente el Tc [45]. Este algoritmo es 

de tipo iterativo y asume que ∆t(k) = nk · Tc. El algoritmo incrementa iterativa- 

mente nk, a partir de nk = 1 hasta que ∆t(k) alcance el valor deseado de Vr(k), 

siendo Vr(k) la velocidad de referencia en el k-esimo paso. 

Vr(k) = 1 

∆t(k) 

(C.4) 

Si la Ec. (C.4) se verifica, entonces se ejecuta un nuevo paso. En caso contrario 

nk se incrementa y se repite el proceso. 

La resolución de ∆t(k) en la Ec. (C.4) es Tc. En consecuencia estos algoritmos 

trabajan con intervalos discretos y la Ec. (C.4) se reescribió como la Ec. (C.5). 

Vr(k) ≥ 1 

∆t(k) 

(C.5) 

Adicionalmente, con el objetivo de reducir el Tc, se evitó el cociente, utilizando 

la Ec. (C.6). 

Vr(k) · ∆t(k) ≥ 1 (C.6) 

Si bien este algoritmo presenta la limitación expresada por la Ec. (C.3), el Tc 

mucho menor debido a la menor complejidad del cálculo. 

Una desventaja del algoritmo iterativo es la existencia de valores discretos de 

Vr(k) que crea un efecto de cuantización en la velocidad. Observando la Ec. (C.4) 

y considerando que nk es un número entero positivo, Vr(k) toma valores:


Vr(k) = 1 

∆tk 

= 1 

nk · Tc 

⎧ 

⎪⎨ 

= 

. 

⎪⎩ 

Vmax ; nk = 1 

Vmax 

2 

Vmax 

K 

; nk = 2 

. 

; nk = K 

(C.7) 

Como consecuencia, la velocidad máxima del motor, Vmax, no sólo queda 

limitada por 1 

Tc 

V max 

2 

V max − , 3 

V max 

3 

sino que además el perfil excursiona a saltos V max − V max 

2 , 

V max − , etc. 

4 

El perfil de velocidad es alterado por esta ”cuantización” ya que se producen 

discontinuidades en la velocidad con la consiguiente dificultad del motor frente a 

esta exigencia de aceleraciones infinitas, como puede verse en la Fig. C.5 donde 

se ilustra el perfil ideal versus el perfil de velocidad cuantizado. 

Vmáx 

v(t) 

Vmáx/2 

Vmáx/3 

n máx=4 

n máx= 3 

n máx =2 

Vmáx/4 

Vmáx/5 

Vmáx/6 

nmáx=5 nmáx=6 nmáx=7 i(k) 

t0 t1 t2 t3 t4 t5 n máx= 1 

Figura C.5: Perfil de velocidad, deseado, cuantizado y la temporización resultante. 

La Fig. C.6 muestra los perfiles de velocidad reales obtenidos mediante el al- 

goritmo iterativo ejecutado en un DSP, donde se desarrolló el desplazamiento con 

T c 

t 

k


una velocidad máxima de 5700 pasos 

s . Se observan saltos de velocidad importantes 

debido al efecto de cuantización. 

Figura C.6: (Izquierda) Posición y velocidad con el algoritmo iterativo. (Derecha) 

Detalle del perfil de posición y velocidad del perfil iterativo 

Se puede concluir que, para reducir el problema de la cuantización, es muy im- 

portante reducir apreciablemente los tiempos de procesamiento. De esta manera 

se podrían obtener velocidades mucho mayores 

C.3. Generación de perfiles de velocidad me- 

diante FPGA 

A fin de reducir los tiempos de procesamiento se implementó en hardware (en 

FPGA) el algoritmo iterativo. Comparativamente, el tiempo de procesamiento


de un sistema implementado en hardware es sustancialmente inferior al de un 

procesador y, adicionalmente, se dispone de la capacidad de realizar eventos en 

paralelo. 

En la Fig. C.7 se muestra la arquitectura hardware del algoritmo iterativo. 

La generación del perfil trapezoidal se constituye a partir de los datos de la 

aceleración, velocidad mínima, máxima, y número de pasos. La lógica interna de 

selección toma la decisión en base a estos parámetros y de este modo ejecuta el 

perfil de referencia que el motor intentará seguir. 

Controlador Digital 

Generador del Perfil de 

velocidad de referencia 

RELOJ 

T ck 

CONTADOR 

V R 

n k 

MULTIPLICADOR 

CONSTANTE=1/T c 

V x n 

R k 

COMPARADOR 

V x n 

R k 1/T c 

Interfaz de 

Accionamiento 

DRIVERS DE 

POTENCIA 

MOTOR PASO 

A PASO 

Figura C.7: Arquitectura hardware del algoritmo de generación de perfil de velocidad. 

La implementación hardware del algoritmo permite reducir sustancialmente 

el Tc aprovechando la capacidad de las FPGAs de realizar todos procesos en 

simultáneamente, a diferencia de la ejecución secuencial propia de un DSP. Es 

decir, el algoritmo implementado en hardware efectúa en forma independiente, la 

generación del perfil de velocidad de referencia y el cálculo de la Ec. (C.6). De 

este modo, se puede inferir que el Tc depende fundamentalmente de la tarea que 

mayor demanda de tiempo requiere. 

La construcción del perfil de velocidad es una tarea que se resume a una cuenta 

incremental que inicia en Vmin, alcanza el valor Vmax en un período de tiempo t1, 

una vez que se alcanzó este valor permanece un período de tiempo t2 en el mismo


y posteriormente decrementa la cuenta hasta alcanzar nuevamente el valor Vmin 

en un tiempo t3 que usualmente es igual a t1. 

El contador nk cuenta pulsos de reloj incrementando su valor periodicamente 

mientras que el producto de la Ec. (C.8) resulte inferior a 1 . Cuando el producto 

Tc 

se hace mayor o igual que 1 , se genera un pulso que genera un nuevo paso del 

Tc 

motor y adicionalmente reinicia la cuenta del contador. 

Por otro lado, la implementación hardware de la Ec. (C.6) involucra el pro- 

ducto Vr(k) · ∆t(k), producto que se debe comparar con la unidad. Analizando 

este producto se puede observar que, si bien los valores del perfil de referencia 

pueden ser enteros binarios, ∆t es de formato decimal. Aunque se ha visto en 

capítulos anteriores que es posible el manejo de magnitudes decimales o incluso 

de punto flotante en FPGA, es más eficiente el uso magnitudes enteras. 

A fin de operar con enteros y reducir la cantidad de multiplicaciones, se pro- 

pone una variante que consiste en reescribir la Ec. (C.6) como 

en la cual 1 

Tc 

Vr(k) · nk ≥ 1 

Tc 

(C.8) 

es un valor conocido y constante. Esta simplificación reduce las 

operaciones a sólo una multiplicación, va a imponer el período Tc. 

C.3.1. Implementación del producto Vr · nk 

En cuanto al producto Vr · nk, la solución inmediata consiste en un Multi- 

plicador Paralelo. Esta alternativa presenta como ventaja el mínimo retardo que 

imponen las compuertas lógicas. 

Considerando que las FPGAs poseen recursos dedicados para la ejecución de 

adiciones por propagación de acarreo, la opción inmediata es un multiplicador 

tipo Ripple Carry. Este es un multiplicador combinacional (Sec. 2.4)que ejecuta


el producto velozmente, dependiendo su velocidad del retardo de la longitud de 

palabra de sus operandos. 

Con el objetivo de cuantificar el Tc requerido por este multiplicador, se imple- 

mentó el mismo en una FPGA XC4006E-4 de Xilinx, que es la misma tecnología 

que utiliza el CLIC en el control de alineación del acelerador. 

El multiplicador Ripple Carry para una longitud de palabra de 16 bits, que 

corresponde a una velocidad máxima seleccionable de 65535 pasos 

s . En estas condi- 

ciones se pudo ejecutar u producto en un Tc = 92, 5ns. De esta forma, la velocidad 

máxima teórica que se puede desarrollar es: 

Vmax ≤ 1 

Tc 

6 pasos 

= 10, 81x10 

s 

(C.9) 

obteniendose una cuantización del perfil de velocidad de solo el 0.6 % de la máxima 

velocidad seleccionable. 

Si bien el Tc obtenido es ideal para la aplicación, este multiplicador utilizó el 

96,5 % de los recursos lógicos de la FPGA, haciendo imposible la utilización de 

otros bloques para la ejecución del algoritmo. La Fig. C.8 muestra el consumo de 

recursos lógicos del multiplicador implementado. 

Figura C.8: Implementación del multiplicador Ripple Carry en una FPGA 

XC4006E.


Otra opción, tal como el multiplicador optimizado en área propuesto por Xi- 

linx [21], permite ejecutar una multiplicación de 16 en un Tc = 89ns, inferior 

incluso que con el multiplicador Ripple Carry, pero con un consumo de recur- 

sos lógicos de aproximadamente un 83,2 %. La Fig. C.9 muestra el consumo de 

recursos lógicos de este multiplicador implementado. 

Figura C.9: Implementación de un multiplicador optimizado en área de Xilinx en 

una FPGA XC4006E. 

Para solucionar este problema se propone la utilización de Multiplicadores Se- 

cuenciales, que permiten realizar un producto con un mínimo consumo de recursos 

lógicos. 

En particular se considera la utilización de un SMSR (ver. Sección 3.3.1), en 

el cual la ejecución del producto se pudo realizar en Tc = 229ns para un m = 16. 

En consecuencia, la velocidad máxima teórica que obtenida es: 

Vmax ≤ 1 

Tc 

6 pasos 

= 4,36x10 

s 

(C.10) 

Además, este esquema permitió la ejecución del algoritmo iterativo con saltos 

de velocidad de sólo 1,46 % de la máxima velocidad. Si bien este Tc es mayor 

que el obtenido con un Multiplicador Paralelo, el consumo de recursos lógicos del


SMSR para una longitud de palabra de 16 bits es del 11.32 %, es decir 8 a 9 veces 

inferior comparativamente. Adicionalmente, este reducido consumo de recursos 

lógicos permite controlar multiples motores. 

C.4. Resultados experimentales 

C.4.1. Modo de funcionamiento en pasos 

Con el objetivo de evaluar el sistema propuesto, se implementó el controlador 

digital en una FPGA XC4006-3 de Xilinx, tecnología utilizada en los ensayos del 

CLIC. Este dispositivo posee una capacidad de 6000 puertas de lógicas y puede 

funcionar con un reloj de hasta 80 MHz. 

En los experimentos se utilizó un motor híbrido cuyas características son: re- 

solución angular 400 paso 

rev , momento de inercia 13·10−7 kg m 2 y torque de retención 

Tret = 33 · 10 −7 N m. 

La medición de la posición fue realizada mediante un encoder óptico incre- 

mental ELAP-E521, cuya resolución es 1024 pulsos por revolución y su momen- 

to de inercia de 2,5 · 10 −6 kg m 2 . El acople fue realizado con un acople elástico 

HELICAL-WA25 con un momento de inercia de 2,3 · 10 −6 kg m 2 . 

La curva de la posición fue obtenida mediante la lectura de la señal del encoder 

a través de un contador de tiempo de alta resolución. El perfil de la velocidad fue 

calculado off-line, realizando la derivación numérica de los datos de posición. 

El multiplicador SMSR utilizó un reloj sincrónico de 40 MHz, resultando un 

Tc de 400 ns, para 16 bits . Se adoptó un Tclk = 800 ns, que es despreciable en 

relación a la velocidad del motor. 

Se aplicó al motor paso a paso un desplazamiento de 12000 pasos mediante 

un perfil trapezoidal con las siguientes características: Vmín = 500 pasos 

s , Vmáx =


6000 pasos 

s 

y aceleración máxima amáx = 4200 pasos 

s 2 . 

Los perfiles resultantes de velocidad y posición se muestran en la Fig. C.10. 

El bajo tiempo de procesamiento, Tc, permitió un perfil casi continuo, con veloci- 

dades mucho mayores que las generadas por algoritmos estándar implementados 

en software. Debido a las características del motor incremental el perfil atraviesa 

zonas de resonancia, tal como se predice en [46], [47], [48] y [49]. Este efecto, que 

se observó en la región de bajas velocidades, no logró sacar de sincronismo a las 

máquinas ya que las mismas se encuentran en la zona de trabajo por debajo de 

la curva de pull-out 1 . 

Figura C.10: Perfil de velocidad y posición del accionamiento controlado por un 

sistema basado en FPGA. 15 rev 

s 

≡ 6000 pasos 

s 

1 Previo a la obtención de resultados experimentales, los perfiles son simulados para verificar 

que puedan enfrentar la inercia impuesta.


Adicionalmente, se aplicó un perfil de velocidad con características más exigen- 

tes, velocidad máxima de 24000 pasos 

s 

y una aceleración aproximada de 20000 pasos 

s 2 . 

En la Fig. C.11 se muestra el perfil obtenido a las altas velocidades con paso com- 

pleto, donde se aprecia la continuidad en toda la gama efectiva de la velocidad. 

Figura C.11: Perfil de velocidad del accionamiento controlado por un sistema 

basado en FPGA. 62,5 rev 

s 

≡ 25000 pasos 

s 

C.4.2. Modo de funcionamiento en micropasos 

El modo micropaso consiste en el accionamiento del movimiento del motor in- 

cremental en fracciones de un paso. De esta manera se logra una menor vibración 

y ruido audible, y sobre todo una mejor resolución de posición (en fracciones 1/n 

del paso original). En cuanto a la generación del perfil de velocidad, la dificultad


estriba en que se debe ejecutar el algoritmo en tiempos muy cortos, correspon- 

dientes al tiempo que transcurre entre micropaso y micropaso. 

Se realizaron ensayos en modo micropaso, el los que se utilizó un motor SLO– 

SYN KML093F14C5 cuyas características son: resolución angular 200 paso 

, torque 

rev 

de retención Thold = 816 N cm y momento de inercia de 3,32 kg cm 2 . Los valores 

de la posición fueron obtenidos a través de un encoder óptico incremental con 

una resolución de 500 pulsos por revolución. El driver, con capacidad de manejo 

de micropasos, es un SLO-SYN MD808, configurado para producir 2000 pulsos 

por revolución. Se aplicó un perfil de alta velocidad con Vmín = 500 pasos 

s , Vmáx = 

50000 pasos 

s 

y una aceleración máxima amáx = 5000 pasos 

s 2 . El Tc adoptado para esta 

aplicación fue de 400 ns de manera de producir saltos de velocidad máximos de 

1000 pasos 

s 

en Vmax, de manera que el salto sea menor que el 5 % Vmáx. Este efecto 

puede observarse en el plateau del perfil en la Fig. C.12. 

Los resultados relevados demuestran que el sistema alcanzó muy altas velo- 

cidades, inalcanzables con algoritmos estándares ejecutados por un procesador. 

Sin embargo, la necesidad de realizar perfiles de velocidad en modo micropaso re- 

quiere una mayor velocidad de cálculo, aunque sin el sacrificio de recursos lógicos 

que implica la utilización de un multiplicador paralelo. 

Para lograr la mayor velocidad de cálculo se propone utilizar un nuevo tipo de 

multiplicador. El multiplicador secuencial de sumas consecutivas (SMSC) es una 

variante de la multiplicación secuencial optimizada para realizar un producto en 

la mitad de tiempo que el SMSR (ver Sección 3.3.3). 

Se realizó un nuevo ensayo con el SMSC. El sistema de driver-motor ensayado 

es el mismo que se utilizó en las experiencias en modo micropaso. El perfil de velo- 

cidad aplicado presenta las siguientes características: velocidad Vmáx = 72000 pasos 

s , 

Tc de 200 ns de manera de reducir los saltos de velocidad por debajo de 5 % de


Figura C.12: Perfil de velocidad del accionamiento utilizando el modo de micropasos. 

Vmax. La Fig. C.13 muestra el perfil de velocidad resultante. Como en las me- 

diciones anteriores puede observarse el efecto de cuantización, aunque reducido, 

tanto en las rampas como en el plateau del perfil.


Figura C.13: Perfiles de posición y velocidad para un sistema de accionamiento 

en modomicropaso.


C.5. Conclusiones 

Se presentó una implementación hardware, utilizando FPGA, de los algorit- 

mos iterativos de generación de perfiles de velocidad. El uso de esta tecnología 

permitió reducir sustancialmente el tiempo de procesamiento equivalente frente 

al desarrollado por cualquier procesador rápido. Como consecuencia se redujeron 

apreciablemente los saltos de velocidad que se observaban en los perfiles de velo- 

cidad on-line generados por software. Esto a su vez, posibilitó llegar a velocidades 

del motor mucho mayores dado que se eliminaron las exigencias de aceleración 

propias de los saltos de velocidad. 

Gracias a las arquitecturas SMSR y SMSC se consiguió un reducido consumo 

de recursos lógicos para cada controlador digital, por lo que se pueden accionar 

multiples motores simultáneamente. Esta ventaja hace al sistema muy conve- 

niente ya que permite incrementar aún más el número de motores recurriendo 

a FPGAs de mayor capacidad. Esto fue clave para su aplicación extensiva en el 

control de posición del CLIC. 

La idea propuesta, evaluada experimentalmente, posibilita la operación de 

motores paso a paso a muy altas velocidades, lo que antes estaba vedado debido 

a las dificultades tecnológicas de los procesadores para atender con rapidez el 

envío de la consigna de nuevos pasos a la máquina.

Apéndice D 

Publicaciones 

D.1. Introducción 

Los trabajos que se presentan a continuación resumen la investigación realizada durante los 

últimos años. 

Multiplicadores secuenciales en FPGA: Evaluación y Comparación de 

Parámetros 

En este trabajo se presenta el estado del arte de multiplicadores secuenciales orientado a 

su implementación en FPGA. Se presentan estimaciones de consumo de recursos lógicos y de 

comportamiento temporal de las variantes existentes y propuestas con el objetivo de contrastar 

las características de los multiplicadores presentados. 

Estudio comparativo de multiplicadores secuenciales implementados en 

FPGA 

En este trabajo se realizaron ensayos donde se comparan las estructuras existentes y pro- 

puestas, en las cuales se puede verificar la importante reducción de los recursos manteniendo 

un aceptable desempeño en cuanto a velocidad. 

179

Apéndice D. Publicaciones 180 

Floating Point Multipliers with Reduced FPGA Area 

En este trabajo se realizó un estudio comparativo del multiplicador secuencial para dife- 

rentes tecnologías de FGPA. 

Performance evaluation of Floating Point Multipliers 

En este trabajo se plasmaron algunos de los resultados de la aplicación del SM a punto 

flotante con el objetivo de compararlos con el de algunos multiplicadores propuestos en la 

literatura por otros autores. 

Novel FPGA based Floating Point Multiplier: Consecutive-Sums Se- 

quential Multiplier 

En este trabajo se presenta una estructura de multiplicadores de punto flotante parametri- 

zable basada en una variante del multiplicador secuencial de sumas consecutivas que con una 

sustancial reducción de los recursos lógicos utilizados mejora el desempeño del multiplicador en 

velocidad. Se realizaron ensayos donde se evalúa la arquitectura propuesta y se la compara con 

los resultados previos obtenidos. 

Novel Stepper Motor Controller Based on FPGA Hardware Implemen- 

tation 

En esta publicación se presentó un nuevo sistema de generación de perfiles de velocidad 

basado en FPGA, el cual permite que las máquinas incrementales puedan utilizarse en todo el 

rango de velocidades, aún a altas velocidades. Se presentan los ensayos en los cuales se demuestra 

que el controlador basado en FPGA posee un desenvolvimiento notorio, lo que permitió llegar 

a velocidades mayores a las obtenidas anteriormente con sistemas convencionales. 

FPGA based stepper motor controller 

En este trabajo se presentaron algunos de los resultados obtenidos a partir de la implemen- 

tación de multiplicadores más veloces a fin de reducir el tiempo de procesamiento del algoritmo 

y con un consecuentemente aumento de las velocidades alcanzadas por el motor incremental.

Multiplicadores secuenciales en FPGA: evaluación y 

comparación de parámetros 

M. Funes, D. Carrica, M. Benedetti, P. Donato 

Laboratorio de Instrumentación y Control 

Universidad Nacional de Mar del Plata, Argentina 

mfunes@fi.mdp.edu.ar ** 

Resumen En este trabajo se presenta el estado del arte de multiplicadores secuenciales 

orientado a su implementación en FPGA. Se presentan estimaciones 

de consumo de recursos lógicos y de comportamiento temporal que permiten 

contrastar las características de los multiplicadores presentados. 

1. Introducción 

La multiplicación es una de las operaciones escenciales en el procesamiento aritmético. 

Adicionalmente, es una de las tareas que más recursos lógicos consume. Décadas 

atrás cuando la arquitectura del multiplicador era estudiada para su implementación 

en circuitos de procesadores o unidades aritméticas de cálculo, el consumo de recursos 

circuitales era aceptado por la necesidad de realizar los cálculos más rápidamente. 

Actualmente, la utilización de las FPGAs permite el diseño personalizado de sistemas 

de procesamiento, lo cual ha masificado la aplicación de los mismos. La implementación 

en una FPGA de una unidad de cálculo con un gran consumo de recursos 

lógicos obliga a utilizar una FPGA de gran tamaño, lo que implica un mayor costo de 

producción. Con el objeto de reducir el consumo de recursos lógicos Funes et. al [1] 

propusieron la utilización del esquema de multiplicación Shift and Add [2], [3] , denominado 

también Multiplicador Secuencial (SM), para sistemas basados en FPGA. 

Este multiplicador ejecuta un producto en forma secuencial y se caracteriza por utilizar 

una cantidad reducida de recursos lógicos. Como contra-partida por su entidad 

secuencial, este multiplicador demanda un período mayor para ejecutar un producto. 

Existen variantes del multiplicador SM que reducen este período a costa de un mayor 

consumo de recursos lógicos [6]. 

En este trabajo se explicitan las ecuaciones que determinan los parámetros característicos 

que describen el comportamiento de multiplicadores secuenciales implementables 

en FPGA. Adicionalmente se presenta un estudio comparativo de los multiplicadores 

secuenciales, sustentado en las ecuaciones mencionadas. 

** Este trabajo fue subsidiado por la Universidad Nacional de Mar del Plata (ING-15/G130), 

CONICET, y por la Agencia Nacional de Promoción Cientifica y Tecnológica (BID 

1201/OC-AR 2002), Argentina

2. Multiplicadores secuenciales 

n−1 

j=0 

Dados dos operandos, un multiplicando X = n−1 

j=0 

xj2 j , y un multiplicador Y = 

yj2 j , el Cuadro 1 muestra el proceso de multiplicación para n = 4. El SM realiza el 

producto de este cuadro en forma secuencial, acumulando un producto parcial yiX (i = 

0, 1, 2, 3) al resultado acumulado de la iteración anterior con el debido desplazamiento 

de un bit entre ambos. 

Cuadro 1. 

x3 x2 x1 x0 

y3 y2 y1 y0 

s03 s02 s01 s00 ≡ y0X2 0 

s13 s12 s11 s10 ≡ y1X2 1 

+ s23 s22 s21 s20 ≡ y2X2 2 

s33 s32 s31 s30 

≡ y3X2 3 

p7 p6 p5 p4 p3 p2 p1 p0 ≡ P 

Existen dos versiones dependiendo del sentido de los valores a acumular, con desplazamiento 

a la izquierda ó con desplazamiento a la derecha. En la multiplicación con 

desplazamiento a la izquierda se debe contar con un acumulador de longitud 2n bits. 

En este caso los productos parciales yjX son adicionados al resultado acumulado con 

un desplazamiento de un bit (2 1 ) hacia la izquierda, respecto al anterior. El algoritmo 

se puede analizar a partir de la Ec. (1), donde p(j) es el producto parcial de la iteración 

j. 

p(j + 1) = 2p(j) + y (n−1)−jX con p(0) = 0 (1) 

En la multiplicación con desplazamiento a la derecha los productos parciales yjX son 

adicionados al resultado acumulado con un desplazamiento de un bit (2 −1 ) hacia la 

derecha respecto al anterior. 

El algoritmo se observa en la Ec. (2). 

p(j + 1) = (p(j) + yjX2 n )2 −1 

con p(0) = 0 (2) 

Debido a que el desplazamiento a la derecha genera un primer producto parcial multiplicado 

por 2 −n se debe pre-multiplicar y0X por 2 n para compensar el efecto del 

desplazamiento. Esta pre-multiplicación se puede efectuar fácilmente, almacenando 

p(j) en el segmento más significativo de un registro de 2n bit. 

La implementación hardware del algoritmo de la multiplicación con desplazamiento 

a la derecha se puede observar en la Fig. 1. El multiplicador Y y la acumulación de 

los productos parciales p(j) son almacenados en registros de desplazamiento. El bit yj 

del multiplicador es el bit menos significativo existente en el registro Y en la iteración 

j. El mismo es utilizado en el producto yjX seleccionando 0 o X en la suma. 

El multiplicador SM requiere n iteraciones para la ejecución del producto y una 

iteración previa para la carga de los operandos. Por lo tanto este multiplicador puede 

realizar un producto en un período T = (n + 1)TCK, donde n es la longitud de los 

operandos y TCK el período de reloj aplicado sobre el multiplicador.


acarreo 

2N-1 

Producto 

N N-1 Parcial 

ADD 

N 

N 

N 

N 

N-1 

N-1 


Figura 1. SM con desplazamiento a la derecha. 

2.1. Multiplicador secuencial sin entradas registradas 

El multiplicador secuencial sin entradas registradas (SMSR) es una variante del 

multiplicador SM de desplazamiento a la derecha. El objetivo del SMSR es la simplificación 

del esquema de multiplicación evitando la carga paralelo de los registros 

del multiplicador y del multiplicando. El SMSR no carga los operandos, por lo que no 

existe la demora propia del ciclo de carga, lo cual constituye una ventaja. Por lo tanto, 

este multiplicador realiza el producto en un T = nTCK. En la Fig. 2 se puede observar 

un esquema del SMSR, el cual utiliza un sumador de n bits y realiza la selección de 

los bits yj mediante un multiplexor de n entradas. 

ADD 

N 


acarreo 

2N-1 

Producto 

N N-1 Parcial 

N 

N 

X 

Figura 2. SMSR. 

N 

Y 

X 

MUX 

Control 

El control del multiplicador, que no se muestra en esta figura, consiste en un 

contador que ejecuta la selección de los yj y que a su vez mantiene el número de 

iteración realizada. La inicialización del multiplicador se realiza limpiando el registro 

Producto Parcial y el contador, y es requisito para este multiplicador que los datos 

se encuentren presentes durante todo el ciclo de la multiplicación, tal como en un 

multiplicador paralelo tradicional. 

2.2. Multiplicador SM de base 4 o superior 

Esta variante de multiplicación secuencial, reduce la cantidad de iteraciones en 

base a la representación numérica. 

N 

0 

0 

0 

0 

Y

Un número binario de n-bits puede ser representado como un número de n 

2 -dígitos 

de base 4 ó n 

3 -dígitos de base 8. De este modo, es posible realizar un producto en 

menor tiempo de cálculo si se ejecuta una multiplicación de un dígito por vez en lugar 

de hacerlo bit a bit. 

La expresión general para este tipo de multiplicación es la de la Ec. (3): 

p(j + 1) = (p(j) + yjXr n )r −1 

con p(0) = 0 (3) 

En el caso de la multiplicación en base 4, se debe conformar el producto parcial [yj+1 

yj]2X y adicionarlo al resultado de la iteración anterior. Mientras que en la multiplicación 

de base 2 cada producto parcial está representado por el valor 0 o por una 

versión desplazada de X, en la multiplicación de base 4 el producto parcial toma los 

valores 0, X, 2X ó 3X. El método más directo para la ejecución de esta multiplicación 

se realiza mediante una asignación pre-calculada de los productos parciales. 

Un diagrama de este tipo de multiplicador se muestra en la Fig. 3. En el mismo 

se debe considerar que mientras los tres primeros valores de los productos parciales 

se pueden utilizar en forma directa, el valor 3X requiere un tiempo adicional para la 

ejecución del cálculo de X +2X. Además, se debe considerar que el valor pre-calculado 

de 3X puede exceder el rango de X, por lo que el multiplexor y el sumador utilizado 

deben ser de n+1 bits. Una alternativa consiste en reemplazar 3X por −X y generar un 


acarreo 

2N-1 


N N-1 Y 

ADD 

N+1 

N 

N+1 

MUX 

N 

N 

N 

N+1 

0 

X 

2X 

3X 

Figura 3. Multiplicador SM base 4. 

acarreo que modifique al siguiente dígito. Este set de dígitos es afectado por el acarreo 

según el Cuadro 2, en el cual, cy(j − 1) es el acarreo correspondiente a la iteración 

anterior, cy(j) es el acarreo que se genera por el evento actual, y2j−1 e y2j son los bits 

seleccionados en cada iteración que generan una salida de los valores [0, −X, X, 2X]. 

Esta alternativa demanda al final de la iteración n 

2 

2 

1 0 

una nueva iteración, si el último 

dígito de base 4 generó un bit de acarreo. En la Fig. 4 se muestra el esquema de este 

multiplicador. En la misma se observa que requiere una mayor cantidad de recursos 

lógicos que un SM. Entre estos se puede citar que requiere de un sumador de n + 1 

o n + 2 bits, pre-calcular 3X o -X, y un multiplexor que conmuta los valores 0, X, 

2X y 3X etc. Los esquemas de multiplicación de base 4 ejecutan un producto en n 

2 

iteraciones, sin embargo se requiere un ciclo adicional para cargar los registros con los 

operandos. El período de procesamiento para estos multiplicadores es de T = ( n 

2 +1)Tck

Cuadro 2. 


0 0 0 0 0 

0 0 1 X 0 

0 1 0 2X 0 

0 1 1 −X 1 

1 0 0 X 0 

1 0 1 2X 0 

1 1 0 −X 1 

1 1 1 0 1 


acarreo 

2N-1 


N N-1 Y 

ADD 

N 

N 

N 

MUX 

N 

N 

N 

N 

acarreo 

y 2j-1y +cy 

2j 

FF 

0 

X 

2X 

Figura 4. Variante del SM base 4. 

debiendo adicionar otro ciclo si se considera la variante -X, con lo cual el período es 

+ 2)Tck. 

de T = ( n 

2 

2.3. Multiplicador secuencial fraccionado 

El multiplicador secuencial fraccionado (SMF) es una variante cuyo objetivo es 

mejorar la velocidad de ejecución. Dado que el período TCK no se puede reducir más 

allá del límite impuesto por la lógica, una mayor velocidad de ejecución se puede 

obtener reduciendo el número de iteraciones. Dicha reducción se puede obtener fraccionando 

la sumatoria de la Ec. (4). 

n−1 

P = 

(4) 

obteniendo la Ec. 5: 

k−1 

P = 

j=0 

j=0 

X2 j · yj 

 

-X 

X2 j n−1 

yj + X2 j yj 

La primer semi-sumatoria realiza su proceso en k · TCK y la segunda en (n − k) · TCK 

y para el caso particular en que k = n, 

el período de procesamiento para la ejecución 

2 

de cada producto será T = n 

2 · TCK. 

j=k 

2 

1 0 

(5)

Se debe considerar que la suma de las dos semi-sumatorias de la Ec. (5) requiere un 

único sumador de 2n − k debido a que la primer semi-sumatoria se encontrará desplazada 

k veces de la segunda. Por otro lado, dicha suma agrega un retardo tR debido a la 

lógica involucrada. Este retardo se puede considerar menor o igual que TCK, tomando 

como pauta que el retardo de involucrado en la adición de los productos parciales 

es inferior al retardo definido para un multiplicador SM. Por lo tanto, el período de 

+ 1) · TCK. 

procesamiento para este multiplicador estará dado por T = ( n 

2 

Multiplicador 

Shift and Add 

Acumulación 

X[n:0] X[n:0] 

Y[m/2:0] Y[m:m/2+1] 

m/2 x n 

m/2 x n 

Y[m:0] x X[n:0] 

Figura 5. Diagrama de operación de un SMF. 

En la Fig. 5, se observa el esquema del SMF, donde dos multiplicadores secuenciales 

realizan sus productos simultáneamente y, un período de tiempo después, sus 

resultados son adicionados. 

La aplicación práctica del SMF se puede realizar en base a un SM tradicional o a 

un SMSR. La utilización del SM implica que se deben cargar los datos en los registros, 

por lo que se requieren n 

2 + 2 iteraciones. Por lo que se justifica solo la utilización de 

este esquema para multiplicadores cuya longitud de palabra haga despreciables las dos 

iteraciones a n 

2 . En el caso del SMF basado en un SMSR, el producto se realiza en 

T = ( n 

2 + 1) · TCK iteraciones. 

En cuanto al consumo de recursos lógicos, este multiplicador requiere dos multiplicadores 

de n × m 

3m 

2 bits, que comparten el bloque de control, y un sumador de n + 4 

bits. El control requiere menos recursos debido a que debe realizar menos iteraciones. 

2.4. Multiplicación por sumas consecutivas 

Otra opción para reducir el número de iteraciones sin tener que pre-computar 

múltiplos de los operandos, consiste en realizar dos subproductos en forma consecutiva. 

Esta variante es similar al SMbase4 ya que básicamente opera con dígitos de 2 

bits. El multiplicador por sumas consecutivas (SMSC) realiza en cada iteración dos 

subproductos consecutivos como se puede observar en la Ec. (6). 

P = 2 n−1 

⎡ 

 

⎣ 

n 

2 −1 

(yjX2 2j−(n−1) + yj+1X2 2j+1−(n−1) ) 

j=0 

⎤ 

⎦ (6)

La suma de los dos subproductos de la Ec. (6) genera un TCK superior al de un 

multiplicador secuencial debido al acarreo de los dos sumadores. Sin embargo, para 

ciertas longitudes de palabras el incremento en el retardo se ve minimizado contra la 

ventaja de reducir a la mitad la cantidad de ciclos en el período de procesamiento. 

El período de procesamiento para la ejecución de un producto depende del esquema 

en que se basa el SMSC. En el caso de un SMSC basado en un SM el período de 

procesamiento se reduce a T = ( n 

2 + 1) · TCK. En el caso de uno basado en un SMSR, 

el período de procesamiento resulta de T = n 

2 

· TCK. 

Un esquema del SMSC basado en SM se muestra en la Fig. 6, donde se observa 

que con cada iteración se realiza la suma en forma consecutiva de dos subproductos, 

yjX · 2 j + yj+1X · 2 j+1 de la Ec. (6). El esquema del SMSC basado en el SMSR se 

acarreo 

ADD 

acarreo 

N-1 

N 

ADD 

LSB 



Y 2N-1 N N-1 

1 0 

N 

Figura 6. Ejemplo de un SMSC(SM). 

muestra en la Fig. 7. En cuanto al consumo de recursos lógicos, estos multiplicadores 

acarreo 

ADD 

acarreo 

N-1 

N 

ADD 

LSB 

N-1 

X 

N 


Producto 

2N-1 N N-1 

N 

N 

N 

X 

MUX 

MUX 

Control 

N/2 

N/2 

Parcial 

Figura 7. Ejemplo de un SMSC(SMSR). 

0 

Y[bits pares] 

0 


duplican el consumo de recursos en cuanto a sumadores y a la lógica combinacional 

que genera el producto yjX. El control requiere menos recursos debido a que debe 

realizar menos iteraciones.

3. Evaluación de los parámetros 

3.1. Consumo de recursos lógicos 

El consumo de recursos se puede expresar en términos de CLBs, compuestos por 

dos generadores de funciones (FG) y dos FlipFlops (FF). Cada multiplicador esta 

compuesto por bloques tal como, sumadores, multiplexores, contadores y componentes 

básicos. Estos bloques poseen un consumo de recursos acotado, que en algunos 

casos son función de la longitud de palabra de los operandos, n. Ejemplo de ello se 

presenta en un contador de módulo-n. El mismo es un contador binario de log2 n bits 

que utiliza n FFs (FlipFlops) y al menos la misma cantidad de FGs (Function Generators), 

consumiendo como mínimo log2 (n) 

2 CLB’s. En caso de un multiplexor, este 

está conformado sólo por lógica combinacional que requiere de al menos n − 1 FGs de 

tres entradas. Esto genera un consumo de recursos de n−1 

2 

CLBs para una longitud 

de n-bit entradas. El consumo de recursos lógicos de un sumador depende del tipo de 

sumador seleccionado. El sumador indicado para la implementación de los multiplicadores 

en las FPGAs seleccionadas, es el sumador de ripple-carry. En este caso, un 

sumador utiliza n + 2 FGs ( n 

2 + 1 celdas básicas) considerando las salidas de acarreo y 

desborde. En el caso en que la salida de un sumador deba ser registrada, el consumo 

de recursos lógicos en términos de CLBs es el mismo dado que los FFs son nativos de 

cada celda básica. 

A partir de estos conceptos básicos, se desarrollan las ecuaciones que definen el 

consumo de recursos lógicos en terminos de CLBs para los multiplicadores presentados, 

Ecs. (7 - 14). 

CRSM (n) = 2n + log2 n 

2 

CRSMSR(n) = 2n + log2 n 

2 

+ 5 

2 

+ 3 

2 

CRSMbase4a(n) = 7 

2 n + log2 n 

+ 4 (9) 

2 

CRSMbase4b(n) = 7 

2 n + log2 n 7 

+ 

2 2 

15 

CRSMFSMSR (n) = 

3.2. Comportamiento temporal 

15 

CRSMFSM (n) = 

4 n + log2 n 

2 

2 

4 n + log2 n 

2 

2 

CRSMSCSM (n) = 3n + log2 n 

2 

2 

1 

CRSMSCSMSR (n) = 3n + 

2 log2 (7) 

(8) 

(10) 

+ 5 (11) 

+ 3 (12) 

7 

+ 

2 

(13) 

n 

+ 2 

2 

(14) 

El comportamiento temporal de los multiplicadores presentados depende de dos 

factores: el retardo inherente de las compuertas lógicas y/o registros, y el impuesto

por la interconexión entre las mismas. En la mayoría de los circuitos realizados en 

FPGA el desempeño de los mismos no puede ser estimado hasta después de ser implementado 

debido a que los retardos de interconexión recién se conocen una vez realizada 

esta tarea. Sin embargo, en el caso de sumadores y contadores que utilizan recursos dedicados 

de lógica de acarreo es posible estimar un desempeño temporal aproximado [7]. 

El período mínimo de reloj que se puede utilizar con los multiplicadores presentados 

depende del retardo de propagación de la ruta más crítica. 

Las Ecs. (15-19) resumen el retardo de propagación de esta ruta expresados en 

ns para los multiplicadores presentados tomando como referencia los retardos de una 

FPGA de Xilinx de la familia Spartan [8]. Cabe destacar que el retardo de propagación 

define el máximo reloj utilizable para un dado multiplicador. En el caso de los 

multiplicadores implementados a partir de un SM o un SMSR, el retardo es el mismo, 

siendo la diferencia entre ambos el número de iteraciones necesarias para ejecutar un 

producto. 

4. Comparación de los multiplicadores 

tSM (n) = n 

+ 8,3 (15) 

4 

tSMbase4a(n) = n 

+ 14,2 (16) 

4 

tSMbase4b(n) = n 

+ 12,5 (17) 

4 

tSMF (n) = n 

+ 8,45 (18) 

4 

tSMSC(n) = n 

+ 13,15 (19) 

4 

A partir de las Ecs. (7 - 19) se realizó una comparación de los multiplicadores 

presentados. En la Fig. 8 se muestra el consumo estimado de recursos lógicos de los 

multiplicadores. Se puede observar que los multiplicadores optimizados en velocidad 

sacrifican el consumo de recursos lógicos a costa de obtener una mayor velocidad de 

procesamiento. Los multiplicadores del tipo SMSC son los que consumen la menor 

cantidad de recursos, mientras que los del tipo SMF poseen un consumo entre un 30 y 

un 40 % mayor. Por otro lado, los multiplicadores de base 4 poseen un consumo entre 

un 15 y un 20 % mayor. 

La velocidad de procesamiento (P S [Mflop])se obtiene como resultado de dividir 

la frecuencia máxima de trabajo por el número de ciclos que requiere realizar una 

operación N, P S = fck 

N . La misma se expresa en millones de operaciones por segundo. 

En la Fig. 9 se muestra una comparación de las velocidades de procesamiento de los 

multiplicadores. En la misma se puede observar que el SMF(SMSR) presenta la mayor 

velocidad de procesamiento para todo n. Adicionalmente, la variante SMF(SM) salvo 

para el caso de n = 8, posee una buena velocidad de procesamiento aunque inferior a 

la del SMF(SMSR) debido a que requiere de una iteración adicional. El SMSC(SMSR) 

posee una buena velocidad de procesamiento para n < 14 bits, pero para n mayores 

es similar a la del SMbase4(-X). Se observa también que las otras variantes presentan 

velocidades inferiores a las del SMF(SMSR), pero superiores a la del SMbase4(3X).

CLB 

120 

100 

80 

60 

40 

20 

SM 

SMSR 

SMbase4 (3X) 

SMbase4 (−X) 

SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

0 

5 10 15 20 

n 

25 30 35 

Figura 8. Consumo de recursos lógicos de los multiplicadores. 

PS [Mops] 

20 

18 

16 

14 

12 

10 

8 

6 

4 

2 

SM 

SMSR 

SMbase4 (3X) 


SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

0 

5 10 15 20 

n 

25 30 35 

Figura 9. Velocidad de procesamiento de los multiplicadores.

4.1. Performance de los multiplicadores 

A fin de estimar los beneficios de cada variante, se propone un único indicador, el 

índice de performance p, definido por la Ec. (20) donde la Velocidad de Procesamiento 

está definida en Millones de Operaciones por Segundo y el Area como la fracción de 

recursos utilizados para una determinada FPGA, (Total de la FPGA = 1). 

p = 


Area 

En la Fig. 10 se muestra el índice en el intervalo 8 ≤ n ≤ 20 para una FGPA de 

400 CLB’s, en la cual se puede observar que los multiplicadores SM y SMSC(SMSR) 

obtienen el mejor desempeño. En la Fig. 11 se muestra el índice para el intervalo 

20 ≤ n ≤ 32 donde observa que el mayor valor lo comparten los multiplicadores SM 

y SMSC(SM). Esto se debe a que el SCSC(SM) consume menor cantidad de recursos 

que el SMSC(SMSR) y, a medida que aumenta n, la velocidad de procesamiento de 

ambos multiplicadores se hace más parecida. 

Performance 

250 

200 

150 

100 

50 

5. Conclusiones 

SM 

SMSR 

SMbase4 (3X) 


SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

8 10 12 14 16 18 20 

n 

Figura 10. Índice de performance [8,20]. 

En este trabajo se presentó un estudio comparativo de multiplicadores secuenciales 

destinados a su implementación en FPGA. Se presentaron las estimaciones de consumo 

de recursos lógicos y de comportamiento temporal que permiten contrastar las 

características de los multiplicadores presentados. 

A partir de estas comparaciones se puede observar que el SM, el SMSR y los SMSC 

son los multiplicadores que mejor balancean la relación entre consumo de recursos lógicos 

y velocidad de procesamiento. Resultando el SMSR el óptimo para aplicaciones 

(20)

Performance 

35 

30 

25 

20 

15 

10 

5 

SM 

SMSR 

SMbase4 (3X) 


SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

20 22 24 26 

n 

28 30 32 

Figura 11. Índice de performance [20,32]. 

donde se busca una reducida cantidad de recursos lógicos, y el SMSC en aplicaciones 

donde además de las restricciones de recursos se requiere una alta velocidad de 


Referencias 

1. Funes, M., Carrica, D., Benedetti, M.: Multiplicadores secuenciales para estructuras FP- 

GA. IX Reunión de Trabajo en Procesamiento de la Información y Control. Vol. II (2001) 

646–651 

2. Hennessy, J.L., Patterson, D.: Computer Architecture: A Quantitative Approach. Morgan 

Kaufmann Publishers, Inc., San Francisco, California ISBN: 1-55860-329-8 (1996) 

3. Hayes, J.P.: Introducción al Diseño Lógico Digital. Addison-Wesley Iberoamericana, 

Wilmington, Delaware, E.U.A (1996) 

4. Thornton, M., Gaiche, J.D.and Lemieux, J.: Tradeoff analysis of integer multiplier circuits 

implemented in FPGAs. Communications, Computers and Signal Processing IEEE Pacific 

RIM Conference (1999) 301–304 

5. Teixeira, D., Susim, A., Carro, L.: Comparación de multiplicadores en fpga. V Workshop 

Iberchip 1 (Enero 1999) 182–187 

6. Parhami, B.: Computer Arithmetic: Algorithms and Hardware Design. Oxford University 

Press, New York, Oxford (2000) 

7. New, B.: Estimating the performance of XC4000E adders and counters. Technical Report 

Xapp 018, Xilinx (1996) 

8. : The Programable Logic Data Book. Xilinx (2000)

XII Reunión de Trabajo en Procesamiento de la Información y Control, 16 al 18 de octubre de 2007 

Estudio comparativo de multiplicadores secuenciales 

implementados en FPGA 

Resumen— En este trabajo se presenta un estudio 

comparativo de multiplicadores secuenciales 

orientado a su implementación en FPGA. Se exponen 

los resultados de las implementaciones, las que permiten 

contrastar las características de los multiplicadores 

presentados. 

P alabras Clave— Multiplicadores, Secuenciales, 

FPGA, Recursos lógicos, Velocidad de procesamiento. 

M. Funes † , D. Carrica ‡ , M. Benedetti ‡ , P. Donato ‡ 

I. INTRODUCCIÓN 

La multiplicación es una de las operaciones escenciales 

en el procesamiento aritmético. Adicionalmente, 

es una de las tareas que más recursos lógicos consume. 

Décadas atrás cuando la arquitectura del multiplicador 

era estudiada para su implementación en circuitos de procesadores 

o unidades aritméticas de cálculo, el consumo 

de recursos circuitales era aceptado por la necesidad de 

realizar los cálculos más rápidamente. 

Actualmente, la utilización de las FPGAs permite el diseño 

personalizado de sistemas de procesamiento, lo cual 

ha masificado la aplicación de los mismos. La implementación 

en una FPGA de una unidad de cálculo con un gran 

consumo de recursos lógicos obliga a utilizar una FPGA 

de gran tamaño, lo que implica un mayor costo de producción. 

Con el objeto de reducir el consumo de recursos 

lógicos Funes et al. (2001) propusieron la utilización del 

esquema de multiplicación Shift and Add (Hennessy and 

Patterson, 1996), (Hayes, 1996) , denominado también 

Multiplicador Secuencial (SM), para sistemas basados en 

FPGA. Este multiplicador ejecuta un producto en forma 

secuencial y se caracteriza por utilizar una cantidad reducida 

de recursos lógicos. Como contrapartida por su entidad 

secuencial, este multiplicador demanda un período 

mayor para ejecutar un producto. Existen variantes del 

multiplicador SM que reducen este período a costa de un 

mayor consumo de recursos lógicos (Parhami, 2000). 

En este trabajo se presenta un estudio comparativo de 

los multiplicadores secuenciales y algunas variantes de 

los mismos optimizadas en velocidad, con el objetivo de 

obtener buenas alternativas para la utilización de multiplicadores 

en FPGA sin comprometer los recursos del 

†UNMDP, Facultad de Ing. - LIC 

mfunes@fi.mdp.edu.ar 

‡CONICET 

liclab@fi.mdp.edu.ar 

sistema desarrollado. Resultados experimentales permiten 

distinguir las características de cada uno de los multiplicadores 

presentados. 

II. Multiplicador secuencial 

Dados dos operandos, un multiplicando X = 

 

xj2j , y un multiplicador Y = n−1 

yj2j , el Cuadro 

n−1 

j=0 

j=0 

1 muestra el proceso de multiplicación para n = 4. El 

SM realiza el producto de este cuadro en forma secuencial, 

acumulando un producto parcial yiX (i = 0, 1, 2, 3) 

al resultado acumulado de la iteración anterior con el debido 

desplazamiento de un bit entre ambos. 

Cuadro 1: 

x3 x2 x1 x0 

y3 y2 y1 y0 

s03 s02 s01 s00 ≡ y0X2 0 

s13 s12 s11 s10 ≡ y1X2 1 

+ s23 s22 s21 s20 ≡ y2X2 2 

s33 s32 s31 s30 ≡ y3X2 3 

p7 p6 p5 p4 p3 p2 p1 p0 ≡ P 

Existen dos versiones dependiendo del sentido de los 

valores a acumular, con desplazamiento a la izquierda o 

con desplazamiento a la derecha. 

En la multiplicación con desplazamiento a la izquierda 

se debe contar con un acumulador de longitud 2n bits. 

En este caso los productos parciales yjX son adicionados 

al resultado acumulado con un desplazamiento de un bit 

(2 1 ) hacia la izquierda, respecto al anterior. El algoritmo 

se puede analizar a partir de la Ec. (1), donde p(j) es el 

producto parcial de la iteración j. 

p(j + 1) = 2p(j) + y (n−1)−jX con p(0) = 0 (1) 

En la multiplicación con desplazamiento a la derecha 

los productos parciales yjX son adicionados al resultado 

acumulado con un desplazamiento de un bit (2 −1 ) hacia 

la derecha respecto al anterior. 

El algoritmo se observa en la Ec. (2).


p(j + 1) = (p(j) + yjX2 n )2 −1 

con p(0) = 0 (2) 

Debido a que el desplazamiento a la derecha genera 

un primer producto parcial multiplicado por 2 −n se debe 

pre-multiplicar y0X por 2 n para compensar el efecto del 

desplazamiento. Esta pre-multiplicación se puede efectuar 

fácilmente, almacenando p(j) en el segmento más 

significativo de un registro de 2n bit. 

La implementación hardware del algoritmo de la multiplicación 

con desplazamiento a la derecha se puede observar 

en la Fig. 1. El multiplicador Y y la acumulación 

de los productos parciales p(j) son almacenados en registros 

de desplazamiento. El bit yj del multiplicador es 

el bit menos significativo existente en el registro Y en 

la iteración j. El mismo es utilizado en el producto yjX 

seleccionando 0 o X en la suma. 

ADD 

n 


acarreo 

2n-1 


n n-1 Y 

n 

n 

Figura 1: SM con desplazamiento a la derecha. 

Si bien ambos algoritmos presentados realizan n sumas 

y n desplazamientos, las sumas realizadas con el algoritmo 

de desplazamiento a la izquierda requieren un 

sumador del doble de tamaño respecto del algoritmo de 

desplazamiento a la derecha. Esto se debe a que el acarreo 

de la suma se debe extender hacia los bits más significativos. 

Por lo tanto, el algoritmo más utilizado es el de 

desplazamiento a la derecha. 

El multiplicador SM requiere n iteraciones para la ejecución 

del producto y una iteración previa para la carga 

de los operandos. Por lo tanto este multiplicador puede 

realizar un producto en un período T = (n + 1)TCK, 

donde n es la longitud de los operandos y TCK el período 

de reloj aplicado sobre el multiplicador. 

A. Multiplicador secuencial sin entradas 

registradas 

El multiplicador secuencial sin entradas registradas 

(SMSR) es una variante del multiplicador SM de desplazamiento 

a la derecha. El objetivo del SMSR es la simplificación 

del esquema de multiplicación evitando la carga 

paralelo de los registros del multiplicador y del multiplicando, 

para lo cual, los datos deben permanecer estables 

durante toda la operación. Existiendo esta condición, el 

SMSR no carga los operandos, por lo que no existe la 

demora propia del ciclo de carga, lo cual constituye una 

ventaja. Por lo tanto, este multiplicador realiza el producto 

en un T = nTCK. 

n 

n-1 

X 

0 

0 

En la Figura 2 se puede observar un esquema del 

SMSR, el cual utiliza un sumador de n bits y realiza la 

selección de los bits yj mediante un multiplexor de n entradas. 

ADD 

n 


acarreo 

2n-1 

Producto 

n n-1 Parcial 

n 

n 

Figura 2: SMSR. 

n 

X 

MUX 

Control 

El control del multiplicador, que no se muestra en la 

Figura 2, consiste en un contador que ejecuta la selección 

de los yj y que a su vez mantiene el número de iteración 

realizada. La inicialización del multiplicador se realiza 

limpiando el registro Producto Parcial y el contador, y es 

requisito para este multiplicador que los datos se encuentren 

presentes durante todo el ciclo de la multiplicación, 

tal como en un multiplicador paralelo tradicional. 

B. Multiplicador SM de base 4 o superior 

Esta variante de multiplicación secuencial, reduce 

la cantidad de iteraciones en base a la representación 

numérica. 

Un número binario de n-bits puede ser representado 

como un número de n 

n 

2 -dígitos de base 4 ó 3 -dígitos de 

base 8. De este modo, es posible realizar un producto en 

menor tiempo de cálculo si se ejecuta una multiplicación 

de un dígito por vez en lugar de hacerlo bit a bit. 

La expresión general para este tipo de multiplicación 

es la de la Ec. (3): 

p(j + 1) = (p(j) + yjXr n )r −1 

n 

0 

(3) 

con p(0) = 0. 

En el caso de la multiplicación en base 4, se debe conformar 

el producto parcial [yj+1 yj]2X y adicionarlo al 

resultado de la iteración anterior. Mientras que en la multiplicación 

de base 2 cada producto parcial está representado 

por el valor 0 o por una versión desplazada de X, en 

la multiplicación de base 4 el producto parcial toma los 

valores 0, X, 2X ó 3X. El método más directo para la 

ejecución de esta multiplicación se realiza mediante una 

asignación pre-calculada de los productos parciales. 

Un diagrama de este tipo de multiplicador se muestra 

en la Fig. 3. En el mismo se debe considerar que mientras 

los tres primeros valores de los productos parciales 

se pueden utilizar en forma directa, el valor 3X requiere 

un tiempo adicional para la ejecución del cálculo de 

X + 2X. Además, se debe considerar que el valor precalculado 

de 3X puede exceder el rango de X, por lo que 

el multiplexor y el sumador utilizado deben ser de n + 1 

bits. 

Y


ADD 

n+2 


acarreo 

2n-1 


n n-1 Y 

n 

n+2 

MUX 

n+2 

n+2 

n+2 

n+2 

0 

X 

2X 

3X 

Figura 3: Multiplicador SM base 4. 

2 

1 0 

Una alternativa consiste en reemplazar 3X por −X y 

generar un acarreo que modifique al siguiente dígito. Este 

set de dígitos es afectado por el acarreo según el Cuadro 

2, en el cual, cy(j − 1) es el acarreo correspondiente a la 

iteración anterior, cy(j) es el acarreo que se genera por 

el evento actual, y2j−1 e y2j son los bits seleccionados 

en cada iteración que generan una salida de los valores 

[0, −X, X, 2X]. Esta alternativa demanda al final de la 

iteración n 

2 una nueva iteración, si el último dígito de base 

4 generó un bit de acarreo. 

Cuadro 2: Codificación de los bits del multiplicador 


0 0 0 0 0 

0 0 1 X 0 

0 1 0 2X 0 

0 1 1 −X 1 

1 0 0 X 0 

1 0 1 2X 0 

1 1 0 −X 1 

1 1 1 0 1 

El diagrama de este multiplicador se puede observar en 

la Fig. 4. 

ADD 

n+1 


acarreo 

2n-1 


n n-1 Y 

n 

n+1 

MUX 

n+1 

n+1 

n+1 

n+1 

acarreo 

y y +cy 

2j-1 2j 

FF 

0 

X 

2X 

-X 

Figura 4: Variante del SM base 4. 

2 

1 0 

En la Fig. 4 se puede observar que este esquema requiere 

una mayor cantidad de recursos lógicos que un 

SM. Entre estos se puede citar que requiere de un sumador 

de n + 1 o n + 2 bits, pre-calcular 3X o -X, y un 

multiplexor que conmuta los valores 0, X, 2X y 3X etc. 

Los esquemas de multiplicación de base 4 ejecutan un 

producto en n 

2 iteraciones, sin embargo se requiere un ciclo 

adicional para cargar los registros con los operandos. 

El período de procesamiento para estos multiplicadores 

es de T = ( n 

2 + 1)Tck debiendo adicionar otro ciclo si 

se considera la variante -X, con lo cual el período es de 

T = ( n 

2 + 2)Tck. 

Estas variantes se pueden extender a multiplicadores 

de bases superiores, pero la estructura del multiplicador 

se vuelve compleja debido a que se debe precomputar 

una mayor cantidad de valores y consecuentemente 

el número de iteraciones deja de ser menor que 

n 

2 + 1. Por ejemplo, para un producto de base 8, se deben 

pre-computar los valores de 3X, 5X y 7X, o sólo precomputar 

3X y utilizar un esquema de acarreo similar al 

de la Fig. 4 para convertir a 5X, 6X y 7X en −3X, −2X 

y −X. 

C. Multiplicador secuencial fraccionado 

El multiplicador secuencial fraccionado (SMF) es una 

variante cuyo objetivo es mejorar la velocidad de ejecución. 

Dado que el período TCK no se puede reducir más 

allá del límite impuesto por la lógica, una mayor velocidad 

de ejecución se puede obtener reduciendo el número 

de iteraciones. Dicha reducción se puede obtener fraccionando 

la sumatoria de la Ec. (4). 

n−1 

P = X2 j · yj 

j=0 

(4) 

Si se fracciona la sumatoria, entonces el producto se 

puede realizar como la suma de dos semi-sumatorias: 

k−1 

P = 

j=0 

 

X2 j n−1 

yj + X2 j yj 

j=k 

(5) 

El producto resultante utilizando como base la de un 

SM con desplazamiento a la derecha esquema se puede 

observar en la Ec. (6). 

P = 2 n−1 

⎡ 

k 

⎣ 

j=0 

X · 2 j−(n−1) n−1 

yj + 

 

X · 2 j−(n−1) ⎤ 

yj⎦ 

j=k 

(6) 

La primer semi-sumatoria realiza su proceso en k·TCK 

y la segunda en (n − 1 − k) · TCK . Si las dos semisumatorias 

se llevan a cabo al mismo tiempo y se suman 

sus resultados con el debido desplazamiento, el período 

de proceso estará dado por: 

k · TCK si k > (n − 1) − k 

o 

((n − 1) − k) · TCK si k < (n − 1) − k 

y para el caso particular en que k = n 

2 , el período de procesamiento 

para la ejecución de cada producto será T = 

· TCK. 

n 

2


Se debe considerar que la suma de las dos semisumatorias 

de la Ec. (6) requiere un único sumador de 

2n − k debido a que la primer semi-sumatoria se encontrará 

desplazada k veces de la segunda. Por otro lado, dicha 

suma agrega un retardo tR debido a la lógica involucrada. 

Este retardo se puede considerar menor o igual 

que TCK, tomando como pauta que el retardo de involucrado 

en la adición de los productos parciales es inferior 

al retardo definido para un multiplicador SM. Por lo tan- 

to, el período de procesamiento para este multiplicador 

+ 1) · TCK. 

estará dado por T = ( n 

2 

SM 

Acumulación 

X[n:0] X[n:0] 

Y[m/2:0] Y[m:m/2+1] 

m/2 x n 

m/2 x n 

Y[m:0] x X[n:0] 

Figura 5: Diagrama de operación de un SMF. 

En la Fig. 5, se observa el esquema del SMF, donde 

dos multiplicadores secuenciales realizan sus productos 

simultáneamente y, un período de tiempo después, sus resultados 

son adicionados. 

La aplicación práctica del SMF se puede realizar en 

base a un SM tradicional o a un SMSR. La utilización del 

SM implica que se deben cargar los datos en los registros, 

por lo que se requieren n 

2 + 2 iteraciones. Por lo que 

se justifica solo la utilización de este esquema para multiplicadores 

cuya longitud de palabra haga despreciables 

las dos iteraciones a n 

2 . En el caso del SMF basado en 

un SMSR, el producto se realiza en T = ( n 

2 + 1) · TCK 

iteraciones. 

En cuanto al consumo de recursos lógicos, este multi- 

plicador requiere dos multiplicadores de n × m bits, que 

2 

comparten el bloque de control, y un sumador de n + 3m 

4 

bits. El control requiere menos recursos debido a que debe 

realizar menos iteraciones. 

D. Multiplicación por sumas consecutivas 

Otra opción para reducir el número de iteraciones sin 

tener que pre-computar múltiplos de los operandos, consiste 

en realizar dos subproductos en forma consecutiva. 

Esta variante es similar al SMbase4 ya que básicamente 

opera con dígitos de 2 bits. El multiplicador por sumas 

consecutivas (SMSC) realiza en cada iteración dos subproductos 

consecutivos como se puede observar en la Ec. 

(7). 

P = 2 n−1 

⎡ 

 

⎣ 

n 

2 −1 

(yjX2 2j−(n−1) + yj+1X2 2j+1−(n−1) ) 

j=0 

⎤ 

⎦ 

(7) 

La suma de los dos subproductos de la Ec. (7) genera 

un TCK superior al de un multiplicador secuencial debido 

al acarreo de los dos sumadores. Sin embargo, para 

ciertas longitudes de palabras el incremento en el retardo 

se ve minimizado contra la ventaja de reducir a la mitad 

la cantidad de ciclos en el período de procesamiento. 

El período de procesamiento para la ejecución de un 

producto depende del esquema en que se basa el SMSC. 

En el caso de un SMSC basado en un SM el período de 

procesamiento se reduce a T = ( n 

2 +1)·TCK. En el caso 

de uno basado en un SMSR, el período de procesamiento 

resulta de T = n · TCK. 

2 

Un esquema del SMSC basado en SM se muestra en la 

Fig. 6, donde se observa que con cada iteración se realiza 

la suma en forma consecutiva de dos subproductos, yjX · 

2j + yj+1X · 2j+1 de la Ec. (7). 

acarreo 

ADD 

acarreo 

n-1 

n 

ADD 

LSB 



Y 2n-1 n n-1 

1 0 

n 

Figura 6: Ejemplo de un SMSC(SM). 

El esquema del SMSC basado en el SMSR se muestra 

en la Fig. 7. 

acarreo 

ADD 

acarreo 

n-1 

n 

ADD 

n-1 

X 


Producto 

2n-1 n n-1 

n 

LSB 

n 

n 

X 

MUX 

MUX 

Control 

n/2 

n/2 

n 

Parcial 

Figura 7: Ejemplo de un SMSC(SMSR). 

0 

Y[bits pares] 

0 


En cuanto al consumo de recursos lógicos, estos multiplicadores 

duplican el consumo de recursos en cuanto a 

sumadores y a la lógica combinacional que genera el producto 

yjX. El control requiere menos recursos debido a 

que debe realizar menos iteraciones. 

III. Comparaciones 

Los multiplicadores presentados en secciones anteriores 

se implementaron en una FPGA Spartan XCS30 de 

Xilinx (The Programable Logic Data Book, 2000). Cada 

una de las variantes de los multiplicadores se implementó 

en primera instancia mediante captura esquemática 

y posteriormente en Lenguaje de Descripción de Hardware 

(VHDL) (Ghosh, 1999)- (Villar et al., 1997).


Todos los circuitos han sido evaluados según los recursos 

lógicos consumidos, la velocidad de procesamiento y 

un índice de performance. 

A. Recursos lógicos 

La cantidad de recursos lógicos o área de utilización 

de la FPGA se puede cuantificar en CLBs, compuestos 

cada uno por dos generadores de funciones (FG) y dos 

FlipFlops (FF). 

En la Fig. 8 se muestran los resultados de los multiplicadores 

en cuanto al consumo de CLBs. En la misma 

se puede observar que el número de CLBs aumenta en 

forma lineal con n para todos los multiplicadores. 

En la misma se puede observar la diferencia notable 

de consumo de recursos entre los multiplicadores SM, 

SMSR y los multiplicadores optimizados en velocidad. 

En el caso particular del SMbase4(-X), este posee un consumo 

que duplica al del SM. Esto se debe fundamentalmente 

a que se sacrifican recursos para obtener mayor 

velocidad. 

CLB 

120 

100 

80 

60 

40 

20 

SM 

SMSR 

SMbase4 (3X) 


SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

0 

0 5 10 15 20 25 30 35 

n 

Figura 8: Consumo de recursos lógicos. 

Si se comparan entre sí los multiplicadores optimizados 

en velocidad, se puede observar que el SMSC(SM) es 

el multiplicador que posee el menor consumo de recursos 

lógicos. Por otro lado, el multiplicador SMF(SMSR) requiere 

una mayor cantidad de recursos que los restantes 

multiplicadores. 

B. Velocidad de procesamiento 

La velocidad de procesamiento fd, se expresa en millones 

de operaciones por segundo Mops, y se obtiene 

calculando la inversa del producto del retardo de propagación 

del camino crítico por el número de ciclos que 

requiere realizar una operación, fd = 1 

tpdN . El retardo 

de propagación tpd se obtiene a partir de la herramienta 

de programación de FPGA de Xilinx, Foundation 3.1i, 

Timimg Analyzer. A partir de los datos sumnistrados se 

calcula el peor caso de temporización del diseño. 

En la Fig. 9 se presentan los resultados experimentales 

de la velocidad de procesamiento de los multiplicadores. 

En esta figura se pueden observar los resultados obtenidos 

por cada multiplicador. En la misma, la variante del 

multiplicador SMF(SMSR) es la que obtiene la mayor velocidad. 

Por otro lado, se puede observar que el multiplicador 

SMSC(SMSR) posee una relación más balanceada 

entre consumo de recursos lógicos y velocidad de procesamiento. 

PS [Mops] 

18 

16 

14 

12 

10 

8 

6 

4 

2 

SM 

SMSR 

SMbase4 (3X) 


SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

0 

5 10 15 20 

n 

25 30 35 

Figura 9: Velocidad de procesamiento. 

Los multiplicadores SM y SMSR como se esperaba, 

poseen una velocidad de procesamiento inferior debido a 

la cantidad de ciclos de reloj necesarios para ejecutar un 

producto. 

C. Performance 

Se establece un índice de performance de manera de 

poder evaluar el desempeño global del sistema implementado 

en la FPGA, incluyendo tanto el concepto de 

consumo de recursos como de velocidad de procesamiento. 

En la Ec. (8) se define el índice de performance p. 


p = (8) 

Area 

En esta ecuación, la Velocidad de Procesamiento esta 

definida en Millones de Operaciones por Segundo y 

el Area como la fracción de recursos utilizados para una 

determinada FPGA, (Total de la FPGA = 1). Este índice 

pretende poder comparar la performance de distintos tipos 

de multiplicadores para su utilización en una FPGA 

designada. 

En la Fig. 10 se grafica el índice de performance para 

un rango de 8 < n < 20 bits. En la misma se puede 

observar que el mayor índice lo comparten los multiplicadores 

SM y SMSC(SMSR). Una forma de interpretar 

este resultado es analizando una posible aplicación de 

estos multiplicadores. Dado el caso en que una aplicación 

requiere realizar un cierto número de productos en 

un mismo instante, este indica que resulta tan eficiente 

utilizar arreglos paralelos de multiplicadores SMSR como 

realizar todos los productos más rápidamente en un 

solo SMSC(SMSR).

Performance 

250 

200 

150 

100 

50 


SM 

SMSR 

SMbase4 (3X) 


SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

5 10 15 20 

n 

Figura 10: Índice de performance, n ≤ 20. 

En la Fig. 11 se grafica el índice de performance para 

un rango de 20 < n < 32 bits. En esta figura se puede 

observar que el mayor índice lo comparten los multiplicadores 

SM y SMSC(SM). Esto se debe a que el multiplicador 

SMSC(SM) consume menor cantidad de recursos que 

el SMSC(SMSR) y a medida que aumenta la longitud de 

palabra de los operandos, la velocidad de procesamiento 

de ambos multiplicadores se hace más parecida. 

IV. CONCLUSIONES 

En este trabajo se presentó un estudio comparativo de 

multiplicadores secuenciales los cuales constituyen una 

buena alternativa para la utilización en FPGA. Se presentaron 

resultados experimentales que permiten distinguir 

las características de cada uno de los multiplicadores presentados. 

A partir de estas características se puede observar que 

el SM y los SMSC son los multiplicadores que mejor 

balancean la relación entre consumo de recursos lógicos 

y velocidad de procesamiento. Resultando el óptimo 

el primero para aplicaciones de muy reducida cantidad 

de recursos lógicos, y el segundo en aplicaciones donde 

además de las restricciones de recursos se requiere incrementar 

la velocidad de procesamiento. 

REFERENCIAS 

Funes, M., D. Carrica and M. Benedetti (2001). Multiplicadores 

secuenciales para estructuras FPGA. IX 

Reunión de Trabajo en Procesamiento de la Información 

y Control. Vol. II, 646–651. 

Ghosh, Sumit (1999). Hardware Description Languages 

Concepts and Principles. IEEE Press. 445 Hoes Lane, 

P.O. Box 1331 Piscataway, NJ 08855-1331. 

Hayes, John P. (1996). Introducción al Diseño Lógico Digital. 

Addison-Wesley Iberoamericana. Wilmington, 

Delaware, E.U.A. 

Performance 

35 

30 

25 

20 

15 

10 

5 

SM 

SMSR 

SMbase4 (3X) 


SMF (SM) 

SMF (SMSR) 

SMSC (SM) 

SMSC (SMSR) 

20 22 24 26 

n 

28 30 32 

Figura 11: Índice de performance 20 ≤ n ≤ 32. 

Hennessy, John L. and David Patterson (1996). Computer 

Architecture: A Quantitative Approach. Morgan 

Kaufmann Publishers, Inc.. San Francisco, California 

ISBN: 1-55860-329-8. 

Parhami, Behrooz (2000). Computer Arithmetic: Algorithms 

and Hardware Design. Oxford University 

Press. New York, Oxford. 

Teixeira, Denis, Altamiro Susim and Luigi Carro (1999). 

Comparación de multiplicadores en fpga. V Workshop 

Iberchip 1, 182–187. 

The Programable Logic Data Book 

The Programable Logic Data Book (2000). Xilinx. 

Thornton, M.A. and J.V Gaiche, J.D.and Lemieux (1999). 

Tradeoff analysis of integer multiplier circuits implemented 

in FPGAs. Communications, Computers 

and Signal Processing IEEE Pacific RIM Conference 

pp. 301–304. 

Villar, E., L. Terés, S. Olcoz and Y. Torroja (1997). VHDL 

Lenguaje Estandar de Diseño Electrónico. McGraw 

Hill. Madrid.

Floating Point Multipliers 

with Reduced FPGA Area 

M. Funes, D.Carrica, and M. Benedetti 



mfunes@fi.mdp.edu.ar ⋆⋆ 

Abstract. FPGA based Floating Point Multipliers demand abundant logical 

resources. This paper presents a sequential structure of floating-point multiplier 

requiring a reduced number of resources. The proposed architecture was 

evaluated theorically and experimentally achieving a substantially good performance. 

1 INTRODUCTION 

Many computationally-intensive applications found in Digital Signal Processing (DSP) 

employ the parallel processing capability of Field Programmable Gate Arrays (FPGAs) 

to obtain a high processing speed [4] [5]. FPGAs combine the flexibility of a generalpurpose, 

programmable digital signal processor with the speed and density of a custom 

hardware implementation. A digital processing implementation into a target FPGA 

should be optimized in terms of logic resources consumption.to achieve a good performance 

and cost-effectiveness. 

Digital Signal Processing mainly involves multiply operations which can be either 

fix or floating point, depending on the operand-range. The latter is used to reduce 

overflow problems often observed in fixed point formats. A number expressed in floating 

point format consist of a sign bit S, a biased exponent e of r bits and the fractional f 

of n bits. These elements express a number given by the following equation: 

op =(−1) S × 2 e−bias × 1.f (1) 

Floating point multiplications involve sign setting, e exponent addition (with bias 

correction) and mantissa product (including the leading bit). The latter is performed as 

an integer multiplication and is the most logic resources consummer. Furthermore, the 

multiplication is often executed in parallel way, that is, by developing simultaneously 

the product shown in Eq.(2): 

p =1.fx × 1.fy = 

n 

[yi × (1xn−1..x3x2x0)] · 2 i 

i=0 

⋆⋆ This work was supported by the Universidad Nacional de Mar del Plata (ING-15/G130) and 

the Agencia Nacional de Promoción Científica y Tecnológica (BID 1201/OC-AR 2002).The 

authors are with the Department of Electronics, Universidad Nacional de Mar del Plata 

and CONICET, Argentina. 

(2)

where 1.fx = {xn..x2x0} and 1.fy = {yn ···y2y0} are mantissas of n + 1 bits, and xn 

and yn both ’1’. 

There are two key factors of the FPGA multiplier design, the processing speed 

and used area. There exists a tradeoff between logic resources and processing speed. 

Some multiplier schemes increase the processing speed but also increases the logic 

consumption [9]. Increments in the FPGA used area reduce the maximum operating 

frequency. Consequently there exist a technological boundary where increasing of the 

implementation complexity does not lead to an increment in the processing speed. 

Several authors studied and proposed different parallel schemes of FPGA Floating- 

Point Multipliers in order to reduce logic consumption [10] [8] [3]. 

This article proposes a novel floating-point multiplier leading to a meaningful area 

reduction without relegating much processing speed. An estimation of the logic resources 

consumption of the proposed scheme is generated in order to evaluate its 

consumption against the often used by parallel multipliers. Latter, the multiplier was 

implemented on several platforms and evaluated in terms of logical resources and 

speed. Finally, the proposed multiplier is compared with multipliers referenced in the 

literature. 

2 Proposed Multiplier 

This paper suggests the utilization of a Sequential Multiplication (SM) to reduce the 

logic resources consumption. This multiplication algorithm executes a product using 

a single adder, Eq. (3): 

p =2 n−1 

 

n−1 

yiX · 2 i−n+1 

 

(3) 

i=0 

This adder performs successive accumulations of subproducts shifted by the corresponding 

value. 

Some schemes can be found in literature like the multiplier of Hennesy shown in 

Figure 1 [7]. In each multiply step, the multiplier performs two tasks. First if the 

least-significant bit of Y is 1, register X is added to P , otherwise ”00...00” is added 

to P . Finally, the result will be stored back into P . The registers P and Y are shifted 

right, the carry bit of the sum is moved into the high-order bit of P and the low-order 

of P is moved into register Y . After N steps, the result is in the 2n-bit register PY. 

The integer multiplication result has a 2n-bits wordlength, but floating-point multiplication 

only needs the n-most significant bits of the result wich are stored in register 

P . Consequently, there is no need in shifting bits into register Y of an integer multiplierdesigned 

for floating point multiplication. This lead to simplified integer multiplier 

shown in Fig. 2. This scheme is based on a stage counter and the multiplexer to execute 

the partial products. In this scheme, the partial product is added to the last shifted 

result and is stored in the corresponding output registers. 

The product normalization depends on the integer multiplication result. This result 

is a n-bit word plus a carry bit. If this carry bit is ‘1’, the result must be rightshifted 

to be normalized. This operation can be achieved with the existing resources, adding 

an extra clock pulse and setting the non-feedback add input to zero.

X[n:0] 

Y[n:0] 

ADD 

1 

P 

n 

SHIFT 

Fig. 1. Shift and Add multiplier. 

MUX 

COUNTER 

ADD 

carry 

P[n:1] 

FF´s 

Y 

n 

X 

n 

Fig. 2. Integer sequential multiplier. 

Biased exponent of the product result is given by 

P[n-1:0] 

ep = ex + ey − bias + carry (4) 

This operation is performed by adding the biased exponents (ex,ey) and the number 

−bias + carry expressed in two´s complement. In order to reduce logic the numbers 

(−bias + 0) and (−bias + 1) are precalculated and added to ex + ey according to the 

carry value. 

After the design structure is defined, the logic resources consumption of the proposed 

floating point multiplier can be estimated. The logic resources consumption in 

a FPGA can be expressed in terms of it basic logic cells. Each basic cell contains two 

Flip Flop (FF) that can be used to store a function generator output (FG). However, 

the storage elements and function generators can also be used independently. 

Each component of the multiplier can be analized in terms of its function, input 

and output nets, and if its outputs must be registered. Furthermore, in the design there 

are many macro components like adders, multiplexers, counters, and primitive components. 

A n-module counter is a binary of at least log2 n bits counter. Consequently it 

uses n FFs and almost the same quantity of FGs. Then, the n-module counter consums 

log2 (n) 

2 basic cells. A n-bit multiplexer is combinational logic which it needs at least 

log2(n) stages of three input FGs. The multiplexer used in the design has a registered 

output in the last stage resulting in a component that consums 

È 

log2 n 

(n·2 

i=1 

−i ) 

2 

for n-bit

inputs. The logic consumption of the n-bit adder depends of the adder seleted. Usually, 

the often used adder is the ripple carry adder wich optimize the fast carry logic 

provided by the manufacturers in each basic cell. In this case, a n-bit adder use n +2 

FGs ( n 

2 + 1 basic cell) considering the carry and the overflow output. If the output 

of the used adder must be registered, the logic consumption estimation is the same 

because the FFs are native of each basic cell. 

Equation 5 summaries the estimated logic resources consumption of the PFPM 

expressed in terms of basic cells of a n-bit wordlength mantissa including the leading 

bit implied on the representation 1.f. This equation take in consideration the FGs and 

FFs that can be merged together into a same cell. 

PFPM(n, r) = 

 

log 2 n+1 

i=1 

(n · 2 −i ) 

3 Comparison of the FPGA area 

2 

+ log 2(n +1) 

2 

+ n + 13 

2 

+ r (5) 

The logic resources used by the PFPM is compared with floating point multiplier wich 

are based on fixed point multipliers reported in the literature. For this purposes, the 

floating point multiplier structure was designed considering the integer multiplier as an 

interchangeable unit. Several parallel multipliers with a reported logic consumption 

were selected [2]. The integer multiplier and their respective logic consumption for 

floating point multiplication implementation are: Guild scheme with a high throughput 

due to the use of parallelism and pipelining, Eq. (6). Second, a McCanny - McWhirter 

multiplication scheme with local communication between its basic cells, Eq. (7). Third, 

a Carry Save unit with constant delay in the carry chains Eq. (8) and fourth a Ripple 

Carry multiplication unit which take advantage of the fast carry logic nets provided 

by the manufacturer. Eq. (9). For this estimation it was considered the effect of the 

logic not used by the n less significant bits of the integer multiplication, but the logic 

consumption reduction in this multipliers was neglected due to its little difference (less 

than 5 %). 

Guild(n, r) = 6 

25 n2 + 23 

n +8+r (6) 

20 

McCanny(n, r) = 87 

n − 39 + r (7) 

10 

CarrySave(n, r) =7n− 27 + r (8) 

RippleCarry(n, r) = 73 

n − 32 + r (9) 

Figure 3 shows a comparison of the logic resources consumption for the selected 

multipliers with a typical 8 bit exponent (r = 8). The horizontal lines in the same 

figure indicates the amount of avaiable basic cells in several Spartan FPGAs of Xilinx 

Inc. [1]. It can be observed the small of logic resources needed for the PFPM in contrast 

to the parallel multipliers applied to the floating point multiplication. The PFPM can 

be implemented in all platforms for any mantissa wordlength, while for other schemes 

the implementation is restricted to larger FPGAs. Besides, the proposed scheme make 

possible the implementation of several multipliers in the same FPGA. 

10

CLB 

600 

500 

400 

300 

200 

100 

XCS30 

Guid 

MacCanny 

Carry Save 

Ripple Carry 

Proposed 

XCS20 

XCS10 

XCS05 

0 

0 5 10 15 20 25 

Wordlength 

30 35 40 45 

4 Experimental results 

Fig. 3. Logic consumption comparation. 

The proposed multiplier was implemented on the three most extended Xilinx platforms: 

Spartan, Virtex and Virtex II. The evaluation of the proposal in the several 

FPGAs allow the verification of the Eq.(5) and the exploration of the benefits of the 

different FPGA series to improve a better performance. The design was evaluated in 

terms of logical resources , minimum clock period and Processing Speed (PS). 

Figure 4 shows the experimental results for the Spartan series. It can be observed 

that the difference between the implementation and the estimation, Eq. (5) is less than 

5 %. The delay constrain in the implementation depends on the feedback between the 

adder inputs and the registered outputs shown in the bottom of the Figure 2. This 

timing determines the maximum clock speed TCK, which, along the n + 1 pulses, 

determines the multiplier processing speed PS = 

1 

(n+1)·TCK . 

Figures 5 and 6 show the experimental results for Virtex and Virtex II series, 

respectivelly. In these figures it can be observed the logic resources consumption for 

both implementations. 

A comparative analyisis is shown in Figure 7 where the logic resources and the 

processing speed are despicted for all the implementations. It can be observed in this 

figure that the logic resource estimation is comfirmed with the experimental results 

for each index n. Also it can be observed the improvement of the utilization of a 

technology among the others.

PS [Mflop] 

CLB 

PS [Mflop] 

CLB 

8 

6 

4 

2 

0 

5 10 15 20 25 30 

n 

80 

70 

60 

50 

40 

30 

Estimation results 

Experimental results 

20 

5 10 15 20 25 30 

n 

30 

25 

20 

15 

10 

5 

Fig. 4. Spartan series PFPM implementation 

0 

5 10 15 20 25 30 

n 

80 

70 

60 

50 

40 

30 



20 

5 10 15 20 25 30 

n 

Fig. 5. Virtex series PFPM implementation

PS [Mflop] 

CLB 

PS [Mflop] 

CLB 

40 

30 

20 

10 

0 

5 10 15 20 25 30 

n 

80 

70 

60 

50 

40 

30 



20 

5 10 15 20 25 30 

n 

35 

30 

25 

20 

15 

10 

5 

Fig. 6. Virtex II series PFPM implementation 

0 

5 10 15 20 25 30 

n 

80 

70 

60 

50 

40 

30 


Experimental results Spartan 

Experimental results Virtex 

Experimental results Virtex II 

20 

5 10 15 20 25 30 

n 

Fig. 7. Performance evaluation

5 Conclusion 

This work addresses a novel floating-point multiplier wich can be easily implemented 

on several FPGA series. The proposed design, based on a sequential multiplication, 

provides a meaningful area reduction. This feature is useful not only to increase the 

system speed with parallel processing but also to simply add more taps to an algorithm. 

A function of the logic used by the proposed scheme was calculated allowing the 

estimation of the logic resources consumption for a given design. 

The theoretical behavior was contrastated with the implementation for several 

FPGA series with less than a 5% of difference in the logic consumption. The experimental 

results shown also the difference in processing speed between a FPGA series 

among the other. This results allow the exploration of the benefics of select a different 

FPGA series to improve a better performance in a given design. 

References 

1. The Programable Logic Data Book. Xilinx, 2000. 

2. N. Acosta, E. Todorovich, C. Collado, and K. Larsen. Multiplicadores paralelos: Estado 

delarteyanálisis de su materialización en FPGA. Proc. of VI Workshop Iberchip., pages 

158–168, 2000. 

3. GH. A. Aty, Aziza I. Hussein, I.S. Ashour, and M. Mones. High-speed, area-efficient 

FPGA-based floating-point multiplier. pages 274–277, 2003. 

4. T.-S. Chang and C.-W. Jen. Hardware-efficient implementations for discrete function 

transforms using LUT-based FPGAs. Computers and Digital Designs - IEE Proceedings, 

146, Issue 6:309, 1999. 

5. Chris Dick and Fred Harris. FPGA signal processing using sigma-delta modulation. IEEE 

SIGNAL PROCESSING MAGAZINE, pages 20–35, 2000. 

6. John P. Hayes. Introducción al Diseño Lógico Digital. Addison-Wesley Iberoamericana, 

Wilmington, Delaware, E.U.A, 1996. 

7. John L. Hennessy and David Patterson. Computer Architecture: A Quantitative Approach. 

Morgan Kaufmann Publishers, Inc., San Francisco, California ISBN: 1-55860-329-8, 1996. 

8. Manuel A. Jiménez, Nayda G. Santiago, and Diane T. Rover. Development of a scalable 

FPGA-based floating point multiplier. Proceedings of the Fifth Canadian Workshop on 

Field-Programmable Devices, pages pp. 145 – 150, 1998. 

9. III Walter B. Ligon, Scott McMillan, Greg Monn, Kevin Schoonover, Fred Stivers, and 

Keith D. Underwood. A re-evaluation of the practicality of floating-point operations on 

FPGAs. Proceedings of IEEE Symposium on FPGAs for Custom Computing Machines, 

pages 206–215, 1998. 

10. Nabeel Shirazi, Al Walters, and Peter Athanas. Quantitative analisis of floating point 

arithmetic on FPGA based custom computing machines. Proceedings. IEEE Symposium 

on FPGAs for Custom Computing Machines, pages 155–162, 1995.

PERFORMANCE EVALUATION OF FPGA 

FLOATING POINT MULTIPLIERS 

Funes, Marcos ∗,∗∗ Carrica, Daniel O. ∗ 

Benedetti, Mario ∗ 

∗ L.I.C., Universidad Nacional de Mar del Plata, 

CONICET 

∗∗ mfunes@fi.mdp.edu.ar 

Abstract: The implementation of FPGA-based floating Point multipliers require 

the availability of huge logical resources, constraining their use in some applications. 

The use of sequential multipliers instead of standard parallel multipliers 

reduce the area allocated on the FPGA. A comparison of sequential multiplier 

against parallel ones is developed. A performance index is introduced to compare 

the obtained results. 

Keywords: multiplication, floating point arithmetic, field programmable gate 

arrays, signal processing 

1. INTRODUCTION 

Many computationally-intensive applications found 

in Digital Signal Processing (DSP) employ the 

parallel processing capability of Field Programmable 

Gate Arrays (FPGAs) to obtain a high 

processing speed (Chang and Jen, 1999)(Dick and 

Harris, 2000). FPGAs combine the flexibility of 

a general-purpose, programmable digital signal 

processor with the speed and density of a custom 

hardware implementation. A digital processing 

implementation into a target FPGA should be optimized 

in terms of logic resources consumption to 

achieve a good performance and cost-effectiveness. 

Digital Signal Processing mainly involves multiply 

operations which can be either fix or floating 

point, depending on the operand-range. An 

operand expressed in floating point format consist 

0 This work was supported by the Universidad Nacional de 

Mar del Plata (ING-15/G130) and the Agencia Nacional 

de Promoción Científica y Tecnológica (BID 1201/OC-AR 

2002).The authors are with the Department of Electronics, 

Universidad Nacional de Mar del Plata and CONICET, 

Argentina. 

AADECA 2006 – XXº Congreso Argentino de Control Automático 

28 al 30 de Agosto de 2006 - Buenos Aires, Argentina. 

of a sign bit S, a biased exponent e of r bits and 

the fractional f of n bits. These elements express 

a number given by the following equation: 

OP = (−1) S × 2 e−bias × 1.f (1) 

Floating point multiplications involve sign setting, 

e exponent addition (with bias correction), mantissas 

product (including the leading bit) with 

rounding and normalization (IEEE754, 1985). 

The mantissas product is performed as an integer 

multiplication. This multiplication is often performed 

in a parallel way and is the most logic 

resources consumer operation. 

The great consumption of resources leads to the 

following problems: 

• Greater FPGA are necessary. 

• More expensive FPGA are required. 

• Difficulty to implement several multipliers in 

one FPGA. 

Ligon et al assesed the practical implementation 

of several floating point multipliers in a Xilinx 

XC4000 series, requiring bigger FPGAs to use 

more than one multiplier in the same chip (Ligon

et al., 1998). Other authors studied and proposed 

different parallel schemes of FPGA Floating-Point 

Multipliers in order to reduce logic consumption 

(Shirazi et al., 1995) (Jiménez et al., 1998.). 

These authors proposed custom formats and several 

methods prioritizing a reduced logic resources 

consumption. Some other results were presented 

by Aty et al over more recently FPGAs (Aty et 

al., 2003). Floating point multipliers based on Virtex 

II embedded parallel multipliers with several 

level of pipelining were presented by authors like 

Lee and Burgess (Lee and Burgess, 2002). 

Other contributions proposed the use of sequential 

multipliers instead of standard parallel multipliers 

in order to reduce the area allocated on the 

FPGA, balancing the economy on resources with 

the processing speed (Funes et al., 2002)(Funes et 

al., 2006). The performance achieved a substantial 

reduction in terms of logical blocks with an 

acceptable calculation rate. 

In this paper, a comparative analysis of a sequential 

scheme against other parallel ones is carried 

out. Section 3 deals with an evaluation concerned 

the logical resources consumption. Section 

4 presents a global index which includes both the 

logical resources and the processing speed. The 

comparison of schemes from different authors is 

performed using this index. 

2. SEQUENTIAL FLOATING POINT 

MULTIPLIER 

The sequential scheme (SM) like the Shift and 

Add algorithm reduce the logic resources consumption, 

Fig.1 (Hennessy and Patterson, 1996). 

This scheme is based on a control stage and the 

multiplexer to execute the partial products. In 

this scheme, the partial product is added to the 

last shifted result and is stored in the corresponding 

output registers. 

carry 

ADD 

n 

shift 

Partial Product 

n-1 0 

n 

n 

rounding 

n 

normalization 

Fig. 1. Integer sequential multiplier. 

X 

MUX 

Control 

The rounding mode implemented in this multiplier 

is round to nearest even. This means always 

round to nearest, and in the case of a tie round 

to even. Then, when rounding, this system adds 

to the least significant bit of the desired result 

1 

2 



n 

Y 

Product 

Truncation 

Round 

Normalize 

Overflow 

1 * * * * * 

0 0 0 0 0...0 1 0 

2n bit product 

* * * * * * * * * * 

* * * * * * 

Overflow 

1 * * * * * 

No Round 

0 1 * * * * 

n bit result 

Fig. 2. Rounding and normalization. 

N discarded bits 

No Overflow 

0 1 * * * * 

0 0 0 0 0...0 0 1 

No Overflow 

and then truncates by removing the bits to the 

right of the LSB. The rounding scheme is shown 

in Fig.2. Whenever the product result in the range 

4 ≥ product ≥ 2 a normalization is executed, with 

an appropiate adjustment of the exponent. 

3. LOGICAL RESOURCES COMPARISON 

The logic resources used by the SM are compared 

with those from parallel multipliers. The parallel 

multipliers included in the comparison are: (a) 

Guild scheme with a high throughput due to the 

use of parallelism and pipelining, (b) McCanny - 

McWhirter multiplication scheme with local communication 

between its basic cells, (c) Carry Save 

unit with constant delay in the carry chains and 

(d) a Ripple Carry multiplication unit which take 

advantage of the fast carry logic nets provided by 

the manufacturer (Acosta et al., 2000). Equations 

(2), (3), (4) and (5) show the logic resources consumption 

of the Guild, McCanny - McWhirter, 

Carry Save and Ripple Carry, respectively. 

Guild(n, r) = 6 

25 n2 + 23 

n + 8 + r 

20 

(2) 

McCanny(n, r) = 87 

n − 39 + r 

10 

(3) 

CarrySave(n, r) = 7n − 27 + r (4) 

RippleCarry(n, r) = 73 

n − 32 + r 

10 

(5) 

The logic resources consumption of the sequential 

scheme is expressed by Eq. (6): 

SM(n, r) = 

 

log 2 n+1 

i=1 

2 

(n2 −i ) 

Eq. (6) can be reduced to eq.(7). 

+ log2(n + 1) 

+n+ 

2 

17 

2 +r 

(6) 

SM(n, r) = 49 

n + 9 + r (7) 

32

Figure 3 shows a comparison of the logic resources 

consumption for the selected multipliers with a 

typical 8 bit exponent (r = 8). The horizontal 

lines in the same figure indicates the amount 

of available basic cells in several Spartan FP- 

GAs of Xilinx Inc. (The Programable Logic Data 

Book, 2000). It can be observed the small of logic 

resources needed for the SM in contrast to the 

parallel multipliers applied to the floating point 

multiplication. The SM can be implemented in 

all platforms for any mantissa word length, while 

for other schemes the implementation is restricted 

to larger FPGAs. Besides, the proposed scheme 

make possible the implementation of several multipliers 

in the same FPGA. 

SM 

Fig. 3. Logic consumption comparison. 

4. PERFORMANCE EVALUATION 

In order to evaluate the overall performance a 

performance index p is defined as follows: 

Processing Speed [Mflops] 

p = (8) 

Area 

where the Processing Speed is defined in Million 

of Floating-Point Operations per second and the 

Area as the used fraction with respect to the total 

resources available (Full FPGA = 1). This index 

is useful in the selection of a multiplier for a given 

design because allows to compare several kinds of 

multipliers and wordlengths. 

Figure 4 illustrates the p bar diagram corresponding 

to the Sequential Floating Point Multiplier 

(SM) and reported multipliers implemented in the 

XCS20 FPGA for several wordlengths. 

For 18-bit format, the SM reduces at least four 

times the logic area if compared to the reports 

by other authors (Shirazi et al., 1995; Jiménez et 

al., 1998.; Aty et al., 2003; Ligon et al., 1998). 

Fig.4 shows that the best index score is reached 

with SM. Also, this figure depicts the performance 



Performance 

Jimenez 

Shirazi 

Aty 

SM 

Jimenez 

Wordlength Format 

SM 

Ligon 

Fig. 4. Spartan multipliers performance 

of 24-bit multipliers. Although the speed of the 

multiplier proposed by (Jiménez et al., 1998.) 

is similar to that of SM, logical resources get 

notoriously reduced in the latter, thus rendering 

a significantly higher performance. 

For 32-bit format, the SM utilizes 13% of the 

FPGA. The better performance index obtained 

with SM results from the differences of the designs: 

the 3-stage Booth-based multiplier proposed 

by (Ligon et al., 1998) is characterized by 

its fast speed, but it consumes 82% of the FPGA. 

If compared, despite being half slower, the SM 

consumes 5 times less. The proper multiplier selection 

depends, in this case, on the type of project 

or FPGA size. 

Figure 5 shows the performance index for the 

multipliers implemented in Virtex II FPGA. For 

18-bits format, the SM achieves superior performance 

to that proposed in the literature (Shirazi 

et al., 1995; Jiménez et al., 1998.; Aty et al., 2003). 

In addition to the decreasing level of logical resources 

employed, the proposed design is faster. 

For 32-bits, the difference is small and the performance 

index for the SM results from its low 

logical resource consumption. On the other hand 

the high performance of the 32-bit multiplier (Lee 

and Burgess, 2002) result from its high processing 

speed. For these multipliers the applicability depends 

on the design constraints, i.e., less area or 

high speed. 

5. CONCLUSION 

This work compares the sequential multiplier 

against several parallel ones. The sequential multiplier 

provides a meaningful area reduction with 

an acceptable calculation rate. 

A performance index rendering an effective evaluation 

of multipliers is also introduced in this 

paper. The sequential multiplier is compared with 

those reported by some authors and assessed in 

SM

Performance 

Aty 

SM 

Wordlength Format 

Lee 

Fig. 5. Virtex II multipliers performance 

terms of its performance index. The multiplier 

has demonstrated to be superior to some reported 

multipliers in term of this performance index. 

REFERENCES 

IEEE754, IEEE Std (1985). IEEE standard for binary 

floating-point arithmetic. The Institute 

of Electrical and Electronics Engineers Inc.. 

New York. 

Acosta, N., E. Todorovich, C. Collado and 

K. Larsen (2000). Multiplicadores paralelos: 

Estado del arte y análisis de su materialización 

en FPGA.. Proc. of VI Workshop 

Iberchip. pp. 158–168. 

Aty, GH. A., Aziza I. Hussein, I.S. Ashour 

and M. Mones (2003). High-speed, areaefficient 

FPGA-based floating-point multiplier. 

pp. 274–277. 

Chang, T.-S. and C.-W. Jen (1999). Hardwareefficient 

implementations for discrete function 

transforms using LUT-based FPGAs. Computers 

and Digital Designs - IEE Proceedings 

146, Issue 6, 309. 

Dick, Chris and Fred Harris (2000). FPGA signal 

processing using sigma-delta modulation. 

IEEE SIGNAL PROCESSING MAGAZINE 

pp. 20–35. 

Funes, M., D. Carrica and M. Benedetti (2002). 

Multiplicadores de punto flotante para estructuras 

FPGA. Proceedings XVIII Congreso 

Argentino de Control Automático 1, 40. 

Funes, M., D. Carrica and M. Benedetti (2006). 

Floating point multipliers with reduced fpga 

area. Proceedings II Southern Programmable 

Logic Conference ISBN 84-609-8998-4 1, 59– 

66. 

Hayes, John P. (1996). Introducción al Diseño 

Lógico Digital. Addison-Wesley Iberoamericana. 

Wilmington, Delaware, E.U.A. 

Hennessy, John L. and David Patterson (1996). 

Computer Architecture: A Quantitative Approach. 

Morgan Kaufmann Publishers, Inc.. 



SM 

San Francisco, California ISBN: 1-55860-329- 

8. 

Jiménez, Manuel A., Nayda G. Santiago and Diane 

T. Rover (1998.). Development of a scalable 

FPGA-based floating point multiplier. 

Proceedings of the Fifth Canadian Workshop 

on Field-Programmable Devices pp. pp. 145 – 

150. 

Lee, B. and N. Burgess (2002). Parameterisable 

floating-point operations on FPGA. Conference 

Record of the Thirty-Sixth Asilomar 

Conference on Signals, Systems and Computers 

pp. 1064–1068. 

Ligon, III Walter B., Scott McMillan, Greg Monn, 

Kevin Schoonover, Fred Stivers and Keith D. 

Underwood (1998). A re-evaluation of the 

practicality of floating-point operations on 

FPGAs. Proceedings of IEEE Symposium on 

FPGAs for Custom Computing Machines 

pp. 206–215. 

Shirazi, Nabeel, Al Walters and Peter Athanas 

(1995). Quantitative analisis of floating point 

arithmetic on FPGA based custom computing 

machines. Proceedings. IEEE Symposium 

on FPGAs for Custom Computing Machines 

pp. 155–162. 

The Programable Logic Data Book (2000). Xilinx.

Novel FPGA based Floating Point Multiplier: 

Consecutive-Sums Sequential Multiplier 

M. Funes, D. Carrica, M. Benedetti, P. Donato 



mfunes@fi.mdp.edu.ar ⋆⋆ 

Abstract. FPGA based Floating Point Multipliers of Parallel type demand 

abundant logical resources. On the other hand, Sequential type, required reduced 

logic resources but al the expense of a worse processing speed. This paper 

presents a new sequential structure of floating-point multiplier with a better 

processing speed keeping on a reduced number of resources. 

1 INTRODUCTION 

Many applications in Digital Signal Processing (DSP) employ the parallel processing 

capability of Field Programmable Gate Arrays (FPGAs) to obtain a high processing 

speed [1] [2]. FPGAs combine the flexibility of a general-purpose, programmable digital 

signal processor with the speed and density of a custom hardware implementation. 

However, a FPGA digital processing implementation presents a great logic resources 

consumption which should be optimized because the great consumption leads to the 

following problems: 

– Greater FPGA and more expensive are necessary. 

– Difficulty to implement several multipliers in one FPGA. 

Several authors studied and proposed different parallel schemes of FPGA Floating- 

Point Multipliers in order to reduce logic consumption [3] [4] [5]. On the other hand, 

a previous work proposed the use of sequential multipliers instead of standard parallel 

multipliers in order to reduce logic consumption [6]. This article proposes the 

consecutive-sums sequential multiplier which achieves more speed than the obtained 

in [6] maintaining the same speed vs logic resources figure. The multiplier was implemented 

on several platforms and evaluated in terms of logical resources and speed. 

Finally, the proposed multiplier was compared with the previous sequential scheme. 

⋆⋆ This work was supported by the Universidad Nacional de Mar del Plata (ING-15/G130) and 

the Agencia Nacional de Promoción Científica y Tecnológica (BID 1201/OC-AR 2002).The 

authors are with the Department of Electronics, Universidad Nacional de Mar del Plata 

and CONICET, Argentina.

2 Floating Point Multiplication 

A floating point format consists of a sign bit s, a biased exponent e of r bits and the 

fractional f of n bits whose value is expresed by (1): 

OP = (−1) S × 2 e−bias × 1.f (1) 

Floating point multiplications involve sign setting, e exponent addition (with bias 

correction) and mantissa product (including the leading bit) [7]. The latter is performed 

as an integer multiplication and is the most logic resources consumer. 

Sign 

Exclusive - OR 

Sign 

Ofl. 

Exponent Mantissa 

Exponent 

Addition 

Bias 

Adjustment 

Exponent 

Adjustment 

Mantissas 

Product 

Rounding 

Normalization 

Exponent Mantissa 

Fig. 1. Floating Point Multiplication. 

Furthermore, the multiplication is often executed in parallel way, Eq.(2): 

n 

p = 1.fx × 1.fy = [yi × (1xn−1..x2x1x0)] · 2 i 

i=0 

where 1.fx = {xn..x1x0} and 1.fy = {yn · · · y1y0} are mantissas of n + 1 bits, and xn 

and yn are both ’1’. 

2.1 Consecutive Sum Sequential Multiplier 

The utilization of a Sequential Multiplication (SM) to reduce the logic resources consumption 

of the mantissas product was proposed by Funes et al. [6]. This multiplication 

executes the product using only one adder, Eq. (3): 

p = 2 n−1 

 

n−1 

yiX · 2 i−n+1 

 

(3) 

i=0 

(2)

The processing speed of the SM depends on the clock frequency and the number of 

iterations. The consecutive-sums sequential multiplier (SMSC) can reduce the number 

of iterations by performing the addition of two subproducts at the same time, as shown 

in the Eq. (4). 

p = 2 n−1 

⎡ 

 

⎣ 

n 

2 −1 

(yjX2 2j−(n−1) + yj+1X2 2j+1−(n−1) ) 

j=0 

⎤ 

⎦ (4) 

Thus, the processing period is T = n 

2 · TCK, being TCK the clock period and n 

the mantissa wordlength. The multiplier scheme of a fixed point SMSC multiplier is 

shown in Fig. 2. 

carry 

ADD 

carry 

n-1 

n 

ADD 

LSB 

Partial 

2n-1 n 

n 

n 

n 

X 

MUX 

MUX 

Control 

2 bits shift 

n-1 

n/2 

n/2 

Product 

Y[even bits] 

Y[odd bits] 

Fig. 2. Consecutive sum sequential multiplier (SMSC). 

2.2 Rounding and Normalization 

The multiplier rounds the mantissas to +∞. This means always round to the the 

closest to and no less than the infinitely precise result. Then, when rounding, this 

system adds 1 

2 to the least significant bit of the desired result and then truncates by 

removing the bits to the right of the LSB. There are three possible rounding operations 

which then occur. The first one is no rounding if the value of all the bits to the right 

of the round bit is 0 or The second one is or the result is negative. To consider the 

first case, this operation can be computed storing in a register if any of the discarded 

bits was a ’1’. If the register value is 0 the the result of the mantissas product is just 

the truncation of the least significant bits. The second case is after the computation 

of the result sign. The other two rounding operations depends on the most significant 

bit of this product as seen in Fig. 3. 

0

Product 

Truncation 

Rounding 

Rounding 

Normalization 

+ 

Overflow 

1 * * * * * 

0 0 0 0 0...0 0 1 

2n bits product 

* * * * * * * * * * 

* * * * * * 

0 0 0 0 0...0 0 1 

No Overflow 

1 * * * * * 

No rounding 

0 1 * * * * 

n bit product 

n bits discarted 

Fig. 3. Rounding and normalization. 

No Overflow 

1 * * * * * 

When rounding, the system rounds by default in the last iteration and check the 

result. If the result is in the range 1 ≤ p ≤ 2, the result is correctly rounded. But if the 

result is in the range 4 ≥ rounded product ≥ 2, a normalization shift of 1 to the right is 

then necessary to restore the rounded product to the range 2 ≥ rounded product ≥ 1, 

with a proper adjustment of the exponent. After the normalization, there are two cases 

in which the rounded results is correct and two other that need a correction. 

The first case occurs when the LSB of the truncated product of n-th iteration was a 

”1”, because the 2 −n addition propagates to the nearest significant bits. Consequently 

this is equivalent to add 2 −n to a non-rounded result after normalization. The other 

case occurs when the LSB of the truncated result was a ”0”, because the 2 −n addition 

doesn’t propagates to the nearest significant bits. The result after normalization is 

equivalent to a truncation. Then, a new rounding operation is required. The Table 1 

shows an example of the second case. 

Truncated result (TR) TR + 2 −n TR normalized TR expected Action 

10.*****00 10.*****01 1.*****0 1.*****1 round 

10.*****01 10.*****10 1.*****1 1.*****1 none 

10.*****10 10.*****11 1.*****1 1.*****0 round 

10.*****11 10.*****00 1.*****0 1.*****0 none 

Table 1. Rounding error of the normalized product. 

Fig. 4 shows the mantissas product with the rounding and normalization scheme. 

In this figure it can be observed the control unit that performs the multiplication 

iterations besides the rounding and normalization tasks.

carry 

ADD 

carry 

n-1 

ADD 

n 

n+1 n 

LSB 

n 

Default rounding 

Exponent correction 

Sign 


Partial Product 

n 

n 

X 

2 bits shift 

MUX 

MUX 

Control 

0 

n/2 

n/2 

discarded bit 

Y[even bits] 

Y[odd bits] 

n+1 n 

Normalization 

Post-normalization rounding 

Fig. 4. Mantissa product scheme. 

Result 

1 bit shift 

The proposed multiplier was implemented in VHDL [8] [9]. The mantissa wordlength 

was parameterized while the exponent was fixed (e = 8). The design evaluated in 

terms of logical resources and Processing Speed (PS) was implemented on two Xilinx 

platforms: Spartan and Virtex. The evaluation of the proposal in the several FPGAs 

allows the exploration of the benefits of the different FPGA series to improve a better 

performance. 

In the Spartan series, the basic cell of logic is denominated Configurable Logic Block 

(CLB), each of one contains two 4-input Function generators and two Flip Flops. The 

Virtex series rename the CLB as a slice and each CLB contains two slices. In this work, 

the logic resources consumption is unified into an unique unit denominated Basic Cell, 

witch contains the same logic as a Spartan CLB. 

The processing speed is a function of the number of iterations of the multiplier 

and the maximum clock frequency. The maximum clock frequency is limited by the 

propagation delay of the critical path. 

In order to evaluate the performance of the proposed scheme, the SMSC floating 

point multiplier was compared with a SM scheme with the same rounding and 

normalization scheme. Figs. 5 and 6 present the logic resources and processing speed 

comparison for a Spartan and Virtex series respectively. In this figures, it can be observed 

the relation between the processing speed obtained in contrast with the logic 

resources consumed. 

0

PS [Mflop] 

CLB 

PS [Mflop] 

Basic cells 

15 

10 

5 

0 

5 10 15 20 25 30 

n 

120 

100 

80 

60 

40 

20 



0 

5 10 15 20 25 30 

n 

30 

25 

20 

15 

10 

5 

Fig. 5. Spartan series implementation, comparison 

0 

5 10 15 20 25 30 

n 

120 

100 

80 

60 

40 

20 



0 

5 10 15 20 25 30 

n 

Fig. 6. Virtex series implementation, comparison

To evaluate the processing speed-logic consumption relation, Figs. 7 and 8 show 

the performance of the proposal vs. SM based scheme for the Spartan (XCS20) and 

Virtex (XV300) implementation. The performance index p is defined as follows: 

p = 

Processing Speed [Mflops] 

Area 

where the Processing Speed is expressed in Million of Floating-Point Operations per 

second and the Area is the fraction used resources vs. total resources of a FPGA. 

p 

100 

90 

80 

70 

60 

50 

40 

30 

20 

10 



0 

15 20 25 30 35 40 

n 

Fig. 7. Spartan series implementation, performance index 

These figures show that the performance is as good as the SM based scheme, with 

the benefits of a better processing speed. 

4 Conclusion 

This work addresses a novel floating-point multiplier witch can be easily implemented 

on several FPGA series. The proposed design, based on a consecutive sums sequential 

multiplication, provides an optimization in the processing speed with the goal of a 

reduced logic resources consumption. The performance obtained was experimentally 

assessed, achieving a substantial increment in the calculation rate. 

(5)


2000 

1800 

1600 

1400 

1200 

1000 

800 

600 

400 

200 




0 

5 10 15 20 25 30 

n 

Fig. 8. Virtex series implementation, performance index 

1. Chang, T.S., Jen, C.W.: Hardware-efficient implementations for discrete function transforms 

using LUT-based FPGAs. Computers and Digital Designs - IEE Proceedings 146, 

Issue 6 (1999) 309 

2. Dick, C., Harris, F.: FPGA signal processing using sigma-delta modulation. IEEE SIG- 

NAL PROCESSING MAGAZINE (2000) 20–35 

3. Shirazi, N., Walters, A., Athanas, P.: Quantitative analisis of floating point arithmetic 

on FPGA based custom computing machines. Proceedings. IEEE Symposium on FPGAs 

for Custom Computing Machines (1995) 155–162 

4. Jiménez, M.A., Santiago, N.G., Rover, D.T.: Development of a scalable FPGA-based 

floating point multiplier. Proceedings of the Fifth Canadian Workshop on Field- 

Programmable Devices (1998.) pp. 145 – 150 

5. Aty, G.A., Hussein, A.I., Ashour, I., Mones, M.: High-speed, area-efficient FPGA-based 

floating-point multiplier. (2003) 274–277 

6. Funes, M., Carrica, D., Benedetti, M.: Floating point multipliers with reduced fpga area. 

Proceedings II Southern Programmable Logic Conference ISBN 84-609-8998-4 1 (2006) 

59–66 

7. 754, I.S.: IEEE standard for binary floating-point arithmetic. The Institute of Electrical 

and Electronics Engineers Inc., New York (1985) 

8. Villar, E., Terés, L., Olcoz, S., Torroja, Y.: VHDL Lenguaje Estandar de Diseño 

Electrónico. McGraw Hill, Madrid (1997) 

9. Ghosh, S.: Hardware Description Languages Concepts and Principles. IEEE Press, 445 

Hoes Lane, P.O. Box 1331 Piscataway, NJ 08855-1331 (1999)

10. Ligon, I.W.B., McMillan, S., Monn, G., Schoonover, K., Stivers, F., Underwood, K.D.: 

A re-evaluation of the practicality of floating-point operations on FPGAs. Proceedings 

of IEEE Symposium on FPGAs for Custom Computing Machines (1998) 206–215 

11. Lee, B., Burgess, N.: Parameterisable floating-point operations on FPGA. Conference 

Record of the Thirty-Sixth Asilomar Conference on Signals, Systems and Computers 

(2002) 1064–1068

120 IEEE/ASME TRANSACTIONS ON MECHATRONICS, VOL. 8, NO. 1, MARCH 2003 

Novel Stepper Motor Controller Based on FPGA 

Hardware Implementation 

Daniel Carrica, Senior Member, IEEE, Marcos A. Funes, and Sergio A. González, Member, IEEE 

Abstract—This paper proposes a novel stepper motor controller 

based on field programable gate arrays, showing a remarkable performance. 

The system provides a combination between a novel algorithm 

and programmable logic to achieve both high speed and 

high precision on a compact hardware. 

Index Terms—Field programable gate arrays (FPGA), motion 

control, stepper motor. 

I. INTRODUCTION 

IN HIGH precision stepper motor applications, it is necessary 

to use motors with small steps whose size is imposed 

by the required resolution. Another alternative is the technique 

of microstepping, where the motor step size is further reduced 

by means of control. As microsteps are related to very little displacements, 

a great quantity of microsteps are required to get 

the total displacement. Total displacement should be executed 

in an acceptable time. As a consequence, the time between microsteps 

should be reduced. A high-speed data transmission between 

controller and driver is mandatory when indexing in microstepping 

mode of operation. 

Furthermore, open loop applications are much less expensive 

than close loop ones due to encoders. If open loop is chosen, 

velocity profiles have to be used in order to avoid the step lose 

effect. 

A general system for the commanding of a stepper motor is 

shown in Fig. 1. There are three functions: 1) the velocity profile 

generation block; 2) the indexer; and 3) the power drivers. 

Blocks (1) and (2) are embedded in what we named controller. 

After velocity profiles are generated, they have to be translated 

into pulse intervals by the indexer. Each index pulse 

means that the motor must increment its rotor position in one 

step/microstep, hence the name indexer. This block functions 

as a velocity-to-time translator. This block is unique to the 

commanding of incremental motion devices since other types 

Manuscript received November 26, 2001; revised October 16, 2002. Recommended 

by Technical Editor K. Ohnishi. This work was supported in part by the 

Universidad Nacional de Mar del Plata under Grant ING-15/G064 and in part 

by the Agencia Nacional de Promoción Científica y Tecnológica under Grant 

BID 1201/OC-AR 2000. 

D. Carrica is with the Department of Electronics, National University of Mar 

del Plata, Mar del Plata, Argentina. He is also with He is also with the Centro 

Austral de Investigaciones Científicas (CADIC), Tierra del Fuego, Argentina. 

M. A. Funes is with the Department of Electronics, National University of 

Mar del Plata, Mar del Plata, Argentina. 

S.A. González is with the Laboratorio de Instrumentación y Control, Department 

of Electronics, National University of Mar del Plata, Mar del Plata 

Argentina. He is also with the Comision de Investigaciones Cientificas (CIC), 

Buenos Aires, Argentina (e-mail: sagonzal@ieee.org). 

Digital Object Identifier 10.1109/TMECH.2003.809160 

Fig. 1. Complete control system. 

of motors can be commanded just by applying the velocity 

profile in form of current or voltage [1], [2]. 

The implementation of the controller of Fig. 1 can be performed 

by two alternatives: off-line or on-line schemes. 

A. Off-Line 

In the off-line schemes the timing of the steps/microsteps is 

calculated prior the movement [3], [4]. The velocity profile and 

the time space between pulses are calculated and then stored 

in some kind of memory media bundled into the hardware, i.e., 

ROM or even hard drives. 

A disadvantage of these schemes is that they require an important 

hardware volume, composed of memories and timers. 

This volume is proportional to the quantity of motors and the 

extension and precision of displacements. 

B. On-Line 

An intelligent system carries out the operation of calculating 

the index pulses through a time lagging sequence generation algorithm. 

In Fig. 2 a flowchart of one basic scheme can be seen. 

This flowchart contains two main blocks: construction, 

where the velocity profile is actually developed, and calculation, 

where the time between the current step and the next is 

calculated. That is, is the velocity profile generation and 

is the indexer of Fig. 1. Often a common block is shared 

because a single equation computes both the velocity profile and 

the . For example, (1) and (2) express a typical algorithm 

for a trapezoidal profile [5]. 

step 

1083-4435/03$17.00 © 2003 IEEE 

where is the resulting speed, is the maximum speed 

of the motor, is the total number of steps or microsteps, is 

the acceleration of the trapezoidal profile and is the time 

of the -th step. 

(1) 

(2)

CARRICA et al.: NOVEL STEPPER MOTOR CONTROLLER BASED ON FPGA HARDWARE 121 

Fig. 2. On-line algorithms. 

These schemes as well as the off-line ones make use of timers 

for obtaining the indexed pulses. Since it is necessary one timer 

per motor, this approach is often discouraged when multiple motors 

have to be commanded by a single processor. 

Another important disadvantage is the computing time , required 

to compute (1). imposes a practical limit to the speed. 

Moreover, not only but the timer resolution, , affect the 

maximum speed as in (3) 

Current timer resolutions are small enough to discard the 

at the equation. Therefore, (3) turns into (4). 

Standard algorithms fail to reach high speeds, mainly because 

the computing time, . In order to resolve the goal is to 

provide a new algorithm with a more effective step generation 

procedure without timers. 

II. PROPOSED ALGORITHM 

The proposed algorithm can be explained as follows. In order 

to estimate the time , it is assumed that is times 

, since it is an accurate way of measuring time without using 

timers. Therefore, the proposed algorithm has to do the following 

functions during each iteration: 

1) Let 

(3) 

(4) 

Fig. 3. Flow chart of the algorithm. 

2) Assume 

where is a positive integer number. 

3) Verify if assumed allows the wished . Thus, it 

means 

where is the reference velocity at the th step. 

4) If the verification is true, then execute the new step/microstep. 

If not, then increment and repeat the process. (points 

2, 3, and 4) 

From (5) it can be seen that the resolution of is . The 

equality in (6) is not possible because of this resolution. Equation 

(6) becomes the comparison stated in (8) 

Eliminating the division in (8) is mandatory for reducing the 

iteration time. Therefore a simple contraction as in (9) is preferred 

The new algorithm is based on (5), (7), and (9). in (5) has 

the same meaning as in (4), but with a considerable smaller magnitude, 

since the computations here are very straightforward. It 

(5) 

(6) 

(7) 

(8) 

(9)


Fig. 4. Intended velocity profile. 

is experimentaly demonstrated that a ten times less than in 

conventional algorithms is achieved. 

To conclude, the algorithm consists basically on a periodic 

accumulative sum until the intended velocity is reached. Fig. 3 

shows the flowchart of a system that implements (5), (7) and 

(9). The velocity profiles block was previously executed. 

From (5), resolution of the new algorithm is since 

is an integer. resolution in the new algorithm arises to a 

velocity quantization problem because velocity is the inverse of 

, (6). Since the term is a multiple of and , 

it turns out that the speed commanded has the following characteristics: 

. 

. 

(10) 

As an example, Fig. 4 shows a trapezoidal profile which starts 

at and has a maximum . In order to keep track of the 

intended speed (in discontinuous line), the system commands an 

initial value of . This results in an initial speed of 

which is the closest possible speed to the intended initial speed, 

.At , changes to 6. As a consequence a higher speed 

of occurs. At , produces a commanded speed 

of . It then follows that at time the commanding speed 

is which equals the intended velocity profile. 

The quantification effect is more remarkable at higher speeds 

when times are smaller as . The effect can also be explained 

since intermediate speeds cannot take place between 

and , or between and , nor among 

and , etc. 

Fig. 5. FPGA based control system. 

Therefore, an algorithm has been developed which requires 

neither timers nor lookup tables and can work for much higher 

speeds. It’s disadvantage is the quantification effect which depends 

on the magnitude of . With current DSP technology, a 

minimun s is obtainable. This magnitude produces 

a quantification level of 2000 steps at speeds arround 15 000 

steps/s, which shows the importance of the problem. 

III. HARDWARE IMPLEMENTATION 

In order to reduce the computing time, a hardware implementation 

is proposed. The algorithm presented in Section II is 

simple enough to be executed by a custom hardware. Hardware 

implementation permits multiple parallel tasks, thus, providing 

an effective way of implementing true parallelism which allows 

a great reduction of computing time because operations such as 

the reference profile generation, multipication and indexation 

can be executed in separate blocks and can run independently 

ones of the others. 

Equations (5) and (9) are replaced by (11) . Although, this 

means no changes in the algorithm, it reduces the pair of 

multiplications to only one. This fact allows an efficient hardware 

implementation without performance demerit. Hardware 

implementation of (5) and (9) is presented in Fig. 5, where 

the block diagram of the controller is shown. The COUNTER, 

wich counts clock periods, represents the execution of (5). 

The hardware implementation of (11) is carried out by the 

MULTIPLIER and the COMPARATOR 

(11) 

When the inequation is satisfied, a new step is commanded. 

The signal is then fed to the DRIVER INTERFACE, which commands 

the pulses to the driver of each motor phase. Fig. 5 shows 

a four phase motor. 

The clock period of hardware implementation is equivalent 

to the computing time in the software execution of the algorithm 

of Section II. The clock period defines the time resolution 

of the controller. As can be well reduced in hardware ap-

CARRICA et al.: NOVEL STEPPER MOTOR CONTROLLER BASED ON FPGA HARDWARE 123 

Fig. 6. Position and velocity profile with the FPGA based system. 

proach, the quantizacion effect on the mechanical velocity will 

be negligible. 

Standard implementation of a multiplier is accomplish by a 

combinatorial structure. This approach is very good regarding 

the time because it presents a minimum delay imposed by 

the logic gates, but it involves a great number of logic resources, 

which increase proportionally with the multiplier word length. 

As an example, a 16 16 bits product requires the 90% of a 

10 000 logic gates FPGA [6], [7]. In order to overcome the 

FPGA area problem, a sequential arquitecture for the multiplier 

is proposed [8], [9]. This approach allows an effective area reduction 

of 10 times, but with a greater , i.e., 16 clock pulses 

for a 16-bit word multiplier. However, with a 40 MHz clock, 

time is only 400 ns which remains neglicted for system performance. 

As a consequence, a sequential multiplier was adopted, 

which permited the implementation of the algorithm in a FPGA 

of 6000 logic gates. 

A trapezoidal profile is generated, with several parameters, 

such as acceleration, minimum and maximum speed, and step 

quantity. The controller decides how the profile must be based 

on these parameters, and generates a reference profile to drive 

the stepper motor. 

As a conclusion, a new controller based on a novel algorithm 

implemented by hardware was proposed. The new system provides 

a good combination to achieve both high speed and high 

precision motion on a compact hardware. Furthermore, this controller 

can easily drive full, half and micro-step mode applications 

due to the flexibility and the reduced computing time with 

the FPGA implementation. 

IV. EXPERIMENTAL RESULTS 

To evaluate the performance of the system, the developed algorithm 

was implemented in a Xilinx FPGA XC4006–3. This 

device can run at synchronous system clock rates up to 80 MHz 

and has a capacity 6000 logic gates. A hybrid stepping motor 

was used in the experiments. Motor characteristics: 400 step/rev, 

inertial moment 13 10 kg m , 10 N m. No 

aditional load was connected. 

Fig. 7. Velocity profile with the FPGA based system. 

The position measures were obtained through an incremental 

optical encoder ELAP-E521 with a resolution of 1024 

pulses/rev whose inertial moment is 10 kg m .Itwas 

coupled through an HELICAL-WA25 with an inertial moment 

of 10 kg m . 

The position curve was obtained by reading the encoder 

signal with a high resolution timer. The position was off line 

derived to obtain the speed profile. 

The muliplier works with a 40-MHz clock rate, which yield 

a multiplication time of 400 ns. ns was adopted, wich 

remains negligible in relation to the motor speed. 

The stepper motor must develop a 12 000 step displacement 

following a reference trapezoidal profile with charasteristics: 

steps s, steps s and a max acceleration 

steps s . 

The resultant speed and position profiles can be seen in Fig. 6. 

The low time allows an almost continuous profile and very 

high speeds, higher than those generated by standard software 

algorithms. Due to the characteristic of the profile, the stepper 

motor passes through resonance area [5]. This effect can be observed 

at low speeds in the profiles. 

Fig. 7 shows a complete profile obtained at high speeds with 

full step. Note the continuity at all the effective speed range. 

Fig. 8 shows a complete profile obtained for a microsteping 

application. The stepper motor used in this experiment was 

a SLO-SYN KML093F14C5 whose characteristics are: 200 

step/rev, holding torque 816 N cm and a rotor inertia 

3.32 kg cm . The position values were obtained through 

an optical incremental encoder with a resolution of 500 

pulses/rev. The microstep drive module used was an SLO-SYN 

MD808, configured to produce 2000 pulses/rev. As a consequence, 

the system must generate a high velocity profile 

with steps s, steps s and a max 

acceleration steps s . The time adopted for 

the application was 400 ns in order to reduce the speed jumps 

at to 1000 steps/s, so the speed jump remains under 5% 

of . This effect can be observed as a ripple component at 

the top of the profile.


Fig. 8. Velocity profile for microsteping application. 

The system achieved very high speed that was unreachable 

with standard algorithms executed by a processor. Furthermore 

the new controller does not require the timers, wich are necesary 

in conventional systems, and the processor was replaced by a 

FPGA of similar size and equivalent cost. 

V. CONCLUSION 

A novel algorithm with reduced quantity of operations was 

introduced. This algorithm implemented on FPGA allows a substantial 

decrease of the equivalent processing time developed by 

classic velocity controllers. As a consecuence, the stepper motor 

can reach very high speeds never obtained with standard algorithm 

based systems. 

Due to the system architecture, one FPGA can drive several 

stepper motors simultaneously without increasing the procesing 

time. It can drive three stepper motors with current 6000 gates 

FPGAs. This advantage make the system very convenient since 

it allows the increase of the number of motors, simply using a 

larger FPGA. 

REFERENCES 

[1] B. K. Bose, Ed., Modern Power Electronics. New York: IEEE Press, 

1992. 

[2] J. V. Wyk, H. Skudelny, and A. Müller-Hellmann, “Power electronics, 

control of the electromechanical energy conversion process and some 

applications,” Proc. Inst. Elect. Eng., vol. 133, no. 6, pp. 369–399, Nov. 

1986. 

[3] J. Crook, “Low cost microprocessor based speed control ,” in Proc. 13th 

Annu. Symp. Incremental Motion Control System and Devices, P. B. Kuo, 

Ed., Champaign, IL, May 1984, pp. 25–30. 

[4] Z. Kang and S. Qu, “A new methodology for using single microprocessor 

to control DC stepper motors,” in Proc. IEEE Int. Conf. Industrial 

Technology, Dec. 1994, pp. 543–545. 

[5] T. Kenjo and A. Sugawara, “Stepping motors and their microprocessor 

controls,” in Ser. Monographs in Electrical and Electronic 

Engineering. Oxford, U.K.: Oxford Univ. Press, 1994. 

[6] The Programmable Logic Data Book, Xilinx, San Jose, CA, 1999. 

[7] (2000) Xilinx Core Generator Tools . Xilinx. [Online]. Available: 

http://www.xilinx.com/products/logicore/coregen/index.htm 

[8] E. Boemo, E. Juárez, and J. Meneses, “Taxonomía de multiplicadores,” 

in Proc. 8th DCIS Conf., 1993, pp. 185–190. 

[9] J. L. Hennessy and D. Patterson, Computer Architecture: A Quantitative 

Approach. San Francisco, CA: Morgan Kaufmann, 1996. 

Daniel Carrica (M’84–SM’00) was born in Dolores, 

Argentina, in 1958. He received the engineer 

degree from the National University of Mar del Plata 

(UNMdP), Mar del Plata, Argentina, in 1984 and 

the M.Sc. degree in electronics from the Universidad 

Politécnica de Madrid, Madrid, Spain, in 1992. 

In 1984, he joined the Department of Electronics, 

National University of Mar del Plata (UNMdP), as 

a Research Assistant. From 1990 to 1991, he was an 

Associate Scientist at the European Organization for 

Nuclear Research (CERN), Geneva, Switzerland. 

From 1994 to 1996, he was Head of the Department of Electronics, UNMdP 

where he is currently an Associate Professor. He is also with the Centro Austral 

de Investigaciones Científicas (CADIC), Tierra del Fuego, Argentina. His 

current research interests include motion control and power electronics. 

Professor Carrica is a Vice President of the Joint Chapter of Argentina IEEE 

Section. 

Marcos A. Funes was born in Mar del Plata, 

Argentina in 1974. In 1999, he received his degree 

in electronic engineering from the Universidad 

Nacional de Mar del Plata (UNMdP), Argentina and 

joined the Laboratorio de Instrumentación y Control, 

(UNMdP) as research assistant. 

Since 2000, he is Assistant Professor and is currently 

working toward his Ph.D degree at UNMdP. 

His current research interests include high density 

programmable logic devices and digital signal 

processing. 

Sergio A. González (M’01) was born in Mar del 

Plata, Argentina, in 1972. He obtained the electronic 

engineering degree from the National University of 

Mar del Plata (UNMdP), Mar del Plata, Argentina, 

in 1999, where he is currently working toward the 

Ph.D. degree. 

Since 1999, he has been an Assistant Professor 

of control systems at the School of Engineering, 

UNMdP. Currently, he is a Research Assistant at the 

Laboratorio de Instrumentación y Control, UNMdP. 

His research interests include hardware design, 

digital signal processing, motion control and electromechanical systems 

dynamics. 

Mr. González is a Member of the International Federation of Automatic Control.

FPGA based stepper motor controller 

Sergio A. González 1 , Marcos A. Funes 1,2 , and Daniel Carrica 1,2 

1 Laboratorio de Instrumentación y Control 


mfunes@fi.mdp.edu.ar 

2 CONICET ⋆⋆ 

Abstract. This paper proposes a novel stepper motor controller based 

on Field Programable Gate Arrays, showing a remarkable performance. 

The system provides a combination between a novel algorithm developed 

by the authors in a previous work and programmable logic to achieve 

both high speed and high precision on a compact hardware. 

1 Introduction 

Several motion control applications in which a load must be moved precisely 

involve high speed positioning of stepper motors. When multiple stepper motors 

must be controlled, conventional control algorithms fail to produce a high speed 

step rate. This problem arose in the simultaneous control and velocity profile 

generation of up to 6 stepper motors in the alignment system of the CERN 

Compact Linear Collider (CLIC) application [1–3]. The precise positioning of the 

motors require the use of velocity profiles, which must be adjusted to a certain 

performance in speed and acceleration as well as the dynamics of the system in 

order to guarantee motion without step-loss. An intelligent system carries out 

the operation of calculating the index pulses through a time lagging sequence 

generation algorithm. For example, (1) and (2) express a typical algorithm for a 

trapezoidal profile [4]. 

∆t (k) = 

V (k) = 

2 

V 2 max − 2 (N − k − 1) a + V 2 max − 2 (N − 1) a 

1 step 

∆t (k) 

where V (k) is the resulting speed, Vmax is the maximum speed of the motor, N is 

the total number of steps or microsteps, a is the acceleration of the trapezoidal 

profile and ∆t (k) is the time of the k-th step. 

⋆⋆ This work was supported by the Universidad Nacional de Mar del Plata (ING- 

15/G130) and the Agencia Nacional de Promoción Científica y Tecnológica (BID 

1201/OC-AR 2002).The authors are with the Department of Electronics, Universidad 

Nacional de Mar del Plata and CONICET, Argentina. 

(1) 

(2)

2 Sergio A. González, Marcos A. Funes, and Daniel Carrica 

These schemes as well as the off-line ones make use of timers for obtaining the 

indexed pulses. Since it is necessary one timer per motor, this approach is often 

discouraged when multiple motors have to be commanded by a single processor. 

Another important disadvantage is the computing time Tc, required to compute 

(1). Tc imposes a practical limit to the speed. Moreover, not only Tc but 

the timer resolution, Tr, affect the maximum speed as in (3): 

Vmax = 

1 

Tr + Tc 

Current timer resolutions are small enough to discard the Tr at the equation. 

Therefore, (3) turns into (4). 

Vmax ˜= 1 

Standard algorithms fail to reach high speeds, mainly because the computing 

time, Tc. In order to resolve Vmax the goal is to provide a new algorithm with a 

more effective step generation procedure without timers. 

2 Proposed algorithm 

The proposed algorithm was introduced in a previous work [5]. The algorithm 

consists basically on a periodic accumulative sum until the intended velocity 

is reached. Fig. 1 shows the basic flowchart of a system that implements this 

algorithm. 

From Fig. 1, ∆t (k) resolution of the new algorithm is Tc since nk is an integer. 

∆t (k) resolution in the new algorithm arises to a velocity quantization 

problem because velocity is the inverse of ∆t (k). Since the term ∆t (k) is a multiple 

of Tc and nk 1, it turns out that the speed commanded has the following 

characteristics: 

Vk(n) = 1 

= 

∆tk 

1 

⎧ 

Vmax; nk = 1 

⎪⎨ Vmax 

2 

= 

nk · Tc 

⎪⎩ 

; nk = 2 

. 

. 

. 

. 

Vmax 

K ; nk 

(5) 

= K 

As an example, Fig. 2 shows a trapezoidal profile which starts at Vmin and has 

a maximum Vmax. In order to keep track of the intended speed (in discontinuous 

line), the system commands an initial value of nk = 7. This results in an initial 

speed of Vmax/7 which is the closest possible speed to the intended initial speed, 

Vmin. At t1, nk changes to 6. As a consequence a higher speed of Vmax/6 occurs. 

At t2, nk = 5 produces a commanded speed of Vmax/5. It then follows that 

at time t6 the commanding speed is Vmax which equals the intended velocity 

profile. 

The quantification effect is more remarkable at higher speeds when ∆t (k) 

times are smaller as Tc. The effect can also be explained since intermediate 

Tc 

(3) 

(4)

th 

t( k)=nk Tc 

 

t( k) 

FPGA based stepper motor controller 3 

Fig. 1. Flow chart of the algorithm 

speeds cannot take place between Vmax and Vmax/2. Neither between Vmax/2 

and Vmax/3, nor among Vmax/3 and Vmax/4, etc. 

Therefore, the algorithm developed does not require neither timers nor lookup 

tables and can work at higher speeds. It’s disadvantage is the quantification 

effect which depends on the magnitude of Tc. With current DSP technology, a 

minimum Tc = 6 µs is obtainable. This Tc magnitude produces a quantification 

level of 2000 steps at speeds around 15000 steps 

s , which shows the importance of 

the problem. 

3 Hardware implementation 

In order to reduce the computing time, a hardware implementation is proposed. 

The algorithm presented in Section 2 is simple enough to be executed by a custom 

hardware. Hardware implementation permits multiple parallel tasks, thus, 

providing an effective way of implementing true parallelism which allows a great 

reduction of computing time because operations such as the reference profile


Fig. 2. Intended velocity profile 

generation, multiplication and indexation can be executed in separate blocks 

and can run independently ones of the others. 

The equations of Fig. 1 are replaced by (6). Although, this means no changes 

in the algorithm, it reduces the pair of multiplications to only one. This fact allows 

an efficient hardware implementation without performance demerit. Hardware 

implementation of Fig. 1 is presented in Fig. 3, where the block diagram 

of the controller is shown. 

The hardware implementation of (6) is carried out by the MULTIPLIER and 

the COMPARATOR. 

VR · nk 1 

When the inequality is satisfied, a new step is commanded. The signal is then 

fed to the DRIVER INTERFACE, which commands the pulses to the driver of 

each motor phase. Fig. 3 shows a 4 phases motor. 

The clock period Tc of hardware implementation is equivalent to the computing 

time in the software execution of the algorithm of Section 2. The clock 

Tc 

(6)


period Tc defines the time resolution of the controller. As Tc can be well reduced 

in hardware approach, the quantization effect on the mechanical velocity will be 

negligible. 

Standard implementation of a multiplier is accomplish by a combinatorial 

structure. This approach is very good regarding the Tc time because it presents 

a minimum delay imposed by the logic gates, but it involves a great number of 

logic resources, which increase proportionally with the multiplier word length. As 

an example, a 16×16 bits product requires the 45% of a 20000 logic gates FPGA 

[6] [7]. In order to overcome the FPGA area problem, a sequential architecture for 

the multiplier is proposed [8] [9]. A sequential multiplier allows an effective area 

reduction of 10 times, but with a greater Tc, i.e. 16 clock pulses for a 16-bit word 

multiplier. However, a second approach using a fast scheme of the sequential 

multiplication (8 pulses per multiplication) achieve a Tc time of only 200 ns 

with a 40 MHz clock. As a consequence, the quantization problem is minimized 

and with the current scheme high speed profiles can be achieved to perform 

microstepping applications. Also, the proposed scheme require the 12% of the 

logic area allowing the implementation of several multipliers in the same FPGA. 

A trapezoidal profile is generated, with several parameters, such as acceleration, 

minimum and maximum speed, and step quantity. The controller decides 

how the profile must be based on these parameters, and generates a reference 

profile to drive the stepper motor. 

16 

1/T C 

COUNTER 

16 

Clock 

T c 

16 

n k 

COMPARATOR 

V 1/T 

R x nk 

MULTIPLIER 

C 

16 

V R x n k 

Reference velocity 

profile generator 

V R 

DRIVER 

INTERFACE 

Power 

Drivers 

Fig. 3. FPGA based control system 

Stepper 

motor


As a conclusion, a new controller based on a novel algorithm implemented by 

hardware was proposed. The new system provides a good combination to achieve 

both high speed and high precision motion on a compact hardware. Furthermore, 

this controller can easily drive full, half and micro-step mode applications due to 

the flexibility and the reduced computing time with the FPGA implementation. 


The alignment control system of the CERN Compact Linear Collider (CLIC), 

must regulate the position of the girders and quadruples with a 10 µm precision, 

so that the trajectory of the beam evolves aligned with the axial axis of cavities 

and quadruples, despite the multiple perturbations that affect the position. The 

displacement of girders and quadruples is performed through incremental motion 

motors. The girders that support the cavities are moved by three motors, while 

the quadruples are moved by five motors, all coupled by ball and socket joints, 

as schematically shown in Fig. 4. In the 4 sections, there is a grand total of 

70 motors along a distance of 5.6 m. Stepper motors are suitable for precise 

positioning in CLIC since motors with small step size are commonly available. 

The developed algorithm was tested on a prototype hardware where 6 motors 

must be controlled simultaneously, it has communication capacity with other 

hierarchic systems in order to produce the complete motion profile through all 

the sections. 

vertical 

motor 

: pivot 

z 

girder 

x 

vertical 

motor 

horizontal 

motor 

horizontal 

motor 

y1 

quadrupole 

vertical 

motor 

vertical 

motor 

Fig. 4. Motor layout in the girders and in the quadruples 

y2 

horizontal 

motor 

vertical 

motor 

To evaluate the performance of the system, the developed algorithm was 

implemented in a Xilinx FPGA XCS20-4. This device can run at synchronous 

system clock rates up to 80 MHz and has a capacity 10000 logic gates. A hybrid 

stepping motor was used in the experiments. Motor characteristics: 400 step 

rev , 

inertial moment 13 · 10 −7 kg m 2 , Tret = 33 · 10 −7 N m. No additional load was 

connected.

Position, [REV] 

Speed, [REV/s] 

150 

100 

50 

0 

80 

60 

40 

20 

0 


Position profile 

1 2 3 

Time, [s] 

4 5 6 

Velocity profile 

1 2 3 4 5 6 

Time, [s] 

Fig. 5. Position and velocity profile with the FPGA based system 

The position measures were obtained through an incremental optical encoder 

ELAP-E521 with a resolution of 1024 pulses per revolution whose inertial moment 

is 2.5 · 10 −6 kg m 2 . It was coupled through an HELICAL-WA25 with an 

inertial moment of 2.3 · 10 −6 kg m 2 . 

The position curve was obtained by reading the encoder signal with a high 

resolution timer. The position was off line derived to obtain the speed profile. 

The multiplier works with a 40 MHz clock rate, which yield a multiplication 

time of 200 ns. was adopted, which remains negligible in relation to the motor 

speed. 

The stepper motor must develop a 60000 step displacement following a refer- 

ence trapezoidal profile with characteristics: Vmin = 500 steps 

s , Vmax = 36000 steps 

s 

and a max acceleration amax = 16000 steps 

s 2 . 

The resultant speed and position profiles can be seen in Fig. 5. The low 

Tc time allows an almost continuous profile and very high speeds, higher than 

those generated by standard software algorithms. Due to the characteristic of 

the profile, the stepper motor passes through resonance area [4]. This effect can 

be observed at low speeds in the profiles.


Position, [REV] 

Speed, [REV/s] 

150 

100 

50 

0 

40 

30 

20 

10 

Position profile 

10 20 30 

Time, [s] 

40 50 60 

Velocity profile 

0 

0 10 20 30 

Time, [s] 

40 50 60 

Fig. 6. Position and velocity profile for microstepping application. 

Fig. 6 shows a complete profile obtained for a microstepping application. The 

stepper motor used in this experiment was a SLO-SYN KML093F14C5 whose 

characteristics are: 200 step 

rev , holding torque Thold = 816 N cm and a rotor inertia 

3.32 kg cm 2 . The position values were obtained through an optical incremental 

encoder with a resolution of 500 pulses per revolution. The microstep drive 

module used was an SLO-SYN MD808, configured to produce 2000 pulses per 

revolution. As a consequence, the system must generate a high velocity profile 

with Vmax = 72000 steps 

s . The Tc time adopted for the application was 200 ns in 

order to reduce the speed jumps under 5 % of Vmax. This effect can be observed 

as a ripple component at the top of the profile. 

The system achieved very high speed that was unreachable with standard 

algorithms executed by a processor. Furthermore the new controller does not require 

the timers, which are necessary in conventional systems, and the processor 

was replaced by a FPGA of similar size and equivalent cost.

5 Conclusions 


A novel algorithm with reduced quantity of operations was introduced. This algorithm 

implemented on FPGA allows a substantial decrease of the equivalent 

processing time developed by classic velocity controllers. As a consequence, the 

stepper motor can reach very high speeds never obtained with standard algorithm 

based systems. 

Due to the system architecture, one FPGA can drive several stepper motors 

simultaneously without increasing the processing time. It can drive three stepper 

motors with current 10000 gates FPGAs. This advantage make the system very 

convenient since it allows the increase of the number of motors, simply using a 

larger FPGA. 


1. W. Coosemans and H. Mainaud, “Pre-alignment of clic using the double-wire 

method,” European Organization of Nuclear Research (CERN), Tech. Rep. 343, 

July 1997, CLIC-NOTE 343. 

2. H. Braun, “Experimental results and technical research and development at CTFII,” 

in Proc. European Particle Accelerator Conference-EPAC2000, Vienna, Austria, 

June 20–30, 2000, pp. 48–52. [Online]. Available: http://accelconf.web.cern.ch/ 

accelconf/e00/ 

3. P. Poirier, “Lalignement dynamique submicrometrique de sections acceleratrices,” 

Memoire de soutenance du Diplome de Recherche Specialisee en Sciences, Universite 

Louis Pasteur de Strasbourg, September 1991. 

4. T. Kenjo and A. Sugawara, Stepping Motors and their Microprocessor Controls, 

2nd ed., ser. Monographs in Electrical and Electronic Engineering. Oxford, U.K.: 

Oxford University Press, 1995. 

5. D. O. Carrica and S. A. González, “Algoritmo eficiente para la generación de perfiles 

de velocidad en el accionamiento simultáneo de múltiples motores paso a paso,” VIII 

Reunión de Trabajo en Procesamiento de la Información y Control., Vol. I , 1999, 

pp. 118–122. 

6. The Programable Logic Data Book. Xilinx, 2000. 

7. “Core generator,” http://www.xilinx.com/products/logicore/coregen/index.htm, 

2000. 

8. M. Funes, D. Carrica, and M. Benedetti, “Multiplicadores secuenciales para estructuras 

FPGA,” IX Reunión de Trabajo en Procesamiento de la Información y 

Control., vol. Vol. II, pp. 646–651, 2001. 

9. J. L. Hennessy and D. Patterson, Computer Architecture: A Quantitative Approach. 

San Francisco, California ISBN: 1-55860-329-8: Morgan Kaufmann Publishers, Inc., 

1996.

Multiplicación Secuencial en Dispositivos Lógicos Programables

Create successful ePaper yourself

Delete template?

Save as template?