estudio de librerías numéricas y su aplicaci´on a la simulaci´on de ...

UNIVERSIDAD DE SANTIAGO DE COMPOSTELA 

FACULTAD DE FISICA 

Departamento de Electrónica y Computación 

ESTUDIO DE LIBRERÍAS NUMÉRICAS 

Y SU APLICACIÓN A 

LA SIMULACIÓN DE TRANSISTORES 

Memoria de licenciatura 

Natalia Seoane Iglesias 

Octubre, 2003

Dr. Antonio Jesús García Loureiro, Profesor Asociado del 

Departamento de Electrónica y Computación de la Universidad 

de Santiago de Compostela. 

CERTIFICA: 

Que la memoria titulada “Estudio de librerías numéricas 

y su aplicación a la simulación de transistores”, ha sido 

realizada por Dña. Natalia Seoane Iglesias bajo mi dirección 

en el Departamento de Electrónica y Computación de la Universidad 

de Santiago de Compostela y constituye la Tesina que 

presenta para optar al grado de Licenciada en Ciencias Físicas. 

Fdo. Antonio J. García Loureiro 

Director de la tesina 

Fdo. Diego Cabello Ferrer, 

Director del Departamento de 

Electrónica e Computación. 

Santiago, Octubre de 2003

Agradecimientos 

Deseo expresar mi agradecimiento a todas aquellas personas que de una 

forma u otra han posibilitado la realización de esta memoria. 

En primer lugar a mi tutor, Antonio García Loureiro, por su paciencia, 

consejo y apoyo. 

A todos los miembros del Departamento de Electrónica y Computación 

y a los compañeros del Grupo de Arquitectura de Computadores, en especial 

a Alex y Javi por haber soportado mis dilemas con buen humor y a Marcos 

por su ayuda en todos esos problemillas que me surgían. 

A mi familia, que me conoce y entiende. 

A mis amigas que siempre están ahí (y ya van 11 años). 

A Manolo, mi cómplice.

A mi familia, amigas y M.

Índice general 

Introducción 1 

1. Dispositivos de efecto campo con heteroestructuras: HEMT 3 

1.1. Heteroestructuras de semiconductores . . . . . . . . . . . . . 3 

1.1.1. Tensión en las heterointerfaces . . . . . . . . . . . . . 7 

1.1.2. Control del dopado . . . . . . . . . . . . . . . . . . . . 7 

1.2. Transistores de heteroestructura de efecto campo . . . . . . . 8 

1.2.1. Modulación del dopado . . . . . . . . . . . . . . . . . 9 

1.2.2. Física de los FETs de heteroestructura . . . . . . . . . 11 

1.2.3. Funcionamiento de los dispositivos HEMT . . . . . . . 12 

1.2.4. Modelización de transistores HEMT . . . . . . . . . . 14 

2. Introducción a los computadores paralelos 21 

2.1. Características de los computadores paralelos . . . . . . . . . 22 

2.1.1. Organización de la memoria . . . . . . . . . . . . . . . 22 

2.1.2. Redes de interconexión . . . . . . . . . . . . . . . . . . 25 

2.1.3. Nivel de paralelismo . . . . . . . . . . . . . . . . . . . 26 

2.2. Tipos de programación paralela . . . . . . . . . . . . . . . . . 27 

2.3. Cluster Beowulf . . . . . . . . . . . . . . . . . . . . . . . . . . 29 

2.4. Origin 200 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 

3. Sistemas de ecuaciones lineales 35 

3.1. Métodos de resolución de sistemas de ecuaciones . . . . . . . 35 

3.2. Factorización LU . . . . . . . . . . . . . . . . . . . . . . . . . 39 

3.3. Precondicionadores . . . . . . . . . . . . . . . . . . . . . . . . 40 

3.3.1. Precondicionadores clásicos . . . . . . . . . . . . . . . 41 

3.3.2. Precondicionadores multimalla . . . . . . . . . . . . . 43 

3.3.3. Precondicionadores basados en descomposición de dominios 

. . . . . . . . . . . . . . . . . . . . . . . . . . . 43 

3.4. Técnicas de almacenamiento de matrices dispersas . . . . . . 45 

I

II ÍNDICE GENERAL 

3.4.1. Formato CRS (Compressed Row Storage) . . . . . . . 46 

3.4.2. Formato CCS (Compressed Column Storage) . . . . . 46 

3.4.3. Formato MSR (Modified Compressed Sparse Row) . . 46 

3.4.4. Formato HB (Harwell Boeing) . . . . . . . . . . . . . 47 

3.5. Librerías numéricas . . . . . . . . . . . . . . . . . . . . . . . . 47 

3.5.1. SPARSKIT . . . . . . . . . . . . . . . . . . . . . . . . 49 

3.5.2. PSPARSLIB . . . . . . . . . . . . . . . . . . . . . . . 51 

3.5.3. SuperLU . . . . . . . . . . . . . . . . . . . . . . . . . 63 

3.5.4. PETSc . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 

3.5.5. Aztec . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 

4. Resultados numéricos 73 

4.1. Descripción del simulador . . . . . . . . . . . . . . . . . . . . 74 

4.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 

4.2.1. SPARSKIT . . . . . . . . . . . . . . . . . . . . . . . . 78 

4.2.2. SuperLU . . . . . . . . . . . . . . . . . . . . . . . . . 85 

4.2.3. PSPARSLIB . . . . . . . . . . . . . . . . . . . . . . . 86 

4.2.4. PETSc . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 

4.2.5. Aztec . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 

Conclusiones 107 

Bibliografía 111

Índice de figuras 

1.1. Representación de la constante de red frente a Egap para las 

aleaciones de semiconductores más comunes. . . . . . . . . . 4 

1.2. Representación de las bandas de conducción y valencia en una 

heterounión AlGaAs–GaAs . . . . . . . . . . . . . . . . . . . 5 

1.3. Estructura de bandas para una heterounión n–AlGaAs y GaAs 

intrínseco en equilibrio . . . . . . . . . . . . . . . . . . . . . . 6 

1.4. En la figura (a) la capa epitaxial que se crece es lo suficientemente 

fina como para que se adapten las constantes de red, 

en la figura (b) esta capa es más ancha que el grosor crítico, 

lo que provoca la aparición de dislocaciones. . . . . . . . . . . 8 

1.5. Estructura de bandas para una heterounión n–AlGaAs y GaAs 

intrínseco teniendo en cuenta modulación del dopado . . . . . 10 

1.6. Estructura epitaxial de un HEMT de AlGaAs–GaAs básico. . 11 

1.7. Curva característica ID − VD para un dispositivo HEMT . . . 14 

2.1. Ejemplos de topologías de redes de interconexión. . . . . . . . 26 

2.2. Cluster Beowulf . . . . . . . . . . . . . . . . . . . . . . . . . . 30 

2.3. Configuración del Origin 200 con 4 procesadores . . . . . . . 32 

3.1. Factorización LU básica . . . . . . . . . . . . . . . . . . . . . 39 

3.2. Ejemplo de factorización incompleta LU(0) . . . . . . . . . . 42 

3.3. (a) Malla asociada a un dominio dividido en tres subdominios, 

(b) matriz asociada a la malla anterior . . . . . . . . . 44 

3.4. Ejemplo de pseudo–código para el protocolo de comunicación 

inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 

3.5. Representación local de una matriz dispersa distribuida . . . . 52 

3.6. Solapamiento de dominios . . . . . . . . . . . . . . . . . . . . 57 

3.7. (a) Etiquetado natural para una malla bicolor , (b) Reordenamiento 

blanco–negro de los nodos . . . . . . . . . . . . . . . . 58 

III

IV ÍNDICE DE FIGURAS 

3.8. (a)Malla asociada a un subdominio dividido en tres subdominios 

según un particionamiento basado en vértice, (b) Matriz 

asociada a la malla anterior . . . . . . . . . . . . . . . . . . . 61 

3.9. Estructura de datos para las matrices L y U . . . . . . . . . . 65 

3.10. Organización de la librería PETSc . . . . . . . . . . . . . . . 67 

3.11. Estructura de la librería PETSc . . . . . . . . . . . . . . . . . 68 

3.12. Ejemplo de particionamiento de una malla de elementos finitos 70 

4.1. Curva característica experimental del PHEMT de 120nm . . . 74 

4.2. Potencial electrostático en el equilibrio . . . . . . . . . . . . . 75 

4.3. Concentración de electrones en equilibrio . . . . . . . . . . . . 76 

4.4. Representación esquemática del dispositvo PHEMT . . . . . . 76 

4.5. Malla tetraédrica del PHEMT de 120nm dividida en tres subdominios 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 

4.6. Tiempo de la factorización incompleta LU para la matriz poisson6 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 

4.7. Tiempo de la factorización incompleta LU para la matriz electron6 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 

4.8. Dependencia del número de iteraciones con el llenado para la 

matriz poisson6 . . . . . . . . . . . . . . . . . . . . . . . . . . 80 

4.9. Relación entre el llenado y el tiempo de resolución para la 


4.10. Relación entre la dimensión del subespacio de Krylov y el 

tiempo de resolución para la matriz poisson6 . . . . . . . . . 82 



4.12. Relación entre el llenado y el tiempo de resolución para la 

matriz electron6 . . . . . . . . . . . . . . . . . . . . . . . . . 84 


matriz electron6 . . . . . . . . . . . . . . . . . . . . . . . . . 84 

4.14. Relación entre la dimensión del subespacio de Krylov y el 

tiempo de resolución para la matriz electron6 . . . . . . . . . 85 

4.15. Tiempo de la factorización LU para la matrices poisson6 y 

electron6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 

4.16. Tiempo de la factorización local LU incompleta para la matriz 

poisson6 y su dependencia con el llenado . . . . . . . . . . . . 87 

4.17. Tiempo de la factorización local LU incompleta para la matriz 

electron6 y su dependencia con el llenado . . . . . . . . . . . 87 

4.18. Dependencia del tiempo de resolución con el llenado para el 

resolutor FGMRES . . . . . . . . . . . . . . . . . . . . . . . . 89

ÍNDICE DE FIGURAS V 

4.19. Comparativa entre los resolutores FGMRES, BCGSTAB y 

TFQMR para un llenado 15 y una dimensión del subespacio 

de Krylov de 50 . . . . . . . . . . . . . . . . . . . . . . . . . . 89 

4.20. Dependencia del número de iteraciones con el llenado y el 

número de procesadores para el resolutor FGMRES . . . . . . 90 

4.21. Dependencia del tiempo de resolución con el llenado y el número 

de procesadores para el resolutor FGMRES . . . . . . . . . 90 


de procesadores para el resolutor BCGSTAB . . . . . . . . 91 


de procesadores para el resolutor TFQMR . . . . . . . . . 91 


resolutor GMRES . . . . . . . . . . . . . . . . . . . . . . . . 93 

4.25. Comparativa entre los resolutores TFQMR, BCGSTAB y GM- 

RES para un llenado 15 y una dimensión del subespacio de 

Krylov de 50 . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 

4.26. Comparativa entre los métodos Schwarz aditivo y SOR multicolor 

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 



4.28. Comparativa entre los resolutores TFQMR, BCGSTAB y FGM- 

RES para un llenado 50 . . . . . . . . . . . . . . . . . . . . . 95 


precondicionador lschur . . . . . . . . . . . . . . . . . . . . . 96 

4.30. Comparativa entre los precondicionadores lschur y rschur para 

un llenado 50 . . . . . . . . . . . . . . . . . . . . . . . . . 96 

4.31. Comparativa entre los métodos de resolución Schwarz aditivo, 

Schur y SOR multicolor . . . . . . . . . . . . . . . . . . . . . 97 


precondicionador lschur . . . . . . . . . . . . . . . . . . . . . 98 

4.33. Comparativa entre los métodos de resolución Schwarz aditivo, 

Schur y SOR multicolor . . . . . . . . . . . . . . . . . . . . . 98 

4.34. Dependencia del tiempo total de resolución con el nivel de 

llenado para el resolutor GMRES . . . . . . . . . . . . . . . . 100 


llenado para el resolutor BCGSTAB . . . . . . . . . . . . . . 100 


llenado para el resolutor GMRES . . . . . . . . . . . . . . . . 101 


llenado para el resolutor BCGSTAB . . . . . . . . . . . . . . 101

VI ÍNDICE DE FIGURAS 

4.38. Dependencia del tiempo del resolutor GMRES con el nivel de 

llenado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 

4.39. Dependencia del tiempo de resolución con el ilut fill para el 



resolutor BCGSTAB . . . . . . . . . . . . . . . . . . . . . . . 103 


resolutor BCGSTAB . . . . . . . . . . . . . . . . . . . . . . . 104 


resolutor GMRES . . . . . . . . . . . . . . . . . . . . . . . . 104

Índice de tablas 

3.1. Modo de almacenamiento CRS para la matriz dispersa . . . . 46 

3.2. Modo de almacenamiento CCS para la matriz dispersa . . . . 46 

3.3. Modo de almacenamiento MSR para la matriz dispersa . . . . 47 

4.1. Dopados y dimensiones del PHEMT . . . . . . . . . . . . . . 74 

VII

VIII ÍNDICE DE TABLAS

Introducción 

La utilización de herramientas software para el desarrollo de dispositivos 

electrónicos es, en la actualidad, una alternativa eficiente a los métodos 

tradicionales, basados en la aproximación experimental. Por medio de la simulación 

numérica computerizada podemos obtener información de la física 

de los procesos de fabricación, del comportamiento de los dispositivos y del 

rendimiento de los circuitos, logrando así reducir los costes de desarrollo de 

los nuevos circuitos integrados. 

Un problema común a todos los simuladores de procesos, dispositivos y 

circuitos es el elevado tiempo de computación que requieren, cuyo origen 

está en el alto número de datos a procesar (sobre todo en el tratamiento 

de problemas tridimensionales) y en la lentitud de las técnicas numéricas 

empleadas. 

En esta memoria partimos de un simulador de dispositivos tridimensional 

y paralelo, aplicado a dispositivos HEMT, sobre el que pretendemos estudiar 

el efecto de las variaciones tanto en el dopado como en la composición de los 

compuestos ternarios que se producen en la fabricación de estos dispositivos 

cuando se escalan a dimensiones submicrométricas. Con el fin de obtener 

resultados realistas es necesario realizar un análisis estadístico adecuado, 

siendo preciso para ello un número considerable de simulaciones. Por lo tanto 

tratamos de realizar un análisis de algunas librerías numéricas actuales, de 

los métodos de resolución y de precondicionamiento que implementan, con 

el fin de intentar reducir lo máximo posible el tiempo de computación. 

La memoria se divide en cuatro capítulos: 

En el primer capítulo se realiza una descripción de los principios físicos 

en los que se basan las heteroestructuras, para centrarse a continuación en 

los transistores HEMT, detallando su modo de funcionamiento y algunas de 

las técnicas de modelización existentes. 

En el segundo capítulo se hace una introducción a los sistemas multiprocesador 

y se describen las principales características de la programación 

paralela, para pasar, posteriormente a caracterizar los sistemas empleados, 

1

2 Introducción 

el cluster Beowulf y el Origin 200. 

En el tercer capítulo se estudian los métodos de resolución que se 

pueden emplear para resolver los sistemas lineales, junto con los precondicionadores 

utilizados para acelerar la convergencia de los métodos iterativos. 

Realizamos una descripción más profunda de las librerías numéricas de 

resolutores paralelos que hemos manejado y los distintos modos de almacenamiento 

que se pueden utilizar en las matrices dispersas. 

En el cuarto capítulo inicialmente se describen algunas de las principales 

características del programa de simulación utilizado. A continuación 

nos centramos en las librerías numéricas, empezando por la librería secuencial 

SPARSKIT, con la que realizamos un estudio de una gran variedad de 

resolutores que servirá como base para los análisis de las librerías posteriores, 

puesto que sólo trataremos los resolutores que presentaran mejores 

resultados con esta librería. Las librerías que se estudian a continuación son 

SuperLU, PSPARSLIB, PETSc y Aztec. 

Finalmente se presentan las conclusiones, donde se resumen las principales 

aportaciones de este trabajo y se sugieren posibles líneas de investigación 

en este campo.

Capítulo 1 

Dispositivos de efecto campo 

con heteroestructuras: 

HEMT 

Los transistores HEMT (High Electron Mobility Transistor)[BB02, RR02] 

basados en la formación de heteroestructuras de semiconductores, están reemplazando 

rápidamente a la tecnología convencional MOSFET en aplicaciones 

militares y comerciales que requieran alta ganancia y ruido reducido, 

sobre todo para frecuencias elevadas. Constituyen un importante campo de 

investigación actual debido a sus interesantes propiedades y a su posible 

utilidad en campos como las aplicaciones de microondas y las digitales de 

alta velocidad. 

Antes de describir el dispositivo se introducen una serie de conceptos útiles 

para la posterior comprensión del funcionamiento del transistor HEMT. 

Inicialmente nos centramos en los principios físicos en los que se basan las 

heteroestructuras, tratando también ciertos factores que influyen sobre ellas, 

como pueden ser la tensión en las heterointerfaces y el control del dopado 

introducido, para abordar después la descripción del dispositivo y su funcionamiento, 

que es, en cierto modo, análogo al de los transistores MOSFET 

[Pie94]. Por último presentamos algunas de las técnicas de modelización y 

simulación de estos dispositivos. 

1.1. Heteroestructuras de semiconductores 

Una heteroestructura se forma al poner contacto dos materiales semiconductores 

de características muy diferentes, siendo una de las técnicas más 

utilizadas para ello el crecimiento epitaxial. Las principales propiedades que 

3

4 Capítulo 1. Dispositivos de efecto campo con heteroestructuras: HEMT 

Figura 1.1: Representación de la constante de red frente a Egap para las 

aleaciones de semiconductores más comunes. 

afectan al comportamiento de la heteroestructura son sus constantes de red, 

concentraciones de dopado y energías de banda prohibida (Egap). 

Las heterouniones están compuestas normalmente de materiales cuya 

constante de red es muy parecida. La figura 1.1 muestra la energía de banda 

prohibida frente a la constante de red de los elementos más comunes de la 

III–IV familia(3 a y 5 a columna de la tabla periódica) y los basados en silicio 

[BB02]. 

Las líneas continuas de la figura 1.1 unen elementos que darían lugar a 

materiales directos, en los que el mínimo de la banda de conducción coincide 

con el máximo de la banda de valencia en una representación energía– 

momento. En cambio elementos unidos por líneas discontinuas formarían 

semiconductores indirectos. Al desplazarse a lo largo de las líneas se varía 

la fracción molar que aporta cada uno de los componentes en la formación 

del compuesto ternario. En el caso de materiales cuaternarios (formados 

por cuatro elementos) tendríamos una superficie delimitada por tres compuestos 

(puntos en la gráfica) por la que podremos movernos al variar la 

composición. Los elementos que podamos unir en la gráfica por una línea 

aproximadamente vertical proporcionarán materiales de constantes de red

1.1. Heteroestructuras de semiconductores 5 

Figura 1.2: Representación de las bandas de conducción y valencia en una 

heterounión AlGaAs–GaAs 

muy similares, siendo sus Egap diferentes en función de la composición. 

Una de las heteroestructuras más importantes es la formada entre GaAs 

y AlAs, o su compuesto relacionado el AlxGa1−xAs, siendo x la razón de 

mezcla. En la heteroestructura GaAs−AlxGa1−xAs los dos materiales que la 

componen tienen constantes de red prácticamente idénticas (como podemos 

ver en la gráfica 1.1), propiedad muy importante puesto que de no ser así se 

producirían tensiones o dislocaciones perjudiciales. Partiendo de la figura 

1.2, en la que representamos las bandas de conducción y valencia de la 

heterounión, observamos que sus Egap son diferentes, de tal forma que en 

la heterounión ∆Egap = ∆Ec + ∆Ev, donde la Egap del GaAs a 300K es 

1.42 eV, mientras que en el caso del AlxGa1−xAs la anchura de la banda 

prohibida varía con la composición de la siguiente forma: 

E gap(x) = 1,424 + 1,247x 0 < x < 0,45 (1.1) 

siendo x la razón de mezcla. 

En cambio no es posible formar heteroestructuras entre AlAs y AlSb, 

puesto que al existir una fuerte dependencia entre la composición y la constante 

de red las razones de mezcla que nos proporcionarían materiales con 

distintas Egap provocarían al mismo tiempo diferencias considerables entre 

sus constantes de red. 

En general la Egap de los materiales semiconductores que forman la heteroestructura 

es diferente, por lo tanto las bandas de conducción (BC) y 

valencia (BV) de los dos materiales no pueden ser continuas simultáneamente 

en la heterointerfaz; en realidad generalmente ambas son discontinuas en la 

superficie de separación. Dependiendo de la aplicación el valor de la energía 

de la banda prohibida se ajustará cambiando los elementos que componen 

la heteroestructura (p.ej Galio por Indio o Aluminio) o bien variando la 

composición de la aleación.


Figura 1.3: Estructura de bandas para una heterounión n–AlGaAs y GaAs 

intrínseco en equilibrio 

La heterounión se puede crear utilizando dos materiales intrínsecos o 

dopando uno o ambos materiales. Como ejemplo vamos a estudiar el caso 

de una heterounión de n–AlGaAs y GaAs intrínseco. Sabiendo que en el 

equilibrio el nivel de Fermi es constante y lejos de la unión se recuperan 

las propiedades masivas de los materiales podemos construir el diagrama 

de bandas de energía. Para ello también será necesario definir una serie de 

cantidades: 

1. φ (función de trabajo): La energía qφ es la necesaria para promocionar 

a un electrón desde el nivel de Fermi hasta el nivel de vacío (es decir, 

la energía necesaria para arrancar un e − ). 

2. χ (afinidad electrónica): siendo qχ la energía requerida para llevar al 

e − desde el borde de la banda de conducción al nivel de vacío. 

En la figura 1.3 se representan los diagramas de bandas de energía en el 

caso de que los materiales estén separados (a) o puestos en contacto (b). 

El potencial de contacto Vbi se define como la diferencia de las funciones 

de trabajo de los materiales constituyentes, así

1.1. Heteroestructuras de semiconductores 7 

Vbi = φ2 − φ1 

(1.2) 

donde φ2 y φ1 son las funciones de trabajo de los semiconductores de band– 

gap estrecho y ancho respectivamente. En este ejemplo en concreto la diferencia 

entre las funciones de trabajo sería: 

Vbi = φ2 − φ1 = ∆Ec 

q 

+ kBT 

q lnn10Nc2 

n20Nc1 

(1.3) 

donde n10 y n20 son las concentraciones en el equilibrio de los semiconductores 

de band–gap ancho y estrecho y Nc2, Nc1 las densidades efectivas de 

estados. 

Seguidamente se van a tratar dos factores que influyen notablemente en 

la formación de las heteroestructuras: la tensión en las heterointerfaces y el 

control del dopado. 

1.1.1. Tensión en las heterointerfaces 

Las fronteras abruptas entre distintas capas semiconductoras se forman 

utilizando principalmente dos métodos: MBE (Molecular Beam Epitaxy) y 

MOCVD (Metal–Organic Chemical Vapor Deposition). En estos métodos 

las capas se crecen epitaxialmente (capa atómica a capa atómica) sobre un 

sustrato con una adecuada constante de red. 

La tecnología de crecimiento cristalino permite actualmente crear capas 

muy finas de materiales semiconductores heterogéneos, lo cual ha posibilitado 

el desarrollo de heteroestructuras. Este crecimiento se consigue incluso en 

el caso de que las constantes de red de los materiales sean diferentes. En ese 

caso, la capa fina adoptará la constante de red del material que la rodea, teniendo 

que expandirse o contraerse para adaptarse, abandonando para ello 

su forma cristalina masiva. Se dice entonces que las constantes de red se 

acomodan por tensión, (ver figura 1.4(a)). A partir de un cierto grosor de la 

capa delgada no se consigue el alineamiento de las constantes de red, por lo 

que cada capa mantendrá su constante de red inicial. Esto provocará la formación 

de dislocaciones en la superficie de separación, que pueden degradar 

significativamente la fiabilidad y el rendimiento del dispositivo. Este efecto 

lo podemos ver en la figura 1.4(b). 

1.1.2. Control del dopado 

En los dispositivos basados en heterouniones debe ser posible introducir 

abruptamente dopantes tipo n ó p con un rango de composición entre 10 15 y 

10 20 cm −3 . Para controlar la concentración de electrones y huecos, el número


Figura 1.4: En la figura (a) la capa epitaxial que se crece es lo suficientemente 

fina como para que se adapten las constantes de red, en la figura (b) 

esta capa es más ancha que el grosor crítico, lo que provoca la aparición de 

dislocaciones. 

de defectos e impurezas debe ser insignificante. Aunque las dos técnicas epitaxiales 

más comunes, MBE (Molecular Beam Epitaxy) y MOCVD (Metal– 

Organic Chemical Vapor Deposition) son inherentemente de alta pureza, 

durante el crecimiento se introducen impurezas de fondo. 

Los dispositivos HEMT requieren altas concentraciones de dopantes con 

interfaces abruptas. La difusión y la separación en la superficie de los dopantes 

pueden introducir perfiles de dopado no–ideales. La difusión de los 

dopantes puede darse tanto durante el crecimiento como después (en el momento 

del funcionamiento) a causa del propio calentamiento del dispositivo. 

1.2. Transistores de heteroestructura de efecto campo 

El más utilizado de los transistores de efecto campo es el MOSFET (transistor 

de efecto campo Metal– Óxido Semiconductor). En estos transistores 

el semiconductor más empleado es el Si. Este material tiene la ventaja de ser 

oxidado fácilmente para formar SiO2, de una manera altamente controlable 

y reproducible. La superficie de separación Si−SiO2 se puede crear con una 

muy buena regularidad, produciendo muy pocos defectos. En definitiva los 

MOSFETs de Si se pueden fabricar en grandes cantidades, siendo fácilmente 

integrables para formar circuitos a gran escala. La principal limitación de

1.2. Transistores de heteroestructura de efecto campo 9 

los MOSFETs de Si se encuentra en que este material es de baja movilidad. 

La mayoría de los semiconductores compuestos (GaAs, InP, etc) tienen 

movilidades mayores que la del silicio. Así dispositivos fabricados utilizando 

semiconductores compuestos pueden presentar frecuencias de operación 

superiores a las del MOSFET de Si, aunque por otro lado presentan el problema 

de carecer de aislantes válidos que permitan su uso en la fabricación 

de MOSFETs. 

En vez de utilizar estructuras Metal– Óxido–Semiconductor, la acción de 

la puerta en un FET puede lograrse usando barreras Schottky, formando 

dispositivos conocidos como MESFETs. Para su construcción se pueden utilizar 

semiconductores compuestos puesto que no necesitan capas de aislante. 

Así, mientras que en los MOSFETs el flujo de corriente se produce próximo 

a la superficie, en la capa de inversión formada entre el Si y el SiO2, en 

los MESFETs el flujo de corriente tiene lugar en el semiconductor masivo, 

surgiendo los portadores de la concentración de dopado de esta zona. Como 

la corriente en un MESFET se da en la zona masiva, los portadores y 

los átomos donadores comparten el mismo espacio. Dado que el donador 

se introduce ionizado, un centro fijo y cargado positivamente está presente 

en el cristal produciendo una dispersión culombiana bastante grande sobre 

los electrones libres, conocida como scattering por impurezas ionizadas. La 

importancia de este fenómeno depende de la separación espacial entre los 

centros de scattering (en este caso los átomos ionizados donadores) y los 

e− . Al aumentar la concentración de donadores, el scattering por impurezas 

ionizadas se incrementa, reduciendo la movilidad electrónica en el dispositivo. 

Si los átomos donadores se separaran físicamente de los portadores lograríamos 

reducir el scattering culombiano. Esto se puede conseguir a través 

de la modulación del dopado, técnica descrita en el apartado siguiente. 

1.2.1. Modulación del dopado 

Las técnicas convencionales de dopado son útiles para aumentar la concentración 

de portadores libres y mejorar la conductividad del semiconductor, 

pero esto se produce a expensas de un incremento del scattering por 

impurezas ionizadas. La modulación del dopado es una alternativa eficaz a 

las técnicas convencionales, puesto que en una heteroestructura con modulación 

del dopado, los portadores libres se encuentran separados físicamente 

de los dopantes. Esta separación espacial entre ambos reduce la acción del 

scattering por impurezas ionizantes, lográndose aumentar la concentración 

de los portadores sin comprometer la movilidad.


Figura 1.5: Estructura de bandas para una heterounión n–AlGaAs y GaAs 

intrínseco teniendo en cuenta modulación del dopado 

Si partimos de una heteroestructura formada con un semiconductor dopado 

tipo n de band–gap elevado (p.ej. AlGaAs tipo n) y otro semiconductor 

intrínseco de band–gap reducido (p.ej. GaAs), inicialmente cuando los dos 

materiales se encuentran separados, el nivel de Fermi en el caso del AlGaAs 

se encuentra más próximo a la banda de conducción que a la de valencia, 

como podemos ver en la figura 1.3. Al alcanzarse el equilibrio, después de 

poner los dos materiales en contacto, el nivel de Fermi se debe alinear a lo 

largo de toda la estructura. Para ello se deben transferir e − desde la capa del 

AlGaAs a la del GaAs, puesto que los e − asociados con los donadores ven 

estados de menor energía en el material de band–gap estrecho (GaAs). Esto 

provoca un aumento de la concentración electrónica dentro del GaAs, sin 

implicar por ello un incremento de las impurezas ionizadas. Los átomos donadores 

ionizados en el interior del AlGaAs tienen una carga neta positiva, 

que se balancea con la negativa debida a la transferencia en el GaAs. Aunque 

los átomos ionizados influyen sobre los e − transferidos en el GaAs, la 

separación espacial entre ambos mitiga el efecto de la atracción culombiana


Figura 1.6: Estructura epitaxial de un HEMT de AlGaAs–GaAs básico. 

entre ellos. 

Nos encontramos con que los electrones se encuentran confinados en una 

capa extremadamente fina, muy próxima a la heterounión, donde la energía 

de Fermi es superior a la energía de la banda de conducción (ver figura 1.5). 

Esto confiere al canal una resistividad muy baja. La separación espacial de 

los donadores (cargados positivamente) y los e − produce un perfil de campo 

eléctrico gobernado por la ecuación de Poisson, lo cual ocasiona una flexión 

de la banda. Dependiendo del grado de curvatura de la banda en la capa de 

GaAs se puede dar cuantización espacial. Es decir si la curvatura de la banda 

en la superficie es considerable se puede formar un pozo de potencial de 

dimensiones comparables a la longitud de onda de De Broglie. Se producirán 

entonces niveles cuantizados de energía y el sistema se comportará como un 

gas de electrones bidimensional (2DEG). 

Los transistores de heteroestructura de efecto campo (HFETs) 

utilizan esta técnica para alcanzar altas densidades de corriente, manteniendo 

al mismo tiempo una elevada movilidad de los portadores. Además, estos 

dispositivos pueden alcanzar un rendimiento óptimo a altas frecuencias al 

utilizar semiconductores de alta movilidad. 

1.2.2. Física de los FETs de heteroestructura 

La forma más extendida de FET de heteroestructura se conoce como 

MODFET (Modulation Doped Field Efect Transistor) o alternativamente 

como HEMT (High Electron Mobility Transistor).


En la estructura básica de un HEMT de GaAs–AlGaAs se crece epitaxialmente 

una capa de AlGaAs dopada tipo n sobre GaAs intrínseco formando 

una heteroestructura. Los e − se encuentren confinados por la barrera de 

potencial formada en la heterounión, consiguiendose así que la superficie de 

la capa de GaAs tenga una alta concentración electrónica separada espacialmente 

de los donadores ionizados del interior de la capa de AlGaAs. 

La variación más sencilla de la estructura básica del transistor es la 

representada en la figura 1.6, consistente en introducir una capa de AlGaAs 

no dopado (capa espaciadora) entre las capas de n–AlGaAs y GaAs. De 

esta forma se consigue reducir el scattering por impurezas ionizadas además 

de incrementar la movilidad electrónica. El grosor de esta capa se encuentra 

típicamente entre los 20–50 ˚A. Cuanto más gruesa sea la capa espaciadora 

mayor realzamiento de la movilidad electrónica se produce, pero al mismo 

tiempo se reduce la densidad de los portadores, efecto no deseable porque 

implica un descenso de la transferencia electrónica. 

También es interesante comentar la existencia de otro tipo de dispositivos 

con funcionamiento análogo al de los HEMT, son conocidos como PHEMT 

(HEMT pseudomórficos). Estos transistores utilizan materiales semiconductores 

de constante de red diferente, provocando tensiones en la heterounión. 

Para lograr el funcionamiento de un dispositivo de estas características hay 

que utilizar una capa extremadamente fina de uno de los materiales que 

se crecen. Esta técnica permite la construcción de transistores con mayores 

diferencias de band–gap, dándoles un mayor rendimiento, por ejemplo 

una unión AlGaAs–InGaAs forma un dispositivo PHEMT donde el uso de 

InGaAs proporcionará una movilidad superior a la obtenida con GaAs. 

1.2.3. Funcionamiento de los dispositivos HEMT 

A través de la modulación del dopado se pueden producir los portadores 

de carga sin necesidad de dopar el GaAs. La concentración total de carga 

es dependiente de la tensión de puerta y del modo de funcionamiento del 

dispositivo, que se puede encontrar en modo acumulación o vaciamiento. 

Los dispositivos en modo acumulación están en corte cuando la tensión 

de puerta VG es nula (es decir en el equilibrio no tenemos canal). Si el canal 

es tipo n es necesaria una cierta tensión de puerta positiva para inducir 

el canal. Por el contrario, en los dispositivos en modo vaciamiento existe 

canal para una tensión de puerta nula, en este caso, si el canal es tipo n, 

será necesaria una tensión de puerta negativa para vaciar el canal y cortar 

el dispositivo. 

Para examinar la situación dentro de la estructura en función de la ten-


sión aplicada a la puerta, partimos de una tensión de drenador VD nula. 

Cuando la tensión de puerta supera un determinado voltaje umbral VT, en 

la superficie de separación se forma un capa de inversión que contiene e − 

móviles. Naturalmente, cuanto mayor sea la polarización de inversión, mayor 

será la cantidad de e − presentes en esa capa, y mayor será la conductancia 

de la capa de inversión. 

De cualquier modo, una vez que el gas de electrones 2D se induce en la 

superficie de separación de la heterounión, se establece un canal de conducción 

entre la fuente y el drenador. La aplicación de una tensión positiva en 

el drenador provocará un flujo de corriente en el dispositivo, que surgirá del 

movimiento de los e − de la fuente al drenador en el gas 2D. Se pueden lograr 

velocidades y movilidades de los e − muy elevadas para tensiones aplicadas 

de drenador muy reducidas. 

Cuando la tensión de drenador se aumenta poco a poco a partir de 

VD = 0, el canal actúa como una simple resistencia y empieza a fluir corriente 

de drenador (ID) proporcional a la tensión de drenador aplicada. Una vez 

que VD aumenta por encima de unas pocas décimas de voltio, se produce 

un aumento de la zona de vaciamiento a lo largo del canal, de la fuente al 

drenador, y por lo tanto disminuye la cantidad de portadores en la capa de 

inversión. El reducido número de portadores disminuye la conductancia del 

canal, que se refleja en una disminución de la pendiente de la curva característica 

ID − VD. Esta disminución está más marcada en las proximidades 

del drenador, hasta que llegado un momento la capa de inversión desaparece 

en esta zona, se produce entonces el estrangulamiento del canal (para una 

tensión de drenador igual a VD,sat). En este momento la pendiente de la 

curva característica ID − VD es nula, y el dispositivo entra en zona de saturación. 

A partir de este momento ID se mantiene constante para voltajes de 

drenador superiores a VD,sat. La curva característica ID − VD se representa 

en la figura 1.7, en la que podemos ver claramente las distintas regiones de 

funcionamiento. 

Hay que tener en cuenta que cuando aplicamos una tensión en el drenador, 

la curvatura de las bandas será diferente cerca del drenador o cerca 

de la región de fuente. Si las tensiones aplicadas de puerta y drenador son 

positivas, cerca del drenador el potencial de superficie ψs( qψs es la diferencia 

de energía entre las bandas de conducción del GaAs en la zona masiva 

y en la heterointerfaz) es menos positivo que cerca de la fuente, lo que hace 

que la curvatura de las bandas sea más pronunciada cerca de la región de 

fuente, haciendo que en esta zona el pozo sea más estrecho. Esto lleva a una 

diferencia en las subbandas de energía entre las dos regiones, puesto que 

la estructura energética de los electrones cambiará constantemente entre la


Figura 1.7: Curva característica ID − VD para un dispositivo HEMT 

fuente y el drenador. 

1.2.4. Modelización de transistores HEMT 

Existen varias técnicas de modelización dependiendo del objetivo a estudiar, 

los resultados que se pretenden obtener, las características de los 

sistemas en los que se va a aplicar, etc. Uno de los más simplificados es el 

modelo analítico, que nos permite obtener algunas relaciones básicas, pero 

que resulta inapropiado si se pretenden estudiar efectos multidimensionales, 

variaciones en el espacio de la composición de los materiales, etc. Para 

poder analizar estos efectos es preciso recurrir a modelos numéricos, resolviendo 

las ecuaciones fundamentales que gobiernan el funcionamiento del 

dispositivo. A continuación estudiaremos modelos representativos de estas 

dos aproximaciones. 

Modelo simplificado para HEMTs de canal largo 

En este apartado vamos a intentar mostrar un modelo analítico simple 

que pueda ser utilizado en simulaciones del funcionamiento de estos transistores 

en circuitos. En dispositivos de canal corto es prácticamente imposible 

utilizar este tipo de modelos analíticos y es necesario recurrir a aproximaciones 

numéricas para explicar el funcionamiento físico del dispositivo. En 

cambio, en dispositivos de canal largo, para valores pequeños de las tensiones 

aplicadas, se puede hacer uso de estos modelos analíticos para simulaciones 

de circuitos.


En este modelo la principal aproximación que se hace es la de canal 

gradual. En esta aproximación se asume que el campo a lo largo de la 

dirección del canal cambia muy despacio con la posición comparándolo con 

la variación del campo perpendicular al canal. Con esta suposición podemos 

tratar el campo en una sola dimensión. 

La concentración de carga bidimensional n(x), puede expresarse en términos 

de la concentración de portadores de la fuente en la parte final del canal 

nso como: 

n(x) = nso − ǫ 

V (x) (1.4) 

qd 

siendo d el grosor de la capa de AlGaAs. La corriente IC(x) en el canal 

suponiendo sólo arrastre viene dada por: 

IC(x) = qWn(x)v(x) (1.5) 

donde v(x) es la velocidad de los electrones en el interior del canal y W el 

ancho de la puerta. Si expresamos la velocidad en función del campo eléctrico 

F tenemos: 

v(F) = 

µ|F | 

1+|F |/F1 

vsat 

F ≤ Fc 

F > Fc 

(1.6) 

con vsat la velocidad de saturación, µ la movilidad, Fc el campo eléctrico 

crítico en el que el gas de electrones alcanza la saturación de la velocidad, y 

F1: 

F1 = Fc 

µFc 

vsat 

− 1 

(1.7) 

Si la corriente de fuga a través de la puerta (IG) es significativa la corriente 

en el canal (IC) no se conservará. En el drenador esto se verá reflejado 

como: 

ID = IS − IG 

(1.8) 

con ID como corriente de drenador y IS corriente de fuente. 

Después de desarrollar estas ecuaciones, hacemos la aproximación de 

que la mayor caída de tensión se produce en las proximidades del drenador. 

Obtenemos así la siguiente expresión para la corriente de drenador ID: 

 

1 

ID = 

−IG 

1 + VD/LF1 

 

1 VD 

+ (1 − α) + 

2 LF1 

qWµ 

 

nsoVD − 

L 

ǫ 

2qd V 2 

D 

(1.9)


siendo L la longitud del canal y α un parámetro que por simplicidad tomaremos 

igual a 1/2. 

La expresión dada en la ecuación anterior describe la corriente de drenador 

en la zona lineal de un HEMT. La corriente de saturación de 

drenador puede calcularse teniendo en cuenta que se produce una vez que 

el campo eléctrico en L alcanza el valor Fc. En este caso la corriente en el 

canal como función de x viene dada por: 

IC (x) = qWn (x) vsat 

(1.10) 

La velocidad ahora tiene un valor constante vsat. En x = L se cumple 

que la corriente del canal es igual a la corriente de drenador (en este caso 

ID,sat), así : 

 

IC(L) = ID,sat = qW nso − ǫ 

 

V (L) vsat = qW nso − 

qd ǫ 

qd VD,sat 

 

vsat 

(1.11) 

Para resolver esta ecuación sería necesario determinar la tensión de drenador 

en saturación VD,sat , o alternativamente utilizar la expresión anterior 

para resolver la ecuación 1.9. 

Por último, para completar el modelo, se necesita especificar la corriente 

de fuga a través de la puerta IG. Esta corriente es función de de la tensión 

aplicada en la puerta y generalmente es dependiente del dispositivo, encontrándose 

que tiene diferentes dependencias según las tensiones de puerta 

aplicadas (es decir, se aplica una expresión u otra según nos encontremos en 

alto o bajo voltaje). Una aproximación semiempírica de IG puede ser: 

IG = IS1(e qV G 

n 1 kT − 1) (1.12) 

donde n1, IS1 son parámetros determinados experimentalmente. 

Con frecuencia es interesante utilizar un modelo simplificado para obtener 

la curva característica (I–V) de un HEMT. La ecuación 1.9 puede simplificarse 

si consideramos IG = 0 (corriente de puerta nula) y que VD ≪ 1. LF1 

Bajo estas condiciones la ecuación de la corriente de drenador en la zona 

lineal sería: 

ID = qWµ 

L (nsoVD − ǫ 

2qd V 2 D ) (1.13) 

En esta ecuación vemos que las únicas características del dispositivo que 

influyen en el rendimiento son la movilidad (µ) y la concentración nso. A partir 

de esta expresión también podemos determinar la corriente en saturación 

ID,sat:


donde a está definido como: 

ID,sat = qµWnsoFs 

( 

d 

 

1 + a2 − a) (1.14) 

a ≡ LFsǫ 

qdnso 

(1.15) 

y Fs, el campo eléctrico en saturación en la parte final de la zona de 

drenador sería: 

Fs = 1 

 

nsoVD,sat − 

Lnd 

ǫ 

2qd V 2 

D,sat 

(1.16) 

con nd la concentración de portadores en la zona del drenador. 

Esta aproximación no se puede aplicar al GaAs porque el valor de F1 

es demasiado pequeño para que se satisfaga la condición VD ≪ 1. El GaN 

LF1 

está próximo a alcanzar esta condición pero sólo para dispositivos de canal 

bastante largo. Por lo tanto la aproximación dada por la ecuación 1.13 

está demasiado alejada de la realidad bajo la mayor parte de los dispositivos 

reales. 

Es interesante comparar las curvas características I–V de los dispositivos 

HEMT y MOSFET. Para ello partimos de la expresión de la corriente de 

drenador para un MOSFET en estrangulamiento: 

ID = µnWCi 

L 

 

(VG − VT)VD − V 2 D 

2 

 

(1.17) 

Si comparamos las ecuaciones 1.13 y 1.17 vemos que las formas funcionales 

de ambas son aproximadamente las mismas, de hecho las dos ecuaciones 

son prácticamente idénticas. Esto se puede ver claramente si hacemos una 

serie de transformaciones: 

Sabiendo que la capacidad de puerta por unidad de área Ci está dada por 

la expresión Ci = ǫ 

d 

, donde ǫ es la constante dieléctrica del semiconductor 

y d el grosor de la capa de AlGaAs, y que la carga del canal Qn es igual al 

producto: 

Qn = Ci(VG − VT) (1.18) 

Podemos reescribir la corriente de drenador para un dispositivo MOS- 

FET como: 

ID = Wµn 

L 

 

QnVD − ǫ 

2d V 2 

D 

= qWµn 

L 

 

nsoVD − ǫ 

2qd V 2 

D 

(1.19)


Como podemos ver, la ecuación que hemos obtenido es esencialmente 

igual a la obtenida para un HEMT. Este resultado es totalmente lógico 

puesto que ambos dispositivos se basan en el transporte de e − atrapados en 

una superficie frontera (una heterointerfaz en el caso del HEMT y una frontera 

aislante–semiconductor en el caso del MOSFET). La movilidad de los 

portadores en el caso del MOSFET es la obtenida en una capa de inversión 

de Si, que es sustancialmente inferior a la movilidad electrónica dentro del 

pozo cuántico en el GaAs. Esto da una explicación aproximada a la mayor 

velocidad de respuesta de los MOSFETs. 

Modelo de arrastre–difusión 

Los modelos numéricos de transistores, debido a las características y al 

tipo de estudio que se puede realizar con ellos, pueden ayudar a comprender 

el comportamiento físico de los dispositivos así como optimizar su diseño y 

disminuir el tiempo necesario para su desarrollo [CRRM96]. 

Uno de los principales problemas asociados con la simulación de dispositivos, 

sobre todo cuando se requiere elevada precisión y además es necesario 

hacer el estudio en 2 ó 3 dimensiones, es el enorme gasto computacional 

que implica, que viene determinado por la gran cantidad de información y 

el elevado número de cálculos que deben ser realizados. Esto hace que los 

computadores convencionales, e incluso los más potentes supercomputadores 

vectoriales, tengan problemas a la hora de realizar una simulación adecuada. 

Para solventar este problema debemos recurrir al uso de máquinas paralelas, 

diseñando algoritmos apropiados para obtener el máximo rendimiento y un 

tiempo de simulación aceptable con una adecuada precisión [Pen94, Lou99]. 

Las ecuaciones básicas en estado estacionario que debemos resolver en 

este modelo son las ecuaciones de Poisson y las de continuidad de electrones 

y huecos [Sel84, LG94]: 

div(ǫ∇Ψ) = q(p − n + N + D − N − A ) (1.20) 

div(Jn) − q ∂n 

∂t 

div(Jp) + q ∂p 

∂t 

= qR (1.21) 

= −qR (1.22) 

donde Ψ es el potencial electrostático, q la carga eléctrica del electrón, ǫ 

la constante dieléctrica, p y n las densidades de huecos y electrones respectivamente, 

N + D y N − A son las concentracciones de impurezas donadoras 

y aceptoras ionizadas, y Jn y Jp las densidades de corriente de electrones 

y huecos respectivamente. El factor R representa la tasa de recombinación 

volúmica y superficial.


Las densidades de corriente de huecos y de electrones se pueden expresar 

como: 

Jn = −qµnn∇φn (1.23) 

Jp = −qµpp∇φp (1.24) 

donde µn y µp son las movilidades de electrones y huecos respectivamente y 

φn y φp los cuasipotenciales de Fermi. 

Las concentraciones de portadores n y p en función de los cuasipotenciales 

de Fermi y del potencial electrostático vienen dados por: 

 

Ψ − φn 

n = nien exp 

(1.25) 

VT 

 

φp − Ψ 

p = niep exp 

(1.26) 

donde VT = KT 

q siendo K la constante de Boltzman y T la temperatura. Los 

valores de las concentracciones intrínsecas efectivas de electrones y huecos 

nien y niep indican los efectos de degeneración del semiconductor, de la 

variación de los parámetros con la composición, o de la existencia de varias 

bandas o valles, incluyendo efectos de parabolidad de esas bandas. 

Los valores de n y p, para un semiconductor con varias bandas que intervengan 

en el transporte, pueden expresarse en función de la concentracción 

intrínseca del material de referencia en las bandas de condución y de valencia 

N (c,v)j, la densidad efectiva de estados, las integrales de Fermi–Dirac, que 

operan sobre funciones que relacionan la energía en las distintas bandas, y 

la afinidad electrónica χ, por lo que resultará: 

 

n = nio 

exp 

j 

Ncj 

Nco 

χj − χo 

KT 

VT 

[F 1/2(ηcj) + 3 

2 KTBjF 3/2(ηcj)] 

 

exp 

exp(ηcj) 

 

qψ − qφn 

KT 

Nvl [F1/2(ηvl) + 

p = nio 

Nvo 

l 

3 

2KTBjF 3/2(ηvl)] 

exp(ηvl) 

 

χl − χo + Egl − Ego qφp − qψ 

exp 

exp 

KT 

KT 

(1.27) 

(1.28) 

El sistema que hemos obtenido está formado por 3 ecuaciones con 3 

incógnitas que no pueden resolverse directamente, por lo cual es necesario 

recurrir a técnicas numéricas para su resolución.

20 Capítulo 1. Dispositivos de efecto campo con heteroestructuras: HEMT

Capítulo 2 

Introducción a los 

computadores paralelos 

El número de campos de investigación en los que se utilizan computadores 

de alto rendimiento continua aumentando actualmente. Por ello es 

importante mejorar la tecnología utilizada para la implementación de los 

componentes del computador, refinar el diseño lógico de sistemas o los algoritmos 

para la resolución de problemas, buscando siempre conseguir velocidades 

de operación superiores. 

Un método para obtener mayores velocidades de operación es la utilización 

de arquitecturas multiprocesador. Estas arquitecturas están basadas en 

el procesamiento paralelo, cuya idea básica es la subdivisión del problema 

en un conjunto de partes resolubles de forma concurrente, de manera que 

el tiempo total de resolución del problema quede dividido por el número de 

procesadores utilizados. 

La eficiencia del procesamiento paralelo dependerá principalmente de dos 

factores: 

1. La sobrecarga computacional generada por la paralelización del problema. 

2. El equilibrio de la carga conseguido entre el conjunto de procesadores. 

En la actualidad, la computación masivamente paralela se ve como la única 

alternativa fiable para superar los retos pendientes de la supercomputación. 

Estas máquinas presentan ventajas evidentes sobre sus antecesoras superescalares 

y vectoriales, puesto que pueden ofrecer un rendimiento mayor a un 

coste inferior. 

El obstáculo fundamental para el avance de la computación paralela es 

el problema que se presenta con la programación, ya que los compiladores 

21

22 Capítulo 2. Introducción a los computadores paralelos 

que detectan paralelismo automáticamente presentan todavía límites a su 

aplicabilidad. La programación paralela de una arquitectura multiprocesador 

se realiza por medio de lenguajes que permiten expresar el paralelismo 

e intercambiar información entre procesadores. El objetivo principal en este 

sentido es encontrar mecanismos de programación paralela independientemente 

de la máquina. 

En este capítulo se describirán brevemente las características de la programación 

paralela así como las arquitecturas de las máquinas utilizadas en 

la evaluación de los códigos paralelos. 

2.1. Características de los computadores paralelos 

El nombre de computador paralelo engloba a un amplio rango de sistemas 

de distintos tipos. Existen ciertas características básicas que permiten clasificar 

estos sistemas en varios modelos. Entre las más interesantes podemos 

considerar el flujo de instrucciones y datos, la organización de la memoria, 

la topología de interconexión, el modelo de programación y la granularidad. 

2.1.1. Organización de la memoria 

Desde el punto de vista del flujo de instrucciones y datos visto por el procesador 

durante la ejecución de un programa, la clasificación tradicional de 

Flynn [Fly72] divide los sistemas de computación en cuatro grupos: sistemas 

SISD (Simple flujo de instrucciones, simple flujo de datos), SIMD (Simple 

flujo de instrucciones, múltiple flujo de datos), MISD (Múltiple flujo de instrucciones, 

simple flujo de datos), y MIMD (Múltiple flujo de instrucciones, 

múltiple flujo de datos). 

El primer grupo engloba a todos los computadores secuenciales mientras 

que los MISD no corresponden a ningún sistema real. 

En una máquina SIMD cada instrucción se envía a todos los elementos 

de procesamiento mediante una operación de difusión (broadcast), los cuales 

se encargan de ejecutar la misma operación sobre diferentes conjuntos de 

datos. Todos los elementos de procesamiento funcionan bajo la supervisión 

de una única unidad de control, que se encarga también de las funciones de 

interacción con el usuario. Los procesadores vectoriales podrían enmarcarse 

en este modelo. 

El modelo de computación paralela MIMD permite a un sistema multiprocesador 

ejecutar un conjunto diferente de instrucciones sobre distintos 

conjuntos de datos en diferentes procesadores.

2.1. Características de los computadores paralelos 23 

La principal ventaja de los sistemas SIMD frente a los MIMD es su bajo 

coste relativo y la facilidad de construcción, esto llevó a que los primeros 

diseños de máquinas paralelas se orientasen en este sentido, pero por otro 

lado sólo se adaptan bien a un tipo determinado de problemas, como pueden 

ser los de procesamiento de imágenes, pero no son muy eficientes con problemas 

más generales. Así la mayoría de los sistemas paralelos comerciales 

de propósito general que podemos encontrar en la actualidad se enmarcan 

en el modelo MIMD. 

Dentro de las arquitecturas MIMD se puede hacer una división en dos 

subgrupos atendiendo al modo de gestión de memoria del sistema. 

Memoria compartida: Este tipo de sistemas conocidos también como 

multiprocesadores utilizan una memoria común a la que acceden 

todos los procesadores para operaciones de lectura y escritura. Los procesadores 

se comunican mediante variables compartidas de memoria, 

con cargas y almacenamientos capaces de acceder a cualquier posición 

de la memoria común. La memoria suele estructurarse en módulos, 

permitiéndose así el acceso simultáneo de varios procesadores. El principal 

problema de estos sistemas está asociado a conflictos de acceso a 

los módulos, lo que puede provocar una pérdida considerable de rendimiento. 

Memoria distribuida: Denominados también multicomputadores, en 

este tipo de sistemas cada procesador tiene una memoria local privada 

a la que los demás nodos no tienen acceso, llevándose a cabo todo 

intercambio de información entre procesadores a través de la red de 

interconexión. El modelo de comunicación entre procesadores es por 

paso de mensajes, el cual se ha de establecer de forma explícita, así los 

mensajes se pasan de un procesador a otro a través de dicha red, utilizando 

si es necesario procesadores intermedios. El coste de la comunicación 

dependerá del número de etapas interprocesador que tenga que 

atravesar el mensaje, de ahí la importancia de que la topología de la 

red sea regular y de bajo diámetro (número mínimo de nodos por los 

que debe pasar el mensaje entre dos procesadores cualesquiera), para 

minimizar el retardo del mensaje. 

La mayoría de los sistemas masivamente paralelos actuales son de memoria 

distribuida, para evitar los problemas de conflicto de memoria asociados 

con cientos o miles de procesadores compartiendo una gran memoria global. 

Los sistemas de memoria compartida tienen un atractivo especial debido a 

su facilidad de programación.


Por ello ha surgido una arquitectura que intenta combinar las ventajas 

de los dos modelos descritos anteriormente en cuanto a escalabilidad y facilidad 

de programación dando lugar a arquitecturas de memoria compartida– 

distribuida. Éstos son sistemas en los que la memoria está físicamente distribuida 

pero pudiéndose acceder a ella por medio de técnicas software o de 

hardware/software como si fuera un modelo de memoria compartida, usando 

un único espacio de direccionamiento global, e incluso gestión de coherencia 

entre cachés locales a cada nodo. Combinan por lo tanto las ventajas de ambas 

aproximaciones porque siendo máquinas de memoria distribuida pueden 

ser programadas virtualmente como máquinas de memoria compartida de 

forma transparente al usuario. 

Las diferentes formas a través de las que se comparte la memoria nos 

permiten establecer la siguiente clasificación: 

El modelo UMA (Uniform–Memory Access) se caracteriza porque la 

memoria física es compartida uniformemente, siendo el tiempo de acceso 

a cualquier palabra de memoria el mismo para todos los procesadores. 

Cada procesador puede tener también una caché propia para los 

datos más usados y los periféricos del sistema son también compartidos 

de alguna manera por todos los procesadores. Los sistemas UMA 

son sistemas fuertemente acoplados debido al alto grado de recursos 

compartidos que presentan. 

En el modelo NUMA (Non–Uniform–Memory Access) la memoria se 

encuentra distribuida físicamente entre los procesadores, conformando 

memorias locales, aunque todas ellas constituyen un único espacio de 

direcciones global. De este modo cada procesador accede más rápido 

que los demás a su memoria local, siendo el acceso a memorias asociadas 

a otros procesadores más lento debido al retraso originado por la 

red de interconexión. Algunos de estos sistemas poseen además otra 

memoria compartida globalmente. 

El modelo COMA (Cache Only Memory Access) implementa la memoria 

lógica compartida en un solo nivel de jerarquía de memoria, 

estando formada por las memorias caché distribuidas en los nodos del 

sistema. Los accesos de memoria a las cachés remotas se gestionan 

mediante directorios de caché distribuidos y se redirigen a base de 

mensajes a través de la red de interconexión como en el caso de las 

arquitecturas NUMA. Sin embargo, la arquitectura COMA permite la 

movilidad de datos entre las diferentes cachés del sistema en función 

del patrón de acceso a los mismos, usando los directorios caché (que

2.1. Características de los computadores paralelos 25 

son jerárquicos y están distribuidos) para localizar la caché remota 

donde está almacenado el dato requerido. Una vez que el dato se ubica 

en la caché local, la latencia de acceso es menor, produciéndose una 

mejora en el rendimiento de acceso a los datos. 

Existen dos estrategias [PH96] para mantener la coherencia de la información, 

estableciéndose en ambos casos un control sobre los datos compartidos. 

Dichas estrategias se exponen brevemente a continuación: 

Protocolo de coherencia basado en snooping: En este protocolo cada 

caché lleva el control del estado a nivel de líneas de todos los datos 

de los que dispone. Por otro lado también tiene un controlador que 

está permanentemente ”escuchando”en la red de interconexión a la 

espera de que alguna de las otras cachés necesite un dato contenido en 

ella, realizándose en este caso la transmisión. De este modo el control 

de la coherencia de los datos está distribuido. Este protocolo se utiliza 

en arquitecturas tipo bus, sobre todo en aquellas que usan una sola 

memoria compartida. 

Protocolo de coherencia basado en el directorio: Para este protocolo la 

información sobre la distribución de cada bloque de la memoria física 

es mantenido en una única localización de memoria llamada directorio 

y toda operación que modifique dicho estado tiene que realizar un 

acceso al mismo. Estamos ante un control de coherencia centralizado. 

2.1.2. Redes de interconexión 

Como se ha visto anteriormente en las máquinas de memoria distribuida 

la estructura de la red de interconexión va a determinar en gran medida 

el rendimiento del sistema. El interconexionado debe tender a reducir el 

coste de las comunicaciones, sin incrementar excesivamente el hardware del 

sistema. Son muchas las formas mediante las que podemos establecer la interconexión 

entre un conjunto de procesadores. Entre las topologías más 

habituales destacan el hipercubo (figura 2.1(a)), la malla 2D y 3D (los procesadores 

están dispuestos según una rejilla bi o tridimensional), el toroide, 

el anillo (figura 2.1(b)), el árbol, etc. De entre todas estas la topología del 

hipercubo es una de las más interesantes, pues posee un número de conexiones 

directas mayor que la mayoría de las topologías restantes. Sin embargo 

es una topología bastante cara desde el punto de vista hardware. 

Tradicionalmente la mayor parte de la literatura se centraba en las propiedades 

topológicas y funcionales de estas redes. Pero a medida que los


(a) (b) 

Figura 2.1: Ejemplos de topologías de redes de interconexión. 

sistemas multiprocesador comenzaron a crecer en número de nodos otros 

aspectos de las redes de interconexión comenzaron a ser tenidos en cuenta, 

como pueden ser la implementación, la complejidad del cableado, el control 

del flujo de datos, los algoritmos de encaminamiento, la evaluación del 

rendimiento o la tolerancia a fallos. 

2.1.3. Nivel de paralelismo 

Otra característica de los sistemas paralelos es lo que se conoce como 

granularidad, que nos da una medida del grado de paralelismo que explota 

el sistema [FJL + 88], proporcionando un indicador de la cantidad de computaciones 

que pueden llevar a cabo los procesadores sin interaccionar entre 

sí. En un modelo de granularidad gruesa el programa se divide en varias 

partes con escasa comunicación entre sí. Los computadores MIMD, potentes 

y débilmente interconectados, son apropiados para este tipo de aplicaciones. 

En cambio en un modelo de granularidad fina, la comunicación entre 

procesadores es más intensa, ejecutándose pocas instrucciones sin necesidad 

de comunicación. Por ello los computadores SIMD son apropiados para este 

modelo, puesto que son más sencillos y están fuertemente interconexionados 

entre ellos. 

Dadas las diferentes características de los sistemas paralelos expuestos 

con anterioridad, la elección del mejor sistema dependerá del tipo de problemas 

que tengamos que resolver y de la disponibilidad de las distintas 

máquinas.

2.2. Tipos de programación paralela 27 

2.2. Tipos de programación paralela 

Las aplicaciones paralelas deben escribirse siguiendo un modelo de programación. 

El caso más simple de ejecución paralela consiste en un modelo 

de multiprogramación, en el cual varios programas secuenciales son ejecutados 

simultáneamente sobre diferentes procesadores sin ninguna interacción 

entre ellos. Pero el caso más interesante lo constituyen los programas paralelos 

propiamente dichos. Básicamente se puede decir que existen cuatro 

alternativas para la construcción de un programa paralelo, realizando a continuación 

una breve introducción de cada una de ellas. 

1. Programación por paso de mensajes: En este modelo se define un 

conjunto de procesos con su propio espacio de memoria, pero que pueden 

comunicarse con otros procesos mediante el envío y la recepción 

de mensajes a través de la red de interconexión, teniendo en cuenta 

que cualquier procesador puede enviar un mensaje a cualquier otro. 

Los modelos de comunicación suelen proporcionar las siguientes posibilidades: 

Envío asíncrono sin bloqueo: en el que el control regresa a la tarea 

cuando se vacía el buffer de envío, independientemente del estado 

del destinatario. 

Recepción asíncrona con bloqueo: en la que no se devuelve el control 

hasta que se recibe un mensaje. 

Recepción asíncrona sin bloqueo: se devuelve el control inmediatamente, 

bien con los datos esperados o con un indicador de que 

no llegaron. 

Difusión de un mensaje a un conjunto de tareas. 

La implementación de esta metodología se suele realizar utilizando 

librerías añadidas a los lenguajes de programación secuenciales típicos, 

principalmente C y FORTRAN. Existen librerías estándar como 

PVM (Parallel Virtual Machine)[GBD + 94, GBD + 96] y MPI (Message 

Passing Interface)[GLS96]. 

Se utiliza principalmente en multiprocesadores de memoria distribuida 

MIMD y en redes de estaciones de trabajo, lo que permite el uso 

de este modelo en redes heterogéneas compuestas por diferentes sistemas 

de arquitecturas distintas. En la estimación de la eficiencia de 

un programa paralelo es muy importante tener en cuenta la relación 

entre el tiempo que consumen los nodos procesando datos y el tiempo


empleado en las comunicaciones. Evidentemente nos interesa que el 

tiempo de comunicación sea el mínimo posible. En general este tiempo 

no debería superar el 10 ó 20 por ciento del tiempo de computación. 

2. Programación en sistemas de memoria compartida: En este 

método los programas paralelos ejecutados en sistemas de memoria 

compartida están compuestos por varios procesos (threads) que comparten 

un espacio de trabajo común denominado task. En dicho espacio 

se encuentran todos los datos asociados al programa mientras que los 

threads se limitan a contener todas las tareas asociadas únicamente a 

la parte ejecutable del mismo. Concretamente un thread está formado 

esencialmente por un contador de programa, una cola y un conjunto 

de registros. Los threads asociados a un espacio de trabajo comparten 

todos los elementos que allí se encuentran, aunque por otro lado 

puedan trabajar con variables locales o privadas. 

La coordinación y cooperación entre procesos se realiza a través de la 

lectura y escritura de variables compartidas y variables de sincronización. 

Cada proceso puede llevar a cabo la ejecución de un subconjunto 

de iteraciones de un lazo común, o más generalmente obtener sus tareas 

de una cola compartida. 

La programación se establece tanto a través de directivas de alto nivel 

que dirigen al compilador en la paralelización de los programas como, 

de un modo más eficiente, a través de construcciones de bajo nivel 

como pueden ser barreras de sincronización, regiones críticas, locks, 

semáforos, etc. 

3. Modelo de programación de paralelismo de datos: Es un modelo 

que se utiliza principalmente para simplificar la programación de 

sistemas de memoria distribuida. El proceso consiste en complementar 

un programa secuencial, escrito en un lenguaje estándar, con directivas 

o anotaciones insertadas en el programa para guiar al compilador 

en su tarea de distribuir los datos y las computaciones. 

4. Paralelización automática: En este caso el compilador asume todas 

las decisiones, generando automáticamente la versión paralela equivalente 

al código secuencial escrito en un lenguaje de programación tradicional. 

Si los códigos a paralelizar tienen patrones de acceso regulares 

a los datos estos paralelizadores automáticos ofrecen buenos resultados. 

Sin embargo en el caso de códigos irregulares, como pueden ser 

los códigos dispersos, es mucho más complicado obtener una solución 

eficiente.

2.3. Cluster Beowulf 29 

2.3. Cluster Beowulf 

Los sistemas Beowulf son clusters domésticos diseñados para ser una 

alternativa económicamente viable a los grandes supercomputadores. La reducción 

del coste es debida al hecho de que un cluster Beowulf se construye 

conectando PCs estándar mediante redes locales de alto rendimiento (baja 

latencia y alto ancho de banda) en lugar de emplear el hardware que aparece 

en los supercomputadores tradicionales, estando específicamente diseñado y 

optimizado para su uso como multicomputador. 

Hoy en día los sistemas Beowulf son ampliamente utilizados en los entornos 

académicos y de investigación, por su adaptabilidad y capacidad para 

satisfacer requerimientos computacionales específicos. Por ello son reconocidos 

como un género propio dentro de la computación de alto rendimiento. 

En su clasificación dentro de los computadores paralelos, los clusters 

Beowulf caen entre los procesadores masivamente paralelos y las redes de 

computadores. Los procesadores masivamente paralelos tienen una latencia 

menor en la red de interconexión que un cluster Beowulf. Sin embargo los 

programadores todavía tienen que preocuparse por la localidad, el balance 

de carga, la granularidad y las sobrecargas de comunicación para obtener 

un mejor rendimiento ya que muchos programas se desarrollan en un estilo 

de paso de mensajes, incluso en máquinas de memoria compartida. 

La programación en redes de computadores se ha convertido en una 

práctica habitual como un intento de aprovechar ciclos no usados de un 

conjunto de estaciones de trabajo existentes en un laboratorio. La programación 

en este entorno requiere algoritmos extremadamente tolerantes a los 

problemas de balanceo de carga y largas latencias de comunicación. Las diferencias 

entre las redes de computadores y un cluster Beowulf son mínimas 

aunque significativas. Para empezar, los nodos del cluster están dedicados 

en exclusividad al cluster. Esto ayuda a resolver los problemas de balanceo 

de carga, ya que el rendimiento individual de los nodos no está sujeto a factores 

externos. Por otro lado, como la red de interconexión está aislada de 

la red externa, la carga de red queda determinada sólo por la aplicación que 

se está ejecutando en el cluster, lo que ayuda a resolver problemas asociados 

con la impredictibilidad de las latencias en las redes de computadores. 

Por regla general, los programas que no requieren muchas computaciones 

y de granularidad fina pueden ser portados desde unos procesadores masivamente 

paralelos y ser ejecutados eficientemente sobre clusters Beowulf, y 

cualquier programa que funcione sobre una red de computadores lo hará al 

menos igual de bien sobre un cluster Beowulf. 

El cluster Beowulf del CESGA (Centro de Supercomputación de Galicia)


Figura 2.2: Cluster Beowulf 

está constituido por 16 servidores Compaq DL320 que forman un total de 

16 CPUS Pentium III a 1 GHz (rendimiento pico de 16 GFlops). Cada uno 

de los nodos tiene 512 MB de memoria y un disco local IDE–ATA de 40 GB. 

Los nodos están interconectados mediante una red Myrinet 2000 [Myr01] 

de baja latencia (inferior a 8 microsegundos para mensajes en MPI) y alto 

ancho de banda (200 Mbytes/s). La placa utilizada en cada nodo es una 

ServerWorks 3.0 LE. Esta placa se distribuye con sistemas monoprocesador, 

soporta un bus GTL a 133 MHz, arquitectura de doble bus parejo PCI 

y memoria registrada SDRAM ECC DIMM a 133 MHz. La arquitectura 

de doble bus parejo PCI posibilita el acceso concurrente a memoria y el 

procesador desde ambos buses para una mejora adicional en el rendimiento 

del sistema. 

Así mismo todos los nodos están conectados mediante un switch fast 

ethernet a un servidor Compaq Proliant DL380 que actúa como servidor 

de almacenamiento y como interfaz para la conexión con los usuarios y 

las tareas interactivas (compilación, edición de archivos, etc). Este servidor 

cuenta con 4 discos Ultra3 SCSI de 36 GB en configuración RAID (144 GB 

en total). En la figura 2.2 podemos observar un gráfico que nos muestra las 

diferentes partes que componen el cluster Beowulf. 

Myrinet [Bod95] es una tecnología de conmutación y comunicación por

2.4. Origin 200 31 

paquetes de alto rendimiento ampliamente utilizada para interconectar clusters 

de estaciones de trabajo, PCs, servidores, etc. Los clusters proporcionan 

un método relativamente económico de obtener alto rendimiento, distribuyendo 

para ello las computaciones solicitadas entre un grupo de máquinas de 

bajo coste. En el caso de computaciones distribuidas fuertemente acopladas 

las interconexiones deben proporcionar un alto porcentaje de datos y una 

baja latencia en la comunicación de procesos entre máquinas. Además es 

importante que la disponibilidad del cluster sea elevada, de tal forma que 

permita que la computación prosiga entre un grupo de máquinas aislando 

fallos y utilizando caminos de comunicación alternativos. 

Las redes convencionales como Ethernet pueden utilizarse para fabricar 

clusters, pero no proporcionan el rendimiento o las características necesarias 

para obtener un cluster con las propiedades de alto–rendimiento y 

alta–disponibilidad mencionadas anteriormente. Así, las características que 

distinguen a una Myrinet de otro tipo de redes incluyen: 

1. Conexiones Full–duplex con una tasa de transmisión de datos de 2+2 

Gigabit/seg, puertos conmutados y puertos de interfaz. 

2. Control de flujo, de errores y monitorización continua en cada conexión. 

3. Baja latencia, switches directos, incluyendo monitorización en aplicaciones 

de alta disponibilidad. 

4. Redes que se pueden escalar a decenas de miles de máquinas. Interfaces 

de las máquinas que ejecutan programas de control que interactuan 

directamente con los procesos de las distintas máquinas para comunicaciones 

de baja latencia, y de forma directa con la red para el envío, 

la recepción y el almacenamiento de paquetes. 

En este cluster Beowulf la forma de solicitar trabajos que necesitaban 

más recursos (en tiempo de CPU, memoria o espacio en disco) que los impuestos 

por la shell interactiva es a través del sistema de colas. Éste es el 

Portable Batch System (PBS) desarrollado por la NASA. La forma de enviar 

los trabajos a la cola es solicitando los recursos que se necesitan en términos 

de cantidad de memoria, espacio en disco, tiempo de CPU y número de 

CPUs. 

2.4. Origin 200 

El SGI Origin 200 [Sil98b, Sil98a, LL96] está construido con una arquitectura 

ccNUMA (Cache Coherent NUMA), contiene 4 procesadores MIPS


Figura 2.3: Configuración del Origin 200 con 4 procesadores 

R10000 a 225 MHz y 1 GB de memoria DRAM de alta velocidad. El sistema 

completo está encapsulado en dos módulos, cada uno de los cuales incorpora 

3 ranuras de expansión PCI proporcionando un ancho de banda de E/S 

sostenido de 200 MB/s y hasta 6 dispositivos ULTRA SCSI. Los buses de 

interfaz del sistema del R10000 se conectan al chip del HUB, que también 

tiene conexiones a la memoria y al directorio del nodo, además de dos puertos 

que salen del nodo por un conector CPOP (Compression pad–on–pad) 

de 300 pines. Estos dos puertos son la conexión del CRAYLINK al router 

y de las ranuras XIO al sistema de E/S. La interconexión CRAYLINK que 

utiliza conecta los dos módulos para formar un sistema combinado de memoria 

compartida y 4 CPUs que puede operar como un único sistema. De 

este modo tanto las CPUs como el rendimiento se duplican. Un diagrama 

de bloques típico del Origin 200 se muestra en la figura 2.3. 

Para facilitar el escalado, proporcionar un sistema con baja latencia en 

memoria y eliminar los principales cuellos de botella la arquitectura del Origin 

200 utiliza memoria compartida distribuida (DSM) con coherencia caché 

mantenida por un protocolo basado en directorio. Esto provoca que los 

tiempos de acceso a memoria no sean uniformes. Para manejar este inconveniente 

el Origin fue diseñado para minimizar la diferencia de latencias entre 

la memoria local y remota e incluir soporte tanto hardware como software 

que asegure que la mayor parte de las referencias a memoria sean locales, 

es decir, soporte para migración de páginas. La migración de páginas es importante 

en los sistemas NUMA puesto que cambia a fallos locales muchos 

de los fallos caché que se deberían producir en memoria remota. 

Por último, los sistemas Origin incorpora otra característica muy impor-

2.4. Origin 200 33 

tante para alcanzar un buen rendimiento en sistemas altamente escalables. 

Se proporcionan primitivas fetch–and–op como operaciones no cacheadas 

que se ejecutan en memoria. Las variables fetch–and–op se utilizan para 

locks, barreras y otros mecanismos de sincronización.

34 Capítulo 2. Introducción a los computadores paralelos

Capítulo 3 

Sistemas de ecuaciones 

lineales 

La resolución de sistemas lineales es, posiblemente, el núcleo computacional 

más importante de la mayoría de las aplicaciones de ingeniería. 

En la primera parte de este capítulo se van a describir los principales 

métodos de resolución para sistemas de ecuaciones lineales, distinguiendo 

entre métodos directos e iterativos, así como los precondicionadores utilizados 

para mejorar la convergencia. A continuación se citan las distintas 

técnicas utilizadas para el almacenamiento de las matrices dispersas, estudiando 

los formatos CRS, CCS, MSR y HB. Por último se describen 

las librerías numéricas en las que centramos nuestro estudio: SPARSKIT 

[Saa94b], PSPARSLIB [LS96, SLK97, SM95], SuperLU [DGL99], PETSc 

[BGMS99a, BGMS99b] y Aztec [HST95] tratando las características principales 

de cada una. 

3.1. Métodos de resolución de sistemas de ecuaciones 

Los sistemas de ecuaciones lineales se pueden expresar como Ax = b, 

donde dada una matriz A de orden n x n y un vector b n–dimensional, se 

trata de determinar el vector solución x de dimensión n. 

Además, en nuestro caso, la matriz A es dispersa, por lo que será ventajoso 

trabajar con métodos que aprovechen esta propiedad. Una matriz A 

de orden n x n es dispersa si una gran cantidad de sus términos son nulos. 

Se denomina índice de dispersión, β, a la relación entre el número de elementos 

no nulos de la matriz (α) y el número total de elementos (n × n); es 

decir β = α 

n×n 

. El valor del índice de dispersión necesario para que la matriz 

35

36 Capítulo 3. Sistemas de ecuaciones lineales 

pueda ser considerada dispersa depende del problema a resolver, del patrón 

de la matriz y de la arquitectura de la máquina en la cual se implementa el 

código. 

Los métodos de resolución de sistemas de ecuaciones lineales se pueden 

dividir en dos grupos: 

1. Métodos directos: están basados en la factorización de la matriz 

A para convertir el sistema lineal en otro con formato de resolución 

más simple. Durante la factorización, un elemento de la matriz con un 

valor inicial nulo, puede pasar a tener un valor distinto de cero; sufre 

entonces un proceso de llenado (fill). Cuantos más elementos sufran 

llenado, más operaciones tendrá que realizar el algoritmo aumentando 

así la carga computacional. A causa de esto, los métodos directos 

necesitan más memoria (al producirse el llenado se han de almacenar 

en memoria, además del sistema original, todas las nuevas entradas no 

nulas) y tienen una complejidad computacional mayor que los métodos 

iterativos. Esto supone la imposibilidad de usar métodos directos al 

menos en gran parte de las aplicaciones donde se va trabajar con matrices 

muy grandes como ocurre en muchas ocasiones en simulaciones 

en dos y tres dimensiones. Existen diferentes métodos de factorización 

de una matriz, siendo uno de los más habituales la factorización LU. 

2. Métodos iterativos: son técnicas que tratan de encontrar la solución 

de un sistema mediante sucesivas aproximaciones a partir de una solución 

inicial. Los métodos iterativos se pueden clasificar en dos tipos: 

a) Métodos estacionarios: son los más sencillos y fáciles de implementar, 

pero en general menos efectivos que los métodos no estacionarios 

[KC91]. Se basan en la relajación de coordenadas, empezando 

con una solución aproximada y modificando los componentes 

de la aproximación hasta que se alcanza la convergencia. Se trata 

de obtener: 

xk = Axk−1 + b (3.1) 

donde ni la matriz A ni el vector b dependen del contador de iteraciones. 

Ejemplos de estos métodos son: 

1) Jacobi: Basado en la computación de cada variable del vector 

solución con respecto al resto de las variables. Es un método 

sencillo de implementar pero la convergencia es lenta.

3.1. Métodos de resolución de sistemas de ecuaciones 37 

2) Gauss–Seidel: Método similar al anterior exceptuando que utiliza 

los valores actualizados de la solución tan pronto como 

estén disponibles. En general, converge más rápido que Jacobi. 

3) SOR(Sobrerrelajación sucesiva): Se deriva del método Gauss– 

Seidel introduciendo un parámetro de extrapolación w. Con 

una correcta elección de w el método converge más rápido que 

el Gauss–Seidel en un orden de magnitud. 

4) SSOR(Sobrerrelajación sucesiva simétrica): Aunque no presenta 

ventajas como método iterativo respecto al SOR, es muy útil 

como precondicionador para métodos no estacionarios. 

b) Métodos no estacionarios: Son más complejos que los anteriores 

pero altamente eficientes [Saa95, Saa96]. Se diferencian de los métodos 

estacionarios en que las computaciones implican información 

que cambia en cada iteración. En la actualidad los más populares 

pertenecen al conjunto de los métodos del subespacio de Krylov. 

El subespacio de Krylov K i (A,ro) de dimensión i, asociado con un 

sistema lineal Ax = b, para un vector solución inicial x0 y un vector 

residuo r0 = b − Ax0 se define como el subespacio cubierto por 

los vectores r0,Ar0,A 2 0 ,...,Ai−1 r0. Dependiendo de las características 

de la matriz que define el problema, podemos clasificar estos 

métodos en varios grupos: 

1) Si la matriz es simétrica y definida positiva el método de Gradiente 

Conjugado (CG) es el más apropiado. Utiliza una secuencia 

de vectores ortogonales xi para los que se minimiza 

(xi − x) T A(Xi − x) sobre todos los vectores en el espacio de 

Krylov actual K i (A,r0). 

2) Si la matriz es simétrica pero no es definida positiva, debemos 

considerar el método de Lanczos o los métodos de MIN- 

RES. En los métodos MINRES, los elementos xi ∈ K i (A,r0) se 

determinan minimizando la norma cuadrática de los residuos 

||b−Axi|| 2 , mientras que en el método de Lanczos los elementos 

xi son determinados por los residuos b − Axi perpendiculares 

al subespacio de Krylov. En estos casos es necesario almacenar 

toda la secuencia, lo que conlleva un consumo elevado de 

memoria. 

3) Si la matriz no es simétrica, en general no se puede determinar 

un conjunto óptimo de soluciones xi ∈ K i (A,r0) con pocas 

secuencias de vectores. Sin embargo, podemos computar el 

conjunto de vectores xi ∈ K i (A,r0) para los que se cumple la


condición b − Axi⊥K i (A T ,r0) (normalmente se elige s0 = r0). 

Así se generan dos secuencias de vectores, una con la matriz 

de coeficientes A y otra con A T , y en vez de ortogonalizar cada 

secuencia, lo hacen mutuamente: este es el método Gradiente 

Biconjugado (BiCG). Requiere un almacenamiento limitado 

aunque la convergencia puede ser irregular. Una variante de este 

método es el Residuo Cuasi–Mínimo (QMR) que aplica un 

resolutor por mínimos cuadrados y una actualización de la solución 

a los residuos del BiCG, suavizando el comportamiento 

de la convergencia y haciendo estos métodos más robustos. 

4) Si A no es simétrica, también podemos computar la secuencia 

de vectores xi ∈ K i (A,r0) para los que los residuos sean minimizados 

usando una norma euclídea (mínimos cuadrados). 

Ésto es lo que se implementa en el método Mínimo Residuo 

Generalizado (GMRES). Esta implementación requiere almacenar 

toda la secuencia, lo que conlleva un consumo elevado 

de memoria. Una variante del GMRES es el Mínimo Residuo 

Generalizado Flexible (FGMRES) que permite que el precondicionamiento 

varíe a cada paso. 

5) Las operaciones con la matriz A T en el método BiCG pueden 

ser sustituidas por operaciones con la matriz original A teniendo 

en cuenta que 〈x,A T y〉 = 〈x,Ay〉 donde el operador 〈...〉 

representa el producto escalar de dos vectores. Como la secuencia 

de vectores que usan A T en el método BiCG se utiliza 

sólo para mantener el espacio dual con el que los residuos se 

ortogonalizan, reemplazar en las operaciones A por A T permite 

la expansión del subespacio de Krylov y encontrar mejores 

aproximaciones a la solución virtualmente con el mismo coste 

computacional por iteración. Esta idea da lugar a los métodos 

iterativos conocidos como métodos híbridos: el Gradiente 

Conjugado Cuadrático (CGS), el Gradiente Biconjugado Estabilizado 

(BCGSTAB), TFQMR, etc. 

Todos los métodos iterativos presentan, en general, una convergencia demasiado 

lenta, así que es necesario introducir mejoras en el esquema numérico 

que aceleren la convergencia. Esto se realiza aplicando el precondicionador 

adecuado al sistema lineal que estemos resolviendo. 

A continuación se describe brevemente en qué consiste una factorización 

LU, para definir después el concepto de precondicionador y su utilidad.

3.2. Factorización LU 39 

3.2. Factorización LU 

Consiste en factorizar la matriz A como el producto de una matriz triangular 

inferior L y una matriz triangular superior U: 

A = LU (3.2) 

Consideramos que la matriz L está normalizada (lii = 1) y almacenada 

por columnas mientras que la matriz U está almacenada por filas, de tal 

forma que siempre se mantenga la siguiente igualdad: 

n 

lijujk = aik 

j=1 

El algoritmo básico para la factorización LU es el siguiente: 

DO i = 1, n 

lii = 1 

DO k = 1, i − 1 

lik = (aik − k−1 

j=1 lij · ujk)/ukk 

END DO 

DO k = 1, i 

uki = (aki − k−1 

j=1 lkj · uji) 

END DO 

END DO 

Figura 3.1: Factorización LU básica 

(3.3) 

Una vez factorizada la matriz el sistema de ecuaciones Ax = b podría 

representarse como LUx = b. Para su resolución realizamos la siguiente 

operación: 

obteniendo: 

si definimos z = L −1 b el sistema a resolver será: 

L −1 LUx = L −1 b (3.4) 

Ux = L −1 b (3.5) 

Ux = z (3.6)


Para ello primero obtenemos z, resolviendo la ecuación Lz = b, cuya solución 

es: 

zi = 1 i−1 

(bi − lijzj) i = 1,2,...n (3.7) 

lii 

Para resolver por último Ux = z: 

xi = 1 

uii 

(zi − 

n 

j=i+1 

j=1 

Obteniendo así el vector solución x. 

3.3. Precondicionadores 

uijxj) i = n,n − 1,...,1 (3.8) 

Los precondicionadores se usan para mejorar las propiedades de los sistemas 

lineales con el fin de acelerar la convergencia de los métodos iterativos. 

Partiendo del sistema Ax = b, buscamos una matriz M que transforme el 

sistema en otro cuyas propiedades sean más favorables y, por tanto, más 

fácil de resolver. El sistema lineal podría representarse como: 

M −1 Ax = M −1 b (3.9) 

En la búsqueda de la matriz M podemos seguir dos caminos: 

1. Encontrar una matriz M que se aproxime a A, de tal forma que resolver 

el sistema con esta matriz sea más fácil que hacerlo con la matriz A, 

resolviendo por lo tanto: 

Mx = b (3.10) 

2. Lograr una matriz M aproximada a A −1 de tal forma que la expresión 

AM sea tan cercana a la identidad como sea posible en algún sentido, 

como por ejemplo minimizando |AM − I| en la norma de Frobenius. 

De esta forma sólo sería necesario realizar el producto de M por el 

vector independiente para obtener la solución. Es decir: 

MAx = Mb =⇒ x ≃ Mb (3.11) 

Los precondicionadores se pueden aplicar por la izquierda, por la derecha y 

por ambos lados. Si partimos del sistema Ax = b, el precondicionamiento 

por la izquierda se basa en realizar la operación: 

M −1 Ax = M −1 b (3.12)

3.3. Precondicionadores 41 

En cambio, el precondicionamiento por la derecha se aplica así: 

AM −1 u = b (3.13) 

con u = Mx , donde u una nueva variable que nunca necesitará ser invocada 

explícitamente. 

El precondicionamiento por ambos lados no es más que una combinación 

de los dos métodos de precondicionamiento anteriores. 

Los precondicionadores que vamos a estudiar se pueden clasificar en tres 

tipos principales: los llamados precondicionadores clásicos, precondicionadores 

multimalla y los precondicionadores basados en descomposición de 

dominios. 

3.3.1. Precondicionadores clásicos 

Se basan en manipulaciones algebraicas de la matriz para obtener algún 

tipo de aproximación de la inversa de la matriz de coeficientes. Ejemplos 

de estos precondicionadores son las factorizaciones incompletas. Se trata 

de factorizar la matriz A (por ejemplo a través de una factorización LU) 

pero sin introducir todo el llenado que se produce durante este proceso 

[CvdV94]. Es decir, en una factorización incompleta LU se computa la matriz 

triangular inferior (L) y superior (U) de tal forma que la matriz residuo R = 

LU −A satisfaga ciertas limitaciones, como puede ser tener entradas nulas en 

ciertas posiciones. Existen básicamente cuatro versiones de factorizaciones 

incompletas: 

1. Factorizaciones sin llenado, ILU(0): son las más sencillas y no introducen 

llenado alguno, es decir, la factorización incompleta tiene la 

misma cantidad de elementos no nulos y en las mismas posiciones que 

la matriz A [MvdV97]. Este tipo de precondicionadores no suelen ser 

lo suficientemente potentes. 

Un ejemplo de este tipo de factorizaciones incompletas lo vemos en la 

figura 3.2, en la que tenemos representada la matriz A (imagen inferior 

izquierda) y unas matrices triangulares L y U con la misma estructura 

que las partes inferior y superior de la matriz A. La matriz A representada 

en la figura está generada a partir de una malla 8x4. Realizando 

el producto LU, la matriz resultante tendrá el patrón dado en la figura 

inferior derecha. Como podemos ver generalmente es imposible 

que coincidan las matrices A y LU, a causa de la aparición de entradas 

diagonales extra al realizar el producto (elementos de llenado). Si 

ignoramos estos elementos es posible lograr unas matrices L y U cuyo 

producto sea aproximadamente igual a A en las otras diagonales.


Figura 3.2: Ejemplo de factorización incompleta LU(0) 

2. Factorizaciones con llenado, ILU(k): en las que se usa como criterio para 

la introducción del llenado la posición dentro de la matriz [MvdV97]. 

El parámetro k de una factorización ILU(k) indica el número de columnas 

alrededor de la diagonal en las que se permite llenado. Este 

tipo de factorizaciones tienen el defecto de considerar que la importancia 

numérica de un llenado depende únicamente de la proximidad 

topológica sin tener en cuenta el fenómeno físico que la matriz A representa. 

Se podrían dar otras definiciones del parámetro k 

3. Factorizaciones con llenado, ILU(τ): Estas factorizaciones deciden introducir 

o no llenado en función de si el elemento es superior o inferior 

a un umbral determinado τ, relativo al valor de los elementos de la fila 

i–ésima de A usando cierta medida (como puede ser el valor medio de 

los elementos de la fila i–ésima) [Zla82]. 

4. Factorizaciones con llenado, ILU(fill,τ): en este caso se usan dos 

criterios para la introducción de llenado; la posición dentro de la matriz 

y un umbral numérico [Saa94a]. Así al factorizar la fila i–ésima se 

introducen todos los llenados que superen un umbral numérico relativo 

a esa fila (parámetro τ); una vez acabada la factorización de la fila i–

3.3. Precondicionadores 43 

ésima, sólo se almacena en la estructura de datos de salida tantos 

elementos como tuviese la matriz A en la fila i–ésima más 2 · fill 

(fill elementos en la parte L y fill elementos en la parte U). Se eligen 

para su almacenamiento aquellos con un valor absoluto mayor. Por lo 

tanto, usando este método τ controla el umbral numérico de cálculo y 

el parámetro fill la cantidad efectiva de llenado. 

3.3.2. Precondicionadores multimalla 

Son un grupo de métodos que trabajan sobre varias mallas para alcanzar 

la solución del problema[Dou96]. Sobre esta malla refinada se aplica un 

método iterativo suave para eliminar las componentes de error oscilatorias 

en ese nivel. Seguidamente se restringen los errores a una malla más gruesa, 

en la cual las componentes suaves se convierten en oscilatorias, y se aplica 

de nuevo el método suave sobre esta malla. Se repite esto de modo recursivo 

hasta llegar al nivel de malla donde se resuelve directamente el sistema. Este 

método acelera la convergencia de los métodos iterativos clásicos aplicando 

métodos iterativos suaves sobre una jerarquía de mallas relacionadas por 

una serie de operadores de restricción y prolongación. 

Presentan una complejidad en operaciones lineal con el tamaño del sistema, 

frente a la complejidad cuadrática de los métodos clásicos. Pero por 

otro lado consumen más memoria y son menos versátiles en su aplicación 

[Bri87, Wes95]. 

3.3.3. Precondicionadores basados en descomposición de dominios 

Las técnicas de descomposición de dominios intentan resolver el problema 

sobre todo el dominio a partir de la solución en cada subdominio Ωi. 

Para un dominio genérico Ω, dividido en s subdominios, en el que consideramos 

que no se produce solapamiento (overlapping) entre subdominios, 

se cumple: 

Ω = 

s 

Ωi ,Ωi ∩ Ωj = ∅ (3.14) 

i=1 

Aunque puede darse el caso de que exista solapamiento. Esto implica 

que los subdominios son tales que: 

Ω = 

s 

Ωi ,Ωi ∩ Ωj = ∅ (3.15) 

i=1


(a) (b) 

Figura 3.3: (a) Malla asociada a un dominio dividido en tres subdominios, 

(b) matriz asociada a la malla anterior 

Para problemas discretizados, es típico cuantificar la extensión del solapamiento 

a través del número de líneas de la malla que son comunes a los 

dos subdominios. 

Si partimos de un dominio Ω discretizado podemos etiquetar los nodos 

por cada subdominio de tal forma que etiquetemos primero los nodos internos 

a cada subdominio y por último los nodos frontera. La matriz que 

obtendremos presentará un patrón de bloques no nulos en forma de flecha, 

mostrando un aspecto: 

⎛ 

⎞ ⎛ ⎞ ⎛ ⎞ 

B1 0 0 ... E1 x1 f1 

⎜ 

⎟ 

⎜ 

0 B2 0 ... E2 ⎟ ⎜ ⎟ ⎜ ⎟ 

⎟ ⎜ x2 ⎟ ⎜ f2 ⎟ 

⎜ 

A = ⎜ . 

⎜ . . .. 

⎟ ⎜ ⎟ ⎜ ⎟ 

. ⎟ ⎜ ⎟ ⎜ ⎟ 

⎟ ⎜ 

⎜ 

⎟ ⎜ . ⎟ = ⎜ 

⎟ ⎜ . ⎟ 

⎜ 

⎝ . . 

⎟ ⎜ ⎟ ⎜ ⎟ 

Bs Es ⎠ ⎝ xs ⎠ ⎝ fs ⎠ 

F1 F2 ... Fs C y g 

(3.16) 

Tenemos el dominio dividido en s subdominios, por lo tanto cada xi 

será el subvector de incógnitas internas al subdominio Ωi y el subvector y 

indicará todas las incógnitas pertenecientes a la interfaz entre los subdominios. 

Las submatrices Bi indican el acoplamiento de las ecuaciones de cada 

subdominio con los nodos internos al mismo, las Ei indican el acoplamiento 

de las ecuaciones de cada subdominio con los nodos frontera, las Fi se refieren 

al acoplamiento de los nodos frontera de cada subdominio con los nodos 

frontera indicados por y. Por último, la matriz C indica el acoplamiento de 

los nodos frontera entre sí. 

En la figura 3.3(a) tenemos un ejemplo de una malla en forma de L

3.4. Técnicas de almacenamiento de matrices dispersas 45 

asociada a un dominio divido en tres subdominios. El etiquetado de los nodos 

es de tal forma que primero se numeran los nodos internos a cada uno de los 

subdominios y luego los frontera, además, el solapamiento entre subdominios 

es de orden uno. En la figura 3.3(b) se representa la matriz asociada a esta 

malla, que presenta, como ya dijimos anteriormente un patrón en forma de 

flecha. 

3.4. Técnicas de almacenamiento de matrices dispersas 

En el caso de las matrices dispersas un factor muy importante a tener 

en cuenta es el modo de almacenamiento. Una matriz densa N × N se suele 

almacenar en un vector bidimensional de dimensiones N × N. Sin embargo, 

si la matriz es dispersa, este almacenamiento desperdicia mucho espacio 

en memoria porque la mayoría de los elementos de la matriz son nulos y 

no necesitan ser almacenados explícitamente, es común almacenar sólo las 

entradas diferentes de cero añadiendo información sobre la localización de 

estas entradas. 

Existen muchos esquemas de almacenamiento de matrices dispersas, estando 

entre los más utilizados el CRS (Compressed Row Storage), el CCS 

(Compressed Column Storage) y el MSR (Modified Compressed Sparse Row). 

La elección del esquema más adecuado dependerá de las características del 

problema a resolver y del patrón (situación de las entradas no nulas) de la 

matriz. A continuación se describirán con más detalle los formatos de almacenamiento 

utilizados en las librerías estudiadas. Para ello trabajamos con 

la matriz representada a continuación, cuya dimensión es 8x8 y el número 

de elementos no nulos α=15. 

⎛ 

⎜ 

A = ⎜ 

⎝ 

1 0 0 2 0 0 0 0 

0 0 0 0 0 2 0 3 

0 4 0 0 0 0 0 0 

0 0 0 0 5 0 0 0 

0 0 0 6 6 0 7 0 

0 0 0 0 0 0 0 8 

9 10 0 0 0 0 0 11 

0 0 12 0 0 0 13 0 

⎞ 

⎟ 

⎠ 

(3.17)


3.4.1. Formato CRS (Compressed Row Storage) 

El esquema CRS representa la matriz por medio de tres vectores (Da, 

Colind y Rowptr). El vector Da almacena las entradas no nulas de la matriz 

al recorrerla por filas, Colind almacena el índice de columna de cada una 

de las entradas y Rowptr almacena la posición del vector Da en la que 

empieza cada nueva fila. El resultado del almacenamiento de la matriz en 

tres vectores se representa en la tabla 3.1. Este tipo de almacenamiento 

representa un ahorro considerable de memoria pues para almacenar una 

matriz de orden N × N no se necesitan N 2 posiciones de memoria, sino 

únicamente 2α + N + 1. 

Da 1 2 2 3 4 5 6 6 7 8 9 10 11 12 13 

Colind 1 4 6 8 2 5 4 5 7 8 1 2 8 3 7 

Rowptr 1 3 5 6 7 10 11 14 16 

Tabla 3.1: Modo de almacenamiento CRS para la matriz dispersa 

3.4.2. Formato CCS (Compressed Column Storage) 

El esquema CCS representa la matriz por medio de tres vectores (Da, 

Rowind y Colptr). El vector Da almacena las entradas no nulas de la matriz 

al recorrerla por columnas, y en este caso Rowind almacena el índice de fila 

de cada una de las entradas y Colptr almacena la posición del vector Da en 

la que empieza cada nueva columna. El resultado del almacenamiento de la 

matriz en tres vectores se representa en la tabla 3.2. 

Da 1 9 4 10 12 2 6 5 6 2 7 13 3 8 11 

Rowind 1 7 3 7 8 1 5 4 5 2 5 8 2 6 7 

Colptr 1 3 5 6 8 10 11 13 16 

Tabla 3.2: Modo de almacenamiento CCS para la matriz dispersa 

3.4.3. Formato MSR (Modified Compressed Sparse Row) 

El esquema MSR representa la matriz por medio de dos únicos vectores 

(Da, Index). El vector Da almacena las entradas de la matriz, empezando por 

toda la diagonal, dejando a continuación una entrada en blanco (en tabla 3.3 

marcado con −1), para seguir con el resto de los valores no nulos al recorrer

3.5. Librerías numéricas 47 

la matriz por filas. El vector Index almacena en las N +1 primeras entradas 

la posición del dato en el vector Da que comienza cada una de las filas, y 

a continuación la columna correspondiente a cada dato de las entradas no 

diagonales del vector Da. El resultado del almacenamiento de la matriz en 

los dos vectores se representa en la tabla 3.3. 

Da 1 0 0 0 6 0 0 0 -1 2 2 3 4 5 6 7 8 9 10 11 12 13 

Index 10 11 13 14 15 17 18 21 21 4 6 8 2 5 4 7 8 1 2 8 3 7 

Tabla 3.3: Modo de almacenamiento MSR para la matriz dispersa 

3.4.4. Formato HB (Harwell Boeing) 

Este formato de almacenamiento está basado en el CCS. A la matriz 

almacenada en formato CCS se le añaden simplemente unas cabeceras que 

contienen información relativa al formato de almacenamiento y a los requerimientos 

de espacio. Suponiendo que no almacenamos el vector independiente, 

la matriz en formato H/B estará formada por tres bloques de datos 

consecutivos que contendrán los vectores Da, Rowind y Colptr, y cuatro 

líneas iniciales de cabecera que nos darán el número de líneas ocupadas por 

cada uno de los vectores, el número total de filas y de elementos no nulos, el 

tipo de matriz, etc. Si también almacenamos el vector independiente habría 

que añadir un cuarto bloque de datos y una quinta línea de cabecera. Este 

bloque contendría los valores numéricos del vector independiente (aunque 

también se podría escoger almacenarlo en el mismo formato utilizado para 

la matriz), y la nueva línea de cabecera informaría de la dimensión del vector 

independiente, del número de filas que ocupa y del formato escogido para 

su almacenamiento. 

3.5. Librerías numéricas 

Existen un gran número de librerías numéricas para la resolución de sistemas 

lineales tanto densos como dispersos. Vamos a centrarnos en librerías 

especializadas en la resolución de sistemas dispersos, teniendo en cuenta que 

existen tanto librerías secuenciales como paralelas. Ejemplos de librerías secuenciales 

son: 

1. HSL [Tec93](Harwell Subroutine Library): son códigos escritos en Fortran 

utilizados en computaciones científicas a gran escala. Dispone de 

herramientas para la resolución de diferentes problemas matemáticos


entre los que se encuentran álgebra lineal, ecuaciones diferenciales, 

ecuaciones no lineales y estadísticas. 

2. YSMP [EGSS82](Yale Sparse Matrix Package): esta librería está compuesta 

por una colección de subrutinas de Fortran 77 diseñadas para 

la resolución de grandes sistemas dispersos de ecuaciones de álgebra 

lineal. 

3. SPARSKIT [Saa94b]: esta librería, escrita en Fortran, dispone de 

herramientas para trabajar con matrices dispersas en diferentes formatos 

de almacenamiento, además de realizar operaciones básicas de 

álgebra lineal utilizando este tipo de matrices. 

Entre las librerías paralelas que permiten la resolución de sistemas lineales 

dispersos se encuentran: 

1. Aztec [HST95]: es una librería paralela de métodos iterativos y precondicionadores 

para sistemas distribuidos codificados en C. Su principal 

objetivo es proveer de herramientas que faciliten el manejo de las 

estructuras de datos distribuidas, incluye varios métodos iterativos no 

estacionarios, precondicionadores polinomiales y basados en factorizaciones 

incompletas. 

2. BlockSolve [JP97]: es un conjunto de rutinas para la resolución de 

grandes sistemas lineales dispersos en sistemas multicomputador. La 

librería está codificada en C, utiliza MPI y permite resolver sistemas lineales 

de ecuaciones de rangos elevados en computadores masivamente 

paralelos y en redes de estaciones de trabajo aunque con la limitación 

de estar restringido a matrices con estructura simétrica. 

3. PETSc [BGMS99b, BGMS99a]: es un desarrollo del Argonne National 

Laboratory, ha sido desarrollada usando la librería estándar de pase 

de mensajes MPI y se aplica a la resolución numérica de ecuaciones 

diferenciales parciales, incluyendo para ello un conjunto de resolutores 

paralelos de ecuaciones lineales y no lineales. Esta librería da una 

gran flexibilidad al usuario porque utiliza técnicas de programación 

orientadas a objetos. 

4. PSPARSLIB [LS96, SLK97, SM95]: es una librería portable de resolutores 

iterativos en paralelo para sistemas lineales dispersos, incluyendo 

una serie de precondicionadores y métodos iterativos además de 

herramientas de particionamiento.


5. SuperLU [DGL99]: colección de rutinas diseñadas para la resolución 

de sistemas lineales dispersos por medio de una factorización LU. Dispone 

tanto de versiones secuenciales como paralelas. 

A continuación se hace una descripción de las librerías estudiadas. 

3.5.1. SPARSKIT 

Es una librería secuencial utilizada principalmente para la resolución de 

sistemas de ecuaciones lineales dispersos. Proporciona al usuario una serie 

de herramientas para trabajar con este tipo de matrices, entre las que se 

encuentran: 

Un módulo con subrutinas para realizar operaciones básicas de álgebra 

lineal, como pueden ser productos y sumas de matrices, productos 

matriz–vector, y varios métodos de resolución de sistemas triangulares. 

Un grupo de rutinas para realizar operaciones no–algebraicas sobre una 

matriz, tales como la ordenación de sus elementos en orden creciente, 

la extracción de submatrices cuadradas o rectangulares de una matriz 

dispersa, el filtrado de los elementos de una matriz de acuerdo con su 

magnitud, etc. 

Utilidades para la generación de matrices en formato Harwell/Boeing 

(H/B). 

Rutinas de información, útiles para obtener parámetros característicos 

de la matriz, como pueden ser el número total de elementos no nulos, 

el promedio de no–nulos por fila (con su desviación estándar), el ancho 

de banda, la simetría, etc. 

Un conjunto de subrutinas que permiten el reordenamiento matricial. 

Un módulo para la resolución de sistemas de ecuaciones lineales. 

Accesorios para la representación gráfica de grafos y matrices. 

Herramientas para la conversión de una matriz de un determinado 

formato en otro diferente. Teniendo en cuenta que el formato Harwell/Boeing 

es uno de los más utilizados en propósitos comparativos y 

de testeo la librería SPARSKIT incluye rutinas para crear matrices 

en formato Harwell/Boeing (H/B) a partir de muchos otros tipos de 

formatos.


En el módulo de resolución de sistemas de ecuaciones lineales los resolutores 

que se pueden emplear son: CG, CGNR, BCG, BCGSTAB, DBCG, 

GMRES, FGMRES, DQGMRES y TFQMR. 

Entre los precondicionadores posibles se encuentran: ILUT (factorización 

incompleta LU, en la que se usa como criterio tanto un umbral numérico 

como la posición dentro de la matriz), ILUTP (ILUT con pivoteo por columna), 

ILU0 y MILU0. 

SPARSKIT también dispone de aceleradores como el PGMRES (resolutor 

GMRES precondicionado). Antes de llamar a este acelerador se utiliza 

como preprocesador alguno de los precondicionadores vistos anteriormente. 

ipar(1)=0 

10 call solver(ipar, parámetros entrada) 

if (ipar(1).eq.1) then 

call amux() 

c producto matriz-vector 

goto 10 

else if (ipar(1).eq.2) then 

call atmux() 

c producto matriz traspuesta-vector 

goto 10 


c resolutor con precond. por la izquierda 

goto 10 


c resolutor precond. por la izquierda de A T 

goto 10 


c resolutor precond. por la derecha 

goto 10 


c resolutor precond. por la derecha de A T 

goto 10 

else if (ipar(1).gt.0) then 

c ipar(1) es un código indeterminado 

else 

c El resolutor iterativo ha terminado 

endif 

Figura 3.4: Ejemplo de pseudo–código para el protocolo de comunicación 

inversa 

Es importante destacar que estas rutinas están implementadas usando 

técnicas de comunicación inversa. Según este protocolo cuando el resolutor 

realiza un producto matriz–vector, un producto escalar, o algún tipo de


operación similar, se llama a la rutina correspondiente, que será la encargada 

de realizar las operaciones necesarias y devolver posteriormente la solución 

al resolutor. Una consecuencia de esta implementación es que la estructura 

de datos asociados a la matriz y el precondicionador no necesita ser incluida 

en la llamada al resolutor. Un ejemplo del funcionamiento de este protocolo 

lo encontramos en el pseudocódigo de la figura 3.4, en el que se utiliza 

ipar(1) como método de obtener el status de la llamada (si ipar(1)=0 se iniciará 

el resolutor iterativo) y de la salida del resolutor (solver). Así si ipar(1) 

tiene un valor positivo indicará la necesidad de realizar alguna operación y 

ipar(1) < 0 indicará la terminación de la etapa de resolución. 

Esta técnica también se utiliza en la librería PSPARSLIB que veremos 

a continuación. 

3.5.2. PSPARSLIB 

La librería PSPARSLIB es una librería de resolutores paralelos iterativos 

que proporciona una serie de módulos utilizados para simplificar el desarrollo 

y la implementación de resolutores iterativos dispersos en computadores de 

memoria distribuida. PSPARSLIB resuelve sistemas lineales dispersos que se 

encuentran distribuidos entre varios procesadores, pudiendo trabajar tanto 

con matrices simétricas o no–simétricas, incluso con patrones irregulares. 

Está escrita básicamente en Fortran aunque incluye un número pequeño de 

módulos en C, utilizando la librería MPI para paso de mensajes. 

Hay dos formas distintas de preparar la matriz para los resolutores iterativos. 

En la primera, el particionamiento puede determinarse de antemano 

y cada nodo crear su propia parte local del sistema lineal. En la segunda, 

un nodo lee el sistema lineal completo, para a continuación particionar la 

matriz y distribuir el sistema entre los procesadores participantes. 

La librería PSPARSLIB está compuesta de los siguientes módulos: 

Un particionador de grafos simple. 

Rutinas para reordenar y formar las matrices locales. 

Aceleradores Krylov: CG, GMRES, FGMRES, DQGMRES, BCGS- 

TAB, QMR y TFQMR. 

Precondicionadores basados en descomposición de dominios, como pueden 

ser el método de Jacobi por bloques, SOR multicolor o técnicas 

de complemento de Schur. Para cada uno de los precondicionadores es 

posible elegir si deseamos que exista o no solapamiento.


Figura 3.5: Representación local de una matriz dispersa distribuida 

Herramientas de preprocesamiento, como pueden ser rutinas de particionamiento, 

de mapeado, rutinas de datos locales y algunas rutinas 

de color. 

Para entender el funcionamiento de esta librería es necesario saber como 

están compuestas las matrices locales a cada procesador. 

Estructura de datos locales 

El grafo formado por el conjunto de nodos incógnitas del problema se 

descompone en una serie de subdominios o subgrafos, de tal forma que, 

en nuestro caso tendríamos tantos subdominios como procesadores. Para 

entender esto es necesario distinguir entre tres tipos de nodos incógnitas, tal 

y como aparece representado en la figura 3.5: 

Nodos internos: nodos locales que sólo tienen relación con otros 

nodos interiores al subdominio y por tanto sin ningún contacto con 

nodos pertenecientes a otros subdominios. 

Nodos frontera internos: nodos locales pero acoplados con nodos 

frontera pertenecientes a otros subdominios.


Nodos frontera externos: nodos pertenecientes a otros subdominios 

pero acoplados con nodos internos de este subdominio. 

Las ecuaciones locales a cada subdominio no tienen porque corresponder 

con ecuaciones contiguas en el sistema original. Las filas de la matriz asignadas 

a un procesador, se pueden dividir en dos partes: en una submatriz 

local Ai que actúa sobre los nodos internos y una submatriz de interfaz Xi 

que se refiere a las entradas correspondientes a nodos frontera externos que 

interaccionan con nodos frontera internos al subdominio. Las variables remotas 

deben ser recibidas de los otros procesadores antes de que el producto 

matriz–vector se pueda completar en estos procesadores. 

Los nodos frontera se numeran siempre después de los nodos internos. 

Esta ordenación local de los datos presenta varias ventajas, entre las que 

se incluye una eficiente comunicación entre procesadores. De igual modo, 

cada vector local de incógnitas xi es dividido en dos partes: un subvector ui 

de nodos internos seguido por el subvector yi correspondiente a los nodos 

frontera internos. Siguiendo el mismo procedimiento el vector independiente 

también es dividido en los subvectores fi y gi. 

Así: 

 

xi = 

ui 

yi 

, bi = 

fi 

gi 

(3.18) 

La matriz local Ai, perteneciente al procesador i, también puede particionarse 

por bloques, de tal modo que se separen las contribuciones de cada 

clase de nodo a dicha matriz de la siguiente forma: 

 

Ai = 

Bi Ei 

Fi Ci 

(3.19) 

Según esto, las ecuaciones locales de un subdominio i pueden ser expresadas 

como: 

Bi 

 

Ei ui 

 

+ 

0 

 

fi 

= 

 

(3.20) 

Fi Ci 

yi 

jǫNi Eijyi 

donde el término Eijyj es la contribución a las ecuaciones locales del subdominio 

vecino j–ésimo, siendo N el conjunto de subdominios vecinos al subdominio 

i. Para implementaciones prácticas, los subvectores de los nodos 

frontera externos se agrupan en un vector yi,ext. Por lo tanto la contribución 

al sistema local por parte de los nodos frontera externos puede expresarse: 

 

(3.21) 

jǫNi 

Eijyj = Xiyi,ext 

Una de las operaciones más costosas en el resolutor iterativo paralelo es 

el producto matriz–vector para matrices distribuidas, que vamos a tratar 

seguidamente. 

gi


Productos matriz–vector 

Ésta es esencialmente una operación local que toma un vector distribuido 

x y produce el resultado W = Ax, distribuido conforme el mapeado de todos 

los vectores, es decir, cada procesador i producirá wi, su parte local del 

resultado w. El producto matriz–vector se realiza implementando la siguiente 

ecuación: 

wi = Aixi + Xi,extyi,ext 

(3.22) 

El primer paso es obtener los datos externos yi,ext necesarios en cada procesador. 

Al mismo tiempo que se espera por la recepción de estas variables 

externas se puede realizar en paralelo el producto de la matriz Ai por los 

datos locales xi. 

A continuación hay que multiplicar esas variables recibidas por la matriz 

externa Xi asociada a ellas y sumar este resultado al obtenido del primer 

producto. En esta librería al igual que en la SPARSKIT se utiliza el protocolo 

de comunicación inversa, lo que quiere decir que cuando el resolutor 

necesita hacer una operación (por ejemplo un producto matriz–vector), se 

llama a la rutina correspondiente que se encarga de comunicarse con los otros 

procesadores (por ejemplo a través de MSG bdx send/MSG bdx receive que 

se encargan de enviar/recibir datos frontera), realizar las operaciones necesarias 

(por ejemplo amxdis realiza el producto matriz–vector) y devolver 

posteriormente la solución al resolutor. 

Seguidamente vamos a describir los precondicionadores utilizados. 

Precondicionadores 

Los principales precondicionadores que incluye PSPARSLIB están basados 

en técnicas de descomposición de dominios. Las ecuaciones son resueltas 

a partir de una sucesión de soluciones correspondientes a cada grupo de 

ecuaciones en cada paso. Estas técnicas son precondicionadores por bloques, 

estando dichos bloques basados en subdominios. Entre los precondicionadores 

destacan el Schwarz aditivo, el Schwarz multiplicativo y técnicas de 

complemento Schur. 

Antes de entrar en detalle con estos precondicionadores tenemos que 

recordar que el objetivo es resolver el sistema Ax = b, con A una matriz real 

nxn y b un vector real de dimensión n.


Método de Schwarz aditivo 

Se puede considerar como una forma de iteración por bloques de Jacobi, 

en la que cada bloque está referido al sistema de ecuaciones asociado a 

cada subdominio. La iteración de Jacobi por bloques es un método en el 

cual en el paso de una iteración a la siguiente se busca la actualización de 

un conjunto (un bloque) de componentes a la vez. Para ello realizamos un 

particionamiento de la matriz A y de los vectores solución e independiente 

en bloques: 

⎛ 

⎞ ⎛ ⎞ ⎛ ⎞ 

A11 A12 A13 ... A1p 

ρ1 

β1 

⎜ 

⎟ ⎜ ⎟ ⎜ ⎟ 

⎜ A21 A22 A23 ... A2p ⎟ ⎜ ρ2 ⎟ ⎜ β2 ⎟ 

⎜ 

⎟ ⎜ ⎟ ⎜ ⎟ 

⎜ 

A = ⎜ A31 A32 A33 ... A3p 

⎟ ⎜ 

⎟ ; x = ⎜ ρ3 

⎟ ⎜ 

⎟ ; b = ⎜ β3 

⎟ 

⎜ 

. ⎟ ⎜ ⎟ ⎜ ⎟ 

⎝ . . . .. ⎟ ⎜ ⎟ ⎜ ⎟ 

. ⎠ ⎝ . ⎠ ⎝ . ⎠ 

Ap1 Ap2 Ap3 ... App 

(3.23) 

Por otro lado descomponemos la matriz A, en A = D − E − F con : 

⎛ 

⎜ 

A = ⎜ 

⎝ 

A11 

A22 

. .. 

App 

⎜ 

F = − ⎜ 

⎝ 

ρp 

⎞ ⎛ 

0 

⎟ ⎜ 

⎟ ⎜ A21 0 

⎟ ; E = − ⎜ 

⎠ ⎝ . . 

⎛ 

0 A12 ... A1p 

0 ... A2p 

. .. 

. .. 

Ap1 Ap2 ... 0 

0 

⎞ 

⎟ 

⎠ 

⎞ 

βp 

⎟ 

⎠ (3.24) 

(3.25) 

En una iteración k, xk sería el vector solución obtenido en esa iteración 

para un determinado bloque. A partir de esto la iteración de Jacobi calcula 

su componente i–ésima en la siguiente iteración (k + 1) con el objetivo de 

anular la componente i del vector residuo. Es decir conseguir que: 

Para que esto sea posible debe darse que: 

aiix (k+1) 

i 

= − 

despejando obtendríamos: 

(b − Axk+1)i = 0 (3.26) 

p 

j=1 j=i 

aijx k j + βi i = 1,...,p (3.27)


x (k+1) 

i 

= 1 

(βi − 

aii 

p 

j=1 j=i 

Reescribiéndolo todo en notación matricial: 

x (k+1) 

i 

llegaríamos a la ecuación: 

aijx k j ) i = 1,...,p (3.28) 

= A −1 

ii ((E + F)xk i + A −1 

ii βi i = 1,...,p (3.29) 

x (k+1) 

i = D −1 (E + F)x k + D −1 b (3.30) 

Este método determina el vector solución (para un determinado bloque) 

en la iteración k + 1 utilizando para ello los vectores obtenidos en la 

iteración anterior k. Es interesante tener en cuenta que el número de iteraciones 

necesarias para obtener la convergencia suelen disminuir rápidamente 

al aumentar el tamaño del bloque. 

Lo visto por el momento sería a nivel de un solo bloque. En conjunto el 

algoritmo que se sigue es: 

1.- For i=1,...,s Do , s= número de dominios existentes 

2.- Obtener los datos externos yi,ext 

3.- Calcular el residuo local: 

4.- Resolver 

5.- EndDo 

6.- Obtener 

ri = (b − Ax)i = bi − Aixi − Xiyi,ext. (3.31) 

Aiδi = ri 

s 

xnew = x + δi 

i=1 

(3.32) 

(3.33) 

Es decir, en una iteración, cada subdominio calcularía sus incógnitas 

locales y utilizaría para ello los valores de las incógnitas externas obtenidos 

por los otros subdominios en la iteración anterior. Al final de la iteración 

se produciría una actualización de la solución obteniendo así una nueva 

aproximación. 

Un caso a tener en cuenta sería la aplicación del método de Jacobi con 

solapamiento. Utilizar solapamiento es una buena estrategia para reducir el 

número de iteraciones. Hay varias formas posibles de implementar el solapamiento 

en las iteraciones por bloque de Jacobi. Tomando como ejemplo


Figura 3.6: Solapamiento de dominios 

la figura 3.6 en la que se muestran tres subdominios, vemos que en ciertas 

zonas (por ejemplo en la región triangular) los datos se solapan tres veces y 

existirán por lo tanto tres versiones distintas de ellos, una por Pk, otra por 

Pj y una versión local asociada a Pi. Cuando se intercambian datos durante 

la fase de iteración podemos reemplazar la versión local de los datos por una 

externa o utilizar algún promedio de los datos de las distintas versiones. 

Realizando un estudio del código desarrollado en esta librería, el procedimiento 

a seguir sería el siguiente: el procesador 1 lee la matriz completa, 

particiona el grafo y reparte las matrices locales a cada procesador. Una vez 

que cada uno recibe su submatriz, crean un vector de mapeado que contiene 

la lista nodo–procesador al que pertenece, determinan la información 

frontera (esto es, número de procesadores adyacentes, lista de procesadores 

vecinos, nodos frontera internos ordenados por procesador, etc). 

Una vez formada la matriz local, que no será más que una forma reordenada 

de las ecuaciones iniciales, se hace una factorización incompleta LU 

de la matriz, como precondicionamiento. El paso siguiente es proponer una 

solución inicial y resolver el problema utilizando un resolutor (de los disponibles 

en la librería) precondicionado con el método Schwarz aditivo con 

solapamiento. 

En la fase de solución hay dos casos posibles: 

Si el número máximo de iteraciones del precondicionador (fijado como 

parámetro de entrada) es igual a cero, el resolutor interno resuelve 

simplemente una factorización LU precondicionada con ILU(fill,τ). Es 

decir se implementa una factorización incompleta LU en la que se


(a) (b) 

Figura 3.7: (a) Etiquetado natural para una malla bicolor , (b) Reordenamiento 

blanco–negro de los nodos 

permite controlar el llenado (fill) de la matriz, que tiene en cuenta 

además el parámetro τ que indica un valor mínimo a partir del cual 

se permite el llenado. 

Si el número máximo de iteraciones del precondicionador es mayor de 

cero se resuelve el problema utilizando GMRES precondicionado con 

ILU(fill,τ). Este caso se utiliza sólo cuando el resolutor elegido es el 

FGMRES, que permite la variación del precondicionador en cada paso. 

Método Schwarz multiplicativo 

La versión implementada en esta librería es un algoritmo de Gauss– 

Seidel por bloques multicolor. Éste método puede verse como una secuencia 

de eliminación de los componentes del residuo de los sistemas locales a cada 

procesador. Cada eliminación da lugar a una corrección de las variables locales 

del vector incógnita, y posteriormente a la corrección del vector residuo 

global. 

Es preciso tener un criterio de ordenamiento global de los subdominios 

de modo que subdominios vecinos tengan etiquetas diferentes. La opción 

seleccionada en este caso, el ordenamiento multicolor, maximiza el paralelismo. 

El ordenamiento multicolor consiste en colorear un grafo, de tal forma 

que no haya dos nodos adyacentes del mismo color. Su objetivo es la obtención 

de un grafo que utilice el menor número posible de colores. Para 

explicarlo con más detalle voy a describir el caso más simple, en el que sólo 

tenemos dos colores, blanco y negro. 

El grafo de partida nos muestra el etiquetado natural en el caso de nodos 

adyacentes de colores distintos (figura 3.7(a)). En el se puede ver que los 

colores están alternados y la numeración es consecutiva. A continuación se


modifica el etiquetado de los nodos numerando primero todos los nodos de 

un color para a continuación hacer lo mismo con los del otro (figura3.7(b)). 

Como los nodos de un mismo color no estarán acoplados entre sí, el sistema 

resultante de este reordenamiento tendrá la estructura: 

 

D1 F 

E D2 

 

x1 

x2 

 

= 

 

b1 

b2 

 

(3.34) 

en la que D1 y D2 son matrices diagonales. 

En nuestro caso concreto, utilizamos el ordenamiento multicolor en un 

método basado en descomposición de dominios, dividiendo para ello el sistema 

en tantos subdominios como número de procesadores, coloreándolos 

de tal forma que subdominios vecinos tengan colores distintos. Así todos 

los procesadores de un mismo color podrían computar sus partes locales 

del vector solución en paralelo porque no existe ninguna dependencia entre 

ellas. Al finalizar enviarían los valores obtenidos a sus vecinos, permitiendo 

así que otro color empiece su fase de computación. 

Así, el reordenamiento multicolor aplica un algoritmo que tiene el siguiente 

esquema: 

1.- For col=1,...,numcolor Do 

2.- If (col.eq.mycol) then 

3.- Obtener los datos externos yi,ext 

4.- Calcular el residuo local: 

5.- Resolver 

6.- Actualizar la solución: 

ri = (b − Ax)i 

Aiδi = ri 

xi = xi + δi 

(3.35) 

(3.36) 

(3.37) 

7.- EndIf 

siendo numcolor el número total de colores. 

Esta implementación puede permitir también solape entre los dominios, 

un parámetro de relajación w, etc. 

Un problema asociado con el ordenamiento multicolor es el hecho de que 

si los subdominios asociados con un color dado están activos, todos los otros 

subdominios deberán estar inactivos, limitando la eficiencia alcanzable por 

1/numcolor. Para solucionar esto, podemos dividir la matriz local en dos


bloques, el primero asociado a los nodos internos y el segundo asociado a 

los nodos frontera. 

De este modo para la matriz local Ai tendríamos, 

Ai = 

 

Bi Ei 

Fi Ci 

 

= 

 

Bi 0 

0 Ci 

 

+ 

 

0 Ei 

Fi 0 

 

(3.38) 

Utilizando esta técnica las computaciones que involucran a los nodos 

internos de cada subdominio pueden ser realizadas en paralelo, de modo que 

el límite de la eficiencia antes establecido se aumenta. 

El código empleado en la librería para este caso particular es practicamente 

idéntico al explicado en el apartado anterior para la iteración de Jacobi 

por bloques, aunque en este caso aparece una rutina diferente: multicD, 

que será la encargada del ordenamiento multicolor. El algoritmo empleado 

en la implementación de esta rutina está basado en una ordenación topológica 

tal que a nivel de programación el paralelismo sea del orden del diámetro 

del grafo. La rutina multicD proporciona el número de colores distintos asignados 

a los procesadores adyacentes y el color asignado al procesador local. 

En el caso del resolutor interno, se llaman a las rutinas msorlu (msorlut) 

que resuelven el sistema por medio de una factorización incompleta LU de 

la matriz (o de su traspuesta). 

Desde el punto de vista matemático la diferencia existente entre las iteraciones 

por bloques de Gauss–Seidel y Jacobi es mínima. Gauss–Seidel actualiza 

inmediatamente (nada más obtenerlas) las componentes corregidas en 

el paso i de una cierta iteración y utiliza la solución aproximada actualizada 

para computar el residuo necesario para corregir las siguientes componentes 

a calcular en esa iteración. Mientras tanto, la iteración de Jacobi utiliza la 

misma aproximación antigua del vector solución durante toda la iteración. 

Métodos basados en el complemento de Schur 

Estas técnicas se refieren a métodos que sólo trabajan sobre las variables 

de interfaz, utilizando implícitamente las variables internas como variables 

intermedias. En este caso se parte de un particionamiento de la matriz basado 

en vértices. Llamaremos aristas de interfaz a todas las aristas que unen 

vértices que no pertenecen al mismo subdominio, siendo los vértices de interfaz 

aquellos que en un subdominio dado son adyacentes a una arista de 

interfaz. Un vértice no es compartido por 2 particiones con la excepción 

de que exista solapamiento entre subdominios. Este tipo de particionamiento 

es totalmente diferente al realizado en la figura 3.3(a), en la que si dos


(a) (b) 

Figura 3.8: (a)Malla asociada a un subdominio dividido en tres subdominios 

según un particionamiento basado en vértice, (b) Matriz asociada a la malla 

anterior 

vértices están acoplados tienen que pertenecer al mismo subdominio (particionamiento 

basado en arista). 

Un ejemplo de particionamiento basado en vértices se encuentra en la 

figura 3.8(a), los vértices de interfaz para el subdominio 1 (parte inferior 

de la figura, cuadrado izquierdo) son aquellos etiquetados desde el 10 al 

16. La matriz resultante (figura 3.8(b)) es diferente de la obtenida con un 

particionamiento por aristas (gráfica 3.3), puesto que en esta ocasión los 

nodos de interfaz no se numeran al final en el etiquetado global, sino que se 

numeran como los últimos nodos de cada subdominio. 

Podemos escribir el sistema basado en este nuevo etiquetado. La matriz 

asociada con el particionamiento de las variables en subdominios tendrá una 

estructura de bloques con un número de subdominios s . Si tomamos como 

ejemplo la figura 3.8(b), s = 3 y la matriz tendrá una estructura de bloques 

de la forma: 

A = 

⎛ 

⎜ 

⎝ 

A1 A12 A13 

A21 A2 A23 

A31 A32 A3 

En cada subdominio las variables serán: 

zi = 

 

xi 

yi 

 

⎞ 

⎟ 

⎠ (3.39) 

(3.40) 

representando xi los nodos internos y yi los nodos de interfaz asociados con 

el subdominio i. Cada matriz Ai será la matriz local del subdominio i, siendo


su estructura: 

Ai = 

 

Bi Ei 

Fi Ci 

 

(3.41) 

donde Bi representa la matriz asociada con los nodos internos del subdomino 

i, Ei y Fi representan los acoplamientos de los nodos internos con los nodos 

de interfaz, por último Ci es la parte local de la matriz de interfaz C y 

representa el acoplamiento entre los nodos locales de interfaz. 

Observando la matriz de la figura 3.8(b) se encuentra que en la estructura 

de los bloques Aij con j = i se encuentra un sub–bloque de ceros en la parte 

que actúa sobre la variable xj. Esto es lo esperado puesto que xi y xj no 

están acoplados. Por lo tanto: 

zi = 

 

0 

Eij 

 

(3.42) 

La mayoría de las matrices Eij son cero, puesto que sólo los índices j de los 

subdominios que tengan acoplamiento con el subdominio i presentarán un 

Eij = 0. Por lo tanto la parte del sistema lineal que es local al subdominio 

i es de la forma: 

Bixi + Eiyi = fi (3.43) 

Fixi + Ciyi + 

j∈Ni Eijyj = gi (3.44) 

El término Eijyj es la contribución a la ecuación del subdominio vecino j 

y Ni es el conjunto de subdominios adyacentes al i. Podemos eliminar la 

variable xi del sistema, extrayéndola de la ecuación 3.43: 

j∈Ni 

xi = B −1 

i (fi − Eiyi) (3.45) 

y sustituyéndola en la ecuación 3.44: 

 

Ci − FiB −1 

 

i yi + 

Eijyj = gi − FiB −1 

i fi i = 1,...,s (3.46) 

Al primer término de la ecuación 3.46 se le denomina matriz de complemento 

de Schur local Si = Ci − FiB −1 

i Ei. Tras resolver la ecuación anterior se 

obtendrían los valores en los nodos de la interfaz yi para una cierta iteración 

(k + 1), utilizando valores de los nodos frontera obtenidos en la iteración 

anterior, es decir: 

y (k+1) 

i 

= S −1 

i 

⎡ 

⎣gi − FiB −1 

i fi − 

j∈Ni 

Eijy (k) 

j 

⎤ 

⎦ (3.47)


que son sustituidos a continuación en la ecuación 3.45 para obtener los valores 

de las variables internas xi en la iteración (k + 1). Por lo tanto el 

procedimiento a seguir comprende tres pasos básicos: 

1. Calcular el vector independiente g ′ = g − FB −1 f. 

2. Resolver el sistema reducido a través de un método iterativo, como 

puede ser un método basado en subespacios de Krylov (por ejemplo 

GMRES), obteniendo así el vector y. 

3. Obtener x vía x = B −1 (f − Ey). 

Para todos los subdominios las ecuaciones 3.46 se convierten en un 

sistema de ecuaciones que implican sólo a los puntos de interfaz yj con 

j = 1,2,...,s, siendo s el número de subdominios. Este sistema presenta una 

estructura por bloques asociada al vector de incógnitas de cada subdominio, 

donde los bloques de la diagonal, conocidos como matrices Si, son generalmente 

densos mientras que los bloques Eij, correspondientes a la relación 

entre incógnitas del subdominio i–ésimo con las del j–ésimo, son dispersos. 

De hecho Eij = 0 sólo si existe alguna ecuación que los acople. La estructura 

de dicha matriz sería la siguiente: 

⎛ 

⎜ 

S = ⎜ 

⎝ 

S1 E12 E13 ... E1s 

E21 S2 E23 ... E2s 

E31 E32 S3 ... E3s 

. 

. 

. 

. .. 

Es1 Es2 Es3 ... Ss 

. 

⎞ 

⎟ 

⎠ 

(3.48) 

La estructura del complemento global de Schur S se obtiene teniendo en 

cuenta que para particionamientos basados en vértice, la matriz de complemento 

de Schur se puede formar a partir de las matrices de complemento de 

Schur local (las Si) y la información interfaz–interfaz (los Eij). 

3.5.3. SuperLU 

La librería SuperLU [DGL99] fue desarrollada entre NERSC (National 

Energy Research Scientific Computing Center) y la Universidad de Berkeley. 

Tiene como objetivo la resolución de una factorización LU completa en 

diversas arquitecturas. Se utiliza generalmente en la solución directa de grandes 

sistemas dispersos y no–simétricos de ecuaciones lineales en máquinas 

de alto rendimiento. Está formada por los siguientes módulos:


SuperLU Secuencial: diseñada para procesadores secuenciales con uno 

o más niveles en la jerarquía de memoria (cachés). 

SuperLU Multithreaded: planteada para multiprocesadores de memoria 

compartida. 

SuperLU Distribuida: está diseñada para procesadores paralelos de 

memoria distribuida. 

En nuestro caso utilizamos el módulo SuperLU Distribuida. Está implementada 

en ANSI C, aunque es sencillo compaginarla con Fortran, y utiliza MPI 

para las comunicaciones, siendo su modelo de programación SPMD. La librería 

incluye rutinas que le permiten manejar matrices tanto reales como 

complejas en doble precisión. Incorpora una serie de ideas algorítmicas desarrolladas 

recientemente, que explotan las características de las arquitecturas 

de computadores modernas, particularmente la organización multinivel 

de la caché. Puede utilizarse con un número de procesadores elevado, alcanzándose 

una tasa de factorización de 10.2 Gigaflops en un Cray T2E de 

512 procesadores. A continuación se describe su algoritmo básico de funcionamiento: 

1. Equilibrar la matriz A: computar las matrices diagonales Dr y Dc 

de tal forma que A = DrADc esté mejor condicionada, es decir que 

A −1 sea menos sensible a perturbaciones de lo que sería A −1 . 

2. Reordenar las filas de A: reemplazar A por A ′ = Pr A, donde Pr es 

la matriz de permutación. 

3. Ordenar las columnas de A ′ : para incrementar la dispersidad de 

los factores L y U computados, e incrementar el paralelismo. En otras 

palabras, reemplazar A ′ por A ′′ = Pc AP T c . 

4. Computar la factorización LU de A ′′ 

5. Resolver el sistema utilizando los factores triangulares computados. 

6. Computar los márgenes de error. 

La matriz de entrada A se encuentra distribuida entre los procesadores, 

que utilizan una distribución basada en bloques de filas. Es decir, cada 

procesador posee un bloque de filas consecutivas de A. En el caso de las 

matrices L y U podemos decir que están divididas entre todos los procesadores 

por medio de un mapeado cíclico por bloques cuyo esquema sigue


Figura 3.9: Estructura de datos para las matrices L y U 

el ejemplo de la malla de procesos de la figura 3.9. El tamaño concreto de 

cada asignación de bloques a procesadores depende de la estructura de no 

ceros de la diagonal (ver figura 3.9). Todos los bloques diagonales serán cuadrados 

y contendrán sólo elementos no nulos, requisito no exigible para los 

bloques no diagonales. Al utilizar un mapeado cíclico por bloques se desacoplan 

los procesadores en filas para la matriz L y en columnas para la matriz 

U. En este mapeado 2D, cada bloque de columna de L pertenece a más de 

un procesador, por ejemplo en la figura 3.9 el segundo bloque de columna 

pertenece a los procesos {1,4}. De él, el proceso 4 sólo tiene dos bloques con 

elementos no nulos, que no son contiguos en la matriz global. El esquema 

representado en la parte derecha de la figura 3.9 representa la estructura de 

datos empleada para almacenar los bloques de no ceros en un procesador. 

Además de los valores numéricos almacenados en un vector por columnas, 

nzval, necesitamos información para interpretar la localización y el subíndice 

de fila de cada no cero, esto se almacena en un vector de enteros llamado 

index que incluye información para la columna de bloques completa y para 

cada bloque individual de ella. Muchos bloques no diagonales son ceros y 

por lo tanto no son almacenados, y tampoco incluimos los ceros en un bloque 

de no ceros. Por otro lado tanto los triángulos inferior y superior que 

forman los bloques de la diagonal se almacenan en la estructura de datos de 

L. Para U se utiliza un almacenamiento orientado por bloques filas, aunque 

los valores numéricos dentro de cada bloque siguen siendo por columnas. De 

forma similar a L también empleamos un par de vectores indice–nzval para


el almacenamiento de los bloques de filas de U. 

3.5.4. PETSc 

PETSc (Portable Extensible Toolkit for Scientific Computing)[BGMS99a, 

BGMS99b] es una librería utilizada en la resolución numérica de ecuaciones 

diferenciales parciales y problemas similares en computadoras de alto 

rendimiento. Contiene un conjunto de estructuras y rutinas que combinadas 

componen los bloques empleados en implementación de códigos para aplicaciones 

a gran escala en ordenadores paralelos. Entre sus herramientas están 

incluidas un grupo de resolutores de ecuaciones lineales y no–lineales, que 

se pueden utilizar en códigos escritos en Fortran, C y C++. Utiliza paso de 

mensajes vía MPI y no asume compartición física de datos o un espacio de 

direcciones global. Alguno de los módulos de PETSc están relacionados con: 

Conjuntos de índices, incluyendo permutaciones, renombrado, etc. 

Vectores. 

Matrices (generalmente dispersas). 

vectores distribuidos (útiles para paralelizar problemas basados en 

grids). 

Métodos de resolución de sistemas de ecuaciones lineales basados en 

subespacios de Krylov. 

Precondicionadores. 

Resolutores no–lineales 

Marcadores de tiempo para resolver ecuaciones no lineales dependientes 

del tiempo. 

Cada módulo consiste en una interfaz abstracta y una o más implementaciones 

usando estructuras de datos particulares, puede decirse que PETSc 

consiste en un conjunto de librerías (parecidas a las clases de C++), cada 

una de ellas manipula una familia de objetos (por ejemplo vectores), y las 

operaciones que se pueden realizar sobre estos objetos. Al estar escrita en 

un modelo orientado a objetos, todas las estructuras de datos están ocultas 

para el usuario. Su infraestructura crea una base para producir aplicaciones 

de gran escala, por lo cual es útil considerar las interrelaciones entre los 

diferentes módulos de PETSc. En la figura 3.10 se muestra un diagrama de 

algunas de estas piezas, que deja clara la estructura jerárquica de la librería,


Figura 3.10: Organización de la librería PETSc 

lo que permite al usuario utilizar el nivel de abstracción más apropiado para 

un problema particular. En la figura 3.11 podemos ver un breve esquema 

del contenido de cada uno de los módulos que componen la librería. 

Las matrices se encuentran almacenadas por defecto en formato RCS, 

aunque cabe la posibilidad de utilizar otros formatos, como pueden ser BCRS 

(Block Compressed Row Storage) o BDS (Block Diagonal Storage), que puedan 

resultar más eficientes en problemas con múltiples grados de libertad 

por nodo. En la distribución paralela de la matriz cada proceso posee localmente 

una submatriz formada por filas contiguas en la matriz global. 

Siempre hay que tener en cuenta que las estructuras de datos son internas, 

pasándose los distintos elementos a través de llamadas a funciones. 

Para la resolución de sistemas de ecuaciones lineales el objeto más importante 

es SLES, puesto que proporciona un acceso uniforme y eficiente a 

los resolutores de sistemas lineales, incluidos paralelos y secuenciales, directos 

e iterativos. Como la base de la mayoría de los códigos actuales para la 

resolución iterativa de sistemas lineales se encuentra en la combinación de 

un método de resolución basado en subespacios de Krylov y un precondicionador, 

cada objeto SLES contiene normalmente a otros dos objetos: 

KSP (Krylov Space Method), formado por el método iterativo y cuyo 

contexto contiene información relacionada con el método elegido. 

PC (Preconditioners), contiene información sobre los parámetros relativos 

al precondicionador elegido.


Figura 3.11: Estructura de la librería PETSc 

Los métodos iterativos de los que dispone esta librería son: Richardson, 

Chebyshev, CG, GMRES, TCQMR, BCGS, CGS, TFQMR, CR y LSQR. 

Estos métodos iterativos se suelen emplear en combinación con un precondicionador, 

siendo posible utilizar: Jacobi, Jacobi por bloques, Gauss–Seidel 

por bloques (pero sólo en el caso secuencial), SOR, ILU (sólo en el caso secuencial), 

Schwarz aditivo, una factorización completa (también se encuentra 

sólo disponible en el caso secuencial), la identidad, y un precondicionamiento 

proporcionado por el usuario. Por defecto, todas las implementaciones KSP 

utilizan precondicionamiento por la izquierda. También existe la posibilidad 

de utilizar un precondicionamiento combinado, es decir, utilizar una combinación 

de los precondicionadores o resolutores definidos para lograr una 

eficiencia mejor que la obtenida con un único método, aunque en muchos 

casos utilizar un solo precondicionador es mejor que una combinación de 

ellos. 

3.5.5. Aztec 

Aztec [HST95] es una librería iterativa que busca simplificar el proceso 

de paralelización cuando se resuelven sistemas lineales de ecuaciones. Dispo-


ne de una serie de herramientas de transformación de los datos que permiten 

una rápida creación de matrices dispersas distribuidas para una solución paralela. 

El uso de una matriz distribuida global permite al usuario especificar 

fragmentos (diferentes filas para diferentes procesadores) de su matriz de 

aplicación de igual forma que si estuviera trabajando en un caso secuencial 

(es decir, utilizando un esquema de numeración global). Cuestiones como la 

numeración local o los mensajes son ignorados por el usuario, pero en cambio 

son computados por funciones de transformación automatizadas, así se 

obtiene un buen rendimiento utilizando técnicas estándar de memoria distribuida. 

Las submatrices etiquetadas localmente y los mensajes informativos 

computados por la función de transformación son conservados por cada procesador 

para que las computaciones y comunicaciones de las dependencias 

de datos sean más rápidas. 

La librería está escrita en ANSI C estándar, y aunque puede trabajar con 

matrices generales, el paquete fue diseñado para las matrices que surgen de 

la aproximación de ecuaciones diferenciales parciales (PDEs). Aztec puede 

trabajar con dos formatos específicos de matrices dispersas, el formato MSR 

(Modified Sparse Row) o el VBR (Variable Block Row). 

Incluye una serie de métodos iterativos basados en subespacios de Krylov 

para la resolución de sistemas de ecuaciones, así dispone de los siguientes 

resolutores: CG, GMRES, CGS, TFQMR, BCGSTAB, LU (válida sólo 

en el caso secuencial). Los métodos iterativos son utilizados conjuntamente 

con varios precondicionadores como pueden ser: Jacobi por bloques, Gauss– 

Seidel, series polinomiales de Neumann y métodos basados en descomposición 

de dominios con solapamiento (Schwarz aditivo). Otra opción a tener en 

cuenta, en el caso de escoger como precondicionamiento métodos basados en 

descomposición de dominios, es el resolutor a utilizar en cada subdominio. 

Entre las posibilidades en esta situación podemos destacar una factorización 

LU completa, una factorización incompleta LU con un cierto nivel de llenado 

y una factorización ILUT. Vamos a centrarnos en esta última factorización 

porque no utiliza las mismas definiciones que hemos visto anteriormente. 

Utiliza dos criterios para determinar el número de no ceros a introducir en 

las factorizaciones aproximadas resultantes, por un lado el parámetro ilut fill 

indica que la factorización resultante puede contener como máximo ilut fill 

veces el número de no ceros de la matriz original. Por otro lado no se tienen 

en cuenta aquellos elementos de la factorización resultante cuyo valor 

sea inferior a un límite fijado (drop). Cuando este límite esté fijado a cero 

no se eliminará ningún elemento y sólo se tendrá en cuenta la contribución 

de ilut fill. Sin embargo, la utilización del parámetro drop puede implicar 

que la matriz resultante contenga un número significativamente menor de


Figura 3.12: Ejemplo de particionamiento de una malla de elementos finitos 

elementos no nulos. 

Estructuras de datos 

A continuación se describirán los formatos de la matriz y de los vectores 

usados internamente por Aztec. El producto de la matriz dispersa por un 

vector y = Ax es el principal núcleo de computación de esta librería. Para 

realizar esta operación en paralelo los vectores x e y así como la matriz 

A deben estar distribuidos a través de los procesadores. Cuando se realiza 

una operación que involucra a un vector, por ejemplo y, cada procesador 

computa sólo aquellos elementos (entradas particulares de un vector) de y 

que tiene asignados. Estos elementos del vector se encuentran almacenados 

explícitamente en el procesador y se definen por medio de un conjunto de 

índices a los que nos referiremos como conjunto de actualización del procesador. 

El conjunto de actualización por su parte se divide en dos subconjuntos: 

interno y frontera. Un componente correspondiente a un índice en el 

subconjunto interno se actualiza usando sólo información perteneciente al 

propio procesador, en cambio el subconjunto frontera define elementos que 

requerirían valores de otros procesadores para poder ser actualizados durante 

el producto matriz–vector. El conjunto de índices que identifican los 

elementos exteriores al procesador necesarios para actualizar componentes 

del conjunto frontera se denominan externos y son obtenidos de otros procesadores 

vía comunicación mientras se realiza el producto matriz–vector. 

En la figura 3.12 se ilustra como un grupo de vértices en el particionamiento 

de una malla pueden utilizarse para definir los diferentes conjuntos. Así, los


vértices señalados por un punto corresponden a elementos internos al procesador 

p, los marcados por puntos resaltados por un círculo hacen referencia 

a elementos frontera para este mismo procesador. Estos dos tipos de puntos 

dan lugar al conjunto de actualización del procesador p. Por último, los 

puntos resaltados por un rombo corresponden a elementos externos a este 

procesador. 

En cuanto a las matrices, cada procesador almacena un subconjunto de 

los elementos no–nulos de la matriz. En particular, cada procesador almacena 

sólo aquellas filas que corresponden a su conjunto de actualización. 

Además el etiquetado local de los elementos de los vectores en un procesador 

específico induce un etiquetado de las filas y columnas de la matriz. 

Es decir, cada procesador contiene una submatriz cuyas entradas en filas y 

columnas corresponden a variables definidas en este procesador. Como se 

puede observar la técnica utilizada en la librería Aztec para la formación de 

las estructuras de datos locales es similar a la descrita anteriormente en el 

caso de PSPARSLIB.

72 Capítulo 3. Sistemas de ecuaciones lineales

Capítulo 4 

Resultados numéricos 

Las dimensiones de los dispositivos semiconductores actuales continúan 

reduciéndose drásticamente. A distancias inferiores a los 100nm los modelos 

2D (que no tienen en cuenta la profundidad del dispositivo) no resultan 

adecuados para simular estos dispositivos, puesto que la tercera dimensión 

empieza a jugar un papel importante. Por ejemplo, el dopado del dispositivo 

ya no puede considerarse uniforme puesto que debería tenerse en cuenta su 

naturaleza atomística [Ase98]. Otro fenómeno que afecta particularmente a 

transistores HEMT basados en canales de In es la variación del contenido 

de aleaciones ternarias que puede aparecer a lo largo de una capa en la 

estructura del dispositivo. Para describir convenientemente este fenómeno 

es necesaria la construcción de un modelo 3D del dispositivo [LKLGA03]. 

El desarrollo de simuladores 3D eficientes es fundamental cuando se pretende 

estudiar el efecto de las fluctuaciones [ABW02, Ase01, AS99] tanto 

en el dopado como en la composición, cuando estos dispositivos se escalan 

a dimensiones submicrométricas [KRA + 02]. Para poder realizar un estudio 

estadístico adecuado es preciso realizar un considerable número de simulaciones, 

por lo cual es fundamental reducir el tiempo de simulación de cada 

dispositivo lo máximo posible, y así poder obtener resultados globales en 

un tiempo razonable. La parte de resolución de los sistemas de ecuaciones 

lineales que provienen del modelo de arrastre–difusión es la que más tiempo 

de computación emplea, siendo por ello fundamental encontrar los mejores 

métodos de resolución posibles. 

En este capítulo describiremos en primer lugar el simulador tridimensional 

de dispositivos pHEMT utilizado, para a continuación mostrar los 

resultados ofrecidos por cada una de las librerías introducidas en el capítulo 

anterior. 

73

74 Capítulo 4. Resultados numéricos 

4.1. Descripción del simulador 

El desarrollo de simuladores de dispositivos en tres dimensiones requiere 

computadores con gran memoria y alta velocidad de cálculo. Esto es debido 

a que el tiempo de cálculo se incrementa exponencialmente con el número 

de nodos presente en la malla del dispositivo. El simulador 3D de dispositivos 

pHEMT que hemos utilizado ha sido desarrollado en nuestro grupo en 

colaboración con el Device Modelling Group de la Universidad de Glasgow. 

Está basado en el modelo de arrastre–difusión, aplicando el método de elementos 

finitos para discretizar las ecuaciones de Poisson y de continuidad 

de los electrones [Sel84] por medio de tetraedros [Zie77, BCO83]. 

El simulador fue desarrollado para computadores paralelos de memoria 

distribuida, usando la estrategia MIMD bajo el paradigma SPMD. Sus ca- 

I D (A) 

0.06 

0.05 

0.04 

0.03 

0.02 

0.01 

0 

0 0.25 0.5 0.75 1 1.25 1.5 1.75 2 

V D (V) 

IG=-1.0 V 

IG=-0.8 V 

IG=-0.6 V 

IG=-0.4 V 

IG=-0.2 V 

IG=-0.0 V 

IG=0.2 V 

IG=0.4 V 

Figura 4.1: Curva característica experimental del PHEMT de 120nm 

Tabla 4.1: Dopados y dimensiones del PHEMT 

Caps 4.0 10 18 

Spacer up 1.0 10 14 

Delta doping 1.75 10 19 

Spacer down 1.0 10 14 

Channel 2.0 10 14 

Buffer 1.0 10 14 

Neff (cm −3 ) ∆ X(µm) ∆ Y(µm) ∆ Z(µm) 

0.690 100.0 0.030 

1.6 100.0 0.017 

1.6 100.0 0.002 

1.6 100.0 0.007 

1.6 100.0 0.010 

1.6 100.0 0.500

4.1. Descripción del simulador 75 

Figura 4.2: Potencial electrostático en el equilibrio 

pacidades se testearon modelando un HEMT pseudomórfico de 120nm con 

bajo contenido en Indio. La curva característica I–V lograda con el simulador 

ha sido comparada con los datos obtenidos para el pHEMT de 120nm 

de longitud de puerta, diseñado y fabricado por el Centro de Investigación 

Nanotecnológica de la Universidad de Glasgow [KRA + 02]. Se calibró el simulador 

a través de resultados experimentales [LKAG03a, LKAG03b], de 

un simulador Montecarlo 2D [KRA + 02] y del simulador comercial MEDICI 

[Syn03]. 

El dispositivo está compuesto de una puerta en forma de T, una capa de 

GaAs de 30nm de grosor fuertemente dopada tipo n (4 ·10 18 cm −3 ) utilizada 

como fuente y drenador, una capa de Al0,3Ga0,7As, una región dopada tipo 

δ con Si (de densidad 7 · 10 12 cm −3 ) en la parte superior de otra capa de 

7nm de grosor de Al0,3Ga0,7As, que actuando como capa espaciadora separa 

la capa con dopado tipo δ del canal de 10nm de In0,2Ga0,8As. Toda la 

estructura del dispositivo se crece sobre una capa de 500nm grosor de GaAs. 

Las dimensiones y dopados del pHEMT utilizado se muestran en la tabla 4.1. 

La curva característica ID − VD obtenida experimentalmente se representa 

en la figura 4.1. 

La figura 4.2 muestra el potencial electrostático en el equilibrio en la


Figura 4.3: Concentración de electrones en equilibrio 

Figura 4.4: Representación esquemática del dispositvo PHEMT 

malla 3D, encontrándose las regiones críticas bajo la zona de puerta y en las 

zonas de transición. Allí, el número de nodos en la malla tiene que ser muy

4.1. Descripción del simulador 77 

Figura 4.5: Malla tetraédrica del PHEMT de 120nm dividida en tres subdominios 

elevado para captar correctamente los gradientes de potencial. En la figura 

4.3 se representa, en escala semilogarítmica, la concentración de electrones 

en el equilibrio. 

La simulación de un dispositivo empieza con un preprocesado en el que 

generamos una malla y leemos los ficheros de entrada [WHS89], que contienen 

los parámetros de la simulación. Una estructura de capas del pHEMT 

(figura 4.4) es mallada en tetraedros como se ilustra en la figura 4.5. Este 

mallado es llevado a cabo con el programa QMG [Vav96], software que puede 

generar mallas de tetraedros no estructurados, incluyendo un software 

de modelado geométrico (el simulador propiamente dicho) y un resolutor de 

elementos finitos. 

Usando este generador de mallas tridimensional, basado en el algoritmo 

octree, se obtiene una malla tetraédrica no estructurada para una geometría 

del dispositivo dada. Aplicando una función de control de malla se sitúan 

tetraedros más pequeños cerca de las interfaces entre diferentes zonas del 

transistor. En estas áreas situamos un gran número de nodos porque son las 

zonas en las que se da un mayor gradiente de las variables del problema. 

El programa QMG puede exportar la información de la malla en varios


formatos y generar el grafo de adyacencias de la matriz asociada. Aplicando 

el método de elementos finitos se generan los sistemas de ecuaciones no 

lineales correspondientes a las ecuaciones de Poisson y de continuidad de 

electrones. Por simplicidad no consideramos la ecuación de huecos pues su 

influencia es mínima. Estos sistemas se linearizan aplicando el método de 

Newton. Un paso importante en este proceso es el escalado, que introduce 

cantidades adimensionales y aisla los parámetros relevantes de los que depende 

el modelo. Se utilizó el escalado de parámetros sugerido en la referencia 

[Sel84]. 

4.2. Resultados 

A continuación se presentan los datos obtenidos durante las simulaciones 

realizadas en el cluster beowulf del CESGA (Centro de Supercomputación 

de Galicia) para las librerías SPARSKIT, PSPARSLIB, SuperLU y PETSc. 

Además, se utilizó la librería Aztec para probar el funcionamiento de este 

tipo de librerías en una máquina diferente, en concreto una Origin 200. 

Hay que considerar que una simulación consiste en la resolución de muchos 

sistemas de ecuaciones lineales de la forma Ax = b, donde A es una 

matriz cuadrada, simétrica en estructura. Esta matriz es obtenida a través 

del simulador 3D descrito en el apartado anterior, y en este caso es de orden 

n = 29012 y tiene 398102 elementos no nulos. 

Los resultados que se presentan pertenecen a cálculos realizados con las 

matrices poisson6 y electron6, representativas de los sistemas resultantes de 

la discretización de la ecuación de Poisson y de la ecuación de continuidad de 

electrones respectivamente. Nos limitamos a estas dos matrices puesto que 

el análisis de una serie de matrices de igual origen y características mostraba 

resultados similares a los dados por estas dos. 

Las librerías utilizadas en el estudio son las descritas en el capítulo 3, 

mostrándose a continuación los resultados obtenidos para cada una de ellas. 

4.2.1. SPARSKIT 

Esta librería secuencial ofrece una gran variedad de métodos de resolución. 

En concreto, los resolutores empleados fueron CG, BCG, DBCG, 

CGNR, BCGSTAB, TFQMR, FOM, GMRES, FGMRES y DQGMRES. Los 

tiempos obtenidos con el método CGNR son excesivamente elevados (hasta 

un orden de magnitud superiores) comparados con cualquier otro método, 

por lo cual vamos a prescindir de los resultados obtenidos con este resolutor. 

El precondicionador utilizado fue una factorización incompleta LU que

4.2. Resultados 79 

Figura 4.6: Tiempo de la factorización incompleta LU para la matriz poisson6 

Figura 4.7: Tiempo de la factorización incompleta LU para la matriz electron6 

utiliza como criterio de llenado tanto un umbral numérico como la posición 

que se ocupa dentro de la matriz. Por lo tanto uno de los parámetros que 

tendremos en cuenta, además de la dimensión del subespacio de Krylov utilizada, 

es el llenado (fill). El efecto causado por la variación de la dimensión 

del subespacio de Krylov sólo lo trataremos para los resolutores TFQMR, 

FOM, GMRES, FGMRES y DQGMRES, puesto que en el resto de los casos 

evidentemente no tiene ninguna influencia. 

El criterio de convergencia utilizado, tanto en esta librería como en la


Figura 4.8: Dependencia del número de iteraciones con el llenado para la 

matriz poisson6 

Figura 4.9: Relación entre el llenado y el tiempo de resolución para la matriz 

poisson6


PSPARSLIB, está basado en la norma2 (|| ||2) del residuo, de tal forma 

que se detecta la convergencia en la iteración k si se cumple que ||rk||2 < 

rtol ∗ ||ro||2 + atol, siendo rtol y atol las tolerancias relativa y absoluta, ro el 

residuo inicial y rk = b − Axk el residuo en la iteración k. 

Inicialmente en la gráficas 4.6 y 4.7 se representa el tiempo necesario para 

realizar la factorización ILU, en función del llenado, previa a la resolución del 

sistema lineal, mostrando su dependencia con el llenado, para las matrices 

poisson6 y electron6. Los resultados son los esperados, es decir se observa un 

aumento del tiempo de operación al incrementar el llenado. En el caso de la 

matriz poisson6, para valores de tolerancia relativa y absoluta del resolutor 

de 10 −12 y 10 −17 respectivamente, el valor más pequeño de llenado utilizado 

fue 18, puesto con un valor inferior no se conseguía alcanzar la convergencia 

en el paso posterior de resolución del sistema lineal. En cambio para la 

matriz electron6 con esos mismos parámetros de tolerancia, el mínimo valor 

posible de llenado fue 125, lo que nos da una idea de las diferencias tan 

considerables existentes entre ambas matrices, a pesar de poseer la misma 

estructura. Para realizar la factorización incompleta LU se tuvo en cuenta 

no sólo el llenado sino que también se fijó un valor para su tolerancia (drop) 

de 10 −7 . Este parámetro provoca que los resultados representados en las 

gráficas anteriores no coincidan porque la tolerancia de la ILU afecta de 

forma muy diferente a las dos matrices al contener ambas valores numéricos 

muy distintos. 

En la gráfica 4.8 representamos el número de iteraciones necesarias por 

cada resolutor para alcanzar la convergencia conforme vamos incrementando 

el llenado en el caso de la matriz poisson6. Observamos un descenso en 

el número de iteraciones al ir aumentando el llenado, que como sería de 

esperar se cumple para todos los resolutores. Para esta misma matriz, en 

la gráfica 4.9 representamos el tiempo total, que es suma del necesario por 

cada resolutor para alcanzar la convergencia más el tiempo empleado en la 

factorización ILU, y su dependencia con el llenado. Un aumento del llenado 

lleva consigo generalmente una subida del tiempo total debido principalmente 

a la influencia del tiempo de factorización (muy significativa) que no 

logra ser compensada por la disminución (mucho menor) del tiempo del resolutor. 

Debido a esto sólo se aprecia una influencia del tiempo de resolución 

en el tiempo total para valores del llenado muy pequeños. En esta gráfica 

podemos observar este efecto para el valor de llenado 12 aunque no en todos 

los resolutores. Todas estas medidas se realizaron teniendo en cuenta un 

valor constante de la dimensión del subespacio de Krylov 50, de la tolerancia 

relativa 10 −7 y de la tolerancia absoluta 10 −12 . Para estos valores de la 

tolerancia el mínimo del llenado se encuentra en 11. Además, los resultados


Figura 4.10: Relación entre la dimensión del subespacio de Krylov y el tiempo 

de resolución para la matriz poisson6 


matriz poisson6


obtenidos por la mayoría de los resolutores son similares, a excepción de 

los métodos BCG y DBCG, que presentaron unos valores apreciablemente 

superiores al resto. 

Si se desea alcanzar una mayor precisión en el resultado obtenido habrá 

que considerar que el límite inferior del llenado a partir el cual no se 

alcanza la convergencia se encontrará ahora a valores más altos. Así por 

ejemplo, como ya comentamos anteriormente, para una tolerancia relativa 

de 10 −12 y una tolerancia absoluta de 10 −17 el menor valor de llenado para 

el cual el sistema converge se encuentra en 18. Utilizando estos nuevos 

valores de tolerancia estudiamos el efecto de la dimensión del subespacio 

de Krylov en el tiempo de computación (figura 4.10) y en las iteraciones 

realizadas (figura 4.11). Se encuentra una disminución del número de iteraciones 

al aumentar la dimensión del subespacio de Krylov, aunque este 

efecto sólo se aprecia para dimensiones pequeñas. Por otro lado la influencia 

de la dimensión del subespacio de Krylov en el tiempo total de computación 

es poco apreciable, observándose variaciones del orden del 5% en el peor de 

los casos al cambiar dos órdenes de magnitud la dimensión del subespacio de 

Krylov. Los valores representados en las gráficas 4.10 y 4.11 se obtuvieron 

a un valor de llenado de 50. 

Para la matriz electron6, teniendo en cuenta una tolerancia relativa de 

10 −12 y una tolerancia absoluta de 10 −17 , en la gráfica 4.12 representamos 

el tiempo total necesario por cada resolutor para la resolución del sistema 

lineal y su dependencia con el llenado, encontrándose un aumento del tiempo 

total con el llenado, puesto que un incremento del llenado sólo lleva a un 

ligero descenso en el tiempo del resolutor. En la figura 4.13 representamos 

el número de iteraciones realizadas por cada resolutor y su variación con 

el llenado, observándose, al igual que en el caso de la matriz poisson6, un 

descenso del número de iteraciones al aumentar el llenado. En esta gráfica 

no incluimos el resolutor CG puesto que para un valor de llenado 125 

necesitaba realizar 84 iteraciones para alcanzar la convergencia. Esta circunstancia 

explica porqué este resolutor necesita mucho más tiempo que los 

otros para resolver el sistema lineal cuando el llenado es 125. Estas medidas 

se realizaron a un valor constante de la dimensión del subespacio de Krylov 

(dimensión=80). 

En el caso de la matriz electron6 la influencia de la dimensión del subespacio 

de Krylov es incluso más despreciable que para la matriz poisson6, 

puesto que considerando un valor fijo de llenado (llenado = 125), el número 

de iteraciones realizadas no varían al aumentar la dimensión del subespacio 

de Krylov. En cuanto a su influencia en el tiempo total (figura 4.14) se nota 

una ligera subida en el tiempo al aumentar la dimensión, pero se puede


Figura 4.12: Relación entre el llenado y el tiempo de resolución para la matriz 

electron6 


matriz electron6


Figura 4.14: Relación entre la dimensión del subespacio de Krylov y el tiempo 

de resolución para la matriz electron6 

considerar despreciable. 

4.2.2. SuperLU 

Esta librería resuelve en paralelo una factorización LU. En la gráfica 4.15 

se muestra el tiempo total necesario para realizar la factorización para las 

matrices poisson6 y electron6, y su variación con el número de procesadores 

empleados para ello. Así se encuentra que el tiempo se reduce al aumentar 

el número de procesadores, aunque esta disminución es cada vez menos 

pronunciada. Como se puede ver los resultados presentados por las dos matrices 

son prácticamente idénticos, lo cual es lógico si tenemos en cuenta que 

ambas tienen la misma estructura y número de elementos no nulos. 

Si se utiliza un único procesador para la resolución del sistema lineal 

es más efectivo (es decir que el tiempo necesario para su resolución es menor) 

el uso de la librería secuencial SPARSKIT que la librería SuperLU. 

La diferencia entre ambas librerías se encuentra en que mientras SuperLU 

resuelve una factorización LU completa, SPARSKIT combina una factorización 

incompleta LU, con valores conocidos del llenado(fill) y de la tolerancia 

(drop), utilizada como precondicionamiento con una llamada posterior a un 

resolutor. Dependiendo del llenado elegido para la factorización incompleta


Figura 4.15: Tiempo de la factorización LU para la matrices poisson6 y 

electron6 

la diferencia de tiempo en el uso de una u otra librería puede disminuir. 

Así para la matriz electron6 con un llenado 125 utilizar la librería SPARS- 

KIT supone un ahorro en tiempo del 58 %. Al ir aumentando el llenado 

elegido este ahorro será cada vez menor, puesto que la factorización incompleta 

LU se aproximará cada vez más a la completa. De esta forma, con un 

llenado de 200 el ahorro en tiempo será del 31 %. 

Siempre teniendo en cuenta que SPARSKIT es secuencial, si comparamos 

ambas librerías al aumentar el número de procesadores utilizados en 

SuperLU, las diferencias en los tiempos de resolución de ambas librerías se 

reducen, pero sólo compensaría utilizar la librería SuperLU cuando disponemos 

de un número elevado de procesadores (mayor de 6) y si la comparamos 

con los peores casos posibles de la librería SPARSKIT. 

4.2.3. PSPARSLIB 

Esta librería paralela utiliza precondicionadores basados en descomposición 

de dominios, por ello vamos a dividir nuestro estudio en tres bloques, 

uno dedicado al método Schwarz aditivo, otro al SOR multicolor y el último 

a los métodos basados en complemento de Schur. El precondicionamiento 

inicial de la matriz a través de una factorización incompleta LU con un 

cierto llenado se hace sobre la matriz local a cada procesador y no sobre la 

matriz global. El tiempo necesario para realizar esta factorización suponía 

la principal contribución al tiempo total en la librería secuencial SPARSK-


Figura 4.16: Tiempo de la factorización local LU incompleta para la matriz 

poisson6 y su dependencia con el llenado 

Figura 4.17: Tiempo de la factorización local LU incompleta para la matriz 

electron6 y su dependencia con el llenado 

KIT, por lo tanto su minimización se convierte en uno de los beneficios de 

la paralelización de la librería, que se encuentra en PSPARSLIB. 

Para la matriz poisson6, en la gráfica 4.16 se representa el tiempo necesario 

para la realización de la factorización incompleta LU en función del 

número de procesadores utilizados y su variación con el llenado elegido. De 

igual forma que en la librería SPARSKIT el valor de tolerancia de la ILU 

(drop) se fija a 10 −4 . Se observa una disminución del tiempo al aumentar el 

número de procesadores destinados a la factorización, puesto que la matriz


correspondiente a cada procesador será cada vez de menor tamaño. Por otro 

lado, la influencia del llenado en el tiempo de factorización también es la 

esperada, lográndose los tiempos menores a llenados pequeños (sobre 15). 

Es necesario comentar el comportamiento atípico que muestra la gráfica 4.16 

cuando se emplean tres procesadores. Para llenados iguales o superiores a 25 

se produce un efecto contrario al esperado, aumentando el tiempo de resolución 

con respecto al obtenido con dos procesadores. Esto puede ser debido 

a la asimetría que se produce al particionar la matriz en tres subdominios, 

siendo este proceso anterior a la factorización. Así pues, para minimizar el 

tiempo de factorización es necesario considerar llenados reducidos y, como 

se puede deducir de la tendencia mostrada en la gráfica, trabajar con dos o 

cuatro procesadores. 

En el caso de la matriz electron6 los resultados obtenidos (gráfica 4.17) 

reflejan el mismo comportamiento, compensando también la utilización de 

llenados bajos para lograr la reducción del tiempo de factorización. Hay que 

tener en cuenta que si se utiliza más de un procesador el tiempo de factorización 

representado corresponde al peor de los tiempos que necesitaron los 

procesadores individuales en cada factorización local. 

Si comparamos los resultados presentados por la factorización incompleta 

LU realizada en la librería SPARSKIT y los obtenidos en las mismas 

circunstancias (considerando un solo procesador y el mismo llenado) en PS- 

PARSLIB, se encuentra una diferencia sustancial en el tiempo necesario para 

su cálculo entre ambos casos. Esta disminución del tiempo de factorización 

en el caso PSPARSLIB está relacionado con un reordenamiento de la matriz, 

que cambia la posición de sus elementos, previo al proceso de factorización. 

Método Schwarz aditivo 

A pesar de la variedad de resolutores que podíamos estudiar, nos centramos 

en tres de ellos que presentaron buenos resultados en la librería 

secuencial SPARSKIT, los resolutores estudiados fueron: FGMRES, BCGS- 

TAB y TFQMR. En primer lugar, para la matriz poisson6, se observó la 

evolución del tiempo total de resolución del sistema lineal en función del 

número de procesadores y del llenado (gráfica 4.18). Se encontró que un 

aumento del llenado influía incrementando a su vez el tiempo total, compuesto 

por el tiempo de factorización y el tiempo necesario por el resolutor 

para alcanzar la convergencia. El tiempo del resolutor se hace menor con el 

aumento del llenado aunque no lo suficiente como para permitir un cambio 

de tendencia. En cuanto a la influencia del número de procesadores utilizado 

la tendencia indica una disminución del tiempo total al aumentar la


Figura 4.18: Dependencia del tiempo de resolución con el llenado para el 

resolutor FGMRES 

Figura 4.19: Comparativa entre los resolutores FGMRES, BCGSTAB y 

TFQMR para un llenado 15 y una dimensión del subespacio de Krylov de 

50 

cantidad de procesadores utilizados, aunque para llenados superiores a 30 

utilizar tres procesadores no sería una buena opción puesto que el tiempo 

de la factorización incompleta local es superior a lo esperado. También se 

puede observar que la disminución en el tiempo al ir aumentando el número 

de procesadores se hace cada vez menos pronunciada. La gráfica 4.18 refleja 

los valores obtenidos para el resolutor FGMRES, siendo similares los dados 

por otros resolutores. En la figura 4.19 se representa una comparativa en-


Figura 4.20: Dependencia del número de iteraciones con el llenado y el número 

de procesadores para el resolutor FGMRES 

Figura 4.21: Dependencia del tiempo de resolución con el llenado y el número 

de procesadores para el resolutor FGMRES 

tre los tres resolutores para un llenado de valor 15. En ella se observa que 

prácticamente no existe diferencia entre los tiempos dados por los resolutores 

FGMRES y BCGSTAB, mientras que los tiempos dados por TFQMR 

son como máximo dos décimas superiores. Estas medidas se realizaron considerando 

una tolerancia relativa de 10 −12 , una tolerancia absoluta de 10 −17 

y un valor de la dimensión del subespacio de Krylov igual a 50. 

En cuanto a las iteraciones realizadas por los resolutores, se encuentra 

una disminución del número de iteraciones al aumentar el llenado que se



de procesadores para el resolutor BCGSTAB 


de procesadores para el resolutor TFQMR 

va haciendo más suave a llenados elevados, mientras que se produce un 

incremento del número de iteraciones al aumentar el número de procesadores 

involucrados en la resolución. Por último, la influencia de la dimensión del 

subespacio de Krylov tanto en el número de iteraciones como en el tiempo 

total es muy escasa, limitándose a leves variaciones de tiempo del orden de 

las obtenidas con la librería secuencial SPARSKIT, como era de esperar. 

Si la matriz utilizada es electron6 el comportamiento deja de ser similar 

en los resolutores estudiados y el tiempo ya no disminuye en todos los


casos al aumentar el llenado. En cuanto a la dependencia con el número 

de procesadores utilizados, todos los resolutores obtienen el menor tiempo 

de computación con tres procesadores. La razón de que el tiempo aumente 

para más de tres procesadores puede deberse a que el número de iteraciones 

realizadas por el resolutor se dispara (gráfica 4.20) sea cual sea el llenado 

utilizado. La principal causa de este aumento está en que cuantos más 

procesadores intervengan en la resolución menor es el número de nodos internos 

que corresponde a cada subdominio y mayor es la contribución de 

los nodos frontera, lo que implica un mayor coste tanto en comunicaciones 

como en computaciones . Generalizando, los tres resolutores obtienen su 

mejor rendimiento para llenados reducidos y tres procesadores. A continuación 

representamos el comportamiento de los resolutores FGMRES (figura 

4.21), BCGSTAB (gráfica 4.22) y TFQMR (figura 4.23) frente al llenado y 

al número de procesadores. Al igual que en el caso de la matriz poisson6 

el resolutor que presenta unos tiempos superiores es TFQMR, mientras que 

los otros dos resolutores son similares. 

Método SOR multicolor 

En esta ocasión los tres resolutores estudiados fueron GMRES, BCGS- 

TAB y TFQMR. Utilizamos los mismos valores de tolerancia absoluta y 

relativa que en el apartado anterior y realizamos un análisis de los mismos 

parámetros. Por lo tanto, para la matriz poisson6, se representó la evolución 

del tiempo total de resolución del sistema lineal en función del número 

de procesadores y del llenado (gráfica 4.24) para el resolutor GMRES. El 

comportamiento es análogo al obtenido con el método Schwarz, aunque los 

niveles de llenado que empeorarían el resultado usando tres procesadores 

son más elevados (superiores a 50). 

Si representáramos el comportamiento de los otros dos resolutores estudiados, 

las gráficas presentarían la misma tendencia, aunque como se puede 

apreciar en la figura 4.25 los valores menores de tiempo se obtienen para el 

resolutor GMRES. Estas diferencias entre resolutores son apreciables teniendo 

en cuenta los valores tan pequeños de tiempo que estamos considerando. 

En este método, al igual que en el Schwarz, el resolutor que presenta peores 

resultados es el TFQMR. Esta comparativa se realizó a un nivel de llenado 

igual a 15. 

Comparamos entre sí los dos métodos de precondicionamiento basados 

en descomposición de dominios para el caso en el que obteníamos los menores 

tiempos de resolución, es decir, utilizando el resolutor GMRES, siendo 

el nivel de llenado 15, la dimensión del subespacio de Krylov igual a 50, la



resolutor GMRES 

tolerancia relativa 10 −12 y la tolerancia absoluta de 10 −17 . El resultado de 

esta comparación se encuentra en la figura 4.26. En ella se puede observar 

claramente que el método Schwarz aditivo presenta unos tiempos de resolución 

menores sea cual sea el número de procesadores utilizados y estas 

diferencias son considerables puesto que en media el tiempo necesario para 

la resolución del sistema lineal con el método Schwarz aditivo es un 38 % 

menor que el necesitado en las mismas circunstancias para el método SOR 

multicolor. Realizando esta comparación para niveles de llenado superiores 

(llenado = 100) estas diferencias se mantienen entre los dos métodos. 

Trabajando ahora con la matriz electron6 encontramos que el resolutor 

que obtiene los menores tiempos de resolución sea cual sea el nivel de llenado 

es el GMRES (figura 4.27) como se puede comprobar en la comparativa entre 

los distintos resolutores estudiados que se muestra en la gráfica 4.28. Todos 

los resolutores presentan los menores tiempos de computación para un nivel 

de llenado de 50. Para este nivel de llenado, se consigue que la suma del 

tiempo de factorización local (que aumentaba con el llenado) y del tiempo 

empleado por el resolutor sea mínima, aunque no es posible afirmar, como 

hiciéramos en otros casos, que el tiempo del resolutor disminuye al aumentar 

el nivel de llenado. Además se cumple que es tres el número de procesadores 

óptimo para la obtención del menor tiempo de resolución del sistema lineal. 

La comparativa entre los distintos resolutores se realizó para un nivel 

de llenado de 50, una dimensión del subespacio de Krylov de valor 50 y 

los valores de tolerancia absoluta y relativa ya mencionados para la matriz


Figura 4.25: Comparativa entre los resolutores TFQMR, BCGSTAB y GM- 

RES para un llenado 15 y una dimensión del subespacio de Krylov de 50 

Figura 4.26: Comparativa entre los métodos Schwarz aditivo y SOR multicolor 

poisson6. Las diferencias entre el método de resolución elegido se hacen en 

este caso considerables, volviendo a ser el método TFQMR el que presenta 

los peores resultados. Si comparamos entre sí los dos métodos de precondicionamiento 

basados en descomposición de dominios para este mismo caso, 

se encuentran menores tiempos para el método Schwarz aditivo en todos los 

casos estudiados.




Figura 4.28: Comparativa entre los resolutores TFQMR, BCGSTAB y FGM- 

RES para un llenado 50 

Método basado en el complemento de Schur 

Con este método se resuelve el complemento de Schur local en cada 

procesador con FGMRES precondicionado con una ILU. Hay dos posibilidades 

de aplicar este precondicionamiento, por la izquierda (lschur) o por 

la derecha (rschur). Utilizando los mismos valores de la tolerancia absoluta 

y relativa que en los dos apartados anteriores se estudió la influencia del 

llenado en el tiempo de resolución para los dos precondicionadores. 

Suponiendo una dimensión del subespacio de Krylov igual a 50, analiza-



precondicionador lschur 

Figura 4.30: Comparativa entre los precondicionadores lschur y rschur para 

un llenado 50 

mos los valores obtenidos con la matriz poisson6 para el precondicionador 

lschur (gráfica 4.29). Observamos un aumento del tiempo de resolución con 

el llenado introducido, que se cumple independientemente del número de 

procesadores utilizado. Así, los valores menores del tiempo se obtienen con 

4 procesadores y un llenado 15. Los resultados que se consiguen con el precondicionador 

rschur presentan un comportamiento similar a los dados por 

lschur, aunque los tiempos alcanzados son apreciablemente superiores. En 

la figura 4.30 se comparan ambos precondicionadores para un valor 50 de


Figura 4.31: Comparativa entre los métodos de resolución Schwarz aditivo, 

Schur y SOR multicolor 

llenado, se observa que el precondicionador rschur puede llegar a necesitar 

el doble del tiempo necesario por lschur para alcanzar la convergencia. 

Podemos comparar el comportamiento de los tres métodos: Schwarz, 

Schur y SOR multicolor para el caso en el que cada método presenta los 

resultados más favorables (gráfica 4.31). Es decir consideramos la dimensión 

del subespacio de Krylov 50, tolerancia relativa de 10 −7 , tolerancia absoluta 

de 10 −12 y un llenado 15. El resolutor empleado para los métodos Schwarz 

y SOR multicolor fue el GMRES, mientras que para el método basado en 

complemento de Schur se utilizó FGMRES precondicionado con lschur. Se 

encuentran los mejores resultados con el método Schwarz aditivo, empleando 

en promedio, un 25 % menos de tiempo para lograr la resolución del sistema 

que el necesitado por el método Schur, haciendose la diferencia más grande 

en el caso del método SOR multicolor (tarda en promedio un 35 % más de 

tiempo que el Schwarz aditivo). 

Utilizando ahora la matriz electron6 estudiamos la influencia del llenado 

en el tiempo de resolución para el precondicionador lschur (gráfica 4.32), 

teniendo en cuenta una dimensión 50 del subespacio de Krylov. No presentamos 

los datos reflejados por el precondicionador rschur puesto que al igual 

que en el caso de la matriz poisson6 sus tiempos de resolución son considerablemente 

superiores. Se encuentran los menores tiempos de resolución 

para valores de llenado entre 25 y 50, usando para ello 2 ó 3 procesadores. 

También para esta matriz comparamos los tres métodos: Schwarz, SOR multicolor 

y Schur para el caso en el que cada método presenta los resultados



precondicionador lschur 

Figura 4.33: Comparativa entre los métodos de resolución Schwarz aditivo, 

Schur y SOR multicolor 

más favorables (gráfica 4.33). Es decir consideramos la dimensión del subespacio 

de Krylov 50, tolerancia relativa de 10 −7 , tolerancia absoluta de 10 −12 

y un llenado 50. El resolutor utilizado para los métodos Schwarz y SOR multicolor 

fue el GMRES, mientras que para el método basado en complemento 

de Schur se utilizó FGMRES precondicionado con lschur. El mejor método 

de resolución para esta matriz es también el Schwarz aditivo, observandose 

grandes diferencias con el método SOR multicolor, y algo menores con 

el método Schur. Cuando trabajamos con 4 procesadores encontramos que


el método Schur obtiene mejores resultados que el método Schwarz, aunque 

comparando ambos métodos para diferentes llenados Schwarz obtiene 

siempre menores tiempos a excepción de este caso particular. 

La influencia de la dimensión del subespacio de Krylov es reducida, pero 

hay que tener en cuenta que si la fijamos a un valor muy pequeño (por 

ejemplo 1) no logramos que el sistema alcance la convergencia. Se encuentra 

una leve disminución del tiempo de resolución al ir aumentando la dimensión 

si utilizamos un número de procesadores menor que 4, aunque esta influencia 

deja de ser apreciable para dimensiones altas. Si utilizamos 4 procesadores 

se observan incrementos de tiempo muy elevados si empleamos dimensiones 

bajas (sobre 5–15). 

En la librería PSPARSLIB tanto la instalación como la configuración 

son sencillas. El código que incorpora es de uso intuitivo y admite cómodas 

modificaciones por parte del usuario, realizándose la selección de parámetros 

por medio de un fichero de texto con un formato preestablecido. Por otro 

lado, una de sus limitaciones consiste en que solamente admite matrices en 

formato H/B, además de trabajar exclusivamente con métodos basados en 

descomposición de dominios. 

4.2.4. PETSc 

Teniendo en cuenta los resultados obtenidos con la librería PSPARSLIB, 

estudiaremos en esta librería el comportamiento de los resolutores GMRES 

y BCGSTAB precondicionados con el método Schwarz aditivo. Este método 

utiliza una ILU como precondicionador interno, en la que para introducir el 

llenado se tienen en cuenta dos factores, la cantidad de máxima de elementos 

no nulos que se desean introducir respecto a los existentes en la matriz 

original (ilut fill) y los niveles de llenado (nivel). Así para los modelos de 

matrices poisson6 y electron6 se analizará el comportamiento del tiempo de 

resolución del sistema lineal en función del número de procesadores utilizados 

y del nivel de llenado. El parámetro ilut fill se mantiene siempre igual 

a 1. 

El criterio de convergencia utilizado en este caso es similar al utilizado en 

las librerías anteriores detectándose la convergencia en una iteración k si se 

cumple que ||rk||2 < max(rtol ∗ ||ro||2,atol), siendo rtol y atol las tolerancias 

relativa y absoluta, ro el residuo inicial y rk = b − Axk el residuo en la 

iteración k. 

Empezando con la matriz poisson6, para unos valores de tolerancia relativa 

10 −12 , tolerancia absoluta 10 −17 , y dimensión del subespacio de Krylov 

50, la influencia del nivel de llenado en el tiempo de resolución del sistema


Figura 4.34: Dependencia del tiempo total de resolución con el nivel de llenado 

para el resolutor GMRES 


para el resolutor BCGSTAB 

lineal para los resolutores GMRES y BCGSTAB se puede observar en la 

gráficas 4.34 y 4.35. Ambos resolutores muestran el mismo comportamiento, 

una disminución del tiempo de resolución con el número de procesadores, 

que generalmente alcanza su valor mínimo para 3 procesadores. En cuanto 

a la influencia del nivel de llenado, los tiempos de resolución menores 

se encuentran en niveles de llenado bajos (menores de 5). A partir de ahí, 

aumentar el nivel de llenado implica un incremento considerable en el tiempo 

de computación. Comparando entre sí ambos resolutores se encuentra



para el resolutor GMRES 


para el resolutor BCGSTAB 

que el resolutor BCGSTAB presenta unos tiempos de resolución menores 

para niveles de llenado pequeños, dejando de cumplirse esta tendencia para 

niveles más elevados (sobre 10). 

Analizando de igual forma la matriz electron6 encontramos que tanto el 

resolutor GMRES (gráfica 4.36) como el BCGSTAB (gráfica 4.37) obtienen 

sus menores tiempos de resolución para 3 procesadores y un nivel de llenado 

5. Al aumentar el nivel de llenado el tiempo necesario para resolver el sistema 

lineal aumenta considerablemente.


Figura 4.38: Dependencia del tiempo del resolutor GMRES con el nivel de 

llenado 

Como se comentó anteriormente, para ambas matrices el tiempo total de 

resolución alcanza el valor mínimo en 3 procesadores. Este tiempo incluye 

tanto la preparación de la matriz como la resolución del sistema propiamente 

dicho. El tiempo del resolutor sí disminuye con el número de procesadores, 

con un valor mínimo en cuatro. Este comportamiento se puede observar en la 

gráfica 4.38 que representa el tiempo necesitado por el resolutor GMRES para 

alcanzar la convergencia en la matriz poisson6. Por tanto la razón de que 

el tiempo total aumente ligeramente para 4 procesadores puede encontrarse 

en el paso de preparación de la matriz paralela, tanto en la conversión de la 

matriz a una válida en el formato interno de PETSc como en la distribución 

de los datos a los procesadores de la malla. 

La librería PETSc es un paquete más complicado de instalar que PS- 

PARSLIB. Esto es debido a que dispone de una gran cantidad de herramientas 

de las cuales la resolución de sistemas lineales es tan solo una pequeña 

parte. Se apoya en las librerías matemáticas BLAS y LAPACK por lo que 

es preciso disponer de estos paquetes en la máquina. La estructuración interna 

de la librería es rígida, lo que complica bastante el aprendizaje, junto 

con la enorme cantidad de opciones de las que dispone sin estar claramente 

precisadas. Sin embargo, a diferencia de PSPARSLIB, cabe la posibilidad de 

interconectar PETSc con otros paquetes matemáticos, como puede ser MA- 

TLAB, u otras librerías, como BlockSolve o SuperLU, que la dotan de una 

mayor versatilidad, destacando también su amplio soporte para diferentes 

formatos matriciales.


Figura 4.39: Dependencia del tiempo de resolución con el ilut fill para el 



resolutor BCGSTAB 

4.2.5. Aztec 

En esta librería analizamos aquellos resolutores que presentaron mejores 

resultados en la librería PSPARSLIB, trabajando por ello tan sólo con los 

métodos iterativos GMRES y BCGSTAB. Se utilizan métodos basados en 

descomposición de dominios (Schwarz aditivo), siendo ILUT el resolutor de 

cada subdominio, es decir, realizamos una factorización incompleta LU en 

la que influyen dos parámetros, la tolerancia de la ILU (drop) fijada a cero y 

el ilut fill. Estudiaremos la influencia del número de procesadores utilizados



resolutor BCGSTAB 



y del ilut fill (este parámetro indica que la factorización resultante puede 

contener como máximo ilut fill veces el número de no ceros de la matriz 

original). Las medidas para esta librería se realizaron en una máquina SGI 

Origin 200. 

La librería Aztec hace uso de la tolerancia tol para detectar la convergencia, 

que se alcanzará en la iteración k si se cumple ||rk||2 < tol ∗ ||ro||2, 

siendo ro el residuo inicial y rk = b − Axk el residuo en la iteración k. 

Empezando con la matriz poisson6, en las gráficas 4.39 y 4.40 represen-


tamos, para los resolutores GMRES y BCGSTAB, el tiempo necesario para 

la resolución del sistema lineal en función del número de procesadores y del 

nivel de ilut fill utilizado. Estas medidas se realizaron para unos valores de 

tolerancia de 5 · 10 −5 y una dimensión del subespacio de Krylov de 50. Se 

observa que el tiempo de resolución disminuye conforme aumenta el número 

de procesadores utilizados, tendencia que se cumple para todos los valores 

de ilut fill. Ambos resolutores presentan un comportamiento similar frente 

a la variación del ilut fill, obteniéndose un tiempo de resolución mínimo para 

valores de ilut fill iguales a 1,2. A valores superiores de este parámetro 

el excesivo aumento del número de elementos no nulos a introducir en la 

factorización provoca un incremento del tiempo de resolución. 

Para la matriz electron6 es más complicado obtener un comportamiento 

similar. En la gráfica 4.41, relativa al resolutor BCGSTAB, se refleja 

la variación del tiempo de resolución con el numero de procesadores y el 

ilut fill para los mismos parámetros que la matriz poisson6, observándose 

un descenso del tiempo de resolución con el número de procesadores que se 

mantiene hasta tres. Para un número superior de procesadores los tiempos 

se incrementan. Esta misma dependencia se establece en el caso del resolutor 

GMRES (gráfica 4.42). En cambio, en cuanto a la influencia del ilut fill, el 

resolutor BCGSTAB en general obtiene sus mejores resultados para valores 

pequeños (ilut fill=1) de esta variable, mientras que el GMRES los obtiene 

para valores más elevados (entre 1,5 y 2). 

Para obtener la librería Aztec es necesario un proceso de registro. A parte 

de esto la instalación no tiene mayores complicaciones. Su configuración es 

sencilla y dispone de ejemplos suficientes para iniciarse en el funcionamiento 

de la librería. Uno de sus principales inconvenientes está en que los únicos 

formatos matriciales que soporta son MSR y VBR, lo que puede obligar 

a disponer de un conversor. Al igual que la librería PETSc necesita tener 

instalado BLAS y LAPACK. 

Todas las librerías analizadas, a excepción de SuperLU, implementan 

una cantidad considerable de métodos de resolución y precondicionadores, 

siendo complicada la comparación entre ellas puesto que utilizan distintas 

definiciones algunos parámetros, como pueden ser las distintas versiones 

de factorizaciones incompletas que implementan las librerías PSPARSLIB, 

PETSc y Aztec. 

Si ignoramos todas estas variables y realizamos una comparación meramente 

orientativa y en cierto modo subjetiva, en nuestra opinión PSPARS- 

LIB es la librería que necesita un menor tiempo de aprendizaje desde que se 

inicia el proceso de instalación hasta que se empieza a utilizar con fluidez, 

lo que haría que fuera la más sencilla de implementar en el simulador. Otro


punto a su favor se encuentra en la claridad del código desarrollado. Además 

si comparamos los tiempos de resolución para las circunstancias más favorables 

de cada una de las librerías también encontramos los menores valores 

del tiempo de resolución para esta librería.

Conclusiones 

En este trabajo hemos realizado un estudio de sistemas lineales asociados 

a la simulación de dispositivos semiconductores, utilizando para ello 

diversas librerías numéricas, con el objetivo de encontrar el modo óptimo de 

resolución. 

En concreto hemos partido de las matrices de Posisson y de continuidad 

de electrones que surgen de la simulación tridimensional de transistores 

HEMT. El simulador utilizado ha sido desarrollado por nuestro grupo en 

colaboración con el Device Modelling Group de la Universidad de Glasgow. 

Hay que añadir que el simulador ha sido calibrado, tanto a través de resultados 

experimentales como por medio de simuladores comerciales. Uno de 

los objetivos de esta colaboración es el estudio de las variaciones estadísticas, 

tanto en el dopado como en la composición de los compuestos ternarios, 

que se producen en la fabricación de estos dispositivos cuando son escalados 

a dimensiones submicrométricas, por lo cual es preciso realizar un elevado 

número de simulaciones. 

Hemos realizado un estudio de métodos directos e iterativos que permiten 

la resolución de este tipo de sistemas lineales. Por ello en primer lugar 

tratamos la librería secuencial SPARSKIT con el fin de obtener un análisis 

inicial de los métodos de resolución más favorables para los sistemas lineales 

generados con las matrices de Posisson y de continuidad de electrones. Se 

tomaron medidas para una serie de matrices de cada tipo, presentando los 

resultados la misma tendencia que la obtenida con las dos matrices (poisson6 

y electron6) elegidas. Así, desechamos los resolutores CGNR, DBCG 

y BCG por presentar tiempos de resolución elevados en comparación con el 

resto de resolutores. En cambio, los restantes resolutores estudiados (CG, 

BCGSTAB, TFQMR, FOM, GMRES, FGMRES y DQMGRES) presentaron 

diferencias mínimas en cuanto a tiempo de resolución. Para esta librería, 

los menores tiempos, sea cual sea el método de resolución elegido, se obtienen 

para llenados bajos, teniendo en cuenta que existe un valor mínimo de 

llenado necesario para alcanzar la convergencia del resolutor. 

107

108 Conclusiones 

En segundo lugar analizamos la librería SuperLU, que tiene como objetivo 

la resolución paralela de una factorización LU completa. Está basada por 

lo tanto en la aplicación de métodos directos para la solución del sistema 

lineal, y la estudiamos para comprobar que su utilización es poco rentable 

en comparación con cualquiera de las librerías estudiadas basadas en métodos 

iterativos, incluyendo la librería secuencial SPARSKIT, puesto que los 

métodos directos implican una mayor complejidad computacional, lo que 

repercute en el tiempo de resolución. 

Vistos estos resultados optamos por continuar analizando un grupo de 

librerías paralelas basadas en métodos iterativos, siendo la primera de ellas 

PSPARSLIB, que es una versión paralela de SPARSKIT que utiliza métodos 

basados en descomposición de dominios. En este caso analizamos los mismos 

resolutores que en la librería SPARSKIT, aunque finalmente restringimos el 

estudio a los resolutores BCGSTAB, TFQMR y FGMRES, obteniéndose con 

este último los mejores resultados. En cuanto al precondicionador, encontramos 

que para la obtención de los nodos frontera el método Schwarz aditivo 

es el más adecuado, mientras que para el cálculo de los nodos internos empleamos 

una factorización incompleta LU dependiente del llenado, donde el 

tiempo mínimo se alcanza para llenados pequeños (entre 15 y 25). 

Teniendo en cuenta los resultados obtenidos con la librería PSPARSLIB, 

en las librerías PETSc y Aztec estudiamos para los resolutores GMRES y 

BCGSTAB el método Schwarz aditivo, utilizando una factorización incompleta 

LU dependiente del nivel de llenado y del parámetro ilut fill en el caso 

de PETSc y de este último parámetro en el caso de la librería Aztec. Empezando 

con la librería PETSc los menores tiempos de resolución se encuentran 

para el resolutor BCGSTAB, con niveles de llenado bajos (menores de 5) y 

con un número óptimo de 3 procesadores. En la librería Aztec se encuentran 

los menores tiempos de resolución para valores de ilut fill pequeños (menores 

de 2), aunque en esta ocasión las diferencias entre los resolutores en función 

del ilut fill son considerables en el caso de la matriz electron6. 

La librería a implementar en el simulador debe tener principalmente dos 

cualidades. Por un lado debe ser fácil de utilizar y estar compuesta de códigos 

claros y manejables. Las librerías SPARSKIT, PSPARSLIB y Aztec cumplen 

este requisito, aunque PETSc necesita una etapa previa de adaptación y 

aprendizaje. Además es imprescindible que los tiempos de resolución de los 

sistemas lineales sean lo más reducidos posibles. Por ello, de entre todas las 

librerías analizadas escogeríamos PSPARSLIB para su implementación en 

el simulador. 

Como posible trabajo futuro vamos a aplicar al simulador tridimensional 

los métodos de resolución que mejores resultados han presentado para las

Conclusiones 109 

ecuaciones de Poisson y de continuidad de electrones. Una vez realizado este 

proceso aplicaremos el simulador al estudio de las variaciones estadísticas 

de los dispositivos, tratando en primer lugar el efecto de las variaciones en 

la composición de los compuestos ternarios, para posteriormente abordar la 

influencia de otros fenómenos como el dopado o la estructura atomística del 

material, que debe tenerse en cuenta cuando tratamos con dispositivos de 

dimensiones de puerta tan pequeñas. Por último, tanto el simulador como el 

estudio realizado podrán ser aplicados al análisis de otro tipo de dispositivos.

110 Conclusiones

Bibliografía 

[ABW02] A. Asenov, A. R. Brown, and J. R. Watling. Quantum Corrections 

in the Simulation of Decanano MOSFETs. In 3rd European 

Workshop on Ultimate Integration of Silicon, 2002. 

[AS99] A. Asenov and S. Saini. Supression of random dopant induced 

threshold voltage fluctuations in sub − 0,1µm MOSFETs with 

epitaxial and delta doped channels. In IEEE Trans. Electron 

Dev., Vol. 46, No. 8, pages 1718 – 1724, 1999. 

[Ase98] A. Asenov. Random dopant induced threshold voltage lowering 

and fluctuations in sub − 0,1µm mosfets: A 3D atomistic 

simulation study. In IEEE Trans. Electron Dev., Vol. 45, pages 

2505 – 2513, 1998. 

[Ase01] A. Asenov. Quantum Correction to the atomistic MOSFET 

simulation. In VLSI Design, Vol. 13, 2001. 

[BB02] K. F. Brennan and A. S. Brown. Theory of modern electronic 

semiconductor devices. Wiley, 2002. 

[BCO83] Eric B. Becker, Graham F. Carey, and J. Tinsley Oden. Finite 

Elements. Prentice–Hall, 1983. 

[BGMS99a] Satish Balay, William D. Gropp, Lois Curfman McInnes, and 

Barry F. Smith. PETSc 2.0 users manual. Technical Report 

ANL-95/11 - Revision 2.0.24, Argonne National Laboratory, 

1999. 

[BGMS99b] Satish Balay, William D. Gropp, Lois Curfman McInnes, 

and Barry F. Smith. PETSc home page. 

http://www.mcs.anl.gov/petsc, 1999. 

[Bod95] Nanette J. Boden. Myrinet: A gigabit-per-second local area 

network. IEEE Micro Chips, Systems, Software and Applications, 

pages 29–36, 1995. 

111

112 BIBLIOGRAF ÍA 

[Bri87] W. L. Briggs. A Multigrid Tutorial. SIAM, 1987. 

[CRRM96] G. F. Carey, W. B. Richardson, C. S. Reed, and B. J. Mulvaney. 

Circuit, Device and Process Simulation. John Wiley and Sons, 

1996. 

[CvdV94] T. F. Chan and H. A. van der Vorst. Approximate and incomplete 

factorizations. Technical Report CAM94-27, University 

of California, 1994. 

[DGL99] James W. Demmel, John R. Gilbert, and Xiaoye S. Li. SuperLU 

users guide. Technical Report Revision march 2003, 1999. 

[Dou96] C. Douglas. Multigrid methods in science and engineering. 

IEEE Computational Science & Engineering, pages 55–68, 

1996. 

[EGSS82] S. Eisenstat, M. Gursky, M. Schultz, and A. H. Sherman. The 

Yale sparse matrix package I: The symmetric codes. Int. J. 

Numer. Meth. in Eng., 18:1145–1151, 1982. 

[FJL + 88] G. Fox, M. Johnson, G. Lyzenga, S. Otto, J. Salmon, and 

D. Walker. Solving Problems on Concurrent Computers. Prentice 

Hall, 1988. 

[Fly72] M. J. Flynn. Some computers organizations and their effectiveness. 

IEEE Trans. on Computers, 21:948–960, 1972. 

[GBD + 94] A. Geist, A. Beguellin, J. Dongarra, W. Jiang, R. Manchek, 

and V. Sunderam. PVM 2 User’s guide and reference manual. 

Technical Report ONRL/TM-12187, Oak Ridge National Laboratory, 

1994. 

[GBD + 96] A. Geist, A. Beguellin, J. Dongarra, W. Jiang, R. Manchek, 

and V. Sunderam. PVM. The MIT Press, 3 edition, 1996. 

[GLS96] W. Group, E. Lusk, and A. Skjellum. Using MPI. The MIT 

Press, 1996. 

[HST95] S. A. Hutchinson, J. Shadid, and R. S. Tuminaro. Aztec user’s 

guide. Technical Report SAND95-1559, Sandia National Laboratories, 

1995.

BIBLIOGRAFÍA 113 

[JP97] M. T. Jones and P. E. Plassmann. BlockSolve95 users manual: 

Scalable library software for the parallel solution of sparse linear 

systems. Technical Report ANL-95/48, Argonne National 

Laboratory, 1997. 

[KC91] David Kincaid and Ward Cheney. Numerical Analysis. 

Brooks/Cole, 1991. 

[KRA + 02] K. Kalna, S. Roy, A. Asenov, K. Elgaid, and I. Thayne. Scaling 

of PHEMTs to decanano dimensions. In Solid-State Electron 

46, pages 631–638, 2002. 

[LG94] J. M. López-González. Contribution to the study of the Heterojunction 

Bipolar Transistors. PhD thesis, Universidad Politécnica 

de Cataluña, 1994. (in Spanish). 

[LKAG03a] A. García Loureiro, K. Kalna, A. Asenov, and J. M. López 

González. 3DParallel Simulations of Alloy and Dopant Fluctuations 

Effects in pHEMTs. In International Workshop on 

Computational Electronics, 2003. 

[LKAG03b] A. García Loureiro, K. Kalna, A. Asenov, and J. M. López 

González. 3DSimulations of Intrinsic Fluctuations in Nanoscaled 

pHEMTs. In 14th Workshop on Modelling and Simulation 

of Electron Devices, 2003. 

[LKLGA03] A. García Loureiro, K. Kalna, J.M. López-González, and 

A. Asenov. Three–Dimensional Simulation of InGaAs/AlGaAs 

pHEMT. In Conferencia de Dispositivos Electronicos, February 

2003. 

[LL96] James Laudon and Daniel Lenoski. System Overview of the SGI 

Origin 200/2000 Product Line. Silicon Graphics, Inc., 1996. 

[Lou99] Antonio García Loureiro. BIPS3D: Un Simulador 3D Paralelo 

de Dispositivos Semiconductores BJT y HBT. PhD thesis, 

Dept. Electrónica e Computación, 1999. 

[LS96] Gen-Ching Lo and Y. Saad. Iterative solution of general sparse 

linear systems on clusters of workstations. Technical report, 

Department of Computer Science, Univ. of Minnesota, 1996. 

[MvdV97] J. A. Meijerink and H. A. van der Vorst. An iterative solution 

method for linear systems of which the coefficient matrix is a 

symmetric M–matrix. Math. Compt., 31:148–162, 1997.

114 BIBLIOGRAF ÍA 

[Myr01] Myricom Inc. Guide to Myrinet-2000 Switches and Switch Network, 

2001. 

[Pen94] T. F. Pena. Simulación 3D de Dispositivos Semiconductores 

en Sistemas Multiprocesador. PhD thesis, Dept. Electrónica e 

Computación, 1994. 

[PH96] David A. Patterson and John L. Hennessy. Computer Architecture 

A Quantitative Approach. Morgan Kaufmann, 2 edition, 

1996. 

[Pie94] Robert F. Pierret. Dispositivos de efecto de campo. Addison– 

Wesley, 1994. 

[RR02] P. Roblin and H. Rohdin. High–speed heterostructure devices. 

Cambridge University Press, 2002. 

[Saa94a] Y. Saad. ILUT: a dual threshold incomplete LU factorization. 

Numerical Linear Algebra with Applications, 1(4), 1994. 

[Saa94b] Y. Saad. SPARSKIT: a basic tool kit for sparse matrix computations. 

Technical report, University of Illinois, Urbana, IL, 

1994. 

[Saa95] Y. Saad. Krylov subspace methods on parallel computers. Technical 

Report UMSI-95-276, Computer Science Department. 

Univ. Minnesota, 1995. 

[Saa96] Y. Saad. Iterative Methods for Sparse Linear Systems. PWS 

Publishing Co., 1996. 

[Sel84] S. Selberherr. Analysis and Simulation of Semiconductor Devices. 

Springer, 1984. 

[Sil98a] Silicon Graphics Computer Systems. Origin200 and Origin200 

GIGAchannel Maintenance Guide, 1998. 

[Sil98b] Silicon Graphics Computer Systems. Origin200 and Origin200 

GIGAchannel Owner’s Guide, 1998. 

[SLK97] Y. Saad, Gen-Ching Lo, and Sergey Kuznetsov. PSPARSLIB 

users manual: A portable library of parallel sparse iterative solvers. 

Technical report, Univ. of Minnesota, Dept. of Computer 

Science, 1997.

BIBLIOGRAFÍA 115 

[SM95] Y. Saad and A. V. Malevsky. Data structures, computational, 

and communication kernels for distributed memory sparse iterative 

solvers. Technical report, Computer Science Department. 

Univ. Minnesota, 1995. 

[Syn03] Synopsys. Taurus–Medici Industry standar device simulation 

tool, 2003. 

[Tec93] Theoretic Studies Department of AEA Industrial Technology. 

Harwell subroutine library: A catalogue of subroutines (release 

1.1). Technical report, AEA Industrial Technology, 1993. 

[Vav96] Stephen A. Vavasis. QMG 1.1 Reference Manual. Computer 

Science Department, Cornell University, 1996. 

[Wes95] P. Wesseling. Introduction to multigrid methods. Technical 

Report 95-11, NASA ICASE, NASA Langley Research Center, 

Virginia, 1995. 

[WHS89] C. M. Wolfe, N. Holonyak, and G. E. Stillman. Physical Properties 

of Semiconductors, chapter 8. Ed. Prentice Hall, 1989. 

[Zie77] O. C. Zienkiewicz. The Finite Element Method. McGraw–Hill, 

1977. 

[Zla82] Z. Zlatev. Use of iterative refinement in the solution of sparse 

linear systems. SIAM Jour. Numer. Analysis, 19:381–399, 1982.

estudio de librerías numéricas y su aplicaci´on a la simulaci´on de ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?