PROYECTO FIN DE CARRERA Esquemas multirresoluciÃ³n para ...

UNIVERSIDAD DE VALLADOLID 

ETSI TELECOMUNICACIÓN 

PROYECTO FIN DE CARRERA 

Esquemas multirresolución para compresión 

de datos volumétricos 

AUTOR: 

TUTOR: 

Miguel Ángel Martín Fernández 

Carlos Alberola López 

Marzo 1999

RESUMEN 

En este proyecto se implementan y comparan dos esquemas de compresión multirresolución 

de datos volumétricos, compresión mediante transformada wavelet y 

compresión mediante diezmado de mallas triangulares. En la compresión wavelet se 

puede obtener una zona de los datos volumétricos con resolución total. 

Además se realiza una interfaz gráfica de usuario, para realizar la compresión, evaluar 

su error y visualizar las renderizaciones resultantes, ofreciendo al usuario la 

posibilidad de interactuar con la escena renderizada. 

ABSTRACT 

In this project, two schemes of volume data multiresolution compression, are developed 

and compared, wavelet transform compression, and triangular meshes decimation. 

In wavelet compression, it is possible to obtain a zone of volume data with full 

resolution. 

It is also developed a graphic user intergace to compress data, evaluate error, and 

visualizate resulting renderings, offering the user, the possibility of interacting with 

the rendered scene. 

PALABRAS CLAVE 

Compresión multirresolución, datos volumétricos, transformada wavelet, diezmado 

de mallas triangulares, error cuadrático medio en volumen, error cuadrático medio 

en imagen renderizada, número medio de errores por rodaja, visualización, renderización, 

tomografía computerizada, resonancia magnética, ultrasonidos, marching 

cubes, isosuperficie, flood filling, VTK, Tcl/Tk, interfaz gráfica de usuario (GUI). 

i

Índice general 

1. Introducción 1 

2. Captación de Imágenes Médicas 5 

2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 

2.2. Tomografía Computerizada . . . . . . . . . . . . . . . . . . . . . . . . 6 

2.2.1. Instrumentación . . . . . . . . . . . . . . . . . . . . . . . . . . 6 

2.2.2. Principios de Reconstrucción: Proyección de los Datos a la 

Imagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

2.3. Resonancia Magnética . . . . . . . . . . . . . . . . . . . . . . . . . . 15 

2.3.1. Adquisición y Procesado . . . . . . . . . . . . . . . . . . . . . 15 

2.3.2. Hardware e Instrumentación . . . . . . . . . . . . . . . . . . . 20 

2.4. Ultrasonido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 

2.4.1. Transductores . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 

2.4.2. Obtención de Imágenes por Ultrasonidos . . . . . . . . . . . . 29 

3. Visualización y Renderización 35 

3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 

3.2. Procesado de Imagen, Gráficos, y Visualización . . . . . . . . . . . . 37 

3.3. Renderización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 

3.3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 

3.3.2. Fundamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 

3.3.3. Color . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 

3.3.4. Luces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 

3.3.5. Propiedades de la Superficie . . . . . . . . . . . . . . . . . . . 44 

3.3.6. Cámaras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 

iii

3.3.7. Sistemas de Coordenadas . . . . . . . . . . . . . . . . . . . . . 48 

3.3.8. Transformación de Coordenadas . . . . . . . . . . . . . . . . . 49 

3.3.9. Geometría de los Actores . . . . . . . . . . . . . . . . . . . . . 51 

3.3.10. Hardware Gráfico . . . . . . . . . . . . . . . . . . . . . . . . . 52 

3.4. Obtención de Isosuperficies: Marching Cubes . . . . . . . . . . . . . . 57 

3.4.1. Descripción del Algoritmo . . . . . . . . . . . . . . . . . . . . 58 

3.4.2. Problema del Algoritmo: Ambigüedad . . . . . . . . . . . . . . 59 

4. Compresión de Datos 63 

4.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 

4.1.1. Terminología General . . . . . . . . . . . . . . . . . . . . . . . 63 

4.2. Compresión de Audio y Voz . . . . . . . . . . . . . . . . . . . . . . . 64 

4.2.1. Codificadores de Forma de Onda . . . . . . . . . . . . . . . . 65 

4.2.2. Algunos Codificadores Específicos de Voz . . . . . . . . . . . . 68 

4.3. Compresión de Imágenes y Datos Volumétricos . . . . . . . . . . . . . 71 

4.3.1. Criterios de Diséno . . . . . . . . . . . . . . . . . . . . . . . . 71 

4.3.2. Métodos de Compresión . . . . . . . . . . . . . . . . . . . . . 74 

4.3.3. Método 1: Transformación . . . . . . . . . . . . . . . . . . . . 74 

4.3.4. Método 2: Reducción de la Precisión . . . . . . . . . . . . . . 83 

4.3.5. Método 3: Minimización del Número de Bits . . . . . . . . . . 84 

4.3.6. Combinación de Métodos de Compresión . . . . . . . . . . . . 88 

4.3.7. Diezmado de Superficies . . . . . . . . . . . . . . . . . . . . . 89 

5. Transformada Wavelet 97 

5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 

5.2. Expresión Multirresolución y Wavelets Ortogonales . . . . . . . . . . 99 

5.3. Transformada Wavelet 3D . . . . . . . . . . . . . . . . . . . . . . . . 106 

5.4. Transformada Wavelet para Compresión 3D . . . . . . . . . . . . . . 109 

6. Descripción de la Aplicación 111 

6.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 

6.2. Tareas a Realizar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 

6.3. Interfaz Gráfica de Usuario (GUI) . . . . . . . . . . . . . . . . . . . . 113 

6.3.1. Sistema de Menús . . . . . . . . . . . . . . . . . . . . . . . . . 113 

iv

6.3.2. Ventana de Renderización . . . . . . . . . . . . . . . . . . . . 117 

6.3.3. Barra de Estado . . . . . . . . . . . . . . . . . . . . . . . . . . 118 

6.3.4. Ventanas de Error y de Información . . . . . . . . . . . . . . . 119 

6.4. Unas notas sobre la implementación . . . . . . . . . . . . . . . . . . . 121 

6.5. Ejemplos de Utilización del Programa . . . . . . . . . . . . . . . . . . 122 

6.5.1. Diezmado de un Cráneo . . . . . . . . . . . . . . . . . . . . . 122 

6.5.2. Compresión Wavelet de una Cabeza y Obtención de Detalle . 129 

7. Resultados 143 

7.1. Medidas de Error Empleadas . . . . . . . . . . . . . . . . . . . . . . . 143 

7.2. Cálculos Realizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 

7.3. Resultados obtenidos . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 

7.4. Interpretación de los resultados obtenidos . . . . . . . . . . . . . . . . 159 

7.4.1. Compresión mediante la Transformada Wavelet . . . . . . . . 159 

7.4.2. Compresión mediante Diezmado . . . . . . . . . . . . . . . . . 162 

7.4.3. Comparación entre Ambos Métodos de Compresión . . . . . . 163 

7.5. Algunas Imágenes Renderizadas de Ejemplo . . . . . . . . . . . . . . 163 

8. Conclusiones y Líneas Futuras 171 

8.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 

8.2. Líneas Futuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 

9. Pliego de Condiciones 177 

A. Manual de Referencia 181 

A.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 

A.2. Estructura general del Programa . . . . . . . . . . . . . . . . . . . . 181 

A.3. vtkWaveletFilter . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 

A.3.1. Función vtkWaveletFilter::Execute() . . . . . . . . . . . . 194 

A.3.2. Función vtkWaveletFilter::CalcularDetalle(...) . . . . 197 

A.3.3. Función vtkWaveletFilter::Significancia(...) . . . . . . 199 

A.4. vtkFloodFillFilter . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 

A.5. ErrorVol.cxx . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 

A.6. ErrorRender.cxx . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 

v

B. VTK y TCL 211 

B.1. VTK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 

B.1.1. Renderizacion . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 

B.1.2. Detalles de la implementación de VTK . . . . . . . . . . . . . 216 

B.1.3. Representación de los Datos . . . . . . . . . . . . . . . . . . . 218 

B.2. Intérpretes y Tcl/Tk . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 

B.2.1. Lenguajes Interpretados vs Compilados . . . . . . . . . . . . . 222 

B.2.2. Introducción a Tcl . . . . . . . . . . . . . . . . . . . . . . . . 223 

B.2.3. Integración de VTK con Tcl . . . . . . . . . . . . . . . . . . . 225 

B.2.4. Ejemplo de C++ y Tcl . . . . . . . . . . . . . . . . . . . . . . 227 

B.2.5. Interfaces de Usuario con Tk . . . . . . . . . . . . . . . . . . . 228 

C. Planos 231 

vi

Índice de figuras 

2.1. Dibujo esquemático de una instalación de TC. Consta de (1) consola 

de control, (2) soporte de la grúa, (3) mesa del paciente (4) soporte 

para la cabeza (5) impresor de imagen láser. . . . . . . . . . . . . . . 6 

2.2. Imágenes típicas de TC de (a) cerebro, (b) cabeza con las órbitas, (c) 

pecho con los pulmones y (d) abdomen. . . . . . . . . . . . . . . . . . 7 

2.3. Cuatro generaciones de escaners para TC, mostrando las geometrías 

de haz paralelo y en abanico. . . . . . . . . . . . . . . . . . . . . . . . 8 

2.4. Esquema de un escáner ultrarrápido de quinta generación. La imagen 

se adquiere en 50 ms por el barrido electrónico del ánodo. . . . . . . . 10 

2.5. El escaneado en espiral provoca que el punto focal siga una trayectoria 

espiral alrededor del paciente. . . . . . . . . . . . . . . . . . . . . . . 11 

2.6. El sistema de adquisición de datos convierte la señal eléctrica producida 

en cada detector a un valor digital en el ordenador. . . . . . . 13 

2.7. El sistema informático controla los movimientos de la grúa, adquiere 

la medida de las transmisiones de rayos-x, y reconstruye la imagen 

final. El sistema mostrado aquí usa 12 CPUs de la familia 68000 

(Cortesía de Picker International, Inc.). . . . . . . . . . . . . . . . . . 14 

2.8. Los dos mecanismos principales de contraste en resonancias magnéticas, 

T 1 y T 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 

2.9. Ejemplos de imágenes de un voluntario normal mostrando el contraste 

T 1 a la izquierda y el T 2 a la derecha. . . . . . . . . . . . . . . . . . . 20 

2.10. Dominios digital y analógico en RM. Las RM requieren el intercambio 

de datos y comandos entre estos dos dominios. . . . . . . . . . . . . . 21 

2.11. Enfoque y direccionamiento de un haz acústico usando un array de 

fase. Se muestra un array de 6 elementos (a) en el modo de transmisión 

y (b) en el modo de recepción. . . . . . . . . . . . . . . . . . . . . . . 27 

2.12. Configuraciones de los elementos del array y regiones escaneadas por 

el haz acústico. (a)Array lineal secuencial; (b) array curvilíneo; (c) 

array lineal de fase; (d) array 1.5D; (e) Array de fase 2D. . . . . . . . 30 

vii

2.13. Ejemplo de imagen de modo A convertido a modo M de un corazón 

en dos puntos del ciclo cardiaco. (a) Diástole. (b) Sístole. En la sístole 

las paredes son más anchas y la sección ventricular es menor. . . . . . 31 

2.14. Representación esquemática de un corazón y como se obtiene la imagen 

2D a partir de la exploración del transductor. . . . . . . . . . . 32 

3.1. El proceso de visualización. Los datos de varias fuentes se transforman 

repetidamente para obtener, derivar y resaltar la información. Los 

datos resultantes se mapean al sistema gráfico. . . . . . . . . . . . . . 39 

3.2. Representación circular del matiz. . . . . . . . . . . . . . . . . . . . . 43 

3.3. Iluminación difusa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 

3.4. Iluminación especular. . . . . . . . . . . . . . . . . . . . . . . . . . . 46 

3.5. Bola iluminada con luz difusa, con reflexión especular en aumento. . . 46 

3.6. Atributos de la cámara. . . . . . . . . . . . . . . . . . . . . . . . . . 47 

3.7. Jerarquía típica del interfaz de gráficos. . . . . . . . . . . . . . . . . . 54 

3.8. Normales de vértices y polígonos. . . . . . . . . . . . . . . . . . . . . 55 

3.9. Problema con el algoritmo del pintor. . . . . . . . . . . . . . . . . . . 57 

3.10. Los 15 cubos triangulados del algoritmo Marching Cubes. . . . . . . . 60 

3.11. Casos complementarios para el algoritmo Marching Cubes. . . . . . . 61 

4.1. Esquema del sistema DPCM (PCM Diferencial). . . . . . . . . . . . . 66 

4.2. Esquemas generales para los tres métodos principales de compresión. 75 

4.3. Ejemplo de codificación run-length. . . . . . . . . . . . . . . . . . . . 76 

4.4. Ejemplo de asignación de códigos únicos a secuencias de datos repetidas. 

Codificación LZW. . . . . . . . . . . . . . . . . . . . . . . . . . . 77 

4.5. Ejemplo de codificación Huffman. . . . . . . . . . . . . . . . . . . . . 86 

4.6. Combinaciones típicas de métodos de compresión. . . . . . . . . . . . 88 

4.7. Los tres pasos del algoritmo de diezmado. . . . . . . . . . . . . . . . 90 

4.8. Operadores para crear mallas progresivas: fusión/división de bordes 

y división/fusión de vértices. . . . . . . . . . . . . . . . . . . . . . . . 94 

5.1. (a) Ejemplo de función de escalado φ(x), (b) Módulo de la transformada 

de Fourier ˆφ(x). Las funciones de escalado son filtros paso 

bajo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 

5.2. (a) Ejemplo de función wavelet ψ(x), (b) Módulo de la transformada 

de Fourier ˆψ(x). Las funciones wavelet son filtros paso banda. . . . . 104 

viii

5.3. La aproximación discreta A d 2 j+1 f se descompone en A d 2 j f y D d 2 j f. . . . 105 

5.4. Reconstrucción de la aproximación discreta A d 2 j+1 f a partir de A d 2 j f 

y D d 2 j f. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 

5.5. Ejemplo de una transformada wavelet y su reconstrucción. . . . . . . 106 

5.6. Una aproximación discreta, A d 2 j+1 f, se descompone en la aproximación 

discreta a menor resolución, A d 2 j f, y siete detalles, desde D 1 2 j f hasta 

D 7 2 j f. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 

5.7. Expresión multirresolución de unos datos volumétricos de tamaño 

128 × 128 × 128. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 

6.1. GUI general del programa en el que se puede ver una renderización. . 114 

6.2. Ejemplo de panel de control. Panel de control con las opciones de 

renderización. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 

6.3. Panel de control para abrir los archivos con los datos volumétricos. . 117 

6.4. Ejemplo de ventana de error, con información del error. . . . . . . . . 120 

6.5. Ejemplo de ventana de información. . . . . . . . . . . . . . . . . . . . 120 

6.6. Renderización de la isosuperficie correspondiente al hueso, sin comprimir 

(archivo hueso.ppm). . . . . . . . . . . . . . . . . . . . . . . . 130 

6.7. Renderización de la isosuperficie diezmada un 75 % (archivo hueso75.ppm).131 

6.8. Diferencia entre la renderización de la isosuperficie sin diezmado y 

diezmada un 75 % (archivo dif75.ppm). . . . . . . . . . . . . . . . . 132 

6.9. Renderización de la isosuperficie correspondiente a la piel, sin comprimir 

(archivo piel.ppm). . . . . . . . . . . . . . . . . . . . . . . . . 135 

6.10. Renderización de la isosuperficie comprimida mediante la transformada 

wavelet 100:1 (archivo piel100.ppm). . . . . . . . . . . . . . . . . 136 

6.11. Diferencia entre la renderización de la isosuperficie sin compresión 

wavelet y con una compresión 100:1 (archivo dif100.ppm). . . . . . . 137 

6.12. Obtención del detalle. Mediante el prisma blanco se selecciona la zona 

que se desea ver con detalle. . . . . . . . . . . . . . . . . . . . . . . . 139 

6.13. Detalle de la oreja izquierda (derecha desde nuestra posición). . . . . 141 

7.1. Compresión mediante transformada wavelet. Variación en el error 

cuadrático medio en el volumen reconstruido, en función del número 

de coeficientes de la transformada wavelet. Escala lineal para ambos 

ejes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 

ix


cuadrático medio en el volumen reconstruido, en función del número 

de coeficientes de la transformada wavelet. Escala logarítmica para el 

eje de ordenadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 


cuadrático medio de la imagen renderizada, en función del número 

de coeficientes de la transformada wavelet. Escala logarítmica para el 

eje de ordenadas. La curva roja corresponde a la isosuperficie de la 

piel (1200) y la negra a la del hueso (600). . . . . . . . . . . . . . . . 154 

7.4. Compresión mediante transformada wavelet. Variación en el número 

medio de errores por rodaja, en función del número de coeficientes de 

la transformada wavelet. Escala logarítmica para el eje de ordenadas. 

La curva roja corresponde a la isosuperficie de la piel (1200) y la negra 

a la del hueso (600). . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 

7.5. Compresión mediante diezmado. Variación en el error cuadrático medio 

de la imagen renderizada, en función del tanto por uno de puntos considerados 

el diezmado. Escala logarítmica para el eje de ordenadas. La 

curva roja corresponde a la isosuperficie de la piel (1200) y la negra 

a la del hueso (600). . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 

7.6. Compresión mediante diezmado. Variación en el número medio de errores 

por rodaja, en función del tanto por uno de puntos considerados 

el diezmado. Escala logarítmica para el eje de ordenadas. La curva 

roja corresponde a la isosuperficie de la piel (1200) y la negra a la del 

hueso (600). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 

7.7. Comparación de la compresión mediante la transformada wavelet 

(rojo) y la compresión mediante diezmado (negro). Variación en el 

número medio de errores por rodaja, en función del tanto por uno de 

elementos considerados para realizar la compresión. Escala logarítmica 

para ambos ejes. Isosuperficie correspondiente a la piel (600). . . . 158 

7.8. Ejemplos de renderizaciones. Compresión mediante transformada wavelet.165 

7.9. Ejemplos de renderizaciones. Compresión mediante transformada wavelet.166 

7.10. Ejemplos de renderizaciones. Compresión mediante diezmado. . . . . 167 

7.11. Ejemplos de renderizaciones. Compresión mediante diezmado. . . . . 168 

7.12. Ejemplos de renderizaciones. Compresión mediante transformada wavelet, 

con dos niveles de compresión. . . . . . . . . . . . . . . . . . . . . . . 169 

7.13. Ejemplos de renderizaciones. Compresión mediante diezmado a una 

tasa de compresión de 75 %, de dos isuperficies. . . . . . . . . . . . . 170 

A.1. Red de visualización de la aplicación. . . . . . . . . . . . . . . . . . . 186 

x

A.2. Diagrama OMT de herencia de la clase vtkWaveletFilter. . . . . . . 191 

A.3. Mapeado de una zona de detalle en el espacio a los coeficientes de la 

transformada wavelet (2D). . . . . . . . . . . . . . . . . . . . . . . . 200 

A.4. Factor de significancia de los coeficientes de la transformada wavelet 

(2D). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 

A.5. Algoritmo del método Flood Filling “tradicional”. . . . . . . . . . . . 205 

A.6. Representación del algoritmo de Flood Filling generalizado, para encontrar 

cavidades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 

A.7. (a) Caso patológico en el que no funciona el algoritmo Flood Filling 

generalizado. (b) Caso muy similar en el que sí funciona. . . . . . . . 207 

B.1. Consiguiendo independencia del dispositivo mediante herencia. . . . . 215 

xi

xii

Índice de cuadros 

3.1. Colores comunes en los espacios RGB y HSV. . . . . . . . . . . . . . 43 

4.1. Requisitos de diseño y posibles opciones . . . . . . . . . . . . . . . . 72 

4.2. Algunas aplicaciones que requieren compresión . . . . . . . . . . . . . 73 

7.1. Compresión mediante transformada wavelet. Error cuadrático medio 

en volumen (MSEV) y número de coeficientes wavelet, en función de 

la tasa de compresión. . . . . . . . . . . . . . . . . . . . . . . . . . . 148 

7.2. Compresión mediante transformada wavelet. Isosuperficie correspondiente 

al hueso (densidad = 1200). Número medio de errores por 

rodaja (NMER) y error cuadrático medio de la imagen renderizada 

(MSER). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 

7.3. Compresión mediante transformada wavelet. Isosuperficie correspondiente 

a la piel (densidad = 600). Número medio de errores por rodaja 

(NMER) y error cuadrático medio de la imagen renderizada (MSER). 150 

7.4. Compresión mediante diezmado. Isosuperficie correspondiente al hueso 

(densidad = 1200). Número medio de errores por rodaja (NMER) 

y error cuadrático medio de la imagen renderizada (MSER). . . . . . 151 

7.5. Compresión mediante diezmado. Isosuperficie correspondiente a la 

piel (densidad = 600). Número medio de errores por rodaja (NMER) 

y error cuadrático medio de la imagen renderizada (MSER). . . . . . 152 

xiii

Capítulo 1 

Introducción 

Este proyecto fin de carrera forma parte del proyecto financiado por la Junta de 

Castilla y León, con referencia VA78/99, cuyo título es “Desarrollo de una Aplicación 

de Compresión y Visualización de Datos Volumétricos para los Hospitales de Castilla 

y León”. 

El proyecto trata de estudiar y comparar entre sí los distintos métodos existentes 

para la compresión y visualización de datos volumétricos. En concreto los datos que 

se estudian son los procedentes de aplicaciones médicas, que pueden ser capturadas 

por distintos métodos, como pueden ser la Resonancia Magnética (RM), Tomografía 

Computerizada (TC) y Ultrasonidos. 

Para ser tratados por un ordenador, los datos deben ser digitales, por lo que si 

inicialmente tienen naturaleza analógica deberán ser muestreados y cuantificados, de 

la misma forma que ocurre con cualquier tipo de señal. Sea cual sea la forma de ser 

capturados, estos datos estarán formados por múltiples secciones en dos dimensiones, 

que unidas forman la ”imagen”tridimensional. 

Si las imágenes bidimensionales tienen como uno de sus mayores problemas el de 

su gran tamaño, este problema se ve incrementado en el caso de los datos volumétricos. 

Por ello nos planteamos reducirlo mediante algun método de compresión o 

simplificación. Este problema es aún más importante si cabe en el caso de que los 

datos tengan que ser transmitidos entre los ordenadores de una red, especialmente 

si ésta es de área amplia (WAN), como es el caso de una red que una varios centros 

hospitalarios. 

Los esquemas de compresión multirresolución consisten en ralizar varias versiones 

a diferentes resoluciones de los datos; de forma que según la resolución requerida, 

se usa un subconjunto de las mismas, reduciendo así la cantidad de datos necesaria. 

De esta forma se consigue una versión de la imagen a la resolución deseada, llegando 

un compromiso entre resolución y tamaño de los datos, que podrá variar según el 

uso concreto, medio de almacenamiento o transmisión de los mismos, etc. 

1

Vamos a estudiar e implementar principalmente dos bloques de esquemas para 

la compresión de datos volumétricos 

Esquema multirresolución basado en wavelets. Este método de compresión, 

muy de moda hoy en día para todo tio de señales, hace uso de la transformada 

wavelet para obtener la versión a baja resolución de los datos. 

Esquemas no basados en wavelets. Son métodos geométricos de reducir la resolución 

y, por tanto, el tamao de los datos volumétricos. Básicamente consisten 

en diezmar o simplificar la malla triangular que se obtiene a partir de la red 

cúbica que forman los datos, despreciando aquellos que producen un menor 

error sobre el resultado. 

Ambos son, en nuestro caso, métodos de compresión con pérdidas, pues aunque 

la transformada wavelet permiten obtener una versión multirresolución sin pérdidas, 

nuestro objetivo es reducir el tamaño de los datos volumétricos, por lo que en ambos 

casos se obtendrá una versión suavizada de la imagen. 

Por otro lado en el caso de aplicaciones médicas, normalmente no interesa la 

imagen de forma global, sino sólo una pequeña parte de la misma, pero sin perder 

toda la información del resto. En este caso es muy interesante obtener una versión 

a muy baja resolución de toda la imagen (muy suavizada), excepto de la parte que 

interesa. De esta forma se debe reducir mucho su tamaño, sin perder información 

útil. 

Nuestro objetivo no ha sido solamente la compresión de los datos volumétricos, 

sino que al final, de deben visualizar las imágenes renderizadas. Se ha empleado renderización 

de isosuperficies (ver capítulo 3). Dependiendo del método de compresión, 

obtenemos la isosuperficie en un momento distinto: 

En el caso de usar wavelets, como se transforma una función en otra, se aplica 

directamente sobre los datos volumétricos, antes de calcular la isosuperficie, 

que se obtiene de los datos reconstruidos a baja resolución. 

En el caso de usar otros esquemas geométricos basados en diezmado de mallas 

triangulares, se deben obtener en primer lugar la isosusperficie. Una vez 

obtenida, se realiza el diezmado de la misma. 

Los Objetivos perseguidos durante la realización del proyecto han sido los siguientes: 

Implementar los esquemas de compresión basados en la transformada wavelet 

y en diezmado de mallas triangulares. 

Crear una aplicación interactiva, para los dos esquemas estudiados, que realice 

la compresión multirresolución de los datos volumétricos, así como la 

visualización de los mismos. 

2

Comparar los dos esquemas de compresión en cuanto a error de la compresión, 

y tamaño de los datos. 

Conseguir mediante compresión wavelet que la resolución de la imagen renderizada 

varíe de una zona a otra. De esta forma se ve la imagen con mayor 

resolución en la zona de interés. 

Las fases de su realización serán: 

Estudio y lectura de los artículos y manuales necesarios para la realizacin del 

proyecto. 

Programación de herramientas para implementar ambos métodos de compresión, 

así como su posterior visualización. 

Realizar un estudio para comparar ambos esquemas de compresión. 

Obtener conclusiones y posibles líneas futuras, a partir del estudio anterior. 

La memoria del proyecto se ha estructurado de la forma que sigue. 

En el capítulo 2 se describen los principales métodos empleados para captación 

de datos volumétricos en medicina. En concreto se describe la tomografía computerizada, 

la resonancia magnética y los ultrasonidos. 

En el capítulo 3 se estudia la visualización o renderización de datos volumétricos. 

Se hace un estudio general de todos los elementos implicados en el problema, como 

pueden ser colores, luces, cámaras, . . . Además se describe el método de obtención 

de isosuperficies más empleado: Marching Cubes [13]. 

En el capítulo 4 se explican los principales esquemas de compresión usados en 

varias disciplinas de tratamiento digital de datos. En concreto, se estudian los métodos 

de compresión de voz y audio, y los métodos de compresión de imágenes y datos 

volumétricos. Al final del capítulo se describe el esquema de diezmado usado para 

la realización del proyecto. 

El capítulo 5 se dedica por completo a la transformada wavelet. En primer lugar 

se estudia la transformada wavelet unidimensional, y a continuación la transformada 

para datos volumétricos (3D), extensión de la anterior. También se trata la aplicación 

de la transformada wavelet a compresión de datos volumétricos. 

En el capítulo 6 se realiza una descripción de la aplicación a nivel de usuario, 

prestando especial atención a la interfaz gráfica de usuario, pues es el medio de 

interacción con el usuario. También se describen, dos ejemplos de utilización de la 

aplicación que pueden servir como manual de usuario de la misma. 

El capítulo 7 es el manual de referencia de la aplicación. En él se describe de 

forma más concreta y profunda el programa de la aplicación. Se describen además 

los algoritmos que ha sido necesario diseñar e implementar. 

3

En el capítulo 8 se muestran los resultados obtenidos para medidas de error con 

los dos métodos de compresión. Estos resultados son analizados y comentados. 

En el capítulo 9, se enumeran las conclusiones obtenidas y se proponen líneas 

futuras para continuar lo desarrollado aquí. 

El proyecto se ha realizado utilizando el sistema de programación de aplicaciones 

de visualización llamado Visualization Toolkit [12], que se describe en el 

apéndice A. También se describe, brevemente el lenguaje de programación interpretado 

Tcl/Tk [15]. 

Finalmente, en el apéndice B aparece parte del código fuente de las partes de 

la aplicación que se han considerado más importantes. Aparece suficientemente comentadas 

para continuar con el trabajo realizado. 

4

Capítulo 2 

Captación de Imágenes Médicas 

2.1. Introducción 

Las aplicaciones médicas de visualización 3D constan de varios pasos: adquisición 

de datos, procesado de imagen (filtrado, compresión, máscaras de conectividad, etc.), 

creación de modelos (obtención de isosuperficies), y operaciones de visualización. 

En este capítulo se estudia el primer paso, la captación de los datos volumétricos 

para aplicaciones médicas 1 . La captación se realiza mediante dispositivos de hardware 

que muestrean ciertas propiedades en el cuerpo de los pacientes y producen 

múltiples “rodajas” bidimensionales de información. Los datos muestreados dependerán 

de la técnica de adquisición empleada. 

La Tomografía Computerizada (TC) mide la variación espacial del coeficiente de 

atenuación de los rayos-x. Las imágenes tomográficas muestran la estructura interna 

del cuerpo. Para aplicaciones 3D, la TC se usa normalmente para mirar la estructura 

de los huesos, pero también sirve para ver tejidos blandos, como se verá a lo largo 

del proyecto. 

La Resonancia Magnética (RM) mide, principalmente, tres propiedades físicas. 

Una propiedad es la distribución de los núcleos móviles de hidrógeno, Las otras 

dos propiedades miden los tiempos de relajación del núcleo. La imágenes obtenidas 

mediante RM muestran un excelente contraste entre distintos tejidos blandos. 

Finalmente, los ultrasonidos se basan en generar ondas acústicas (ultrasonidos) 

hacia el interior de la zona a explorar, midiendo los ecos recibidos. Los transductores 

usados hoy en día, permiten realizar barridos electrónicos de la zona de estudio sin 

necesidad de moverlos mecánicamente. 

1 La información necesaria para la realización de este capítulo ha sido obtenida de [1]. 

5

Figura 2.1: Dibujo esquemático de una instalación de TC. Consta de (1) consola de 

control, (2) soporte de la grúa, (3) mesa del paciente (4) soporte para la cabeza (5) 

impresor de imagen láser. 

2.2. Tomografía Computerizada 

2.2.1. Instrumentación 

El desarrollo de la tomografía computerizada (TC) a principio de los años 70 

revolucionó la radiología médica, ya que por primera vez se pudo obtener imágenes 

tomográficas (secciones axiales) de alta calidad de las estructuras internas del cuerpo. 

La sofisticación técnica ha aumentado enormemente desde entonces y hoy en día, la 

tomografía computerizada continúa madurando. 

Las imágenes se reconstruyen a partir de un gran número de medidas de la transmisión 

de rayos-x a través del paciente (datos proyectados). Las imágenes resultantes 

son “mapas” tomográficos del coeficiente de atenuación lineal de los rayos-x. 

La tarea fundamental de los sistemas de TC es hacer un número extremadamente 

alto (sobre quinientas mil) de medidas muy precisas de la transmisión de los rayos-x 

a través del paciente. Estas medidas deben ser realizadas sobre una geometría muy 

exacta y controlada. En la Fig. 2.1 se muestra un típico escáner moderno y en la 

Fig. 2.2 aparecen algunas imágenes tomográficas. Un sistema básico, generalmente 

consta de grúa, mesa de paciente, consola de control y ordenador. La grúa, a seu 

vez, consta de fuente de rayos-x, detectores de rayos-x y el sistema de adquisición 

de datos (SAD). 

6

Figura 2.2: Imágenes típicas de TC de (a) cerebro, (b) cabeza con las órbitas, (c) 

pecho con los pulmones y (d) abdomen. 

7

Figura 2.3: Cuatro generaciones de escaners para TC, mostrando las geometrías de 

haz paralelo y en abanico. 

Tipos de Geometría para la Adquisición de Datos 

Los datos proyectados se pueden adquirir mediante varias geometrías, que se describen 

a continuación. Estas geometrías dependen de la configuración de exploración 

(scanning), movimientos de exploración y estructura del detector. La evolución de 

estos sistemas se describe en términos de “generaciones”, como se muestra en las 

Figs. 2.3 y 2.4 y muestra su evolución histórica. Actualmente se usan escáners de 

3. a , 4. a y 5. a generación, cada uno con sus pros y contras. 

Primera Generación: Geometría de Haz Paralelo 

Es la más simple técnicamente y la más sencilla para entender los principios 

de TC. Se usa un solo lápiz para el haz de rayos-x y un solo detector. El 

haz se traslada de forma lineal a través del paciente para obtener un perfíl de 

proyección, como se puede ver en la Fig. 2.3. A continuación, se rotan la fuente 

y el detector sobre el isocentro del paciente un ángulo de 1 o y se procede de 

la misma forma. Este movimiento de traslación y rotación se repite, hasta que 

fuente y detector se han movido 180 o . Tiene un excelente rechazo de radiación 

8

dispersa en el paciente, pero el complejo movimiento de exploración hace que 

el escaneado sea muy lento (aprox. 5 minutos). 

Segunda Generación: Haz en Abanico, Múltiples Detectores 

El tiempo de exploración se reduce a aproximadamente 30 s con el uso de 

haz de rayos-x en abanico y un array lineal de detectores. Aún se usa un 

movimiento traslación-rotación; sin embargo, se pueden hacer incrementos de 

rotación mayores. Los algoritmos de reconstrucción son más complicados que 

los de la primera generación, debido a la proyección en abanico. 

Tercera Generación: Haz en Abanico, Detectores Rotatorios 

Un haz de rayos-x en abanico se rota 360 o alrededor del isocentro. No hay 

movimiento de traslación, por lo que el haz debe ser lo suficientemente ancho 

para contener completamente al paciente. Se usa un array de detectores 

curvado, formado por cientos de detectores independientes acoplados mecanicamente 

a la fuente, por lo que rotan juntos. Como consecuencia, se adquieren 

los datos de una imagen en 1 s. Rechazan mejor la radiación dispersa, ya que 

tienen finas capas de tungsteno entre cada dos detectores y se enfocan a la 

fuente de rayos-x. 

Cuarta Generación: Haz en Abanico, Detectores Fijos 

La fuente con el haz en abanico rota alrededor del isocentro, mientras que el 

array de detectores permanece fijo y rodea completamente al paciente. Los 

tiempos de escaneado son similares a los de la tercera generación. Los detectores 

no están acoplados a la fuente. 

Quinta Generación: Exploración por Haz de Electrones 

El array de detectores permanece estacionario, mientras un haz de electrones 

barre electrónicamente un ánodo de tungsteno con forma semicircular, como 

se muestra en la Fig. 2.4. Se producen rayos-x en el punto en el que el haz 

de electrones incide sobre el ánodo. Como resultado, se produce una fuente de 

rayos-x que gira sobre el paciente sin partes móviles. Los datos proyectdos se 

pueden adquirir en 50 ms, lo cual es suficiente para obtener, por ejemplo, una 

imagen del corazón sin artefactos de movimiento. 

Escaneado Espiral/Helicoidal 

Mediante este tipo de escaneado se obtienen tiempos de exploración menores, 

en especial si lo que queremos –como ocurre en nuestro caso– son escaneados 

múltiples para obtener imágenes en tres dimensiones. Son sistemas de escaneado 

espirales, como se muestra en la Fig. 2.5. Los sistemas de tercera y cuarta 

generación consiguen esto mediante canales en forma de anillo sobre los que 

rota la grúa. Proporcionan alimentación al sistema y permiten una rotación 

continua y un movimiento suave de la fuente de rayos-x. Se adquieren múltiples 

imágenes mientras el paciente se mueve a través de la grúa. Esto permite 

un movimiento continuo, en lugar de parar en la adquisición de cada imagen. 

9

Figura 2.4: Esquema de un escáner ultrarrápido de quinta generación. La imagen se 

adquiere en 50 ms por el barrido electrónico del ánodo. 

Se puede obtener de esta forma una “rodaja” por segundo. Los algoritmos de 

roconstrucción son más complicados, ya que deben tener en cuenta el camino 

espiral recorrido por la fuente de rayos-x. 

Sistema de Rayos-X 

El sistema de rayos-x consta de fuente de rayos-x, detectores y sistema de adquisición 

de datos. 

Fuente de Rayos-X 

Produce los rayos-x acelerando un haz de electrones sobre un blanco, que es el 

ánodo. El área del ánodo desde el que se emiten los rayos-x, proyectándolos a 

lo largo de la dirección del haz, se llama zona focal. Se usa un colimador para 

controlar el ancho del haz en abanico, entre 1.0 y 10 mm. Mediante este haz 

se controla el tamaño de las “rodajas”. 

La intensidad del haz de rayos-x disminuye por los fenómenos de atenuación y 

dispersión, al pasar por el cuerpo del paciente. El grado de atenuación depende 

del espectro de energía de los rayo-x, así como del número atómico medio y 

densidad de los tejidos del paciente. La intensidad transmitida está dada por 

∫ L 

I t = I 0 e 

µ(x)dx 0 (2.1) 

donde I 0 e I t son las intensidades del haz incidente y transmitido, respectivamente; 

L es la longitud de la trayectoria de los rayos; y µ(x) es el coeficiente de 

atenuación lineal de los rayos-x, que varía con el tipo de tejido y por tanto es 

10

Figura 2.5: El escaneado en espiral provoca que el punto focal siga una trayectoria 

espiral alrededor del paciente. 

una función de la distancia x a través del paciente. La integral del coeficiente 

de atenuación es, por tanto 

∫ L 

0 

µ(x)dx = − 1 L ln ( It 

I 0 

) 

(2.2) 

El algoritmo de reconstrucción requiere medidas de esta integral a lo largo 

de muchos caminos del haz en abanico, en cada uno de los muchos ángulos 

alrededor del isocentro. El valor de L es conocido, y I 0 se determina por el 

sistema de calibración. Por tanto, el valor de la integral a lo largo de cada 

camino se pueden calcular a partir de las medidas de I t 

Detectores de Rayos-X 

Los detectores de rayos-x deben poseer las siguientes características: 

• Alta eficiencia total, para minimizar la dosis de radiación sobre el paciente. 

• Alto rango dinámico. 

• Ser muy estables con el tiempo. 

• Ser insensibles a las variaciones de temperatura dentro de la grúa. 

Hay tres factores que contribuyen a la eficiencia del detector: 

11

Eficiencia geométrica: área de los detectores sensible a la radiación, como 

fracción del área total expuesta. Si se ponen finas superficies entre los 

detectores para reducir la radiación dispersa, esta eficiencia disminuye. 

Eficiencia cuántica: fracción de los rayos-x incidentes que son absorbidos y 

contribuyen a la señal medida. 

Eficiencia de conversión fracción entre la señal eléctrica obtenida a la salida 

y la señal de rayos-x en el detector. 

La eficiencia total es el producto de las tres anteriores y suele estar entre 

0.45 y 0.85. Un valor menor de 1 indica un detector no ideal y produce un 

incremento en la dosis de radiación que sufre el paciente, si se quiere mantener 

la calidad de la imagen. 

Los sistemas comerciales modernos usan uno de estos dos tipos de detectores: 

Detectores de estado sólido: Constan de un array de critales centelleantes 

y fotodiodos. Los cristales centelleantes son de tungstenato de cadmio 

(CdWO 4 ) o materiales cerámicos de tierras raras. Generalmente tienen 

una muy alta eficiencia cuántica y eficiencia de conversión, y un gran 

rango dinámico. 

Detectores de gas ionizado: Están formados por un array de cámaras que 

contienen gas a alta presión (normalmente xenón a más de 30 atm.) separadas 

por finas paredes de tungsteno. Se aplica un alto voltaje a superficies 

alternas, para recoger los iones producidos por la radiación. Estos detectores 

tienen una gran estabilidad y gran rango dinámico; sin embargo 

suelen tener menor eficiencia cuántica que los de estado sólido. 

Sistema de Adquisición de Datos (SAD) La fracción I t /I 0 a través de 

un paciente obeso puede ser menor de 10 −4 . Por tanto, el DAS debe medir 

con precisión I t , sobre un rango de más de 10 4 , codificar los resultados a 

valores digitales y transmitirlos al sistema de reconstrucción. La mayoría de los 

DAS constan de preamplificadores de precisión, conversores corriente–voltaje, 

integradores analógicos, multiplexores y conversores analógico–digital. En la 

Fig. 2.6 se muestra un esquema. La conversión logarítmica requerida en la 

Eq. (2.2) se realiza con un conversor logarítmico analógico o bien con una 

tabla de traducción digital, según el fabricante. 

La tasa media de transferencia al sistema informático es del orden de 10 Mbytes/s 

para algunos escáners. Esto se puede conseguir mediante conexiones directas, 

en los sistemas con un array de detectores fijo. En los sistemas de tercera 

generación, se usan sistemas más sofisticados, como transmisores ópticos. 

Sistema informático Los sistemas pueden variar dependiendo del fabricante, 

pero un esquema típico se muestra en la Fig. 2.7. Usa 12 procesadores independientes 

conectados por un multibus de 40 MBytes/s. Se usan procesadores 

12

Elemento 

detector 

Transductor 

I-V 

Integrador 

Multiplexor 

ADC 

al ordenador 

Figura 2.6: El sistema de adquisición de datos convierte la señal eléctrica producida 

en cada detector a un valor digital en el ordenador. 

en array para conseguir una velocidad conjunta de 200 MFLOPS (millones de 

operaciones en punto flotante por segundo) y un tiempo de 5 s para reconstruir 

una imagen de 1024 × 1024 pixels. Se usa un sistema operativo UNIX simplificado 

para proporcionar multitarea y entorno multiusuario. De esta forma se 

pueden coordinar todas las tareas. 

2.2.2. Principios de Reconstrucción: Proyección de los Datos 

a la Imagen 

El gran impacto de la TC creó un considerable interés en los aspectos formales 

de la reconstrucción. Hay muchas descripciones de los procedimientos de reconstrucción 

directa. Sin embargo esto queda totalmente fuera de mi estudio. Hay algunos 

manuales destinados a cursos de un año de duracion, que se ocupan únicamente de 

los principios de reconstrucción. Aquí simplemente daré algunas ideas básicas. 

El método estándar de reconstrucción se llama convolución y retroproyección. 

El primer paso del método consiste en convolucionar la proyección –un conjunto 

de transmisiones hechas a lo largo de líneas paralelas en el plano de la rodaja– 

con un kernel derivado de la transformada inversa de Radon. La elección del kernel 

está determinada por los problemas relacionados con la limitación del ancho de 

banda. Se puede modificar para tener en cuenta la apertura física del sistema TC, 

y se pueden incluir efectos de dispersión. 

El siguiente paso es retroproyectar a una matriz bidimensional (la imagen que 

queremos obtener) la proyección convolucionada. La retroproyección es el proceso 

opuesto a proyección. El valor de la proyección se suma a cada punto a lo largo 

de la línea de la proyección. Este procedimiento tiene sentido en una descripción 

continua, pero para matrices discretas, la suma se debe hacer sobre la matriz de la 

imagen. El problema es que muy pocas, o ninguna línea intersecta cada punto de la 

matriz. Por eso, para estimar el valor de proyección que se debe añadir a un punto, 

se interpolan dos valores muestreados de la proyección convolucionada. El esquema 

13

Figura 2.7: El sistema informático controla los movimientos de la grúa, adquiere la 

medida de las transmisiones de rayos-x, y reconstruye la imagen final. El sistema 

mostrado aquí usa 12 CPUs de la familia 68000 (Cortesía de Picker International, 

Inc.). 

14

de interpolación lineal es sensiblemente mejor que el de elegir la proyección más 

cercana al punto de la matriz. No se usan esquemas de interpolación más complejos, 

pues son incompatibles con la elección del kernel, que se suele hacer para realizar 

cierto tratamiento sobre la imagen, como por ejemplo realce de bordes. 

Se han desarrollado escáners para adquirir un conjunto tridimensional de datos 

proyectados. Como ya indiqué anteriormente, el movimiento de la fuente define una 

espiral relativa al paciente. El movimiento en espiral define un eje. Como consecuencia, 

sólo se dispone de una proyección para la reconstrucción de los valores de 

atenuación en el plano. Éste es el mismo problema de la imagen bidimensional y la 

solución es idéntica: un valor de proyección se interpola a partir de los valores de 

proyección existentes, para estimar las proyecciones necesarias para reconstruir cada 

plano. Este procedimiento tiene la ventaja de que las rodajas superpuestas pueden 

ser reconstruidas sin una exposición adicional, lo cual elimina el riesgo de que una 

pequeña lesión se pierda a causa de que se extienda a ambos lados de rodajas adyacentes. 

Los escáners en espiral han hecho posible la adquisición de un conjunto 

completo de datos de una sola pasada. 

2.3. Resonancia Magnética 

2.3.1. Adquisición y Procesado 

La Resonacia Magnética (RM) es un método de adquisición de imágenes 

médicas muy importante, debido a su excepcional contraste entre tejidos blandos. 

Al igual que la tomografía computerizada, se inventó a principios de los años 70. 

El primer escáner comercial apareció, sin embargo, diez años después. Durante los 

años 80 sólo se encontraban en algunos centros de investigación de Estados Unidos. 

Sin embargo, hoy en día hay escáners en los departamentos de radiología de muchos 

hospitales de todo el mundo, capaces de obtener imágenes para el diagnóstico de 

la anatomía interna del cuerpo humano. Estudios no invasivos mediante RM están 

sustituyendo a muchos procedimientos convencionales invasivos. Un estudio de 1990 

mostró que las principales aplicaciones de las RM son: la exploración de la cabeza 

(40 %), la espina dorsal (33 %), huesos y articulaciones (17 %), y el tronco (10 %). El 

porcentaje de huesos y articulaciones ha crecido desde entonces. En 1991, había más 

de dos mil ochocientos escáners de RM en funcionamiento en todo el mundo y se 

hacían más de seis millones de escáners al año. Estas cifras han aumentado mucho 

desde entonces. 

Aunque la duración típica de un escáner varía entre 1 y 10 minutos, las nuevas 

técnicas permiten la adquisición de imágenes en menos de 50 ms. La investigación en 

RM tiene que tener en cuenta los compromisos entre resolución, rapidez y relacion 

señal a ruido (SNR). 

15

Los escáners de RM usan la técnica de resonancia magnética nuclear para inducir 

y detectar una señal de radiofrecuencia, que es la manifestación del magnetismo nuclear. 

El término magnetismo nuclear se refiere a propiedades magnéticas débiles 

que exhiben algunos materiales, como consecuencia del spin nuclear asociado con 

el núcleo de sus átomos. En particular, el protón, que es el núcleo del átomo de 

hidrógeno, posee un spin distinto de 0 y es una excelente fuente de señales de RM. El 

cuerpo humano cotiene un número enorme de átomos de hidrógeno –especialmente 

en el agua (H 2 O) y moléculas de lípidos. Aunque se pueden obtener señales biológicamente 

importantes a partir de otros elementos químicos del cuerpo, como el 

fósforo y el sodio, la gran mayoría de los estudios clínicos de RM se basan en los 

protones del hidrógeno del paciente. 

Fundamentos de Resonancia Magnética 

La resonancia magnética explota la existencia de un magnetismo nuclear inducido 

en el paciente. Los materiales con un número impar de protones o neutrones 

tienen un momento magnético nuclear, que aunque es pequeño, es observable. Las 

imágenes normalmente se obtienen de los protones ( 1 H), aunque también tienen 

interés el carbono ( 13 C), fósforo ( 31 P), sodio ( 23 Na) y flúor ( 19 F). Los momentos 

nucleares están normalmente distribuidos de forma aleatoria, pero cuando se sitúan 

bajo un campo magnético intenso, se alinean. Las intensidades típicas de campo 

magnético varían de 0.2 a 1.5 T. La magnetización nuclear que se produce es muy 

débil comparada con el campo magnético aplicado (del orden de 4 × 10 −9 ). A la 

colección de momentos nucleares se le suele llamar magnetización o spins. 

El momento magnético nuclear es demasiado débil para poder ser medido cuando 

está alineado con el campo magnético estático. Mediante técnicas de resonancia, este 

débil momento puede ser medido. La idea es medir el momento mientras oscila en un 

plano perpendicular al campo estático. Cuando el momento es perpendicular a este 

campo, sufre un par de torsión proporcional a la intensidad del campo estático. El 

par es siempre perpendicular a la magnetización, y provoca que los spins oscilen en 

un plano perpendicular al campo estático. La frecuencia de la rotación ω 0 , llamada 

frecuencia de Larmor, es proporcional a la intensidad del campo: 

ω 0 = −γB 0 (2.3) 

donde γ es la relación giromagnética, una constante específica del núcleo, y B 0 la 

intensidad del campo magnético estático. La dirección de B 0 define el eje z. 

Para poder observar esta oscilación, tenemos que desviar la magnetización de 

la dirección del campo estático. Esto se consigue con un campo de radiofrecuencia 

(RF) rotatorio débil. Se puede demostrar que un campo de este tipo introduce un 

campo ficticio en la dirección z de intensidad ω/γ. Sintonizando la frecuencia de 

este campo de RF a ω 0 , de forma efectiva borramos el campo B 0 . El campo de RF 

va desviando lentamente la magnetización del eje z. 

16

Como los momentos de oscilación constituyen un flujo variable con el tiempo, 

producen un voltaje, que puede ser medido en un antena acoplada para medir las 

componenetes x e y de la inducción. La señal obtenida de la resonancia magnética 

nuclear del cuerpo humano se debe, fundamentalmente, a los protones del agua. Como 

estos protones están en entornos magnéticos idénticos (moléculas de H 2 O), todos 

resuenan a la misma frecuencia, con lo que la señal es simplemente proporcional al 

volumen de agua. La innovación clave para RM es imponer variaciones espaciales 

al campo magnético para distinguir los spins por su localización. Aplicando un gradiente 

de campo magnético, se produce una oscilación en cada región del volumen 

a distinta frecuencia. El campo no uniforme más efectivo consiste en un gradiente 

lineal, donde el campo y la frecuencia resultantes varían linealmente con la distancia 

a lo largo del objeto estudiado. Como veremos a continuacion, mediante un análisis 

de Fourier de la señal, se obtiene un mapa de la distribución espacial de los spins. 

Análisis del k-Espacio de Adquisición de Datos 

En RM lo que recibimos e una integral de volumen de un array de osciladores. 

Si nos aseguramos de que la fase de cada oscilador sea única, podemos asignar 

una única localización a cada spin y por tanto reconstruir la imagen. Durante la 

recepción, el campo magnético aplicado apunta en la dirección z, mientras que los 

spins oscilan en el plano xy a la frecuencia de Larmor. Por tanto, un spin en la 

posición r = (x, y, z) tiene una fase única θ, que describe un ángulo relatico al eje y 

en el plano xy: 

θ(r, t) = −γ 

∫ t 

0 

B z (r, τ)dτ (2.4) 

donde B z (r, τ) es la componente z de la densidad instantánea local de flujo magnético. 

En esta fórmula se asume que no hay componentes de campo en x e y. 

Una bobina suficientemente grande para recibir el flujo variante con el tiempo, 

de forma uniforme de todo el volumen, produce una señal proporcional a 

s(t) ∝ d dt 

∫ 

V 

M(r)e −jθ(r,t) dr (2.5) 

donde M(r, t) es la densidad del momento de equilibrio en cada punto r. 

La idea clave de la reconstrucción es suponer que el campo estático B 0 tiene 

variación lineal. Este campo apunta en la dirección z y varía en alguna dirección. 

En general este campo es (xG x +yG y +zG z )ẑ, o de forma compacta: G · rẑ. Además, 

estas componentes pueden variar con el tiempo, con lo que el campo total es 

Con este gradiente, la señal recibida es 

s(t) ∝ d dt 

B z (r, t) = B 0 + G(t)·r (2.6) 

∫ 

V 

e −jγB 0t M(r)e −jγ ∫ t 

0 G(τ)·rdτ dr (2.7) 

17

La frecuencia central γB 0 es siempre mucho mayor que el ancho de banda de la 

señal, por lo que se puede aproximar la derivación por una multiplicación por −jω 0 . 

Demodulando, la señal en banda-base es 

∫ 

∫ 

S(t) ∝ −jω 0 M(r)e −jγ t 

G(τ)·rdτ 0 dr (2.8) 

Si defino el término k(t) como: 

V 

k(t) = γ 

∫ t 

o 

G(τ)dτ (2.9) 

puedo reescribir la señal en banda base como 

∫ 

S(t) ∝ −jω 0 M(r)e −jk(t)·r dr (2.10) 

V 

que se puede identificar cono la transformada de Fourier espacial de M(r) evaluada 

en k(t). Esto se puede escribir como: 

S(t) ∝ ˆM(k(t)) (2.11) 

donde ˆM(k) es la transformada de Fourier tridimensional de la distribución en el 

objeto M(r). Por tanto podemos ver la RM con un gradiente lineal como una exploración 

del k-espacio o de la transformada de Fourier de la imagen. Una vez escaneada 

la parte del k-espacio deseada, se obtiene la imagen M(r) mediante la transformada 

de Fourier inversa. 

Mecanismos de Contraste 

La tremenda utilidad de la RM es debida a la gran variedad de mecanismos 

que se pueden usar para crear una imagen de contraste. Si las imágenes sólo se 

pudieran obtener a partir de la densidad de agua, las resonancias magnéticas serían 

mucho menos útiles, ya que muchos tejidos aparcerían idénticos. Afortunadamente se 

pueden usar muchos mecanismos de contraste para distinguir los diferentes tejidos. 

Los principales mecanismos usan la relajación de la magnetización. A continuación 

describo los dos tipos de relajación: 

Relajación de spin-red, T 1 : velocidad de recuperación de la componente z 

de magnetización hacia el equilibrio, después de ser polarizado por los pulsos 

de RF. La recuperación está dada por 

M z (t) = M o (1 − e −t/T 1 

) + M z (0)e −t/T 1 

(2.12) 

donde M 0 es la magnetización de equilibrio. Diferencias en la constante de 

tiempo T 1 se pueden usar para obtener el contraste de la imagen. En la parte 

izquierda de la Fig. 2.8 se puede ver la recuperación de dos componentes T 1 

diferentes. La componente con T 1 menor se recupera más rápido y produce 

más señal. 

18

Figura 2.8: Los dos mecanismos principales de contraste en resonancias magnéticas, 

T 1 y T 2 . 

Relajación spin-spin, T 2 : velocidad de decaimiento de las componentes 

transversales de la magentiazación (M x y M y ), después de ser creadas. La 

señal es proporcional a la magnetización transversal y viene dada por 

M xy (t) = M xy (0)e −t/T 2 

(2.13) 

La imagen de contraste se obtiene retrasando la adquisición de datos. En la 

parte derecha de la Fig. 2.8 se muestra el decaimiento de dos componentes T 2 

diferentes. La señal de la componente con T 2 menor decae más rápidamente. 

En el momento de recoger los datos, la componente con T 2 mayor produce más 

señal 

En la Fig. 2.9 aparecen ejemplos de estos dos tipos básicos de contraste. Estas 

imágenes son de la misma sección del cerebro. La imagen de la izquierda está obtenida 

a partir de T 1 . El anillo exterior brillante es de grasa (materia blanca), que tiene 

un menor T 1 que la materia gris. La imagen de la derecha está obtenida a partir de 

T 2 . El fluido cerebroespinal de los ventrículos es más brillante, debido a su mayor 

T 2 . La materia blanca tiene un menor T 2 que la materia gris, por lo que aparece más 

oscura en la imagen. 

Además de estos métodos básicos para obtener contraste, se pueden introducir 

agentes artificiales. Normalmente se administran de forma intravenosa u oral. Hay 

muchos mecanismos de este tipo, pero los agentes más usuales disminuyen T 1 y T 2 . 

Disminuyendo T 1 se consigue una recuperación más rápida de la señal y una señal 

más alta en una imagen que se base en T 1 . De esta forma, las regiones con el contraste 

realzado se muestran más brillantes con respecto al resto de la imagen. 

19

Figura 2.9: Ejemplos de imágenes de un voluntario normal mostrando el contraste 

T 1 a la izquierda y el T 2 a la derecha. 

2.3.2. Hardware e Instrumentación 

Para realizar una RM en un paciente, se le debe colocar en un entorno en el que 

varios campos magnéticos diferentes se apliquen sobre el mismo de forma simultánea 

o secuencial, como ya se ha visto en el apartado anterior. Todos los escáners utilizan 

un imán de campo estático fuerte, junto con un conjunto sofisticado de bobinas 

de gradiente y bobinas de radiofrecuencia. Las componentes de gradiente y de radiofrecuencia 

deben activarse y desactivarse con un patrón temporal preciso. Se usan 

diferentes secuencias de pulsos para extraer diferentes tipos de datos del paciente. 

Las imágenes de RM se caracterizan por el excelente contraste entre varios tipos 

de tejidos blandos del cuerpo. Además, para pacientes sin cuerpos ferromagnéticos 

extraños en el interior de su cuerpo, la RM es perfectamente segura y puede ser 

repetida, sin peligro, con tanta frecuencia como sea necesaria. Esto proporciona una 

de las principales ventajas de la RM con respecto a los rayos-x convencionales y 

los escáners de tomografía computerizada. La señal usada en RM no es bloqueada 

en absoluto por regiones de aire o hueso dentro del cuerpo, lo cual supone una importante 

ventaja sobre los ultrasonidos. También, al contrario que en el escaneado 

mediante medicina nuclear, no es necesario suministrar materiales radioactivos al 

paciente. 

Fundamentos de Instrumentación para RM 

Hacen falta tres tipos de campos magnéticos –campos principales o campos 

estáticos (B 0 ), campos de gradiente, y campos de radiofrecuencia (RF) (B 1 )– en 

los escáners usados para RM. 

20

Flujos de Datos 

Dominio Digital 

Pulso de Gradiente y RF 

Amplitud y Temporizacion 

Dominio Analogico 

(Ordenador, Almacenamiento Masivo, 

Consolas, Procesador en Array, Red) 

Senales NMR en el 

Dominio del Tiempo 

(Amplificadores de Gradiente y RF, 

Transceptor, Pruebas, Iman) 

Figura 2.10: Dominios digital y analógico en RM. Las RM requieren el intercambio 

de datos y comandos entre estos dos dominios. 

Una implementación satisfactoria de un sistema de RM requiere un flujo de infromación 

bidireccional entre los formatos analógico y digital, como se puede ver en 

la Fig. 2.10. El imán principal, las bobinas de RF y gradiente, y la alimentación de 

los sitemas de RF y gradiente, operan en el dominio analógico. El dominio digital 

se centra en un ordenador de propósito general, usado para proporcionar la información 

de control (patrón temporal y amplitud de los pulsos) a los amplificadores 

de gradiente y RF, para procesar la señal de la RM en el dominio del tiempo y para 

controlar los sistemas de representación y almacenamiento de la imagen. Además, 

el ordenador ofrece funciones variadas de control que permiten al operador, por 

ejemplo, controlar la posición de la mesa del paciente. 

Imanes de Campo Estático 

El imán del campo principal se usa para producir un campo estático intenso en 

toda la región que se va a escanear. Para obtener los resultados deseados, este campo 

debe ser extremadamente uniforme en el tiempo y en el espacio. En la práctica, la 

variación espacial de este campo en toda la zona de escaneado (de alrededor de 40 cm 

de diámetro), debe ser del orden de 1 a 10 partes por millón (ppm). Para conseguir 

estos altos niveles de homogeneidad es necesario un diseño y una fabricación muy 

cuidadosa. La variación temporal del campo debe ser menor de 0.1 ppm/h. 

Actualmente se usan dos unidades de intensidad de campo magnético. El Gauss 

(G) se ha usado tradicionalmente y aún se usa por razones históricas. La Tesla (T) 

es una unidad adoptada más recientemente; se prefiere en general, pues pertenece 

al SI. La tesla es una unidad mucho mayor que el gauss (1 T equivale a 1000 G). 

El campo magnético de la tierra vale sobre 0.05 mT (0.5 G), y el campo de un 

21

imán permanente bastante potente, 0.5 T (5000 G). El campo magnético estático 

de los imanes de los sitemas modernos de RM varían entre 0.5 y 1.4 T. La SNR en 

un escáner de RM crece linealmente con la intensidad de campo magnético, por lo 

que para mejorar la SNR se ha hecho mucho esfuerzo en la obtención de campos 

magnéticos estáticos mayores. 

Los campos magnéticos se pueden conseguir mediante una corriente eléctrica 

o mediante imanes permanentes. En ambos casos, la intensidad de campo decae 

rápidamente al alejarse de la fuente, y no se puede conseguir un campo magnético 

altamente uniforme lejos de las fuentes. Como consecuencia, para conseguir el campo 

magnético uniforme necesario para RM, es necesario rodear, más o menos, al 

paciente con un imán. Por ello, el imán que genera el campo estático debe ser lo 

suficientemente grande para rodear al paciente. Por estas razones, este imán es el elemento 

más importante del sistema, que determina el coste y los resultados obtenidos. 

Se han usado cuatro clases de imanes: imanes permanentes, electroimanes, imanes 

resistivos e imanes de superconductor. 

Imanes Permanentes y Electroimanes. Ambos usan materiales imantados 

para producir los campos que se aplican al paciente. En el caso de usar imán 

permanente, se coloca al paciente en el hueco existente entre los dos polos del 

imán. Los electroimanes usan una configuración similar, pero están hechos de 

materiales magnéticos débiles que se magnetizan al hacer circular corriente 

eléctrica por bobinas enrolladas a su alrededor. La separación entre los polos 

debe ser suficiente para albergar al paciente y a las bobinas de RF y gradiente. 

Los imanes permanentes tienen algunas ventajas: tienen menores efectos de 

bordes y no necesitan corriente para funcionar. Sin embargo, suelen ser muy 

pesados (más de cien toneladas) y pueden producir campos relativamente bajos 

(0.3 T o menos). Además pueden sufrir desviaciones temporales, debido a los 

cambios de temperatura. Actualmente se están usando nuevos materiales más 

ligeros. 

Imanes Resistivos. Son bobinas conectadas a fuentes de corriente continua 

muy potentes (40 a 100 kW). Debido a la resistencia de las bobinas, se calientan 

mucho, por lo que deben ser refrigerados con agua. Actualmente casi no se 

usan, excepto para aplicaciones en las que se usen campos magnéticos muy 

bajos (0.02 a 0.06 T). 

Imanes Superconductores. Desde principio de los años 80, el uso de imanes 

superconductores enfriados a temperaturas criogénicas ha sido la mejor solución 

al problema de producir campos estáticos en los escáners de RM. Como 

se sabe, estos materiales tienen una resistencia nula a temperaturas cercanas 

al 0 absoluto. Si las bobinas hechas de materiales con esta propiedad no tienen 

defectos que interrumpan el flujo de corriente, y se genera una corriente a 

través de las mismas, al juntar los dos extremos de la bobina, se establece 

22

una corriente constante y duradera. Esta corriente permanece inalterable indefinidamente, 

siempre que se mantenga al superconductor por debajo de su 

temperatura de transición. La estabilidad de este tipo de imanes es realmente 

enorme –hay imanes que han funcionado durante años totalmente desconectados 

de las fuentes de corriente y han mantenido el campo magnético constante, 

con variaciones de pocas ppm. Debido a su habilidad para proporcionar 

intensidades de campo muy estables e intensas sin consumo de energía, son 

actualmente los más usados para los imanes principales de los escáners de RM. 

Homogeneidad del campo magnético. La uniformidad necesaria en el campo 

magnético estático sólo se puede conseguir colocando las bobinas en determinadas 

posiciones espaciales. Una espira genera en su eje un campo magnético en la dirección 

de este eje, que se puede expresar como una suma de armónicos esféricos. 

El primer término de la suma es independiente de la posición y es, por lo tanto, 

el campo deseado. Los armónicos superiores son inhomogeneidades espaciales que 

nos estropean la homogeneidad deseada. Estas inhomogeneidades se pueden reducir 

colocando otras bobinas en determinadas posiciones espaciales. Por ejemplo, mediante 

un sistema de seis bobinas se puede eliminar hasta el armónico número 12, 

haciendo a este sistema útil para ser usado en RM. 

En la práctica, la presencia de campos magnéticos externos provoca también 

inhomogeneidades en el campo constante. Por ello se tratan de reducir colocando, 

en determinadas posiciones de la sala de exploración, bobinas (aislamiento activo) o 

imanes permanentes (aislamiento pasivo). Las posiciones de estos imanes se determinan, 

al instalar el sistema, midiendo el campo magnético en la sala. Si se mueve 

un gran objeto cerca de esta sala con materiales magnéticos –como una fuente de 

alimentación– puede ser necesario volver a medir el campo magnético en la sala y 

recolocar el aislamiento. 

Campos Radiados. Un gran imán produce, además, campos en la zona que 

rodea al sistema, no sólo en su interior. Estos campos pueden borrar sistemas de 

almacenamiento informático, como discos y cintas, además de otros elementos como 

tarjetas de crédito. También es un peligro potencial para personas con dispositivos 

implantados, como pueden ser los marcapasos. Como medida de seguridad, se suele 

limitar el acceso a estas zonas (que se suelen extender a una distancia de 10 a 

12 m del centro de un imán de 1.5 T. También se suelen usar aislamientos formados 

por placas metálicas (aislamiento pasivo) o bobinas con la corriente en la dirección 

contraria a la del imán principal (asilamiento activo). 

Bobinas de Gradiente 

Se usan tres campos de gradiente, uno para cada una de las tres direcciones 

del sistema de coordenadas cartesiano, x, y y z, para codificar la información de la 

posición en una señal de RM, y para permitir distinguir la señal proviniente de las 

23

distintas rodajas que forman el volumen. La dirección del campo estático, a lo largo 

del eje del escáner, se toma convencionalmente como eje z y sólo la componente 

cartesiana del campo de gradiente en esta dirección, contribuye significativamente 

al comportamiento resonante de los núcleos. Por tanto, los tres campos de gradiente 

relevantes son B z = G x x, B z = G y y, y B z = G z z. La resonancia magnética se lleva 

a cabo sometiendo al sistema de spins a una secuencia de camnpos de gradiente y 

RF pulsados. Por lo tanto, es necesario tener tres bobinas separadas, una para cada 

dirección, cada una de ellas con un control y una fuente de alimentación independientes. 

Normalmente, la forma más normal de construir las bobinas de gradiente es 

enrollándolas alrededor de una horma cilíndrica, que rodea al paciente y está dentro 

del imán principal. 

Bobinas de Radiofrecuencia 

Las bobinas de radiofrecuencia se usan en los escáners para dos propósitos fundamentales: 

transmitir y recibir señales a la frecuencia de resonancia de los protones 

dentro del paciente. La oscilación ocurre, como hemos visto a la frecuencia de Larmor 

de los protones, que es proporcional a la intensidad del campo magnético estático. 

Las intensidades de campo magnético varían en general de 0.02 a 4 T, por lo que 

las frecuencias varían de 0.85 a 170.3 MHz. Estas frecuencias están en la zona del 

espectro usada para radiodifusión de radio y televisión, por ello los componentes 

electrónicos usados en el transmisor y receptor del escáner son muy parecidos a los 

de radio y televisión. Una diferencia importante entre ambos sistemas, es que las antenas 

de los sistemas de radiodifusión operan en condiciones de campo lejano (están 

separadas muchas longitudes de onda entre sí). Por el contrario, en los escáners, la 

separación entre transmisores y receptores es mucho menor de una longitud de onda, 

por lo que operan en condiciones de campo cercano. En campo lejano, la energía 

del campo electromagnético es compartida por igual entre las componentes eléctrica 

y magnética del campo, mientras que cerca de un dipolo magnético, prácticamente 

toda la energía está en el campo magnético. 

Las bobinas de RF se colocan en el espacio entre el paciente y las bobinas de 

gradiente. Se usan aislamientos conductores justo dentro de las bobinas de gradiente, 

para evitar acoplamiento electromagnético entre las bobinas de RF y el resto del 

escáner. 

Procesado Digital de los Datos 

Un protocolo típico de escaneado, confecciona una secuencia de pulsos de RF y 

gradiente de duración controlada, en intervalos de 0.1 µs. Para conseguir suficiente 

rango dinámico para controlar las duraciones de los pulsos, se usan conversores D/A 

de 12 a 16 bits. La señal de RF a la frecuencia de Larmor se mezcla con un oscilador 

local, como ya vimos, para conseguir una señal en banda base con un ancho de banda 

24

típico de 16 a 32 kHz. El sistema de adquisición de datos (SAD) debe digitalizar la 

señal en banda base a la frecuencia de Nyquist, lo cual requiere muestrear la señal de 

RF en intervalos de 5 a 20 µs. De nuevo es necesario tener suficiente rango dinámico; 

se usan conversores A/D de 16 a 18 bits. La adquisición de datos se realiza a una 

tasa del orden de 800 kBytes/s, y cada imagen puede contener más de 1 MByte de 

datos digitales. Se usa un procesador en array para realizar rápidamente algoritmos 

específicos, como la transformada rápida de Fourier (FFT), usada para convertir 

datos digitales en el dominio del tiempo, al dominio de la imagen. Típicamente las 

imágenes en dos dimensiones se muestran como matrices de 256 × 128 o 256 × 256 o 

512 × 512 pixels. Estas imágenes pueden estar disponibles para ser visualizadas, tan 

solo 1 segundo después de su adquisición. Las imágenes en tres dimensiones requieren 

más procesado y por tanto mayor tiempo entre adquisición y visualización. 

Para cada pixel de la imagen se calcula un valor de brillo, típicamente de 16 

bits de grises –como tenemos en los datos usados para la realización del proyecto– 

y corresponde a la intensidad de señal originada en cada voxel del objeto. Para 

hacer un uso más efectivo de la información contenida en las imágenes, se pueden 

usar técnicas sofisticadas de visualización, como por ejemplo visualización de múltiples 

imágenes al mismo tiempo, visualización secuencial de las imágenes (como en 

el cine) y renderización tridimensional de las superficies anatómicas (que es parte 

del objetivo del proyecto). Estas técnicas, especialmente la última, son intensivas 

computacionalmente y requieren el uso de hardware específico. Las imágenes de RM 

están disponibles como datos digitales, por lo que se hace un gran uso de las redes de 

área local (LANs) para distribuir la información por el hospital; también se pueden 

usar redes de área amplia (WANs), para transmitir las resonancias entre hospitales 

(teleradiología). Esta es una de las posibles líneas futuras de investigación. 

2.4. Ultrasonido 

2.4.1. Transductores 

Un transductor de ultrasonido genera ondas acústicas, convirtiendo energía magnética, 

térmica, o eléctrica a energía mecánica. La técnica más efectiva para ultrasonidos 

médicos usa el efecto piezoeléctrico, que fue demostrado por primera vez por Jacques 

y Pierre Curie en 1880. Aplicaron una presión a un cristal de cuarzo y detectaron una 

diferencia de potencial entre las caras opuestas del material. También descubrieron 

el efecto piezoeléctrico inverso; aplicando un campo eléctrico a través del cristal, se 

induce una deformación mecánica en el mismo. De esta forma, tenemos un transductor 

piezoeléctrico, que convierte una señal eléctrica oscilante en una onda acústica 

y viceversa. Para usos médicos, el material ferroeléctrico más usado es el titanatocirconato 

de plomo (PZT). 

Se han conseguido muchos avances en las imágenes obtenidas con ultrasonidos, 

25

por las innovaciones en la tecnología de los transductores. Una de esas innovaciones 

es el desarrollo de transductores en array lineal. Anteriormente, los sistemas de 

ultrasonidos obtenían una imagen moviendo manualmente el transductor por la 

región de interés. Incluso los escáners más rápidos tardaban varios segundos en 

obtener una imagen, por ello sólo se podían escanear elementos estáticos. Si, por 

el contrario, el haz acústico recorre la región de interés rápidamente, los médicos 

podrían visualizar elementos móviles, como el corazón latiendo. Además, se pueden 

obtener imágenes en tiempo real, permitiendo al médico posicionar inmediatamente 

el transductor y los parámetros del sistema. 

Para conseguir imágenes en tiempo real, se desarrollaron nuevos tipos de transductores 

que direccionan rápidamente el haz acústico. Los transductores en forma 

de pistón, se diseñaron para rotar sobre un eje fijo direccionando de forma mecánica 

el haz ultrasónico. Los arrays lineales secuenciales, se diseñaron para enfocar electrónicamente 

el haz en una región rectangular. Por último, los transductores en array 

lineal de fase, se diseñaron para direccionar y enfocar el haz, electrónicamente, con 

gran velocidad. 

Escaneado con Transductores en Array 

Los transductores en array usan los mismo principios que las lentes acústicas para 

enfocar un haz acústico. En ambos casos se aplican retardos variables a lo largo de la 

apertura del transductor. Sin embargo, en un array secuencial o de fase, los retardos 

se controlan de forma electrónica y pueden cambiar de posición instantáneamente 

para enfocar el haz a diferentes regiones. Los arrays lineales se desarrollaron en 

primer lugar para radar, sonar y radio astronomía. 

Los arrays lineales no tienen partes móviles, como tenían los de pistón y además, 

su enfoque se puede dirigir a cualquier punto del plano de exploración. El sistema 

puede generar una gran variedad de formatos de exploración. Las desventajas de los 

arrays lineales, son debidas a la mayor complejidad y mayor precio de los sistemas. 

Para obtener imágenes de alta calidad, hacen falta arrays de muchos elementos (128 

actualmente y subiendo). Los elementos del array tienen, típicamente, menos de 

un milímetro de lado y cada uno debe tener conexión independiente a su propia 

electrónica de transmisor y receptor. Sin embargo las ventajas son mucho más importantes 

que las desventajas. Además, las mejoras en las técnicas de fabricación de 

transductores y circuitos integrados permiten transductores y escáners más avanzados. 

Enfoque y Direccionado de los Arrays de Fase 

Un transductor de arrays de fase puede enfocar y direccionar un haz acústico en 

una determinada dirección. Repitiendo este proceso más de 100 veces en una región 

bidimensional o tridimensional, se obtiene una imagen a partir de los ultrasonidos. 

La Fig. 2.11a muestra un ejemplo simple de array lineal de 6 elementos, enfocando 

el haz transmitido. Se puede asumir que cada elemento del array es una fuente 

26

Figura 2.11: Enfoque y direccionamiento de un haz acústico usando un array de fase. 

Se muestra un array de 6 elementos (a) en el modo de transmisión y (b) en el modo 

de recepción. 

puntual que radia un frente de onda esférico. En el ejemplo, el elemento superior 

está más alejado del foco, por lo que es excitado primero. El resto de elementos se 

excitan en instantes adecuados para que todos los frentes de onda lleguen al foco 

en el mismo instante. De acuerdo con el principio de Huygens, el frente de onda 

total es la suma de las señales que han llegado de cada fuente. En el punto focal, las 

contribuciones de cada elemento se suman en fase, para producir un máximo en la 

señal acústica. En cualquier otro punto, al menos algunas de las contribuciones se 

suman desfasadas, reduciendo el valor con respecto al máximo. 

Para recibir un eco de ultrasonido, el array de fase funciona al revés. La Fig. 2.11b 

muestra un eco originado en el foco 1. El eco incide en cada elemento del array en un 

instante diferente. Las señales recibidas son retardadas electrónicamente de forma 

que se sumen en fase para un eco originado en el punto focal. Para ecos generados 

en cualquier otro punto, al menos algunas de las señales retrasadas se suman fuera 

de fase, con lo que se reduce la señal recibida con respecto al máximo en el foco. 

En el modo de recepción, el punto focal puede ser dinámicamente ajustado, de 

forma que coincida con el alcance de los ecos que vuelven. Depués de la transmisión 

de un pulso acústico, los ecos iniciales vuelven desde los elementos más cercanos al 

transductor. El escáner enfoca el array de fase, en estos objetivos, localizados en el 

foco 1, en la Fig. 2.11b. A medida que vuelven los ecos de elementos más alejados, el 

escáner enfoca a una mayor profundidad (foco 2 en la figura). Este proceso se llama 

enfoque dinámico en el receptor. 

27

Configuraciones de los Elementos del Array 

La imagen ultrasónica se obtiene repitiendo, muchas veces, el proceso que acabo 

de describir, para explorar una región de tejidos 2D ó 3D. Para una imagen 2D, 

el plano de exploración es la dimensión azimuth; la dimensión de elevación 

es perpendicular al plano de exploración azimuth. La forma de la región escaneada 

está determinada por la configuración de los elementos del array, que se describe a 

continuación y se muestran en la Fig. 2.12. 

Arrays Lineales Secuenciales. Este tipo de arrays suelen tener 512 elementos en 

los escáners comerciales. En cada momento se selecciona una subapertura de 

128 elementos. Como se muestra en la Fig. 2.12a, las lineas de exploración 

están dirigidas perpendicularmente a la cara del transductor. El haz acústico 

se enfoca, pero no se dirige. La ventaja de este esquema es que los elementos 

del array tienen alta sensibilidad cuando el haz se dirige de esta forma. La 

desventaja es que el campo de vista está limitado a una región rectangular 

enfrente del transductor. 

Arrays Curvilíneos. Tienen distinta forma que los arrays lineales secuenciales, 

pero funcionan de la misma forma. En ambos casos, las líneas de exploración 

son perpendiculares a la superficie del transductor. Sin embargo, un array 

curvilíneo explora un campo mayor, debido a su forma convexa, como se muestra 

en al Fig. 2.12b. 

Arrays Lineales de Fase. Los arrays lineales de fase más avanzados tienen 128 

elementos. Se usan todos los elementos para transmitir y recibir cada línea 

de datos. Como se muestra en la Fig. 2.12c, el escáner direcciona el haz de 

ultrasonido en una región con forma de sector en el plano azimut. Los escáners 

de fase exploran una zona significativamente más ancha que el transductor, 

por lo que son adecuados para escanear en vantanas acústicas limitadas, como 

por ejemplo para exploraciones cardiacas, en las que los transductores pueden 

evitar las obstrucciones de costillas y pulmones. Los ultrasonidos no pueden 

explorar a través de hueso y aire. 

Arrays de 1.5D. Este array es similar al array de 2D en su construcción, pero es 

un array 1D en su funcionamiento. Contiene elementos a lo largo de ambas 

dimensiones. Características como enfoque dinámico y correscción de fase se 

pueden implementar en ambas dimensiones, para mejorar la calidad de la 

imagen, pero como tiene un número limitado de elementos en elevación (de 3 a 

9 elementos), no se puede direccionar en esa dirección. La Fig. 2.12d muestra 

un escáner de este tipo. Con este tipo de array también se pueden realizar 

exploraciones secuenciales. 

Arrays de Fase 2D. Tienen un número mayor de elementos en ambas dimensiones. 

Este tipo de arrays pueden enfocar y direccionar el haz acústico en 

28

ambas dimensiones. Usando un procesamiento paralelo en el receptor, un array 

2D puede explorar una región piramidal en tiempo real, para producir una 

imagen volumétrica, como se muestra en la Fig. 2.12e. 

2.4.2. Obtención de Imágenes por Ultrasonidos 

Se conoce, desde hace mucho tiempo, que los tejidos del cuerpo no son homogéneos 

y que las seales que se envían hacia ellos, como por ejemplo pulsos de 

sonido de alta frecuencia, son reflejadas y dispersadas por esos tejidos. La dispersión 

de parte de la energía de la señal incidente hacia otras direcciones, por pequeñas 

partículas, es la causa de que se vea una especie de niebla en las imágenes obtenidas. 

La parte de la energía dispersada que vuelve al transmisor se llama retrodispersión. 

El desarrollo de las imágenes ultrasónicas siguió el mismo proceso que el radar 

y el sonar. Inicialmente sólo se se obtenían respresentaciones con una línea de vista 

(modo A). A continuación, guardando las sucesivas líneas en el tiempo se obtenían 

grabaciones con el movimiento a lo largo del tiempo (modo M). Finalmente, mediante 

un barrido mecánico o electrónico se consiguen imágenes bidimensionales (modo 

B o 2D). El modo A se mostraba en un osciloscopio, el modo M se imprimía en papel 

térmico especialmente sensitivo a la luz, y el modo B, inicialmente, se mostraba en 

televisores como imágenes estáticas. Ahora todos los modos se obtienen en tiempo 

real y se pueden grabar en cintas de vídeo (para estudios en los que el movimiento 

es importante) o películas fotográficas (para estudios en los que son importantes las 

dimensiones de los órganos, pero no el movimiento). 

Desde los primeros sistemas que pudieron mostrar movimiento, se desarrollaron 

aplicaciones para estudiar el corazón, que se debe mover para desarrollar su función. 

Los modos A y M servían para demostrar, por ejemplo, el movimiento de las válvulas, 

como se puede ver en la Fig. 2.13. 

Más tarde, cuando las representaciones en 2D estuvieron disponibles, se aplicaron 

los ultrasonidos, cada vez más, para mostrar los órganos blandos del abdomen en 

obstetricia (Fig. 2.14). En este formato, se ven mejor las dimensiones de los órganos 

y actualmente, como se obtienen imágenes en tiempo real, se pueden aplicar mejor 

a áreas como cardiología, obstetricia, ginecología, optalmología, . . . y se aceptan 

ampliamente como un método de obtención de imágenes aceptado y seguro. 

Fundamentos 

Hablando con precisión, ultrasonido es simplemente cualquier sonido cuya frecuencia 

está por encima del límite del oído humano, que normalmente se toma en 

20 KHz. Sin embargo, como frecuencia y longitud de onda (y por tanto resolución) 

están inversamente relacionados, para obtener imágenes del cuerpo se suelen usar 

frecuencias alrededor de 1.5 MHz, para conseguir una resolución de 1 mm. 

29

Figura 2.12: Configuraciones de los elementos del array y regiones escaneadas por 

el haz acústico. (a)Array lineal secuencial; (b) array curvilíneo; (c) array lineal de 

fase; (d) array 1.5D; (e) Array de fase 2D. 

30

Figura 2.13: Ejemplo de imagen de modo A convertido a modo M de un corazón en 

dos puntos del ciclo cardiaco. (a) Diástole. (b) Sístole. En la sístole las paredes son 

más anchas y la sección ventricular es menor. 

31

Figura 2.14: Representación esquemática de un corazón y como se obtiene la imagen 

2D a partir de la exploración del transductor. 

32

La atenuación de los ultrasonidos aumenta con la frecuencia en los tejidos blandos, 

por eso se debe llegar a un compromiso entre profundidad de penetración que 

se debe conseguir para una determinada aplicación y resolución obtenida. Las aplicaciones 

que requieren gran penetración (cardiología, obstetricia, . . . ), usan típicamente 

frecuencias en el rango de 2 a 5 MHz, mientras que en otras aplicaciones se 

requiere poca penetración, pero alta resolución (optalmología, periferia vascular, testicular, 

. . . ), se usan frecuencias en torno a 20 MHz. Los sistemas de representación 

intraarteriales, requieren resoluciones mayores y usan frecuencias de 20 a 50 MHz, 

y las aplicaciones de laboratorio microscópicas usan frecuencias de 100 e incluso 

200 MHz, para examinar las estructuras intracelulares. 

La distancia d desde el transductor al objeto que causó el eco, está relacionada 

con el tiempo t total, entre el instante de enviar el pulso y el de recibirlo, y la 

velocidad del sonido en ese medio c: 

d = 1 tc (2.14) 

2 

La velocidad del sonido en tejidos corporales blandos varía poco, de 1450 a 1520 m/s. 

Para aproximaciones se puede usar una velocidad de 1500 m/s, que se puede convertir 

a 1.5 mm/µs, una unidad más adecuada. Con esta velocidad, los tiempos necesarios 

para recorrer las distancias más largas (20 cm), están en torno a 270 µs. Para dejar 

que todos los ecos y reverberaciones desaparezcan, hay que esperar varios periodos 

antes de enviar el siguiente pulso, por lo que se pueden usar fecuencias en torno a 

un kiloHertzio. 

La intensidad de la señal recibida S(t) está relacionada con la señal transmitida, 

T (t), las propiedades del transductor, B(t), la atenuación del camino de ida y vuelta 

desde el dispersor, A(t), y la intensidad del dispersor, η(t): 

S(t) = T (t) ⊗ B(t) ⊗ A(t) ⊗ η(t) (2.15) 

donde ⊗ denota la convolución en el dominio del tiempo. Haciendo la transformada 

de Fourier, la convolución temporal se transforma en un producto en el dominio de 

la frecuencia 

Ŝ(f) = ˆT (f) ˆB(f)Â(f)ˆη(f) (2.16) 

Consideraciones Económicas 

La obtención de imágenes mediante ultrasonidos tiene ventajas económicas sobre 

otros métodos, como tomografía computerizada o resonancia magnética. El sistema 

es, típicamente, mucho más barato y no se requiere la preparación específica de las 

instalaciones, como el aislamiento en los rayos-x y tomografía, o el campo magnético 

uniforme necesario para resonancia magnética. La mayoría de los sistemas de ultrasonidos 

pueden transportarse fácilmente de un sitio a otro, de forma que puede 

33

ser compartido por varias salas de exploración o incluso llevarse a la habitación de 

algunos enfermos especialmente graves. 

Los gastos en cada exploración son mínimos, principalmente el gel usado para 

acoplar el transductor a la piel del paciente y la cinta de vídeo o la película para 

realizar la grabación. Estos costes tan bajos hacen que sea preferido sobre otros, 

cuando se pueda usar. El bajo costo también implica que estos sistemas puedan 

encontrarse en clínicas privadas y ser usados sólo ocasionalmente. 

Como un indicador del interés de los ultrasonidos como alternativa a otras modalidades, 

en 1993, en un artículo del Wall Street Journal aparecía que el gasto en EEUU 

en unidades de RM fue aproximadamente de $520 millones, en unidades de CT, $800 

millones, y en sistemas de ultrasonidos, $1000 millones, y las ventas de sistemas de 

ultrasonidos crecen el 15 % al año. 

34

Capítulo 3 

Visualización y Renderización 


La visualización 1 es un campo en el que se está trabajando mucho durante los 

últimos años. Los avances en software y hardware han permitido que se puedan 

visualizar gráficos en prácticamente todos, si no en todos, los sistemas informáticos. 

Incluso los ordenadores personales ofrecen, desde hace ya algún tiempo, hardware 

especializado para gráficos 3D. Además desde que salió Windows95 y OpenGL, 

también hay un API para gráficos 3D. 

La visualización gráfica es una forma de comunicación. Hasta no hace mucho 

tiempo, se usaba la capacidad de los gráficos e imágenes en 2D para transmitir 

información de forma mucho más eficaz, pero las imágenes 3D se usaban en muy 

contadas ocasiones y a menudo en sistemas muy específicos. Ahora, desde hace 

algún tiempo, las cosas están cambiando y las visualizaciones y animaciones de 

imágenes 3D están empezando a ser comunes, e incluso a reemplazar a otras formas 

de comunicación como las palabras, los símbolos matemáticos y las imágenes en 2D. 

La visualización se puede definir como el acto o proceso de interpretar en términos 

visuales o de poner en forma visual 2 . De forma más informal, se puede decir que 

es la transformación de datos o información a imágenes. La visualización está íntimamente 

relacionada con el principal sentido del hombre, la visión, y también con 

el poder de la mente humana. El resultado de todo ello es un medio simple, pero 

muy efectivo de comunicar infomación compleja y voluminosa. 

La visualización hace uso de las habilidades naturales del sistema visual humano. 

Nuestro sistema visual es una parte de nuestro cuerpo muy compleja y al mismo 

tiempo potente. Lo usamos y confiamos en él en casi todo lo que hacemos. Dado el 

entorno en el que vivieron nuestros antepasados, no es sorprendente que se desarrollaran 

ciertos sentidos para ayudarles a sobrevivir. Las representaciones visuales son 

1 La mayor parte de la información necesaria para realizar este capítulo ha sido obtenida de [12]. 

2 Según el Webster’s Ninth New Collegiate Dictionary 

35

más fáciles de entender; no sólo tenemos grandes habilidades para ver en 2D, sino 

que podemos obtener una imagen mental en 3D de un objeto. Esto nos lleva a la 

visualización interactiva, en la que podemos manipular un objeto, el punto de vista, 

rotarlo, . . . , para obtener una mejor idea tridimensional del mismo. 

Ejemplos de Visualización 

La visualización está cambiando de cierta forma la vida de las personas y permitiendo 

cosas que hace tiempo eran inimaginables. La mejor forma de entender lo 

que es la visualización y lo que permite, es mediante algún ejemplo. 

Las técnicas para mostrar imágenes por ordenador se han convertido en una 

herramienta muy importante para la medicina moderna. Esto incluye técnicas 

como la Tomografía Computerizada, la Resonancia Magnética y los Ultrasonidos, 

ya explicadas en el capítulo 2. Estas técnicas usan un proceso de muestreo 

o de adquisición de datos, como ya se vio, para capturar la información de la 

anatomía interna de un paciente vivo. Esta información se encuentra en forma de 

imágenes que forman “rodajas” o secciones transversales del cuerpo del paciente. Estas 

imágenes son similares a las obtenidas con los rayos-x tradicionales. Después de 

obtener los datos y reconstruir estas secciones transversales mediante complicadas 

técnicas matemáticas, normalmente se juntas estas “rodajas”, para formar datos 

volumétricos y completar el estudio. 

Cada sección transversal, adquirida por un sistema de los vistos, está formada 

por un conjunto de valores que representan la atenuación de los rayos-x (CT), la 

relajación de la magnetización del spin del núcleo de hidrógeno (RM), o el eco producido 

por los tejidos (ultrasonido). Estos números se ordenan en una matriz. La 

cantidad de datos es muy grande, y por tanto, difícil o imposible de interpretar en esta 

forma. Sin embargo, si asignamos a estos valores un valor de gris y los mostramos 

por pantalla, aparece una estructura, antes imposible de “ver”. Esta estructura es el 

resultado de la interacción del sistema visual humano con la organización espacial 

de los datos y los valores de intensidades de gris escogidos. Lo que el ordenador representa 

como una serie de números, nosotros lo vemos como una sección transversal 

a través del cuerpo humano, formada por piel, hueso y músculo. 

Si extendemos estas técnicas a tres dimensiones, se consiguen resultados más 

efectivos aún. Las secciones transversales se juntan para formar volúmenes, y estos 

volúmenes se procesan para obtener estructuras anatómicas completas. Usando 

técnicas modernas, podemos ver el cerebro humano completo, el esqueleto, el sistema 

vascular, . . . de un paciente sin necesidad de intervención quirúrgica. Comparando 

por ejemplo una imagen de una radiografía con una visualización de la misma zona 

en 3D, se pueden ver las enormes ventajas y posibilidades de todas estas técnicas. 

Esta capacidad ha revolucionado los diagnósticos médicos modernos, y seguramente 

crezca su importancia a medida que las técnicas de visualización sigan madurando. 

36

Otra aplicación de la visualización es en la industria del entretenimiento. 

Las películas y la televisión producen gráficos por ordenador, para crear mundos 

que no podríamos visitar nunca de otra forma. Por ejemplo en las películas Parque 

Jurásico o la más moderna Bichos, están tan logrados los gráficos, que hay veces 

que nos llegamos a preguntar si realmente son imágenes generadas por ordenador o 

reales. 

Otra popular aplicación de la visualización a la industria del entretenimiento es 

el morphing. El morphing es la transformación, de forma gradual, de un objeto a 

otro. Una aplicaciín común es transformar una cara en otra. El morphing es muy 

efectivo para mostrar los cambios en un diseño, por ejemplo de un coche, de un año 

al siguiente. 

Otra aplicación, mucho más común que la anterior de la visualización, son los 

mapas meteorológicos que vemos todos los días en los telediarios, en los que se usan 

técnicas de gráficos por ordenador para obtener los isovalores o contornos usados 

para representar las isobaras, isotermas, etc. Incluso, alguna vez, se ha creado todo 

un mundo virtual para dar los partes meteorológicos. 

Los primeros usos de la visualización fueron en ingeniería y aplicaciones científicas. 

Desde que se introdujo el ordenador, se empezó a utilizar como herramienta de 

cálculo y simulación de procesos físicos, como por ejemplo, trayectorias en balística, 

movimiento de fluidos, mecánica estructural, . . . A medida que el tamaño de las simulaciones 

crecía, se hizo necesario transformar los resultados en gráficos e imágenes, 

más fáciles de interpretar por el sistema visual humano. De hecho, la visualización 

es tan importante, que antes de que fuera posible pr ordenador, los datos se representaban 

manualmente. Cualquiera que sea la tecnología existente, las aplicaciones 

de la visualización son las mismas, representar los resultados de simulaciones, experimentos, 

datos medidos y de la fantasía; y usar estas imágenes para comunicar, 

entender, y entretener. 

3.2. Procesado de Imagen, Gráficos, y Visualización 

Normalmente hay confusión alrededor de la diferencia entre procesado de imagen, 

gráficos por ordenador y visualización. Se pueden definir como: 

Procesado de Imagen. Es el estudio de imágenes en 2D. Incluye técnicas de 

transformación (como rotar, escalar, . . . ), extracción de información, análisis 

y realce de imágenes. 

Gráficos por Ordenador o renderización. Es el proceso de creación de imágenes 

usando un ordenador. Esto incluye, tanto las técnicas de dibujo “dibujo y pintura” 

en 2D, como las técnicas más sofisticadas de dibujo (o renderización) en 

3D. 

37

Visualización. Es el proceso de exploración, transformación, y visión de datos en 

forma de imágenes, para ganar en comprensión sobre los datos. 

A partir de estas definiciones, podemos ver que hay un solapamiento entre estos 

tres campos. La salida de los gráficos por ordenador o renderización es una imagen, 

mientras que la salida de visualización, a menudo es producida por gráficos 

por ordenador. Algunas veces, los datos de visualización están en forma de imagen, 

o queremos visualizar la geometría de un objeto usando técnicas realistas de 

renderización de gráficos por ordenador. 

En general, distinguimos la visualización de los gráficos por ordenador y del 

procesado de imagen de tres formas. 

1. La dimensionalidad de los datos es 3 o más. Muchos métodos se pueden usar 

también para datos de 2 dimensiones o menos; sin embargo, la visualización 

sirve mejor cuando se aplica a datos de más dimensiones. 

2. La visualización está relacionada con la transformación de los datos. La información 

se crea y modifica repetidamente para mejorar el significado de los 

datos. 

3. La visualización es por naturaleza interactiva, incluyendo al ser humano directamente 

en el proceso de crear, modificar, transformar y ver los datos. 

Otra forma de verlo es que la visualización es una actividad que comprende los 

procesos de exploración y entendimiento de los datos. Esto incluye al procesado de 

imagen y a los gráficos por ordenador, así como el tratamiento y filtrado de los datos, 

la realización del interfaz de usuario, y el diseño de software. 

Como se puede ver en la figura 3.1, el proceso de visualización se centra en los 

datos. En el primer paso, los datos se adquieren de alguna fuente. A continuación, 

los datos se transforman de varias formas, y después se mapean para obtener una 

representación adecuada para el usuario. Finalmente, los datos son renderizados o 

mostrados por pantalla, completando el proceso. A menudo, el proceso se repite a 

medida que los datos se entienden mejor o se desarrollan nuevos métodos. A veces, 

los resultados de la visualización pueden controlar directamente la generación de 

los datos. A esto se le suele llamar control del análisis y es importante para la 

visualización, pues mejora la interactividad de todo el proceso. 

3.3. Renderización 

3.3.1. Introducción 

Los gráficos por ordenador o renderización son el fundamento de la visualización. 

En la práctica, se puede decir que la visualización es el proceso de transformar los 

38

Metodos Computacionales 

- elementos finitos 

- diferencias finitas 

- analisis numerico 

Datos Medidos 

- TC, RM, ultrasonido 

- satelite 

- digitalizador laser 

- stocks / financiero 

Datos 

Transformar 

Mapear 

Mostrar 

Figura 3.1: El proceso de visualización. Los datos de varias fuentes se transforman 

repetidamente para obtener, derivar y resaltar la información. Los datos resultantes 

se mapean al sistema gráfico. 

datos en una serie de primitivas gráficas. A continuación se usan los métodos de 

renderización para convertir estas primitivas en imágenes y animaciones. 

La renderización es el proceso de generación de imágenes mediante un ordenador, 

o el proceso de conversión de datos gráficos a una imagen. Hay muchos 

procesos de renderización, que varían desde los programas de dibujo en 2D hasta las 

técnicas más sofisticadas en 3D. En este apartado me fijaré en las técnicas básicas 

de visualización. 

En la visualización de datos, el objetivo es transformar los datos a datos gráficos, 

o primitivas gráficas, que son renderizadas a continuación. El objetivo de la 

renderización, no es tanto el realismo conseguido, como el contenido de información, 

aunque esto depende, claro está, de la aplicación (en una película, tiene más importancia 

el realismo que el contenido de información). También es interesante conseguir 

representaciones interactivas, en las que podamos interactuar con los datos. 

En este apartado vamos a tratar como interactúan las luces, cámaras, y objetos 

(actores) con el mundo que nos rodea, para después ver como simulamos este proceso 

en un ordenador. 

3.3.2. Fundamentos 

Descripción física de la renderización 

Vamos a ver lo que ocurre cuando miramos un objeto. La fuente de luz (supongamos 

que es el sol), emite rayos de luz en todas las direcciones. Algunos de los rayos 

inciden sobre el objeto que estamos mirando; su superficie absorbe parte de la luz 

39

incidente (según su color, brillo, transparencia, . . . ) y refleja el resto. Parte de esta 

luz reflejada, puede incidir sobre nuestros ojos. Si esto ocurre, vemos el objeto. 

Como es fácil de imaginar, la probabilidad de que un rayo de luz procedente del 

sol, incida sobre un pequéno objeto, en un pequeño planeta como el nuestro y que 

el rayo reflejado incida sobre nuestros pequeños ojos, es extremadamente pequeña. 

La única razón por la que podemos ver es, debido a la enorme cantidad de luz que 

produce el sol. Esto funciona en el mundo físico, pero intentar simularlo con un 

ordenador puede ser muy difícil. Afortunadamente, hay otras formas de afrontar el 

problema. 

Una técnica común y efectiva de renderización tridimensional se llama raytracing 

(trazado de rayos) o ray-casting. La idea básica es simular la interacción 

de la luz con los objetos, siguiendo el camino de cada rayo de luz. Normalmente se 

sigue al rayo en sentido contrario, desde el ojo hacia el mundo para determinar todos 

los puntos donde el rayo incide, y por tanto el ojo puede ver. La dirección del rayo 

es la dirección en la que el ojo está mirando (dirección de vista) incluyendo efectos 

de perspectiva (si se desea). Si el rayo intersecta con un objeto, podemos ver si ese 

punto está siendo iluminado por la fuente de luz. Esto se hace trazando un rayo 

desde el punto de intersección hacia la fuente de luz. Si el rayo intersecta con la luz, 

entonces el punto está iluminado; si intersecta con algo antes de la luz, entonces la 

luz no contribuye a iluminar el punto. Si tenemos más de ua fuente de luz, repetimos 

este proceso para cada una. La contribución de todas las fuentes de luz, además de 

la luz de ambiente dispersa, determina la iluminación o sombra de cada punto. El 

ray-casting sólo sigue los caminos hacia atrás que terminan incidiendo en el ojo, lo 

cual reduce drasticamente el número de rayos que se deben simular. 

A pesar de que el método de ray-casting es el método de renderización más obvio, 

no se usa muy a menudo. Esto no es debido a la bondad del método en sí, sino a que 

es un método bastante lento, a causa de que se suele implementar mediante software. 

Se han desarrollado otras técnicas de renderización que usan hardware dedicado. 

Métodos de Orden de Imagen y Orden de Objeto 

Los procesos de renderización se pueden dividir en dos categorías, según el orden 

en que se realiza el proceso de renderización: 

Métodos que siguen el Orden de Imagen. Funcionan determinando lo 

que le ocurre a cada rayo de luz, uno en cada momento. El ray-casting 

pertenece a este tipo de métodos. Se empieza el algoritmo por una esquina y 

se sigue en orden, primero todos los pixels de la fila; cuando se termina, se 

procede de la misma forma con los de la fila siguiente, y así sucesivamente. 

Una vez que se llega a la esquina opuesta, se termina. 

40

Métodos que siguen el Orden de Objeto. Funcionan renderizando cada 

objeto, uno de cada vez (por ejemplo, el fondo, una silla, una mesa, . . . ), independientemente 

de la posición en la que se encuentren en la escena. Podemos 

hacerlo de atrás hacia delate, de delante hacia atrás, o en un orden arbitrario. 

A estos métodos se les suele llamar poligonales, pues renderizan polígonos. La 

forma de realizar este tipo de renderización se explicará en el apartado 3.3.10. 

Para obtener los polígonos que se renderizan, se usan métodos, como Marching 

Cubes, explicado en el apartado 3.4, empleado para la realización del 

proyecto. 

Cuando se empezaron a representar gráficos por ordenador, se usaron los métodos 

que siguen el orden de los objetos. Inicialmente se usaban monitores vectorizados 

(poco más que osciloscopios), en los que los gráficos se representaban como segmentos 

de línea. Cuando se empezaron a usar los monitores como los que usamos hoy 

en día, se siguió usando la representación de gráficos como una serie de objetos. 

Desde entonces, el hardware se ha hecho mucho más potente y capaz de representar 

primitivas gráficas, mucho más complejas que simples líneas. 

A principios de los años 80, se empezó a ver la renderización desde una perspectiva 

mucho más física y el ray-casting se convirtió en un serio competidor de las 

técnicas de renderización tradicionales, debido en parte a las imágenes tan realistas 

que produce. La renderización por objetos ha mantenido su popularidad debido al 

hardware de gráficos diseñado para renderizar objetos de forma muy rápida. El raycasting 

se suele seguir haciendo sin hardware específico, y por tanto, consumiendo 

mucho más tiempo. 

Renderización de superficie frente a Renderización de Volumen 

Hasta ahora, hemos asumido tácitamente, que cuando vemos un objeto, lo que 

vemos es su superficie exterior y su interacción con la luz. Sin embargo, muchos objetos, 

como nubes, agua y niebla, son translúcidos, o dispersan la luz que pasa a través 

de ellos. Tales objetos no pueden ser renderizados usando métodos que tengan únicamente 

en cuenta las interacciones con la superficie. Para ello tenemos que considerar 

los cambios de propiedades en su interior, para renderizarlos de forma adecuada. 

Estos dos tipos de renderización se llaman respectivamente: renderización de superficie 

(renderizamos la superficie del objeto), y renderización de volumen 

(renderizamos la superficie y el interior del objeto). 

Cuando renderizamos un objeto con técnicas de renderización de superficie, 

modelamos el objeto con la descripción de su superficie, mediante puntos, líneas, 

triángulos, polígonos, . . . , mientras que no describimos su interior. Aunque hay 

técnicas que permiten hacer la superficie transparente o translúcida, hay muchos 

fenómenos que no se pueden simular, sólo renderizando las superficies. Por ejemplo, 

puede interesar para ver los datos interiores en una tomografía computerizada. 

41

La renderización de volumen nos permite ver las inhomogeneidades del interior 

de los objetos. En el ejemplo anterior de la TC, podemos ver, tanto la superficie, 

como el interior de los datos. Se puede extender el método explicado de ray-casting, 

de forma que los rayos no sólo interactúen con la superficie del objeto, sino que 

también lo hagan con su interior. 

Para la realización del proyecto he usado técnicas de renderización de superficie, 

que aunque no son tan potentes como las de volumen, son mucho más rápidas y 

permiten interactuar mejor con los datos. Son las más usadas, en general. 

3.3.3. Color 

El espectro electromagnético visible, para el ser humano, contiene longitudes 

de onda entre 400 y 700 nanómetros. La luz que entra en nuestros ojos (y que 

podemos ver) está compuesta por diferentes intensidades de estas longitudes de 

onda. Diferentes distribuciones de intensidad producen colores distintos. El sistema 

visual humano no hace uso de toda la información contenida en esta distribución 

de intensidades, sino que desaprovecha la mayor parte de la información. En el ojo 

tenemos tres tipos de receptores de color, o conos. Cada tipo es sensible a una zona 

del espectro entre 400 y 700 nm. Los tres conos tienen sensibilidades con forma más 

o menos gaussiana, centradas respectivamente en 419 nm para el azul, 531 nm para 

el verde y 559 nm para el rojo. 

Cualquier color de los que vemos, es codificado por nuestros ojos con estas tres 

respuestas, parcialmente superpuestas. Esto supone una gran reducción de la información 

que realmente llega a nuestros ojos. Como resultado, el ojo humano es 

incapaz de reconocer diferencias entre colores que produzcan las mismas respuestas 

en los receptores del ojo. Esta aparente desventaja, tiene ventajas a la hora de representar 

los colores en un ordenador; podemos representar los colores en un ordenador 

de forma simplificada, sin que el ojo humano distinga la diferencia. 

Los dos sistemas más usuales de describir los colores son el RGB y el HSV. El 

sistema RGB representa los colores basándose en las intensidades de rojo, verde y 

azul. Se puede ver como un espacio tridimensional, siendo los ejes son rojo, verde y 

azul. En la tabla 3.1 se muestran los valores RGB de algunos colores comunes. 

El sistema HSV se basa en el matiz, saturación y valor del color. El valor se 

conoce también como brillo o intensidad, y representa la cantidad de luz que tiene 

el color. Un valor de 0.0 siempre produce color negro, y un valor de 1.0 siempre 

produce algo brillante. El matiz representa la longitud de onda dominante del color. 

El matiz se representa normalmente en un círculo, como se muestra en la Fig. 3.2. 

Cada posición en la circunferencia representa un matiz distinto, y se puede especificar 

con un ángulo. El matiz varía entre 0.0 y 1.0, donde 0.0 corresponde a 0 o y 1.0 a 360 o . 

La saturación indica cuánto del matiz se mezcla con el color. Por ejemplo, poniendo 

el valor a 1.0, obtenemos un color brillante; ponemos el tono a 0.66 para obtener 

42

Cuadro 3.1: Colores comunes en los espacios RGB y HSV. 

Color. RGB HSV 

Negro 0,0,0 *,*,0 

Blanco 1,1,1 *,0,1 

Rojo 1,0,0 0,1,1 

Verde 0,1,0 1/3,1,1 

Azul 0,0,1 2/3,1,1 

Amarillo 1,1,0 1/6,1,1 

Cyan 0,1,1 1/2,1,1 

Magenta 1,0,1 5/6,1,1 

Azul cielo 1/2,1/2,1 2/3,1/2,1 

una longitud de onda dominante de azul. Si la saturación vale 1.0, obtenemos un 

azul primario brillante; si vale 0.5, obtenemos azul cielo (más blanco mezclado); si 

vale 0.0, indica que no hay más de ese color que de cualquier otra longitud de onda, 

con lo que obtenemos blanco, independientemente del valor del matiz. En la tabla 

3.1 se muestran los valores HSV de algunos colores comunes. 

3.3.4. Luces 

Uno de los factores más importante que controlan el proceso de renderización 

es la interacción de la luz con los actores de la escena. Si no hay luces, la imagen 

Verde 120 

Amarillo 60 

Cyan 180 

Rojo 0 

Azul 240 

Magenta 300 

Figura 3.2: Representación circular del matiz. 

43

esultante será negra y no ofrecerá información. En gran medida, lo que define lo 

que vemos es la interacción de la luz emitida con la superficie (y en algunos casos 

con el interior) de los actores en la escena. Cuando la luz incide sobre los actores, 

entonces podemos ver algo a través de la cámara. 

De los muchos tipos de luces que se pueden usar en renderización, usamos el tipo 

más sencillo: fuente de luz puntual y a distancia infinita. Esto es una simplificación 

comparado con las luces que usamos, por ejemplo, en casa. Las fuentes 

de luz a las que estamos acostumbrados radian desde una región del espacio (por 

ejemplo, un filamento). El modelo puntual de luz, asume que la luz es emitida en 

todas las direcciones, desde un punto del espacio. Para una fuente infinita, asumimos 

que está colocada a una distancia infinita de lo que está iluminando. Esto implica 

que los rayos son paralelos, mientras que los rayos emitidos por una fuente local 

no son paralelos. La intensidad de luz emitida por una fuente de luz infinita, permanece 

constante con la distancia a la fuente, mientras que en una fuente local, varía 

según 1/distancia 2 . Esta gran simplificación permite obtener ecuaciones mucho más 

sencillas para la iluminación. 

3.3.5. Propiedades de la Superficie 

A medida que los rayos de luz viajan por el espacio, algunos de ellos intersectan 

con los actores. Cuando esto ocurre, los rayos de luz interactúan con la superficie 

del actor para producir un color. Parte del color resultante no es debido realmente 

a la luz directa, sino que también es debido a la iluminación de ambiente, que se 

refleja o dispersa desde otros objetos. Esto se tiene en cuenta mediante un modelo 

de iluminación de ambiente. Este modelo aplica la curva de intensidad de luz de la 

fuente luminosa al color del objeto, que también se puede expresar como una curva 

de intensidad, como ya vimos. El resultado es el color de la luz que vemos cuando 

miramos al objeto. Con este modelo es importante darse cuenta de que no se puede 

distinguir, por ejemplo, una fuente de luz azul que ilumina un objeto blanco, de una 

fuente de luz blanca que ilumina un objeto azul. La ecuación de la iluminación de 

ambiente es 

R c = L c · O c (3.1) 

donde R c es la curva de intensidad resultante, L c la curva de intensidad de la luz, y 

O c la curva de color del objeto. Para simplificar las ecuaciones suponemos que todos 

los vectores de dirección están normalizados. 

Dos componentes del color resultante dependen de la iluminación directa: La 

iluminación difusa y la iluminación especular. 

La iluminación difusa, también conocida como reflexión Lambertiana, tiene 

en cuenta el ángulo de incidencia de la luz en el objeto. Por ejemplo, si una fuente 

de luz incide sobre la superficie lateral de un cilindro, desde nuestra posición, su 

superficie se ve más clara en el centro, y más oscura a medida que nos alejamos 

44

Luz 

Ln 

angulo 

On 

-Ln 

Objeto 

Figura 3.3: Iluminación difusa. 

lateralmente de él. El color de toda la superficie es el mismo, pero la luz que incide 

sobre la superficie del cilindro cambia. En el centro, donde la luz incidente es casi 

perpendicular a la superficie, recibe más cantidad de rayos de luz por unidad de 

área. Al movernos hacia los laterales, esta cantidad disminuye, hasta que la luz 

incidente es paralela a la superficie del cilindro y la intensidad reultante es cero. La 

contribución de la iluminación difusa se muestra en la Fig. 3.3 y se expresa mediante 

la siguiente ecuación 

R c = L c O c [ ⃗ O n · (− ⃗ L n )] (3.2) 

donde R c es la curva de intensidad resultante, L c la curva de intensidad de la luz, 

y O c la curva de color del objeto. La luz difusa, como se dijo, es función del ángulo 

entre el vector de la luz incidente, ⃗ L n y la normal a la superficie ⃗ O n . Por tanto, esta 

luz es dependiente del punto de vista. 

La iluminación especular representa las reflexiones directas de una fuente de 

luz desde un objeto brillante. La potencia especular, O sp , indica lo brillante que es 

un objeto. De forma más concreta, indica la rapidez con que disminuye la reflexión 

especular a medida que el ángulo de reflexión se desvía de la reflexión perfecta. 

Valores mayores indican una caída más rápida, y por tanto, una superficie más 

brillante. La Fig. 3.5 muestra el efecto de la potencia especular. Refiriéndome a la 

Fig. 3.4, la ecuación para la iluminación especular es 

R c = L c O c [ ⃗ S · (− ⃗ C n )] Osp 

⃗S = 2[ ⃗ O n · (− ⃗ L n )] ⃗ O n + ⃗ L n 

(3.3) 

donde ⃗ C n es la dirección de proyección para la cámara y ⃗ S es la dirección de la 

reflexión especular. 

Hemos representado las ecuaciones para los diferentes modelos de iluminación 

de forma independiente. Podemos aplicar los modelos de iluminación de forma si- 

45

Luz 

Ln 

angulo 

On 

-Ln 

S 

-Cn 

Cn 

Camara 

Objeto 

Figura 3.4: Iluminación especular. 

Figura 3.5: Bola iluminada con luz difusa, con reflexión especular en aumento. 

multánea, como muestra la siguiente ecuación, que combina la iluminación de ambiente, 

difusa y especular. 

R c = O ai O ac L c − O di O cd L c ( ⃗ O n · ⃗L n ) + O si OscL c [ ⃗ S · (− ⃗ C n )] Osp (3.4) 

El resultado es el color en un punto de la superficie del objeto. Las constantes 

O ai , O di y O si controlan las cantidades relativas de iluminación de ambiente, difusa y 

especular para un objeto. Las constantes O ac , O dc y O sc especifican los colores usados 

para cada tipo de iluminación. Estas seis constantes, junto con la potencia especular, 

son parte de las propiedades de la superficie del material (hay otras propiedades, 

como transparencia). Diferentes combinaciones de estas propiedades, pueden simular 

desde plástico a metal pulido. Esta ecuación supone fuente de luz puntual e infinita, 

pero se puede extender de forma fácil a otros tipos de iluminación. 

3.3.6. Cámaras 

Tenemos ya rayos de luz emitidos por las fuentes luminosas y actores con propiedades 

en sus superficies. En cada punto de la superficie de cada actor en la escena tenemos 

la interacción con la luz, lo cual produce un color de composición (color producto 

de la combinación de la luz, la superficie del objeto, el efcto especular y el efecto 

de ambiente). Todo lo que necesitamos ahora para renderizar una escena es una 

cámara. Hay un conjunto importante de factores que determinan cómo se proyecta 

46

Vista Superior 

Posicion 

Angulo 

de Vista 

Punto Focal 

Direccion 

de Proyeccion 

Angulo de Corte Delantero 

Angulo de Corte Trasero 

Figura 3.6: Atributos de la cámara. 

la escena 3D sobre un plano para formar la imagen 2D (ver Fig. 3.6). Estos factores 

son la posición, orientación y punto focal de la cámara, el método usado para la 

proyección de la cámara y la localización de los planos de corte. 

La posición y el punto focal de la cámara definen la posición de la cámara y 

el punto al que enfoca. El vector definido desde la posición de la cámara al punto 

focal se llama dirección de proyección. El plano de imagen de la cámara se 

sitúa en el punto focal, y es, normalmente, perpendicular al vector de proyección. La 

orientación de la cámara se controla mediante su posición y punto focal, además 

del vector que indica la vista superior de la cámara. 

El método de proyección controla cómo se “mapean” los actores en el plano 

de la imagen. En proyección ortográfica o paralela, todos los rayos de luz que entran 

en la cámara son paralelos al vector de proyección. La proyección en perspectiva 

ocurre cuando todos los rayos de luz pasan por un punto (punto de vista o centro 

de proyección). Para aplicar una proyección en perspectiva, tenemos que especificar 

un ángulo de perspectiva o ángulo de vista de la cámara. 

Los planos de corte delantero y trasero cortan al vector de proyección, y 

normalmente son perpendiculares a él. Se usan para eliminar datos que están, o bien, 

muy cerca de la cámara, o bien, muy lejos. Como resultado de ello sólo los actores 

o porciones de actores que están entre los dos planos de corte pueden ser visibles. 

Normalmente estos planos son perpendiculares a la dirección de proyección. 

Todos juntos, los parámetros de la cámara definen una pirámide rectangualr, con 

el vértice en la cámara y que se extiende a lo largo de la dirección de proyección. 

Esta pirámide esta truncada por los dos planos de corte. El tronco de pirámide 

de vista define la región del espacio tridimensional visible por la cámara. 

47

Los parámetros de la cámara se pueden manipular directamente, pero hay operaciones 

comunes que hacen el trabajo más sencillo. Si se cambia el azimut de 

una cámara, gira su posición alrededor de su vector de vista superior, centrado en 

el punto focal. Esta operación se puede ver como un movimiento de la cámara a la 

derecha o izquierda, manteniendo la distancia al punto focal constante. Cambiando 

la elevación de la cámara, gira su posición alrededor del producto vectorial de su 

dirección de proyección y vista superior, centrada en el punto focal. Esto corresponde 

a mover la cámara arriba y abajo. Para girar la cámara, giramos el vector de vista 

vertical sobre el vector de plano normal. 

Los siguientes dos movimientos mantienen la posición de la cámara constante 

y modifican el punto focal. Cambiando la guiñada, gira el punto focal sobre la 

vista superior de la cámara, centrada en la posición de la cámara. Es como un 

movimiento de azimut, pero moviendo el punto focal en lugar de la posición de la 

cámara. El movimiento de balanceo, gira el punto focal sobre el producto vectorial 

de la dirección de proyección y la vista superior, centrada en la posición de la cámara. 

Los movimientos de dollying in y dollying out mueven la posición de la cámara 

a lo largo de la dirección de proyección, acercándose o alejándose del punto focal. 

Finalmente el zoom in y zoom out cambian el ángulo de vista de la cámara, de 

forma que en el tronco de pirámide de vista entra más o menos de la escena. 

Una vez que está situada la cámara, podemos generar la imagen en 2D. Algunos 

de los rayos que viajan por el espacio tridimensional, pasan a través de las lentes de 

la cámara. Estos rayos inciden sobre una superficie plana para producir una imagen. 

Este proceso produce la imagen 2D de nuestra escena 3D. La posición de la cámara y 

otras propiedades, determinan qué rayos de luz son capturados y proyectados. Sólo 

los rayos de luz que intersectan con la posición de la cámara, y están dentro del 

tronco de pirámide de vista, afectarán a la imagen resultante. 

3.3.7. Sistemas de Coordenadas 

En renderización se utilizan cuatro sistemas de coordenadas y dos formas distintas 

de representar puntos en los mismos. Aunque esto pueda parecer en principio 

excesivo, cada uno tiene su propósito. Los cuatro sistemas de coordenadas son: modelo, 

mundo, vista y pantalla. 

Sistema de coordenadas del modelo. Es el sistema de coordenadas en el que 

está definido el modelo, típicamente un sistema local de coordenadas Cartesiano. 

Si uno de los actores tiene una forma geométrica más adaptada a otros 

sistemas de coordenadas, como cilíndrico o esférico, estará basado en ellas. 

Esto depende del que genere el modelo. 

Sistema de coordenadas del mundo. Es el espacio 3D en el que se colocan los 

actores. Uno de las responsabilidades del actor es convertir, desde las coordenadas 

del modelo, a las coordenadas del mundo. Cada modelo puede tener 

48

su propio sistema de coordenadas, pero sólo hay un sistema de coordenadas 

del mundo. Para cada actor se debe escalar, rotar y trasladar su modelo al 

sistema de coordenadas del mundo. También puede ser necesario transformar 

sus sistema natural de coordenadas a un sistema de coordenadas local Cartesiano. 

Esto es debido a que los actores típicamente asumen que el sistema de 

coordenadas del modelo es un sistema de coordenadas Cartesiano. El sistema 

de coordenadas del mundo es, además, el sistema en el que se especifica la 

posición y orientación de cámaras y luces. 

Sistema de coordenadas de vista. Representa lo que es visible a la cámara. 

Consiste en un par de valores x e y, que varían entre (-1,1), y una coordenada 

z de profunidad. Los valores x, y especifican una localización en el plano 

de la imagen, mientras que la coordenada z representa la distancia desde la 

cámara. Las propiedades de la cámara se representan por una matriz de 

transformación 4 × 4, que se usa para convertir de las coordenadas del mundo 

a coordenadas de vista. En este punto es donde se introducen los efectos 

de perspectiva de la cámara. 

Sistema de coordenadas de la pantalla. Usa la misma base que el sistema de 

coordenadas de vista, pero en lugar de tener un rango de variación de -1 

a 1, las coordenadas son localizaciones reales de pixels x, y en el plano de la 

imagen. Factores tales como el tamaño de la ventana en la pantalla, determinan 

como se mapea el rango (-1,1) a las posiciones de los pixels. En este punto se 

pueden introducir los puertos de vista. Se puede querer renderizar dos escenas 

diferentes en la misma ventana. Esto se puede hacer dividiendo la ventana en 

dos puertos de vista. A cada renderizador se le dice que porción de la ventana 

debe usar para renderizar. el puerto de vista varía entre (0,1) en ambos ejes x 

e y. 

De forma similar al sistema de coordenadas de vista, el valor z del sistema de 

coordenadas de la pantalla también representa la profundidad en la ventana. 

El significado del valor z se explicará más adelante. 

3.3.8. Transformación de Coordenadas 

Cuando creamos imágenes renderizadas, proyectamos los objetos definidos en 3D 

a un plano de imagen en 2D. Como se ha visto anteriormente, este proceso incluye, 

en general, perspectiva. Para incluir los efectos de proyeccción, tales como puntos de 

desvanecimiento, se usa un sistema de coordenadas especial, llamado coordenadas 

homogéneas. 

La forma usual de representar un punto en 3D es mediante el vector Cartesiano 

de tres elementos (x, y, z). Las coordenadas homogéneas se representan mediante un 

49

vector de cuatro elementos (x h , y h , z h , w h ). La conversión entre coordenadas Cartesianas 

y homogéneas esta dada por: 

x = x h 

w h 

y = y h 

w h 

z = z h 

w h 

(3.5) 

Usando coordenadas homogéneas, se puede representar un punto infinito, poniendo 

w h a cero. Esto lo usa la cámara para transformaciones de perspectiva. Las transformaciones 

se aplican usando una matriz de transformación 4 × 4. Las matrices 

de transformación se usan mucho en renderización, ya que permiten operaciones de 

traslación, escalado y rotación de los objetos, mediante multiplicaciones sucesivas de 

matrices. tales operaciones no se pueden hacer de forma sencilla mediante matrices 

3 × 3. 

Por ejemplo, si queremos crear una matriz de transformación para trasladar 

un punto (x, y, z) del espacio Cartesiano, por el vector (t x , t y , t z ). Sólo tenemos que 

construir la matriz de transformación dada por 

⎛ 

T T = ⎜ 

⎝ 

1 0 0 t x 

0 1 0 t y 

0 0 1 t z 

0 0 0 1 

⎞ 

⎟ 

⎠ 

(3.6) 

y a continuación postmultiplicarla por el vector con las coordenadas homogéneas 

(x h , y h , z h , w h ). Para ello, construimos el sistema de coordenadas homogéneo a partir 

del sistema de coordenadas Cartesiano (x, y, z), poniendo w h = 1, para obtener 

(x, y, z, 1). Para determinar las coordenadas trasladadas (x , , y , , z , ), premultiplicamos 

la posición actual por la matriz de transformación T T , para obtener las coordenadas 

transformadas. Sustituyendo en la Ec. (3.6), obtenemos 

⎛ 

x , ⎞ ⎛ 

y , 

⎜ 

⎝ z , ⎟ 

⎠ = ⎜ 

⎝ 

w , 

1 0 0 t x 

0 1 0 t y 

0 0 1 t z 

0 0 0 1 

⎞ 

⎛ 

⎟ 

⎠ · 

⎜ 

⎝ 

x 

y 

z 

1 

⎞ 

⎟ 

⎠ 

(3.7) 

Convirtiendo de nuevo a coordenadas Cartesianas con la Ec. (3.5), obtenemos la 

solución esperada 

x , = x + t x 

y , = y + t y 

(3.8) 

z , = z + t z 

El mismo procedimiento se usa para escalar y rotar. Para escalar un objeto, usamos 

la matriz de trasnformación 

⎛ 

⎞ 

s x 0 0 0 

0 s 

T S = 

y 0 0 

⎜ 

⎟ 

(3.9) 

⎝ 0 0 s z 0 ⎠ 

0 0 0 1 

50

donde los parámetros s x , s y y s z , son los factores de escala en cada eje. 

De forma similar, se puede rotar un objeto alrededor del eje x con la matriz 

alrededor del eje y 

y alrededor del eje z 

⎛ 

T Rx = ⎜ 

⎝ 

⎛ 

T Ry = ⎜ 

⎝ 

⎛ 

T Rz = ⎜ 

⎝ 

1 0 0 0 

0 cos θ − sin θ 0 

0 sin θ cos θ 0 

0 0 0 1 

cos θ 0 sin θ 0 

0 1 0 0 

− sin θ 0 cos θ 0 

0 0 0 1 

cos θ − sin θ 0 0 

sin θ cos θ 0 0 

0 0 1 0 

0 0 0 1 

⎞ 

⎟ 

⎠ 

⎞ 

⎟ 

⎠ 

⎞ 

⎟ 

⎠ 

(3.10) 

(3.11) 

(3.12) 

Las rotaciones ocurren alrededor del origen de coordenadas. A menudo es más conveniente 

rotar alrededor del centro del objeto, u otro punto cualquiera. Si llamamos 

a este punto O c , para rotar alrededor de él, debemos trasladar, en primer lugar, el 

objeto desde O c al origen, aplicar las rotaciones, y después trasladar el objeto de 

nuevo a O c . 

Las matrices de transfomación se pueden combinar multiplicando matrices, para 

conseguir las combinaciones de traslaciones, rotaciones y escalados. Una sola matriz 

puede representar todos los tipos de transformaciones al mismo tiempo. Esta 

matriz es el resultado de repetidas multiplicaciones de matrices. El orden de multiplicación 

es importante. Por ejemplo, multiplicar una matriz de traslación por 

una matriz de rotación, produce distinto resultado que multiplicar una matriz de 

rotación por una de traslación. 

3.3.9. Geometría de los Actores 

Hemos visto como las propiedades de iluminación controlan la aparienciade un 

actor, y como la cámara, junto con las matrices de transformación se usan para 

proyectar un actor al plano de la imagen. Nos queda definir la geometría del actor, 

y cómo lo colocamos en el sistema de coordenadas del mundo. 

Modelado 

Un elemento importante en el estudio de los gráficos por ordenador es el 

modelado o representación de la geometría de los objetos físicos. Se aplican varias 

51

técnicas matemáticas, como combinaciones de puntos, líneas, polígonos, curvas y 

splines de varias formas, e incluso funciones matemáticas implícitas. Esto queda 

fuera de mi objetivo, pues no lo uso para el proyecto. Lo importante es que hay 

un modelo geométrico que especifica la posición en la que un objeto se coloca en el 

sistema de coordenadas del modelo. 

En visualización de datos, como es mi caso, el modelado tiene un papel distinto. 

En lugar de generar directamente la geometría para representar un objeto, 

los algoritmos de visualización calculan estas formas. A menudo, la geometría es 

abstracta (como una isosuperficie) y tiene poca relación con la geometría del mundo 

real. 

La representación de geometría para visualización de datos suele ser sencilla, 

incluso aunque calcular las representaciones no lo sea. Lo más normal es que estas 

primitivas sean puntos, líneas, y polígonos, o datos de visualización, como datos de 

volumen. Usamos formas sencillas ya que deseamos un funcionamiento rápido y un 

sistema interactivo. Por tanto, usamos técnicas que aprovechan el hardware para la 

renderización o técnicas especiales como renderización de volumen. 

Localización y Orientación de los Actores 

Cada actor tiene su matriz de transformación que controla su posición y escalado 

en el espacio del mundo. La geometría del actor está definida por un modelo en las 

coordenadas del modelo. Especificamos la posición del actor mediante los factores de 

orientación, posición y escala a los largo de los ejes coordenados. Además, podemos 

definir un origen, alrededor del cual rota el actor (por ejemplo, podemos rotarle 

alrededor de su centro, o de otro punto de interés). Como hemos dicho, el orden 

de aplicar las transformaciones es importante, si queremos llegar a los resultados 

deseados. 

3.3.10. Hardware Gráfico 

Anteriormente mencionamos que los avances en hardware gráfico han tenido 

un gran impacto en la forma en que se hace la renderización. En este apartado 

describimos los dispositivos de barrido que han sistituido a las pantallas vectorizadas, 

como dispositivos primarios de salida. Depués se describirá como se comunican los 

programas con el hardware gráfico. También se mostrará los distintos sistemas de 

coordenadas que se usan en gráficos por ordenador, eliminación de superficies y 

líneas ocultas, y z-buffering. 

Dispositivos de Barrido 

Normalmente vemos los gráficos por ordenador en imágenes impresas, o en un 

monitor de ordenador. Otras veces se ven en la TV o en una película. Todos estos 

52

medios son dispositivos de barrido. Un dispositivo de barrido representa una imagen 

usando una matriz bidimensional de elementos gráficos, llamados pixels. 

Debido a las limitaciones del hardware, los dispositivos de barrido, como las 

impresoras láser y los monitores de ordenador, realmente no dibujan pixels en forma 

de cuadrado perfecto, sino que están ligeramente borrosos y superpuestos. Otra 

limitación de hardware de los dispositivos de barrido es su resolución. 

Los monitores de ordenador en color tienen, de forma típica, una resolución de 

80 pixels por pulgada, haciendo de la pantalla una matriz de pixels de aproximadamente 

mil pixels de ancho y de alto. Esto produce alrededor de un millón de pixels, 

cada uno con un valor que indica su color. Como el hardware de los monitores en 

color usa el sistema RGB, tiene sentido usarlo para describir los colores de cada 

pixel. Desafortunadamente, teniendo más de un millón de pixels, cada uno con su 

componente de rojo, verde y azul, puede ocupar mucha memoria. Esto es parte de 

lo que diferencia la variedad de hardware gráfico en el mercado. Algunas compañías 

usan 24 bits para almacenar cada pixel, otros usan ocho, y algunos sistemas avanzados 

usan más de 100 bits para cada pixel. Cuantos más bits usa por pixel, con 

más precisión pueden representarse los colores (y por tanto más colores se pueden 

representar). 

Una forma de afrontar las limitaciones de colores en el hardware gráfico, es 

usando una técnica llamada dithering. Si por ejemplo, se quieren representar varios 

niveles de gris, en un sistema gráfico que sólo soporta blanco y negro, el dithering 

permite aproximar los niveles de gris usando una mezcla de pixels en blanco y negro. 

Desde cierta distancia (aunque sea bastante pequeña), parecen diferentes niveles de 

gris, en lugar de mezcla de pixels blancos y negros. La misma técnica se puede usar 

con otros colores, para obtener colores derivados de los soportados por el hardware 

gráfico. 

Interfaz con el Hardware 

Raramente hay que preocuparse del hardware de la pantalla. La mayoría de la 

programación se hace usando primitivas de alto nivel, en vez de tratar con los pixels. 

En la Fig. 3.7 se muestra la estructura típica de un programa de visualización. En el 

nivel inferior de la jerarquía está el hardware de la pantalla, que ya se ha descrito. 

Lo normal es que los programas no interactúen directamente con este hardware. Las 

tres capas que están por encima son las capas que hay que tener en cuenta al 

programar. 

Muchos programas hacen uso de las ventajas que ofrecen las librerías de aplicación, 

que son un interfaz de alto nivel a las capacidades gráficas del sistema. Vtk 

(Visualization Toolkit) [12] es un ejemplo de librería de aplicación. Permite visualizar 

gráficos complejos, haciendo uso de primitivas sencillas. También funciona 

como interfaz con distintas librerías gráficas, pues las distintas plataformas de hardware 

soportan distintas librería gráficas. 

53

Mi Programa 

Libreria de Aplicacion - vtk 

Libreria grafica 

Hardware Grafico 

Hardware de la Pantalla 

Figura 3.7: Jerarquía típica del interfaz de gráficos. 

Las capas de librería gráfica y hardware gráfico realizan funciones similares. 

Son las responsables de coger comandos de alto nivel de una librería de aplicación o 

de un programa, y ejecutarlos. Esto hace que la programación sea mucho más sencilla, 

proporcionando primitivas gráficas mucho más complejas con las que trabajar. En 

vez de dibujar los pixes de uno en uno, podemos dibujar primitivas como polígonos, 

triángulos, y líneas, sin preocuparnos de los pixels que hay que modificar para cada 

una de estas primitivas. Algunas primitivas que soportan todas las librerías gráficas 

son: 

Polígonos: conjunto de lados, normalmente en un plano, que definen una región 

cerrada. Por ejemplo: triángulos y rectángulos. 

Tiras de triángulos: serie de triángulos en los que cada triángulo comparte sus 

lados con los triángulos vecinos. 

Línea: Conecta dos puntos. 

Poli-línea: serie de líneas conectadas. 

Punto: Posición 3D en el espacio. 

Esta funcionalidad se divide en dos capas diferentes, porque las diferentes máquinas 

pueden tener un hardware gráfico muy diferente. Por ejemplo, si se escribe un programa 

que dibuje un polígono rojo, o bien la librería gráfica, o el hardware gráfico, 

debe poder ejecutar ese comando. En los sistemas de gama alta, se debe poder hacer 

mediante el hardware gráfico, en otros se hará mediante la librería gráfica con 

software. De esta forma, algunos comandos deben poder ser usados con una gran 

variedad de máquinas distintas, sin preocuparse del hardware gráfico. 

El bloque fundamental para formar primitivas más complejas es el punto (o 

vértice). Un vértice tiene su posición, normal, y color, cada uno de los cuales 

es un vector de tres elementos. La posición, especifica dónde se sitúa el vértice, la 

normal especifica la dirección hacia la que mira el vértice, y su color especifica las 

componentes de rojo, verde y azul del vértice. Un polígono se forma conectando 

54

Normal al Vertice 

Normal al Poligono 

Normal al Vertice 

Figura 3.8: Normales de vértices y polígonos. 

varios puntos. Un polígono plano sólo puede tener una dirección normal, independientemente 

de las normales de sus vértices; la razón de que los vértices tengan su 

propia normal es porque muchas veces se usan polígonos para aproximar curvas, 

como aparece en la Fig. 3.8, en la que se muestra la vista superior de un cilindro; 

se puede ver que no es realmente un polígono, sino una aproximación poligonal al 

cilindro dibujado en línea más gruesa. Cada vértice se comparte por dos polígonos 

y la normal correcta para el vértice no es la misma que la normal del polígono. Una 

razón similar explica porqué cada vértice tiene su color, en vez de tener un color 

para todo el polígono. 

Rasterización 

Nos queda por ver la forma de convertir primitivas gráficas a imágenes de barrido. 

Una explicación extensiva de ello queda fuera de mi intención, pero daré alguna 

pequeña idea. Ésta es la descripción de los métodos de renderización poligonales 

Al proceso de convertir una primitiva gráfica en una imagen de barrido se le 

llama comunmente rasterización. La mayoría del hardware gráfico actual, usa 

técnicas de rasterización siguiendo el orden de objetos. Como vimos, esto quiere 

decir que procesamos los actores en orden, y como los actores están formados por 

polígonos, procesamos un polígono cada vez. Normalmente se habla de triángulos, 

pues caulquier polígono se puede descomponer en triángulos mediante un proceso 

de triangulación. Además, el algoritmo de obtención de isosuperficies Marching 

Cubes que se describe en el apartado 3.4 genera triángulos. 

El primer paso es transformar el polígono, usando la matriz de transformación. 

Además proyectamos el polígono sobre el plano de la imagen usando proyección 

55

paralela o en perspectiva. También hay que recortar los polígonos que quedan fuera 

del tronco de cono de vista, con lo cual tenemos que generar nuevas fronteras. Con los 

polígonos recortados y proyectados sobre el plano de vista, comenzamos el proceso 

de “escaneado de línea”. El primer paso es identificar la primera línea de escaneado; 

para ello se ordenan los valores ‘y’ de los vértices del polígono. A continuación, se 

identifican los dos lados que se unen en ese vértice, a la derecha e izquierda del mismo. 

Usando las pendientes de los lados, junto con los valores de los datos, obtenemos las 

deltas para los valores de los datos. Estos datos son, típicamente, las componentes 

R, G y B del color. Otros valores de los datos pueden ser la transparencia y los 

valores de profundidad z (necesarios si se usa el método z-buffer que veremos a 

continuación). La fila de pixels dentro del polígono se llama: una extensión. Los 

valores de los datos se interpolan desde los bordes de la extensión, para generar los 

valores internos. Este proceso continúa extensión a extensión, hasta que se rellena 

todo el polígono. Según se van encontrando nuevos vértices, hay que calcular nuevas 

deltas para los valores de los datos. 

El sombreado del polígono (interpolación de color dentro del polígono) depende 

del atributo de interpolación del actor. Hay tres posibilidades: 

Sombreado Plano: calcula el color de un polígono aplicando las ecuaciones de 

iluminación solamente a una normal, que suele ser la normal a la superficie. 

Sombreado Gouraud: Calcula el color de un polígono en todos sus vértices, usando 

las normales en los vértices y las ecuaciones de iluminación. 

Sombreado Phong: es el más realista de los tres. Calcula la normal en cada posición 

del polígono interpolando las normales en los vértices. Se usan las ecuaciones 

de iluminación, para determinar el color resultante de cada pixel. 

Los sombreados Plano y Gouraud son, normalmente, los métodos empleados. La 

complejidad del sombreado Phong ha hecho que no sea soportado, a menudo, por 

hardware. 

Z-Buffer 

El método de renderización ray-casting tiene la ventaja de que los rayos que 

salen de nuestros ojos inciden sobre el primer actor que encuentran en su camino, e 

ignoran el resto de posibles actores que haya detrás. Sin embargo, cuando se usan 

métodos de renderización poligonales, no tenemos, en principio, forma de saber 

que polígonos están tapados y cuáles no. No se puede esperar, en principio, que los 

polígonos están ordenados. Lo que se hace es emplear una serie de métodos, llamados 

de “línea o superficie oculta” para renderización poligonal. 

El algoritmo del pintor u ordenación del pintor, consiste, simplemente en 

ordenar los polígonos de atrás hacia delante, para renderizarlos en ese orden. Su 

56

Figura 3.9: Problema con el algoritmo del pintor. 

mayor problema se puede ver en la Fig. 3.9. Sea cual sea el orden en el que se 

coloquen los tres triángulos, no podemos obtener el resultado deseado, ya que cada 

triángulo está delante, y detrás, de otro triángulo. Hay algoritmos que ordenan y 

dividen los polígonos cuando es necesario, para evitar este problema. Esto requiere 

un preprocesado, que se debe realizar cada vez que cambia la imagen o la cámara, 

lo cual puede ralentizar la renderización. 

Otro algoritmo de “superficie oculta” es el z-buffering, que no requiere ordenación. 

Hace uso del valor en la coordenada z (valor en profundidad a lo largo de la 

dirección de proyección) en el sistema de coordenadas de vista. Antes de dibujar un 

nuevo pixel, su valor z se compara con el valor z actual del pixel. Si el nuevo pixel 

debería estar delante del pixel actual, entonces se dibuja y el valor z del pixel se 

actualiza. En caso contrario, se mantiene el pixel actual y el nuevo pixel se ignora. 

El z-buffering ha sido comunmente implementado en hardware, debido a su simplicidad 

y robustez. El problema es que requiere una gran cantidad de memoria, 

llamada z-buffer, para almacenar el valor z de cada pixel. La mayoría de los sistemas 

usan un z-buffer para almacenar una profundidad de 24 ó 32 bits, lo cual se 

traduce, en un monitor de 1000 × 1000, en 3 ó 4 MegaBytes, sólo para el z-buffer. 

Otro problema es que su precisión depende de la profundidad, por lo que puede no 

ser suficiente si los objetos están muy cercanos. Cuando se tienen problemas de precisión 

con el z-buffering, la solución es acercar los planos de corte lo máximo posible 

a la geometría. 

3.4. Obtención de Isosuperficies: Marching Cubes 

Como dijimos en el apartado 3.3.10, el método de rasterización nos permite 

convertir primitivas gráficas en imágenes de barrido. Es un método de render- 

57

ización de superficie. Para poder renderizar esas primitivas gráficas de superficie, 

antes debemos obtenerlas, a partir de los datos volumétricos. El algoritmo marching 

cubes [13], describe una forma de obtener una superficie formada por triángulos 

que pasa por un determinado valor de densidad de los datos volumétricos. Una de 

las ventajas de este algoritmo es la generación de triángulos, que son muy adecuados 

para realizar la renderización, pues es el polígono más sencillo, soportado por todos 

los tipos de hardware gráfico. 

3.4.1. Descripción del Algoritmo 

El algoritmo consiste, básicamente en localizar la superficie correspondiente al 

valor de isosuperficie especificado y generar triángulos. 

Se usa una técnica de división y conquista, para localizar la superficie en 

una celda cúbica, formada por ocho puntos: cuatro de cada una de las dos rodajas 

adyacentes que forman los datos volumétricos. 

El algoritmo determina cómo intersecta la superficie a este cubo. A continuación 

se mueve (marcha) al siguiente cubo, y así sucesivamente. Para encontrar la superficie 

de intersección con un cubo, asignamos un uno a los vértices del cubo, en los 

que el valor de los datos en dicho vértice excede, o es igual, al valor de la superficie 

que estamos construyendo. Estos vértices están dentro, o sobre, la superficie. Los 

vértices del cubo con valores por debajo de la superficie se ponen a cero, y están 

fuera de la superficie. 

La superficie corta a cada arista del cubo, cuando un vértice está dentro (uno) y 

el otro fuera (cero). De esta forma, determinamos la topología de la superficie dentro 

de un cubo, encontrando la localización de la intersección después. Este método de 

obtención de la superficie, calcula las intersecciones de la misma con las aristas 

del cubo, de forma totalmente independiente, lo cual, como veremos más adelante 

produce ciertos problemas. 

Como tenemos ocho vértices en cada cubo y dos posibles estados, dentro y fuera, 

hay 2 8 = 256 formas en que la superficie puede intersectar al cubo. Triangular los 256 

casos es posible, pero tedioso. Sin embargo, aplicando dos operaciones de simetría 

sobre el cubo, reducimos el problema de 256 casos a tan sólo 15. Estas operaciones 

de simetría son: 

1. La topología de la superficie triangulada no cambia, si los valores de los vértices 

del cubo se invierten. Los casos complementarios en los que los vértices mayores 

que el valor de la superficie se intercambian con aquellos menores que ese valor, 

son equivalentes. Por tanto, sólo tenemos que considerar los casos con 0 a 4 

vértices mayores que el valor de la superficie (uno). Esto reduce el número de 

casos a 128. 

58

2. Aplicando simetría rotacional, por inspección se puede ver que reducimos el 

número de casos posibles a 15. 

En la Fig. 3.10, se pueden ver estos 15 casos. El caso más simple, 0, ocurre si todos 

los vértices están por encima (o por debajo) del valor seleccionado, y no produce 

ningún triángulo. El siguiente caso, el 1, ocurre si la superficie separa un vértice 

de los otros siete, produciendo un triángulo, definido por a intersección con las tres 

aristas que se juntan en ese vértice. Los otros casos producen múltiples triángulos. 

Mediante permutación de estos 15 patrones básicos, usando las propiedades de 

complementariedad y rotación simétrica, se consiguen los 256 casos posibles. 

Se crea un índice de 8 bits, en el que se almacena el estado binario de cada vértice 

de la celda. Este índice se usa como puntero a una tabla de casos para buscar el 

estado topológico de la celda. 

Una vez se selecciona el caso correcto, se calcula la posición exacta de la intersección 

de la superficie con cada arista del cubo, mediante interpolación. Se usa 

interpolación lineal, por ser la más sencilla. Lorensen y Cline [13] han experimentado 

con interpolaciones de orden mayor, pero consiguen poca mejora, por lo que no 

merece la pena. 

3.4.2. Problema del Algoritmo: Ambigüedad 

La principal ventaja de este algoritmo es su secillez, debido a que el algoritmo 

se aplica a cada celda de forma independiente. 

Sin embargo, al tratar cada celda por separado, se producen problemas de ambigüedad. 

Si se observan cuidadosamente los casos 3, 6, 7, 10, 12 y 13, se puede 

observar que en estas celdas, la superficie puede pasar por distintas aristas. El resultado 

de estas ambigüedades es que se pueden producir agujeros en la superficie. 

Se han propuesto varias soluciones para evitar estos problemas de ambigüedad: 

[12] 

Una técnica divide los cubos en tetraedros, y usa una técnica de marching 

tetraedra. Esto funciona porque marching tetraedra no tiene casos ambiguos. El 

problema es que este algoritmo genera mayor número de triángulos. Además, la 

división de un cubo en tetraedros requiere elegir la orientación de los tetraedros 

dentro del cubo, lo cual puede producir salientes artificiales sobre la supericie, 

a causa de la interpolación a lo largo de las diagonales de las caras del cubo. 

Otra técnica estudia el comportamiento asimptótico de la superficie, para elegir 

entre unir o separar la isosuperficie. Se basa en un análisis de la variación del 

valor escalar a lo largo de la superficie ambigua. 

59

0 1 

2 

3 4 5 

6 

7 

8 

9 10 11 

12 

13 

14 

Figura 3.10: Los 15 cubos triangulados del algoritmo Marching Cubes. 

60

Caso 3c 

Caso 6c 

Caso 7c 

Caso 10c 

Caso 12c 

Caso 13c 

Figura 3.11: Casos complementarios para el algoritmo Marching Cubes. 

Una solución sencilla y efectiva (la que usamos), consiste en extender los 15 

casos vistos, con otros complementarios, para los casos que pueden tener ambigüedad. 

Estos casos se diseñan para que sean compatibles con los casos 

vecinos y eviten agujeros en la superficie. Los seis casos complementarios que 

se necesitan, para los casos 3, 6, 7, 10, 12 y 13 se muestran en la Fig. 3.11. 

61

Capítulo 4 

Compresión de Datos 


La compresión de datos se puede enmarcar en el modelo de referencia OSI 

(Interfaz de Sistemas Abiertos) de ISO (Organización Internacional de Normas) 

dentro del nivel de presentación [2] (nivel número seis). Éste nivel, a diferencia de los 

cinco inferiores, que solamente se ocupan del movimiento ordenado de bits, desde el 

extremo fuente, hasta el extremo destino, se encarga de la preservación del significado 

de la información transportada. Cada ordenador puede tener su propia forma de 

representación interna de los datos, por ello el trabajo de la capa de presentación 

consiste en codificar los datos estructurados, del formato interno utilizado en la 

máquina transmisora, a un flujo de bits adecuado para la transmisión y después, 

decodificarlos y mostrarlos en el formato del extremo destinatario. 

La compresión de datos reduce el número de bytes para representar un conjunto 

de datos. La compresión se ha usado en casi todos los campos en los que se trabaja 

con información digital: texto, audio, imagen, . . . 

La compresión reduce la cantidad de memoria (espacio de disco) necesario para 

almacenar los datos y como consecuencia de ello, también reduce la cantidad de 

tiempo necesario para transmitir los datos a través de un enlace de comunicaciones, 

a una determinada tasa de transmisión. 

4.1.1. Terminología General 

Para describir los esquemas de compresión se usan los siguientes términos [6]: 

Relación de Compresion o Compresión. Relación entre el tamaño de los datos 

originales y el tamño de los datos comprimidos: 

Relación de Compresion = 

N.o bytes de datos originales 

N. o bytes de datos comprimidos 

63 

(4.1)

La relación de compresión se expresa como un número o como dos números, 

siento el segundo número normalmente 1. Por ejemplo, 10:1 significa que 10 

bytes de los datos originales se representa con 1 byte de los datos comprimidos. 

Relaciones de compresión mayores significan menor tamaño de los datos 

comprimidos. 

Bits por Pixel o Voxel. En compresión de imagen, indica el número medio de 

bits necesario para representar el valor de un pixel de la imagen o de un voxel 

del volumen. Es otra forma de indicar la relación de compresión. 

Compresión sin Pérdidas. Compresión en la que no se pierde nada de la información 

contenida en los datos originales. 

Compresión con Pérdidas. Compresión en la que se puede perder parte de los 

datos originales. Estos esquemas pueden conseguir compresiones mayores que 

los esquemas sin pérdidas, pero pagando el precio de la pérdida de información. 

Codificación. Proceso que toma como entrada un conjunto de datos y produce 

como salida el conjunto de datos comprimido correspondiente. 

Decodificación. Proceso que toma como entrada un conjunto de datos comprimido 

y produce como salida el conjunto de datos original (o una aproximación al 

mismo si se usa compresión con pérdidas). 

Codec. Se refiere al codificador, al decodificador o a ambos. Es una abreviatura de 

codificador/decodificador. 

Entropía. Medida de la aleatoriedad de un conjunto de datos. Un conjunto de 

datos totalmente aleatorio no puede ser comprimido. Cuanto más orden tenga 

un conjunto de datos, más se puede comprimir. Si una serie de datos contiene 

algún tipo de orden, podemos eliminar la información redundante para 

comprimirlo. 

A continuación describo algunos métodos de compresión usados en voz, audio, 

imagen y datos volumétricos, campos en los que, debido al gran tamaño de los datos, 

es muy importante la compresión. 

4.2. Compresión de Audio y Voz 

La copresión de audio ha alcanzado un gran desarrollo últimamente, para abaratar 

los sistemas de almacenamiento de audio digital. Por su parte, la compresión de voz 

se ha desarrollado hace más tiempo. Ambas tienen una diferencia: 

64

Voz: está generada por el sistema fonador humano. Los esquemas de compresión 

se pueden basar en sus características, con lo cual tenemos información 

de la señal a comprimir. 

Audio: la fuente puede ser cualquiera que genere sonido, con lo que no se 

pueden usar las estrategias usadas para voz. Sin mebargo, sí tenemos información 

del funcionamiento del oído, que se puede utilizar para realizar la 

compresión; siempre que introduzcamos un error que quede enmascarado por 

el oído, no lo percibiremos. Durante muchos años se han usado técnicas de 

codificación de forma de onda, que son generales. 

A continuación voy a describir métodos de codificación y compresión, empezando 

por los más elementales y a su vez generales, que valen tanto para audio como para 

voz. Después explicaré someramente y como ejemplo algunos métodos específicos 

usados para voz. Estos esquemas tratan de reducir el coste de la señal de audio 

digital, minimizando la distorsión introducida. 

4.2.1. Codificadores de Forma de Onda 

Están basados en un procesado muestra a muestra de la señal digital y son válidos 

para cualquier señal que sea limitada en banda y en amplitud [3]. 

PCM 

El esquema básico de codificación tanto de voz como de audio es PCM (Modulación 

por Pulsos Codificados), que consiste, simplemenete, en un cuantificador 

uniforme, en el que hay 2 N niveles de cuantificación y se usan N bits para representar 

cada muestra. Este tipo de codificación no tiene ningún tipo de compresión. Se 

codifican directamente las muestras. 

log-PCM o Cuantificación Logarítmica 

El problema básico de PCM es que el nivel de cuantificación se elige para que 

no se produzca saturación con los niveles mayores de la señal. Sin embargo, especialmente 

en voz, tienen más importancia los niveles de señal bajos, en los que se 

produce mucho error relativo. Por ello se suele usar un cuantificador logarítmico que 

da más importancia a los niveles pequeños de señal. 

ADPCM o PCM Adaptativo 

La mayor limitación de los dos esquemas anteriores de codificación es que no 

tienen en cuenta las variaciones de amplitud de la señal. Una solución a este problema 

es adaptar dinámicamente el escalón del cuantificador, para adecuarse a las 

65

x[n] 

d[n] c[n] c[n] d[n] 

+ Cuantificador Codificador Decodificador 

+ 

xr[n] 

xe[n] 

Predictor 

P 

xr[n] 

+ 

Canal 

xe[n] 

Predictor 

P 

Transmisor 

Receptor 

Figura 4.1: Esquema del sistema DPCM (PCM Diferencial). 

características de la señal a codificar. La adaptación se puede hacer cada muestra o 

cada varias muestras, dependiendo de la estacionariedad de las señales a codificar. 

El escalón del cuantificador se determina multiplicando el escalón anterior por 

una constante, que se calcula a partir de la anterior muestra codificada. Si esta 

muestra es pequeña, se coge una constante mayor que 1 y viceversa. 

En el decodificador se calcula el tamaño del escalón a partir de cada muestra 

que llega, con lo cual la codificación es reversible. Este esquema de codificación, por 

ejemplo en telefonía, supone una reducción de 1 bit por muestra para una misma 

SNR respecto a log-PCM. 

DPCM o PCM Diferencial 

Normalmente, las señales de voz y audio suelen tener una cierta correlación entre 

muestras sucesivas. Por tanto, la diferencia entre las mismas, tiene menor varianza 

y rango dinámico que la señal original, con lo que se puede codificar con menos bits, 

para una cierta SNR. Lo que se hace es estimar la muestra actual, x e [n] a partir de 

las anteriores, restarla de la muestra actual, x[n], y cuantificar la diferencia, d[n], 

como se muestra en la Fig. 4.1. La señal reconstruida, x r [n] se obtiene sumando la 

diferencia cuantificada, d[n], a la señal estimada, x e [n]. x e [n] se obtiene como una 

combinación lineal de las muestras anteriores de x r : 

N∑ 

x e [n] = a k x r [n − k] (4.2) 

k=1 

donde N puede variar (desde 1 a 14 son valores típicos) y los coeficientes a k se 

obtienen de forma experimental. Cuanto mejor sea la predicción, menor será la 

diferencia, d[n], y por tanto se consigue mayor compresión. 

66

DM o Modulación Delta 

Este tipo de modulación es un caso limitado de la técnica DPCM. En el sistema 

DM, el predictor de la Fig. 4.1 es un predictor de primer orden 

x e [n] = ax r [n] (4.3) 

donde a es una constante ligeramente menor que 1 y se usa un cuantificador de 1 bit, 

cuya salida es +δ(1), si la diferencia es positiva y −δ(0), si la diferencia es negativa. 

Como se usa un cuantificador de 1 bit, la tasa binaria es igual a la frecuencia de 

muestreo, pero se debe usar una frecuencia de muestreo varias veces la de los sistemas 

PCM convencionales. Si la frecuencia de muestreo es demasiado baja, se produce 

ruido de sobrecarga (el sistema no puede seguir los cambios rápidos de la señal). 

Se puede reducir aumentando la frecuencia de muestreo o aumentando el escalón 

de cuantificación. Sin embargo, si se aumenta el escalón, se produce mayor ruido 

granular (1s y 0s alternados), que es más importante cuando no hay señal. 

Una mejora al sistema DM es usar un escalón de cuantificación adaptativo 

(ADM), de forma similar al sistema APCM. Una estrategia posible para ello es 

multiplicar o dividir por dos el escalón, dependiendo de que el siguiente bit cuantificado 

sea diferente o igual al anterior. La variación del escalón se limita entre un 

valor mínimo y otro máximo. De esta forma se reduce tanto el error de sobrecarga, 

como el granular. El mayor problema de ADM es que, como el escalón varía 

instantáneamente, cambios bruscos en la señal de entrada –como los producidos por 

el ruido– pueden provocar que el sistema tarde en recuperarse. 

ADPCM o DPCM Adaptativo 

La codificación DPCM usa un escalón de cuantificación fijo y un predictor con 

coeficientes constantes. Se puede conseguir una importante mejora en la relación 

de compresiónsi se añade un cuantificador adaptativo y/o un predictor adaptativo. 

El esquema es similar al de la Fig. 4.1, pero con el predictor, el cuantificador, el 

codificador y el decodificador (o algunos de ellos) con bloques de predicción. La 

sincronización entre el transmisor y el receptor se consigue haciendo que el transmisor 

y el receptor sean esencialmente iguales, y además usando sólo la diferencia 

transmitida, c[n], (presente en transmisor y receptor) para realizar la adaptación. 

Normalmente se hace una mezcla entre adaptación instantánea y adaptación cada 

cierto intervalo de tiempo, por lo que se puede adaptar tanto a señales estacionarias, 

como no estacionarias. 

La complejidad de un sistema ADPCM depende, en su mayor parte de la complejidad 

del algoritmo de predicción. Este tipo de codificación se estableció como 

estándar en la transmisión de voz y datos a 32 Kbits/s sobre la red telefónica. El 

estándar usa log-PCM a 64 Kbits/s y lo convierte a 32 Kbits/s, usando ADPCM. 

67

4.2.2. Algunos Codificadores Específicos de Voz 

Las técnicas vistas anteriormente operan en el dominio del tiempo directamente 

y consiguen reducir la tasa binaria, explotando la correlación o redundancia entre 

muestras sucesivas de la señal. En este capítulo se describen algunas técnicas usadas 

para compresión de voz [3], con tasas binarias que varían entre 16 Kbits/s y menos 

de 1 Kbit/s. En todas estas técnicas se codifica, o bien una versión modificada 

o transformada de la señal (en el dominio de la frecuencia). Estos codificadores se 

dividen en paramétricos y no paramétricos. En los paramétricos (vocoders) se intenta 

separar la información del tracto vocal de la información de la señal excitadora, 

mientras que en los no paramétricos, no se hace esta separación. 

Codificación en Sub-Bandas 

En las técnicas explicadas en el apartado anterior, se codifica la señal de banda 

completa. En la codificación en sub-bandas, lo que se hace es dividir la señal en subbandas, 

mediante filtros paso-banda y después se codifica la salida de cada filtro 

usando una de las técnicas vistas entonces. 

Las salidas de los filtros están bastante incorreladas, por lo que se elimina la 

redundancia de la señal de entrada. La asignación de bits se hace siguiendo criterios 

perceptuales. Se asignan más bits a las bajas frecuencias (tienen más importancia 

para el oído) y menos a las altas. 

En el codificador, la señal de entrada se filtra con un determinado número de 

filtros paso-banda, que cubren todo el espectro de interés para voz (300 - 3400 

Hz para telefonía); normalmente se usan de 2 a 5 bandas, cuyo ancho de banda 

normalmente es menor para los filtros centrados en frecuencias bajas. La salida de 

cada filtro se demodula a banda base, y como estas señales en banda base tienen 

mucho menor ancho de banda que la señal original, se pueden diezmar por un factor 

D n , que depende de la frecuencia de muestreo de la señal original, f s , y el ancho de 

banda del filtro correspondiente, b n . A partir del teorema de Nyquist y suponiendo 

filtros ideales: 

D n = f s /2b n (4.4) 

Cada sub-banda se cuantifica y codifica con uno de los esquemas vistos en el apartado 

anterior. Normalmente se usa PCM (APCM) y alguas veces ADPCM o ADM. Las 

sub-bandas así codificadas, se multiplexan y se transmiten o almacenan, según el 

caso. 

En el decodificador se usa el procedimiento contrario. Primero se demultiplexa 

la señal, se interpola cada sub-banda insertando ceros para deshacer el diezmado, 

se modula a cada banda correspondiente y se filtra, con filtros idénticos a los del 

codificador. Las salidas de estos filtros se suman y de esta forma se reconstruye la 

señal original. 

68

La codificación en subbandas se puede usar para codificación de voz, con tasas 

binarias de 9.6–32 Kbits/s, siendo su calidad en este rango similar a la de ADPCM, 

a la misma tasa binaria. Su relativa calidad de sonido y no muy alta complejidad, 

lo hace muy adecuado para codificación por debajo de 16 Kbits/s. Sin embargo, la 

complejidad al aumentar la tasa binaria, aumenta más que en otros esquemas, por 

lo que por encima de 20 Kbits/s no es adecuado. 

Compresión de audio basada en sub-Bandas 

Para compresión de audio también se puede utilizar un esquema en sub-bandas [5]. 

Como ya dijimos, para compresión de audio, se puede codificar sólo la información 

que el oído no enmasacara. En efecto, el oído permite cierta distorsión, pues sólo 

parte de la señal analógica que recibe la considera necesaria y suficiente. De esta 

forma, se permite cierto error en la compresión, que si es enmascarado por el oído, 

no devalúa la calidad percibida del sonido. 

Para audio, el ancho de banda de cada filtro puede ser constante o ir aumentando 

conforme aumenta su frecuencia central (de la misma forma que las bandas críticas 

del oído). 

El elemento clave en los sistemas de compresión de audio basados en sub-bandas 

es el cálculo del umbral enmascarado, que se obtiene a partir de modelos psicoacústicos 

y sirve para calcular la distribución en la asignación del número de bits a cada 

cuantificador, a la salida de cada filtro. 

TC o Codificación Transformada 

Es una técnica de codificación en el dominio de la frecuencia, en la cual se realiza 

una transformación corta (short time) de la señal original y se codifica de forma 

eficiente, asignando más bits a los coeficientes de la transformada más importantes 

que a los menos importantes. En el receptor se usa la transformación inversa, para 

recuperar la señal original. Para reflejar la no estacionariedad de la señal de voz, 

los coeficientes de la transformada se actualizan cada cierto intervalo de tiempo fijo 

(10-20 ms). 

Se pueden usar distintas transformadas, para obtener la información espectral, 

como la transformadad de Fourier discreta (DFT), pero es más eficiente usar la 

transformada del coseno distreta (DCT), que está relacionada con la anterior, 

pero es más eficiente. La DCT está definida por las siguientes relaciones: 

N−1 ∑ 

X(k) = C k 

x[n] = 1 N C k 

N−1 ∑ 

n=0 

n=0 

x[n] cos ((2n + 1)kπ/N) , k = 0, 1, . . . , N − 1 (4.5) 

X(K) cos ((2n + 1)kπ/N) , k = 0, 1, . . . , N − 1 (4.6) 

donde C k = 1, k = 0, y C k = 2 1/2 , k = 1, 2, . . . , N − 1, x[n] es la señal de voz 

enventanada de N muestras y X(k) los coeficientes de la DCT. 

69

La longitud típica de los segmentos suele ser de 128-256 muestras. La Ec. (4.5) 

se puede escribir en forma matricial: 

X(k) = A(k, n) · x(n), A(k, n) = α(k)cos((2n + 1)kπ/N) (4.7) 

donde X(k) y x(n) son vectores columna de longitud N que representan, respectivamente, 

los coeficientes de la DCT y la señal enventanada y A(k,n) es una matriz 

cuadrada (N × N) de transformación. En el receptor se recupera la señal, multiplicando 

el vector de coeficientes por la inversa de la matriz de transformación. En 

el caso de la DCT, la matriz de transformación es unitaria, lo cual implica que su 

inversa es igual a su traspuesta (esto simplifica las cosas). En la práctica, la DCT 

se puede calcular más rápidamente usando la DFT, mediante el algoritmo de la 

transformada rápida de Fourier (FFT), que es más rápido. Para ello, se debe 

extender la longitud de los datos originales de N a 2N, colocando los datos de forma 

simétrica, haciendo la FFT de 2N puntos y cogiendo los N primeros. Esto es 

válido, porque la DFT de una secuencia real y simétrica produce una secuencia con 

coefientes reales, que se corresponden con los coeficientes de la serie de cosenos. 

La mayoría de las codificaciones transformadas, usadas en la práctica, son adaptativas 

(ATC), en el sentido de que el número de bits usados para codificar los 

coeficientes de la transformada, permanece constante, pero la asignación de bits 

a cada coeficiente puede variar de muestra a muestra. Esta variación se controla 

por la variación de los estadísticos del habla, que deben ser transmitidos junto con 

los coeficientes codificados. ATC permite tasas binarias entre 9.6 y 20 Kbits/s. Su 

complejidad es algo más elevada que la de codificación en sub-bandas. 

Vocoders 

Los vocoders (voice coders) o codificadores de análisis/síntesis incorporan una 

etapa de análisis en el transmisor, para extraer un conjunto de parámetros que representan, 

por un lado la señal de excitación del tracto vocal, y por otro la envolvente 

del espectro del tracto-vocal. Estos parámetros son codificados y enviados al receptor. 

En el receptor está la etapa de síntesis, en la que se reconstruye la señal original 

de voz a partir de los parámetros recibidos. 

Hay varios tipos de vocoders, según los parámetros usados. El más sencillo es 

el vocoder de canal, cuyo funcionamiento básico voy a explicar a continuación. 

El analizador consta de un número de filtros paso-banda (normalmente 16-19), que 

cubren la banda de voz (pongamos 0-4 KHz); las salidas de los mismos son rectificadas 

y filtradas paso bajo y muestreadas de forma síncrona cada 10-30 ms, 

obteniendo de esta forma la amplitud del espectro corto (short time) de la señal de 

voz, que nos da la información del tracto vocal. Además se realiza una decisión de 

voz/ruido (hay fonemas sonoros, como las vocales, y otros ruidosos, como la ‘s’) y se 

obtiene la frecuencia del tono de voz. Ambas forman la información de la excitación. 

Se multiplexa toda esta información y se envía al receptor. 

70

En el receptor está la etapa de síntesis, en la que la información de excitación se 

usa para elegir entre una fuente ruidosa o una fuente tonal a la frecuencia del tono 

de voz. La señal recibida en cada canal se usa para modular la amplitud de la señal 

de excitación que entra a cada filtro paso-banda del sintetizador. Las frecuencias 

centrales de estos filtros son las mismas que las de los filtros del analizador, pero 

tienen anchos de banda menores. La salida de estos filtros se suma para obtener la 

señal sintetizada. 

Los esquemas usados en realidad, son algo más complejos, pues incluyen elementos 

como control automático de ganancia (CAG), para aumentar la eficiencia de 

codificación y protección frente a errores, para mejorar el rendimiento en canales 

muy ruidosos. Se pueden conseguir tasas binarias de 2.4 Kbits/s. 

Un vocoder más complejo y avanzado es el vocoder cepstral. Está basado en 

el análisis cepstral. Esta técnica separa la excitación y el espectro del tracto vocal, 

haciendo la transformada inversa de Fourier del logaritmo del espectro, para obtener 

de esta forma, el cepstro de la señal. Los coeficientes del cepstro de baja frecuencia 

corresponden a la envolvente espectral del tracto vocal y la excitación aparece como 

un tren de pulsos en los múltiplos de la frecuencia del tono de voz. Los coeficientes 

del cepstro correspondientes al tracto vocal, se separan de los correspondientes a la 

excitación, mediante un filtrado lineal (enventanado). La posición en el tiempo del 

primer pulso en el cepstro nos da la información del tono de voz y la presencia o no 

de pulsos marcados indica si el sonido es sordo o sonoro. Toda esta información es 

multiplexada y codificada. 

En el receptor (sintetizador), se hace la transformada de Fourier de los coeficientes 

del cepstro correspondientes al tracto vocal, a continuación la exponencial 

y después la transformada inversa de Fourier, para obtener la respuesta al impulso 

del tracto vocal. Convolucionando esta respuesta al impulso con una señal de excitación 

sintética (ruido o tren de pulsos al tono de voz), se reconstruye la señal de 

voz original. 

4.3. Compresión de Imágenes y Datos Volumétricos 

4.3.1. Criterios de Diséno 

La compresión de datos gráficos es útil para una gran variedad de aplicaciones, y 

cada una impone diferentes criterios y requisitos en los esquemas de compresión. Por 

tanto, como en cualquier tarea de diseño en ingeniería, se deben alcanzar compromisos 

entre coste y funcionamiento. En la tabla 4.1 aparecen los distintos requisitos 

de diseño y las diferentes opciones existentes para cada uno, y en la tabla 4.2 aparecen 

algunos ejemplos de aplicaciones que necesitan compresión, como se muestra en 

71

Cuadro 4.1: Requisitos de diseño y posibles opciones 

Requisit. 

Opciones 

Tiempo 

Coste 

Pérdida Info. 

• Se requiere codificación y decodificación en tiempo real 

• Sólo se requiere decodificación en tiempo real 

• Se puede aceptar procesado más lento que en tiempo real 

• Requiere sólo software 

• Requiere coprocesador de punto flotante (coste adicional) 

• Requiere hardware de propósito especial (más caro) 

• Sin pérdida de información 

• Alguna pérdida, pero no distinguible por el ojo humano 

• Más pérdida de información, pero la que requiere la 

aplicación se mantiene 

Compresión • Basta con poca compresión (2:1 o 3:1) 

• Basta con compresión media (5:1 o 10:1) 

• Se necesita gran compresión (20:1, 100:1 o más) 

[6]. 

Como aparece en [7], en general se usan tres criterios para evaluar las distintas 

técnicas de compresión: 

Relación de Compresión o tasa de compresión (o el inverso, bits/pixel) 

Fidelidad de la imagen de salida (o el inverso, medida del error) 

Coste computacional (o el inverso, simplicidad computacional) 

De esta forma, las técnicas de compresión se pueden evaluar mejor en un espacio 

tridimensional, con uno de los elementos anteriores en cada eje. Una técnica puede 

tener mucha compresión, pero poca calidad, o al revés, o tener una compresión 

moderada, pero también una fidelidad media. A su vez, cada técnica tiene su propio 

coste computacional. 

La relación de compresión o tasa de compresión, es la medida cuantitativa fundamental 

para evaluar la efectividad de un método de compresión. En imagen se 

puede ver como la relación entre los bits/pixel, en la imagen original, y en la imagen 

72

Cuadro 4.2: Algunas aplicaciones que requieren compresión 

Aplicacion Caract. de dispositivo Requisitos 

Videodisc Dispositivo de sólo lectura • No hace falta codif. en tiempo real 

• Decodif. en tiempo real 

Videoteléfono Ancho de banda pequeño • Compresión alta 

• Codif. y decod. casi en tiempo real, 

que tarden aprox. el mismo tiempo 

Teleconferencia Ancho de banda grande • Compresiones altas, para imágenes 

de alta calidad 

Telemedicina Anchos de banda • Mínima pérdida de info. para evitar 

pequeños y grandes malos diagnósticos 

comprimida. Si se usan imágenes originales con los mismos bits/pixel, basta con dar 

el número de bits/pixel de la imagen comprimida como medida de la compresión del 

método. 

La fidelidad de la imagen es una medida cualitativa del proceso de compresión y 

es el siguiente criterio más importante. De todas las formas, ambos criterios están 

muy relacionados. Para comparar diferentes esquemas de compresión hace falta una 

buena medida de la distorsión introducida por el método de compresión. Las medidas 

usadas para evaluar la fidelidad son: 

MSE: error cuadrático medio. 

RMS: raíz cuadrada del error cuadrático medio. 

NMSE: MSE normalizado. 

NRMS: RMS normalizado. 

Es importante decir que estos parámetros no son suficientes para evaluar cualitativamente 

el algoritmo. Además son deseables comparaciones visuales, que aunque 

son subjetivas, la mayoría de las imágenes están pensadas para ser vistas por el ojo 

humano. También se pueden definir otras medidas de la distorsión, que sólo son adecuadas 

para determinadas técnicas, como son los métodos de transformación, que se 

verán más adelante. Cuando estas imágenes van a ser después procesadas con procedimientos 

estadísticos, la mejor medida puede ser la fidelidad de los estadísticos 

en las regiones de la imagen, en vez de las intensidades de cada pixel. De hecho, no 

hay ningún método para medir la fidelidad, que sea útil para todas las aplicaciones. 

73

El coste computacional debe tener en cuenta dos procesos, la compresión y la 

descompresión de la imagen. Para la compresión, en aplicaciones que requieran un 

espacio de almacenamiento mínimo, el coste de compresión tiene menos importancia 

que el de descompresión, que debe realizarse cada vez que se lee la imagen del sistema 

de almacenamiento. Para aplicaciones de compresión diseñadas para la transmisión 

rápida a través de una red, es igual de importante el coste de compresión como el 

coste de descompresión. 

En general, la fidelidad de la imagen disminuye al aumentar la relación de compresión; 

y al aumentar la fideliedad de la imagen, normalmente aumenta el coste 

computacional. El compromiso de diseño entre los tres se puede ver como un problema 

en tres dimensiones, en el que la fidelidad de la imagen es la variable dependiente 

del coste computacional y de la fidelidad. 

4.3.2. Métodos de Compresión 

Cualquier esquema de compresión de datos se puede dividir, como se muestra 

en [6] en tres métodos diferentes: 1) transformación, 2) precisión reducida, y 3) 

minimización del número de bits. 

Método 1. Transforma el conjunto de datos original en otro conjunto de datos 

equivalente, que ocupa menos que el original. Algunas transformaciones reducen 

el número de elementos en el conjunto de datos. Otras transformaciones 

reducen el tamaño numérico de los elementos del conjunto de datos, lo que 

permite representarlos con menos bits. 

Método 2. Reduce la precisión de los valores de los elementos del conjunto de 

datos, lo que reduce el número de bits para representar cada elemento. Este 

método también puede reducir la aleatoriedad en una ristra de datos. 

Método 3. Representa cada elemento del conjunto de datos, de forma que se minimiza 

el número de bits para representar todo el conjunto de datos. En la 

Fig. 4.2 se muestra la idea, metodología y nombre técnico dado a cada uno de 

los métodos de compresión. 

4.3.3. Método 1: Transformación 

Se puede reducir el tamaño de un conjunto de datos explotando los patrones 

(orden) existente en los mismos. Un patrón es cualquier forma de repetición o 

redundancia que existe en los valores de los datos. Si un conjunto de datos no 

contiene patrones (es totalmente aleatorio), no se puede comprimir e incluso si se 

aplica un esquema de compresión a datos totalmente aleatorios, potencialmente 

puede aumentar su tamaño. 

74

Metodo 1 

Metodo 2 Metodo 3 

Idea 

Minimizar la cantidad de datos Minimizar precision de datos Minimizar # bits por elemento 

Metodo 

Reconocimiento de patrones 

Division de datos 

Codificacion de datos 

Nombre 

tecnico 

Mapeado 

Cuantifiacion 

Codificacion 

Esquemas 

generales 

Encontrar 

patrones 

unidimensionales 

Encontrar 

patrones 

bidimensionales 

Dividir por 

factores de precision 

Codigos de 

longitud fija 

Codigos de 

longitud variable 

Encontrar 

patrones 

tridimensionales 

Figura 4.2: Esquemas generales para los tres métodos principales de compresión. 

El nombre técnico de este conjunto de técnicas es mapeado, en el sentido de 

que mapean patrones de los datos originales a códigos en los datos transformados. 

Los patrones se pueden encontrar de tres formas: 

Búsqueda de patrones en una dimensión: los datos se procesan como una lista 

secuencial. 

Búsqueda de patrones en dos dimensiones: los datos se procesan como una 

matriz de dos dimensiones. 

Búsqueda de patrones en tres dimensiones: Los datos se procesan como una 

lista secuencial de matrices de dos dimensiones. 

A continuación describo cada uno de estos esquemas. 

Reconocimiento de Patrones en una Dimensión 

Si el conjunto de datos se trata como una lista de valores unidimensionales, 

entonces se pueden buscar patrones entre los valores adyacentes en la lista. Dentro 

de estos métodos, hay varios esquemas posibles: 

Reducción del número de datos. A su vez se divide en: 

• Codificación run-length: se basa en la repetición de valores adyacentes 

idénticos. 

• Codificación LZW: se basa en la repetición de valores adyacentes no 

idénticos. 

Reducción de la magnitud de los valores de los datos individuales. 

75

5 5 12 12 12 12 5 5 5 5 5 5 12 5 

Datos Originales (14 bytes) 

2 5 4 12 6 5 1 12 1 

Longitud: datos 

5 

Datos Comprimidos (10 bytes) 

Figura 4.3: Ejemplo de codificación run-length. 

• Diferenciación: Reemplazar cada dato con la diferencia con el dato 

anterior. 

A continuación describo cada uno de ellos: 

Codificación run-length: 

Es un esquema de compresión de reconocimiento de patrones que busca la repetición 

de valores idénticos en una lista. Los datos se pueden comprimir reemplazando la 

secuencia repetida, con el valor de los datos repetidos y el número de datos. Por 

ejemplo, en la Fig. 4.3 se muestra un ejemplo. Se puede ver que los dos últimos 

bytes de los datos originales requieren 4 bytes de los datos comprimidos. Esto es 

debido a la falta de repetición en los datos. Sin embargo, la mayoría de los esquemas 

run-length usados tienen esquemas para evitar estos casos de ineficiencia. 

Normalmente, en los métodos run-length, cada línea se codifica por separado para 

permitir métodos de almacenamiento en los que las líneas no se almacenen de forma 

secuencial. Además esto permite mejor recuperación de errores, si se corrompen los 

datos. 

El orden de los datos afecta a la eficiencia de los métodos run-legth, especialmente 

para imágeens en color. Si los valores de los pixels están ordenados por planos de 

color (todos los valores de rojo, después azul y después verde), es mucho más fácil 

que haya repeticiones entre datos adyacentes. 

La repetición en los valores de los pixels no es exclusiva, por supuesto de las 

líneas horizontales. Algunas imágenes digitales contienen más redundancia en las 

líneas verticales. Sin embargo, la complejidad añadida, no se ve compensada con 

la ventaja de implementar esquemas en ambas direcciones. Todos estos esquemas 

dependen de los datos. El objetivo es encontrar un método que funcione bien con 

un tipo de datos general, asociado con una aplicación concreta y asegurarse de que 

el peor caso ocurre sólo en raras ocasiones para esa aplicación. 

El tipo de datos afecta al esquema run-length usado. Por ejemplo, en las imagenes 

bilevel, sólo hay dos colores, por lo que no hace falta almacenar el color, sino simplemente 

el número de repeticiones de cada uno. El sistema de codificación en una 

76

5 23 7 12 5 23 7 6 12 5 23 7 6 12 

Datos Originales (14 bytes) 

C1 12 

C1 C2 C1 C2 

Datos Comprimidos (6 bytes) 

C1 y C2 representan codigos unicos 

Figura 4.4: Ejemplo de asignación de códigos únicos a secuencias de datos repetidas. 

Codificación LZW. 

dimensión, usado para Fax Grupo 3 de la CCITT emplea esta tipo de codificación 

para imágenes de dos niveles. 

Como conclusión, se puede decir que la tasa de compresión de los esquemas runlength, 

depende del tipo de datos y de la repetición presente en ellos. Compresiones 

típicas que se pueden conseguir con estos esquemas, son desde 2:1 hasta 5:1. Algunos 

formatos gráficos que usan este tipo de almacenamiento, además del Fax Grupo 3 

ya indicado, son PCX, PostScript y TIFF. 

Codificación LZW 

Si una secuencia de datos no idénticos, se repite más de una vez en el conjunto 

de datos, no necesariamente de forma contigua, entonces esta repetición se puede 

explotar para comprimir los datos. Se puede asignar a la secuencia repetida un código 

único y a continuación almacenar este código, en lugar de la secuencia completa. En 

la Fig. 4.4 se muestra un ejemplo. Contiene dos secuencias que se repiten, Hay 

otras secuencias que no se han marcado y se les ha asignado código, como por 

ejemplo, las secuencias (12, 5) y (5, 23, 7, 6, 12) se repiten dos veces, pero no se 

usan para codificar. Este ejemplo pone de manifiesto el problema de encontrar la 

mejor agrupación de los datos, para conseguir la mayor compresión. 

Encontrar la mejor forma de agrupar los datos supone examinar todas las posibles, 

lo cual es muy ineficiente computacionalmente. Lo que se suele hacer es “recordar” 

las secuencias de datos, según van apareciendo y las reconoce cuando se repiten. 

En el ejemplo visto, la secuencia (5, 23, 7), se encontró en primer lugar, y por tanto, 

se usa para codificar la siguiente ocurrencia de esta secuencia. De esta forma, no se 

encontró la secuencia más larga (5, 23, 7, 6, 12). 

Los códigos y las secuencias de datos asociados con los mismos, forman lo que 

se llama lista de códigos, y debe ser almacenada junto con los datos codificados, 

pues si no, el decodificador podría no tener forma de saber lo que representan los 

códigos. Si la lista de códigos es grande, la sobrecarga de almacenar la lista, puede 

disminuir, de forma importante la compresión alcanzada. 

77

Un esquema de compresión, desarrollado por Lempel-Ziv y Welch, normalmente 

llamado compresión LZW, evita tener que almacenar la lista de códigos. La compresión 

LZW tiene varias ventajas. Procesa los datos de forma secuencial, con lo que 

tiene pocos requerimientos de memoria. Se basa en que el codificador y el decodificador 

construyen la misma lista de códigos, a medida que la los datos son leídos de 

forma secuencial. El codificador sustituye una secuencia por su código, sólo cuando 

la secuencia se encuentra más de una vez. La primera vez que encuentra una secuencia, 

la escribe en su lista de códigos y escribe en la salida la secuencia sin codificar. 

El decodificador, por su parte, recibe esta secuencia y la coloca en su propia lista de 

códigos. Cuando el codificador ve una secuencia por segunda vez, escribe el código 

de su lista de códigos en la salida y el decodificador reconoce el código, porque ha 

generado una lista de códigos idéntica a la del codificador. 

La técnica de compresión LZW funciona bien en una gran variedad de casos. La 

tasa de compresión depende de los datos a comprimir. Por ejemplo, para dibujos, se 

puede conseduir una compresión de 16:1 o más. En el otro extremo, para fotografías 

escaneadas (como por ejemplo un paisaje), no se consigue compresión. Las compresiones 

típicas que se consiguen varían entre 9:1 y 2:1. Algunos formatos gráficos 

que usan este tipo de compresión son GIF, PostCript y TIFF. Otras utilidades de 

compresión, como compress de UNIX y arc de MS-DOS, también lo usan. 

Diferenciación Unidimensional 

La diferenciación es un esquema que trata de reducir el tamaño de cada elemento 

individual que forma la imagen. Los datos más pequeños se pueden codificar usando, 

entonces, menos bits. 

Las imágenes tienen, a menudo, valores parecidos en los pixels vecinos. En lugar 

de almacenar los valores de cada pixel, se almacena la diferencia entre el valor del 

pixel actual con el anterior (excepto para el primer pixel, cuyo valor sí se almacena). 

En muchos casos, la diferencia es mucho menor en magnitud que los valores 

origianales. Este esquema es el mismo que la modulación delta, vista para compresión 

de audio y voz. 

Combinando diferenciación con un método de minimización (método 3), se pueden 

conseguir tasas de compresión que varían enre 1.5:1 y 3:1. Estas tasas dependen de 

los datos. Alguos formatos gráficos que usan este tipo de compresión son: JPEG 

para la codificación sin pérdidas, JPEG y MPEG para los coeficientes de la DCT 

en compresión con pérdidas, y LANDSAT (Land Satellites) de la NASA. 

Reconocimiento de Patrones Bidimensionales 

Ahora se describen los esquemas más complejos, que tratan los datos como una 

matriz bidimensional. Se explotan los patrones que existen en subconjuntos bidi- 

78

mensionales de los datos. Hay varios esquemas posibles: 

Codificación Fractal: Encuentra patrones “auto-similares”. 

Codificación DCT: Usa la trasformada discreta del coseno. 

Diferenciación Bidimensional: Reemplaza cada dato con la diferencia con 

los anteriores. 

La codificación fractal está basada en una serie de transformaciones, en lugar de 

una transformación. La diferenciación en dos dimensiones es una extensión directa 

del esquema visto en una dimensión. La codificación DCT es un esquema que consigue 

una gran compresión, pero es un esquema con pérdidas. Reduce la significancia 

de muchos de los valores, lo que permite que los valores menos significantes puedan 

ser eliminados. 

Fractales 

Esta técnica de compresión reconoce patrones extensos contenidos en una imagen 

(o subconjuntos de una imagen). La idea principal es encontrar un conjunto 

de datos sencillo que se puede cambiar mediante transformaciones sucesivas, hasta 

convertirse en la imagen original (o una cercana aproximación). Estos pequeños 

conjuntos de datos son “auto-similares” a los datos originales. La compresión se consigue 

almacenando sólo el pequeño conjunto de datos y la serie de transformaciones. 

El proceso de codificación normalmente necesita grandes cantidades de tiempo para 

encontrar los patrones “auto-similares”. Se pueden conseguir tasas de compresión 

hasta de 1000:1 en algunos tipos de datos. Las tasas de compresiones más típicas 

varían desde 50:1 hasta 100:1. El nivel de compresión también depende del tipo de 

datos. 

Diferenciación Bidimensional 

La diferenciación bidimensional es distinta para imágenes bilevel (bloco y negro) 

y para imágenes en color. 

Diferenciación Bidimensional par Imágenes en Blanco y Negro: 

Los estándars de CCITT para Fax Grupo 3 y Grupo 4, definen un esquema de 

diferenciación para imágenes bilevel. La idea principal es la siguiente: la mayoría de 

los pixels “negros”están agrupados juntos en una página. Si estamos al final de un 

conjunto de pixels “negros”, convendría poder “saltar” los siguientes pixels blancos 

79

para llegar al siguiente grupo de pixels “negros” 1 . En un caso típico, la anterior línea 

escaneada nos da una buena referenca de adónde saltar en la línea actual. Saltar 

muchos pixels, usando la anterior línea como guía de referencia, puede proporcionar 

buenas compresiones sin pérdidas, para ciertos tipos de datos, como imágenes de 

texto. 

Este esquema está diseñado para imágenes bilevel. No es efectivo para imágenes 

en color, a no ser que haya grandes áreas del color de fondo en la imagen. 

Diferenciación Bidimensional para Imágenes en Color: 

La idea para imágenes en color es exactamente la misma que en el caso unidimensional, 

excepto que el valor de la diferencia no tiene porqué calcularse necesariamente 

a partir del valor del pixel anterior en la misma línea. 

Combinando la diferenciación bidimensional con un método de minimización 

(método 3), se pueden conseguir tasas de compresión desde 1.5:1 hasta 3:1. La compresión 

conseguida depende del tipo de datos. Algunos ejemplos de uso de este 

esquema de compresión, son el JPEG y el MPEG para compresión sin pérdidas. 

Esquema DCT 

Existen muchas transformaciones matemáticas que, en general, transforman un 

conjunto de valores de un sistema de medida a otro. Algunas veces, los datos representados 

en el nuevo sistema, tienen propiedades que facilitan la compresión de 

los datos. Algunas de estas transformaciones matemáticas, se han inventado para 

compresión y otras, usadas para otras aplicaciones, se han usado en compresión de 

datos. Una pequeña lista incluye: 

Transformada Discreta de Fourier (DFT). 

Transformada Discreta del Coseno (DCT). 

Transformadas de Hadamard-Haar (HHT). 

Transformadas de Karhunen-Loeve (KLT). 

Transformada de Slant-Haar (SHT). 

Transformada de Walsh-Hadamard (WHT). 

1 Los colores “blanco” y “negro” están entre comillas para indicar que su significado puede ser 

el contrario y la idea es la misma, es decir, cambiando el “blanco” por “negro” y viceversa. 

80

No voy a describir cada una de ellas, pues queda fuera de mi propósito. De todas 

las transformaciones anteriores, la DCT ha sido la técnica que ha predominado, y 

se ha usado en muchos formatos estándar de compresión. Las razones de esto son: 

La DCT tiene algunas propiedades computacionales apropiadas, principalmente 

un algoritmo rápido para hacer la transformada. 

Pruebas extensivas han mostrado que la DCT produce visualmente imágenes 

de mayor calidad, con tasas de compresión mayores que la mayoría de los otros 

esquemas de transformación. 

La DCT directa (FDCT) transforma un bloque de los datos originales al dominio 

transformado, mientras que la DCT inversa (IDCT), restaura los datos originales a 

partir de los del dominio transformado. En teoría no se pierde información cuando 

los datos se trasnforman y a continuación se restauran. Sin embargo, en la práctica, 

hay cierta pérdida de información debida a: 1) los valores del coseno no se pueden 

calcular de forma exacta, ya que son números transcendentales, 2) y cálculos repetidos 

usando números de precisión limitada introducen errores de redondeo en los 

resultados finales. La variaciones entre los datos originales y los restaurados suelen 

ser pequeñas, pero dependen del método usado para hacer la DCT. 

La DCT se puede aplicar a bloques de datos de cualquier tamaño, pero se ha 

visto, mediante pruebas, que con bloques de 8 × 8, se obtienen buenas tasas de 

compresión, manteniendo la calidad de la imagen. Además, cuando se empezaron 

a implementar comercialmente los métodos de compresión que usaban la DCT, un 

bloque de 8 × 8 se podía meter en un chip de lógica LSI, mientras que un bloque de 

16 × 16, no. 

En los esquemas de compresión de voz, ya se explicó la DCT unidimensional. La 

DCT bidimensional es una extensión de la anterior. Las relaciones que la definen, 

para un bloque de datos 8 × 8, son las siguientes: 

F DCT : S vu (v, u) = 1 ( ) ( ) 

7∑ (2x + 1)uπ (2y + 1)vπ 

4 C uC v cos 

cos 

x=0 

16 

16 

IDCT : s yx (x, y) = 1 ( ) ( ) 

7∑ (2x + 1)uπ (2y + 1)vπ 

4 C uC v cos 

cos 

y=0 

16 

16 

(4.8) 

(4.9) 

Igual que en una dimensión, se puede calcular la DCT a partir de la FFT bidimensional, 

extendiendo el bloque de datos de forma simétrica, en este caso para 

formar cuatro bloques con simetría, en vez de 2. La idea es como si tuvieramos el 

bloque original y 3 espejos, para formar entre los 4 una matriz de bloques, con dos 

filas y dos columas, siendo todas ellas simétricas en cada dirección. La imagen original 

se puede colocar en cualquiera de las 4 posiciones. Una vez hecha la FFT de la 

81

matriz 32 × 32, se coge sólo la submatriz correspondiente al bloque original. Para la 

transformada inversa, IDCT, se hace lo mismo con la IFFT. 

Algunos formatos gráficos que usan este tipo de compresión son: JPEG para 

compresión con pérdidas, MPEG para compresión con pérdidas de imágenes en 

movimiento, y el sistema de codificación del sistema de TV de alta definición (HDTV). 

Transformada Wavelet 

Este método se incluye entre los métodos de transformación junto con la DCT y 

todas las demás transformadas que he nombrado, pero debido a su importancia para 

la realización del proyecto, se tratará en el capítulo 5. Es un método cuya aplicación 

a compresión de imagen es relativamente reciente, por lo que no hay ningún formato 

gráfico estándar que lo use hasta el momento (o por lo menos que sea de uso común). 

Reconocimiento de Patrones Tridimensionales 

En esta sección se discuten esquemas que tratan un conjunto de datos como 

una matriz tridimensional de valores. Los esquemas de reconocimiento de patrones 

en tres dimensiones son extensiones naturales de los de una y dos dimensiones. 

Dos candidatos naturales al método de diferenciación en tres dimensiones son los 

datos volumétricos (como las tomografías computerizadas y las resonancias 

magnéticas) y los datos de vídeo, en los que una secuencia de imágenes fijas forma 

una imagen en movimiento. La compresión de datos volumétricos para medicina es 

uno de los objetivos del proyecto, por lo que se estudiará con mayor detenimiento. 

Aquí me voy a referir a algunos métodos de compresión de vídeo. A cada imagen 

que forma el vídeo, se le llama frame. 

El método de compresión de vídeo consiste, simplemente, en comprimir cada 

frame por separado (compresión intra-frame). Esto no es suficiente en muchos casos 

debido al gran número de frames que hay, hasta en secuencias muy cortas de vídeo. 

Se puede conseguir más compresión, aprovechando la redundancia que hay entre 

frames, debido al pequeño intervalo de tiempo entre frames consecutivos (compresión 

inter-frame). 

Diferencias entre frames 

Un esquema simple de compresión de vídeo, consiste en almacenar sólo los pixels 

que producen una diferencia distinta de cero, cuando se restan de los pixels correspondientes 

en el frame anterior. Los formatos de vídeo FLI y FLC usan este 

esquema. 

En el sistema FLI, el primer frame se codifica usando un esquema de codificación 

run-length. Los frames sucesivos se almacenan como “diferencias entre frames”, que 

82

es codificada como “líneas comprimidas”. Cada línea comprimida se compone de un 

conjunto de “paquetes run-length”, cada uno de los cuales está compuesto por tres 

valores: un salto, una longitud y un valor. El salto especifica el número de pixels 

que se saltan en la línea actual, a partir del pixel actual. Estos pixels se mantienen 

sin cambios desde el frame anterior. La longitud y el valor forman una codificación 

run-length. Se puede saltar una línea completa, si no se incluye ningún “paquete 

run-length” para ella. Este esquema se implementa fácilmente en software y es sin 

pérdidas, pero no permite altas tasas de compresión, en general. 

Compensación de Movimiento 

Otro esquema de compresión consiste en calcular las diferencias entre los pixels 

de frames consecutivos y codificar la diferencia, en lugar de los valores originales. 

Lo ideal es que las diferencias sean lo menor posibles, para mejorar la compresión. 

Como estamos tratando imágenes en movimiento, se puede asumir que los valores 

de los pixels se han desplazado de posición de un frame al siguiente. Si podemos 

encontrar ese desplazamiento, y calcular la diferencia con los pixels desplazados, 

podemos minimizar las diferencias. Esta técnica se conoce como compensación de 

movimiento. 

Realizar la compensación de movimiento de cada pixel por separado, no facilita 

la compresión, pues habría que almacenar el desplazamiento y la diferencia de cada 

pixel. Sin embargo, realizar la compensación de movimiento de un conjunto de pixels 

puede ser muy eficiente. Si desplazamos un bloque de pixels de un frame, de tal 

forma que todas las diferencias se minimicen, entonces se puede aumentar la tasa 

de compresión aunque tengamos que almacenar el desplazamiento del bloque con 

los datos comprimidos. El desplazamiento se conoce técnicamente como vector de 

movimiento y se representa mediante un par de números que indican el desplazamiento 

en horizontal y en vertical. 

La mayoría de los métodos que usan compensación de movimiento, como por 

ejemplo MPEG, suelen usarlo junto con otro método de compresión, normalmente 

la DCT, por lo que el tamáno de los bloques suele ser de 8 × 8 o 16 × 16. Para 

calcular el vector de movimiento usan un método de predicción. 

4.3.4. Método 2: Reducción de la Precisión 

En algunas ocasiones, los datos gráficos tienen mayor precisión de la que necesitan 

tener, como por ejemplo el caso de una imagen a todo color para ser usada en un 

artículo de periódico en blanco y negro. Si se conoce la aplicación final de una 

imagen, entonces se puede eliminar la precisión innecesaria de los datos originales, 

y la reducción de precisión se puede aprovechar para comprimir los datos. 

83

En otras ocasiones, la información gráfica recogida produce datos que son más 

precisos de lo que el ojo humano puede distinguir. Un ejemplo típico es el de una 

imagen obtenida mediante escaneado digital de una fotografía. Por ejemplo, parte 

de una línea de escaneado puede tener los siguientes valores (niveles de intensidad 

de gris): 

122 121 123 122 121 122 123 

No hay repetición en la secuencia, pero los valores de los datos son muy similares. 

De hecho, esta parte de la imagen es, básicamente, un nivel de gris constante para 

nuestro ojo, aunque el escáner haya detectado pequeñas variaciones de intensidad, 

que normalmente no son información necesaria. Para realizar este método se usa un 

cuantificador. 

Esto es lo mismo que ocurría con las señales de audio y de voz; podemos aprovechar 

el conocimiento del sistema visual humano para eliminar la información que no es 

capaz de distinguir, y de esta forma conseguir compresión. Por ejemplo, si tenemos 

una grabación de música con ruido de fondo. El ruido de fondo no es deseado, y 

puede corromper la pureza de la música. Por tanto, es beneficioso filtrar el sonido, 

aunque esto suponga perder parte de la información original. 

Lo mismo ocurre con nuestra imagen, la pequeña variación de intensidad, se 

puede considerar error, por lo que si se filtra, probablemente será más agradable 

para nuestro ojo. 

A pesar de las razones por las que puede interesar reducir la precisión de los 

datos, al hacerlo, tenemos un esquema de compresión con pérdidas, en el que los 

datos perdidos no pueden ser recuperados. Usado con moderación, puede facilitar la 

compresión de datos con una mínima pérdida de información para el ojo humano. 

Usado en exceso, puede producir cambios abruptos en los valores de intensidad de 

un pixel al siguiente, lo cual es muy perceptible para el ojo humano. 

Un esquema de compresión, que se puede englobar dentro de este grupo, específico 

para compresión de volúmenes es el diezmado de superficies. Debido a su uso 

dentro de la aplicación del proyecto, se describe al final del presente capítulo, en el 

apartado 4.3.7. 

4.3.5. Método 3: Minimización del Número de Bits 

El tercer método de compresión de datos consiste en la reducción del número 

total de bits para codificar los datos. El proceso de codificación asigna un valor 

de código único a cada elemento de los datos. Dependiendo del código usado, el 

valor puede representar a un sólo elemento de los datos, o bien a una secuencia 

de elementos. Hay muchos posibles esquemas de codificación, de los cuales voy a 

describir algunos de los principales. 

Códigos de longitud fija. Cada valor del código usa el mismo número de 

bits para su representación. 

84

Códigos de longitud variable. Todos los valores de código usados no son de 

la misma longitud; algunos códigos pueden tener sólo unos pocos bits, mientras 

que otros pueden tener muchos bits. Son códigos llamados de “entropía”, como 

por ejemplo los códigos de Huffman y aritmético. 

Código instantáneo. Dada una ristra de bits que representa una lista secuencial 

de valores de código, cada código puede ser reconocido de forma instantánea, 

cuando se recibe el último bit. No hace falta mirar en ningún sitio 

para reconocer que se ha recibido un valor de código completo. 

Ahora voy a describir, de forma un poco más concreta, algunos esquemas. 

Códigos de Desplazamiento 

Si en un conjunto de datos, en la mayoría de los elementos, los valores pertenencen 

a un pequeño subconjunto de los posibles valores, parece razonable seleccionar una 

longitud para el código que pueda representar este pequeño subconjuto de valores. 

Para los casos menos probables, en que un valor esté fuera de este subconjunto, 

se pone un código de “sobrecarga”, que señala el comienzo de otro conjunto de 

códigos, usados para representar estos valores que no ocurren tan a menudo. Se 

consigue compresión, porque la mayoría de los valores se codifican con un número 

mínimo de bits. 

Un sistema que usa este esquema es el LANDSAT de la NASA, que como hemos 

visto anteriormente, emplea también diferenciación unidimensional. Observaron que 

la mayoría de las diferencias estaban comprendidas entre -7 y +7, y muy pocas 

estaban fuera de este rango (entre -128 y -7 ó +7 y +127), por lo que se puede usar 

4 bits, en lugar de 8 bits. Los códigos de sobrecarga pueden ser 0000 para valores 

menores de -7 y 1111 para valores mayores o iguales de +7. 

Este tipo de código es muy directo y fácil de implementar. La compresión típica 

que consigue está entre 2:1 y 3:1 y varía según los datos a comprimir. 

Códigos Huffman 

Fueron inventados, como su propio nombre indica por D. A. Huffman en 1952. 

Asignan una longitud de código variable a cada elemento de datos, de forma que 

los valores que ocurren más a menudo en el conjunto de datos, tienen códigos de 

menor longitud y los menos probables tienen códigos de mayor longitud. Dada la 

probabilidad de ocurrencia de cada valor en los datos, el algoritmo de Huffman puede 

crear una asignación de códigos automática para cada valor. 

El algoritmo de Huffman se describe en cualquier libro de compresión, por ejemplo 

en [8]. Este esquema de compresión, y el que se describe después, de codificación 

aritmética, se suelen usar junto con otros esquemas (a continuación de ellos) de 

85

Probabilidades 

por Simbolo 

Palabra 

Codigo (0) 

0 0.5 0.5 0.5 0.5 0.5 0.5 1.0 

11 

(0) 

0.2 0.2 0.2 0.2 0.3 0.5 

(1) 

1000 

(0) 

0.1 0.1 0.12 0.18 0.2 

(1) 

1001 

(0) 

0.08 0.08 0.1 0.12 

(1) 

1011 

0.05 

(0) 

0.07 

0.08 

(1) 

10100 

(0) 

0.04 0.05 

(1) 

10101 

0.03 

(1) 

Figura 4.5: Ejemplo de codificación Huffman. 

compresión vistos, como transformación, predicción, sub-bandas, . . . , pues es mucho 

más eficiente codificar los datos de salida con un código de longitud variable que 

de longitud fija. 

El algoritmo comienza ordenando los elementos a codificar, según su probabilidad 

de ocurrencia en orden descendente, como se muestra en el ejemplo de la Fig. 4.5. 

En la segunda columna aparecen las probabilidades asociadas con los niveles de salida 

de una fuente de 7 símbolos. En la siguiente columna, se han sumado las dos 

probabilidades más pequeñas, y la probabilidad combinada se incluye (reordenada) 

en la tercera columna. El algoritmo prosigue de la misma forma hacia la derecha, 

hasta que se llega a una única probabilidad de 1.0. Ahora se asigna a cada probabilidad 

que ha entrado en una combinación un “1” o un “0” y leyendo estos bits de 

derecha a izquierda, se forman las palabras de código que aparecen en la columna 

de la izquierda. 

Si en vez de hacer una codificación con un número variable de bits, usáramos 

un código de longitud fija, necesitaríamos 3 bits de longitud (en teoría log 2 7 = 2,81 

bits/símbolo). Con el código Huffman conseguimos una longitud media de 

7∑ 

¯L = P i L i = 2,17 bits/símbolo 

i=1 

86

donde P i es la probabilidad por símbolo y L i la longitud por símbolo. 

Se define entropía por símbolo de un código, como aparece en [2], de acuerdo 

con la teoría de la información como 

N∑ 

H = − P i log 2 P i (4.10) 

i=1 

donde N es el número de símbolos, 7 en el ejemplo. La entropía por símbolo representa 

el contenido de información del código. No se puede diseñar un código con una 

longitud media por debajo de este valor (perderíamos información). En el ejemplo, 

la entopía por símbolo vale 2.15 bits/símbolo. Desafortunadamente, no hay un código 

para alcanzar este límite teórico de longitud, pues habría que asignar un número 

fraccionario de bits a una palabra de código. La codificación Huffman, aunque no es 

óptima, es una buena aproximación. 

El código Huffman, como indica [6], produce lo que se llama un código mínimo. 

Esto quiere decir que las asignaciones de códigos de Huffman son “lo mejor que se 

puede hacer” cuando se crea un esquema de codificación uno-a-uno (una palabra 

de código para cada elemento original). Los códigos de Huffman producen tasas de 

compresión típicas desde 1.5:1 a 2:1, pero dependen de los datos. 

Hay dos posibilidades básicas para crear los códigos de Huffman: 

Crear un código de Huffman genérico para una clase de datos general y que 

funcione bien en el “caso genérico”. 

Crear un nuevo código de Huffman para cada conjunto de datos que se codifiquen. 

Si se crea un código cada vez que se codifica un conjunto de datos, debemos 

almacenarlo junto con los datos comprimidos, para que el decodificador sepa interpretar 

las palabras de código. Esto reduce la eficiencia de la compresión. Si usamos 

un código de Huffman genérico, entonces no será el óptimo para el comjunto de 

datos comcreto a comprimir, pero no tenemos que almacenarlo. El mejor esquema 

depende del tamaño de los datos a comprimir (a mayor tamaño, menor sobrecarga 

supone guardar la tabla de traducción) y de la cantidad de similitudes que se pueden 

encontrar para el conjunto de imágenes a las que se aplica el mismo código genérico. 

Los códigos Huffman se usan en muchos formatos gráficos y esquemas de compresión 

genéricos. Entre los primeros se encuentra, por ejemplo, el Fax Grupo 3 de 

la CCITT, que lo usa para comprimir los valores de run-length; en JPEG y MPEG 

se usa para codificar los valores de cada bloque. 

Codificación Aritmética 

Los códigos aritméticos se basan en los valores de secuencias de datos. En lugar 

de asignar un código único a cada elemento individual de los datos, este esquema 

87

Salto 

Minimizacion de la 

cantidad de datos 

Mapeado 

Minimizacion de la 

precision de datos 

Cuantificacion 

Minimizacion del num. 

bits por elemento de datos 

Codificacion 

Repeticion 

Figura 4.6: Combinaciones típicas de métodos de compresión. 

produce una serie de valores, que corresponden a secuencias únicas de datos. Se usa 

la probabilidad de ocurrencia de cada dato individual para crear las palabras de 

código. No voy a descibir aquí la realización concreta de este tipo de algoritmo de 

compresión. Más información y ejemplos se pueden encontrar por ejemplo en [6] y 

[8]. 

La codificación aritmética es más compleja de implementar y entender que la 

codificación Huffman, que he explicado por su sencillez y gran utilización. Sin embargo, 

puede producir entre un 5 % y un 10 % de mayor compresión. 

4.3.6. Combinación de Métodos de Compresión 

Algunos esquemas de compresión, como ya se ha indicado en los párrafos anteriores, 

combinan dos o más de los métodos explicados anteriormente, para conseguir 

tasas de compresión mayores de las que se puede conseguir con un sólo esquema 

de forma individual. Las posibilidades de combinación de esquemas que se pueden 

hacer son muy grandes, pero un esquema típico de compresión se consigue con un 

proceso secuencial de transformación, reducción de precisión y codificación. La codificación 

es siempre la etapa final del proceso, pero a veces hay varias iteraciones de 

transformación y reducción. Este proceso se muestra en la Fig. 4.6. 

En la mayoría de los casos, la distinción entre los esquemas de compresión sin 

pérdidas y con pérdidas, depende de la exclusión o inclusión de la etapa de cuantificación. 

Los esquemas que incluyen etapa de cuantificación, son siempre con pérdidas. 

Los esquemas de compresión sin pérdidas pueden conseguir una tasa de compresión 

limitada. No describo aquí los métodos de compresión estándar, como JPEG 

y MPEG, que usan básicamente combinaciones de los esquemas que he explicado. 

Una descripción de los mismos se puede encontrar por ejemplo en [6]. 

88

4.3.7. Diezmado de Superficies 

Este esquema de compresión, se puede englobar, como ya se dijo anteriormente, 

dentro de los métodos que reducen la precisión (método 2). Pero como es un método 

que se emplea para la realización del proyecto, se ha creído más conveniente 

describirlo en otro apartado. 

Como todos los esquemas que reducen la precisión de los datos, es un esquemas 

de compresión con pérdidas. Por otro lado, como en casi todos los métodos de 

compresión de datos volumétricos, se busca que reduzca bastante el tamaño de los 

datos, aunque se incluya cierto error o distorsión. 

Las técnicas de reducción de polígonos [12], [14], reducen el número de 

polígonos necesarios para modelar un objeto. El tamaño de los modelos, en términos 

del número de polígonos, ha crecido tremendamente durante los últimos años. La 

causa de esto es que muchos modelos se han creado usando dispositivos digitales 

de medida, tales como escáners láser o satélites. Estos dispositivos pueden generar 

datos a tasas enormes. Por ejemplo, un digitalizador láser puede generar del orden 

de quinientos mil triángulos en una exploración de 15 segundos. Los algoritmos de 

visualización, como marching cubes, descrito en el apartado 3.4, también pueden 

generar un gran número de polígonos. Por ejemplo, un número típico de triángulos 

generados mediante marching cubes para un volumen de 512 3 , es de uno a tres 

millones. 

Una técnica de reducción de polígonos es el algoritmo de diezmado [12]. El 

objetivo de este algoritmo es reducir el número total de triángulos de una malla triangular, 

manteniendo la topología original y obteniendo una buena aproximación a 

la geometría original. Una malla triangular es una forma especial de malla poligonal, 

en la que todos los polígonos son triángulos. Si es necesario, una malla poligonal se 

puede convertir en malla triangular, usando algún método de triangulación, como el 

método de Delaunay, descrito por ejemplo en [12], pág. 398. En nuestro caso, como 

usamos el método de obtención de isosuperficies marching cubes, ya tenemos una 

malla triangular. 

Algunas características del algoritmo de diezmado son las siguientes: 

Sólo trata mallas triangulares. 

La elección de qué puntos borrar es función del criterio de diezmado, una 

medida del error local introducido al borrar un punto. 

La triangulación del hueco creado al borrar el punto se llava a cabo de forma 

que se preserven los bordes u otras carcterísticas importantes. 

El algoritmo de diezmado se lleva a cabo visitando iterativamente cada punto de la 

malla triangular. Para cada punto se llevan a cabo tres pasos, como se muestra en 

la Fig. 4.7, clasificación del punto, criterio de diezmado y triangulación. 

89

Clasificacion del Vertice 

Simple Complejo Fronterizo Borde 

Esquina 

Interior 

Distancia al Plano 

Evaluacion del Error 

distancia a la Linea 

d 

d 

Triangulacion 3D 

Recursiva 

Triangulacion 

Subdivision 

con planos 

Figura 4.7: Los tres pasos del algoritmo de diezmado. 

90

Clasificación del Punto. El primer paso del algoritmo de diezmado caracteriza la 

geometría local y la topología de un punto dado. El resultado de la clasificación 

determina si el vértice es un posible candidato a ser borrado o no, y si lo es, 

que criterio usar. 

Cada punto se puede clasificar en cinco tipos distintos: simple, complejo, fronterizo, 

borde interior y esquina. En la Fig. 4.7 se muestra un ejemplo de cada 

uno de ellos. 

Un punto simple está rodeado por un ciclo completo de triángulos, y cada 

lado que está conectada a ese punto, es usado por dos triángulos, exactamente. 

Si el lado no es usado por dos triángulos, o si el punto es usado por un triángulo 

que no esté en el ciclo de triángulos, entonces el punto es complejo. Un 

punto que está en la frontera de la malla, que está dentro de un semiciclo 

de triángulos, es un punto fronterizo. Un punto simple, se puede además 

clasificar en: borde interior y esquina. Estas clasificaciones se basan en la 

geometría local de la malla. 

Si el ángulo entre las normales a la superficie de dos triángulos adyacentes, 

es mayor que un determinado ángulo característico, entonces existe un borde 

característico. Cuando un punto es usado por dos bordes característicos, el 

punto es un borde interior. Si uno, tres, o más bordes característicos usan 

el punto, entonces el punto es una esquina. 

Los vértices complejos y las esquinas no se borran de la malla triangular; todos 

los demás puntos son candidatos a ser borrados. 

Criterio de Diezmado. Una vez que tenemos un candidato a ser borrado, estimamos 

el error que resultaría de borrar el punto y reemplazarlo (y sus triángulos 

asociados) con otra triangulación. Hay varias posibles medidas del error, 

pero la más simple está basada en distancias de planaridad local o colinearidad 

local (Fig. 4.7). 

En la región local que rodea a un punto simple, la malla se considera “casi 

plana”, ya que por definición no hay ángulos característicos. Los puntos simples 

usan una medida del error basada en la distancia al plano. El plano que pasa 

a través de la región local se puede calcular, por ejemplo, mediante mínimos 

cuadrados. 

Los puntos clasificados como fronterizos o bordes interiores, se considera 

que están en un borde, y usan como medida de error la distancia al borde. Es 

decir, se calcula la distancia a la que se encuentra el punto candidato a ser 

borrado, al nuevo borde que se forma durante el proceso de triangulación. 

Un punto satisface el criterio de diezmado, d, si su medida de distancia es 

menor que d. En ese caso, el punto puede ser borrado. Todos los triángulos 

que usan el triángulo también se borran, dejando un hueco en la malla. El 

hueco se tapa mediante el proceso de triangulación local. 

91

Triangulación. Después de borrar un punto, el hueco resultante debe ser retriangulado. 

Aunque el hueco, definido por un bucle de bordes, es topológicamente 

bidimensional, generalmente es no-planar, con lo que no se pueden usar técnicas 

de triangulación 2D. En su lugar se usa una técnica recursiva especial 3D, 

del tipo “división y conquista”. 

El proceso es el siguiente. Se elige un plano inicial de división, para separar 

el bucle en dos sub-bucles. Si todos los puntos de cada sub-bucle están en 

lados opuestos del plano, entonces la división es válida. Además, se hace una 

comprobación de la relación de aspecto, para asegurarse de que el bucle 

generado no es demasiado largo y fino, produciendo triángulos como agujas. 

La relación de aspecto es el cociente entre la longitud de la línea de división y 

la mínima distancia de un punto del sub-bucle al plano de división. Si el plano 

de división no es válido, o no satisface el criterio de la relación de aspecto, 

se busca otro plano de división candidato. Una vez encontrado un plano de 

división válido, continúa la división de cada sub-bucle recursivamente, hasta 

que se llega a un sub-bucle que contiene tres lados. En este caso, el sub-bucle 

genera un triángulo y se para el proceso recursivo. 

En algunas ocasiones, la triangulación falla, a causa de que no se encuentran 

planos de división válidos. En este caso, el punto candidato no se borra, y 

la malla se deja en su estado original. Esto no es ningún problema para el 

algoritmo, y el diezmado continúa visitando el siguiente punto de la malla. 

Resultados. Relaciones de compresión típicas varían de 2:1 a 100:1, siendo 

10:1 una cifra nominal para mallas “grandes” (por ejemplo con 10 5 triángulos). Los 

modelos de CAD, típicamente son los que menos se reducen, ya que tienen muchos 

bordes agudos y otras características detalladas; además los modeladores de CAD 

suelen producir triangulaciones mínimas. Los datos de terreno, especialmente de 

zonas relativamente planas, pueden reducirse hasta 100:1. 

La ventaja del diezmado con respecto al sub-muestreado, es que con el diezmado, 

la malla se modifica adaptativamente para retener los máximos detalles en 

las áreas de máxima curvatura. El diezmado elimina puntos de forma homogénea, 

independientemente de las características de los mismos. 

Técnicas Avanzadas 

La reducción de polígonos es un campo de investigación en estos momentos. Se 

han presentado muchos algoritmos más allá del diezmado. Dos de las principales 

líneas de estos algoritmos son: 

Esquemas progresivos: permiten transmisión incremental y reconstrucción de 

mallas triangulares. Esto es especialmente importante para visualización de 

geometría basada en la Web, o usada para ser transmitida a través de una red. 

92

Algunos algoritmos recientes modifican la topología de la malla. Esto es esencial 

para obtener niveles arbitrarios de reducción de la malla. 

Una red progresiva está formada por una serie de mallas triangulares, M i , 

relacionadas entre sí por las operaciones 

( ˆM = M n ) → . . . → M 1 → M 0 (4.11) 

donde ˆM y M n representan la malla a resolución completa, y M 0 es una malla base 

simplificada. La característica clave de las mallas progresivas, es la posibilidad de 

elegir las operaciones de la malla, de tal forma que sean invertibles. De esa forma, 

las operaciones se pueden aplicar en orden inverso (empezando con la malla base 

M 0 ) 

M 0 → M 1 → . . . → M n−1 → M n (4.12) 

para obtener una malla con el nivel deseado de reducción (asumiendo que el nivel 

de reducción es menor que el de la malla base M 0 ). 

Un operador invertible de ese tipo es la fusión del borde, y su inverso es la 

división del borde, mostrados en la Fig. 4.8(a). Cada fusión de un borde interior 

de la malla produce, como resultado, la eliminación de dos triángulos (o un triángulo 

si el vértice que se funde está un una frontera). La operación se representa por cinco 

valores 

Fusión/División de Borde(v s , v t , v l , v r , A) (4.13) 

donde v s es el vértice que se fusiona o se divide, v t es el vértice al que se fusiona 

o del que se divide, y v l y v r son dos vértices adicionales a la izquierda del borde 

fusionado o dividido. Estos dos vértices, junto con v s y v t definen los dos triángulos 

borrados o añadidos. A representa los atributos de información del vértice, que como 

mínimo contiene las coordenadas del vértice fusionado o dividido v s . 2 

El algoritmo de mallas progresivas, nos permite almacenar y transmitir de forma 

compacta las mallas de triángulos; sin embargo, se mantiene el problema de que el 

tamaño de la malla base es a menudo mayor que el nivel de reducción deseado. Como 

en algunas aplicaciones deseamos conseguir cualquier nivel de reducción, queremos 

que la malla base no tenga ningún triángulo 

( ˆM = M n ) → M n−1 → . . . → M 1 → (M 0 = M(V, ∅)) (4.14) 

Para conseguir esto, se extiende el operador de fusión/división de bordes –que conserva 

la topología– con un operador de división/fusión de vértices. Este operador 

modifica la topología de la malla y permite niveles de reducción arbitrarios. 

Se produce una división de la malla cuando reemplazamos el vértice v s con el 

vértice v t , para uno o más de los triángulos que usaban originalmente el vértice v s (Fig. 4.8(b)). 

2 En el contexto del algoritmo de diezmado, el operador de fusión del borde sustituye al proceso 

recursivo de triangulación. 

93

vr 

Fusion 

vr 

vs 

Division 

vt 

vt 

vl 

vl 

(a) Fusion/Division de borde 

vr 

Division 

vr 

vs 

Fusion 

vs 

vt 

vl 

vl 

(b) Division/Fusion de vertice 

Borde 

Interior 

Esquina 

Complejo 

Otros 

tipos 

(c) Division de veritices aplicada a varios tipos de puntos. 

Las lineas mas gruesas indican bordes caracteristicos. 

Figura 4.8: Operadores para crear mallas progresivas: fusión/división de bordes y 

división/fusión de vértices. 

94

Al nuevo vértice, v t , se le dan exactamante las mismas coordenadas que a v s . Las 

divisiones introducen una “rotura” o “agujero” en la malla. Es preferible no dividir 

la malla, pero para altas tasas de reducción, evita limitaciones de la topología y 

permite más diezmado. Sólo se realiza esta división de la malla cuando no se puede 

encontrar un lado válido para fusionar o cuando un vértice no puede ser triangulado 

(por ejemplo en los vértices complejos). Una vez ocurre la operación de división, se 

introducen los vértices v s y v t en la cola de evaluación de la eliminación de puntos. 

Dependiendo de la clasificación del punto se usan distintas técnicas de división 

Fig. 4.8(c)). Los vértices de los bordes interiores y de las esquinas, se dividen a lo 

largo de los lados característicos. Los vértices complejos se dividen en partes separadas, 

que sean topológicamente 2D. En cualquier otro tipo de vértice, la división 

se realiza separando de forma arbitraria el bucle, en dos partes. Por ejemplo, si un 

vértice simple no se puede borrar, porque no se encuentra un lado de fusión válido, el 

bucle de triángulos se divide automáticamente, de forma arbitraria, en dos mitades. 

De la misma forma que la fusión/división de bordes, la división/fusión de vértices, 

también puede representarse como una operación compacta. Una operación de división/fusión 

de vértices se puede representar con cuatro valores 

División/Fusión de Vértice(v s , v t , v l , v r ) (4.15) 

donde los vértices v l y v r definen una tira de triángulos (desde v r hasta v l ) que se 

van a separar del vértice original v s . 

95

Capítulo 5 

Transformada Wavelet 


Como ya hemos visto, la tomografía computerizada, la resonancia magnética y 

los ultrasonidos, tienen cada vez más importancia en los diagnóticos médicos. Sin 

embargo, el problema es su enorme tamaño, que hace de los datos obtenidos con 

estas técnicas, difíciles de manejar, almacenar y transmitir. Por tanto sería deseable 

una técnica de compresión de estos datos volumétricos, que aunque tenga pérdidas, 

mantenga la forma fundamental de los datos y sus estructuras. 

Pero además esta técnica debe ser multirresolución, es decir, permitir que unos 

datos se muestren a distintos niveles de resolución (según el nivel de compresión); 

e incluso, dentro de los mismos datos, la resolución varíe de unos puntos a otros. 

Esto último es especialmente importante en medicina, pues el médico, normalmente 

realiza su estudio y posterior diagnóstico a partir de una pequeña zona de los datos, 

en la que está la lesión, tumor, . . . Sin embargo, no le podemos dar exclusivamente 

una imagen de esta zona, pues debe tener una idea espacial de una zona más amplia. 

Por ello, nos interesa emplear una técnica que permita obtener una zona con mayor 

detalle (menor compresión) que el resto. 

Para conseguir distintas resoluciones de una señal (1D, 2D, 3D, . . . ), se han empleado 

a lo largo de los años distintos métodos, como codificación en sub-bandas mediante 

la transformada de Fourier o del coseno (descrita en el capítulo 4), armónicos 

esféricos, multirresolución piramidal . . . [9], [11]. El mayor problema de todas estas 

técnicas es que los resultados de la transformación no tienen localidad espacial, con 

lo que no se puede obtener una representación con distintos niveles de resolución 

de una imagen o volumen. También se han usado técnicas más complejas, como el 

modelo de Blobby [9], que permitía aproximar la forma de un objeto con un número 

pequeño de primitivas. Sin embargo, la aproximación de las primitivas a los datos, se 

realiza mediante un problema de minimización, que, además de sólo dar una solución 

local, implica un enorme número de operaciones. 

97

Una versión multirresolución de una señal (1D, 2D, 3D, . . . ), consiste en reorganizar 

la información de la señal en un conjunto de detalles, a diferentes resoluciones 

[11] (y una versión a baja resolución). Dada una secuencia de resoluciones crecientes 

(r j ) j∈Z , los detalles de la señal a la resolución r j , se definen como la diferencia de información 

entre su aproximación a la reolución r j y su aproximación a la resolución 

inferior, r j−1 . 

Una descomposición multirresolución nos permite tener una interpretación invariante 

con la escala del volumen, en nuestro caso. La escala varía con la distancia 

entre la escena y el centro óptico de la cámara. Cuando se modifica la escala, nuestra 

interpretación de la escena no debería cambiar. Una representación multirresolución 

puede ser parcialmente invariante con la escala, si la secuencia de los parámetros 

de resolución (r j ) r∈Z varía exponencialmente. Supongamos que existe un paso de 

resolución α ∈ R de tal forma que para todos los enteros j, r j = α j (en general se 

elige α = 2). Si la cámara se acerca α veces a la escena, cada objeto de la escena 

se proyecta sobre el plano focal de la cámara en un área α 2 veces mayor. Esto es, 

cada objeto se mide a una resolución α veces mayor. De esta forma, los detalles de 

la nueva imagen a la resolución α j , se corresponden con los detalles de la imagen 

previa a la resolución α j+1 . Reescalando el volumen por α, se trasladan los detalles 

de la imagen a lo largo del eje de resolución. Si los detalles de la imagen se procesan 

idénticamente en todas las resoluciones, entonces nuestra interpretación de la 

información del volumen no se modifica. 

Una representación multirresolución ofrece un sistema de organización jerárquico 

y sencillo para interpretar la información de la imagen. Esto se suele usar para reconocimiento 

de imágenes por ordenados, pero como el médico también tiene que 

reconocer e interpretar la imagen, es totalmente aplicable. A las diferentes resoluciones, 

los detalles de una imagen caracterizan estructuras físicas distintas de la 

escena. A muy baja resolución, los detalles forman las estructuras mayores, que 

proporcinan una información de contexto. Es interesante y adecuado, por tanto, 

analizar primero la imagen a baja resolución y progresivamente incrementar la 

resolución (posiblemente no en todas las zonas del volumen). 

La representación multirresolución es invertible, por lo que tenemos la misma 

información que en el volumen original (salvo por los pequeños errores de redondeo 

de todos los sistemas digitales). 

Al contrario que con otras representaciones multirresolución (como la piramidal) 

[11], con la transformada wavelet, los datos a distintos niveles están incorrelados, 

lo cual hace de esta transformada, la más adecuada para obtener nuestra 

representación multirreoslución de los datos y posterior compresión, pues al estar 

los datos incorrelados, no tenemos información redundante y se podrá hacer una 

representación más compacta. 

La transformada wavelet es una técnica de análisas de señal, que descompone una 

señal en una familia de funciones con propiedades de localidad, tanto en el dominio 

98

del espacio (tiempo en 1D), como en el de la frecuencia. Aplicando la transformada 

wavelet ortogonal en 3D, podemos expresar un volumen de datos, como una suma 

de funciones ortogonales (funciones de escalado y wavelets). Esto permite obtener 

una expresión multirresolución de los datos volumétricos. 

Para realizar una compresión del volumen, como es nuestro objetivo, lo que 

se hace es obtener la representación multirresolución del volumen, mediante la transformada 

wavelet ortogonal en 3D (compresor), para a continuación quedarnos sólo 

con las funciones, o coeficientes, más significativos, y eliminando el resto. Realizando 

la transformación inversa (descompresor), obtenemos una aproximación multirresolución 

(según el nivel de compresión) al volumen original, en la que, con un número 

pequeño de funciones, obtenemos las formas fundamentales del objeto. Además, como 

he dicho, se puede obtener una aproximación multirresolución, en el sentido 

de permitir distintas resoluciones dentro del mismo volumen de datos, debido a la 

localidad espacial y en frecuencia de la transformada wavelet. 

5.2. Expresión Multirresolución y Wavelets Ortogonales 

En primer lugar, voy a describir la transformada wavelet en una dimension, para 

a continuación, extenderla a 3 dimensiones; algo que será casi inmediato. 

Una expresión multirresolución de una función f(x), medible y de energía finita 

(f(x) ∈ L 2 (R)), como se indica en [11], [9], consiste en una jerarquía de espacios de 

aproximación a f(x), definidos a diferentes escalas. Llamamos A 2 j al operador que 

aproxima la señal a la resolución 2 j . Podemos caracterizar A 2 j por las propiedades 

que se pueden esperar de un operador de este tipo [11]: 

1. A 2 j es un operador lineal. Si A 2 jf(x) es la aproximación de una función f(x) a 

la reolución 2 j , entonces A 2 jf(x) no se modifica si lo aproximamos otra vez a la 

resolución 2 j . Este principio muestra que A 2 j ◦A 2 j = A 2 j. Por tanto, el operador 

A 2 j es un operador de proyección en el espacio vectorial V 2 j ⊂ L 2 (R). El 

espacio vectorial V 2 j se puede interpretar como todo el conjunto de posibles 

aproximaciones a la resolución 2 j de funciones en L 2 (R). 

2. Entre todas las funciones de aproximación a la resolución 2 j , A 2 jf(x) es la 

función más parecida a f(x) 

∀g(x) ∈ V 2 j, ‖g(x) − f(x)‖ ≥ ‖A 2 jf(x) − f(x)‖ (5.1) 

Por tanto, el operador A 2 j 

espacio vectorial V 2 j. 

es un operador de proyección ortogonal en el 

99

3. La aproximación de una señal a la resolución 2 j+1 contiene toda la información 

necesaria para calcular la misma señal a una resolución menor, 2 j . Esta en una 

propiedad de causalidad. Como el operador A 2 j es un operador de proyección, 

este principio es equivalente a 

∀j ∈ Z, V 2 j ⊂ V 2 j+1 (5.2) 

4. Una operación de aproximación es similar en todas las resoluciones. Los epacios 

de las funciones de aproximación deben derivarse por tanto uno de otro, 

escalando cada función de aproximación por la relación de sus valores de resolución. 

∀j ∈ Z, f(x) ∈ V 2 j ⇔ f(2x) ∈ V 2 j+1 (5.3) 

5. La aproximación A 2 jf(x) de una señal f(x), se puede caracterizar por 2 j muestras 

por unidad de longitud. Cuando se traslada f(x) una longitud proporcional 

a 2 −j (longitud proporcional a una muestra, es decir, un número entero 

de muestras), A 2 jf(x) se traslada la misma cantidad, y se caracteriza por las 

mismas muestras que han sido trasladadas. Como consecuencia de la Eq. (5.3), 

es suficiente con expresar esta propiedad a la resolución j = 0. Las traslaciones 

matemáticas consisten en lo siguiente: 

Caracterización discreta: 

Traslación de la aproximación: 

Existe un isomorfismo I de V 1 en I 2 (Z) (5.4) 

∀k ∈ Z, A 1 F k (x) = A 1 f(x − k), donde f k (x) = f(x − k) (5.5) 

Traslación de las muestras: 

I (A 1 f(x)) = (α i ) i∈Z ⇔ I (A 1 f k (x)) = (α i−k ) i∈Z (5.6) 

6. Cuando se calcula una aproximación de f(x) a la resolucción 2 j , se pierde parte 

de la información de f(x). Sin embargo, a medida que la resolución crece hacia 

+∞, la señal aproximada debe converger con la señal original. Por el contrario, 

a medida que la resolución disminuye hasta cero, la señal aproximada tiene 

menos y menos información y converge a cero. 

Como la señal aproximada a la resolución 2 j es igual a la proyección ortogonal 

sobre el espacio vectorial V 2 j, este principio se puede expresar de la siguiente 

forma 

+∞ lím V 2 

j→+∞ j = ⋃ 

V 2 j es denso en L 2 (R) (5.7) 

y 

j=−∞ 

lím 

j→−∞ V 2 j 

= +∞ ⋂ 

j=−∞ 

V 2 j = {0} (5.8) 

100

A cualquier conjunto de espacios vectoriales (V 2 j) j∈Z que satisface las Ecs. (5.2)- 

(5.8), se le llama aproximación multirresolución de L 2 (R). El conjunto asociado 

de operadores A 2 j que satisfacen las Ecs. (5.1)-(5.6), dan una aproximación de 

cualquier función de L 2 (R) a una resolcuión 2 j . 

Mallat [11] determinó la relación entre el análisis multirresolución y las transformadas 

wavelet, y presentó un método para construir una wavelet ortogonal, mediante 

la introducción de los siguientes tres teoremas: 

Teorema 1: Sea (V 2 j) j∈Z una aproximación multirresolución de L 2 (R). Entonces 

existe una única función φ(x) ∈ L 2 (R), llamada función de escalado, de tal 

forma que 

(√ 

2j φ(2 j x − n) ) (5.9) 

n∈Z 

es una base ortonormal de V 2 j. 

Teorema 2: Sea φ(x) una función de escalado, y sea h un filtro discreto con respuesta 

al impulso h(n) =< 2 −1 φ(2 −1 u), φ(u − n) >. Sea H(ω) la serie de 

Fourier definida por 

H(ω) = 

+∞ ∑ 

n=−∞ 

H(ω) satisface las siguientes propiedades: 

h(n)e −inω (5.10) 

|H(0)| = 1 y h(n) = O(n 2 ) en el infinito. 

|H(ω)| 2 + |H(ω + π)| 2 = 1. 

Por otro lado, sea H(ω) una serie de Fourier que satisface estas propiedades, 

y tal que 

|H(ω)| ≠ 0 para ω ∈ [0, π/2]. 

La función definida por 

ˆφ(ω) = 

+∞ ∏ 

p=1 

H(2 −p ω) (5.11) 

es la transformada de Fourier de la función de escalado. La notación ˆ indica 

transformada de Fourier. 

Teorema 3: Sea (V 2 j) j∈Z una serie de espacios vectoriales multirresolución, φ la 

función de escalado, y ¯h el correspondiente filtro conjugado. Sea ψ(x) la función 

cuya transformada de Fourier viene dada por 

( ) ( ) ω ω 

ˆψ(ω) = G ˆψ 

(5.12) 

2 2 

con 

G(ω) = 

+∞ ∑ 

n=−∞ 

g(n)e −inω = e −iω H(ω + π) (5.13) 

101

Sea O 2 j el complemento ortogonal de V 2 j, en V 2 j+1. V 2 j+1 se puede escribir 

como 

V 2 j+1 = V 2 j ⊕ O 2 j (5.14) 

Entonces: 

(√ 

2j ψ(2 j x − n) ) (5.15) 

n∈Z 

es una base ortonormal de O 2 j, y 

(√ 

2j ψ(2 j x − n) ) (5.16) 

(n,j)∈Z 2 

es una base ortonormal de L 2 (R). A ψ(x) se le llama wavelet ortonormal. 

Como hemos visto, la Ec. (5.9) constituye una base ortonormal de V 2 j, y la 

Ec. (5.15) constituye una base ortonormal de O 2 j . Por tanto, como indican [11], 

[10], podemos aproximar cualquier función de L 2 (R), f(x) a la resolución 2 j como 

A 2 jf = 

= 

+∞ ∑ 

n=−∞ 

+∞ ∑ 

n=−∞ 

< f(u), √ 2 j φ(2 j u − n) > √ 2 j φ(2 j x − n) 

(A d 2 jf) nφ(2 j x − n) (5.17) 

y la proyección ortogonal de f(x) sobre el espacio O 2 j, se descompone como 

P O2 j f = +∞ ∑ 

= 

n=−∞ 

+∞ ∑ 

n=−∞ 

< f(u), √ 2 j ψ(2 j u − n) > √ 2 j ψ(2 j x − n) 

(D 2 jf) n ψ(2 j x − n) (5.18) 

El símbolo < f(x), g(x) >, denota el producto interno de dos funciones L 2 (R), 

f(x) y g(x). A d 2 j f y D d 2 j f se llaman respectivamente aproximación discreta de 

f(x) y señal de detalle discreta de f(x) a la resolución 2 j . En la práctica, estas 

sumas se hacen sólo donde hay datos. 

En la Fig. 5.1, se muestra la función de escalado, φ(x) que se describe en [11] y 

el módulo de su transformada de Fourier, ˆφ(x). Se puede ver que las funciones de 

escalado son filtros paso bajo. Esto es lógico, pues van quitando detalle a la señal. 

Esta función de escalado es continuamente diferenciable y exponencialmente 

decreciente. En la Fig. 5.2, aparece la función wavelet ψ(x) asociada a la función 

de escalado de la Fig. 5.1 y el módulo de la Transformada de Fourier. Se puede 

ver que la función wavelet es un filtro paso banda, como es lógico, pues calcula los 

detalles de la señal. 

En lugar de calcular el producto interno de las Ecs. (5.17) y (5.18), podemos 

obtener los coeficientes mediante un filtrado en sub-bandas, mediante el algoritmo 

102

Figura 5.1: (a) Ejemplo de función de escalado φ(x), (b) Módulo de la transformada 

de Fourier ˆφ(x). Las funciones de escalado son filtros paso bajo. 

103

Figura 5.2: (a) Ejemplo de función wavelet ψ(x), (b) Módulo de la transformada de 

Fourier ˆψ(x). Las funciones wavelet son filtros paso banda. 

104

Figura 5.3: La aproximación discreta A d 2 j+1 f se descompone en A d 2 j f y D d 2 j f. 

Figura 5.4: Reconstrucción de la aproximación discreta A d 2 j+1 f a partir de A d 2 j f y 

D d 2 j f. 

piramidal que se muestra en la Fig. 5.3. h(n) y g(n) denotan los filtros reflejados. Por 

ejemplo h(n) = h(−n). A 2 j es el operador que aproxima una señal a una resolución, 

2 j . Aplicando recursivamente la misma operación de filtrado, A d 2 

f, podemos obtener 

j 

una expresión multirresolución de f(x). h(n) y g(n) denotan los filtros discretos de 

aproximación y detalle, definidos como 

h(n) =< 2 −1 φ(2 −1 u), φ(u − n) > (5.19) 

g(n) =< 2 −1 ψ(2 −1 u), φ(u − n) > (5.20) 

Como aparece en [11], a partir de las Ecs. (5.12) y (5.13), se puede obtener la relación 

entre g(n) y h(n) 

g(n) = (−1) 1−n h(1 − n) (5.21) 

Se puede reconstruir la aproximación A d 2 j+1 f, a partir de la aproximación a menor 

resolución, A d 2 j f, y el detalle, D d 2 j f, mediante una estructura de filtrado piramidal 

similar a la anterior, como se puede ver en la Fig. 5.4 [11]. No describo todos los 

detalles de la transformada wavelet directa e inversa; más información sobre las 

mismas se puede encontrar en la bibliografía. 

Nuestro objetivo es aproximar los datos volumétricos mediante funciones suavizadas, 

por lo que ponemos la tranformada wavelet inversa como: 

A 2 j+1f(x) = A 2 jf(x) + P O2 j f(x) 

= 

+∞ ∑ 

n=−∞ 

+∞ ∑ 

+ 

n=−∞ 

(A d 2 jf) nφ(2 j x − n) 

105 

(D 2 jf) n ψ(2 j x − n) (5.22)

Figura 5.5: Ejemplo de una transformada wavelet y su reconstrucción. 

donde P O2 j f(x) es la proyección ortogonal de f(x) en el espacio vectorial O 2 j. 

En al Fig. 5.5 se muestra un ejemplo de transformada wavelet directa, de una 

función unidimensional, f(x) y su reconstrucción. En la Fig. 5.5(a) aparece una 

función continua f(x); en la Fig. 5.5(b), se muestra la aproximación discreta A d 1f(x), 

que se obtiene muestreando f(x) en 64 puntos. Aplicando el esquema piramidal de 

filtrado que aparece en la A d 1 f, la señal discreta A d 1f(x) se descompone en A d 1 f y 

2 

2 

D 1 f, como se muestra en las Figs. 5.5(c) y 5.5(d). La Fig. 5.5(e) es la aproximación 

2 

A 1 f, que se reconstruye con el primer término de la Ec. (5.22), y la Fig. 5.5(f) es la 

2 

aproximación continua A 1 f, obtenida sumando el segundo término de la Ec. (5.22) 

a A 1 f. Se puede ver claramente que los detalles de la señal A d 1f, que se pierden 

2 

después de la degradación a A 1 f, se conserva en la señal de detalle D 1 f. Estas dos 

2 

2 

señales no están correladas. 

5.3. Transformada Wavelet 3D 

Como lo que queremos es aplicar una transformada wavelet ortonormal sobre 

datos volumétricos, debemos extender la transformada wavelet, vista en el apartado 

anterior, a tres dimensiones [9], [10]. 

Sea V2 1 j 

usamos 

el espacio vectorial de la aproximación multirresolución de L 2 (R), y 

V 2 j = V 1 2 j ⊗ V1 2 j ⊗ V1 2 j (5.23) 

106

como aproximación multirresolución de L 2 (R 3 ). Como V2 1 se escribe 

j+1 

V 1 2 j+1 = V1 2 j ⊗ O1 2 j (5.24) 

V 2 j+1 

se puede escribir como 

V 2 j+1 = 

= (V 1 2 j ⊗ V1 2 j) ⊗ (V1 2 j ⊗ V1 2 j) ⊗ (V1 2 j ⊗ V1 2 j) 

= (V 1 2 j ⊗ V1 2 j ⊗ V1 2 j) 

⊗(V 1 2 j ⊗ V1 2 j ⊗ O1 2 j) 

⊗(V 1 2 j ⊗ O1 2 j ⊗ V1 2 j) 

⊗(V 1 2 j ⊗ O1 2 j ⊗ O1 2 j ) 

⊗(O 1 2 j ⊗ V1 2 j ⊗ V1 2 j) 

⊗(O 1 2 j ⊗ V1 2 j ⊗ O1 2 j ) 

Esto significa que la función de escalado 3D 

⊗(O 1 2 ⊗ j O1 2 ⊗ j V1 2 j) 

⊗(O 1 2 ⊗ j O1 2 ⊗ j O1 2j) (5.25) 

Φ(x, y, z) = φ(x)φ(y)φ(z) (5.26) 

forma una base ortonormal de V 2 j, y así se puede construir una base ortonormal de 

L 2 (R 3 ) con las siguientes siete wavelets 3D: 

Ψ 1 (x, y, z) = φ(x)φ(y)ψ(z), 

Ψ 2 (x, y, z) = φ(x)ψ(y)φ(z), 

Ψ 3 (x, y, z) = φ(x)ψ(y)ψ(z), 

Ψ 4 (x, y, z) = ψ(x)φ(y)φ(z), 

Ψ 5 (x, y, z) = ψ(x)φ(y)ψ(z), 

Ψ 6 (x, y, z) = ψ(x)ψ(y)φ(z), 

Ψ 7 (x, y, z) = ψ(x)ψ(y)ψ(z) (5.27) 

De forma similar, a la Fig. 5.3, la descomposición wavelet 3D de un conjunto de datos 

volumétricos, se puede realizar mediante las operaciones de filtrado que aparecen en 

la Fig. 5.6, en la que se puede ver como en primer lugar se realiza una transformada 

de todas las filas en la dirección x (igual que la transformada 1D); a continuación, 

de las columnas en la dirección y; y por último en profundidad, en la dirección z. 

Colocando las señales de salida de las operaciones de filtrado como se muestra 

en la Fig. 5.7, en la que se muestran tres niveles de transformación de un volumen 

de datos de dimensiones 128 × 128 × 128, se puede ver que no hay pérdida de 

información. En otras palabras, los detalles de los datos volumétricos, A d 2 j+1 f, que se 

107

Figura 5.6: Una aproximación discreta, A d 2 j+1 f, se descompone en la aproximación 

discreta a menor resolución, A d 2 j f, y siete detalles, desde D 1 2 j f hasta D 7 2 j f. 

Figura 5.7: Expresión multirresolución de unos datos volumétricos de tamaño 128 × 

128 × 128. 

108

pierden después de la degradación a A d 2 j f, se dividen en 7 direcciones y se conservan 

en las señales de detalle, desde D 1 2 j f hasta D 7 2 j f. Aplicando sucesivas veces estas 

operaciones, se obtiene la expresión multirresolución de los datos volumétricos, 

como se puede ver en la Fig. 5.7. 

A partir de las señales anteriores, la aproximación a la resolución 2 j del volumen 

f(x, y, z), se puede reconstruir como 

A 2 jf(x, y, z) = ∑ 

(A d 2 jf) (n,m,l)Φ(2 j x − n, 2 j y − m, n2 j z − l) (5.28) 

n,m,l 

y añadiendo las funciones de detalle 3D a la resolución 2 j , 

∑ 

P O2 f(x, y, z) = [ 

j 

n,m,l 

(D 1 2 jf) (n,m,l)Ψ 1 (2 j x − n,2 j y − m, 2 j z − l) 

+ (D 2 2 jf) (n,m,l)Ψ 2 (2 j x − n,2 j y − m, 2 j z − l) 





+ (D 7 2 jf) (n,m,l)Ψ 7 (2 j x − n,2 j y − m, 2 j z − l)] (5.29) 

podemos reconstruir la aproximación de 2 j+1 de f(x, y, z). Esto indica que cualquier 

volumen de datos se puede aproximar como una suma de funciones, que son versiones 

desplazadas y dilatadas de 8 tipos de funciones 3D. 

5.4. Transformada Wavelet para Compresión 3D 

Como acabamos de ver, a partir de la expresión multirresolución de los datos 

volumétricos, podemos obtener la aproximación continua de la función original 

A 1 f(x, y, z). De forma simplificada, se puede escribir 

A 1 f(x, y, z) = 

N×M×L ∑ 

i=1 

c i f i (x, y, z) (5.30) 

donde f i (x, y, z) representan las versiones desplazadas y retrasadas, tanto de la función 

de escalado 3D, como de las wavelets 3D, y c i representa los coeficientes wavelet, 

como aparecen en el ejemplo de la Fig. 5.7. N, M y L son las dimensiones del volumen. 

Sin embargo, se observa que muchos (la mayoría) de los coeficientes de esta 

ecuación son despreciables, por lo que se puede reconstruir una buena aproximación 

109

de los datos originales, tomando sólo los términos significantes. Considerando el 

efecto de dilatación de cada función, definimos la significancia de cada término 

como el valor 

significancia = 8 −j |c i |. (5.31) 

A continuación obtenemos la serie c , if , i(x, y, z), ordenando la serie c i f i (x, y, z), por 

orden de significancia. Cogiendo sólo los P términos mayores, con P < (N ×M ×L), 

la Ec. (5.30) se puede aproximar por 

P∑ 

A 1 f(x, y, z) ≃ c , if i(x, , y, z) (5.32) 

i=1 

Cuantas menos funciones usemos para aproximar los datos volumétricos, menos 

detalle tendremos (más error), y por tanto una versión a más baja resolución. Sin 

embargo, al eliminar funciones, obtenemos una mayor compresión. Cuantos más 

funciones usemos, mayor resolución obtendremos, y por tanto más se parecerá al 

original (menor error), pero conseguiremos menor compresión de los datos. 

Este método de compresión se puede englobar dentro de los métodos de compresión 

por transformación. Además, es un método de compresión con pérdidas. Una 

de las ventajas principales de este método de compresión, es que es multirresolución, 

como se verá en el apéndice A. 

110

Capítulo 6 

Descripción de la Aplicación 

En este capítulo se describe el programa realizado para comprimir datos volumétricos, 

así como para visualizar, renderizar, e interactuar con los datos renderizados. 

Para todo ello se ha desarrollado una interfaz gráfica de usuario (GUI) bastante 

completa, que nos permite de forma sencilla realizar todas estas tareas. 


La radiología es una disciplina médica que trata con imágenes y datos de la 

anatomía humana. Estas imágenes se obtienen, como ya se ha descrito anteriormente, 

de distintos dispositivos, como rayos-x, tomografía computerizada, resonancia 

magnética y ultrasonido. Cada una de estas técnicas tiene sus ventajas y sus 

inconvenientes. 

Normalmente los radiologistas usan imágenes bidimensionales, pero hay situaciones 

en las que los modelos tridimensionales pueden ayudar a los diagnósticos de 

estos profesionales. La razón del uso más común de las imágenes bidimensionales 

son obvias: están más acostumbrados y entrenados para entender las complejas relaciones 

anatómicas en estas representaciones 2D; además hay muchas menos unidades 

de exploración que permitan obtener resultados tridimensionales. 

Sin embargo, muchas veces, los radiologistas tienen dificultades para explicar 

estas relaciones a los cirujanos. Después de todo, estos últimos trabajan en tres 

dimensiones al planear y ejecutar las operaciones, y se sienten mucho más cómodos 

mirando representaciones 3D. 

En principio, el programa está pensado para estudiar los resultados obtenidos 

mediante dos métodos distintos de compresión de datos volumétricos: transformada 

wavelet y diezmado de isosuperficies. En estos métodos se pueden variar 

gran cantidad de parámetros, para llegar a obtener los valores óptimos, que nos den 

111

los mejores resultados, según el caso. Estos valores óptimos podrán variar dependiendo 

del tipo de aplicación (local, cliente-servidor en una red, . . . ). 

En una posterior aplicación, se fijarán estos parámetros (o se permitirá un 

pequeño número de variaciones, dependiendo del caso). Esta aplicación estará pensada 

para ser ejecutada por profesionales de la medicina, poco familiarizados, en 

principio, con las aplicaciones informáticas y telemáticas, y mucho menos con la 

compresión volumétrica. 

Pese a ello, la interfaz gráfica de usuario es bastante manejable, y se ha tenido 

cuidado en mostrar mensajes de error, deshabilitar entradas de menús que no se 

deben ejecutar en determinadas situaciones, por no disponer de los datos para realizar 

esas operaciones, etc. 

6.2. Tareas a Realizar 

Durante una ejecución normal del programa, el usuario realiza las siguientes 

operaciones: 

Selección y lectura de ficheros con los datos volumétricos. Estos ficheros son el 

resultado de aplicar una tomografía computerizada, una resonancia magnética, 

o una exploración mediante ultrasonidos a un paciente. Lo normal es que, debido 

a su enorme tamaño, los datos se encuentren divididos en varios ficheros, 

uno para cada “rodaja” de la exploración. Estos ficheros estarán todos en el 

mismo directorio y tendrán el mismo nombre, salvo la extensión, que será el 

número de rodaja al que corresponde el fichero. Para abrirlos se debe seleccionar 

el primer fichero de los que se quieren abrir y el último (en este orden). 

Otra posibilidad es que todo el conjunto de datos volumétricos se encuentre 

en el mimso fichero. Ambas posibilidades están contempladas en la aplicación. 

Procesado de los datos. Dependiendo del método de compresión usado, este 

procesado puede ser de dos tipos: 

• Compresión mediante transformada wavelet: esta transformada se realiza 

directamente sobre los datos en volumen. Por ello, en primer lugar 

se realiza la compresión y a continuación se obtienen la isosuperficie que 

se desea visualizar. 

• Compresión mediante diezmado: este tipo de compresión se realiza sobre 

la isosuperficie obtenida, disminuyendo el número de triángulos. Por ello 

se debe obtener en primer lugar la isosuperficie del valor deseado, para 

realizar, a continuación, el diezmado de la misma. 

Visulización y renderización de la isosuperficie, para poder ser observada sobre 

la pantalla. Ahora el usuario puede interactuar con el volumen renderizado en 

pantalla, girándolo, desplazándolo, cambiando el zoom, . . . 

112

Obtención de detalle. Si se ha empleado el método de compresión basado en la 

transformada wavelet, se podrá obtener la imagen a la resolución seleccionada, 

pero con una zona de la misma en la que se muestra el detalle completo (toda 

la resolución). 

Almacenamiento de la isosuperficie o de la renderización. Si lo desea, el usuario 

podrá almacenar en un fichero el resultado obtenido, para una posterior visualización. 

Si desea hacer una visualización interactiva, deberá guardar la 

isosuperficie, mientras que si sólo desea ver una imagen fija, guardará la renderización. 

Cálculo del error de compresión. Una vez obtenida la compresión de los datos 

volumétricos, el usuario podrá calcular el error cometido. Hay varios métodos 

para calcular el error, que se explicarán más adelante. 

6.3. Interfaz Gráfica de Usuario (GUI) 

La interfaz gráfica de usuario es el elemento principal de interacción entre el 

usuario y la máquina, permitiendo tanto la entrada, como la salida de información. 

Las interfaces gráficas de usuario tienen cada vez mayor importancia en la programación 

de aplicaciones informáticas, pues es lo primero que el usuario final ve, 

y el elemento de al aplicación con el que interactúa. Así, un programa excelente 

con una interfaz gráfica de usuario deficiente o nula, lo más normal es que no tenga 

éxito, a no ser que el programa no tenga competencia. 

Hace algunos años, la mayor parte de las aplicaciones informáticas carecían de interfaz 

gráfica; sobre todo, antes de surgir los sistemas de ventanas (como X-Windows 

y MS-Windows). Es fácil darse cuenta de las ventajas de trabajar con un sistema 

de ventanas y menús, frente a un interfaz que sólo tenga elementos textuales. 

Por otro lado, una interfaz gráfica de usuario debe permitir un aprendizaje rápido 

y un uso intuitivo del funcionamiento básico del programa, incluso para usuarios 

sin experiencia. No debe ser muy complicada, ni recargada, evitando así producir 

cansancio sobre el usuario. 

En la Fig. 6.1 se muestra la interfaz gráfica de usuario general del programa. 

A continuación voy a describir los elementos principales de la interfaz gráfica de 

usuario de la aplicación. 

6.3.1. Sistema de Menús 

En la parte superior de la Fig. 6.1, se puede ver la barra de menús usada para 

realizar todas las operaciones descritas anteriormente. Se ha elegido un sistema de 

113

Figura 6.1: GUI general del programa en el que se puede ver una renderización. 

114

menús y submenús desplegables, algo muy usual en los GUIs. Cada elemento del 

menú ejecuta un comando o muestra un menú desplegable. 

La mayoría de los comandos de los menús dan acceso a un panel de control, en 

el que se ajustan los distintos parámetros de cada operación, como se puede ver 

en el ejemplo de la Fig. 6.2, en el que se muestra el panel de control con todas las 

opciones de renderización, entre las que se encuentran los colores de la renderización 

y fondo, la transparencia de la renderización y el tipo de interpolación. Se puede 

ver en este menú que para algunas opciones se ha proporcionado varias formas de 

elegir los parámetros. Así, por ejemplo, para seleccionar los colores, se ofrecen tres 

métodos distintos: valor de R,G y B (rojo, verde y azul), selección en una rueda de 

color, y botones para los colores más comunes. 

En general, en los menús de control se pueden encontrar los siguientes elementos: 

Barra de título: muestra el nombre del panel de control, dando una idea de su 

función. 

Etiquetas: muestra una pequeña descripción del parámetro que se encuentra a 

continuación, o debajo de la etiqueta. 

Entradas de texto: sirven para introducir valores a los parámetros (numéricos en 

general) que controlan las distintas operaciones del programa. 

Botones: se usan para asignar valores determinados a ciertos parámetros. Además, 

hay dos botones que aparecen en todos los paneles de control: 

Botón aceptar: sirve para ejecutar el comando correspondiente al panel de 

control (seleccionado mediante el sistema de menús). Al pulsar sobre este 

botón, se oculta el panel de control y se ejecuta el menú. 

Botón cancelar: como su propio nombre indica, cancela la ejecución del comando 

correspondiente. 

Botones de radio: se usan para seleccionar una opción entre varias posibilidades, 

excluyentes entre sí. En el ejemplo de la Fig. 6.2 se muestran dos botones de 

este tipo, para seleccionar el tipo de interpolación. 

Botones de chequeo: permiten seleccionar o no una opción. Al contrario que los 

botones de radio, son independientes entre sí. 

Escalas deslizantes: permiten seleccionar un parámetro numérico, que varía entre 

dos extremos, simplemente mediante un movimiento del ratón. De esta forma 

se controla los valores del parámetro. 

Como puede que el usuario no sepa qué valores asignar en un principio a cada 

parámetro, se ha asignado a todos los parámetros de los menús un valor por defecto, 

115

Figura 6.2: Ejemplo de panel de control. Panel de control con las opciones de renderización. 

116

Figura 6.3: Panel de control para abrir los archivos con los datos volumétricos. 

que normalmente es adecuado para realizar un primer estudio de los datos. Así, 

por ejemplo, en el panel de control de renderización, mostrado en la Fig. 6.2, los 

parámetros por defecto son: color hueso para la renderización y azul marino para 

el fondo, 1.0 de opacidad (totalmente opaco) e interpolación tipo Gouraud (ya explicada 

anteriormente). En las ventanas de abrir y cerrar archivos, también se han 

seleccionado directorios por defecto, en los que suelen estar los datos, o en los que 

se suelen guardar. 

Hay algunos paneles de control, los que sirven para abrir y guardar archivos, que 

son paneles estándar, ya implementados en los principales lenguajes de programación 

y permiten realizar interfaces gráficas. En la Fig. 6.3, se muestra el panel para abrir 

los archivos. En estos paneles de control, aparece el directorio del sistema de archivos, 

en el que nos encontramos actualmente, una ventana con los archivos y directorios 

en el directorio actual, que sirve para moverse por el sistema de ficheros, una entrada 

de texto para escribir el nombre del fichero, y un menú desplegable con los distintos 

tipos de archivos que se pueden seleccionar. Además, están los botones de Abrir 

(Open) o Guardar (Save) y Cancelar (Cancel). 

Otros elementos de los menús, no dan acceso a paneles de control, sino que 

sirven para seleccionar parámetros y ejecutar operaciones, como los comandos del 

menú vista, en el que se selecciona el punto de Vista, o la opción de salir del programa, 

del menú Archivo. 

6.3.2. Ventana de Renderización 

En el centro del GUI de la aplicación, y ocupando la mayor parte del mismo, 

se encuentra la ventana de renderización. En ella se muestra el resultado de todas 

las operaciones realizadas sobre los datos, una vez renderizados. Esta ventana se 

117

corresponde con el plano de imagen de la cámara, situado en el punto focal, perpendicular 

a la dirección de proyección, como vimos en el capítulo de renderización. 

Esta ventana sigue el sistema de coordenadas de la pantalla. 

Una vez realizada la renderización, se puede interactuar sobre ella de dos formas, 

principalmente: 

Mediante el sistema de menús: se puede cambiar el punto de vista, o posición 

de la cámara (frontal, lateral izquierda, lateral derecha, posterior, superior, 

inferior e isométrica). También se puede cambiar el zoom, y el color de la 

renderización y del fondo, . . . , como ya hemos visto. 

Mediante el ratón: con los distintos botones del ratón se permite realizar 

movimientos sobre la renderización. 

• Pulsando el botón izquierdo del ratón y moviéndolo por la ventana, se 

puede rotar el objeto renderizado, alrededor del punto focal. 

• Pulsando el botón central del ratón y moviéndolo por la ventana, se modifica 

la posición de la renderización. 

• Pulsando el botón derecho del ratón y moviéndolo por la ventana, se 

modifica el dolly (similar al zoom). 

Mediante el teclado: algunas teclas permiten cambiar el modo de renderización. 

• Pulsando la tecla ‘w‘, se realiza la renderización sólo de la malla, sin 

rellenar los triángulos. 

• Pulsando la tecla ‘s‘, vuelve a realizar la renderización en superficie, renderizando 

el interior de los triángulos. 

6.3.3. Barra de Estado 

Se encuentra en la parte inferior de la ventana de la aplicación, como se puede 

ver en la Fig.6.1. Esta barra, está dividida en tres pequeñas ventanas de texto, en 

las que se muestra información muy útil del estado de la aplicación. A continuación 

se describe la utilidad de cada una de estas ventanas de texto: 

Ventana superior: en ella se muestra información de los datos sobre los que 

se realizan operaciones. Dependiendo del estado del programa, puede mostrar 

distinta información: 

• Número de puntos y número de voxels: se muestra esta información después 

de leer los datos, si no se ha realizado ningún tipo de operaciones 

sobre los mismos, que se encuentran en forma de malla rectangular regular 

3D. 

118

• Número de puntos y número de triángulos: se muestra este tipo de información 

después de calcular la isosuperficie o después de realizar un 

diezmado de la misma. 

• Número de coeficientes y error cuadrático medio: aparece después de realizar 

la compresión mediante la transformada wavelet. 

Ventana inferior izquierda: en esta ventana de texto se muestra el tiempo 

invertido en realizar la última operación que se ha realizado sobre los datos. 

El tiempo aparece en segundos, con una precisión de centésimas de segundo. 

Ventana inferior derecha: esta es la ventana de estado, en la que se muestra 

información sobre el estado del programa. Sirve para informar al usuario sobre 

las operaciones que se están realizando o se han realizado, así como el resultado 

de las mismas (si se ha producido el resultado correcto, o si se ha producido 

algún tipo de error, indicando cuál ha sido la causa). 

6.3.4. Ventanas de Error y de Información 

En general, en la interfaz gráfica se deshabilitan las entradas de los menús que 

realizan operaciones no permitidas en cada estado del programa, para que el usuario 

no intente realizar operaciones para las que aún no están disponibles los datos. 

Por ejemplo, puede intentar realizar la renderización antes de leer los datos, o un 

diezmado de la isosuperficie antes de calcularla, etc. De esta forma se evita un 

comportamiento incontrolado del programa. 

Pero además, durante la ejecución del programa se realiza un gran número de 

comprobaciones de error. El usuario puede estar realizando operaciones sobre datos 

no válidos, intentar leer ficheros con datos erróneos, . . . . Además, por motivos desconocidos 

(por ejemplo, si los datos de los ficheros son defectuosos o erróneos) puede 

fallar alguna operación. Para informar al usuario de estos fallos y hacer al programa 

lo más robusto posible, se han generado una serie de ventanas con mensajes de error, 

para informar al usuario del tipo de error que se ha producido. En la Fig. 6.4 se 

muestra un ejemplo de este tipo de ventanas. Además, también se informa al usuario 

de los errores en la barra de estado, como se ha dicho antes. 

Algunos tipos de errores que se pueden producir son, por ejemplo, los siguientes: 

Los ficheros seleccionados para abrir no están en el mismo directorio o tienen 

distinto nombre, salvo la extensión. Los ficheros de datos deben estar todos en 

el mismo directorio (como se dijo antes, se selecciona el primer y último fichero 

con los datos que se quieren abrir) y tener todos el mismo nombre, salvo la 

extensión, que indica el número de rodaja. 

119

Figura 6.4: Ejemplo de ventana de error, con información del error. 

Figura 6.5: Ejemplo de ventana de información. 

El segundo archivo debe ser mayor que el primero. Este error se produce cuando 

no ocurre el error anterior, pero el último archivo seleccionado tiene una 

extensión con un número menor o igual que el primero. 

Error al abrir el volumen. Se produce cuando el número de puntos que teóricamente 

debe tener el volumen no es el mismo que el obtenido. 

Error al calcular la isosuperficie. Se produce cuando no se obtiene ninguna 

isosuperficie. Esto puede ocurrir, por ejemplo, si el valor seleccionado para la 

isosuperficie no está dentro del rango de variación de los datos volumétricos. 

Además de las ventanas de error, hay también algunas ventanas que ofrecen 

información al usuario sobre lo que tiene que hacer en cada momento. Este tipo 

de ventanas se han usado para mostrar información que el usaurio debe conocer, 

antes de mostrar los menús estándar de abrir y guardar archivos, ya que en estas 

ventanas no se pueden añadir elementos, ni información adicional a la que ya tienen 

por defecto. 

También se podría haber realizado mediante la barra de estado, pero se ha optado 

por mostrar este tiop de información en una ventana, porque de esta forma el 

usuario se ve obligado a leer su contenido (o al menos pulsar el botón Aceptar, si 

ya lo conoce), mientras que la barra de estado, como siempre está, puede pasar más 

desapercibida, o incluso quedar oculta por la ventana emergente. En la Fig. 6.5 se 

muestra un ejemplo de este tipo de ventana. 

120

6.4. Unas notas sobre la implementación 

En este apartado se describe, de forma breve, cómo se he realizado la aplicación. 

Una descripción más detallada aparece en el apéndice A. 

Para realizar la aplicación, se ha usado la librería gráfica de aplicación que proporciona 

el entorno VTK (Visualization ToolKit) [12]. En el apéndice B se 

describirá algo más sobre este entorno de programación, su estructura, . . . VTK, 

está formado por un conjunto de librerías gráficas, que permiten realizar operaciones 

de computer graphics, tratamiento de imagen y renderización. Estas librerías 

gráficas están formadas por un conjunto de clases en C++. 

VTK permite programar mediante dos lenguajes distintos: 

Directamente en C++. Se consiguen programas más rápidos y eficientes, pero 

más lentos de implementar y necesitan compilación. Este modo de programación 

es necesario para crear nuevas clases de VTK, que implementen funcionalidades 

no dispponibles. 

En el lenguaje interpretado Tcl/Tk [15]. Los programadores de VTK “empaquetaron” 

el lenguaje de programación Tcl/Tk, para poder usar los objetos de 

VTK. Tcl/tk es un lenguaje de programación parecido, por ejemplo al C shell 

de UNIX. Al empaquetar VTK con Tcl/Tk, se han añadido nuevos comandos, 

que corresponden a todos los objetos de VTK. En Tcl/Tk, al ser un lenguaje 

interpretado, se pueden realizar aplicaciones de forma mucho más rápida, 

pero su ejecución es más lenta. Sin embargo, Tk permite hacer, de forma muy 

sencilla interfaces gráficas de usuario, algo que no es tan sencillo en C++. 

Para realizar la aplicación, se ha optado por programar todo lo posible, incluyendo 

la interfaz gráfica de usuario mediante Tcl/Tk, debido a sus grandes ventajas 

sobre la programación de interfaces gráficas en C++. El hecho de que sea más lento 

que un lenguaje compilado no es demasiado inconveniente, pues todas las funciones 

de los objetos están compiladas en las librerías de C++. 

Algunas operaciones requeridas por la aplicación, ya estaban programadas en 

las librerías de VTK, por lo que no han tenido que ser programadas. Otras operaciones, 

necesarias para la aplicación, no estaban realizadas aún en VTK, por lo que 

se han tenido que crear nuevas clases en C++, para realizar estas operaciones no 

disponibles. Al compilar estas clases, y meterlas en las librerías gráficas de VTK, 

automáticamente se hace el empaquetado de las mismas y sus funciones miembro a 

Tcl/Tk, lo cual las hace ya accesibles desde scripts realizados en Tcl/Tk. 

Hay algunas operaciones que no se han programado mediante clases, pues se 

consigue una mejor funcionalidad mediante programas ejecutables, hechos en C++, 

que pueden ser llamados posteriormente desde Tcl/Tk. 

121

Por último, hay que señalar que las librerías de VTK se pueden compilar para 

linux, UNIX y Windows, y de hecho soportan distinto tipo de hardware gráfico. Esto 

se consigue realizando las clases que tienen que interactuar con las librerías gráficas, 

de forma que sean independientes del hardware, y derivando de estas superclases, 

otras específicas para cada librería gráfica. Tcl/tk también se puede compilar y 

funciona para linux, UNIX y Windows. 

Por tanto, es muy fácil realizar el portado de una aplicación hecha para VTK de 

un sistema a otro. De hecho, Tcl/Tk ofrece comandos para manipular los nombres 

de ficheros de forma independiente de la plataforma. 

Para realizar la aplicación se ha elegido el sistema operativo linux, por su gran 

estabilidad y fiabilidad. De todas las formas sería muy fácil realizar el portado 

a Windows. Los únicos elementos no portables son ciertos menús de Tk que son 

dependientes de la plataforma (de su sistema de ventanas) [15] y el directorio casa del 

usuario que ejecuta la aplicación, elegido como directorio por defecto para guardar 

los resultados. 

6.5. Ejemplos de Utilización del Programa 

En este apartado se describen algunos ejemplos de utilización del programa, que 

pueden servir como manual de usuario. Mediante estos ejemplos se puede entender 

el funcionamiento general del programa, incluyendo algunos elementos de la implementación 

del programa, necesarios para explicar su funcionamiento. 

Para la realización de los ejemplos se usa una tomografía computerizada de la 

cabeza de un niño de 12 años. Las rodajas de la tomografía tienen un grosor de 

1.5 mm, con dimensiones de pixels de 0.8 mm para los datos a total resolución, 

1.6 mm a media resolución y 3.2 mm a un cuarto de la resolución. En general, se 

usan los datos a media resolución, para que los cálculos no sean demasiado lentos, 

pero los resultados obtenidos sean bastante buenos. Se puede observar que el paciente 

tiene un agujero en el hueso, cerca de la nariz, un tubo en la boca, para administrarle 

anestesia, durante el proceso de escaneado, y como dato curioso, se puede ver incluso 

que tiene la oreja izquierda agujereada. 

6.5.1. Diezmado de un Cráneo 

En este primer ejemplo, se desriben los pasos necesarios para la realización de 

una compresión por diezmado, de la isosuperficie correspondiente al valor del cráneo. 

También se calcula el error cometido en la compresión, mediante dos métodos distintos. 

Los pasos a realizar son los siguientes: 

122

Ejecución del programa: Para ejecutar un programa interpretado de VTK (realizado 

en Tcl/Tk), se usa el programa vtk (Tcl/Tk empaquetado con las 

clases de VTK, como comandos) seguido del nombre del script que contiene 

la aplicación. Por tanto, para ejecutar el script Comp3D.tcl se ejecuta en la 

línea de comandos: 

$ VTK Comp3D.tcl & 

Aparece en pantalla el GUI de la aplicación, como se muestra en la Fig. 6.1; 

pero en lugar de la renderización que aparece en esta figura, aparece el nombre 

de la aplicación, en la ventana de renderización (Comp3D 1.0). En las tres 

ventanas de la barra de estado, se muestra el texto sin datos. 

Antes de hacer nada, podemos probar con el texto que aparece en la ventana 

de renderización, los movimientos del ratón, o las teclas ‘w‘ y ‘s‘, como se 

describió en el apartado 6.3.2. 

Lectura de los datos volumétricos: Como ya se ha dicho, los datos volumétricos 

pueden estar, o bien en un sólo fichero (cuya extensión será .slc), o bien 

en varios archivos situados en el mismo directorio, con el mismo nombre, salvo 

la extensión, que indica el número de rodaja. En estos ejemplos, los datos 

están en varios archivos. Para leer estos datos, se debe seleccionar con el ratón 

de la barra de menús 

Archivo ->Abrir. 

Aparece una ventana de información, que indica al usuario que seleccione el 

primer archivo del volumen que quiere leer. Pulsando el botón OK de esta ventana 

aparece el panel de control para seleccionar el primer fichero, como se 

muestra en la Fig. 6.3. Abrimos, por ejemplo el directorio headsq, pulsando 

dos veces con el ratón sobre él o bien pulsando una vez y a continuación presionando 

el botón Open. En este directorio se encuentran los datos volumétricos 

de la TC de una cabeza, de dimensiones 128 × 128 × 93 (ficheros half.*) y 

64×64×93 (ficheros quarter.*) En estos últimos, se ha realizado un diezmado 

de los datos en las direcciones x e y en cada rodaja, pero tienen el mismo 

número de rodajas (dirección z). Abrimos el archivo half.1. 

A continuación aparece otra ventana de información que indica que hay que 

seleccionar el último archivo. Al pulsar OK, vuelve a aparecer el panel de la 

Fig. 6.3, pero en esta ocasión, en el directorio del que seleccionamos el primer 

archivo. Abrimos en este caso el archivo half.93. 

Para generar la malla rectangular regular, en la que se colocan los datos 

leídos, hacen falta tres elementos: 

Número de datos en cada dimensión: dimensiones de la malla en 

las tres coordenadas, x, y, z (128, 128 y 93, para los datos que estamos 

abriendo, respectivamente). El número de elementos en z no hay que 

asignarlo, pues se fija según los ficheros seleccionados. 

123

Origen de la malla: sirve para situar la esquina inferior izquierda de 

la malla, en coordenadas del mundo real. Este parámetro lo puedo fijar 

siempre a (0, 0, 0), pues no modifica los resultados. 

Separación de los datos en cada dirección: representan el tamaño de 

cada celda de la malla. Para los datos que estamos abriendo, los valores 

correctos son 1,6, 1,6 y 1,5 respectivamente 

Estos parámetros son los únicos necesarios para generar una malla rectangular 

regular (la estructura de datos más simple de VTK), en la que todos las celdas 

de la malla están equiespaciados. Los elementos de este tipo de estructuras 

de datos se pueden referenciar mediante coordeandas implícitas (i, j, k). La 

obtención de las coordenadas del mundo real a partir de las implícitas es 

trivial [12]. 

Al seleccionar y abrir el último archivo, se nos muestra el panel de control con 

las Opciones de Lectura del Volumen, en el que hay que asignar valores 

a los parámetros descritos anteriormente (excepto al origen, que como hemos 

dicho, se asigna siempre (0, 0, 0)). 

Además, hay un botón de chequeo, que sirve para indicar si los datos tienen bit 

de conectividad. Se emplea en algunos datos volumétricos, que para realizar 

operaciones de segmentación, usan el bit más significativo de cada elemento 

como bit de conectividad. No es el caso de los datos que estamos abriendo. 

Como se puede ver en este panel de control, los valores asignados a sus parámetros 

por defecto son los correspondientes a los datos que estamos abriendo. Por 

tanto, no debemos modificarlos (algo que deberíamos hacer para otros datos 

con distinta estructura, si no queremos que el programa saque un mensaje de 

error). 

Al pulsar Aceptar en este panel de control, se leen los datos de todos los 

ficheros y se genera en memoria la malla rectangular regular –en cuyos puntos 

están los datos de la resonancia magnética que hemos abierto–, a partir de la 

cual se realizarán todas las operaciones. 

Aparece en la ventana de estado, Leyendo el volumen..., mientras se leen 

todos los archivos; y al acabar, Volumen abierto con exito. Ahora en la 

ventana superior de la ventana de estado aparece el número de puntos del 

volumen (128 × 128 × 93 = 1523712), y el número de celdas (127 × 127 × 92 = 

1483868) y en la ventana inferior izquierda, el tiempo en la lectura de los datos 

(1.61 s). 

De esta forma, hemos leído todos los datos volumétricos de la cabeza. Si sólo 

se quisiera abrir una parte de la misma (por ejemplo la zona de los dientes), 

seleccionaríamos un rango menor de ficheros, teniendo en cuenta que cada 

fichero contiene los datos de una sección axial, tal como son obtenidos mediante 

los métodos explicados en el capítulo 2. 

124

Cálculo de la Isosuperficie: El siguiente paso es calcular la isosuperficie correspondiente 

a cierto valor de los datos volumétricos. Se calcula mediante el 

algoritmo Marching Cubes, descrito en el apartado 3.4. Para ello ejecutamos 

el comando de la barra de menús 

Operaciones ->Isosuperficie 

Aparece un panel de control para el cálculo de la isosuperficie, en el que simplemente 

hay que dar como parámetro el valor de la isosuperficie que se quiere 

obtener. Se muestran algunos valores típicos en tomografía computerizada para 

dos tipos de tejidos: hueso (1200) y piel (600). En este primer ejemplo, vamos 

a calcular la isosuperficie correspondiente al hueso, por lo que debemos introducir 

el valor 1200 (este valor ya está por defecto). 

Al pulsar el botón Aceptar, aparece en la ventana de estado Calculando 

Isosuperficie... y tras un breve periodo de tiempo, ya tenemos calculada 

la isosuperficie (Isosuperficie obtenida con exito), mostrando el tiempo 

invertido en el proceso, y el número de puntos y triángulos que tiene 

la isosuperficie calculada mediante marching cubes. En este caso, obtenemos 

102337 puntos y 203956 triángulos, con un tiempo de ejecución de 4.67 s. 

Diezmado de la Isosuperficie: Ahora se puede renderizar directamente la isosuperficie 

calculada, sin nigún tipo de compresión, o bien realizar un diezmado 

de la misma. El algoritmo de diezmado, ya se ha explicado en el apartado 4.3.7. 

En este caso, vamos a optar diezmar la isosuperficie. Para ello ejecutamos el 

comando del menú 

Operaciones ->Compresion ->Diezmado 

Aparece un menú de control con varios parámetros, que se describe a continuación: 

Mantener topología: Si está activado, no se produce división de la 

malla (splitting), ni eliminación de agujeros. Esto puede limitar la máxima 

reducción que se puede conseguir. Por defecto está desactivado en la 

aplicación. 

Ángulo Característico: Sirve para especificar lo que es un borde. Si la 

normal a la superficie entre dos triángulos adyacentes es mayor o igual que 

el ángulo característico, existe un borde. Puede influir sobre los resultados 

obtenidos. Por defecto se fija a 30 o . 

Hacer splitting (división de la malla): Si está activado, se puede 

dividir la malla donde sea necesario (en esquinas, bordes, o cualquier 

sitio donde sea necesario dividir la malla). Si se desactiva, preserva mejor 

la topología, pero puede limitar la máxima reducción que se puede lograr. 

Por defecto, está activado. 

125

Ángulo de splitting: Controla el proceso de división de la malla. Existe 

una línea de división cuando las normales a la superficie de dos triángulos 

conectados por un borde es mayor o igual que este ángulo. Por defecto, 

se ha fijado a 75 o , pues interesa que la división sea lo último que se haga 

(cuando ya no pueda eliminar puntos de otra forma, pues con divisiones, 

queda peor la renderización). 

Hacer Splitting Previo: En algunos casos interesa hacer la división de 

la malla antes de eliminar ningún punto, pues da resultados mejores. Si 

está activado, se divide la malla en “parches” semi-planos, desconectados 

entre sí. La división se lleva a cabo con el Ángulo de splitting especificado. 

Por defecto, se ha deshabilitado, pues se obtienen peores resultados. 

Triángulos en un vértice para hacer splitting: Si el número de 

triángulos conectados a un vértice excede este valor, el vértice se divide. 

Por defecto, lo he fijado en 25, aunque no tiene demasiada inidencia, para 

factores de compresión que no sean excesivos. 

Compresión: Especifica la reducción deseada en el número de triángulos, 

en tanto por uno (0.0 indica sin compresión). Puede que este valor no 

se llegue a alcanzar. Si se quiere alcanzar cualquier valor de reducción, 

se debe desactivar preservar topología y activar el splitting. Por defecto, 

está fijada en 0,70. Este es el principal parámetro, pues fija la relación de 

compresión. 

Para este ejemplo, fijamos el valor de la compresión en 0.75, y pulsamos el 

botón Aceptar. 

Al pulsar Aceptar aparece en la ventana de estado, Diezmando isosuperficie 

a 0.75..., y tras algún tiempo, ya tenemos la isosuperficie diezmada, 

Isosuperficie diezmada con éxito a 0.75. En la ventana superior de la 

barra de estado se puede ver el número de puntos, 25481, y el número de 

triángulos, 50988, que es exactamente el 25 % de los que teníamos antes de 

diezmar. 

Renderización de la Isosuperficie: Ahora que ya tenemos la isosuperficie diezmada, 

la renderizamos, para poder ver los resultados obtenidos. Para ello ejecutamos 

el comando de la barra de menús 

Vista ->Inicializar 

Aparece el menú de la Fig. 6.2, en el que, como dijimos se puede seleccionar 

el color de la renderización y del fondo, de varias formas distintas, el valor 

de la opacidad de la superficie (0.0 superficie totalmente transparente; 1.0 

superficie totalmente opaca), y el método de interpolación, que ya se explicó en 

el apartado 3.3.10. 

De esta forma, tras dejar los parámetros por defecto (color hueso para la renderización, 

azul marino para el fondo, opacidad 1.0 e interpolación Gouraud) 

126

y seleccionar Aceptar, se muestra por pantalla el cráneo del niño, con una 

reducción del número de triángulos de la isosuperficie de 0,75. 

Observación de la renderización: Se puede observar que la calidad obtenida es 

aceptable, aunque se notan los efectos de la reducción de triángulos (aparecen 

zonas con una iluminación más o menos constante). Si se pulsa la tecla ‘w‘, 

se ve la malla triangular obtenida, que comparada con la original, tiene bastantes 

menos triángulos. Se puede observar como la reducción de triángulos 

ha sido mayor en las zonas más planas de la superficie, y menor en las zonas 

más curvadas. Pulsando la tecla ‘s‘, vuelve a aparecer la superficie. Se puede 

observar que se muestra un paralelepípedo alrededor de la renderización, para 

dar más idea de perspectiva. 

Ahora podemos girar, mover, acercar la cabeza mediante el ratón. Al hacer 

esto, debido a que suele ser lento, si no se dispone de hardware específico, se ha 

optado por mostrar sólo algunos puntos del volumen, para tener una idea de 

la posición actual, pero de forma que el proceso sea lo más rápido e interactivo 

posible. También se puede rotar a distintas posiciones mediante los comandos 

Vista ->Frontal 

Vista ->Trasera 

Vista ->Izquierda 

Vista ->Superior 

Vista ->inferior 

Vista ->Isométrica 

Se puede ver que estos comandos, además de modificar la vista, son botones 

tipo radio, que muestran la vista actual. También se puede modificar el zoom, 

mediante el comando 

Vista ->Zoom 

y asignando el valor de zoom deseado. Valores de zoom mayores que 1.0 acercan, 

mientras que si son menores, alejan. El zoom es acumulativo. 

Calculo del error: A continuación vamos a calcular el error. Se han realizado 

dos algoritmos para calcular el error. El primero de ellos, calcula el error en 

volumen y el segundo, calcula el error en la renderización. 

Para calcular el error por cualquiera de los dos métodos, necesitamos tener 

los datos necesarios para cada uno de los dos métodos, sin reducir el número 

de datos, y una vez reducido el número de datos. Como tenemos ahora la 

renderización tras el diezmado, obtenemos en primer lugar los datos necesarios 

para calcular el error de estos datos diezmados. 

Error en Volumen: Para calcular el error en volumen, no podemos comparar 

las dos mallas triangulares (la malla sin diezmar y la diezmada). 

Por ello, lo que hacemos es transformarlas en mallas rectangulares 

127

egulares, que contengan unos en las celdas de la malla rectangular interiores 

a la superficie y ceros en las celdas que estén fuera. Esto se realiza 

mediante el algoritmo flood filling que se explica en el apartado A.4. 

Esta malla se guarda en el disco duro del ordenador, para ser comparada, 

posteriormente, con la malla sin compresión. Esto se realiza mediante el 

comando 

Error ->FloodFilling 

Se muestra un panel de control con las opciones de este algoritmo. Estas 

opciones son, el tamaño de la malla rectangular regular, en cada una de las 

tres dimensiones x, y, y z. Dejamos los valores por defecto (256, 256, 93), 

es decir, el tamaño en x, e y es el doble que el de los datos originales, 

para conseguir la mayor precisión; en z, es el mismo que el número de 

rodajas, para que el algoritmo no sea demasiado lento. 

Tras pulsar el botón Aceptar, aparece el panel de control para guardar el 

archivo con la malla rectangular regular. Lo guardamos, por ejemplo, con 

el nombre hueso75.vtk (vtk es la extensión de los archivos con datos de 

VTK). 

Error de la imagen renderizada: Para calcular el error de la imagen 

renderizada, simplemente tenemos que guardar la imagen que aparece en 

pantalla, mediante el comando 

Archivo ->Guardar Renderizacion 

Lo guardamos, por ejemplo, con el nombre hueso75.ppm (el archivo se 

guarda con el formato gráfico PPM –pixmap–). Se puede observar que al 

guardar la imagen desaparece el borde exterior, que no debe influir en 

el cálculo del error, y se acerca la cámara al actor, para que tenga más 

importancia en el cálculo del error, que el fondo, que no influye. 

Ahora necesitamos realizar las dos operaciones anteriores sobre la renderización 

de los datos volumétricos sin diezmar. Para ello, volvemos a ejecutar el 

diezmado, pero en esta ocasión ponemos como valor de compresión 0,0. Esto 

pasa simplemente los datos por el filtro, sin realizar compresión (es inmediato, 

pues no tiene que realizar operación alón alguna, sino simplemente poner los 

datos de la entrada a la salida). 

Una vez realizado el flood filling y guardada la renderizacón de los datos sin 

comprimir, por ejemplo en los archivos hueso.vtk y hueso.ppm, calculamos 

ambos errores. 

Error en volumen: Para calcular el error en volumen, ejecutamos el 

comando 

Error ->Error en Volumen 

El programa nos pide que seleccionemos el archivo con formato vtk de los 

datos sin copresión y a continuación el archivo con los datos comprimidos. 

128

Seleccionamos respectivamente los archivos hueso.vtk y hueso75.vtk y 

el error se calcula (tarda 37.04 s). Obtenemos un error absoluto medio 

por rodaja de 290.19. este valor se muestra, tanto en una ventana de 

información, como en la ventana de estado. 

Error de la imagen renderizada: Para calcular el error entre las 

imágenes renderizadas, ejecutamos el comando 

Error ->Error en imagen 

Aparece un panel de control, en el que nos ofrece la posibilidad de, además 

de calcular el error cuadrático medio entre las dos imágenes, almacenar la 

diferencia entre las mismas. Pulsando el botón guardar imagen diferencia, 

aparece el panel de control de guardar archivo. Guardamos la diferencia 

como difer75.ppm. 

Después, al pulsar el botón Aceptar, hay que seleccionar los dos ficheros 

con la imagen sin compresión (hueso.ppm) y la imagen resultado del diezmado 

(hueso75.ppm). Se calcula el error cuadrático medio en 16.45 s, 

y se obtiene un resultado de 218.332. 

En las Figs. 6.6, 6.7 y 6.8 se muestra la imagen renderizada sin diezmado 

(archivo hueso.ppm), con diezmado a 0.75 (hueso75.ppm), y la diferencia entre 

ambas (difer75.ppm). 

6.5.2. Compresión Wavelet de una Cabeza y Obtención de 

Detalle 

En este segundo ejemplo vamos a realizar una compresión del volumen, usando 

la tranformada wavelet, para obtener a continuación la isosuperficie correspondiente 

a la piel. Después, se calcula el error, de varias formas, igual que anteriormente y 

por último, aprovechando la localidad de la tranformada wavelet, obtenemos una 

zona de la cara con más detalle que el resto. 

Muchos de los pasos a realizar, son iguales o muy parecidos que los del ejemplo 

anterior, por lo que simplemente se enuncian. Las operaciones que sean distintas, se 

describen más a fondo. Los pasos a realizar son los siguientes: 

Ejecución del programa: Si ya estamos dentro del programa, después de acabar 

el ejemplo anterior, no hace falta que volvamos a ejecutarlo. 

Lectura de los datos volumétricos: Si acabamos de ejecutar el ejemplo anterior, 

tampoco hace falta, pues ya tenemos los datos en memoria. 

Compresión Wavelet: El siguiente paso es obtener la compresión mediante la 

transformada wavelet, según se explicó en el apartado 5.4. Al contrario que en 

129

Figura 6.6: Renderización de la isosuperficie correspondiente al hueso, sin comprimir 

(archivo hueso.ppm). 

130

Figura 6.7: Renderización de la isosuperficie diezmada un 75 % (archivo 

hueso75.ppm). 

131

Figura 6.8: Diferencia entre la renderización de la isosuperficie sin diezmado y diezmada 

un 75 % (archivo dif75.ppm). 

132

el ejemplo de diezmado, aquí se obtiene la compresión directamente a partir 

de los datos en volumen, no de la isosuperficie. 

Para realizar la compresión mediante la transformada wavelet, ejecutamos el 

comando de la barra de menú 

Operaciones ->Compresión ->Wavelets ->Compresión 

Aparece un panel de control en el que, simplemente, podemos establecer el 

valor de la tasa de compresión. Este valor se puede establecer de dos formas, 

mediante una escala, o bien, mediante una entrada de texto. 

Para obtener mayor precisión en el valor de la compresión establecido, se puede 

escribir sobre la entrada de texto, o bien, mover la escala pinchando con el 

ratón sobre el elemento móvil y a continuación ajustando el valor deseado 

pinchando en el carril, a un lado u otro del elemento móvil (hasta obtener el 

valor deseado). 

La tasa de compresión que se consigue al introducir un valor N en este panel de 

control, es N:1. Se ha establecido una forma de asignar la tasa de compresión 

distinta de la usada para el diezmado, debido a que con wavelets podemos 

conseguir mayores tasas de compresión, permitiendo que el valor N varíe desde 

1 hasta 10000. 

En general, el valor de compresión que se obtiene, es menor que el establecido 

en este panel de control, debido a que la tranformada wavelet necesita que el 

tamaño de todas las dimensiones de los datos sean potencia de dos, con lo que 

si no lo son, deben ser padeadas. 

Establecemos un valor de compresión de 100:1, y pulsamos Aceptar. Tras 

50.47 s, obtenemos los datos comprimidos (compresión, distorsión y descompresión). 

En la barra de estado aparece el número de coeficientes wavelet, 

20971, y el error cuadrático medio, 12833.1. 

Una de las ventajas de esta compresión, es que una vez obtenida la transformada 

wavelet directa, y ordenados los coeficientes wavelet, no tenemos que 

hacerlo de nuevo, si queremos obtener otra tasa de compresión o un detalle en 

los datos. 

Cálculo de la Isosuperficie: Se realiza igual que se hizo en el ejemplo anterior, 

pero en esta ocasión seleccionamos el valor de densidad correspondiente a la 

piel, es decir, 600. 

Renderización de la Isosuperficie: Se realiza igual que antes, pero en este caso, 

elegimos el color piel para obtener un resultado más real. El resto lo dejamos 

igual. 

Observación de la Isosuperficie: El resultado obtenido aparece en la Fig. 6.10. 

Se puede ver que la superficie aparece distorsionada, pero aún se pueden ver 

133

las estructuras más “gruesas”. Al igual que en el ejemplo anterior, podemos 

observar distintas vistas de la renderización, girarla, moverla, etc. 

Cálculo del Error: En el caso de la transfromada wavelet, ya hemos obtenido una 

primera medida del error, el error cuadrático medio cometido al hacer 

la compresión, antes de obtener la isosuperficie. Esta medida del error 

es independiente de la isosuperficie obtenida. Sólo depende de los datos y del 

nivel de compresión. 

Las otras dos medidas, error en volumen a partir de la isosuperficie y 

error de la imagen renderizada, se obtienen exactamente igual que antes. 

Los resultados obtenidos son los siguientes: 

Error en Volumen. Error absoluto medio por rodaja: 428.821 

Error en Superficie. Error cuadrático medio: 363.607 

En la Fig.6.9, se muestra la imagen renderizada de la piel, sin ningún tipo de 

compresión. Por último, en la Fig.6.11, se muestra la diferencia entre las dos, 

al igual que en el ejemplo anterior. 

Obtención de una zona con detalle: Por último, en este ejemplo, vamos a obtener 

una compresión mutirresolución dentro del mismo volumen. Como ya se ha 

dicho, una de las ventajas de la compresión mediante la transformada wavelet, 

frente a otras transformadas, es su localidad espacial. 

Podemos obtener un nivel de compresión distinto para cada punto. Para la realización 

del proyecto, nos hemos conformado con obtener una zona de detalle, 

en la que cogemos todos los coeficientes de la transformada, y por tanto, no 

realizamos compresión. Esa zona se verá con todo el detalle, y el resto a la baja 

resolución que hayamos especificado anteriormente (100:1 en este ejemplo). 

Esto es, normalmente, suficiente para las aplicaciones médicas, pues el especialista 

quiere ver la zona sobre la que tiene que diagnosticar con buena resolución, 

pero sin perder una relación espacial de esa zona respecto al resto de la imagen. 

Para tener esa idea espacial, no importa, que esté a baja resolución. 

Para obtener el detalle, una vez realizada la compresión wavelet 100:1, ejecutamos 

el comando del menú 

Operaciones ->Compresion ->Wavelet ->Detalle 

Al ejecutar este comando, aparece un panel de control con seis escalas deslizantes 

y dos botones (además de los siempre presentes, Aceptar y Cancelar). En 

la ventana de renderización, desaparece la isosuperfiice. Se muestra la línea 

externa negra (con forma prismática), que nos sirve como referencia de la renderización; 

unos ejes coordenados x, y y z, y un prisma con las aristas de color 

blanco. Este prisma será el que nos sirva para seleccionar el detalle, moviéndolo 

por la escena. 

134

Figura 6.9: Renderización de la isosuperficie correspondiente a la piel, sin comprimir 

(archivo piel.ppm). 

135

Figura 6.10: Renderización de la isosuperficie comprimida mediante la transformada 

wavelet 100:1 (archivo piel100.ppm). 

136

Figura 6.11: Diferencia entre la renderización de la isosuperficie sin compresión 

wavelet y con una compresión 100:1 (archivo dif100.ppm). 

137

Las seis escalas del panel de control, nos sirven para colocar el centro del prisma 

blanco, así como su tamaño en cada dimensión. Los valores que aparecen 

en estas escalas son valores relativos con respecto a la posición y tamaño 

del prisma negro. Por ejemplo, una posición (0,5, 0,5, 0,5) indica el centro del 

prisma negro, y un tamaño de (0,5, 0,5, 0,5) indica las dimensiones del prisma 

blanco son la mitad de las respectivas del negro. Estos son los valores iniciales. 

Moviendo las escalas del panel de control, podemos cambiar la posición y el 

tamaño del detalle (prisma blanco). 

El movimiento del prisma blanco se ha limitado al interior del prisma negro, 

para que el detalle se limite a la zona de interés, en la que tenemos isosuperficie. 

Por ello, el centro y el tamaño del prisma blanco en cada dimensión están 

relacionados. Así, por ejemplo, podemos ver que si movemos el centro en x del 

prisma, hacia la izquierda, el prisma se mueve en esa dirección; pero al llegar 

a 0.25, si seguimos moviéndolo, el tamaño en esta dimensión empieza a disminuir, 

no permitiendo que el detalle salga fuera del borde de la isosuperficie. 

Si pretendemos aumentar ahora el tamaño del detalle en x, no se nos permite. 

Para conseguirlo, tenemos que mover el prisma hacia el centro. 

Después de esta pequeña explicación del posicionamiento y tamaño del prisma 

de detalle, ya podemos seleccionar la zona en la que deseamos mayor resolución. 

Se ha eliminado la renderización de la ventana de imagen para que el 

movimiento del prisma sea más rápido y no haya que renderizar la isosuperficie 

cada vez que movemos el prisma. Sin embargo, lo más probable es que 

con la sola referencia del prisma negro no podamos fijar la posición exacta del 

detalle que queremos ver. Por ello, en la parte inferior del panel de control, se 

han colocado dos botones. Sirven para mostrar u ocultar la renderización de la 

isosuperficie. Si se pulsa el botón mostrar, aparece la renderización, pero con 

un valor de transparencia de 0.2 (1.0 es opaco y 0.0 transparente), para que 

se vea el prisma blanco. 

Por último indicar que para fijar mejor la posición del prisma blanco de detalle, 

puede que sea conveniente girar la cámara mediante el ratón. 

Para la realización del ejemplo, tratamos de mostrar el detalle de la oreja 

izquierda (la derecha, desde nuestra posición). Para ello, los valores correctos 

para el panel de control del detalle son los siguientes: 

Centro del Prisma en X: 0.93 

Centro del Prisma en Y: 0.45 

Centro del Prisma en Z: 0.26 

Longitud del Prisma en X: 0.14 

Longitud del Prisma en Y: 0.19 

Longitud del Prisma en T: 0.42 

138

Figura 6.12: Obtención del detalle. Mediante el prisma blanco se selecciona la zona 

que se desea ver con detalle. 

En la Fig.6.12 se muestra la ventana de renderización durante el establecimiento 

del detalle, mostrando la renderización semitransparente. 

Tras pulsar Aceptar, se calcula el detalle y se muestra en la barra de estado 

el número de coeficientes wavelet: 38637, y el error cuadrático medio 

en volumen: 12591.2. A partir de estos resultados se puede observar, como el 

número de coeficientes ha aumentado de 20971 a 38637. Vemos la zona que nos 

interesa con toda la resolución y un número muy bajo de coeficientes. El error 

ha disminuido de 12833.1 a 12591.2. No ha disminuido mucho relativamente, 

debido a que la zona del detalle es muy pequeña con respecto a todo el volumen, 

pero esto nos da igual. En realidad, en el caso de obtener detalle, el error 

no importa, pues corresponde al resto, de baja resolución. Por eso no se ha 

139

ealizado un estudio sobre los errores con detalle. 

Tras obtener la isosuperficie correspondiente al hueso, (600) y mostrar la renderización 

en pantalla, podemos observar nítidamente la oreja izquierda del 

niño, en la que incluso se puede ver el agujero del pendiente. En la Fig. 6.13 

se muestra esta imagen; se ha girado ligeramente para que se aprecie mejor. 

Una de las ventajas de obtener el detalle mediante la transformada wavelet 

es que, como transforma todo el volumen –y no sólo la isosuperficie–, una vez 

obtenido el detalle, se puede ver cualquier tejido de esa zona (mediante el cálculo 

de la isosuperficie correspondiente). En el caso del ejemplo, evidentemente 

sólo se puede ver la piel, pues la oreja carece de estructura ósea) 

140

Figura 6.13: Detalle de la oreja izquierda (derecha desde nuestra posición). 

141

142

Capítulo 7 

Resultados 

En este capítulo se mostrarán y comentarán los resultados obtenidos. Todos los 

resultados comentados son relativos al error, que se ha calculado de varias formas 

distintas, para llegar a ser lo más objetivo posible. Se evalúan y comparan los dos 

métodos de compresión implementados: diezmado y transformada wavelet. 

Aunque en la aplicación, como se dijo en el capítulo 6, hay una ventana en la barra 

de estado en la que se muestra el tiempo empleado para realizar cada operación, no 

se ha realizado un estudio del tiempo de ejecución. La razón de esto es que como se 

tratan volúmenes enormes de datos, el funcionamiento depende mucho de elementos 

del ordenador como la memoria caché o hardware gráfico. 

7.1. Medidas de Error Empleadas 

Desde el primer momento en que se intenta calcular el error cometido al comprimir 

un volumen, se encuentran ciertas dificultades, debido, principalmente a que 

lo que estamos viendo no es el volumen, sino una isosuperficie obtenida a partir de 

él. 

Las formas de calcular el error que se han empleado para evaluar los dos métodos 

de compresión, son las siguientes: 

Error Cuadrático Medio de la Imagen Renderizada. Es lógico calcular 

este error, pues la imagen renderizada es lo que estamos viendo en realidad. 

Sin embargo, este método sólo evalúa el error desde un punto de vista de la 

escena. 

Para que todos los valores de error sean coherentes, se deben realizar la renderización, 

exactamente de la misma forma. Es decir, colocando la cámara en la 

misma posición y con los mismos parámetros, las mismas luces y propiedades 

del actor, etc. 

143

Error en Volumen. Como tenemos un volumen comprimido, también parece 

lógico realizar un cálculo del error en volumen. 

Este tipo de cálculo es trivial para el caso de compresión mediante la transformada 

wavelet; basta con calcular el error cuadrático medio entre los datos 

volumétricos originales y los distorsionados por la compresión. Sin embargo, 

si se emplea el método de diezmado, no podemos hacer esto, pues no tenemos 

los datos en volumen, sino sólo una malla triangular en el espacio. Por ello, el 

error en volumen se calcula de dos formas, según el caso: 

• Error Cuadrático Medio en Volumen. Sólo se puede calcular para la 

transformada wavelet. Es una buena medida del error, pero es independiente 

de la isosuperficie que se quiera renderizar, con lo que tiene en cuenta 

todos los errores del volumen, independientemente de que finalmente se 

muestren en la renderización, o no. 

• Número Medio de Errores por “Rodaja”. Esta es la forma en la 

que se calcula el error en volumen de la isosuperficie. 

El problema de comparar dos isosuperficies es que están formadas por 

triángulos en el espacio –muy difíciles de comparar globalmente–. Por ello, 

lo que se hace para evaluar su error, es convertir la superficie en una 

malla rectangular regular, formada por celdas prismáticas, evaluando las 

celdas por las que pasa la isosuperficie. De esta forma, se transforma la 

isosuperficie en una estructura regular (con unos en las celdas por las 

que pasa la isosuperficie y ceros en las celdas por las que no pasa). Sin 

embargo, seguimos con el mismo problema (por ejemplo, si las dos superficies 

comparadas no pasan exactamente por las mismas celdas, daría el 

mismo error que si están muy alejadas, a no ser que se emplee un cálculo 

de distancias). 

La forma empleada para la comparación de estas dos estructuras, es mediante 

un preprocesado de las mismas, que consiste en rellenar el interior 

de las isosuperficies (ahora en la estructura regular), respetando las posibles 

cavidades que puedan tener en su interior, como se explica en los 

apartados A.4 y A.5. 

De esta forma, se puede evaluar el error en volumen cometido al diezmar 

una malla triangular. En concreto, la medida obtenida es el número de 

errores medio por rodaja, pues en la estructura regular tenemos datos 

binarios (unos dentro de la isosuperficie o en su frontera, y ceros fuera, o 

en las cavidades interiores). Por tanto el número de errores es equivalente 

al error cuadrático. 

Este cálculo del error se puede emplear para ambos métodos de compresión, 

pues en ambos se obtiene, antes o después, isosuperficies. 

144

7.2. Cálculos Realizados 

En el apartado 7.3 se muestran todos los resultados obtenidos para ambos métodos 

y distintos niveles de compresión. Para cada uno, se han realizado todos los 

cálculos de error posibles, según el método: 

Compresión mediante Wavelets: 

• Error cuadrático medio en volumen (MSEV). 

• Número medio de errores por “rodaja” (NMER). 

• Error cuadrático medio de la imagen renderizada (MSER). 

Compresión Mediante Diezmado: 

• Número medio de errores por “rodaja” (NMER). 

• Error cuadrático medio de la imagen renderizada (MSER). 

Todos estos cálculos se realizan para dos isosuperficies distintas de la misma 

Tomografía Computerizada, de dimensiones 128 × 128 × 93. El estudio se puede 

considerar bastante válido para cualquier conjunto de datos volumétricos, obtenidos 

a partir de dispositivos de radiología médica (como es nuestro objetivo), pues en 

todos ellos obtenemos datos a partir de propiedades de los tejidos del cuerpo, aunque 

las partes del cuerpo estudiadas sean distintas. 

La obtención de todos los datos de error, se ha llevado a cabo con gran cuidado, 

intentando realizar todas las pruebas bajo las mismas condiciones y parámetros. 

Ello nos ha llevado a tener que repetirlas varias veces, a causa de algún cambio en el 

programa. Como nota anecdótica cabe señalar que la obtención de todas las medidas 

de error ha llevado un tiempo aproximado de 20 horas (sin contar las repeticiones 

que se han realizado de los experimentos). Lo que más tiempo ha llevado, ha sido el 

algoritmo de flood filling. La razón de esto es que hemos muestreado la isosuperficie 

sobre una malla de dimensiones 256 × 256 × 93, cuando los datos originales tenían 

un tamaño de 128 × 128 × 93. Esto se ha hecho así para que el muestreo de la 

isosuperficie tuviera una incidencia desperciable sobre el cálculo del error. 

Los parámetros usados para realizar las pruebas han sido los siguientes: 

Datos: 

• Tipo de datos: tomografía computerizada de la cabeza de un niño. 

• Dimensiones originales: 128 × 128 × 93. 

• Dimensiones padeadas: 128 × 128 × 93. 

• Origen en coordenadas del mundo: (0, 0, 0). 

145

• Espaciado entre los datos: (1.6, 1.6, 1.5) (milímetros). 

• Densidad correspondiente a la piel: 600. 

• Densidad correspondiente al hueso: 1200. 

Transformada wavelet: 

• Filtro wavelet usado: Daubechies de 6 coeficientes. 

Diezmado: 

• Mantener topología: desactivado. 

• Ángulo característico: 75o . 

• Hacer splitting: activado. 

• Hacer splitting previo: desactivado. 

• Permitir distorsiones de bordes: activado. 

• Triángulos en un vértice para hacer splitting: 25. 

Cámara: 

• Posición: (99.85, 724.6, 69). 

• Punto Focal: (99.85, 93.63, 69). 

• Vista Superior: (0, 0, -1). 

• Distancia a los planos de corte: 63.10, 3154.82. 

• Ángulo de vista: 20o . 

• Ángulo del ojo: 2o . 

• Centro de la ventana: 0, 0. 

7.3. Resultados obtenidos 

En este apartado voy a mostrar los resultados numéricos obtenidos para las 

distintas magnitudes de error calculadas. También se muestran algunas gráficas, 

mediante las que será más sencillo interpretar los resultados. 

En la tabla 7.1, se muestra el error cuadrático medio en volumen para la compresión 

wavelet, para distintas tasas de compresión, expresadas de la forma N:1. 

También aparece el número de coeficientes wavelet que se ha cogido para realizar la 

compresión. 

En las tablas 7.2 y 7.3, se muestran los resultados de error para las isosuperficies 

correspondientes al hueso y a la piel, respectivamente. Las medidas de error que 

146

10 x 104 Número de Coeficientes de la transformada wavelet 

9 

8 

MSE entre los datos volumétricos 

7 

6 

5 

4 

3 

2 

1 

0 

0 2 4 6 8 10 12 

Figura 7.1: Compresión mediante transformada wavelet. Variación en el error 

cuadrático medio en el volumen reconstruido, en función del número de coeficientes 

de la transformada wavelet. Escala lineal para ambos ejes. 

x 10 5 

aparecen son, el número medio de errores por rodaja y el error cuadrático medio de 

la imagen renderizada. 

Por último, en las tablas 7.4 y 7.5, aparecen las medidas de error, para las dos 

mismas isosuperficies, para el caso de compresión mediante diezmado. Las medidas 

obtenidas son también, el número medio de errores por rodaja y el error cuadrático 

medio de la imagen renderizada. 

Se han obtenido varias gráficas a partir de las medidas contenidas en las tablas 

mostradas. Se ha intentado no mostrar demasiadas gráficas, pero que las que aparecen 

tengan el mayor interés posible. Estas gráficas se comentarán en el apartado 7.4. 

147

Cuadro 7.1: Compresión mediante transformada wavelet. Error cuadrático medio 

en volumen (MSEV) y número de coeficientes wavelet, en función de la tasa de 

compresión. 

N:1 # Coeficientes MSEV 

2:1 1048576 0.6 

3:1 699050 5.8 

4:1 524288 16.5 

5:1 419430 37.0 

6:1 349525 73.2 

7:1 299593 130.3 

8:1 262144 210.2 

9:1 233016 311.3 

10:1 209715 434.6 

12:1 174762 766.4 

14:1 149796 1195.2 

16:1 131072 1677.6 

18:1 116508 2259.1 

20:1 104857 2894.6 

23:1 91180 3949.7 

26:1 80659 4877.0 

30:1 69905 6135.7 

34:1 61680 6999.2 

39:1 53773 7577.5 

44:1 47662 7899.1 

50:1 41943 8257.5 

58:1 36157 8781.6 

70:1 29959 9698.9 

84:1 24966 11067.0 

100:1 20971 12833.1 

130:1 16131 16871.6 

200:1 10485 23874.7 

300:1 6990 26536.1 

450:1 4660 30147.0 

700:1 2995 38025.0 

1000:1 2097 47021.6 

2000:1 1048 54019.8 

5000:1 419 79952.7 

10000:1 214 91969.2 

148

Cuadro 7.2: Compresión mediante transformada wavelet. Isosuperficie correspondiente 

al hueso (densidad = 1200). Número medio de errores por rodaja (NMER) y 

error cuadrático medio de la imagen renderizada (MSER). 

N:1 # Coeficientes NMER MSER 

2:1 1048576 0.2 0.3 

3:1 699050 5.3 2.3 

4:1 524288 14.3 6.8 

5:1 419430 31.1 14.0 

6:1 349525 54.7 26.4 

7:1 299593 79.9 44.1 

8:1 262144 109.7 62.5 

9:1 233016 139.7 80.5 

10:1 209715 170.2 106.5 

12:1 174762 247.3 166.3 

14:1 149796 323.6 227.9 

16:1 131072 400.0 292.8 

18:1 116508 489.3 363.1 

20:1 104857 561.9 440.6 

23:1 91180 642.8 533.8 

26:1 80659 755.9 626.7 

30:1 69905 865.5 711.4 

34:1 61680 912.3 777.9 

39:1 53773 943.0 807.4 

44:1 47662 995.1 839.2 

50:1 41943 1077.7 884.5 

58:1 36157 1231.0 986.2 

70:1 29959 1416.5 1186.4 

84:1 24966 1633.4 1303.4 

100:1 20971 1858.1 1379.0 

130:1 16131 2131.8 1585.0 

200:1 10485 2658.6 1669.4 

300:1 6990 2928.1 1705.8 

450:1 4660 3348.2 1761.0 

700:1 2995 4273.5 1769.1 

1000:1 2097 4707.9 2118.1 

2000:1 1048 5285.8 2216.7 

5000:1 419 7021.2 2654.1 

10000:1 214 7733.8 2740.5 

149

Cuadro 7.3: Compresión mediante transformada wavelet. Isosuperficie correspondiente 

a la piel (densidad = 600). Número medio de errores por rodaja (NMER) y 

error cuadrático medio de la imagen renderizada (MSER). 

N:1 # Coeficientes NMER MSER 

2:1 1048576 0 0.3 

3:1 699050 1.9 0.5 

4:1 524288 5.4 1.3 

5:1 419430 11.1 2.7 

6:1 349525 18.2 4.3 

7:1 299593 26.3 7.0 

8:1 262144 34.1 10.3 

9:1 233016 41.9 14.5 

10:1 209715 51.6 19.1 

12:1 174762 70.2 31.9 

14:1 149796 92.9 52.4 

16:1 131072 110.0 72.3 

18:1 116508 136.2 99.5 

20:1 104857 153.3 129.6 

23:1 91180 189.4 172.7 

26:1 80659 204.5 189.2 

30:1 69905 210.3 196.1 

34:1 61680 223.8 200.9 

39:1 53773 236.6 209.9 

44:1 47662 250.4 217.4 

50:1 41943 253.1 227.2 

58:1 36157 287.4 246.9 

70:1 29959 318.5 269.3 

84:1 24966 366.5 301.4 

100:1 20971 428.8 363.6 

130:1 16131 556.9 447.2 

200:1 10485 663.4 507.3 

300:1 6990 729.6 540.1 

450:1 4660 866.7 599.7 

700:1 2995 1168.9 694.2 

1000:1 2097 1332.4 763.2 

2000:1 1048 1526.2 725.8 

5000:1 419 2245.1 811.5 

10000:1 214 2281.1 884.0 

150

Cuadro 7.4: Compresión mediante diezmado. Isosuperficie correspondiente al hueso 

(densidad = 1200). Número medio de errores por rodaja (NMER) y error cuadrático 

medio de la imagen renderizada (MSER). 

% Diezmado # Puntos # Triángulos NMER MSER 

0 102337 203856 0 0 

5 97206 193757 5.5 2.1 

10 92080 183560 12.0 4.1 

15 86963 173362 20.9 6.8 

20 81841 163164 30.2 10.7 

25 76719 152967 39.2 14.7 

30 71601 142769 49.7 19.9 

35 66485 132570 61.2 24.9 

40 61669 122372 79.9 31.0 

45 56254 112175 97.8 40.0 

50 51139 101978 113.9 50.8 

55 46023 91779 140.0 64.8 

60 40902 81581 165.8 80.5 

65 35777 71384 196.1 99.7 

70 30643 61185 239.6 133.2 

75 25481 50988 290.2 218.3 

80 20404 40790 350.4 312.4 

85 15269 30592 477.7 417.3 

90 10130 20395 745.7 697.9 

95 4956 10196 2330.8 1965.9 

99 3728 2039 4767.1 6878.3 

151

Cuadro 7.5: Compresión mediante diezmado. Isosuperficie correspondiente a la piel 

(densidad = 600). Número medio de errores por rodaja (NMER) y error cuadrático 

medio de la imagen renderizada (MSER). 

% Diezmado # Puntos # Triángulos NMER MSER 

0 72508 144104 0 0 

5 68877 136897 2.4 0.3 

10 65260 129693 5.4 0.9 

15 61636 122488 9.5 1.5 

20 58011 115283 13.3 2.1 

25 54391 108078 17.7 2.8 

30 50767 100871 23.1 3.7 

35 47142 93667 28.9 5.3 

40 43519 86461 35.1 6.9 

45 39897 79257 41.4 8.6 

50 36278 72052 49.1 10.7 

55 32659 64846 57.7 13.1 

60 29041 57640 68.2 16.2 

65 25423 50436 80.8 20.1 

70 21803 43231 98.4 26.6 

75 18179 36026 120.9 36.5 

80 14548 28820 134.0 51.7 

85 10913 21615 229.4 78.0 

90 7285 14409 356.4 126.9 

95 3656 7205 677.8 292.4 

99 2593 1441 7822.8 5721.3 

152

10 5 Número de Coeficientes de la transformada wavelet 

10 4 

MSE entre los datos volumétricos 

10 3 

10 2 

10 1 

10 0 

10 −1 

0 2 4 6 8 10 12 


cuadrático medio en el volumen reconstruido, en función del número de coeficientes 

de la transformada wavelet. Escala logarítmica para el eje de ordenadas. 

x 10 5 

153


10 3 

MSE entre imágenes renderizadas 

10 2 

10 1 

10 0 

10 −1 

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 


cuadrático medio de la imagen renderizada, en función del número de coeficientes 

de la transformada wavelet. Escala logarítmica para el eje de ordenadas. La curva 

roja corresponde a la isosuperficie de la piel (1200) y la negra a la del hueso (600). 

154


10 3 

Número de errores por rodaja del volumen 

10 2 

10 1 

10 0 

10 −1 

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 

Figura 7.4: Compresión mediante transformada wavelet. Variación en el número 

medio de errores por rodaja, en función del número de coeficientes de la transformada 

wavelet. Escala logarítmica para el eje de ordenadas. La curva roja corresponde a la 

isosuperficie de la piel (1200) y la negra a la del hueso (600). 

155

10 4 Número de puntos diezmado / Número de puntos original 

10 3 

MSE entre imágenes renderizadas 

10 2 

10 1 

10 0 

10 −1 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 

Figura 7.5: Compresión mediante diezmado. Variación en el error cuadrático medio 

de la imagen renderizada, en función del tanto por uno de puntos considerados el 

diezmado. Escala logarítmica para el eje de ordenadas. La curva roja corresponde a 

la isosuperficie de la piel (1200) y la negra a la del hueso (600). 

156

10 4 Número de puntos diezmado / Número de puntos original 


10 3 

10 2 

10 1 

10 0 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 

Figura 7.6: Compresión mediante diezmado. Variación en el número medio de errores 

por rodaja, en función del tanto por uno de puntos considerados el diezmado. Escala 

logarítmica para el eje de ordenadas. La curva roja corresponde a la isosuperficie de 

la piel (1200) y la negra a la del hueso (600). 

157

10 4 Número de elementos comprimido / Número de elementos original 


10 3 

10 2 

10 1 

10 0 

10 −4 10 −3 10 −2 10 −1 10 0 

Figura 7.7: Comparación de la compresión mediante la transformada wavelet (rojo) 

y la compresión mediante diezmado (negro). Variación en el número medio de errores 

por rodaja, en función del tanto por uno de elementos considerados para realizar la 

compresión. Escala logarítmica para ambos ejes. Isosuperficie correspondiente a la 

piel (600). 

158

7.4. Interpretación de los resultados obtenidos 

En este apartado se comentan las gráficas mostradas en el apartado anterior. 

Aunque pueda resultar algo obvio, se puede observar en todas las tablas, cómo 

al disminuir el porcentaje de los datos que se considera (al aumentar la tasa de 

compresión), el error aumenta. Este es el comportamiento esperado de todo método 

de compresión con pérdidas. 

7.4.1. Compresión mediante la Transformada Wavelet 

La Fig. 7.1 corresponde a la representación, en escala lineal para ambos ejes, de 

la tabla 7.1. En ella se muestra el error cuadrático medio en volumen, respecto a la 

disminución del número de coeficientes wavelet considerados. 

Se observa como, cuando el número de coeficientes es grande (poca compresión), 

el aumento del error cuadrático medio es pequeño. Esto es así porque los primeros 

coeficientes eliminados corresponden a los detalles más pequeños de mayor resolución, 

que tienen muy poca importancia relativa en el conjunto. En la tabla se observa 

que al disminuir los coeficientes a la mitad, el MSE sólo es de 0.58. Sin embargo, 

según se va disminuyendo más el número de coeficientes, el error aumenta cada vez 

con mayor pendiente. Esto se debe a que los coeficientes eliminados, son cada vez 

más importantes (detalles de resoluciones menores). 

Si comparamos esta tabla con la que aparece en [10], Pág. 55, se puede observar 

que es muy similar cualitativamente. Sin embargo, no se pueden realizar comparaciones 

cuantitativas del error, pues en este artículo se evalúa el error en datos 

procedentes de una resonancia magnética, y aquí se está evaluando el error en una 

tomografía computerizada. 

Si bien en la Fig. 7.1, se puede ver la variación del error en escala lineal, también 

puede resultar interesante representarlo en escala logarítmica, debido a que los 

errores son muy pequeños para tasas de compresión bajas y muy grandes para tasas 

de compresión altas. 

En la Fig. 7.2 se representa el mismo error en escala logarítmica, manteniendo 

lineal el eje de abscisas (número de coeficientes). En ella, se puede observar cómo 

el aumento relativo del error (pendiente de la curva) crece según se va aumentando 

la tasa de compresión. Sin embargo, se puede ver que hay una primera zona, en 

la que la pendiente es aproximadamente constante, indicando que los coeficientes 

eliminados tienen todos la misma importancia. Esto es muy fácil de entender, pues 

hasta una compresión de 8:1 (en la que la gráfica tiene una pendiente aproximadamente 

constante), estamos eliminando coeficientes de detalle del mismo nivel (el 

primero). La razón de que no sea totalmente lineal es porque se eliminan primero 

los coeficientes menores y luego los mayores. Además, mediante la obtención de la 

significancia, explicada en el apartado 5.4, se consigue que el error aumente menos 

159

al principio, pues no tiene la misma importancia eliminar dos coeficientes de niveles 

de resolución distintos, aunque tengan el mismo valor absoluto. A continuación se 

puede observar otra zona de pendiente aproximadamente constante, que corresponde 

a la eliminación del siguiente nivel de detalle (hasta compresión 64:1). Por la misma 

razón que antes, su pendiente no es totalmente constante, sino que va aumentando 

poco a poco. 

Hay que señalar que, si bien el comportaminiento explicado aquí puede servir 

para entender los resultados, el orden de eliminación de los coeficientes de la transformada 

wavelet no es, estrictamente, por niveles de resolución (aunque la significancia 

ayuda a que esto sea así), pues si un coeficiente de un nivel de resolución j, es mucho 

menor (más de ocho veces menor) que uno del nivel (j + 1), se elimina antes el del 

nivel de resolución menor. Esto puede explicar, en parte, el comportamiento observado 

para niveles muy grandes de compresión, en los que se eliminan coeficientes 

muy importantes, lo que hace aumentar mucho el error. 

Ahora voy a considerar los valores de error que salen para las dos isosuperficies 

estudiadas de este volumen de datos, la de la piel (de densidad 1200) y la del hueso 

(de densidad 600). Las gráficas se han realizado con el eje de abscisas con escala 

logarítmica, pues en las gráficas lineales simplemente se observa que el error crece 

de forma “exponencial” con el aumento de la tasa de compresión. (Todas las gráficas 

lineales tienen una forma muy similar, siendo difícil extraer más conclusiones a partir 

de ellas.) 

En la Fig. 7.3 se representa el error cuadrático medio en las imágenes renderizadas. 

La línea roja corresponde a la piel, y la línea negra al hueso. Se han representado 

juntas, para poder ser comparadas mejor. Lo primero que se puede observar, 

es que el comportamiento de ambas curvas es muy similar al del la Fig. 7.2, con lo 

cual ambos métodos de calcular el error se pueden considerar válidos. Sin embargo, 

ahora se distingue el error correspondiente a ambas isosuperficies, algo que antes no 

se podía hacer. 

Se observa que el error en la piel es menor que el error en el hueso. Ambas 

curvas aparecen más o menos paralelas, lo cual indica que el error en el hueso es, 

aproximadamente igual al error en la piel, multiplicado por una cierta constante (de 

valor entre 5 y 6, aproximadamente). La razón de esta disparidad en el error de 

ambas isosuperficies se debe a la variación en la densidad de los datos volumétricos 

en el entorno a la isosuperficie considerada, en su dirección normal. En el caso de la 

isosuperficie correspondiente a la piel, por fuera de la misma, hay aire, de densidad 

despreciable con respecto a la densidad de la piel. Por el contrario, rodeando al 

hueso, hay tejidos de una cierta densidad, menor que la del hueso, pero considerable. 

Por ello, según se va aumentando la tasa de compresión, van apareciendo pequeños 

salientes en el hueso, y algunas islas fuera del mismo, debido a los errores en los 

datos de los tejidos que rodean al hueso. 

Estos errores se podrían disminuir realizando un preprocesado de los datos 

160

volumétricos, en el que se eliminen los datos que no superen un umbral de densidad. 

Ajustando este valor de densidad a la del tejido a estudiar (el hueso), se 

disminuye mucho el error. Sin embargo, este procedimiento impide obtener otras 

isosuperficies de densidad menor. Esto no es un inconveniente, en general, pues al 

especialista sólo le interesa un determinado tejido del paciente (huesos, músculos, 

ligamentos, . . . ). 

La razón de que para una compresión 2:1 ambos valores de error sean muy 

similares, puede ser porque los coeficientes eliminados son despreciables para la 

resolución de la renderización mostrada en pantalla, en ambos casos. 

La Fig. 7.4 muestra el número medio de errores por rodaja del volumen. El 

resultado obtenido es también muy similar al de las figuras anteriores. Por ello 

podemos considerar los tres métodos de cálculo de error equivalentes y válidos. Sin 

embargo, los métodos que evalúan el error de la isosuperficie, tienen la ventaja de 

que permiten comparar los errores cometidos por el método de compresión para cada 

isosuperficie. 

Se puede observar en esta gráfica, que ambas curvas de error también aparecen 

paralelas (aunque el factor en este caso está entre 3 y 4, aproximadamente). Para una 

tasa de compresión de 2:1, en el caso del hueso sale menor de lo esperado y en el caso 

de la piel sale 0. La razón de esto es que eliminamos coeficientes irrelevantes. Algunos 

de ellos corresponden al padeo, y otros no son observados debido a la resolución de 

la matriz que hemos usado para muestrear la isosuperficie. Las dimensiones de esta 

matriz son, para los cálculos realizados, 256 × 256 en cada rodaja, cuando los datos 

originales tenían 128 × 128 datos por rodaja. La razón de haber usado una matriz 

cuatro veces más grande es para disminuir, en lo posible, los errores introducidos por 

el método del cálculo del error (aunque ello conlleve un tiempo de cálculo bastante 

mayor). 

Los datos volumétricos originales tienen valores de densidad. A partir de ellos se 

obtiene la isosuperficie, mediante el método de marching cubes, en el que se interpolan 

los valores de cada punto, para obtener la posición exacta de los triángulos de 

la isosuperficie, según se explicó en el apartado 3.4. Sin embargo, el pasar de nuevo, 

de isosuperficie a malla rectangular, obtenemos sólo los puntos más cercanos a la 

isosuperficie, sin ningún tipo de interpolación. En este proceso, se pierde resolución 

e información; por ello se ha usado una matriz de muestreo con mayor resolución. 

No compensa coger mayor resolución aún, pues aumenta mucho el tiempo de procesamiento. 

Para tasas de compresión pequeñas, el error introducido por el algoritmo de 

cálculo del error puede ser considerable con respecto al de compresión; sin embargo, 

para tasas de compresión mayores, se hace despreciable. 

En este punto hay que señalar que para isosuperficies interiores (como el hueso), 

tiene mucha importancia el valor de densidad elegido. Valores de densidad distintos, 

que sin compresión wavelet, producen isosuperficies prácticamente idénticas, pueden 

161

llevar, cuando se realiza compresión, a valores de error muy distintos. Por ejemplo, 

si se elige un valor de densidad de 1150, en lugar de 1200, las isosuperificies sin 

compresión, son indistinguibles a simple vista. Sin mebargo, a medida que los datos 

se van comprimiendo, van apareciendo muchos más salientes e islas en el hueso, con 

lo que el error es mucho mayor (del orden de un 50 %-60 % mayor en NMER, y 

un 30 %-90 % mayor para MSER). Por ello, tiene gran importancia la exactitud en 

el valor de densidad elegida para isosuperficies interiores. Esto no es cierto para la 

isosuperficie externa (piel), en la que el error prácticamente no varía, aunque varíe 

algo el valor de densidad. 

7.4.2. Compresión mediante Diezmado 

En la Fig. 7.5 se muestra el error cuadrático medio en las imágenes renderizadas 

correspondientes al diezmado de la isosuperficie. Los valores del eje de abscisas 

corresponden al tanto por uno de puntos que se mantienen en la malla que representa 

a la isosuperficie. En rojo se muestra el error correspondiente a la piel, y en negro 

el correspondiente al hueso. Al igual que en la compresión wavelet, en el método de 

compresión por diezmado, el error para la piel es menor que el error para el hueso. 

Sin embargo, en este caso, la razón de esta disparidad es otra distinta. La piel es 

bastante más plana y lisa que el hueso, con lo que se pueden eliminar puntos de 

la isosuperficie introduciendo menor error. Se puede observar que ambas curvas son 

muy paralelas, con un factor entre ambas que varía entre 4.5 y 5.5, aproximadamente. 

En este caso, la variación relativa del error aumenta más al principio, habiendo 

luego una zona de menor pendiente. Por último, para tasas de compresión muy altas, 

hay varios efectos que hacen aumentar el error: 

Los puntos eliminados tienen cada vez mayor importancia para el error. 

Se empieza a producir splitting o división en la malla, con lo cual, el sombreado 

de la renderización aparece más abrupta en los triangulos adyacentes a las 

aristas que se han dividido, pues no tiene en cuenta las normales en estos 

triángulos adyacentes, para realizar el sombreado de la isosuperficie. Para que 

este efecto se produzca para tasas de compresión muy altas, se ha dado al 

ángulo característico un valor grande, de 75 o (ver apartado 4.3.7). 

La renderización de pocos triángulos aparece bastante mal, pues los triángulos 

que no enfocan a la fuente de luz, aparecen más oscuros para la parte de la luz 

correspondiente a iluminación epecular. Este efecto es mayor cuanto mayores 

son los triángulos (por tanto, cuantos menos triángulos haya). 

En la Fig. 7.6 se muestra el número medio de errores en cada rodaja del volumen, 

para ambas isosuperficies. Es muy parecida a la anterior, lo cual nos lleva a decir de 

162

nuevo que los métodos empleados para el cálculo del error son equivalentes. En este 

caso, el factor que relaciona ambas curvas varía entre 2 y 2.5, aproximadamente. 

Lo único que cabe destacar, respecto del caso anterior, es la razón del mayor 

aumento relativo del error para tasas de compresión muy altas. 

En parte, es debido a que el error de eliminar un punto es cada vez mayor; 

pero otra parte es debido a que, cuando se empieza a dividir la malla, el método 

de flood filling puede fallar, ya que no tenemos superficies cerradas. Este efecto 

es el que se observa para los dos valores mayores de compresión (95 % y 99 %), 

llegando el error para la piel, incluso, a superar al del hueso. 

7.4.3. Comparación entre Ambos Métodos de Compresión 

Por último, en la Fig. 7.7, se muestra en escala logarítmica para ambos ejes, el 

número medio de errores por rodaja para la piel. En rojo aparece la curva correspondiente 

a la transformada wavelet y en negro la de diezmado. Se muestra esta 

gráfica como ejemplo, pues se podrían mostrar otras gráficas comparativas, aunque 

de todas se obtienen los mimos resultados. En el eje de abscisas de la gráfica aparece 

la relación entre el número medio de elementos comprimidos (coeficientes wavelet, 

o puntos) y el número de elementos originales. Para ello, se ha considerado que el 

volumen de datos tiene 128 × 128 × 128 puntos. 

Se observa que es mucho mejor el resultado obtenido para compresión mediante 

la transformada wavelet, que mediante diezmado, especialmente para niveles de 

compresión relativamente bajos. Para compresión wavelet, también ocurre esto para 

niveles de compresiones muy altos, para los que el aumento relativo del error, es 

pequeño con respecto al aumento relativo del porcentaje de compresión. Esto no 

ocurre para diezmado. Así, por ejemplo, el error de una compresión mediante wavelet 

de 10000:1 es del orden de 3.5 veces mejor que una compresión 100:1 mediante 

diezmado. 

Sin embargo, estos dos métodos de compresión, no pueden ser totalmente comparables, 

pues la información que se comprime es distinta. En diezmado se comprime 

sólo la isosuperficie, mientras que con la transformada wavelet se comprime todo el 

volumen. 

7.5. Algunas Imágenes Renderizadas de Ejemplo 

Todos los resultados de error calculados, pueden servir para evaluar los métodos 

de compresión; sin embargo, siempre hay que ver el resultado final obtenido. A 

continuación se muestran varias renderizaciones para distintos niveles de compresión. 

163

En ellas se puede ver la calidad de los resultados obtenidos con cada método de 

compresión. 

En las Figs. 7.12 y 7.13, se muestran ejemplos de compresión de otros datos 

volumétricos distintos a los usados para evaluar los métodos de compresión. 

164

Figura 7.8: Ejemplos de renderizaciones. Compresión mediante transformada 

wavelet. 

165


wavelet. 166

167 

Figura 7.10: Ejemplos de renderizaciones. Compresión mediante diezmado.

168 

Figura 7.11: Ejemplos de renderizaciones. Compresión mediante diezmado.


wavelet, con dos niveles de compresión. 

169

Figura 7.13: Ejemplos de renderizaciones. Compresión mediante diezmado a una 

tasa de compresión de 75 %, de dos isuperficies. 

170

Capítulo 8 

Conclusiones y Líneas Futuras 

8.1. Conclusiones 

El sistema visual humano está mucho mejor adaptado a las imágenes tridimensionales, 

que a las bidimensionales; por ello, desde hace algún tiempo, se está desarrollando 

hardware y software que permite procesar y visualizar datos volumétricos, 

de forma rápida e interactiva. 

En medicina moderna, se captán datos volumétricos del cuerpo humano, mediante 

dispositivos como la tomografía computerizada, la resonancia magnética y los 

ultrasonidos. Estos datos pueden ser mucho mejor interpretados que las imágenes 

bidimensionales. Para ello, deben ser renderizados, y permitir interactividad por 

parte del profesional médico. 

El mayor problema de los datos volumétricos, es su enorme tamaño. Por ello 

cobran especial importancia los esquemas de compresión. Son especialmente interesantes 

los esquemas de compresión multirresolución, que permiten mostrar los datos 

a distintos niveles de resolución, según la compresión realizada. 

Se han comparado dos esquemas de compresión de datos volumétricos: compresión 

mediante transformada wavelet y compresión mediante diezmado de mallas 

triangulares. 

La compresión mediante la transformada wavelet, reorganiza los datos originales 

a un conjunto de detalles, y aproximaciones a distintos niveles de resolución. Tiene la 

ventaja de que posee localidad en el espacio, lo que permite obtener distintos niveles 

de compresión (y por tamto resolución) dentro de la misma imagen. Hemos obtenido 

una zona prismnática de detalle en los datos, de forma que en esta zona no se realiza 

compresión sobre los datos, permitiendo visualizarla a la máxima resolución, pero 

sin pérdida del contexto espacial global. 

La compresión por diezmado, elimina puntos de la malla triangular que forma 

la isosuperficie, de forma que el error de eliminación de cada punto sea el mínimo 

171

posible. 

En el proyecto no se ha realizado un estudio de tiempos de ejecución, debido a las 

grandes variaciones, debido a elementos como la memoria caché. Sin embargo, sí se 

ha comprobado que el tiempo de ejecución del esquema de compresión wavelet, no 

depende del nivel de compresión, mientras que en el diezmado, sí depende. Esto es 

totalmente lógico, pues para wavelet, hace las mismas operaciones, independientemente 

del nivel de compresión; sin embargo, para diezmado, como se van eliminando 

los puntos de la malla de uno en uno, el tiempo de procesamiento depende del nivel 

de compresión. 

Se ha comprobado cuantitativa y cualitativamente que la compresión mediante 

la transformada wavelet es mucho mejor que el diezmado. Para ello se han evaluado 

distintas magnitudes de error para los datos de una tomografía computerizada. Se 

ha calculado el error cuadrático medio en volumen, para la compresión mediante la 

transformada wavelet. Para ambos métodos de compresión, se ha calculado el error 

cuadrático medio en la imagen renderizada, y el número medio de errores por rodaja 

del volumen. 

Se ha visto en todos los resultados obtenidos que todos los métodos de compresión 

empleados dan resultados equivalentes, pero el número medio de errores por rodaja 

y el error cuadrático medio en la imagen renderizada, tienen la ventaja de que son 

función de la isosuperficie de interés, y no de todo el volumen. 

Se ha desarrollado una aplicación en la que se ha incluido una interfaz gráfica de 

usuario, que permite realizar ambos tipos de compresión sobre datos volumétricos, 

evaluar todos los tipos de error comentados sobre los datos comprimidos, y renderizar 

las imágenes resultantes. Además, aunque el propósito de la aplicación no es el de ser 

usada por profesionales médicos, permite interactuar sobre los datos renderizados, 

realizando rotaciones, traslaciones, cambios de zoom, semitransparencias, . . . 

Algunas de las aportaciones más interesantes del proyecto, de las que no tenemos 

conocimiento hayan sido realizadas previamente son: 

Comparacion de compresión mediante wavelets y mediante diezmado de mallado 

triangular. 

Obtención y estudio de los errores de compresión en distintas isosuperfies, las 

que están en contacto con el aire, en las que el error es menor, y las internas, 

en las que el error es mayor. 

Especificación clara de criterios para el cálculo del error en datos volumétricos. 

Desarrollo e implementación de un algoritmo para el acondicionamiento de 

volúmenes para el cálculo del error (flood filling generalizado). 

Realización de dos clases en VTK, para implementar el esquema de compresión 

mediante wavelet (vtkWaveletFilter), y para realizar el flood filling generalizado 

(vtkFloodFillFilter). 

172

Además, se ha visto la importancia de elegir de forma muy exacta el valor de 

la isosuperficie para realizar la compresión wavelet. Variaciones de densidad relativamente 

pequeñas, que apenas se ven en la renderización sin compresión, provocan 

aumentos muy considerables del error, cuando se comprimen los datos. 

8.2. Líneas Futuras 

Este proyecto fin de carrera forma parte del proyecto financiado por la Junta de 

Castilla y León, con referencia VA78/99, cuyo título es “Desarrollo de una Aplicación 

de Compresión y Visualización de Datos Volumétricos para los Hospitales de Castilla 

y León”. 

Por ello, este proyecto se va a continuar y ampliar de forma muy importante en 

un futuro inmediato. Las líneas de desarrollo futuro que se pueden seguir son muy 

amplias. 

Se puede desarrollar una aplicación distribuida, con arquitectura cliente–servidor, 

en la red de área amplia (WAN), formada por todos los centros hospitalarios de 

Castilla y León, o bien en la red de área local (LAN) de cada centro hospitalario. 

En estas redes, habrá servidores, que posean los datos comprimidos (con todas las 

versiones multirresolución), enviando a los sistemas clientes (localizados en cada 

hospital), los datos a la resolución requerida. Los datos se mandarán comprimidos, 

en orden de menor a mayor resolución, hasta el nivel de resolución requerido. De 

esta forma, desde que el cliente empieza a recibir datos, puede obtener una versión 

a baja resolución de los mismos, e ir aumentándola a medida que va recibiendo más 

datos. 

Además, en los centros hospitalarios, es donde se obtienen los datos volumétricos, 

que son enviados al servidor del sistema. En el servidor, los datos se almacenan en 

su versión multirresolución, para que si un cliente los solicita, simplemente haya que 

seleccionar los coeficientes según el nivel de compresión, y enviarlos por la red. 

En el sistema cliente sólo hay que hacer la descompresión de los datos (transformada 

inversa), y el proceso de visualización de los mismos. 

En el cliente se puede seleccionar una zona de interés, en la que se quiere mayor 

detalle. El servidor mandaría los detalles de esta zona, en orden creciente de 

resolución; de esta forma, se obtiene cada vez más detalle en la zona de interés. 

Uno de los problemas de la transformada wavelet sobre datos volumétricos (y 

de la mayor parte de las transformadas), es que opera sobre datos con un número 

de elementos en cada dimensión, múltiplo de dos. Esto provoca que si los datos 

originales no son múltiplos de dos en cada dimensión, su tamaño aumente (aunque 

luego pueda disminuir con la compresión). Por ello puede ser interesante dividir 

los datos en subvolúmenes más pequeños, en los que realizar la compresión; de esta 

forma el aumento de tamaño se reduce. De todas las formas, la solución más sencilla, 

173

y también la mejor, es que los datos tengan tamaños en cada dimensión múltiplos 

de dos. Esto es lo más común, pues los dispositivos de captación, obtienen matrices 

para cada rodaja de 256 × 256 o 512 × 512. 

Cuando se selecciona una zona de los datos con mayor nivel de detalle, en principio, 

hay que realizar la transformada inversa sobre todo el volumen de datos (operación 

muy ineficiente). interesa mucho desarrollar una transformada wavelet local, 

aprovechando la propiedad de localidad de la transformada wavelet. De esta forma, 

sólo se obtiene la transformada inversa de la zona de interés (que es la única que 

cambia). Aunque no se ha incluido en el proyecto, por no haberse implementado en 

la práctica, no es complicado realizar esta transformada wavelet inversa de una zona 

de los datos. Para ello, simplemente hay que formar un subvolumen de coeficientes 

wavelet formado por todos los correspondientes a la zona de interés; a continuación 

se realiza la transformada wavelet inversa de este subvolumen, y se coloca en el 

lugar adecuado del volumen total a baja resolución. El subvolumen deberá tener un 

tamaño en cada dimensión potencia de dos. 

Puede ser muy interesante realizar un estudio del error para el método de compresión 

wavelet en función del filtro wavelet usado. Para la realización del proyecto 

se ha usado el filtro Daubechies de seis coeficientes. Se ha visto que los resultados 

obtenidos son mucho mejores que con el filtro de Haar (no es continuo, ni derivable); 

sin embargo, no se ha comparado con otros filtros. Como la transformada wavelet 

de un volumen de datos es un proceso relativamente lento, hay que llegar a un 

compromiso entre calidad obtenida y número de coeficientes del filtro. Sin embargo, 

distintos tipos de filtros, del mismo número de coeficientes, pueden dar errores 

distintos. 

Se puede intentar combinar ambos métodos de compresión, ya que operan en 

dominios distintos (la transformada wavelet, sobre los datos volumétricos, y el diezmado, 

sobre la malla triangular que representa a la isosuperficie). Para obtener una 

buena interacción entre el usuario y la escena renderizada, interesa que la isosuperficie 

tenga el mínimo número de triángulos que permita una visualización con la 

calidad deseada. En principio, mediante la compresión wavelet, no podemos asegurar 

que el número de triángulos obtenidos al calcular la superficie, disminuya con el 

aumento de la tasa de compresión, pues no hay ninguna relación. 

Por ello se puede, en primer lugar, realizar una compresión mediante la transformada 

wavelet, con la arquitectura cliente–servidor explicada. A continuación, una 

vez descomprimidos los datos en el cliente y obtenida la isosuperficie, se puede realizar 

un diezmado de la misma. De esta forma se consigue una mejor interacción 

por parte del usuario, especialmente si el sistema cliente no tiene hardware gráfico 

específico para renderización. 

Habrá que estudiar también el tiempo de procesamiento de cada algoritmo, en 

función del nivel de compresión. Habrá que conseguir que los tiempos de ejecución 

de un algoritmo, con todos sus parámetros iguales, se mantenga aproximadamente 

174

constante, independientemente de otros elementos. Para ello, habrá que usar, entre 

otras cosas, ordenadores con memorias mayores (para evitar swapping). 

Una vez estudiados los tiempos de ejecución, habrá que llegar a un compromiso 

entre nivel de compresión, error y tiempo de ejecución. Este compromiso, será distinto, 

según el caso. En una apliciación ejecutada en un solo ordenador (como la del 

proyecto), puede tener más importancia el tiempo de procesamiento. Sin embargo, 

en un sistema distribuido (especialmente en una WAN), tiene mucha más importancia 

el nivel de compresión, pues el cuello de botella del sistema está en el ancho de 

banda de la red. 

175

176

Capítulo 9 

Pliego de Condiciones 

En este capítulo se enumeran los medios materiales usados para la realización del 

proyecto, así como su precio. No se ha pretendido realizar un presupuesto detallado 

del proyecto. Sin embargo, se puede ver que la mayor parte de los medios usados 

para la realización del mismo son de distribución gratuita. No se muestran entre 

los medios materiales los libros y artículos empleados, pues no ha sido necesario 

comprarlos para la realización del proyecto. 

Ordenador Pentium II 266 MHz: 

Monitor 19 pulgadas: 

Escáner color Primax 4800 × 4800: 

Impresora HP DeskJet 890 C: 

Impresora láser HP LaserJet 4000 N: 

Material de papelería y fotocopias: 

Linux Slackware 2.0.30: 

Windows ’95: 

VTK 2.0: 

Tcl/Tk 8.0: 

Picture Publisher 6.0: 

L A TEX V. 3.14159 (C V. 6.1): 

220.000 pts. 

140.000 pts. 

25.000 pts. 

70.000 pts. 

100.000 pts. 

5.500 pts. 

0 pts. 

17.500 pts. 

0 pts. 

0 pts. 

0 pts. 

0 pts. 

177

178

Bibliografía 

[1] J. D. Bronzino, Editor in Chief, The Biomedical Engineering. Handbook, CRC 

Press – IEE Press, Boca Ratón, Florida, USA, 1995. 

[2] A. S. Tenenbaum, Redes de Ordenadores, (Segunda Edición), Prentice Hall 

Hispanoamericana, México D. F., México, 1991. 

[3] F. J. Owens, Signal Processing of Speech, Macmillan New Electronics. Introduction 

to Advanced Topics, Londres, G.B., 1993. 

[4] J. Watkinson, The Art of Digital Audio, (Segunda Edición), Focal Press, Oxford, 

G.B., 1994. 

[5] G. Plenge, DAB – A New Broadcasting System – Status of the Development – 

Routes to its Introduction, EBU Review – Technical, Número 246, Abril 1991. 

[6] C. W. Brown and B. J. Shepherd, Graphics File Formats. Reference and Guide, 

Manning, Greenwich, G.B., 1995. 

[7] B. V. Dasarathy, Image Data Compression. Block Truncation Coding, IEEE 

Computer Society Press, Págs. 1-54, 1995. 

[8] R. J. Clarke, Digital Compression of Still Images and Video. Signal Processing 

and its Applications, Academic Press Inc., San Diego, California, USA, 1995. 

[9] S. Muraki, Approximation and Rendering of Volume Data Using Wavelet Transforms, 

Proc. of IEEE Visualization 1992, Pgs. 21-28. 

[10] S. Muraki, Volume Data end Wavelet Transforms, IEEE Computer Graphics 

and Applications, Vol. 13, Número 4, Págs. 50-56, Julio 1993. 

[11] S. G. Mallat A Theory for Multiresolution Signal Decomposition: The Wavelet 

Representation, IEEE Transactions on Pattern Analysis and Machine Inteligence, 

Vol. 11, Número. 7, Págs. 674-693, Julio 1989. 

[12] W. Schroeder, K. Martin and B. Lorensen, The Visualization Toolkit. An 

Object-Oriented Approach to 3D Graphics, (Segunda Edición), Prentice Hall 

PTR, New Jersey, USA, 1997. 

179

[13] W. E. Lorensen and H. E. Cline, Marching Cubes: a High Resolution 3D Surface 

Construction Algorithm, Coputer Graphics, Vol. 21, Número 4, Págs. 163-169, 

Julio 1987. 

[14] P. Cignoni, C. Montani, E. Puppo, and R. Scopigno, Multiresolution Representation 

and Visualization of Volume Data, IEEE Transactions on Visualization 

and Computer Graphics, Vol. 3, Número 4, Págs. 352-369, Octubre-Diciembre 

1997. 

[15] B. B. Welch, Practical Programming in Tcl and Tk (Segunda Edición), Prentice 

Hall PTR, New Jersey, USA, 1997. 

[16] K. D. Cohen, Feature Extraction and Pattern Analysis of Three-Dimensional 

Objects, Master Thesis, Thayer School of Engeneering, Darmouth College, 1996 

180

Apéndice A 

Manual de Referencia 

A.1. 

Introducción 

En este capítulo se van a comentar algunos aspectos de la implementación de la 

aplicación. En el apéndice C se muestran parte de los listados de la aplicación. No 

se han mostrado todos, debido a su gran tamaño; sin embargo, espero que sirvan 

para entender la estructura del programa. A continuación s describe la estructura 

general del programa, así como los objetos de VTK usados para su realizaciónm. 

así como las clases de VTK que se han tenido que realizar, por no estar disponibles 

entre las ofrecidas por este sistema de programación gráfica. 

A.2. 

Estructura general del Programa 

En el apéndice B se describen algunos aspectos concretos de VTK; además se 

compara la realización de programas compilados en C++, frente a programas interpretados 

en Tcl/Tk. 

Para la realización general de la aplicación se ha elegido el lenguaje de programación 

interpretado Tcl/Tk, debido a sus ventajas sobre C++. 

Permite una programación y modificación del programa más rápida, pues no 

requiere compilación. 

La realización de interfaces gráficas en, al mismo tiempo, mediante Tk es muy 

sencilla y potente. 

Desde el script Tcl/Tk, además de hacer el GUI, básicamente se crean instancias 

de las clases de VTK. Como estas clases son compiladas, a pesar 

de usar un lenguaje interpretado, las aplicaiones son relativamente rápidas, 

181

aprovechando, de esta forma, las ventajas de los lenguajes interpretados y las 

de los lenguajes compilados. 

Es un lenguaje sencillo, y a mi entender muy interesante, pues permite hacer 

muchas de las cosas que se pueden hacer en lenguajes tan completos como C. 

De hecho, hay muchos comandos que se parecen a las funciones de C. (No en 

vano, Tcl/Tk está programado en C). 

Sin embargo, debido a que no todas las operaciones que se han tenido que realizar 

sobre los datos, se encontraban programadas en VTK, se ha tenido que realizar un 

par de clases nuevas, descritas en apartados posteriores. 

Además, el cálculo de errores también se ha programado como aplicaciones ejecutables 

programadas en C++. Esto se ha hecho así debido al enorme número de 

operaciones que hay que realizar para calcular el error, haciendo imposible su programación 

en Tcl. Los cálculos de error no han sido programado como clases, debido a 

que no se han considerado suficientemente generales como para intentar aprovechar 

la modularidad de una clase. Además las clases abstractas de proceso que ofrece 

VTK (ver apéndice B), están más adaptadas para realizar filtros, y no para obtener 

resultados numéricos a partir de clases de entrada. 

En el apéndice C se muestra parte del código general de la aplicación. Para 

entenderlo mejor, voy a describir brevemente las instancias de las clases usadas. Se 

puede encontrar más información sobre algunas de estas clases en el apéndice B (se 

recomienda leer antes este apéndice, para entender los objetos usados en VTK), y 

muchas más en [12]. Se muestra el nombre de la clase, seguido por el nombre de la 

instancia creada: 

Objetos usados para la renderización 

• vtkTkRenderWidget .Render: ventana de renderización. Es un Widget 

de Tk que permite la integración de la ventana de renderización, con el 

GUI realizado en Tk. 

• vtkRenderer render: objeto renderizador. Sirve para gestionar una ventana 

en la pantalla. 

• vtkLight luz: fuente de luz para iluminar la escena. 

• vtkCamera camara: cámara virtual para la renderización de escenas 3D. 

• vtkLODActor isoActor: actor para la isosuperficie obtenida. Esta clase 

permite varios niveles de resolución, lo cual permite mejor interactividad 

del usuario con la escena. Los actores representan objetos (geometría y 

propiedades) en una escena renderizada. 

• vtkActor lineaExternaActor: actor para el prisma de color negro que 

representa el borde externo de la isosuperficie. 

182

• vtkActor mensajeActor: actor para el objeto de texto que aparece al 

ejecutar la aplicación. 

• vtkActor cuboActor: actor para el prisma de color blanco, usado para 

posicioar el detalle en compresión mediante la transformada wavelet. 

• vtkActor ejesActor: actor usado para representar los ejes que se muestran 

en la pantalla de selección de detalle (wavelet). 

• vtkActor XActor, YActor, ZActor: actores para el texto que etiqueta 

cada uno de los ejes de ejesActor. 

• vtkProperty: objeto para definir las propiedades de la superficie del actor 

isoActor. 

Objetos de datos 

• vtkStructuredPoints Volumen: objeto de datos con topología y geometría 

regular. Se usa para almacenar los datos de la tomografía computerizada, 

leídos del disco. También se usa como salida del filtro que 

realiza la transformada wavelet. 

• vtkPolyData PolyData: objeto de datos que representa vértices, líneas, 

polígonos y tiras de triángulos. Este objeto representa la isosuperficie 

obtenida. 

Objetos de proceso fuente 

• vtkVectorText mensaje: objeto que crea texto como datos poligonales. 

Sirve para crear el texto que aparece en la ventana de renderización al 

iniciar la aplicación. 

• vtkCubeSource cubo: objeto para crear un cubo como datos poligonales. 

Se usa para seleccionar el detalle para la transformada wavelet. 

• vtkAxes ejes: objeto para crear los ejes usados en la ventana de selección 

del detalle. 

• vtkTextSource textoX, textoY, textoZ: crea texto como datos poligonales. 

Sirve para crear las etiquetas de los ejes. 

• vtkVolumen16Reader lectorVol: objeto lector, usado para leer los archivos 

con los datos de la tomografía Estos datos están en varios archivos, con 

el mismo nombre , salvo la extensión, que indica el número de rodaja. 

Los archivos tienen datos de 16 bits. La salida de este objeto tiene datos 

del tipo unsigned short, que pueden valer entre 0 y 2 16 − 1 = 65535. 

• vtkSLCReader lectorVol: objeto lector para leer datos volumétricos en 

un solo archivo, con extensión slc. 

Objetos de proceso filtro 

183

• vtkMarchingCubes iso: objeto usado para obtener la isosuperficie, mediante 

el método marching cubes, descrito en el apartado 3.4. 

• vtkDecimatePro deciPro: objeto para realizar el diezmado de la isosuperficie. 

De las técnicas avanzadas explicadas en el apartado 4.3.7, este 

filtro implementa el algoritmo que modifica la estructura de la malla, 

descrito en ese apartado, pero no la reducción progresiva. 

• vtkVoxelModeller borde: filtro que transforma la isosuperficie en un 

objeto del tipo vtkStructuredPoints binario, en el que hay unos en los 

puntos por los que pasa la isosuperficie y ceros en el resto. Se usa como 

procesado previo al objeto flood, para transformar la malla poligonal en 

una estructura rectangular regular. 

• vtkFloodFillFilter flood: filtro que sirve para rellenar el volumen interior 

a una superficie cerrada (que se encuentra en forma de vtkStructuredPoints, 

respetando las cavidades interiores que haya en el volumen). 

Esta clase se ha tenido que crear para realizar la aplicación, por lo que 

se describe en el apartado A.4. 

• vtkWaveletFilter wavelet: objeto que realiza la compresión de un conjunto 

de datos con estructura vtkStructuredPoints. Permite obtener, 

además un detalle en el que no se realiza compresión. Esta clase también 

se ha creado para el proyecto, por lo que se describe en el apartado A.3. 

• vtkOutlineFilter lineaExterna: filtro usado para obtener un prisma 

que contiene exactamente a la isosuperficie. 

objetos de proceso mapeadores 

• vtkPolyDataMapper isoMapper: objeto usado para convertir los datos 

poligonales de la isosuperficie en primitivas gráficas (mapeador). 

• vtkPolyDataMapper lineaExternaMapper: objeto que realiza el mapeado 

para el prisma que rodea a la isosuperficie. 

• vtkPolyDataMapper mensajeMapper: objeto mapeador usado para el texto 

que aparece al ejecutar la aplicación. 

• vtkPolyDataMapper cuboMapper: objeto mapeador para el prisma usado 

para seleccionar un detalle, en compresión mediante la transformada 

wavelet. 

• vtkPolyDataMapper ejesMapper: objeto mapeador usado para el objeto 

ejes. 

• vtkPolyDataMapper XMapper, YMapper, ZMapper: objetos mapeadores 

para las etiquetas de los ejes. 

• vtkStructuredPointsWriter: objeto escritor, usado para escribir en un 

fichero el objeto vtkStructuredPoints salida del filtro vtkFloodFill- 

Filter. 

184

• vtkMCubesWriter writer: objeto usado para guardar en un archivo la 

isosuperficie obtenida. 

El mayor problema para realizar la red de visualización de la aplicación es su 

interactividad. En ella, el usuario es el que indica, mediante los comandos de la 

barra de menús, las operaciones que se van realizando sobre los datos. Por ello no 

se puede usar una arquitectura fija para la red de visualización de la aplicación. 

Para afrontar este problema, lo que se ha hecho es mantener los datos siempre 

en dos objetos de datos fijos, que son la entrada y la salida de la mayoría de los 

filtros ejecutados. De esta forma, sea cual sea el orden de ejecuación del programa, 

siempre sabemos dónde están los datos. Si no se hiciera así, tendríamos el problema 

de que la arquitectura de la red de visualización cambiaría, dependiendo del orden 

de ejecución de los filtros, por parte del usuario de la aplicación. 

Los dos objetos en los que se guardan los datos, son los siguientes: 

vtkStructuredPoints Volumen: éste es el objeto de datos en el que se guardan 

los datos leídos de los ficheros. Tienen una estructura en malla rectangular 

regular (topológica y geométricamente). Este objeto sirve de entrada al filtro 

que implementa el algoritmo de marching cubes (vtkMarchingCubes iso), 

y es la salida, tanto del objeto lector de los ficheros (vtkVolumen16Reader 

lectorVol), como del objeto de compresión wavelet (vtkWaveletFilter wavelet). 

vtkPolyData PolyData: este objeto contiene la malla triangular que representa 

a la isosuperficie. Es la entrada al objeto que realiza la conversión de 

los datos poligonales a primitivas gráficas (vtkPolyDataMapper isoMapper) 

y al objeto que guarda en un fichero la malla triangular (vtkMCubesWriter 

writer). Es la salida del filtro de marching cubes (vtkMarchingCubes iso) 

y del filtro que realiza el diezmado de la malla triangular (vtkDecimatePro 

deciPro). 

La red de visualización, o pipeline de visualización resultante, se muestra en la 

Fig. A.1. En ella se han puesto solamente los objetos más importantes, para que sea 

de fácil comprensión. 

Los filtros que realizan la compresión, no toman su entrada de los dos objetos 

que guardan los datos, sino del objeto anterior en el pipeline. La razón de hacer 

esto así, es para que si se realiza varias veces la compresión de los datos, las tasas 

de compresión sean absolutas, y no acumulativas. Si se tomaran las entradas de los 

filtros de compresión de estos dos objetos (respectivamente), y se realiza varias veces 

un tipo de compresión, cada vez se tomaría la entrada del resultado de la compresión 

anterior, lo cual no es deseable. 

185

fichero.93 

fichero.1 

vtkVolumen16Reader 

lectorVol 

vtkWaveletFilter 

wavelet 

vtkStructuredPoints 

Volumen 

vtkMarchingCubes 

iso 

vtkDecimatePro 

deciPro 

vtkPolyData 

PolyData 

vtkMCubesWriter 

writer 

vtkPolyDataMapper 

isoMapper 

fichero.vtk 

Figura A.1: Red de visualización de la aplicación. 

186

Se puede ver en la figura, la estructura general de todas las redes de visualización. 

Siempre empiezan por objetos fuente, y terminan en objetos mapeadores (o 

escritores), estando en medio los filtros que sean necesarios. 

Para mantener los datos en los objetos PolyData y Volumen, se usan dos procedimientos 

de vtk muy sencillos, que se muestran a continuación 

# Procedimiento para actualizar el structured points 

# despues de la compresion mediante la tranformada wavelet 

proc ActualizarVolumen {filtro} { 

Volumen CopyStructure [$filtro GetOutput] 

# Solucion al bug de que sale 0 en el numero 

# de dimensiones 

set dims [Volumen GetDimensions] 

# Da igual las dimensiones que se pongan 

Volumen SetDimensions 1 2 1 

eval Volumen SetDimensions [split $dims] 

} 

[Volumen GetPointData] PassData [[$filtro GetOutput] \ 

GetPointData] 

Volumen Modified 

# Procedimiento para actualizar la renderizacion despues de 

# alguna operacion 

proc ActualizarPolyData {filtro} { 

PolyData CopyStructure [$filtro GetOutput] 

[PolyData GetPointData] PassData [[$filtro GetOutput] \ 

GetPointData] 

PolyData Modified 

} 

Estos procedimientos copian la salida del filtro, que toma como argumento al objeto 

de datos correspondiente. El método vtkStructuredPoints::CopyStructure() 

tiene un bug, que consiste en que al copiar la estructura de un objeto a otro, pone el 

número de dimensiones a 0. Se puede solucionar de la forma que se muestra arriba. 

Para llamar a estos procedimientos, se pone el nombre del procedimiento y el 

del filtro. Con esto basta para copiar la salida del filtro al objeto correspondiente. 

A continuación se muestran dos sentencias de ejemplo, para ambos filtros. 

# Actualizo los valores del objeto Volumen con la 

187

# salida del filtro wavelet 

ActualizarVolumen wavelet 

# Actualizo el valor del objeto PolyData con la 

# isosuperficie decimada 

ActualizarPolyData deciPro 

Los funciones realizadas por los filtros, se encuentran en procedimientos, que son 

llamados desde los botones del menú. Al ejecutarse estos procedimientos, lo primero 

que se suele hacer es mostrar el panel de control correspondiente. Los paneles de 

control se encuentran disponibles desde el principio de la ejecución de la aplicación; 

sin embargo no se muestran en patalla. A continuación se muestra un pequeño esbozo 

de estas operaciones 

## Creo la barra de menu (segun la forma de Tk 8.0) 

menu .menubar 

# Lo fijo en la ventana principal 

. config -menu .menubar 

# Creo menus en cascada 

foreach m {Archivo Operaciones Vista Error Ayuda} { 

set $m [menu .menubar.m$m -tearoff FALSE] 

.menubar add cascade -label $m -menu .menubar.m$m 

} 

# Annado los elementos del menu Operaciones 

$Operaciones add command -label Isosuperficie -command \ 

menuMarchingCubes -state disabled 

... -> Resto de elementos del menu 

## procedimiento para obtener la isosuperficie 

proc menuMarchingCubes {} { 

global isoValor resultadoMenu 

# Muestro el menu de leer el volumen 

wm deiconify .marching 

# Pongo un valor que no puede tener la variable 

set resultadoMenu 2 

# Muestro el menu con las opciones de Marching Cubes 

# y espero a que se cierre 

# Espero a que cambie el valor (a 1 o 0), 

# con lo que se habra cerrado la ventana .volumen 

vwait resultadoMenu 

188

# Si se ha pulsado el boton aceptar 

if {$resultadoMenu == 1} { 

# Extraigo la isosuperficie a partir del objeto Volumen 

iso SetInput Volumen 

... -> Llamada al resto de metodos de la instancia iso 

} 

## Creacion del panel de control 

toplevel .marching 

# Oculto esta ventana hasta que sea necesaria 

wm withdraw .marching 

wm title .marching "Obtencion de isosuperficie" 

# Cuando se cierra la ventana no se elimina, 

# sino que se quita de pantalla 

wm protocol .marching WM_DELETE_WINDOW {wm withdraw .marching} 

# Creo un frame 

frame .marching.f1 

... -> Otros elementos del panel de control 

# Frame para botones de aceptar y cancelar 

frame .marching.f3 

# Muestro el frame 

pack .marching.f3 -side top -expand true -fill x -pady 20 

button .marching.f3.aceptar -text Aceptar -command \ 

{botonPulsado 1 .marching} 

button .marching.f3.cancelar -text Cancelar -command \ 

{botonPulsado 0 .marching} 

pack .marching.f3.aceptar .marching.f3.cancelar -side left \ 

-expand true 

proc botonPulsado {valor vent} { 

# Variable global usada para guardar el resultado del menu 

global resultadoMenu 

# Resultado del menu: Aceptar (1), Cancelar (0) 

set resultadoMenu $valor 

# Quito de pantalla la ventana del menu 

189

} 

wm withdraw $vent 

Al final del ejemplo, se pueden ver los botones Aceptar y Cancelar, que aparecen 

en todos los paneles de control. Al pulsar estos botones, se llama al procedimiento 

botonPulsado, que tiene dos argumentos, el botón pulsado (1 para Aceptar y 0 para 

Cancelar) y la ventana del panel de control en la que se ha pulsado el botón. (De 

esta forma, se puede ocultar la ventana dentro del procedimiento botonPulsado). 

En el procedimiento menuMarchingCubes, se puede ver la forma por la que conoce 

cuándo se ha cerrado el menú y qué botón se ha pulsado. Se usa la variable global 

resultadoMenu. Al mostrar el panel de control, se asigna a esta variable un valor 

que no puede tener, 2, y a continuación se espera a que cambie de valor, algo que 

sucede en el procedimiento botonPulsado. Según el valor devuelto (1 ó 0), se conoce 

el botón pulsado y se actúa en consecuencia, como se ve en el fragmento de código 

mostrado. 

A.3. 


Esta clase realizar al compresión mediante la transformada wavelet. El nombre 

elegido para esta clase es vtkWaveletFilter, bastante descriptivo de su funcionalidad. 

En VTK hay varios filtros abstractos, a partir de los que se pueden derivar nuevos 

filtros concretos. Según el filtro del que se derive, dependerán los objetos de entrada 

y salida del filtro obtenido. Hay que llegar a un compromiso entre generalidad y 

funcionalidad. Cuanto más generales se permitan los objetos de entrada y salida del 

filtro, menos eficiente será. En el caso de este filtro, la transformada wavelet sólo se 

puede realizar para estructuras de datos vtkStructuredPoints, por lo que usamos 

este tipo de datos como entrada y salida del filtro. De esta forma, no perdemos en 

generalidad, pues la transformada wavelet está adaptada sólo a este tipo de datos, 

pero ganamos en funcionalidad, respecto a estructuras de datos más generales. En 

la Fig. A.2 se muestra el diagrama OMT de herencia de esta clase. 

Casi todas las clases de VTK se derivan a partir de la clase vtkObject, que define 

algunos elementos, como los tiempos de modificación, o las opciones de debugging. 

Las clases derivadas de vtkSource generan datos de salida, y deben tener como 

funciones miembro de la clase Update() y Execute(). En vtkFilter se definen las 

funciones miembro Update() y Execute(), que hacen que el filtro se ejecute si la 

entrada o el filtro se ha modificado desde la última vez que se ejecutó, como se 

describe en el apartado B.1.2. 

Todas las clases derivadas de vtkStructuredPointsFilter, toman una estructura 

de datos vtkStructuredPoints como entrada. En esta clase se definen los 

190

vtkObject 

vtkSource 

vtkFilter 

vtkStructuredPointsFilter 

vtkStructuredPointsToStructuredPointsFilter 


Figura A.2: Diagrama OMT de herencia de la clase vtkWaveletFilter. 

191

métodos SetInput(), para establecer la entrada del filtro; y GetInput(), que devuelve 

la entrada asignada al filtro. También se define la variable de la clase Input, 

que contiene una referencia al objeto de entrada al filtro. 

Por último, las clases derivadas de vtkStructuredPointsToStructuredPoints- 

Filter tienen también vtkStructuredPoints como datos de salida del filtro. Se 

define la función miembro GetOutput(), y el objeto de salida Output. 

Derivando nuestro filtro de esta forma, ahorramos parte del trabajo de creación 

del mismo, pues hay funciones miembro que ya están implementadas, o al menos 

definidas de forma abstracta (dejando la implementación concreta para las clases 

derivadas). 

Para implementar la clase, hay que realizar la definición de la clase, en el archivo 

de cabecera vtkWaveletFilter.h, e implementar las funciones miembro en el 

archivo vtkWaveletFilter.cxx. 

A continuación se va a describir brevemente los elementos miembros de la clase, 

definidos en ella: 

Miembros protegidos: son los elementos de la clase a los que sólo se puede 

acceder desde las funciones miembros de la clase y sus subclases derivadas. 

• int WaveCompresion. Variable usada para establecer la relación de compresión, 

de la forma N:1. 

• int NumCoeficientes. Variable para calcular y guardar el número de 

coeficientes wavelet que se cogen. 

• float Error. Variable para calcular el error cuadrático medio de la compresión. 

• int DimsReales[3]. Dimensiones del objeto de entrada. 

• int Dims[3]. Dimensiones del objeto de entrada, una vez padeado para 

que todas las dimensiones sean potencias de 2. La transformada wavelet 

se hace sobre datos cuyas dimensiones sean potencias de 2. 

• int Detalle[6]. Array usado para seleccionar la zona en la que se obtiene 

el detalle sin compresión. 

• int FlagYaHecho. Variable que vale 1 si el filtro se ha ejecutado alguna 

vez, en cuyo caso ya no hay que hacer la transformada inversa, por tener 

ya los coeficientes almacenados. 

• int FlagDetalle. Variable que vale 1 si se ha de comprimir respetando 

una zona de detalle, en la que no se realiza distorsión. 

• vtkFloatScalars *WaveCoefs. Array de escalares en punto flotante usado 

para almacenar los coeficientes obtenidos de la transformada wavelet 

directa. 

192

• vtkIntScalars *IndicesOrdenados. Array de escalares enteros usado 

para almacenar los coeficientes wavelet ordenados. Sirve de índice para 

acceder a los coeficientes ordenados. 

• vtkBitScalars *Filtro. Array binario usado para realizar el mapeado 

de la zona de detalle en el espacio, a la zona de detalle en el dominio de 

la transformada wavelet. Se calcula en la función CalcularDetalle(). 

• void Execute(). Función principal de la clase, que se encarga de obtener 

la salida del filtro, que es el resultado de la compresión mediante la 

transformada wavelet del objeto de entrada. Además, sirve para obtener 

el detalle, en caso de ser solicitado. Si ya se ha ejecutado alguna vez, 

no hay que repetir la transformada directa, ni la ordenación de los coeficientes, 

por ya estar almacenados en objetos miembros de la clase. 

• void QuickSortStart(float *datos), 

void QuickSortRecursive(float *datos,int prim,int ult), 

int PartitionData(float *datos, int prim, int ult). 

Funciones usadas para implementar el método de ordenación Quick Sort, 

considerado como el método más rápido de ordenación de datos. Es importante 

que sea rápido debido al gran número de datos. Sirven para 

ordenar los coeficientes de significancia (ver apratado 5.4.) 

• static void wfltr convolve (...), 

static void wxfrm 1d varstep (...), 

static void wxfrm nd nonstd (...), 

void wxfrm fand (...). 

Funciones usadas para realizar la transformada wavelet directa e inversa. 

Estas funciones se han obtenido del UBC Imager Wavelet Package – 

Release 3.0 beta, que se ha portado a C++, para hacerlas miembros de 

la clase. 

Se ha elegido como filtro para realizar la transformada wavelet, el de 

Daubechies de 6 coeficientes. Sólo se han comparado los resultados 

obtenidos con el de Haar, que evidentemente son mucho peores (el filtro de 

Haar no es continuo, ni derivable). No se ha p‘tado por un filtro de muchos 

coeficientes, debido al enorme número de datos, lo cual ralentizaría mucho 

la ejecución. En un futuro, se podrá comparar con otros filtros. 

• void Significancia(float *puntWavelet). Función que sirve para calcular 

la significancia de los coeficientes wavelet. 

Miembros públicos: son los elementos de la clase a los que se puede acceder 

desde todas las funciones, pertenezcan o no a la clase. 

• vtkSetMacro(WaveCompresion,int), 

vtkGetMacro(WaveCompresion,int). 

Macros de VTK para crear las funciones SetWaveCompresion(int) y 

193

GetWaveCompresion(int). Estas funciones son las que permiten establecer 

el valor de las variables protegidas de la clase. Así se tiene control total 

sobre los miembros protegidos (o privados). Sirven para leer y asignar la 

tasa de compresión. 

• vtkGetMacro(NumCoeficientes,int). Macro para leer el número de coeficientes 

empleados para obterner la aproximación. 

• vtkGetMacro(Error,float). Macro para leer el valor del error cuadrático 

medio obtenido. 

• void CalcularDetalle(float borde[6]). Función que se utiliza para 

calcular el mapeado del detalle seleccionado, en el dominio de la transformada 

wavelet. 

• vtkGetVectorMacro(Detalle, int, 6). Macro para leer el detalle actualmente 

calculado. 

• vtkSetMacro(FlagDetalle, int), 

vtkGetMacro(FlagDetalle, int). 

Macros para indicar o leer si se ha de calcular la compresión con detalle. 

• vtkBooleanMacro(FlagDetalle, int). Este macro se convierte en las 

funciones FlagDetalleOn() y FlagDetalleOff() 

Algunas funciones interesantes de la clase (no mostradas anteriormente), son el 

contructor de la clase, vtkWaveletFilter(), y el destructor, vtkWaveletFilter(). 

En estas dos funciones se inicializan las variables protegidas de la clase y se eliminan 

los objetos de la clase, mediante la función Delete() de cada clase, respectivamente. 

De todas funciones miembro de la clase, la más importante es Execute(), pues 

es ésta la función en la que se realiza el algoritmo de compresión. Otras funciones 

muy interesante son CalcularDetalle(...), en la que se calculan los coeficientes 

wavelet correspondientes a la zona de detalle seleccionada, y Significancia(...), 

en la que se calcula la significancia de los coeficientes de la transformada wavelet. 

En el apéndice C se muestra el código de esta clase, suficientemente comentado 

para entender su funcionamiento. Sin embargo voy a comentar brevemente las 

operaciones realizadas en estas dos funciones. 

A.3.1. 

Función vtkWaveletFilter::Execute() 

Esta función, en general siempre tiene la misma estructura, formada por cinco 

pasos: 

1. Declaración de variables. Se declaran las variables locales de la clase, 

incluyendo los objetos VTK necesarios, punteros y referencias. Se declaran 

194

e inicializan, además punteros a los objetos de entrada (Input) y de salida 

(Output). Estas variables son del tipo general de estructura de datos 

vtkDataSet, por lo que se tiene que hacer el casting a objetos del tipo del 

filtro (vtkStructuredPoints). Además se obtienen los puntos de estos objetos, 

y de los puntos se obtienen los valores escalares que forman el objeto. Esto 

se realiza con las siguientes líneas: 

// Estos son punteros, por lo que no hay que borrarlos 

vtkStructuredPoints *input=(vtkStructuredPoints *)this->Input; 

vtkPointData *pd = input->GetPointData(); 

vtkScalars *escalares = (vtkScalars *)pd->GetScalars(); 

vtkStructuredPoints *output=(vtkStructuredPoints *)this->Output; 

vtkPointData *outPd = output->GetPointData(); 

de esta forma se pueden leer ya los datos de entrada, sus dimensiones, . . . Los 

escalares de salida no se leen aquí, pues se crean en esta clase y se asignan al 

final de la función al objeto de salida de la clase, como veremos más adelante. 

Se crean dos objetos de escalares, usados respectivamente para almacenar los 

datos padeados (con cero) para que sean potencia de dos en cada dimensión, 

y para almacenar los datos de salida, resultado del filtro: 

vtkFloatScalars *escalaresPadeados; 

vtkUnsignedShortScalars *outEscalares; 

2. Inicialización. Me aseguro de la validez y consistencia de los datos de entrada. 

Se puede incluir información de debugging para proporcionar información al 

usuario sobre la entrada al filtro y otras características importantes. 

Leemos las caracterísitcas de los datos de entrada (dimensiones, espaciado y 

origen), y se calculan las dimensiones padeadas, que deben ser potencia de 2 

(Dims[3]) y las dimensiones en orden inverso, nA, con el índice de variación 

más rápida al final (como lo requiere la función wxfrm fand(), que realiza la 

transformada wavelet). También se calcula el número total de elementos del 

objeto de entrada, así como de los datos padeados. 

3. Reserva de Memoria. Se reserva memoria para todos los objetos miembros 

de la clase, pero en este caso, solamente la primera vez que se ejecuta esta 

función. Por ello, se ha de comprobar antes de asignarlos memoria, si tienen 

un valor distinto de NULL. Estos objetos se eliminan en el destructor de la clase, 

comprobando también si se ha reservado memoria para ellos (puede que no se 

haya ejecutado nunca el filtro, con lo cual los objetos de la clase no tienen 

memoria reservada). Un ejemplo de esta reserva de memoria es el siguiente: 

195

if (! this->WaveCoefs) 

{ 

this->WaveCoefs = vtkFloatScalars::New(); 

this->WaveCoefs->Allocate(tamDensidadPad); 

this->WaveCoefs->SetNumberOfScalars(tamDensidadPad); 

} 

También se ha de reservar memoria para los objetos creados localmente en 

esta función, escalaresPadeados y outEscalares. 

4. Cuerpo de la función. Se realiza el algoritmo de compresión. 

Lo primero que se debe hacer es obtener los datos padeados (si es necesario) con 

tamaños en cada dimensión, que seab potencia de dos. Esto se hace recorriendo 

todas las dimensiones del array de datos y asignando el valor correspondiente 

al array de datos padeados (el del original, o cero, según el caso). Aunque 

tengamos datos tridimensionales, los arrays que tenemos son unidimensionales. 

Por ello, se deben anidar tres bucles que recorren las coordenadas implícitas 

en cada dimensión (i, j, k) y calculan el elemento que corresponde en cada uno 

de los dos arrays (padeado y sin padear). Esto se debe hacer sólo en el caso de 

que sea la primera vez que se ejecute el filtro. 

A continuación, sólo si es la primera vez que se ejecuta el fitro, se realiza la 

transformada wavelet directa de los datos padeados, se calcula la significancia 

de los coeficientes wavelet obtenidos y se ordenan los coeficientes de significancia. 

Tanto los coeficientes wavelet, como el array con los índices de los 

coeficientes de significancia ordenados son miembros de la clase, por lo que 

sólo hay que calcularlos una vez (si no cambia el objeto de entrada al filtro). 

El siguiente paso que se realiza es el bucle de ditorsión, que pone parte de los 

coeficientes wavelet a cero, y de esta forma comprimir los datos. Para ello, lo 

primero que se debe hacer es calcular el número de coeficientes que se cogen, 

según el valor de la variable miembro WaveCompresion introducido por el 

usuario. A continuación, los coeficientes mayores se respetan, no poniéndolos 

a cero. Para el resto, se ponen a cero en el caso de no haber seleccionado 

la obtención de detalle. Si FlagDetalle está activado, entonces, en vez de 

ponerlos a cero directamente, se multiplican por la matriz filtro, que contiene 

unos en los coeficientes wavelet correspondientes a la zona de detalle, y ceros en 

el resto. Se puede decir que éste es el compresor del algoritmo de compresión. 

El siguiente paso es obtener la transformada wavelet inversa de los coficientes 

wavelet distorsionados de la forma que se ha explicado en el párrafo anterior. 

Este paso es el descompresor del algoritmo de compresión. 

Lo que tenemos ahora son los datos reconstruidos, pero aún están padeados. 

Por ello, el siguiente paso consiste en realizar el despadeo. Esto se hace de una 

forma muy similar a como se hizo el padeo; pero en este caso, leyendo de los 

196

datos padeados y escribiendo en los despadeados. Además, los datos de salida 

se limitan a unsignet short (entre 0 y 65535), pues los datos de entrada del 

filtro también lo eran. Ahora ya tenemos los datos resultantes del filtro en el 

objeto de escalares de salida, outEscalares. 

El último paso es obtener el error cuadrático medio entre los escalares de 

entrada, escalares, y los de salida, outEscalares. 

5. Salida. Se asigna al objeto de salida del filtro, el objeto de escalares outEscalares. 

Para ello se copia a la salida la estructura de los datos de entrada 

(pero no los datos), y se asignan los datos, como se muestra a continuación: 

outPd->CopyScalarsOff(); 

outPd->PassData(pd); 

outPd->SetScalars(outEscalares); 

También se han de borrar los objetos creados localmente, para los que se 

ha reservado memoria, mediante sus funciones miembro Delete(). Aunque 

se sigue usando en el objeto de salida, también se debe borrar el objeto 

outEscalares. La razón de esto es que en VTK, algunos clases de datos se 

derivan de la clase abstracta vtkReferenceCount. Los objetos con “cuenta de 

referencias”, llevan la cuenta del número de objetos que los hacen referencia. 

Este valor se incrementa en una unidad, cuando un nuevo objeto lo referencia, 

y se decrementa cuando un objeto lo borra (si llega la cuenta a cero, se elimina 

realmente). 

A.3.2. 

Función vtkWaveletFilter::CalcularDetalle(...) 

Esta función miembro se usa para calcular una matriz que transforma una zona 

prismática en el volumen original (el detalle seleccionado), a los coeficientes wavelet 

correspondientes. Por tanto, se encarga de hacer el mapeado del dominio espacial al 

dominio transformado. 

Las propiedades de localidad de la transformada wavelet, expresadas mediante 

las Ecs. (5.3), (5.5) y (5.6), nos inidican que los coeficientes correspondientes a una 

zona espacial de la transformada wavelet, tienen también una relación espacial en el 

dominio transformado. La razón de esto es porque la respuesta de los filtros usados 

para realizar la transformada wavelet tienen una respuesta exponencial decreciente, 

como ya se dijo entonces.. 

Seleccionar los coeficientes wavelet correspondientes a una zona espacial en una 

dimensión, es bastante sencillo, pues a cada nivel de resolución, sólo tenemos un 

detalle (y una aproximación a baja resolución, que se descompone recursivamente); 

sin embargo, en 2D, tenemos 3 detalles y una aproximación a baja resolución, y en 

197

3D, tenemos 7 detalles y una aproximación a baja resolución, lo cual complica las 

cosas. 

En todos los artículos leídos, habla sobre las propiedades de localidad, e incluso 

las usa para obtener una zona con más detalle [9]; pero sin embargo, no muestra 

el algoritmo para realizar el mapeado. Sin embargo, si se empieza por realizar el 

algoritmo en 1D, luego se pasa a 2D, y finalmente en 3D, no es complicado conseguir 

un algoritmo bastante compacto. 

Además, hay que señalar que las funciones usadas para realizar la trasformada 

wavelet, llegan hasta la transformada wavelet de dos elementos, lo cual complica 

un poco este algoritmo, debido a que el número de niveles de aproximación en 

cada dimensión puede variar, si los datos no tienen el mismo tamaño en todas las 

dimensiones. 

Al algoritmo diseñado obtiene, recursivamente el borde de la zona seleccionada 

(que son los seis valores de entrada a la función), en cada uno de los siete detalles 

de cada nivel de resolución. La función calcula el array Filtro, que contiene unos 

en los coeficientes correspondientes a la zona deseada y ceros en el resto. Una vez 

obtenidos los 6 valores del borde en cada detalle, es fácil rellenar su interior con unos, 

mediante tres bucles anidados que recorren las tres dimensiones (i, j, k). El array 

Filtro es unidimensional, pero representa a una matriz tridimensional (siempre se 

hace así), por eso hay que calcular el índice del elemento que corresponde a un valor 

en coordenadas implícitas (i, j, k). 

La forma de obtener los 7 detalles de cada nivel de resolución, es mediante un 

array binario de 21 elementos, seleccion[21]. Este array contiene tres elementos 

(correspondientes a (i, j, k)) por cada uno de los 7 detalles. Cada elemento de este 

array vale uno o cero, dependiendo de si la coordenada y el detalle correspondientes 

a ese coeficiente es el más alejado del origen, o el más cercano. De esta forma, 

simplemente mediante un bucle for que recorre cada triada de elementos de este 

array, podemos obtener los coeficientes correspondientes a la zona seleccionada en 

el nivel de detalle correspondiente. 

Para seleccionar el nivel de resolución, se utiliza un bucle while, que se ejecuta 

mientras en alguna dimensión se siga haciendo la transformada wavelet (el número 

de elementos sea mayor o igual a 2). Como el volumen no tiene por qué tener el 

mismo tamaño en todas las dimensiones, hay que comprobar en cada paso del bucle, 

si en alguna dimensión, se ha llegado al mínimo, en cuyo caso, ya no se sigue iterando 

en esa dimensión, y tampoco se seleccionan los niveles de detalle correspondientes 

a la misma (la transformada wavelet, cuando se llega al mínimo en una de las tres 

dimensiones, ya no es 3D, sino 2D ó 1D, con lo cual ya no tenemos 7 detalles en cada 

nivel de resolución, sino sólo 3, en 2D, ó 1, en 1D). Cuando se llega al mínimo en 

alguna dimensión, se activa un flag, que indica que ya no debemos coger los detalles 

de esa dimensión. Esto se consigue mediante tres sentencias if de comprobación 

(una para cada dimensión), que evalúan el flag y el elemento correspondientes del 

198

array seleccion (si es cero, sí se debe coger aunque esté activado el flag; no se 

deben coger los detalles más alejados del origen (uno), ya que en esa dimensión ya 

no existen). Esto es lo más complicado de este algoritmo, y a la vez, lo más difícil de 

explicar. Sin embargo es la forma más sencilla que se ha encontrado para hacerlo. 

Por último, sólo queda obtener los seis coeficientes que representan el borde de 

la zona seleccionada, en cada uno de los detalles de cada nivel de resolución. Su 

obtención es bastante sencilla, teniendo en cuenta que en cada nivel de detalle, el 

tamaño de cada zona se divide por dos. Así, por ejemplo, para obtener la coordenada 

i superior de la zona selecionada, en cada uno de los datalles de cada nivel de 

aproximación, se usa la siguiente sentencia: 

donde 

i1=(int) (float) (I * seleccion[3 * numDetalle] + factores[0]); 

factores[0] = (float) this->Detalle[0]/this->Dims[0]; 

numDetalle es el detalle actual de los 7 detalles de cada nivel de aproximación; 

seleccion[3 * numDetalle] es el primer elemento de la triada correspondiente al 

detalle actual, Detalle[0] y Dims[0], son las variables miembro que representan 

a la coordenada i superior, de la zona seleccionada y el tamaño en la dimensión i, 

respectivamente. 

Al final del bucle, se debe seleccionar también el elemento (0, 0, 0), que corresponde 

a la aproximación a baja resolución del nivel de mínimo. 

En la Fig. A.3 se muestra el resultado obtenido de trasnformar una zona en el 

espacio al dominio transformado en 2D. No se muestra en 3D, debido a su mayor 

dificultad de representación y compresión. Se puede observar que el tamaño de los 

datos es (32 × 16), por lo que se hace un nivel más de transformación en horizontal 

que en vertical. 

Por la forma de estar realizado el algoritmo, se puede extrapolar fácilmente a un 

mayor número de dimensiones. Ese ha sido también uno de los objetivos al realizarlo, 

ya que como he dicho, se empezó realizándolo para 1D, luego 2D, y finalmente 3D. 

Para entender mejor el algoritmo, lo mejor es ver el código que se muestra en el 

apéndice C, que se encuentra suficientemente comentado. 

A.3.3. 

Función vtkWaveletFilter::Significancia(...) 

Esta función se encarga de obtener la significancia correspondiente a cada coeficiente 

de la transformada wavelet, según el nivel de resolución a que se encuentra. 

La significancia se define como se muestra en la Ec. 5.31. Este algoritmo tampoco 

ha sido encontrado en ninguna referencia. 

199

0 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

0 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 

Figura A.3: Mapeado de una zona de detalle en el espacio a los coeficientes de la 

transformada wavelet (2D). 

200

La función tiene como entrada al array con los coeficientes wavelet, después de 

realizar la distorsión para el nivel de comrpresión seleccionado. Se trasnforma este 

array, multiplicando cada coeficiente por el factor correspondiente. De esta forma 

se da más importancia a los niveles de resolución más bajos, frente a los más altos, 

que representan el detalle, y tienen menos importancia. 

Para realizar este algoritmo, obtengo tres array. La longitud de cada uno de ellos 

es el tamaño de los datos volumétricos (padeados, como todo lo que está en el 

dominio transformado), en la dimensión correspondiente. Para cada uno de ellos, se 

obtiene el factor por el que hay que multiplicar cada coeficiente para una transformada 

multirresolución de un vector de datos 1D de ese tamaño. Este factor es 1 

para el detalle de mayor resolución (la última mitad del vector), 8 para el siguiente, 

64, etc. 

Para pasar a 3D, simplemente se coge para un coeficiente (i, j, k) el menor de los 

tres factores. Multiplicando el valor obtenido por el coeficiente wavelet correspondiente, 

obtenemos su significancia. 

Al igual que en el caso de la función anterior, el algoritmo se complica por el 

hecho de que no tenemos el mismo número de niveles de resoluciones en todas las 

dimensiones. Por ello, no se debe seguir iterando en cada dimensión, cuando se llega 

la mínimo detalle. Sin embargo, aún queda el problema del valor del elemento 0 

de cada uno de los tres arrays (aproximación a baja resolución del nivel de detalle 

mínimo), que debe ser el del nivel inferior en cualquiera de las tres dimensiones, es 

decir, el mayor factor, y no el menor como en el resto de casos. Para solucionar esto, 

se mantienen un puntero, cuyo valor en cada momento es el del puntero al primer 

elemento del array que se ha modificado en último lugar. De esta forma, al finalizar 

el algoritmo, se asigna al elemento 0 de cada array, el valor del elemento 1 del array 

al que apunta el puntero (el de mayor longitud). 

Este algoritmo, al igual que el anterior, se puede fácilmente extrapolar a un 

número cualquiera de dimensiones. 

En la Fig. A.4, se puede ver el factor de significancia del ejemplo de la Fig. A.3. 

Se puede observar la forma de utilizar el puntero para asignar el elemento 0 de cada 

array. 

A.4. 

vtkFloodFillFilter 

Esta clase se encarga de rellenar el interior de una superficie, respetando las cavidades 

interiores. Recibe como entrada un objeto vtkStructuredPoints, que contiene 

unos en los puntos por los que pasa la isosuperficie y ceros en el resto. La salida 

es también un objeto del tipo vtkStructuresPoints, en el que el volumen interior a 

la superficie se ha rellenado. El objeto de entrada, se obtiene a partir de la isosuperficie, 

que es una malla triangular, mediante un filtro de la clase vtkVoxelModeller, 

201

0 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 

11 

12 

13 

14 

15 

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 

4096 

512 

64 512 64 

64 

8 1 

8 8 

1 

1 

512 

4096 

Horizontal 

512 

64 

8 

1 

Vertical 

64 

8 

1 

4096 

512 

Figura A.4: Factor de significancia de los coeficientes de la transformada wavelet 

(2D). 

202

que convierte esta malla a un objeto de la clase vtkStructuredPoints. Esto no se 

realiza en esta clase, sino en el script Tcl. 

Además se deben respetar las posibles cavidades interiores que tenga el volumen, 

no rellenándolas. En principio, esto es una tarea bastante complicada, pues un objeto 

natural obtenido, por ejemplo de una tomografía, puede tener estructuras muy 

complejas, llenas de cavidades. 

La derivación de esta clase, como su entrada y salida es del mismo tipo que 

para la calse vtkWaveletFilter, es la misma que se hizo para esa clase. No se va a 

describir detalles del código, más sencillo que el de la otra clase, pues la mayor parte 

de ellos ya han quedado descritos en la clase vtkWaveletFilter. Simplemente se 

explica el algoritmo. 

En [16] se describe un método de rellenar el interior de una superficie representada 

como voxels, llamado Flood Filling, o relleno por inmersión. Su nombre se debe 

a que el resultado obtenido es equivalente a meter el objeto en un recipiente con 

agua, con lo que todo el entorno del objeto se llena de agua, pero su interior y su 

superficie, no. A continuación, se obtiene el complementario, y ya tenemos el objeto 

rellenado. El problema de este método es que las cavidades internas del objeto no 

se rellenan de agua, con lo cual no se detectan. 

El algoritmo de flood filling “tradicional” 1 , se representa en el diagrama de flujo 

de la Fig. A.5. 

Es un algoritmo recursivo. Cada “rodaja” del objeto se rellena por separado, 

para que la pila usadam, no se haga demasiado grande. Lo primero que tenemos que 

hacer es asegurarnos de que el objeto no toque el borde exterior, pues si ocurriera 

esto, el algoritmo no podría rellenar todo el exterior del objeto. Esto se consigue con 

padeo de ceros alrededor de la estructura. 

Se empieza en una esquina del plano a rellenar (por ejemplo la inferior izquierda 

(0,0)). Se intenta rellenar el punto situado al norte de ese punto, si es posible. Es 

posible rellenar un punto cuando aún no está lleno, está dentro del espacio considerado 

(no se sale de los bordes), y no es un punto frontera del objeto (los puntos 

frontera, por donde pasa la isosuperficie, valen 1). Al rellenar un punto, se le da un 

valor distinto de 0 (no pertenece a la frontera) y de 1 (pertenece a la frontera). Por 

ejemplo se le da el valor 3 (esto es totalmente convencional). 

Si un punto se rellena, es el nuevo punto de partida, empujando al antiguo punto 

a la parte superior de la pila (creada para almacenar los puntos). Si el punto al norte 

del punto de partida, está fuera del espacio, es fronterizo, o ya está relleno, entonces 

se mira al punto situado al oeste. Si ninguno de los dos se puede rellenar, se intenta 

con el este, y si no es posible, se mira al punto situado al sur, rellenándolo si es 

posible. Si ninguno de los puntos que lo rodean se puede rellenar, entonces el punto 

anterior en la pila se convierte en el nuevo punto de partida. 

1 Llamo tradicional al método explicado en [16], que no tiene en cuenta las cavidades internas. 

203

Cuando se vacía la pila y no hay dirección libre para rellenar, el plano está relleno. 

Una vez que el objeto está completamente rodeado de puntos rellenos, se obtiene el 

complementario, poniendo todos los 3’s (en el caso de elegir este valor como relleno) 

a 0 y el resto a 1. De esta forma, tenemos ya el volumen interior a la superficie 

relleno. 

Como se puede comprender fácilmente, este método no encuentra las cavidades 

internas. Estas cavidades aparecen, por ejemplo, para el caso de obtener la isosupercie 

correspondiente al hueso, en la que todo el interior de la cabeza es hueco. 

Si se obtiene la isosuperficie correspondiente a la piel, no aparecen cavidades. Para 

conseguir mi objetivo, se he diseñado un algoritmo, al que hemos llamado Flood 

Filling generalizado, que encuentra las cavidades internas mediante los siguientes 

pasos: 

1. Realizo el flood filling del exterior del objeto, según el método tradicional, 

rellenando el exterior de 3’s. Aún no obtengo el complementario. 

2. Los valores que se pueden encontrar en los puntos de la rodaja son: 3, si el 

punto es exterior al objeto; 1, si el punto está en la frontera del objeto; y 0, 

si el punto está dentro del objeto. Entre los puntos que valen 0, algunos son 

del interior del objeto, y otros de cavidades que no corresponden al objeto. Se 

deben distinguir estos dos casos. 

Lo que se hace es ir recorriendo cada línea de la rodaja, como se muestra en 

la Fig. A.6, en la que aparece el recorrido de dos líneas significativas de una 

rodaja con dos cavidades. 

Si en el recorrido de una línea, antes de la frontera de 1’s que precede a los 

0’s, hay 3’s, estamos dentro del objeto. Estos puntos interiores al objeto se 

rellenan con 2’s, mediantre el método flood fill tradicional (que no se sale de 

la cavidad). Si antes de la frontera que precede a los 0’s hay 2’s, estamos ante 

una cavidad, que relleno con 3’s (mediante el método flood fill tradicional), 

pues estamos fuera del objeto. 

Como se puede ver en la Fig. A.6, el estado se sigue con un flag, que cambia 

cuando el valor leído en la línea es distinto del anterior. En el apéndice C, se 

muestra el código, en el que aparece comentado el flujo de estados. 

3. Finalmente, sólo queda poner a 0 todos los valores de la rodaja que valgan 3, y 

a 1 los que valgan menos de 3, obteniendo de esta forma el resultado deseado. 

Este método funciona en general, sólo fallando en un caso patológico. Este caso 

ocurre cuando al leer una línea nos encontramos con dos cavidades que no han sido 

rellenadas anteriormente, separadas por una frontera continua, como se puede ver 

en la Fig. A.7. En ella se muestra un caso en el que falla, y otro en el que no, por 

no estar las fronteras unidas en la línea que rellena las cavidades. Si alguna de las 

204

Empieza en 

una esquina 

Miro al norte 

Lleno 

Miro al oeste 

Lleno 

Miro al este 

Meto el antiguo punto 

a la pila (push). 

Relleno el nuevo punto 

y lo uso como nuevo 

punto de partida 

Lleno 

Miro al sur 

Lleno 

Vacia 

Pila 

No vacia 

Fin 

Ir al punto superior 

de la pila (top). 

Figura A.5: Algoritmo del método Flood Filling “tradicional”. 

205

3 flag=0 

flag=1 

relleno con 2 

333333333333333111000000000000000000001333333333333 

0 

0 

0 

Orden de lectura 

flag=2 

flag=3 flag=0 

333333333333333111222222222222222222221333333333333 

3 

flag=0 

flag=2 flag=3 

2 

333333333333312222210011222210001122222211333333333 

0 0 

relleno con 3 

flag=0 

flag=1 flag=2 flag=3 

333333333333312222213311222210001122222211333333333 

relleno con 3 

flag=0 flag=1 

flag=2 

flag=3 

flag=0 

3 

333333333333312222213311222213331122222211333333333 

2 

3 3 

0 

1 

0 0 

Figura A.6: Representación del algoritmo de Flood Filling generalizado, para encontrar 

cavidades. 

206

(a) No funciona el Flood Fill mejorado 

(b) Si funciona el Flood Fill mejorado 

Figura A.7: (a) Caso patológico en el que no funciona el algoritmo Flood Filling 

generalizado. (b) Caso muy similar en el que sí funciona. 

cavidades empieza en una línea rellenada con anterioridad, no hay problema. Para 

disminuir la ocurrencia de este caso patológico, ejecutamos la parte del algoritmo 

que lee cada línea para todas las líneas de la rodaja. Esto ralentiza su ejecución 

(podríamos hacerlo cada varias líneas si no hay cavidades muy pequeñas), pero 

mejora considerablemente su funcionamiento. Pese a ello, hay casos en los que sigue 

fallando. En el apartado A.5, explicaré cómo se puede evitar la incidentcia de estos 

“fallos” 2 . 

Se puede comprobar que el algoritmo funciona incluso cuando tenemos varias 

cavidades anidadas unas dentro de otras, o pequeños objetos dentro de las cavidades. 

Sin embargo no funciona, evidentemente, cuando la isosuperficie en una rodaja no 

es continua (está partida), algo que ocurre cuando se realiza diezmado a tasas muy 

grandes de compresión. En ese caso es imposible evaluar el error en volumen. 

2 Por la experiencia que he tenido, para el caso del cráneo estudiado, este método falla en menos 

del 2-3 % de los casos. Para el caso de la piel, no falla, pues no hay cavidades 

207

A.5. 

ErrorVol.cxx 

Para calcular el error en volumen, como es una operación que requiere tratar 

enormes cantidades de datos, (ficheros de nu tamaño en torno a 13 MBytes para 

una malla rectangular de dimensiones 256 × 256 × 93). Por ello, se ha optado, como 

ya se ha dicho en alguna ocasión, por crear un programa en C++ para VTK, en vez 

de hacerlo mediante Tcl (sería demasiado lento), o en una clase (es más apropiado 

crear un ejecutable, pues no hay ninguna clase apropiada en VTK para derivar este 

tipo de objeto). 

Este ejecutable recibe como entrada, los nombres de dos archivos, que contienen 

la malla vtkStructuredPoints que ha resultado de aplicar el filtro vtkFloodFill- 

Filter al objeto sin comprimir y comprimido. 

El código es bastante claro y está suficientemente comentado, por lo que después 

de explicar todo lo anterior, no voy a comentarlo aquí. Simplemente voy a explicar 

la forma en que se evitan los casos en los que falla el algoritmo (como se dijo, en el 

peor caso, en un 2-3 % de los casos). 

Después de comprobar que los dos ficheros de entrada son coherentes (tienen las 

mismas dimensiones y formato correcto), lo primero que se hace es calcular el error 

relativo que hay en cada rodaja de la malla rectangular. 

La clave es realizar un filtrado de mediana sobre estos errores relativos; para 

ello se obtiene la mediana de los mismos, eliminando aquellos que sean mayores que 

una cierta constante, multiplicada por la mediana. Por último, se calcula el error 

absoluto medio por rodaja a partir de los errores absolutos de todas las rodajas 

que no se han eliminado. 

Para calcular el error, no hace falta considerar todas las rodajas; por ello no pasa 

nada si se elimina un pequeño porcentaje de las mismas. Además, se ha visto que 

los errores relativos de todas las rodajas tienen una distribución aproximadamente 

guassiana con una varianza pequeña, salvo unos pocos, que se encuentran bastante 

desviados de la mediana. A partir de estos experimentos, se ha comprobado que 

el filtro elimina casi todos los errores si se elige un valor para la constante que 

multiplica a la mediana de 1.5. 

Para hacer estos experimentos, se ha observado gráficamente el funcionamiento 

del filtro vtkFloodFillFilter para cada una de las rodajas de la cabeza. Aplicando 

este valor de la constante, el filtro de mediana elimina prácticamente todos los errores 

importantes (hay algún pequeño error que no elimina, pero como el valor obtenido 

está muy cerca de la mediana, no tiene importancia). Este filtrado también elimina 

los errores que se producen si en alguna rodaja la frontera del objeto aparece cortada, 

rellenándose su interior. 

208

A.6. 

ErrorRender.cxx 

De la misma forma que en el caso anterior, para calcular el error en la imagen 

renderizada, se ha creado un ejecutable, en el que se calcula el error cuadrático 

medio entre dos archivos, que contienen las imágenes. El programa recibe como 

argumento el nombre de estos dos archivos. Además, opcionalmente, puede tener un 

tercer argumento, con el nombre del fichero en el que se quiere guardar la imagen 

diferencia entre las dos. 

Las imágenes gráficas deben estar en formato PPM (Pixmap), que es el formato 

en que VTK guarda las renderizaciones. Los ficheros se leen como imagen, mediante 

objetos de la clase vtkPNMReader y posteriormente se convierten a vtkStructuredPoints. 

Esto no es necesario, pero lo he hecho porque estoy más acostumbrado, en VTK, a 

tratar con estructuras geométricas que con imágenes. 

El error que se calcula es el error cuadrático medio entre la intensidad de 

las dos imágenes. 

209

210

Apéndice B 

VTK y TCL 

En este apéndice se describe, brevemente, algunos detalles sobre la implementación 

del sistema VTK, enumerando las principales clases de VTK. No se han mostrado 

las clases que realizan el procesado de los datos (objetos de proceso). La razón de 

esto es que hay muchísimas y son muy variadas, por lo que es imposible describirlas 

todas, y absurdo elegir unas cuantas. También se describe la interacción entre VTK 

y el lenguaje interpretado Tcl/Tk, y se muestra algún ejemplo para ver algunas de 

las características de Tcl/Tk. Abarcar todo lo que describe este apéndice es imposible 

aquí, por ello, para obtener más información, se recomienda consultar [12] y 

[15]. 

B.1. 

VTK 

VTK Visualization Toolkit 2.0[12] es un avanzado sistema de creación y 

visualización de datos volumétricos, así como de tratamiento de imagen. Permite 

tratar y visualizar todo tipo de datos volumétricos; desde datos meteorológiocs, 

pasando por resonancias magnéticas, tomografías computerizadas y ultrasonidos, 

hasta datos financieros y matemáticos. 

Una de las principales ventajas del sistema es la posibilidad de aumentar la funcionalidad 

del mismo y crear nuevos algoritmos. Para ello se aprovecha la principal 

característica de VTK, su diseño orientado a objeto. Se puede crear, por ejemplo, 

una nueva clase que implemente un filtro, derivándola de alguna de las clases abstractas 

que ofrece el sistema. La forma de hacer esto se ha explicado con ejemplos 

concretos de clases creadas para la aplicación realizada (apéndice A). 

VTK está programado en C++ y posee un gran número de clases (más de 500). 

Se aprovecha el diseño orientado a objetos para realizar tareas complejas, de una 

forma sencilla y muy modular. 

A continuación, se describe de forma básica el sistema; para mayor información 

211

sobre el mismo, se puede consultar [12] o la información que se encuentra en cada 

clase de las librerías que forman el sistma VTK. 

B.1.1. 

Renderizacion 

El Modelo Gráfico 

En este apartado se describen, brevemente, los objetos gráficos implementados 

en VTK y la forma de usarlos. En el capítulo 3 se explicaron todos los elementos 

que intervienen en la renderización de una escena. Ahora se enumeran los objetos 

usados en VTK para implementar estos elementos. 

En VTK hay siete objetos básicos usados para renderizar una escena. Hay muchos 

más objetos, pero estos siete son los más frecuentes. 

1. vtkRenderWindow: sirve para gestionar una ventana en la pantalla; en una 

instancia de vtkRenderWindow pueden dibujar varios renderizadores. 

2. vtkRenderer: coordina el proceso de renderización, en el que hay luces, cámaras 

y actores. 

3. vtkLight: fuente de luz para iluminar la escena. 

4. vtkCamera: define el punto de vista, el punto focal y otras propiedades de la 

visualización de la escena. 

5. vtkActor: representa un objeto renderizado en la escena. Sus propiedades y 

posición están dados en coordenadas del mundo real. 

6. vtkProperty: define las propiedades de apariencia de un actor, incluyendo su 

color, transparencia, y propiedades de iluminación, como la iluminación difusa 

y especular. También tiene propiedades para el modo de representación, como 

superificie sólida o malla. 

7. vtkMapper: es la representación geométrica de un actor. Más de un actor se 

pueden referir a el mismo mapeador. 

La clase vtkRenderWindow junta todo el proceso de renderización. Es la responsable 

de gestionar una ventana en la pantalla. Para PCs con Windows ’95 o NT, 

será una ventana de Microsoft, y para los sistemas UNIX será una ventana X. En 

VTK, las instancias de la clase vtkRenderWindow son independientes del hardware. 

Esto significa que al programar, no hay que tener en cuenta el hardware gráfico o 

el software que se está usando. El software de VTK automáticamente se adapta al 

ordenador en el que se ejecuta, cuando se crean instancias de esta clase, como se 

describirá después. 

212

Además de la gestión de la ventana, los objetos de la clase vtkRenderWindow se 

usan para gestionar los renderizadores y almacenar las características específicas de 

los gráficos, como el tamaño, posición, título de la ventana, profundidad de la misma, 

etc. La profundidad de la ventana indica cuantos bits se usan para representar cada 

pixel. 

La clase vtkRender es la responsable de coordinar las luces, cámaras y actores 

para producir una imagen. Cada instancia de la clase mantiene una lista de actores, 

luces, y una cámara activa en una escena. Al menos se debe definir un actor, pero si 

no se definen cámara y luces, el renderizador las crea automáticamente. Además, las 

instancias de esta clase, proporcionan también métodos para especificar los colores de 

iluminación de fondo y ambiente. También hay funciones en esta clase para convertir 

entre los sistemas de coordenadas del mundo, de vista y de la pantalla. 

Un aspecto importante de un renderizador es que debe estar asociado con una 

instancia de la clase vtkRenderWindow en la que dibujar, y el área de la ventana 

de renderización en la que dibuja, se debe definir mediante un puerto de vista 

rectangular. El puerto de vista se define en coordenadas normalizadas (0, 1), en 

los ejes de coordenadas de la imagen x e y. Por defecto, si no se especifica nada, el 

renderizador dibuja en toda la extensión de la ventana de renderización (coordenadas 

del puerto de vista (0, 0, 1, 1)). Se puede especificar un puerto de vista más pequeño, 

y tener más de un renderizador dibujando en la misma ventana de renderización. 

Las instancias de la clase vtkLight, iluminan la escena. Se han definido múltiples 

variables en esta clase, para orientar y posicionar la luz. También es posible encender 

y apagar la luz y asignarle un color. Normalmente, al menos una luz está encendida, 

para iluminar la escena. Si no hay luces definidas y encendidas, el renderizador crea 

una automáticamente. Las luces en VTK pueden ser, tanto posicionales, como 

infinitas. Las luces posicionales tienen asociado un ángulo sólido y unos factores de 

iluminación. Las luces infinitas proyectan la luz con rayos paralelos entre sí. 

Las cámaras se construyen mediante la clase vtkCamera. Sus parámetros más 

importantes son: la posición de la cámara, el punto focal, la localización de los 

planos de corte delantero y trasero, el vector de vista superior, y el campo de vista. 

Las cámaras tienen funciones especiales para facilitar su manipulación. Entre ellas 

se incluyen la de elevación, azimuth, zoom, y giro. De forma similar a vtkLight, si 

no hay definida ninguna instancia de la clase vtkCamera, el renderizador crea una 

automáticamente. 

Las instancias de la clase vtkActor representan objetos en la escena. En particular, 

vtkActor combina propiedades de los objetos (color, propiedades de sombreado, 

etc.), definición geométrica del objeto, y orientación en el sistema de coordenadas del 

mundo. Esto se implementa manteniendo variables en la instancia, que referencian 

a instancias de las clases vtkProperty, vtkMapper, y vtkTransform. Normalmente 

no hay que crear estas propiedades y transformaciones de forma explícita, ya que se 

crean automáticamente, y se modifican mediante las funciones de la clase vtkActor. 

213

Sin embargo, sí es necesario crear una instancia de la clase vtkMapper (o una de sus 

subclases). El mapeador une el pipeline (flujo de datos) de visualización al dispositivo 

gráfico. 

Hay otras clases de actores con un comportamiento específico, implementados 

como subclases de vtkActor. Por ejemplo vtkFollower, cuyas instancias siempre 

siguen a la cámara activa. Esto es útil cuando se diseñan textos que deben ser legibles 

desde cualquier posición de la cámara en la escena. 

Otro ejemplo, usado para la realización de la aplicación, es vtkLODActor. Este 

actor soporta varios niveles de detalle. Esto quiere decir que cuando se muestra en 

pantalla, en lugar de la imagen renderizada, muestra una nube de puntos. Si se 

deja la imagen fija durante unos instantes, el renderizador muestra el actor. De esta 

forma, se consigue mejor interactividad con la escena, pues el movimiento del punto 

de vista se puede hacer de forma más rápida y suave. 

Las instancias de la clase vtkProperty, afectan al aspecto de un actor renderizado. 

Cuando se crean los actores, se crea automáticamente una instancia para sus 

propiedades. También es posible crear objetos de propiedades y después asociarlos 

con uno o más actores. De esta forma, los actores pueden compartir propiedades 

comunes. 

Finalmente, vtkMapper, (y sus subclases) definen la geometría del objeto, y 

opcionalmente, los colores de los vértices. vtkMapper se relaciona con una tabla de 

colores (vtkLookupTable), para establecer los colores que se usan para los vértices 

de la geometría. 

Además, hay otro objeto importante, vtkRenderWindowInteractor, que captura 

eventos para un renderizador en la ventana de renderización. Esta clase captura estos 

eventos y a continuación realiza operaciones como rotación, dolly y acercamiento o 

alejamiento de la cámara, etc. Las instancas de esta clase se asocian con la ventana 

de renderización mediante el método SetRenderWindow(). 

Consiguiendo Independencia del Dispositivo 

Una propiedad deseable de las aplicaciones creadas con VTK es la independencia 

del dispositivo. Esto significa que el código que funciona en un sistema operativo, con 

una configuración dada de software/hardware, funciona sin cambios en un sistema 

operativo diferente, con una configuración de software/hardware distinta. La ventaja 

de esto, es que el programador no tiene que gastar tiempo portando una aplicación 

entre diferentes sistemas. Además, las aplicaciones existentes no necesitan ser reescritas 

para aprovechar las características de las nuevas tecnologías de hardware 

o software. En su lugar, VTK maneja esto de forma tansparente, mediante una 

combinación de herencia y una técnica llamada fábricas de objetos. 

En la Fig. B.1 se muestra el uso de la herencia, para conseguir independencia del 

dispositivo. Algunas clases, como vtkActor se dividen en dos partes: una superclase 

214

vtkActor 

Superclase 

independiente del dispositivo 

vtkOpenGLActor 

vtkXGLActor 

vtkStarbaseActor 

Subclases 

dependientes 

del dispositivo 

Figura B.1: Consiguiendo independencia del dispositivo mediante herencia. 

independiente del dispositivo y subclases que dependen del mismo. El truco consiste 

en que el usuario crea una subclase, invocando el constructor especial New(), que se 

usa para todas las clases de VTK, en lugar del constructor de C++ (new()). Se usa 

el constructor New() de la superclase independiente del dispositivo. Por ejemplo, se 

puede usar (en C++) la línea 

vtkActor *unActor = vtkActor::New() 

para crear una instancia dependiente del dispositivo de la clase vtkActor. El usuario 

no ve código dependiente del dispositivo, pero en realidad unActor es un puntero 

a una de las subclases de vtkActor. A continuación se muestra un fragmento del 

código del constructor New() (a esto es a lo que se llama fábrica de objetos.) 

vtkActor *vtkActor::New() 

{ 

char *temp = vtkRenderWindow::GetRenderLibrary(); 

... 

if (!strcmp("OpenGL",temp)) return vtkOpenGLActor::New(); 

... 

} 

En este ejemplo, vtkOpenGLActor::New() es un constructor sencillo, que devuelve 

una instancia de su clase, usando ({return new vtkOpenGLActor;}). (Es 

posible, incluso, que en esta función se elija una implementación específica de la 

librería gráfica OpenGL.) 

El uso de fábricas de objetos, mediante la función New(), nos permiten crear 

código independiente del dispositivo, que se puede portar fácilmente de un ordenador 

a otro, y adaptar al cambio de tecnología. Por ejemplo, si aparece una nueva 

librería gráfica, habría que crear simplemente una subclase dependiente del dispositivo, 

y modificar la función New() de la superclase correspondiente. De esta forma se 

pueden crear instancias de la subclase correspondiente, a partir de las variables de 

entorno u otra información del sistema. Esta extensión se realiza sólo en un sitio del 

código, y todas las aplicaciones basadas en estas fábricas de objetos serían portadas 

automáticamente, sin cambios. 

215

Aquí se ha podido ver una de las ventajas de la programación orientada a objetos 

y de la modularidad (una de sus principales características). 

B.1.2. 

Detalles de la implementación de VTK 

En esta sección voy se describen algunos detalles de la implementación de VTK. 

Implementación Mediante Lenguaje C++ 

Visualization Toolkit se ha implementado en el lenguaje de programación, 

orientado a procedimientos, C++. Se facilita la creación de aplicaciones para visualización 

mediante librerías de clases, que contienen datos y objetos para realizar 

procesos sobre los datos. Se soportan objetos abstractos para derivar nuevos objetos. 

Se ha diseñado el pipeline de visualización para que pueda ser conectado 

directamente al sistema de gráficos explicado en el apartado B.1.1. 

Se podría haber implementado un interfaz visual (similar al de Khoros), mediante 

las librerías de clases realizadas. Sin embargo, para aplicaciones del mundo 

real un lenguaje orientado a procedimientos tiene algunas ventajas. Entre ellas se 

encuentran la implementación directa y sencilla de expresiones condicionales y ejecución 

de bucles; además de permitir interfaces sencillos a otros sistemas, como los 

GUIs. 

Pipeline de Visualización 

El pipeline de visualización o red de visualización, representa los pasos para 

crear la visualización. Consta de objetos para representar los datos (objetos de 

datos), objetos para operar sobre los datos (objetos de proceso) y las indicaciones 

del flujo de datos (flechas entre los objetos). Las redes de visualización se 

usan, en general, para describir la implementación de una determinada técnica de 

visualzación. 

Objetos de Datos: Los objetos de datos representan información. También proporcionan 

funciones para cerar, acceder y eliminar esta información. No se 

permite la modificación directa de los datos, a no ser que se usen las funciones 

de la clase. También tienen funciones para obtener características de los datos 

(por ejemplo, el número de datos, valor mínimo y máximo permitidos, . . . ). 

Objetos de Proceso: Operan sobre datos de entrada, para obtener datos de salida. 

Un objeto de proceso deriva nuevos datos de su entrada, o bien transforma 

los datos de entrada a una nueva forma. Por ejemplo, un objeto de proceso 

podría obtener el gradiente de presión a partir de un campo de presión, o 

transformar el campo de presión a isolíneas de presión. La entrada a un objeto 

216

de proceso incluye uno o más objetos y parámetros locales para controlar su 

funcionamiento. 

Los objetos de proceso se pueden, a su vez dividir, según si inician, mantienen, 

o terminan el flujo de datos de visualización. 

Objetos Fuente: sirven de interfaz a fuentes externas de datos, o bien 

los generan a partir de parámetros locales. Los objetos fuente, que sirven 

de interfaz a datos externos, se llaman objetos lectores, ya que se ha 

de leer un fichero externo, y convertirlo a una forma de representación 

interna. 

Objetos Filtro: necesitan una o más entradas de objetos de datos y 

generan una o más salidas de objetos de datos. El funcionamiento del 

objeto se controla mediante parámetros locales. 

Objetos Mapeadores: corresponden a los “sumideros” de la red de 

visualización. Los objetos mapeadores requieren una o más entradas de 

datos y terminan el flujo de datos. Normalmente los mapeadores se usan 

para convertir los datos en primitivas gráficas, pero también pueden, por 

ejemplo, escribir los datos a un fichero. Los mapeadores que escriben los 

datos a un fichero se llaman objetos escritores. 

Control Implícito de la Ejecución 

Se ha implementado un control implícito de la ejecución de las redes de visualización. 

La ejecución de la red ocurre cuando se solicita la salida de un objeto 

(ejecución bajo demanda). Esto es fácil de implementar, casi transparente al usuario 

del sistema, y muy adaptado a la ejecución condicional y de bucles. En ordenadores 

con procesadores en paralelo, u otro hardware especial, se puede usar el control implícito, 

junto con un esquema explícito de balance de carga, dividiendo la red de 

visualización en subredes más pequeñas. 

Esta implementación se basa en dos funciones clave: Update() y Execute(). 

Update() normalmente se ejecuta cuando el usuario solicita al sistema que renderice 

una escena. Como parte de este proceso, los actores envían un método Render() 

a sus mapeadores. En este momento empieza la ejecución de la red. El mapeador 

invoca la función Update() de su(s) entrada(s). Éstas invocan, de forma recursiva, 

las funciones Update() de su(s) entrada(s). Este proceso continúa hasta que se 

encuentra un objeto fuente. En este punto, el objeto fuente compara su tiempo 

de modificación con el de la última vez que se ejecuto. Si se ha modificado más 

recientemente que su última ejecución, se re-ejecuta mediante la función Execute(). 

La recursión se rebobina con cada filtro, comparando su tiempo de entrada con su 

tiempo de ejecución. De esta forma, Execute() se invoca cuando sea necesario. El 

proceso termina cuando se devuelve el control al mapeador. 

217

Este proceso es extremadamente simple, pero depende del mantenimiento correcto 

del tiempo de modificación y ejecución de cada objeto de la red. Si se crea 

una fuente o un filtro y no se gestiona bien el tiempo de modificación y ejecución, 

habrá casos en los que el pipeline no se ejecute correctamente. 

Entrada y Salida de los Objetos 

Aunque la arquitectura de VTK soporta objetos con múltiples entradas y salidas, 

en la práctica, la mayoría de los filtros y las fuentes generan una única salida y los 

filtros aceptan una única entrada. Esto es debido a que, en general, los algoritmos 

son por naturaleza, de entrada y salida únicas. 

En la red de visualización, hemos visto que las fuentes, filtros y sumideros, se 

conectan entre sí. La entrada de cada objeto en el pipeline es la salida del anterior, y 

así sucesivamente. Los datos de entrada se represntan con la variable de la instancia 

Input y se asigna mediante el método de la instancia SetInput(). Los datos de 

salida se representan mediante la variable de la instancia Output y se accede a ellos 

mediante el método de la instancia GetOutput(). Para conectar dos filtros juntos, 

normalmente se usa la sentencia C++ 

filtro2->SetInput(filtro1->GetOutput()); 

donde filtro1 y filtro2 son objetos filtro de tipo compatible, es decir, la salida 

de filtro1 es compatible con la entrada que debe tener filtro2. (El compilador 

de C++ se encarga de asegurar esta compatibilidad). 

La clave de esta arquitectura es que los objetos de datos conocen qué filtros los 

poseen. Esto quiere decir que si un filtro crea un objeto de datos de salida, el objeto 

de datos sabe qué filtro lo creó. Esto nos permite delegar ciertos mensajes desde 

un filtro, a través del objeto de datos al filtro al que está conectado. Por ejemplo, 

si filtro2 recibe un mensaje Update(), lo envía a su objeto de datos de entrada, 

que a su vez lo envía a su filtro dueño (si es alguno). En este caso filtro1 es el 

filtro dueño del objeto de datos. Este proceso, como dijimos, continúa hasta que se 

alcanza un objeto fuente, en el que termina la propagación del método Update(). 

B.1.3. 

Representación de los Datos 

En este apartado se decriben los objetos usados en VTK para representar los 

datos. 

Representación de las Celdas 

En VTK se implementa cada tipo de celda mediante clases específicas. Todas las 

clases que sirven para representar celdas se derivan de la clase abstracta vtkCell. La 

218

topología de la celda se especifica mediante una lista ordenada de índices de puntos. 

Su geometría se especifica mediante una lista con las coordenadas de los puntos. 

Los tipos de celda son los siguientes: 

vtkVertex. Es una celda primaria de cero dimensiones. Se define con un solo punto. 

vtkPolyVertex. Es una celda compuesta de cero dimensiones. Está definida por 

una lista de puntos ordenados arbitrariamente. 

vtkLine. Es una celda primaria 1D. Está definida por dos puntos. La dirección de 

la línea es del primer punto al segundo. 

vtkPolyLine. Es una celda compuesta unidimensional, que consta de una o más 

líneas conectadas. Está definida por una lista ordenada de n+1 puntos, donde 

n es el número de líneas de la poli-línea. Cada par de puntos (i, i + 1) definen 

una línea. 

vtkTriangle. Es una celda primaria bidimensional. Está definida por tres puntos 

ordenados en el sentido de las agujas del reloj. El orden de los puntos especifica 

la normal a la superficie, según la regla de la mano derecha. 

vtkTriangleStrip. Es una celda compuesta, que consta de uno o más triángulos. 

No es encesario que sus puntos sean coplanares. Está definida por una lista de 

n + 2 puntos, donde n es el número de triángulos. El orden de los puntos es 

tal que cada tres puntos (i, i + 1, i + 2) con 0 ≤ i ≤ n, define un triángulo. 

vtkQuad. El cuadrilátero es una celda primaria bidimensional. Está definido por 

una lista de cuatro puntos ordenados en un plano. Debe ser convexo y sus lados 

no se deben cortar. La normal a la superficie se define como en el triángulo. 

vtkPixel. Es una celda primaria bidimensional. Topológicamente es igual al cuadrilátero, 

pero con restricciones geométricas. Todos los lados son perpendiculares entre 

sí, y los lados y la normal a la superficie siguen las direcciones de los ejes coordenados 

x − y − z. El orden de los puntos es diferente del cuadrilátero. Los 

puntos se ordenan en las direcciones crecientes de los ejes, empezando por x, 

luego y, y por último z. Este tipo de celda mejora el funcionamiento, respecto 

al cuadrilátero (más general). La definición de pixel dada aquí es diferente de 

la que se le suele dar (cada elemento de una imagen de valor constante). 

vtkPolygon. Es una celda bidimensional primaria. Está definido por una lista de 

tres o más puntos en un plano. Su vector normal está definido según el orden 

en el sentido de las agujas del reloj de los puntos que lo forman. Puede ser 

no convexo, pero sus lados no se pueden cortar. Tiene n lados, donde n es el 

número de puntos. 

219

vtkTetra. Es una celda primaria tridimensional. Está definida por cuatro puntos 

no coplanares. Tiene 6 aristas y cuatro caras triangulares. 

vtkHexaedron. Es una celda primaria tridimensional, que consta de seis cuadriláteros 

en sus caras, doce aristas y ocho vértices. Está formado por una lista ordenada 

de ocho puntos. Sus caras y aristas no se deben cortar, y debe ser convexo. 

vtkVoxel. Es una celda primaria tridimensional. Topológicamente es equivalente 

al hexaedro, pero con restricciones geométricas adicionales. Todas sus caras 

deben ser perpendiculares a uno de los ejes coordenados x − y − z. La lista de 

puntos se ordena en la dirección creciente de los ejes. Es un caso particular de 

hexaedro, usado para mejorar el funcionamiento. 

Al igual que pixel, la definición de voxel que hemos hecho difiere de la usual 

(elemento de volumen de valor constante). 

Representación de Estructuras de Datos 

En VTK se han implementado cinco estrucuturas de datos (datasets): vtkPoly- 

Data, vtkStructuresPoints, vtkStructuredGrid, vtkRectilinearGrid, y vtk- 

UnstructuredGrid. Todos ellos se derivan de la superclase vtkDataSet. 

Se usa una representación interna distinta para cada uno de los datasets. De 

esta forma se minimiza la memoria requerida para almacenar las estructuras de datos 

y se implementan métodos de acceso a los mismos más eficientes. Los objetos más 

generales se podrían usar para representar al resto, pero la sobrecarga computacional 

y de memoria es inaceptable para conjuntos grandes de datos. A continuación se 

describen someramente estos objetos: 

vtkStructuredPoints. Es la forma de representación más simple y compacta. Es 

una colección de puntos y celdas colocados en una malla rectangular regular. 

Consta de elemenstos de línea (1D), pixels (2), o voxels (3D). 

Tanto los puntos, como las celdas de este dataset se representan de forma implícita, 

especificando las dimensiones, el espaciado entre los datos, y el origen. 

Las dimensiones definen la topología de los datos , mientras que el origen y 

espaciado definen la geometría. Las filas, columnas y planos de la malla son 

paralelos al sistema de coordenadas global, x − y − z. 

Hay un orden implícito, tanto de los puntos, como de las celdas, que componen 

el objeto vtkStructuredPoints. Ambos están numerados en la dirección 

creciente de x, y, y z. El número total de puntos es n x × n y × n z , donde n x , 

n y , y n z son las dimensiones del vtkStructuredPoints. El número total de 

celdas es (n x − 1) × (n y − 1) × (n z − 1). 

vtkRectilinearGrid. Es una colección de puntos y celdas colocados en una malla 

regular. Las filas, columnas y planos de la malla son paralelos al sistema de 

220

coordenadas global, x−y−z. Mientras que la topología es regular, la geometría 

es sólo parcialmente regular. Esto es, los puntos están alineados a lo largo de 

los ejes de coordenadas, pero el espaciado entre ellos puede variar. Al igual 

que vtkStructuredPoints, consta de pixels (2D), o voxels (3D). 

La topología se representa especificando las dimensiones de los datos a lo largo 

de los ejes coordinados x, y, y z. La geometría se define con tres arrays para 

los valores coordinados a lo largo de estos ejes. Estos tres arrays coordinados 

se combinan para determinar las coordenadas de cualquier punto en el 

dataset. Los arrays se representan en VTK, mediante tres instancias de la 

clase vtkScalars. 

vtkStructuredGrid. Es una estructura de datos con topología regular, por lo que 

al igual que en vtkStructuredPoints, se representa mediante las dimensiones 

en el sistema de coordenadas topológico i − j − k. Sin embargo, la geometría 

es irregular. La malla se puede “doblar” de cualquier forma, siempre que las 

celdas no se solapen o intersecten. 

La geometría se representa especificando las coordenadas de todos sus puntos 

en el sistema de coordenadas global x−y−z. Para representar las coordenadas 

de los puntos se usa la clase abstracta vtkPoints y sus subclases concretas 

(por ejemplo, vtkFloatPoints). 

vtkPolyData. La topología de este tipo de estructura de datos es irregular, por 

lo que tanto la topología, como la geometría se deben especificar de forma 

explícita. Los puntos de la geometría se representan mediante instancias de la 

clase vtkPoints. 

Consta de todos o algunos de los siguientes tipos de celdas: vértices, polivértices, 

líneas, polilíneas, polígonos y tiras de triángulos. La topología y 

la geometría de vtkPolyData es irregular, y las celdas que forman esta estructura 

de datos varían en su número de dimensiones topológicas. Se usa la clase 

vtkCellArray para representar de forma explícita la topología de la celda. 

vtkUnstructuredGrid. Es la forma de dataset más general. Tanto la geometría, 

como la topología son completamente irregulares. Se puede usar cualquier 

combinación de celdas en este tipo de datos. En general, cualquier dataset 

se puede implementar usando una instancia de esta clase. Sin embargo, sólo 

se debe usar cuando es absolutamente necesario (no se puede representar con 

objetos más sencillo), pues es el que requiere más memoria y capacidad de 

computación. 

Tanto los puntos, como las celdas se especifican mediante subclases derivadas 

de vtkPoints y vtkCellArray. 

221

B.2. 

Intérpretes y Tcl/Tk 

Vamos a comparar las ventajas y desventajas de los lenguajes interpretados frente 

a los lenguajes tradicionales compilados (algunas de ellas ya se han señalado en 

capítulos anteriores). VTK permite programar en C++, en Java y en el lenguaje 

interpretado Tcl/Tk. 

B.2.1. 

Lenguajes Interpretados vs Compilados 

Los lenguajes de programación se pueden dividir en compilados e interpretados. 

Esta clasificación atiende a la forma meidante la que se interactúa con el 

lenguaje. 

En un lenguaje compilado, el código fuente se ha de compilar (traducir a 

instrucciones máquina), linkar (se juntan los módulos y se resuelven los símbolos), y 

después ejecutar. Cuando se detecta un error, se debe editar, recompilar y relinkar 

el código, antes de poderse a probar, lo cual consume mucho tiempo. 

En un lenguaje interpretado, no hace falta compilar, ni linkar el código. En 

su lugar, las instrucciones se escriben directamente en el ordenador, o se escriben 

en un fichero, que es leído y ejecutado línea a línea por el intérprete. Usando un 

lenguaje interpretado, se puede reducir drásticamente el tiempo de desarrollo de los 

programas. 

Sin embargo, mientras que el tiempo de desarrollo de los programas es menor en 

los lenguajes interpretados, la compilación produce tiempos de ejecución menores. 

Los compildores usan métodos eficientes para representar y manipular estructuras 

complejas de datos. Hay unos pocos lenguajes que soportan compilación e interpretación; 

sin embargo, hoy en día, la mayoría de los lenguajes son de un tipo o de 

otro. 

Para el software VTK, se han escrito las clases usando el lenguaje compilado 

C++, debido a sus capacidades como lenguaje orientado a objetos, velocidad de 

ejecución eficiente, y uso muy extendio. Pero además, es deseable poder desarrollar 

aplicaciones de forma rápida (incluyendo interfaces gráficos de usuario). Por eso 

se ha “empaquetado” el lenguaje interpretado Tcl con los objetos de C++. Tcl 

es un lenguaje interpretado sencillo, que se puede “embeber” dentro de programas 

realizados en otros lenguajes de programación. Además posee un interfaz gráfico, 

Tk, muy sencillo de programar. Tcl/Tk es un lenguaje muy usado, cada vez más, y 

se distribuye gratuitamente. 

El resultado de todo ello es una herramienta de desarrollo de aplicaciones que 

ofrece la posibilidad de elegir entre realizar aplicaciones interpretadas o compiladas. 

Además, como todos los objetos se han realizado en C++, incluso las aplicaciones 

interpretadas se ejecutan de forma relativamente rápida (se deja el lenguaje interpretado 

para las partes del programa que requieren menor capacidad computacional). 

222

El intérprete se usa, normalmente, sólo para la manipulación a alto nivel de los 

objetos, y raras veces se usa para grandes cálculos complicados. 

B.2.2. 

Introducción a Tcl 

Tcl es un lenguaje interpretado, desarrollado por John Outerhout a finales de los 

años 80. Se va a hacer una descripción de Tcl muy elemental; para más información 

sobre este lenguaje de programación, consultar [15]. 

Se diseñó para proporcionar un lenguaje de comandos sencillo, que pudiera ser 

integrado con gran variedad de aplicaciones. Tcl está escrito en lenguaje C, y tiene 

un API (Interfaz para la Programación de Aplicaciones) para integrar nuevas funciones. 

Su sintaxis es muy similar a la del lenguaje C shell. El script de ejemplo 

que se muestra a continuación, ilustra algunas de sus caracterísitcas básicas. Todas 

las líneas que empiezan por ‘#’, son comentarios. Las líneas de código comienzan 

siempre por un comando, seguido posiblemente por argumentos. Un punto y coma, 

o una nueva línea indican el final de un comando. 

# Script Tcl para calcular la circunferencia de un circulo 

set pi 3.1416 

set radio 2 

set area [expr $pi*$radio*2.0] 

puts $area 

El comando set toma dos argumentos: el nombre de la variable a crear y su valor 

inicial. La segunda línea del ejemplo usa este comando para crear una variable 

llamada pi con un valor de 3.1415. Hasta la versión 8.0 de Tcl, todas las variables 

se almacenaban como cadenas, y se convertían a enteros o punto flotante cuando 

hacía falta. La nueva versión Tcl/Tk 8.0 almacena las variables numéricas en este 

formato, sin necesidad de conversiones, lo que mejora mucho el rendimiento. En la 

cuarta línea se crea la variable area mediante el comando set, pero su inicialización 

es más compleja. Encerrando una sentencia Tcl entre corchetes, se puede usar el 

resultado de esta sentencia como argumento para un comando. El formato de una 

línea de código anidada es el mismo que el de cualquier otra, excepto que está entre 

corchetes. A esto se le llama sustitución de comandos. 

Dentro de los corchetes queremos calcular el área del círculo. Por ello usamos 

el comando expr, que evalúa sus argumentos como una expresión matemática y 

devuelve el resultado. Se puede ver que hay signos de dólar delante de las dos 

variables creadas antes. Esto hace que Tcl haga sustitución de variables y use 

el valor de la variable, en lugar de su nombre. Por último, la quinta línea usa el 

comando puts, para sacar por pantalla el resultado almacenado en la variable area. 

Tcl permite crear procedimientos, equivalentes a las funciones de C. En el siguiente 

ejemplo podemos ver un procedimiento para calcular el área de un rectángulo. 

223

Al crear un procedimiento, se crea un nuevo comando de Tcl, con sus correspondientes 

argumentos. 

# Script Tcl para calcular el area de un rectangulo mediante 

# un procedimiento 

set ancho 4.5 

set largo 5.6 

set area1 [areaRect $largo $ancho] 

puts "El area del rectangulo vale: $area1 metros cuadrados" 

# Procedimiento para calcular el area de un rectangulo 

proc areaRect {lado1 lado2} { 

set area [expr $lado1 * $lado2] 

return area 

} 

En la cuarta línea se puede ver que tenemos un nuevo comando llamado areaRect, 

creado mediante el procedimiento que aparece al final del ejemplo. Los procedimientos 

se crean mediante el comando proc, que tiene dos argumentos; el primero es una 

lista con sus argumentos de entrada, y el segundo es el cuerpo del procedimiento. 

En la sentencia puts, se puede ver que el argumento de este comando está entre 

comillas. Esto permite meter todo lo que está entre comillas como un solo argumento. 

Las comillas permiten sustitución de variables. Las llaves también permiten 

agrupar argumentos, pero en ellas no se realiza sustitución de variables (por eso 

aquí se ponen comillas, para que se sustituya $area por su valor). 

Veamos un último ejemplo. En el script que aparece abajo, se escriben los 

números desde 1 hasta 10 y sus cuadrados. 

# Script Tcl para imprimir los numeros 1-10 y sus cuadrados 

# 

for {set num 1} {$num

que la condición sea falsa. El tercer argumento se evalúa al final de cada iteración. 

Normalmente se usa para incrementar la variable del bucle. En el script se usa el 

comando incr para incrementar la variable num. El cuarto y último argumento es 

el cuerpo del bucle, que se evalúa en cada iteración. 

Las llaves son importantes ya que, como hemos dicho, evitan que los argumentos 

sean evaluados antes de ser pasados al bucle for. En otro caso, el resultado de 

$num

Para las funciones que devuelven punteros, es algo más difícil. Como no se puede 

devolver el puntero, se debe convertir a un nombre de cadena único. Para hacer 

esto, se mantienen tablas de traducción, que convierten entre punteros y nombres 

de cadena. Siempre que se crea un objeto VTK en un script Tcl, el nombre del 

objeto y el puntero de la instancia se almacenan en tablas de traducción. Si se usa 

ese nombre como argumento de un método, se convierte automáticamente el nombre 

de cadena, a un puntero de instancia, usando estas tablas de traducción. Cuando 

un método necesita devolver un puntero a una instancia que no estaba creado en 

el script Tcl, se crea un nombre único, como por ejemplo vtkTemp0, vtkTemp1, 

etc. Este nombre de cadena, así como el puntero, se meten también en las tablas de 

traducción para un uso futuro. Por ejemplo, en la quinta línea del ejemplo anterior, se 

usa el comando set para crear la variable propiedad. Su valor inicial es el resultado 

de invocar la función GetProperty() de la instancia actor. Normalmente, esta 

función devuleve un puntero C++, pero el código de empaquetamiento, lo convierte 

a un nombre de cadena y es lo que devuelve. La sexta línea muestra cómo se puede 

usar este resultado, mediante la variable propiedad. 

La mayoría de los argumentos de entrada y salida de los métodos, son de tipo 

simple, como enteros o valores en punto flotante. Cuando una función toma como 

argumento un array de tamaño fijo, como por ejemplo float fargs[3], se divide 

en componentes individuales. por ejemplo, en C++ y Tcl se usan las siguientes 

sentencias para llamar a una función: 

C++: 

Tcl: 

Instancia->unMetodo(int iarg, float fargs[3])} 

Instancia unMetodo iarg fargs1 fargs2 fargs3} 

Para los métodos que devuelven un valor o un puntero a un array, se realiza la 

operación opuesta. Se devuelve una cadena sencilla que consta del valor devuelto 

por el método o los componentes del array. Para los métodos que devuelven arrays, 

los componentes del array están limitados en espacio. Estamos limitados a cadenas 

simples a causa de la semántica del lenguaje Tcl. 

A causa de las diferencias entre C++ y Tcl, no todos los métodos disponibles 

en C++ sin accesibles en Tcl. Se ha desarrollado un programa en Lex y Yacc para 

leer las cabeceras de los ficheros C++ y generar automáticamente el código de empaquetamiento. 

Los pocos métodos que no se pueden empaquetar, no se encuentran 

disponibbles en el intérprete de Tcl. Cuando se crean nuevas clases en C++ para 

VTK, no hay que preocuparse del empaquetamiento a Tcl, pues se realiza de forma 

automática, al realizar la compilación de la clase. 

Librerías Dinámicas 

El comando Tcl load, se usa para cargar de forma dinámica la librería de VTK, 

que es una librería dinámica (.dll en Windows y .so en Linux). El comando usado 

para cargar esta librería, es 

226

catch {load vtktcl} 

Sólo cuando se carga la librería, los comandos de VTK se hacn disponibles para 

ser usados. El comando Tcl catch es necesario, porque en algunos sistemas la carga 

dinámica de librerías no está disponible, o no es necesaria. En estos sistemas, el 

comando load provoca un error. El comando catch, evita que los errores hagan al 

intérprete abortar la ejecuación. Por eso, se usa la combinación de ambos comandos, 

para asegurar la portabilidad de los scripts Tcl en distintas plataformas. 

B.2.4. 

Ejemplo de C++ y Tcl 

En este ejemplo se compara el código de C++ y de Tcl para renderizar un cubo. 

Se puede ver cómo se tratan lo punteros de C++ en Tcl. Ambos ejemplos realizan 

la renderización de un cubo, y pueden usarse como punto de partida para otras 

muchas redes de visualización, pues en muchas redes, cambian los objetos fuente y 

los filtros, pero el resto es equivalente. 

// Codigo C++ para dibujar un cubo 

#include "vtk.h" 

main() 

{ 

vtkRenderer *ren1 = vtkRenderer::New(); 

vtkRenderWindow *renWin = vtkRenderWindow::New(); 

renWin->AddRenderer(ren1); 

vtkCubeSource *cubeSrc = vtkCubeSource::New(); 

vtkPolyDataMapper cubeMpr = vtkPolyDataMapper::New(); 

vtkActor *cubeActor = vtkActor::New(); 

} 

cubeMpr->SetInput(cubeSrc->GetOutput()); 

cubeActor->SetMapper(cubeMpr); 

ren1->AddActor(cubeActor); 

renWin->Render(); 

# Codigo Tcl para dibujar un cubo 

catch {load vtktcl} 

227

vtkRenderer ren1 

vtkRenderWindow renWin 

renWin AddRenderer ren1 

vtkCubeSource cubeSrc 

vtkPolyDataMapper cubeMpr 

vtkActor cubeActor 

cubeMpr SetInput [cubeSrc GetOutput] 

cube1 SetMapper cubeMpr 

ren1 AddActor cubeActor 

renWin Render 

B.2.5. 

Interfaces de Usuario con Tk 

Tk es una extensión de Tcl que proporciona la posibilidad de realizar interfaces 

de usuario, con elementos tales como botones, entradas de texto, barras de 

desplazamiento, canvas, . . . No se van a describir las posibilidades de Tk; para más 

información, consultar [15]. 

Una de las mejores caracterísitcas de Tk es su independiencia con el sistema de 

ventanas. Se pueden crear interfaces gráficas de usuario que funcionan, tanto en el 

sistema de ventanas de X Windows, como en el de Microsoft Windows. Por tanto, 

las aplicaciones realizadas en Tcl/Tk son independientes de la plataforma. 

Usando vtkTkRenderWidget 

Si se realiza el GUI directamente en VTK, la ventana de renderización, y el 

GUI aparecen en ventanas separadas. Aunque esto puede ser deseable para ciertas 

aplicaciones, a menudo es mejor integrar la ventana de renderización y el GUI en una 

sola ventana. La aplicación realizada para el proyecto es un ejemplo muy completo 

de ello. 

La integración de la ventana de renderización y Tcl/Tk se realiza usando el objeto 

especial vtkTkRenderWidget. Este objeto actúa como un widget de Tk (como canvas, 

por ejemplo), pero tiene un método especial, que permite integrarlo con VTK. A 

continuación se muestra un ejemplo para crear una ventana de renderización como 

widget de Tk. 

vtkRenderer Renderer 

228

vtkTkRenderWidget .window -width 300 -height 300 

set RenWin [.window GetRenderWindow] 

$renWin AddRenderer Renderer 

Otra característica adecuada de vtkTkRenderWidget es que es posible realizar tratamiento 

de eventos en el widget. De esta forma, se puede crear un estilo de interacción 

propio para manipular actores, luces, o cámaras, o características adicionales, como 

captura de imagen, o animación de secuencias. 

229

230

Apéndice C 

Planos 

En este apéndice, se muestran parte de los listados de la aplicación Comp3D. 

No se muestran todos, por su gran extensión. Se ha intentado que con los listados 

que aparecen el proyecto sea autocontenido. 

231

PROYECTO FIN DE CARRERA Esquemas multirresoluciÃ³n para ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?