En la mayor parte <strong>de</strong> los <strong>estudio</strong>s <strong>de</strong> conjuntos <strong>de</strong> datos composicionales seríafactible inducir la presencia <strong>de</strong> componentes con valores nulos simplementeaumentando el número <strong>de</strong> componentes a consi<strong>de</strong>rar en las observaciones. Porejemplo, si en un <strong>estudio</strong> <strong>de</strong> la <strong>composición</strong> <strong>de</strong> los presupuestos <strong>de</strong> las familias,subdividimos la componente Vestido y Calzado en las componentes: Camisas,Pantalones, Faldas, Suéteres, Chaquetas, Abrigos, Ropa interior, Botas, Zapatos, yCalzado Deportivo, nos aparecerán componentes con valores nulos. En consecuencia,una primera cuestión que <strong>de</strong>bemos resolver en un <strong>estudio</strong> <strong>de</strong> datos con ceros es siestos ceros son o no producto <strong>de</strong> una subdivisión excesiva <strong>de</strong> las componentes queestamos observando. En el caso que la respuesta sea afirmativa, es necesario realizaruna amalgama (Aitchison, 1986) <strong>de</strong> algunas <strong>de</strong> las componentes <strong>de</strong> las observaciones.Recor<strong>de</strong>mos que la operación amalgama consiste en aglutinar o sumar partesobteniéndose un conjunto <strong>de</strong> datos <strong>de</strong> menor dimensión por lo que refiere al número <strong>de</strong>partes. Observemos que uno <strong>de</strong> los efectos <strong>de</strong> la operación amalgama es eliminar lapresencia <strong>de</strong> valores nulos en las componentes. En consecuencia, la amalgama <strong>de</strong>beconsi<strong>de</strong>rarse como una fase previa a la aplicación <strong>de</strong> una técnica multivariante. Estaoperación <strong>de</strong>be realizarse teniendo siempre muy presente la propia naturaleza <strong>de</strong> lascomponentes a aglutinar. En general, una vez se ha superado la fase <strong>de</strong> amalgama <strong><strong>de</strong>l</strong>os datos <strong>de</strong>berá <strong>de</strong>cidirse si se asumen los valores nulos como ceros esenciales ocomo ceros por redon<strong>de</strong>o.Por lo que se refiere a conjuntos <strong>de</strong> datos con ceros esenciales, la presencia <strong>de</strong> uncero esencial en una parte <strong>de</strong> una observación nos informa que, en relación a otraobservación que en la misma componente contenga un valor no nulo, estas dosobservaciones <strong>de</strong>ben pertenecer a grupos diferentes. Esta i<strong>de</strong>a se conoce como elProblema <strong><strong>de</strong>l</strong> Martini Perfecto, <strong><strong>de</strong>l</strong> inglés Perfect Martini Problem. Se consi<strong>de</strong>ra que unMartini es una bebida consistente en una mezcla, en diferentes proporciones, <strong>de</strong>ginebra, <strong>de</strong> vermut seco, y <strong>de</strong> vermut dulce. La i<strong>de</strong>a fundamental que aparece en esteejemplo es que una observación –bebida– que contenga un cero esencial en unacomponente –le falta un ingrediente– no es un Martini, sino una bebida diferente. Enconsecuencia, cuando se está interesado en aplicar una técnica estadística a unconjunto <strong>de</strong> datos con observaciones que contienen ceros esenciales, estos valoresnulos juegan un papel <strong>de</strong> atributos que separan a las observaciones entre si, según elnúmero y la disposición <strong>de</strong> sus ceros. De esta manera, dos observaciones inicialmentepertenecen al mismo grupo si son observaciones con ceros comunes, es <strong>de</strong>cir con elmismo número y disposición <strong>de</strong> los valores nulos. A partir <strong>de</strong> esta preclasificacióninicial, y <strong>de</strong>ntro <strong>de</strong> cada grupo, aplicaremos la técnica estadística <strong>de</strong>seada. En laaplicación <strong>de</strong> la técnica, <strong>de</strong>ntro <strong>de</strong> cada grupo, se utilizarán únicamente las partes nonulas. En Martín-Fernán<strong>de</strong>z (2001) se propone un algoritmo automático para crear losgrupos <strong>de</strong> datos en función <strong><strong>de</strong>l</strong> número y disposición <strong>de</strong> los ceros.Si nos centramos en el problema <strong>de</strong> los ceros por redon<strong>de</strong>o, recor<strong>de</strong>mos que estamosasumiendo que el valor nulo que aparece en una parte es un dato que se ha traducidopor un cero <strong>de</strong>bido a que correspon<strong>de</strong> a valores que no han sido registrados o<strong>de</strong>tectados por ser valores extremadamente pequeños. Es <strong>de</strong>cir, en una parte <strong>de</strong> laobservación aparece un cero que proviene <strong>de</strong> un dato censurado por tener un valorinferior al umbral <strong>de</strong> <strong>de</strong>tección <strong>de</strong> la variable en cuestión. Este umbral <strong>de</strong> <strong>de</strong>tección se<strong>de</strong>riva <strong>de</strong> la precisión con la que se trabaja en el proceso <strong>de</strong> medida. Está ampliamenteaceptado que la estrategia a seguir se inspira en el reemplazamiento <strong>de</strong> los ceros porredon<strong>de</strong>o por una cantidad relativamente pequeña. En Martín-Fernán<strong>de</strong>z (2001) y16
Martín-Fernán<strong>de</strong>z et al (2003) se exponen en <strong>de</strong>talle las dificulta<strong>de</strong>s que presenta elreemplazamiento propuesto por Aitchison (1986) y el interés por buscar unasubstitución coherente con el carácter composicional <strong>de</strong> los datos. En aquellos trabajosse propone una nueva aproximación al problema basada en el reemplazamiento <strong>de</strong> losceros por redon<strong>de</strong>o mediante una fórmula que tenga buenas propieda<strong>de</strong>s respecto <strong><strong>de</strong>l</strong>as operaciones perturbación y formación <strong>de</strong> subcomposiciones. Consi<strong>de</strong>remos δ k elvalor <strong><strong>de</strong>l</strong> reemplazamiento <strong>de</strong>rivado <strong><strong>de</strong>l</strong> umbral <strong>de</strong> <strong>de</strong>tección para la k-ésimacomponente. Sea x una observación que contenga ceros por redon<strong>de</strong>o. Entonces,construimos la observación r=(r 1 , r 2 ,..., r D ) substituyendo los ceros <strong>de</strong> x mediante laexpresión siguiente:rk⎧ δksi x⎪= ⎨xk(1− ∑ δl)si x⎪⎩ xl= 0Obsérvese que, con el objetivo <strong>de</strong> que se siga cumpliendo la restricción <strong>de</strong> sumaconstante, la modificación <strong>de</strong> las partes no nulas es una modificación <strong>de</strong> tipomultiplicativa. De esta manera, en Martín-Fernán<strong>de</strong>z (2001) se <strong>de</strong>muestra que si eneste reemplazamiento se utiliza el verda<strong>de</strong>ro valor perdido entonces, en r se obtiene elverda<strong>de</strong>ro valor <strong>de</strong> la observación: en el mismo trabajo, el autor <strong>de</strong>muestra que estereemplazamiento tiene propieda<strong>de</strong>s razonables respecto la operación <strong>de</strong> formación <strong>de</strong>subcomposiciones y la operación perturbación.Una vez realizado el reemplazamiento <strong>de</strong> los ceros por redon<strong>de</strong>o aplicaremos latransformación <strong>de</strong>seada, alr, clr o ilr, y podremos aplicar el método estadístico quecreamos conveniente a los datos transformados. Una vez obtenidos los resultados <strong><strong>de</strong>l</strong>a técnica estadística surgirá <strong>de</strong> manera natural la necesidad <strong>de</strong> realizar un análisis <strong>de</strong>sensibilidad. El problema que se nos plantea en el análisis <strong>de</strong> sensibilidad <strong>de</strong> losresultados es estudiar el grado <strong>de</strong> <strong>de</strong>pen<strong>de</strong>ncia <strong>de</strong> los resultados obtenidos en elanálisis estadístico con respecto <strong>de</strong> los valores δ k utilizados en el reemplazamiento.Recor<strong>de</strong>mos que los valores δ k se <strong>de</strong>rivan <strong><strong>de</strong>l</strong> valor <strong><strong>de</strong>l</strong> umbral <strong>de</strong> <strong>de</strong>tección. Enconsecuencia, una estrategia a<strong>de</strong>cuada para realizar un análisis <strong>de</strong> sensibilidadconsiste en hacer variar el valor δ k en un rango ligado al umbral <strong>de</strong> <strong>de</strong>tección o almáximo error <strong>de</strong> redon<strong>de</strong>o. En particular, si <strong>de</strong>nominamos δ r al máximo error porredon<strong>de</strong>o, un rango a<strong>de</strong>cuado (Aitchison, 1986) <strong>de</strong> variación <strong>de</strong> los valores δ k consisteenδr≤ δk≤ 25δrkk= 0> 017