Data depth in Multivariate Statistics - European Mathematical Society

More documents

Recommendations

Info

160 I. Cascos, A. López and J. Romo volúmenes entre la raíz cuadrada del determinante de la matriz de covarianzas, obtenemos una versión invariante afín de la profundidad de Oja. Las propiedades D2–D4 se satisfacen para cualquier distribución de probabilidad y el máximo valor, para distribuciones angularmente simétricas, se alcanza en el centro de la distribución. 3.6. Profundidad asociada a la mediana Para una mediana multivariante cualquiera denotada por Me, Vardi y Zhang [40] definen la profundidad asociada a la mediana de un punto x respecto de una distribución de probabilidad P como 1 menos la menor masa de probabilidad ω necesaria para hacer de x la mediana de la mixtura (ωδx + P ) /(ω + 1), donde δx es la distribución de probabilidad degenerada en x. De un modo formal se define: ωδx + P MeD (x; P ) = 1 − ínf ω ≥ 0 : Me = x . 1 + ω En [40] se propone tomar como mediana multivariante la mediana espacial que es el punto para el que la media de la distancia euclídea a un vector aleatorio con la distribución dada es mínima. Habitualmente se conoce a esta mediana como mediana L1 y a la correspondiente profundidad como profundidad L1, pero nosotros evitamos dicha nomenclatura por la controversia expuesta en [45, Remark 3.2]. En tal caso, la profundidad máxima respecto de una distribución angularmente simétrica se alcanza en el centro de la distribución. En general no satisface la propiedad D1, pero sí D2–D4. La principal ventaja de la profundidad asociada a la mediana espacial es que el tiempo de cómputo en dimensiones elevadas es sensiblemente menor que el de muchas de las profundidades introducidas previamente. 3.7. Profundidad de las proyecciones La profundidad de las proyecciones fue propuesta por Zuo y Serfling [43]. Se construye a partir de la mayor discrepancia entre una proyección unidimensional del punto x y la mediana de la misma proyección (unidimensional) aplicada al vector aleatorio X. En concreto, se define como PD (x; P ) = −1 |〈u, x〉 − Me (〈u, X〉)| 1 + sup , u=1 MEDA (〈u, X〉) donde el vector X sigue distribución P , Me representa la mediana y MEDA es la mediana de las desviaciones respecto de la mediana. Esta profundidad verifica las propiedades D1–D4 y, si la distribución de probabilidad es angularmente simétrica, la profundidad tiene su máximo en el centro de ésta. El punto con mayor profundidad de las proyecciones constituye una mediana con un elevado punto de ruptura, ver Zuo [42].
Data depth in Multivariate Statisticss 161 3.8. Profundidad de la mayoría La profundidad de la mayoría fue utilizada por primera vez por Liu y Singh [25] para cuantificar la disparidad entre dos distribuciones. Es la probabilidad de que x pertenezca al semiespacio con mayor probabilidad P , de los dos que separa el hiperplano definido por d observaciones independientes de P . Dados x1, . . . , xd, d puntos afinmente independientes en Rd , consideramos el hiperplano que definen. Este hiperplano delimitará dos semiespacios cerrados, tomamos el que tenga mayor probabilidad P y lo denotamos como HP . Podemos entonces definir x1,...,xd la profundidad de la mayoría como MjD(x; PX) = Pr{(X1, . . . , Xd) : x ∈ H P X1,...,Xd } . En el caso univariante es 1 menos la probabilidad que hay entre el valor x y la mediana MjD(x; PX) = 1/2+mín{FX(x), 1−FX(x)}. Satisface las propiedades D1, D3 y D4, pero puede no satisfacer D2, como ocurre en el caso unidimensional. En distribuciones angularmente simétricas la profundidad angular es máxima en el punto de simetría. 3.9. Profundidad por bandas La profundidad por bandas fue introducida por López-Pintado y Romo [26]. Cuantifica la centralidad a través de la probabilidad de pertenencia del punto a hipercubos con vértices aleatorios (o bandas, en coordenadas paralelas). Los vértices aleatorios se calculan mediante los máximos y los mínimos de cada coordenada para un conjunto de s puntos, es decir, B (x1, . . . , xs) = y ∈ R d : mín 1≤i≤s xk) i ≤ yk) ≤ máx 1≤i≤s xk) i para 1 ≤ k ≤ d , donde x k) i e yk) son las k-ésimas coordenadas de xi e y. La profundidad por bandas de un punto x con respecto a una distribución P para bandas determinadas por hasta S ≥ 2 puntos, se define como BD (x; P ) = S Pr {x ∈ B (X1, X2, . . . , Xs)} . (3.5) s=2 La profundidad por bandas satisface las propiedades D2 y D3. Bajo ciertas condiciones extra satisface además D4 y que, para distribuciones angularmente simétricas, alcanza su máximo en el centro. Su principal ventaja es su tiempo de cómputo en problemas de elevada dimensión. Sin embargo, si la dimensión del espacio es elevada y no se dispone de tamaños muestrales grandes, es posible que las profundidades muestrales sean muy próximas a cero y sólo presenten pequeñas variaciones para los distintos puntos de la muestra. La profundidad
Page 1 and 2: Boletín de Estadística e Investig
Page 3 and 4: Data depth in Multivariate Statisti
Page 9: Data depth in Multivariate Statisti

Data depth in Multivariate Statistics - European Mathematical Society

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?