Data depth in Multivariate Statistics - European Mathematical Society

More documents

Recommendations

Info

164 I. Cascos, A. López and J. Romo semiespacial (centro de gravedad del conjunto de puntos más profundos). Trazamos los rayos que van desde la mediana semiespacial a los puntos exteriores a la bolsa. Si la distancia recorrida por alguno de los rayos fuera de la bolsa supera en dos veces la recorrida por el mismo rayo dentro de la bolsa, entonces la correspondiente observación es marcada como un posible outlier. Para finalizar, se traza un lazo que representa el contorno de la envolvente convexa de todos los puntos de la muestra que no han sido marcados como outliers, ver Figura 2. Figura 2: Bagplot del tiempo en la carrera de 200 metros lisos y la distancia del salto de longitud en la heptatlón de Barcelona’92. . 4.2. Bondad de ajuste, DD-plots En esta sección obviaremos los contrastes de bondad de ajuste formales basados en nociones de profundidad para ocuparnos exclusivamente de un método gráfico. Liu, Parelius y Singh [24] proponen llevar a cabo la comparación de dos distribuciones a través de diagramas de dispersión de los valores de profundidad a los que llaman DD-plot (o gráfico profundidad-profundidad). Así, si se desea comprobar si las distribuciones, F y G, de dos poblaciones son iguales y disponemos de una muestra de cada población, X = {x1, x2, . . . , xn} e Y = {y1, y2, . . . , ym}, un DD-plot consiste en el diagrama de dispersión: DD (Fn, Gm) = {(D (x; Fn) , D (x; Gm)) para todo x ∈ X ∪ Y} . Como en los gráficos cuantil-cuantil univariantes, si ambas distribuciones son iguales los puntos deben estar alineados sobre la recta y = x. La Figura 3 muestra el DD-plot de dos muestras generadas a partir de dos normales bivariantes, con parámetros idénticos (3(a)), con un cambio en el vector de medias (3(b)) y con un cambio en la matriz de covarianzas (3(c)). Sólo en la primera situación los puntos se encuentran alineados en torno a la recta y = x.
Data depth in Multivariate Statisticss 165 (a) Mismos parámetros (b) Cambio de localización (c) Cambio de escala Figura 3: DD-plot para muestras de normales bivariantes. Figura 3: DD-plot para muestras de normales bivariantes. 4.3. Análisis Discriminante El objetivo del análisis discriminante es la obtención de reglas de clasificación para la asignación de observaciones a grupos conocidos. En el contexto de la profundidad estadística podemos encontrar diversos trabajos centrados en su aplicación en problemas de clasificación. Así, Mosler y Hoberg [32], analizan el comportamiento de las profundidades del zonoide, la de Mahalanobis y una combinación suya para distintos conjuntos de datos bivariantes. La regla de clasificación que emplean consiste en asignar cada observación al grupo con respecto al cual tienen una mayor profundidad. Comparan los resultados obtenidos con varias reglas clásicas de clasificación obteniendo resultados de errores de clasificación muy similares a los de éstas. De un modo alternativo, Ghosh y Chauduri [14] emplean la profundidad semiespacial y la de la regresión (ver Secciones 4.5 y 5.2) para obtener reglas de clasificación no lineales. El método que proponen consiste en proyectar los datos en espacios de dimensiones superiores, donde aplican reglas de clasificación lineales construidas a partir de las profundidades. Al estar basadas en nociones de profundidad, las reglas de clasificación obtenidas no dependen de una distribución y presentan una mayor robustez que las reglas de clasificación lineal y cuadrática clásicas. En último lugar, nos referiremos al trabajo de Li, Cuesta-Albertos y Liu [21], quienes proponen utilizar los DD-plots (ver Sección 4.2) en problemas de clasificación. Su método consiste básicamente en discriminar entre dos grupos a partir de la curva que mejor separa sus muestras en el DD-plot. 4.4. Análisis de Conglomerados El análisis de conglomerados, o clustering, consiste en la búsqueda de agrupamientos que aparecen en un conjunto de datos, de tal forma que los individuos dentro del mismo grupo sean muy similares entre sí y distintos del resto. Existen varios algoritmos de clustering basados en la profundidad y aplicados a datos de alta dimensión. Ding y otros [10] diseñan un algoritmo que combina el clustering
Page 1 and 2: Boletín de Estadística e Investig
Page 3 and 4: Data depth in Multivariate Statisti
Page 13: Data depth in Multivariate Statisti

Data depth in Multivariate Statistics - European Mathematical Society

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?