ANALISIS MULTIVARIADO
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
“UNIVERSIDAD NACIONAL SAN ANTONIO ABAD
DE CUSCO”
‘ESCUELA PROFESIONAL DE FISICA’
“INFORME”
ASIGNATURA: ESTADISTICA MATEMATICA
DOCENTE: JULIO CESAR HUAMAN
CUSIHUAMAN
NOMBRE: Juan Carlos Camani Ccollana
CODIGO: 193803
FECHA: 13/04/2023
ANALISIS MULTIVARIADO
1. Introduccion:
Las técnicas multivariantes herramienta analítica explicar el comportamiento de una
serie de datos y predecir sus posibles resultados a través de Modelos Estadísticos.
Análisis Exploratorio de los datos disponibles, antes de aplicar cualquier tipo de
análisis multivariante.
Análisis univariante, bivariante, multivariante.
Tres clases de técnicas multivariantes, teniendo en cuenta la escala de medida de las
variables que intervienen en el análisis.
2. Variables, medidas y escalas:
Las variables: características no uniformes de las unidades de información.
Unidades: entidades de las que se obtienen las observaciones
Medición: proceso por el que se asignan números a las observaciones de una
variable.
Medida: observación cuantificada o categorizada.
Una misma variable puede ser medida de diversas maneras.
Medidas debe ser válidas y fiable es: Válida cuando mide lo que pretende medir,
Fiable si al repetir la medición en circunstancias similares se obtiene el mismo
resultado.
Representación de las variables: X, Y, Z… etc.
X: variable medible, x i :valor de la variable X en observación i.
Clasificación según el rol:
Variable dependiente (explicada, respuesta, predicha o pronosticada): variable que
se quiere explicar
Variable independiente (explicativa, factor, predictiva o regresora): variable que
explica la variable dependiente
Variable interviniente (de confusión): variable que no es de interés, pero también
explica la variable dependiente
3. Naturaleza de las variables:
Cualitativas (categóricas o no métricas): indican a qué grupo o categoría pertenece
un individuo (grupo sanguíneo, estado civil, etc.). Pueden ser Dicotómicas o
Politómicas.
Cuantitativas (métricas): la variable toma valores numéricos con los que tiene sentido
hacer operaciones aritméticas. Pueden ser Continuas o Discretas.
4. ESCALAS DE MEDIDA:
Escala nominal: Las categorías pueden ser nombres o números, pero los números
no indican orden ni diferencias en magnitud.
Escala ordinal: variable en categorías que se pueden ordenar. (Clase social, nivel
de estudios, etc.)
Escala de intervalo: existe escala numérica, cero se fija en función del instrumento
de medida, no significa ausencia de la característica estudiada. Temperatura
(℃, ℉, etc).
Escalas de razón (cociente o proporción): son escalas numéricas con un cero
absoluto. Peso, edad, distancia, etc.
5. TRANSFORMACION DE VARIABLES:
I. Variable Cuantitativa en Categórica: rangos de valores para formar grupos. S
II. Variable Categórica en Cuantitativa: variables ficticias, llamadas variables dummy o
indicadoras.
III. Puntuaciones típicas o Estandarizadas:
X − X̅
z =
S
X − Min
I =
Max − Min
IV. La combinación lineal de variables: La mayor parte de las técnicas multivariables
combinan las variables de alguna forma “útil “, llamada variante.
V = w 1 X 1 + w 2 X 2 + ⋯ + w k X k
V es la nueva variante o combinación lineal, y X j y w j representan las variables
originales y sus pesos o ponderaciones, respectivamente (j = 1,2, k).
6. MATRICES O BASES DE DATOS:
Datos: conjunto de valores que representan las puntuaciones de n unidades de análisis
sobre k variables.
Variables cuantitativas: puntuaciones numéricas
Variables cualitativas: códigos numéricos que representan niveles diferentes de la
variable categórica (soltero, casado, viudo, etc.).
Los datos de los n individuos en las k variables se disponen en una matriz X ij , i =
1. . . n , j = 1. . . k
Se introducen en él un computador como una BASE DE DATOS y serán procesados por
el programa SPSS u otro similar.
7. OTRAS MATRICES IMPORTANTES:
Matriz de Varianzas-Covarianzas: Matriz C que tiene como elementos en la diagonal
principal las varianzas de cada una de las variables y como elementos externos a la
diagonal, las covarianzas entre las variables.
Matriz de correlaciones R: Matriz R, que contiene los coeficientes de correlación entre
las variables analizadas en el estudio, tiene unos en la diagonal principal y los elementos
externos a la diagonal son las correlaciones entre las variables indicadas por la fila y
columna correspondiente.
Matrices de proximidad (similaridad o disimilaridad): Matriz que refleja la proximidad
(similaridad) entre dos puntos en un espacio de n dimensiones (que no se puede representar
físicamente, si n es mayor que 3). De igual forma, a medida que los sujetos son más
diferentes (disimilares) los puntos que los representan estarán más alejados.
Las matrices proximidad pueden estar formadas por diferentes índices, según el nivel
métrico de las variables y el procedimiento de recogida de datos.
8. ANALISIS EXPLORATORIO DE LOS DATOS:
Antes de aplicar una técnica multivariante, se debe estudiar la distribución de las variables.
Este estudio inicial de los datos tiene varios objetivos:
Detección de observaciones aisladas o extremas (outliers),
Tratamiento de los casos perdidos (missingdata)
Comprobación de los supuestos que han de cumplir los datos para poder aplicar la
técnica multivariable en cuestión (Linealidad, Normalidad, Homocedasticidad,
Independencia)
9. DETECCION DE CASOS AISLADOS O ATIPICOS:
Observaciones con valores extremos en una variable o en una combinación de variables.
Pueden convertirse observaciones influyentes que distorsionan los resultados y dar lugar a
resultados no generalizables.
Pueden presentarse por las siguientes razones:
Introducción incorrecta de los datos en el archivo por errores de grabación o
codificación. (se detectan con un análisis de frecuencias, se pueden corregir o
eliminarlos y tratarlos como casos perdidos).
El caso no pertenece a la población objeto de estudio de la que se ha obtenido la
muestra. (eliminar el caso).
El caso pertenece a la población, pero tiene un valor extraño en relación a los restantes
casos. (se debe decidir si el dato se detiene o se excluye del análisis).
10. DATOS AUSENTES O PERDIDOS:
Un problema muy frecuente del análisis multivariante es la presencia de datos ausentes (en
encuestas como consecuencia de la no respuesta).
Puede generar sesgo en los resultados del estudio.
Preguntas: ¿difieren estos sujetos de los que contestan a todas las preguntas? ¿Tienen estas
diferencias impacto sobre los resultados de la investigación?
Pueden existir dos razones para la presencia de datos ausentes:
Procesos sistemáticos externos a los sujetos (problemas de recogida de datos o errores
de transcripción o grabación).
Acción del sujeto que responde de dejar de hacerlo a ciertas preguntas.
11. TRATAMIENTO DE CASOS PERDIDOS:
Hay dos opciones para tratar los datos perdidos.
Eliminar los casos con datos incompletos (opción más simple-por defecto)
Usar algún procedimiento para asignar un valor al dato perdido (imputación)
Patrón de reparto de los datos perdidos:
Aleatorio: eliminar los casos puede tener como consecuencia una reducción importante
del tamaño de la muestra con lo que no sería posible realizar análisis multivariantes.
No aleatorio: eliminar los casos con datos perdidos puede introducir sesgos notables en
los resultados.
12. SUPUESTOS EN LOS MODELOS MULTIVARIADOS:
NORMALIDAD:
Supuesto fundamental del análisis multivariante, exigir que la distribución de los datos de
variables métricas sea normal. Resultados no serán válidos sino se cumple esta condición.
TECNICAS:
o Normalidad Univariante: gráficos como histograma (muestras grandes) y gráficos
de normalidad, test estadístico de normalidad
o SPSS opción explorar, para la normalidad univariante y test estadísticos basados en
el contraste Kolmogorov-Smirnov, Shapiro Wilks. Gráficos: el histograma, el
diagrama de tallo y hojas el diagrama de cajas y especialmente q-qplot , es una
linealización de la distribución normal.
o Normalidad multivariante: variables individualmente normales y sus
combinaciones también. Más difícil de contrastar, existen varios test para cuando
la técnica multivariante exige este supuesto con los residuos
HOMOCEDASTICIDAD:
Supuesto relativo básicamente a las relaciones de dependencia entre variables. Se refiere a
que las variables dependientes tengan iguales niveles de varianza a lo largo del rango del
predictor de las variables.
TÉCNICA:
Nube de puntos de residuos tipificados (ZRES) frente a observaciones tipificadas
(ZPRED). Si la varianza de los residuos fuera constante, la nube de puntos se concentra en
una banda (centrada en el cero y paralela al eje de abscisas).
Cuando la dispersión no es constante, se puede hacer una transformación en la variable que
permite estabilizar la varianza.
Con una sola variable dependiente: test de Levenee en SPSS.
LINEALIDAD DE LAS RELACIONES:
Establece que la relación entre dos o mas variables es lineal. Fundamental en las técnicas
quese basan en Modelo Lineal General (combinaciones lineales entre variables).
TÉCNICA:
Forma más frecuente es examinar los diagramas de dispersión de las parejas de variables.
INDEPENDENCIA DE VARIABLES:
El valor observado en una variable para un individuo no estéi nfluenciado por los valores
de esta variable en otros individuos. Se hace sobre los residuos (diferencia entre valor
observado y valor predicho por el modelo). No deben tener ningún patrón sistemático de
comportarse respecto a la secuencia de observación.
TÉCNICA:
Estadístico Durbin Watson, D, mide auto correlación entre el residuo de una observación
con la anterior. D cercano a 2, los residuos no tienen autocorrelación, D cercano a 4
autocorrelación negativa y D próximo a cero, autocorrelación positiva.
13. LAS TECNICAS MULTIVARIANTES:
Análisis Multivariante: conjunto de métodos estadísticos cuya finalidad es analizar
simultáneamente conjuntos de datos multivariantes en el sentido de que hay varias
variables medidas para cada individuo u objeto estudiado.
Permite mejor entendimiento del fenómeno objeto de estudio obteniendo información que
los métodos estadísticos univariantes y bivariantes son incapaces de conseguir.
Los pasos que se han de dar para realizar un análisis multivariable son:
1. Establecer los objetivos del análisis
2. Diseñar el análisis
3. Evaluar las hipótesis subyacentes a la técnica a utilizar
4. Realizar el análisis
5. Interpretar los resultados obtenidos
6. Validar dichos resultados
14. CLASIFICACION DE LAS TECNICAS DE MULTIVARIABLE:
1. Métodos de dependencia. Variables analizadas se dividen en dos grupos: las
dependientes e independientes. Objetivo: determinar si el conjunto de variables
independientes afecta al conjunto de variables dependientes y de qué forma.
2. Métodos de interdependencia. No distinguen entre variables dependientes e
independientes. Objetivo: identificar qué variables están relacionadas, cómo lo están y por
qué.
3. Métodos estructurales. Variables están divididas en dos grupos: dependientes y las
independientes. Objetivo: analizar, no sólo como las variables independientes afectan a las
variables dependientes, sino también cómo están relacionadas las variables de los dos
grupos entre sí.
15. METODOS DE DEPENDENCIA:
Si la variable dependiente es cuantitativa o métrica algunas de las técnicas que se pueden
aplicar son las siguientes:
1. Análisis de Regresión: Es la técnica adecuada si en el análisis hay una variable dependiente
métrica cuyo valor depende de una o varias variables independientes métricas. Por ejemplo,
intentar predecir el gasto anual en cine de una persona a partir de su nivel de ingresos, nivel
educativo, sexo y edad. (Regresión Lineal o no Lineal, Regresión de Poisson, Regresión de
Cox)
2. Análisis de Supervivencia: Es similar al análisis de regresión, pero con la diferencia de que
la variable dependiente es el tiempo (de supervivencia) hasta que ocurre un evento en un
individuo u objeto. Por ejemplo, intentar predecir el tiempo de desempleo de un individuo a
partir de su nivel de estudios y de su edad.
3. Análisis de la varianza: Se utilizan en situaciones en las que la muestra total está dividida
en varios grupos basados en una o varias variables independientes no métricas y las variables
dependientes analizadas son métricas. Su objetivo es averiguar si hay diferencias significativas
entre dichos grupos en cuanto a las variables dependientes se refiere. Por ejemplo, ¿hay
diferencias en el rendimiento académico por sexos? ¿depende, también, del tipo de programa?
4. Correlación Canónica: Su objetivo es relacionar simultáneamente varias variables métricas
dependientes e independientes calculando combinaciones lineales de cada conjunto de
variables que maximicen la correlación existente entre los dos conjuntos de variables.
Si la variable Dependiente es cualitativa algunas de las técnicas que se pueden aplicar son las
siguientes:
1. Análisis Discriminante:
Esta técnica proporciona reglas de clasificación óptimas de nuevas observaciones de las que
se desconoce su grupo de procedencia basándose en la información proporcionada los valores
que en ella toman las variables independientes. Por ejemplo, determinar las ratios financieras
que mejor permiten discriminar entre empresas rentables y poco rentables.
2. Modelos de regresión logística:
Son modelos de regresión en los que la variable dependiente es no métrica. Se utilizan como
una alternativa al análisis discriminante cuando no hay normalidad.
3.Análisis Conjunto:
Es una técnica que analiza el efecto de variables independientes no métricas sobre variables
métricas o no métricas. La diferencia con el Análisis de la Varianza radica en dos hechos: las
variables dependientes pueden ser no métricas y los valores de las variables independientes no
métricas son fijadas por el analista. En otras disciplinas se conoce con el nombre de Diseño de
Experimentos.
16. METODOS DE INTERDEPENDENCIA
Se pueden clasificar en dos grandes grupos según que el tipo de datos que analicen sean
métricos o no métricos. Si los datos son métricos se pueden utilizar, entre otras, las
siguientes técnicas:
Análisis Factorial y Análisis de Componentes Principales: Se utiliza para
analizar interrelaciones entre un número elevado de variables métricas explicando
dichas interrelaciones en términos de un número menor de variables denominadas
factores (si son inobservables) o componentes principales (si son observables).
Escalas Multidimensionales: Su objetivo es transformar juicios de semejanza o
preferencia en distancias representadas en un espacio multidimensional. Como
consecuencia se construye un mapa en el que se dibujan las posiciones de los
objetos comparados, de forma que aquéllos percibidos como similares están
cercanos unos de otros y alejados de objetos percibidos como distintos.
Análisis Cluster: Su objetivo es clasificar una muestra de entidades (individuos o
variables) en un número pequeño de grupos de forma que las observaciones
pertenecientes a un grupo sean muy similares entre sí y muy disimilares del resto.
A diferencia del Análisis Discriminante se desconoce el número y la composición
de dichos grupos.
17. ETAPAS DE UN ANALISIS MULTIVARIABLE:
i. Objetivos de análisis
ii. Diseño de análisis
iii. Hipótesis de análisis
iv. Realización de análisis
v. Interpretación de los resultados
vi. Validación de análisis