05.05.2023 Views

ANALISIS MULTIVARIADO

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

“UNIVERSIDAD NACIONAL SAN ANTONIO ABAD

DE CUSCO”

‘ESCUELA PROFESIONAL DE FISICA’

“INFORME”

ASIGNATURA: ESTADISTICA MATEMATICA

DOCENTE: JULIO CESAR HUAMAN

CUSIHUAMAN

NOMBRE: Juan Carlos Camani Ccollana

CODIGO: 193803

FECHA: 13/04/2023


ANALISIS MULTIVARIADO

1. Introduccion:

Las técnicas multivariantes herramienta analítica explicar el comportamiento de una

serie de datos y predecir sus posibles resultados a través de Modelos Estadísticos.

Análisis Exploratorio de los datos disponibles, antes de aplicar cualquier tipo de

análisis multivariante.

Análisis univariante, bivariante, multivariante.

Tres clases de técnicas multivariantes, teniendo en cuenta la escala de medida de las

variables que intervienen en el análisis.

2. Variables, medidas y escalas:

Las variables: características no uniformes de las unidades de información.

Unidades: entidades de las que se obtienen las observaciones

Medición: proceso por el que se asignan números a las observaciones de una

variable.

Medida: observación cuantificada o categorizada.

Una misma variable puede ser medida de diversas maneras.

Medidas debe ser válidas y fiable es: Válida cuando mide lo que pretende medir,

Fiable si al repetir la medición en circunstancias similares se obtiene el mismo

resultado.

Representación de las variables: X, Y, Z… etc.

X: variable medible, x i :valor de la variable X en observación i.

Clasificación según el rol:

Variable dependiente (explicada, respuesta, predicha o pronosticada): variable que

se quiere explicar

Variable independiente (explicativa, factor, predictiva o regresora): variable que

explica la variable dependiente

Variable interviniente (de confusión): variable que no es de interés, pero también

explica la variable dependiente

3. Naturaleza de las variables:


Cualitativas (categóricas o no métricas): indican a qué grupo o categoría pertenece

un individuo (grupo sanguíneo, estado civil, etc.). Pueden ser Dicotómicas o

Politómicas.

Cuantitativas (métricas): la variable toma valores numéricos con los que tiene sentido

hacer operaciones aritméticas. Pueden ser Continuas o Discretas.

4. ESCALAS DE MEDIDA:

Escala nominal: Las categorías pueden ser nombres o números, pero los números

no indican orden ni diferencias en magnitud.

Escala ordinal: variable en categorías que se pueden ordenar. (Clase social, nivel

de estudios, etc.)

Escala de intervalo: existe escala numérica, cero se fija en función del instrumento

de medida, no significa ausencia de la característica estudiada. Temperatura

(℃, ℉, etc).

Escalas de razón (cociente o proporción): son escalas numéricas con un cero

absoluto. Peso, edad, distancia, etc.

5. TRANSFORMACION DE VARIABLES:

I. Variable Cuantitativa en Categórica: rangos de valores para formar grupos. S

II. Variable Categórica en Cuantitativa: variables ficticias, llamadas variables dummy o

indicadoras.

III. Puntuaciones típicas o Estandarizadas:

X − X̅

z =

S

X − Min

I =

Max − Min

IV. La combinación lineal de variables: La mayor parte de las técnicas multivariables

combinan las variables de alguna forma “útil “, llamada variante.

V = w 1 X 1 + w 2 X 2 + ⋯ + w k X k

V es la nueva variante o combinación lineal, y X j y w j representan las variables

originales y sus pesos o ponderaciones, respectivamente (j = 1,2, k).

6. MATRICES O BASES DE DATOS:


Datos: conjunto de valores que representan las puntuaciones de n unidades de análisis

sobre k variables.

Variables cuantitativas: puntuaciones numéricas

Variables cualitativas: códigos numéricos que representan niveles diferentes de la

variable categórica (soltero, casado, viudo, etc.).

Los datos de los n individuos en las k variables se disponen en una matriz X ij , i =

1. . . n , j = 1. . . k

Se introducen en él un computador como una BASE DE DATOS y serán procesados por

el programa SPSS u otro similar.

7. OTRAS MATRICES IMPORTANTES:

Matriz de Varianzas-Covarianzas: Matriz C que tiene como elementos en la diagonal

principal las varianzas de cada una de las variables y como elementos externos a la

diagonal, las covarianzas entre las variables.

Matriz de correlaciones R: Matriz R, que contiene los coeficientes de correlación entre

las variables analizadas en el estudio, tiene unos en la diagonal principal y los elementos

externos a la diagonal son las correlaciones entre las variables indicadas por la fila y

columna correspondiente.

Matrices de proximidad (similaridad o disimilaridad): Matriz que refleja la proximidad

(similaridad) entre dos puntos en un espacio de n dimensiones (que no se puede representar

físicamente, si n es mayor que 3). De igual forma, a medida que los sujetos son más

diferentes (disimilares) los puntos que los representan estarán más alejados.


Las matrices proximidad pueden estar formadas por diferentes índices, según el nivel

métrico de las variables y el procedimiento de recogida de datos.

8. ANALISIS EXPLORATORIO DE LOS DATOS:

Antes de aplicar una técnica multivariante, se debe estudiar la distribución de las variables.

Este estudio inicial de los datos tiene varios objetivos:

Detección de observaciones aisladas o extremas (outliers),

Tratamiento de los casos perdidos (missingdata)

Comprobación de los supuestos que han de cumplir los datos para poder aplicar la

técnica multivariable en cuestión (Linealidad, Normalidad, Homocedasticidad,

Independencia)

9. DETECCION DE CASOS AISLADOS O ATIPICOS:

Observaciones con valores extremos en una variable o en una combinación de variables.

Pueden convertirse observaciones influyentes que distorsionan los resultados y dar lugar a

resultados no generalizables.

Pueden presentarse por las siguientes razones:

Introducción incorrecta de los datos en el archivo por errores de grabación o

codificación. (se detectan con un análisis de frecuencias, se pueden corregir o

eliminarlos y tratarlos como casos perdidos).

El caso no pertenece a la población objeto de estudio de la que se ha obtenido la

muestra. (eliminar el caso).

El caso pertenece a la población, pero tiene un valor extraño en relación a los restantes

casos. (se debe decidir si el dato se detiene o se excluye del análisis).

10. DATOS AUSENTES O PERDIDOS:

Un problema muy frecuente del análisis multivariante es la presencia de datos ausentes (en

encuestas como consecuencia de la no respuesta).

Puede generar sesgo en los resultados del estudio.

Preguntas: ¿difieren estos sujetos de los que contestan a todas las preguntas? ¿Tienen estas

diferencias impacto sobre los resultados de la investigación?

Pueden existir dos razones para la presencia de datos ausentes:

Procesos sistemáticos externos a los sujetos (problemas de recogida de datos o errores

de transcripción o grabación).


Acción del sujeto que responde de dejar de hacerlo a ciertas preguntas.

11. TRATAMIENTO DE CASOS PERDIDOS:

Hay dos opciones para tratar los datos perdidos.

Eliminar los casos con datos incompletos (opción más simple-por defecto)

Usar algún procedimiento para asignar un valor al dato perdido (imputación)

Patrón de reparto de los datos perdidos:

Aleatorio: eliminar los casos puede tener como consecuencia una reducción importante

del tamaño de la muestra con lo que no sería posible realizar análisis multivariantes.

No aleatorio: eliminar los casos con datos perdidos puede introducir sesgos notables en

los resultados.

12. SUPUESTOS EN LOS MODELOS MULTIVARIADOS:

NORMALIDAD:

Supuesto fundamental del análisis multivariante, exigir que la distribución de los datos de

variables métricas sea normal. Resultados no serán válidos sino se cumple esta condición.

TECNICAS:

o Normalidad Univariante: gráficos como histograma (muestras grandes) y gráficos

de normalidad, test estadístico de normalidad

o SPSS opción explorar, para la normalidad univariante y test estadísticos basados en

el contraste Kolmogorov-Smirnov, Shapiro Wilks. Gráficos: el histograma, el

diagrama de tallo y hojas el diagrama de cajas y especialmente q-qplot , es una

linealización de la distribución normal.

o Normalidad multivariante: variables individualmente normales y sus

combinaciones también. Más difícil de contrastar, existen varios test para cuando

la técnica multivariante exige este supuesto con los residuos

HOMOCEDASTICIDAD:

Supuesto relativo básicamente a las relaciones de dependencia entre variables. Se refiere a

que las variables dependientes tengan iguales niveles de varianza a lo largo del rango del

predictor de las variables.


TÉCNICA:

Nube de puntos de residuos tipificados (ZRES) frente a observaciones tipificadas

(ZPRED). Si la varianza de los residuos fuera constante, la nube de puntos se concentra en

una banda (centrada en el cero y paralela al eje de abscisas).

Cuando la dispersión no es constante, se puede hacer una transformación en la variable que

permite estabilizar la varianza.

Con una sola variable dependiente: test de Levenee en SPSS.

LINEALIDAD DE LAS RELACIONES:

Establece que la relación entre dos o mas variables es lineal. Fundamental en las técnicas

quese basan en Modelo Lineal General (combinaciones lineales entre variables).

TÉCNICA:

Forma más frecuente es examinar los diagramas de dispersión de las parejas de variables.

INDEPENDENCIA DE VARIABLES:

El valor observado en una variable para un individuo no estéi nfluenciado por los valores

de esta variable en otros individuos. Se hace sobre los residuos (diferencia entre valor

observado y valor predicho por el modelo). No deben tener ningún patrón sistemático de

comportarse respecto a la secuencia de observación.

TÉCNICA:

Estadístico Durbin Watson, D, mide auto correlación entre el residuo de una observación

con la anterior. D cercano a 2, los residuos no tienen autocorrelación, D cercano a 4

autocorrelación negativa y D próximo a cero, autocorrelación positiva.

13. LAS TECNICAS MULTIVARIANTES:

Análisis Multivariante: conjunto de métodos estadísticos cuya finalidad es analizar

simultáneamente conjuntos de datos multivariantes en el sentido de que hay varias

variables medidas para cada individuo u objeto estudiado.

Permite mejor entendimiento del fenómeno objeto de estudio obteniendo información que

los métodos estadísticos univariantes y bivariantes son incapaces de conseguir.

Los pasos que se han de dar para realizar un análisis multivariable son:

1. Establecer los objetivos del análisis

2. Diseñar el análisis

3. Evaluar las hipótesis subyacentes a la técnica a utilizar


4. Realizar el análisis

5. Interpretar los resultados obtenidos

6. Validar dichos resultados

14. CLASIFICACION DE LAS TECNICAS DE MULTIVARIABLE:

1. Métodos de dependencia. Variables analizadas se dividen en dos grupos: las

dependientes e independientes. Objetivo: determinar si el conjunto de variables

independientes afecta al conjunto de variables dependientes y de qué forma.

2. Métodos de interdependencia. No distinguen entre variables dependientes e

independientes. Objetivo: identificar qué variables están relacionadas, cómo lo están y por

qué.


3. Métodos estructurales. Variables están divididas en dos grupos: dependientes y las

independientes. Objetivo: analizar, no sólo como las variables independientes afectan a las

variables dependientes, sino también cómo están relacionadas las variables de los dos

grupos entre sí.

15. METODOS DE DEPENDENCIA:

Si la variable dependiente es cuantitativa o métrica algunas de las técnicas que se pueden

aplicar son las siguientes:

1. Análisis de Regresión: Es la técnica adecuada si en el análisis hay una variable dependiente

métrica cuyo valor depende de una o varias variables independientes métricas. Por ejemplo,

intentar predecir el gasto anual en cine de una persona a partir de su nivel de ingresos, nivel

educativo, sexo y edad. (Regresión Lineal o no Lineal, Regresión de Poisson, Regresión de

Cox)

2. Análisis de Supervivencia: Es similar al análisis de regresión, pero con la diferencia de que

la variable dependiente es el tiempo (de supervivencia) hasta que ocurre un evento en un

individuo u objeto. Por ejemplo, intentar predecir el tiempo de desempleo de un individuo a

partir de su nivel de estudios y de su edad.

3. Análisis de la varianza: Se utilizan en situaciones en las que la muestra total está dividida

en varios grupos basados en una o varias variables independientes no métricas y las variables


dependientes analizadas son métricas. Su objetivo es averiguar si hay diferencias significativas

entre dichos grupos en cuanto a las variables dependientes se refiere. Por ejemplo, ¿hay

diferencias en el rendimiento académico por sexos? ¿depende, también, del tipo de programa?

4. Correlación Canónica: Su objetivo es relacionar simultáneamente varias variables métricas

dependientes e independientes calculando combinaciones lineales de cada conjunto de

variables que maximicen la correlación existente entre los dos conjuntos de variables.

Si la variable Dependiente es cualitativa algunas de las técnicas que se pueden aplicar son las

siguientes:

1. Análisis Discriminante:

Esta técnica proporciona reglas de clasificación óptimas de nuevas observaciones de las que

se desconoce su grupo de procedencia basándose en la información proporcionada los valores

que en ella toman las variables independientes. Por ejemplo, determinar las ratios financieras

que mejor permiten discriminar entre empresas rentables y poco rentables.

2. Modelos de regresión logística:

Son modelos de regresión en los que la variable dependiente es no métrica. Se utilizan como

una alternativa al análisis discriminante cuando no hay normalidad.

3.Análisis Conjunto:

Es una técnica que analiza el efecto de variables independientes no métricas sobre variables

métricas o no métricas. La diferencia con el Análisis de la Varianza radica en dos hechos: las

variables dependientes pueden ser no métricas y los valores de las variables independientes no

métricas son fijadas por el analista. En otras disciplinas se conoce con el nombre de Diseño de

Experimentos.

16. METODOS DE INTERDEPENDENCIA

Se pueden clasificar en dos grandes grupos según que el tipo de datos que analicen sean

métricos o no métricos. Si los datos son métricos se pueden utilizar, entre otras, las

siguientes técnicas:

Análisis Factorial y Análisis de Componentes Principales: Se utiliza para

analizar interrelaciones entre un número elevado de variables métricas explicando


dichas interrelaciones en términos de un número menor de variables denominadas

factores (si son inobservables) o componentes principales (si son observables).

Escalas Multidimensionales: Su objetivo es transformar juicios de semejanza o

preferencia en distancias representadas en un espacio multidimensional. Como

consecuencia se construye un mapa en el que se dibujan las posiciones de los

objetos comparados, de forma que aquéllos percibidos como similares están

cercanos unos de otros y alejados de objetos percibidos como distintos.

Análisis Cluster: Su objetivo es clasificar una muestra de entidades (individuos o

variables) en un número pequeño de grupos de forma que las observaciones

pertenecientes a un grupo sean muy similares entre sí y muy disimilares del resto.

A diferencia del Análisis Discriminante se desconoce el número y la composición

de dichos grupos.

17. ETAPAS DE UN ANALISIS MULTIVARIABLE:

i. Objetivos de análisis

ii. Diseño de análisis

iii. Hipótesis de análisis

iv. Realización de análisis

v. Interpretación de los resultados

vi. Validación de análisis

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!