30.01.2015 Views

µ - Métodos de Investigación Interdisciplinaria

µ - Métodos de Investigación Interdisciplinaria

µ - Métodos de Investigación Interdisciplinaria

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

SEMINARIO MÉTODOS INTERDISCIPLINARIOS<br />

DOCTORADO INTER-INSTITUCIONAL EN<br />

CIENCIAS AMBIENTALES<br />

Coordinadores:<br />

Carlos E. López, UTP<br />

Elkin Salcedo, Univalle<br />

Silvio Carvajal, Unicauca<br />

2011<br />

1


METODOS DE INVESTIGACION CUANTITATIVA<br />

CONTINUACIÓN PARTE III<br />

PRUEBA DE HIPÓTESIS O ESTUDIOS<br />

COMPARATIVOS<br />

SILVIO M. CARVAJAL V.<br />

PROFESOR<br />

UNIVERSIDAD DEL CAUCA<br />

FACULTAD DE CIENCIAS NATURALES, EXACTAS Y DE LA EDUCACIÓN<br />

GRUPO DE INVESTIGACIÓN EN TOXICOLOGÍA GENÉTICA Y<br />

CITOGENÉTICA<br />

2011 2


EXPERIMENTOS CON TRES Y MÁS MUESTRAS<br />

(Aplicación <strong>de</strong>l ANÁLISIS DE VARIANZA )<br />

1. DISEÑO COMPLETAMENTE ALEATORIO:<br />

•Problema monofactorial<br />

•Problema factorial.<br />

2. DISEÑO CON AGRUPAMIENTO:<br />

•Bloques<br />

•Cuadrado Latino<br />

3


5. DISEÑO CON TRES O MÁS TRATAMIENTOS (Tres o más Muestras): (Análisis<br />

bivariante)<br />

El factor o variable cualitativa tiene tres ó más niveles o categorías<br />

¿Cuál <strong>de</strong> las concentraciones <strong>de</strong> una droga (Alta, media,<br />

baja, sin) inducen daños en el material genético <strong>de</strong> los<br />

linfocitos cultivados in vitro.<br />

FACTOR: Concentraciones <strong>de</strong> una droga.<br />

NIVELES DEL FACTOR O TRTAMIENTOS: - Alta<br />

- Media<br />

- Baja<br />

- Sin droga (Solvente puro = Control)<br />

VARIABLEDEPENDIENTE: Daños<br />

en los cromosomas (QUIEBRES).<br />

4


DISEÑO DEL EXPERIMENTO:<br />

HIPÓTESIS DE TRABAJO: La droga, por ser un xenobiote, pue<strong>de</strong> inducir daños en<br />

el matrerial gnético, en forma dpendiente <strong>de</strong> su concentración.<br />

HIPÓTESIS ESTADÍSTICAS:<br />

H0: <strong>µ</strong> Sin = <strong>µ</strong> Baja = <strong>µ</strong> Media = <strong>µ</strong> Alta<br />

H1: Al menos un <strong>µ</strong> es diferente<br />

TRATAMIENTOS: Concentración <strong>de</strong> la droga<br />

- Alta<br />

- Media<br />

- Baja<br />

- Sin droga (Solvente puro = Control)<br />

TAMAÑO DE MUESTRA (Repeticiones):<br />

5


EXPERIMENTO: Diseño completamente aleatorio<br />

U.E<br />

Muy Homogéneas<br />

DATO: Número <strong>de</strong> alteraciones cromosómicas en 100 células por persona. (AC/100 cel.)<br />

ANÁLISIS ESTADÍSTICO:<br />

• Descriptivo:<br />

• Inferencial: - Estimación <strong>de</strong>l No.promedio <strong>de</strong> AC/100 cel. en cada población mediante<br />

el IC <strong>de</strong>l 95%<br />

- Comparativo: ANÁLISIS DE VARIANZA MONOFACTORIAL (Prueba Paramétrica) o<br />

mediante Kruskal-Wallis (No Paramétrica).<br />

6


BASE DE DATOS: No. <strong>de</strong> AC, correspondientes a cuatro muestras in<strong>de</strong>pendientes<br />

7


5.1. PRINCIPIO TEÓRICO DEL ANOVA Las técnicas iniciales <strong>de</strong>l analisis <strong>de</strong> varianza<br />

fueron <strong>de</strong>sarrolladas por el estadístico y genetista R. A. Fisher en los años 1920 y 1930 y es algunas veces conocido como Anova<br />

<strong>de</strong> Fisher o analisis <strong>de</strong> varianza <strong>de</strong> Fisher, <strong>de</strong>bido al uso <strong>de</strong> la distribución F <strong>de</strong> Fisher como parte <strong>de</strong>l contraste <strong>de</strong> hipótesis.<br />

Cuando en un experimento intervienen tres o más muestras, el análisis mediante<br />

prueba t <strong>de</strong> “Stu<strong>de</strong>nt” incrementa la probabilidad <strong>de</strong> error tipo I.<br />

Ej. Con tres muestras (3 Ttos), tres comparaciones .<br />

La probabilidad Total <strong>de</strong> error es:<br />

P = 1 – (0,95) C = 1 – (0,95) 3 = 0,143<br />

C = Número <strong>de</strong> comparaciones<br />

¡LA PROBABILIDD DE ERROR<br />

ES 14,3% !<br />

El análisis <strong>de</strong>be hacerse mediante<br />

Análisis <strong>de</strong> varianza, complementada con<br />

una prueba <strong>de</strong> comparaciones múltiples<br />

8


PRINCIPIO TREÓRICO DELANOVA<br />

En todo conjunto <strong>de</strong> datos, correspondiente a dos o más muestras, hay dos<br />

fuentes <strong>de</strong> Variabilidad<br />

9


Si las muestras provienen <strong>de</strong> la MISMA POBLACIÓN, entonces la variabilidad<br />

ENTRE no es más que una consecuencia <strong>de</strong> la variabilidad DENTRO<br />

MUESTRAS REPRESENTATIVAS DE<br />

LA MISMA POBLACIÓN<br />

Por lo tanto:<br />

VAR. ENTRE = VAR. DENTRO<br />

Se acepta la H0: <strong>µ</strong> Sin = <strong>µ</strong> Baja = <strong>µ</strong> Media = <strong>µ</strong> Alta<br />

Se concluye que no hay diferencia significativa entre los promedios. 10


Si las muestras proviene <strong>de</strong> POBLACIONES DIFERENTES (Diferentes tratamientos),<br />

entonces la variabilidad “ENTRE“ es una consecuencia <strong>de</strong> la variabilidad “DENTRO”<br />

MÁS EL EFECTO DE TRATAMIENTOS.<br />

DIFERENTES TRATAMIENTOS<br />

MUETRAS PERTENECIENTES A<br />

POBLACIONES DIFRENTES<br />

Por lo tanto:<br />

Var. ENTRE = Var. DENTRO + EFECTO DE<br />

TRATAMIENTO<br />

Se rechaza la H0: <strong>µ</strong> Sin = <strong>µ</strong> Baja = <strong>µ</strong> Media = <strong>µ</strong> Alta<br />

Se concluye que: Al menos un <strong>µ</strong> es diferente (H1)<br />

11


¿Cómo medir la variabilidad <strong>de</strong> una serie <strong>de</strong> datos (xi).<br />

VARIANZA (S 2 ): Desviación cuadrática promedio, <strong>de</strong> los datos <strong>de</strong> una muestra,<br />

respecto <strong>de</strong> su media aritmética..<br />

Ej. Serie <strong>de</strong> datos:<br />

Tamaño <strong>de</strong> muestra:<br />

Media aritmética:<br />

PROMEDIAR LASDIFRENCIAS AL CUADRADO:<br />

SIMBÓLICAMENTE:<br />

12


TABLA DE ANOVA<br />

Fuente <strong>de</strong><br />

Variación<br />

FACTOR A<br />

(Entre Con.)<br />

ERROR<br />

(Dentro)<br />

TOTAL<br />

Suma <strong>de</strong><br />

Cuadrados<br />

120,844<br />

50,875<br />

171,719<br />

gl<br />

3<br />

28<br />

31<br />

Cuadrado<br />

Medio<br />

(Varianza)<br />

40,281<br />

1,817<br />

F<br />

Sig.<br />

22,170 0,000<br />

SE RECHAZA LA H 0 : Se concluye que al menos un promedio es diferente.<br />

¿Qué promedios son diferentes: PRUEBA DE COMPARACIONES MÚLTIPLES<br />

DE Tukey (Para Varianzas homogéneas).<br />

CONCLUSIÓN:<br />

A las concentraciones Media y Alta, que no<br />

difieren significativamente entre si (p>0,05),<br />

les correspon<strong>de</strong> los mayores promedios <strong>de</strong><br />

daño cromosómico. Alta y Media difieren<br />

significativamente (p < 0,05)<strong>de</strong> Baja y Control<br />

con los menores promedios <strong>de</strong> AC/100 cel.<br />

14


PRUEBA NO PARAMÉTRICA DE KRUSKAL - WALLIS<br />

SE RECHAZA LA H 0 : Se concluye que al menos un promedio es diferente.<br />

En este caso, las comparaciones por parejas se pue<strong>de</strong> hacer con la prueba U <strong>de</strong><br />

Mann-Whitney<br />

15


REQUISITOS PARA APLICAR LA PRUEBA T Y EL ANOVA:<br />

1 Ajuste a la Distribución Normal, en especial si la muestra es pequeña (n


PROBLEMA FACTORIAL O MULTIFACTORIAL<br />

(ANÁLSIS MULTIVARIANTE)<br />

17


5.2. PROBLEMA FACTORIAL O MULTIFACTORIAL (ANÁLISIS<br />

MULTIVARIANTE)<br />

DOS O MÁS FACTORES o Variables cualitativas in<strong>de</strong>pendientes.<br />

TRATAMIENTOS: Resultan <strong>de</strong> combinar los niveles <strong>de</strong> los factores.<br />

SU PRINCIPAL APLICACIÓN ES IDENTIFICAR INTERACCIÓN<br />

ENTRE FACTORES<br />

PROBLEMA CON DISEÑO COMPLETAMENTE ALEATORIO<br />

¿ Cuál <strong>de</strong> dos drogas (A, B) y por qué vía (Boca , intramuscular) es mejor para<br />

controlar la concentración <strong>de</strong> colesterol (mg) en la sangre <strong>de</strong> los ratones.<br />

EFECTOS PRINCIPALES: Drogas (A, B)<br />

Vía (Boca, Intramuscular)<br />

TRATAMIENTOS: A-Boca, A-Intramuscular , B-Boca, B-Intramuscular.<br />

18


EXPERIMENTO, Con diseño completamente Aleatorio.<br />

TRATAMIENTOS:<br />

A-Boca A-Intramuscular B-Boca B-Intramuscular.<br />

ALEATORIZACIÓN<br />

La concentración <strong>de</strong>l<br />

colesterol (mg) en la sangre,<br />

se cuantifica ANTES y<br />

DESPUÉS <strong>de</strong> aplicar el Tto.<br />

20 RATONES<br />

DATO: Diferencia [A] – [D]<br />

U.E. Cada ratón<br />

4 MUESTRAS: n A-Boc = n A-Int = n B-Boc = n B-Int = 5<br />

19


BASE DE DATOS<br />

HIPÓTESIS:<br />

Efectos Principales: DROGA: H 0 : <strong>µ</strong> A = <strong>µ</strong> B<br />

VENENO: H 0 : <strong>µ</strong> IN = <strong>µ</strong> BO<br />

H 1 : <strong>µ</strong> A ≠ <strong>µ</strong> B<br />

H 1 : <strong>µ</strong> IN ≠ <strong>µ</strong> BO<br />

Interacción: H 0 : No hay interacción. H 1 : Si hay interacción.<br />

Tratamientos H 0 : <strong>µ</strong> A-IN = <strong>µ</strong> A-BO = <strong>µ</strong> B-IN = <strong>µ</strong> B-BO<br />

20<br />

H 1 : Al menos un <strong>µ</strong> es diferente


TIPO DE DROGA<br />

A 8,53<br />

20,53<br />

12,53<br />

14,00<br />

10,80<br />

∑ X :66,39<br />

∑ X2 : 963,8825<br />

VÍA DE ENTRADA<br />

INTRAMUSCULAR BOCA<br />

17,53<br />

21,07<br />

20,80<br />

17,33<br />

20,07<br />

∑ X :96,8<br />

∑ X2 :1887,0195<br />

TOTALES<br />

∑ X : 163,19<br />

B 39,14<br />

26,20<br />

31,33<br />

45,80<br />

40,20<br />

∑ X :182,67<br />

∑ X2 :6913,6285<br />

32,00<br />

23,80<br />

28,87<br />

25,06<br />

29,33<br />

∑ X :139,06<br />

∑ X2 :3912,1695<br />

∑ X : 321,73<br />

TOTALES ∑ X : 249,06 ∑ X : 235,86 Gran Total<br />

∑ X : 484,92<br />

∑ X2 : 13676,7<br />

21


FUENTE<br />

VARIACIÓN<br />

SUMA DE<br />

CUADRADOS<br />

gl<br />

CUADRADO<br />

MEDIO<br />

F<br />

Sig.<br />

ENTRE:<br />

Tratamientos<br />

Drogas<br />

Entradas<br />

Droga x Entrada<br />

DENTRO:<br />

Error<br />

1539,407<br />

1256,747<br />

8,712<br />

273,948<br />

379,923<br />

3<br />

1<br />

1<br />

1<br />

16<br />

513,136<br />

1256,747<br />

8,712<br />

273,948<br />

23,745<br />

21,610<br />

52,926<br />

0,367<br />

11,537<br />

0,000<br />

0,000<br />

0,553<br />

0,004<br />

TOTAL<br />

1919,33<br />

19<br />

El ANOVA es significativo (p < 0,05), para las DROGAS y para LA INTERACCIÓN.<br />

Se concluye que hay diferencia significativa entre las drogas, pero DEPENDIENDO <strong>de</strong><br />

la VIA DE ENTRADA.<br />

La interacción “DROGA x VÍA DE ENTRADA” fue significativa. Se concluye que la<br />

influencia <strong>de</strong> la DROGA es DEPENDIENTE <strong>de</strong>l factor Vía. Se <strong>de</strong>ben analizar los<br />

Tratamientos. 22


INTERACCIÓN<br />

Cuando HAY INTERACCIÓN entre dos factores, el efecto <strong>de</strong><br />

uno <strong>de</strong> los factores sobre la variable <strong>de</strong>pendiente, se halla<br />

influenciado por el otro factor.<br />

Cuando la interacción es significativa, no<br />

se justifica analizar a cada Factor por<br />

separado. Se <strong>de</strong>ben analizar los Ttos.<br />

(Combinación <strong>de</strong> niveles), mediante<br />

prueba <strong>de</strong> comparaciones múltiples.<br />

CONCLUSIÓN: El mejor tratamiento es cuando la droga B se<br />

administra por vía INTRAMUSCULAR. Se obtiene la mayor<br />

diferencia en la reducción <strong>de</strong>l colesterol 23


La gráfica muestra la NO INTERACCIÓN entre los dos factores.<br />

En este caso, se concluiría que la droga B es mejor, sin importar<br />

la vía <strong>de</strong> entrada.<br />

24


5.3 DISEÑO CON AGRUPAMIENTO.<br />

5.3.1 DISEÑO DE BLOQUES COMPLETOS ALEATORIZADOS<br />

(DBCA):<br />

El DBCA, permite i<strong>de</strong>ntificar y aislar una variable que surge<br />

en el momento <strong>de</strong> realizar el experimento y que no permite<br />

hacer unida<strong>de</strong>s experimentales homogeneas.<br />

FACTOR DE BLOQUEO: Es la variable cualitativa o categórica que impi<strong>de</strong> hacer UE<br />

homogeneas.<br />

BLOQUE: Grupo <strong>de</strong> UE homogéneas. Cada bloque se constituye en una repetición <strong>de</strong>l<br />

Experimento.<br />

25


PROBLEMA. ¿Con cuál <strong>de</strong> los siguientes abonos: A, B, C, D; se logra<br />

una mejor producción <strong>de</strong> las plantas <strong>de</strong> tomate <strong>de</strong> una <strong>de</strong>terminada<br />

variedad. Indicador <strong>de</strong> producción: Peso en Kg <strong>de</strong> los tomates <strong>de</strong> cada<br />

parcela.<br />

El experimento se hará en el campo en un terreno en PENDIENTE.<br />

OBJETIVO. I<strong>de</strong>ntificar los mejores abonos para la producción <strong>de</strong> tomates.<br />

BLOQUES COMPLETOS ALEATORIZADOS:<br />

La PENDIENTE es un factor restrictivo que impi<strong>de</strong><br />

formar UE (Parcelas) homogéneas.<br />

Por lo tanto, la forma a<strong>de</strong>cuada para i<strong>de</strong>ntificar y<br />

aislar la VARIABILIDAD QUE SE PUEDA<br />

ORIGINAR EN EL FACTOR PENDIENTE DEL<br />

TERRENO, es mediante un DISEÑO DE<br />

BLOQUES COMPLETOS ALEATORIZADOS.<br />

VENTAJAS:<br />

Reduce el error y por lo tanto la prueba<br />

adquiere mayor potencia.<br />

Permite i<strong>de</strong>ntificar y aislar una variable que<br />

impi<strong>de</strong> hacer UE homogéneas.<br />

Menos UE para realizar un experimento.<br />

26


EFECTOS PRINCIPALES:<br />

Tipo <strong>de</strong> abono (A, B, C)<br />

Pendiente (Alto, medios, bajo). Variable <strong>de</strong> bloqueo.<br />

HIPÓTESIS:<br />

Para Abonos (Efecto principal)<br />

H 0 : <strong>µ</strong> A = <strong>µ</strong> B = <strong>µ</strong> C = <strong>µ</strong> D H 1 : Al menos un <strong>µ</strong> es diferente<br />

Para Pendiente (Efecto <strong>de</strong> bloqueo)<br />

H 0 : <strong>µ</strong> Alta = <strong>µ</strong> Medios = <strong>µ</strong> Baja H 1 : Al menos un <strong>µ</strong> es diferente<br />

27


Kg <strong>de</strong> tomate/parcela.<br />

BLOQUES<br />

ABONOS<br />

A B C D<br />

1 89 60 100 60<br />

2 85 62 120 62<br />

Un DATO por<br />

UE; no es<br />

posible evaluar<br />

INTERACCIÓN<br />

.<br />

3 82 64 110 89<br />

4 75 40 80 85<br />

5 65 35 75 75<br />

En este caso solo se ha registrado un dato por UE y por lo<br />

tanto NO se pue<strong>de</strong> evaluar INTERACCIÓN.<br />

ANÁLISIS DE VARIANZA PARA BLOQUES<br />

28


La prueba solo es significativa para ABONOS. Se rechaza la H 0 para abonos, y se<br />

concluye que al menos la producción <strong>de</strong> un ABONO difiere <strong>de</strong> otro u otros.<br />

La prueba <strong>de</strong> COMPARACIONES MÚLTIPLES (Tukey), indica que los abonos D, A y C<br />

no difieren entre si. El abono B difiere <strong>de</strong> A y C, y es el <strong>de</strong> menor producción.<br />

29


5.3.2 DISEÑO CUADRADO LATINO (DCL):<br />

El DCL, permite i<strong>de</strong>ntificar y aislar dos variable que surgen<br />

en el momento <strong>de</strong> realizar el experimento y que no permiten<br />

hacer unida<strong>de</strong>s experimentales homogeneas. Es una<br />

generalizacion <strong>de</strong>l DBCA.<br />

C<br />

A<br />

D<br />

B<br />

B<br />

A<br />

D<br />

A<br />

D<br />

C<br />

C<br />

PENDIENTE:<br />

Filas<br />

B<br />

Si por parcela (UE), se<br />

registran dos o más<br />

datos se pue<strong>de</strong> analizar<br />

como un experiemnto<br />

factorial (La filas y<br />

columnas serian dos<br />

nuevos factores).<br />

B<br />

C<br />

D<br />

A<br />

RIO: Gradiente <strong>de</strong> humedad: COLUMNAS<br />

30


Kg <strong>de</strong> tomate/parcela.<br />

FILAS<br />

COLUMNAS<br />

1 C = 10,5 A = 13,2 B = 12,0 D = 7,7<br />

2 D = 7,5 B = 11,1 A = 12,0 C = 10,3<br />

3 A = 11,2 D = 5,8 C = 12,2 B = 13,7<br />

4 B = 12,3 C = 10,2 D = 5,9 A = 11,6<br />

31


Fuente <strong>de</strong><br />

Variación<br />

ANOVA (Cuadrado Latino)<br />

Suma <strong>de</strong><br />

Cuadrados<br />

gl<br />

Cuadrado<br />

Medio<br />

(Varianza)<br />

ABONOS 78,925 3 26,308 18,9 < 0,005<br />

PENDIENTE 1,170 3 0,390 0,28 > 0,1<br />

(Filas)<br />

HUMEDAD 1,955 3 0,652 0,47 > 0,1<br />

(Columnas)<br />

ERROR 8,35 6 1,39<br />

TOTAL 90,400 15<br />

F<br />

Sig.<br />

Hay diferencia<br />

significativa entre<br />

abonos.<br />

Se <strong>de</strong>be i<strong>de</strong>ntificar<br />

el mejor mediante<br />

prueba <strong>de</strong><br />

Comparaciones<br />

Múltiples.<br />

32


METODOS DE INVESTIGACION CUANTITATIVA<br />

PARTE IV<br />

ANÁLISIS DE VARIABLES CUANTITATIVA,<br />

CUALITATIVAS Y ANÁLISIS MULTIVARIADO<br />

SILVIO M. CARVAJAL V.<br />

PROFESOR<br />

UNIVERSIDAD DEL CAUCA<br />

FACULTAD DE CIENCIAS NATURALES EXACTAS Y DE LA EDUCACIÓN<br />

GRUPO DE INVESTIGACIÓN EN TOXICOLOGÍA GENÉTICA Y<br />

CITOGENÉTICA<br />

2011<br />

33


6. ANALISIS DE VARIABLES CUANTITAVAS.<br />

6.1 Análisis <strong>de</strong> Correlación<br />

6.2 Análisis <strong>de</strong> Regresión simple.<br />

6.3 Análisis Regresión Lineal múltiple.<br />

6.4 Análisis <strong>de</strong> Covarianza.<br />

7. ANALISIS DE VARIABLES CUALITATIVAS.<br />

7.1 Pruebas <strong>de</strong> asociación entre dos variables cualitativas: Prueba <strong>de</strong> Chi<br />

Cuadrado y test exacto <strong>de</strong> Fisher.<br />

7.2 Regresión Logística Binaria.<br />

8. ANÁLISIS MEDIANTE PRUEBAS MULTIVARIANTES (Descriptivas).<br />

Análisis <strong>de</strong> Componentes Principales.<br />

Análisis <strong>de</strong> Cluster o Árbol.<br />

34


6. ANALISIS DE VARIABLES<br />

CUANTITATIVAS<br />

CORRELACIÓN Y REGRESIÓN SIMPLE<br />

(ANÁLSIS BIVARIANTE)<br />

35


ANÁLISIS DE VARIABLES CUANTITATIVAS<br />

6.1 CORRELACIÓN SIMPLE. Grado (o fuerza) <strong>de</strong> asociación<br />

estadística entre dos variables cuantitativas, sin importar<br />

cual es la causa y cual es el efecto.<br />

Se trata <strong>de</strong> respon<strong>de</strong>r la pregunta: ¿La variabilidad<br />

observada en una <strong>de</strong> las variables se asocia con la<br />

variabilidad <strong>de</strong> la otra variable.<br />

Para este análisis es requisito que las dos variables se<br />

ajusten a la distribución normal.<br />

Ejemplos: BIVARIANTE: EXISTE ASOCIACIÓN O DEPENDENCIA ENTRE: ¿Estatura<br />

(cm) y peso (Kg). ¿Temperatura <strong>de</strong>l agua (°C) y concentración <strong>de</strong> oxígeno (ppm).<br />

¿Estatura (cm) y coeficiente intelectual (IQ). ¿Peso <strong>de</strong> las personas (Kg) y distancia<br />

<strong>de</strong> salto (m).<br />

MULTIVARIANTE: ¿Es la concentración <strong>de</strong> colesterol en la sangre (mg/dL)<br />

<strong>de</strong>pendiente <strong>de</strong> la estatura (cm), <strong>de</strong>l peso (Kg), y <strong>de</strong> la edad (Años).<br />

¿Es la concentración <strong>de</strong> proteínas (%)en las hojas <strong>de</strong> una variedad <strong>de</strong> planta<br />

<strong>de</strong>pendiente <strong>de</strong> la altura <strong>de</strong> la planta (m), edad <strong>de</strong> la planta (años), y<br />

concentración <strong>de</strong> Nitrógeno en el suelo (ppm).<br />

36


CORRELACIÓN SIMPLE.<br />

Observando la asociación: Diagrama <strong>de</strong> Dispersión.<br />

Asociación lineal positiva Asociación lineal negativa No asociación<br />

Asociación no lineal o curva<br />

37


CORRELACIÓN LINEAL SIMPLE. ¿EXISTE ASOCIACIÓN LINEAL ENTRE: Estatura (cm) y peso<br />

(kg) <strong>de</strong> las personas.<br />

CUANTIFICANDO LA CORRELACIÓN LINEAL:<br />

Covariación “peso - estatura” <strong>de</strong> la persona A:<br />

cm-Kg<br />

Covariación promedio <strong>de</strong> n personas: COVARIANZA =<br />

COVARIANZA ESTANDARIZADA<br />

O COEFICIENTE DE CORRELACIÓN: r<br />

r =<br />

38


COEFICIENTE DE DETERMINACION: R 2<br />

¿LA VARIABILIDAD OBSERVADA EN UNA DE LAS VARIABLES (Y) EN<br />

QUE PORCENTAGE DEPENDE DE LA VARIABILIDAD DE LA OTRA<br />

VARIABLE (X): Coeficiente <strong>de</strong> Determinación: r 2 .<br />

39


ESTATURA (cm) PESO (Kg)<br />

172 76<br />

150 45<br />

155 55<br />

155 52<br />

170 75<br />

154 53<br />

178 79<br />

160 58<br />

160 63<br />

166 69<br />

HIPÓTESIS: H0: R = 0 H1: R ≠ 0<br />

LA VARIABILIDAD OBSERVADA EN EL PESO, DEPENDE EN UN 79,2%,<br />

DE LA VARIABILIDAD EN LA ESTATURA<br />

40


¿EXISTE ASOCIACIÓN O DEPENDENCIA ENTRE: Temperatura <strong>de</strong>l agua<br />

(°C) y concentración <strong>de</strong> oxígeno (ppm).<br />

[ O 2 ] T 0 C<br />

8<br />

CONCENTRACIÓN DE OXIGENO<br />

1 60<br />

3 50<br />

4 40<br />

5 30<br />

6 20<br />

1 50<br />

3 40<br />

4 30<br />

5 20<br />

6 10<br />

7<br />

6<br />

5<br />

4<br />

3<br />

2<br />

1<br />

0<br />

0<br />

10<br />

20<br />

30<br />

40<br />

TEMPERATURA<br />

50<br />

60<br />

70<br />

Observada<br />

Lineal<br />

HIPÓTESIS: H0: R = 0 H1: R ≠ 0<br />

Existe asociación negativa significativa estadísticamente : La variabilidad en el<br />

oxígeno <strong>de</strong>pen<strong>de</strong> en un 74,8% <strong>de</strong> la variabilidad en la temperatura.<br />

41


Karl Pearson (Londres 27 <strong>de</strong> marzo <strong>de</strong> 1857- Londres, 27 <strong>de</strong> abril <strong>de</strong> 1936) fue un prominente científico, matemático y pensador<br />

británico, que estableció la disciplina <strong>de</strong> la estadística matemática. Desarrolló una intensa investigación sobre la aplicación <strong>de</strong> los<br />

métodos estadísticos en la biología y fue el fundador <strong>de</strong> la bioestadística. Fue un positivista radical.<br />

Charles Edward Spearman (Londres, 10 <strong>de</strong> septiembre <strong>de</strong> 1863 - Londres, 7 <strong>de</strong> septiembre <strong>de</strong> 1945). Psicólogo inglés. Realizó<br />

importantes aportes a la psicología y a la estadística, <strong>de</strong>sarrollando el Análisis Factorial.<br />

TIPOS DE ANÁLSIS DE CORRELACIÓN SIMPLE:<br />

1. ANALSIS DE CORRELACION LINEAL DE PEARSON (Paramétrica): permite<br />

i<strong>de</strong>ntificar ASOCIACIÓN LINEAL entre dos variables cuantitativas.<br />

2. ANALSIS DE CORRELACION DE SPEARMAN (No Paramétrica): permite<br />

i<strong>de</strong>ntificar ASOCIACIÓN GENERAL O DE CUALQUIER TIPO (Incluida la lineal)<br />

entre dos variables cuantitativas.<br />

Cuando se i<strong>de</strong>ntifica asociación general entre dos variables, se <strong>de</strong>be i<strong>de</strong>ntificar la<br />

curva que explica mejo dicha asociación.<br />

Se <strong>de</strong>be hacer ESTIMACION CURVILINEA.<br />

42


6.2 ANALISIS DE REGRESIÓN SIMPLE<br />

I<strong>de</strong>ntificar relación <strong>de</strong> DEPENDENCIA entre una variable cuantitativa<br />

in<strong>de</strong>pendiente X, y una variable cuantitativa <strong>de</strong>pendiente Y. La variable<br />

in<strong>de</strong>pendiente también pue<strong>de</strong> ser cualitativa. Solo exige que la variable<br />

<strong>de</strong>pendiente se ajuste a la distribución normal.<br />

El objetivo es i<strong>de</strong>ntificar la fórmula que exprese la relación <strong>de</strong><br />

<strong>de</strong>pen<strong>de</strong>ncia.<br />

Si esa relación se expresa mediante una función lineal <strong>de</strong>l tipo y = b0 + b1X,<br />

su gráfica correspon<strong>de</strong> a una línea recta.<br />

LÍNEA DE REGRESIÓN DE MEJOR AJUSTE: Método <strong>de</strong> mínimos cuadrados:<br />

43


FÓRMULA DE REGRESIÓN LINEAL: Se <strong>de</strong>be cuantificar la PENDIENTE (b 1 ) y el<br />

intercepto en Y (b 0 ).<br />

¿Cómo calcular b1:<br />

¿Cómo calcular b0:<br />

b 1 = PENDIENTE o COEFICIENTE DE REGRESIÓN:<br />

Es la VARIABILIDAD <strong>de</strong> Y, por cada Unidad <strong>de</strong><br />

incremento en X.<br />

Se <strong>de</strong>speja <strong>de</strong> la fórmula con<br />

base en los valores promedio:<br />

44


HIPÓTESIS DE LA REGRESIÓN: H0: B = 0<br />

H0: B ≠ 0<br />

8<br />

7<br />

CONCENTRACIÓN DE OXIGENO<br />

b 0 = 7,5 ppm<br />

P = 0,000<br />

6<br />

5<br />

4<br />

3<br />

2<br />

1<br />

Observada<br />

0<br />

0<br />

10<br />

20<br />

30<br />

40<br />

50<br />

60<br />

70<br />

Lineal<br />

TEMPERATURA<br />

b0: A 0 0 C le correspon<strong>de</strong> 7,5 ppm <strong>de</strong> oxigeno.<br />

b1: Por cada grado centígrado <strong>de</strong> incremento en la temperatura, la concentración <strong>de</strong><br />

O 2 disminuye 0,1067 ppm.<br />

¿Qué concentración <strong>de</strong> O 2 le correspon<strong>de</strong> a 25 0 C <strong>de</strong> temperatura.<br />

45


Base <strong>de</strong> datos correspondiente a una investigación para i<strong>de</strong>ntificar relaciones entre<br />

componentes <strong>de</strong> tejidos vegetales y componentes <strong>de</strong>l suelo.<br />

¿La concentración <strong>de</strong> grasa (%)en las hojas <strong>de</strong> una variedad <strong>de</strong> planta, se asocia<br />

con la concentración <strong>de</strong> Nitrógeno (%) y con la concentración <strong>de</strong> Ca (meq/100 g) en<br />

el suelo don<strong>de</strong> crece. ¿Cuál es la fórmula que <strong>de</strong>scribe la asociación <strong>de</strong><br />

Depen<strong>de</strong>ncia<br />

46


Mediante análisis <strong>de</strong> correlación <strong>de</strong> Pearson se i<strong>de</strong>ntifica una asociación lineal<br />

negativa, significativa estadísticamente , entre el contenido <strong>de</strong> grasa (%) en los tejidos<br />

vegetales y el contenido <strong>de</strong> N (%) en el suelo (R= -0,70; p


Asociación lineal negativa<br />

No asociación lineal<br />

48


Mediante análisis <strong>de</strong> correlación <strong>de</strong> Spearman se i<strong>de</strong>ntifica<br />

asociación positiva, significativa estadísticamente, entre el<br />

contenido <strong>de</strong> grasa (%) en los tejidos vegetales y el contenido <strong>de</strong><br />

Ca (meq/100g) en el suelo (Rho = 0,547; p


ANÁLISIS DE CURVA DE MEJOR AJUSTE:<br />

50


Mediante estimación curvilínea, se logra establecer que la curva <strong>de</strong> mejor ajuste es<br />

la cuadrática. En consecuencia, la asociación entre GRASA y CALCIO se pue<strong>de</strong><br />

<strong>de</strong>scribir mediante la ecuación:<br />

GRASA (%) = - 4,78 + 4,2 (Ca) – 0,656 (Ca) 2 51


ESTIMACIÓN CURVILINEA<br />

FÓRMULA CORRESPONDIENTE A LÍNEA RECTA<br />

Lineal:<br />

Y = B 0 + B 1 X<br />

Logarítmica: Y = B 0 + B1lnX<br />

Potencial: Y = B 0 X B1<br />

Exponencial: Y = B 0 e B1X<br />

ó lnY = lnB 0 + B 1 lnX<br />

ó lnY = lnB 0 + B 1 X<br />

Compuesta: Y = B 0 B1 X ó lnY = lnB 0 + XlnB 1<br />

Curva-S: Y = e B0 + B1/X ó lnY = B 0 + B 1 /X<br />

Cuadrática o Parábola: Y = B 0 + B 1 X + B 1 X 2<br />

Cúbica: Y = B 0 + B 1 X + B 1 X 2 + B 1 X 3<br />

Crecimiento: Y = e<br />

(B0 + B1X)<br />

ó<br />

lnY = B 0 + B 1 X<br />

Inversa: Y = B 0 + B 1 /X<br />

52


6.3 ANALISIS DE REGRESION LINEAL MULTIPLE (Análisis multivariante)<br />

Y = b 0 + b 1 X 1 + b 2 X 2 ………+b n Xn<br />

I<strong>de</strong>ntificar la relación <strong>de</strong> DEPENDENCIA entre una variable DEPENDIENTE<br />

CUANTITATIVA (Y) y varias variables INDEPENDIENTES (X). Como variables<br />

in<strong>de</strong>pendientes, también se pue<strong>de</strong>n incluir variables Cualitativas dicotómicas.<br />

PROBLEMA: ¿Cuáles <strong>de</strong> los componentes <strong>de</strong>l suelo influyen<br />

en el contenido <strong>de</strong> bacterias.<br />

HIPOTESIS:<br />

H0: B = 0, La variable Xi no influye, condicionado a las variables predictivas en el mo<strong>de</strong>lo.<br />

H1: B ≠ 0, la variable Xi Si influye, condicionado a las variables predictivas en el mo<strong>de</strong>lo.<br />

SI: H1: B > 0 La variable Xi influye positivamente.<br />

B < 0 La variable Xi influye negativamente.<br />

53


Base <strong>de</strong> datos correspondiente a una investigación para i<strong>de</strong>ntificar la relaciones entre<br />

minerales y microorganismos <strong>de</strong>l suelo.<br />

INDEPENDIENTES<br />

DEPENDIENTE<br />

54


ANÁLISIS DE CORRELACIÓN DE<br />

PEARSON:<br />

Se i<strong>de</strong>ntificó ASOCIACIÓN LINEAL<br />

POSITIVA , significativa estadísticamente<br />

(p< 0,05), entre el CONTENIDO DE<br />

BACTERIAS y cada una <strong>de</strong> las siguientes<br />

variables:<br />

Fosforo y calcio .<br />

ASOCIACIÓN LINEAL NEGATVA, con<br />

Nitrogeno y aluminio<br />

55


REGRESIÓN LINEAL MÚLTIPLE:<br />

Como se i<strong>de</strong>ntificó ASOCIACIÓN LINEAL , significativa estadísticamente (p


Al parecer, sobre el recuento <strong>de</strong> BACTERIAS influyen: Calcio, Aluminio y Nitrógeno<br />

(p< 0,05).<br />

Sin embargo, es necesario hacer un análisis por etapas, INCLUYENDO O QUITANDO<br />

VARIABLES PREDICTORAS O INDEPENDIENTES, para I<strong>de</strong>ntificar posibles factores<br />

<strong>de</strong> confusión, entre las variables que aparentemente no influyen.<br />

57


Al parecer, el magnesio se comporta<br />

como un factor <strong>de</strong> confusión para el<br />

calcio.<br />

Sin la presencia <strong>de</strong>l magnesio, el<br />

calcio <strong>de</strong>ja <strong>de</strong> ser significativo (p =<br />

0,09).<br />

En presencia <strong>de</strong>l Mg, el calcio, no<br />

solo es significativo, sino que su<br />

coeficiente <strong>de</strong> regresión cambia en<br />

más <strong>de</strong>l 10%. De 0,126 pasa a 0,321<br />

En consecuencia, es conveniente<br />

que el Mg este en la ecuación, para<br />

que se manifieste el efecto <strong>de</strong>l calcio.<br />

Este análisis por etapas, suele<br />

hacerlo en forma automática el<br />

programa SPSS, pero <strong>de</strong>ja solo las<br />

variables significativas, con la<br />

posibilidad <strong>de</strong> fallar sobre los<br />

58<br />

Bacterias = 5,79 – 0,15Al – 6,68N + 0,32 Ca – 0,307 factores Mg <strong>de</strong> confusión.


COLINEALIDAD: Cuando dos variables in<strong>de</strong>pendientes dan la<br />

misma información (dicen lo mismo), o cuando su coeficiente <strong>de</strong><br />

correlación es muy alto (R > 0,9), el efecto <strong>de</strong> una <strong>de</strong> ellas pue<strong>de</strong><br />

inhibir el efecto <strong>de</strong> la otra, y viceversa. Esto se <strong>de</strong>be a que la H1<br />

en regresión múltiple es condicional (La H0, también lo es).<br />

En consecuencia, si la primera variable afecta a la variable<br />

<strong>de</strong>pendiente, entonces, introducir otra variable que “dice lo<br />

mismo” que la primera, no afectará significativamente a la<br />

<strong>de</strong>pendiente. Nada aporta, más allá <strong>de</strong>l aporte <strong>de</strong> la primera y los<br />

efectos se pue<strong>de</strong>n anular, dando la i<strong>de</strong>a <strong>de</strong> una “confusión”<br />

errada.<br />

Cuando esto ocurre, se <strong>de</strong>be suprimir una <strong>de</strong> las variables, o<br />

incluir en el mo<strong>de</strong>lo <strong>de</strong> regresión, el promedio <strong>de</strong> las dos<br />

variables.<br />

59


PROBELMA: ¿Es la concentración <strong>de</strong>l oxígeno<br />

(ppm) <strong>de</strong>l agua <strong>de</strong> un río, <strong>de</strong>pendiente <strong>de</strong> la<br />

temperatura (°C). Se analizó el agua <strong>de</strong><br />

diferentes sitios, seleccionados aleatoriamente<br />

a lo largo <strong>de</strong>l río, registrando el oxigeno y la<br />

temperatura a nivel <strong>de</strong> superficie y a 50 cm <strong>de</strong><br />

profundidad.<br />

60


ANÁLISIS BIVARIANTE:<br />

Tanto la temperatura a nivel <strong>de</strong><br />

superficie como la temperatura a 50<br />

cm <strong>de</strong> profundidad, influyen<br />

significativamente (p = 0,000) en la<br />

concentración <strong>de</strong> oxígeno.<br />

ANÁLISIS MULTIVARIANTE:<br />

Las temperaturas no influyen<br />

significativamente en la concentración<br />

<strong>de</strong> oxígeno.<br />

Las temperaturas son altamente<br />

correlacionadas (r = 0,996) y es evi<strong>de</strong>nte<br />

que dan la misma información.<br />

Cada temperatura ajusta su influencia, con<br />

base en la influencia <strong>de</strong> la otra temperatura,<br />

y <strong>de</strong>ci<strong>de</strong>, en consecuencia, que ya nada tiene<br />

que aportar, anulándose mutuamente.<br />

61


DISEÑO DE EXPERIMENTOS PARA EL ANÁLSIS DE CORRELACIÓN Y<br />

REGRESIÓN<br />

PROBLEMA: ¿Es la concentración <strong>de</strong> oxígeno <strong>de</strong>l agua <strong>de</strong>pendiente <strong>de</strong> la temperatura<br />

<strong>de</strong> la misma.<br />

1. EXPERIMENTO REAL:<br />

EL INVESTIGADOR DEBE:<br />

•Determinar variables que se consi<strong>de</strong>ren in<strong>de</strong>pendientes y <strong>de</strong>pendientes.<br />

Var. In<strong>de</strong>pendiente: Temperatura <strong>de</strong>l agua (°C)<br />

Var. Dependiente: Con. <strong>de</strong> Oxígeno (ppm).<br />

•Determinar el Rango o Intervalo <strong>de</strong> la variable in<strong>de</strong>pendiente que se evaluará.<br />

Intervalo a evaluar: 10 0 C a 50 0 C<br />

•Determinar los niveles o valores <strong>de</strong> la variable in<strong>de</strong>pendiente que se evaluarán.<br />

Niveles o valores: 10, 20, 30, 40 y 50 0 C<br />

•Determinar el número <strong>de</strong> repeticiones por cada nivel o valor <strong>de</strong> la variable<br />

in<strong>de</strong>pendiente: Seis por nivel. 62


EXPERIMENTO<br />

Agua <strong>de</strong> la misma calidad (Destilada y aireada) y a<br />

temperatura ambiente, será distribuida en 6 recipientes<br />

iguales (20 ml cada/uno). Se comenzará a disminuir<br />

(nevera) o incrementar la temperatura (Incubadora)<br />

según convenga, y cada vez que se llegue a la<br />

temperatura pertinente se medirá <strong>de</strong> inmediato la<br />

concentración <strong>de</strong> oxígeno con un medidor automático.<br />

Este procedimiento se repetirá seis veces en iguales<br />

condiciones.<br />

63


2. EXPERIMENTO OBSERVACIONAL O POST – FACTO.<br />

EL INVESTIGADOR DEBE:<br />

• I<strong>de</strong>ntificar el sitio en don<strong>de</strong> se hará la toma <strong>de</strong> los datos (registro <strong>de</strong> variables). Río,<br />

lago, estanque, laguna, etc.: Se hará en un río.<br />

Inicialmente no es necesario especificar cual <strong>de</strong> las variables es in<strong>de</strong>pendiente o cual<br />

es <strong>de</strong>pendiente. Solo para el caso <strong>de</strong> la Regresión es necesario hacer dicha<br />

clasificación y por lógica parece ser que la temperatura es in<strong>de</strong>pendiente.<br />

• Diseñar la técnica <strong>de</strong> muestreo:<br />

Población objeto: Agua <strong>de</strong>l río<br />

Marco Muestral: Agua <strong>de</strong>l río entre las estaciones A y B distantes entre si 5 Km.<br />

Tipo <strong>de</strong> muestreo aleatorio: Muestreo aleatorio sistemático.<br />

Repeticiones o tamaño <strong>de</strong> la muestra: n = 50 porciones <strong>de</strong> agua<br />

• Registrar las variables en los diferentes puntos <strong>de</strong>l muestreo en forma semejante. Los<br />

mismo equipos y operarios.<br />

En cada sitio i<strong>de</strong>ntificado con la técnica <strong>de</strong> muestreo aleatorio, se hará una muestra<br />

compuesta con agua <strong>de</strong>l centro y <strong>de</strong> las dos orillas y <strong>de</strong> inmediato se medirá la 64<br />

temperatura y la concentración <strong>de</strong> oxígeno.


REQUISITOS PARA APLICAR REGRESIÓN:<br />

1 Ajuste a la Distribución Normal, DE LOS RESIDUOS (Simple o ajustado).<br />

2. Homogeneidad <strong>de</strong> Varianzas. Ver gráfico <strong>de</strong> residuos (Tipificado vs.esperado)<br />

3. No colinealidad. Hay colinealidad cuando la tolerancia es menor al10%, o cuando<br />

el Índice <strong>de</strong> Condición es alto (> 15 posible colinealidad. > 30 colinealidad segura,<br />

pero solo si las proporciones <strong>de</strong> varianza son altas al menos para dos variables).<br />

4. Tamaño <strong>de</strong> muestra: Al menos 20 datos por variable In<strong>de</strong>pendiente.<br />

65


6.4 ANÁLISIS DE COVARIANZA (ANCOVA)<br />

(MULTIVARIANTE)<br />

Fusión <strong>de</strong>l ANOVA y la regresión lineal múltiple. Procedimiento<br />

estadístico que permite eliminar la diferencia que pueda existir<br />

entre las categorías <strong>de</strong> la variable in<strong>de</strong>pendiente, respecto <strong>de</strong><br />

una o más variables cuantitativas (covariables) que acompañan a<br />

la variable <strong>de</strong>pendiente en las UM, y que pue<strong>de</strong>n influir sobre<br />

esta.<br />

La inclusión <strong>de</strong> covariables pue<strong>de</strong> aumentar la potencia<br />

estadística porque a menudo reduce la variabilidad.<br />

COVARIABLE O COVARIADA: Variable cuantitativa que se<br />

registra en la misma UE en don<strong>de</strong> se registra la variable<br />

<strong>de</strong>pendiente, y que pue<strong>de</strong> tener influencia sobre esta.<br />

66


PROBLEMA:<br />

La concentración <strong>de</strong> colesterol en la sangre, es un<br />

factor <strong>de</strong> riesgo asociado con enfermeda<strong>de</strong>s <strong>de</strong>l<br />

aparato circulatorio.<br />

Se ha planeado una investigación para <strong>de</strong>terminar el<br />

contenido <strong>de</strong> colesterol en hombres y mujeres y<br />

<strong>de</strong>terminar si difieren en cuanto a riesgo <strong>de</strong><br />

enfermeda<strong>de</strong>s circulatorias.<br />

Se ha planteado el siguiente interrogante:<br />

¿Es la concentración <strong>de</strong> colesterol, diferente entre<br />

hombre y mujeres.<br />

67


Se conoce, a<strong>de</strong>más, que el contenido <strong>de</strong> colesterol en la sangre, también es<br />

<strong>de</strong>pendiente <strong>de</strong>l contenido <strong>de</strong> grasa en el cuerpo, por tal razón, se consi<strong>de</strong>ra<br />

necesario incluir al Índice <strong>de</strong> Masa (IM) como covariable, siempre y cuando<br />

este factor no haya sido corregido al tomar la muestra, es <strong>de</strong>cir que<br />

hombres y mujeres <strong>de</strong>fieran en su IM.<br />

68


ANÁLISIS BIVARIANTE: Sexo vs. Concentración <strong>de</strong> Colesterol.<br />

Comparación HOMBRES vs. MUJERES respecto a la concentración <strong>de</strong> colesterol.<br />

Prueba T, para muestras in<strong>de</strong>pendientes.<br />

Sin la covariable, la diferencia <strong>de</strong> colesterol entre hombres y<br />

mujeres es significativa estadísticamente y se concluye que<br />

los hombres se hallan en mayor riesgo.<br />

69


ANÁLISI BIVARIANTE: Índice <strong>de</strong> Masa vs. Concentración <strong>de</strong> Colesterol.<br />

ÁNÁLISIS DE DEPENDENCIA ENTRE INDICE DE MASA (x) Y CONCENTRACIÓN DE<br />

COLESTEROL (y).<br />

Se i<strong>de</strong>ntificó asociación Lineal significativa<br />

estadísticamente (p < 0,001) entre el colesterol y el<br />

Índice <strong>de</strong> Masa, que se <strong>de</strong>scribe con la siguiente<br />

ecuación:<br />

Colesterol (mg/dl) = -20,25 + 8,52 (Índice <strong>de</strong> Masa).<br />

El coeficiente <strong>de</strong> <strong>de</strong>terminación (r 2 ) permite concluir<br />

que la variabilidad en la concentración <strong>de</strong>l<br />

colesterol, <strong>de</strong>pen<strong>de</strong> en un 69% <strong>de</strong> la variación en el<br />

Índice <strong>de</strong> Masa.<br />

¿De las dos variables in<strong>de</strong>pendientes (Sexo e Índiced <strong>de</strong> Masa), realmente cual influye<br />

en la concentración <strong>de</strong>l colesterol, o influyen las dos: Se <strong>de</strong>be hacer ANÁLISIS DE<br />

COVARIANZA.<br />

70


Utilizando el análisis <strong>de</strong> la covarianza se "corrige" o "ajusta“ la<br />

diferencia en el Índice <strong>de</strong> Masa ENTRE LOS SEXOS, con el fin<br />

<strong>de</strong> hacerlos comparables respecto <strong>de</strong>l Colesterol.<br />

Con la covariable, la diferencia <strong>de</strong> colesterol entre hombres y mujeres<br />

es NO SIGNIFICATVA estadísticamente (p > 0,05).<br />

La concentración <strong>de</strong> colesterol se asocia significativamente con el IM.<br />

Se concluye que los individuos con mayor IM se hallan en mayor riesgo<br />

71<br />

<strong>de</strong> enfermeda<strong>de</strong>s circulatorias


Media = 28,9 Kg/cm 2<br />

Media = 21,9 Kg/cm 2<br />

I.M.<br />

Semejante<br />

En realidad, hombres y mujeres son diferentes en sus índices <strong>de</strong> masa (I.M.). En<br />

ANCOVA, se ajusta el valor <strong>de</strong>l IM entre las categorías <strong>de</strong>l sexo (Hombre, Mujer)<br />

igualándolos, y luego se los compara respecto <strong>de</strong> la concentración <strong>de</strong> colesterol.<br />

72


7. ANALISIS DE VARIABLES CUALITATIVAS<br />

(<strong>Investigación</strong> Observacional – Falso Experimento – Diseñar la toma <strong>de</strong> la muestra)<br />

7.1 ANÁLISIS BIVARIANTE:<br />

OBJETIVO:<br />

• IDENTIFICAR ASOCIACION O DEPENDENCIA ENTRE DOS VARIABLES<br />

CUALITATIVAS (O CATEGÓRICAS)<br />

Aplicación <strong>de</strong> las pruebas:<br />

• Chi cuadrado <strong>de</strong> Pearson para tablas <strong>de</strong> contingencia 2 x n<br />

y n x n.<br />

Karl Pearson (Londres 27 <strong>de</strong> marzo <strong>de</strong> 1857- Londres, 27 <strong>de</strong> abril <strong>de</strong> 1936) fue<br />

un prominente científico, matemático y pensador británico, que estableció la<br />

disciplina <strong>de</strong> la estadística matemática. Desarrolló una intensa investigación<br />

sobre la aplicación <strong>de</strong> los métodos estadísticos en la biología y fue el fundador<br />

<strong>de</strong> la bioestadística. Fue un positivista radical y en 1901, junto con Galton y<br />

Walter Frank Raphael Weldon, fundó la revista Biometrika<br />

73


PROBLEMA: Se quiere estudiar la posible asociación entre el hecho <strong>de</strong> que una<br />

gestante fume durante el embarazo y que el niño presente bajo peso al nacer.<br />

¿El peso <strong>de</strong>l niño al nacer (Var. Cuantitativa categorizada) ,<br />

<strong>de</strong>pen<strong>de</strong> o se asocia con el hábito <strong>de</strong> fumar <strong>de</strong> la gestante <br />

VARIABLES:<br />

• Peso <strong>de</strong>l niño (Bajo – normal). Aunque es una variable cuantitativa, al<br />

categorizarse, adopta la forma <strong>de</strong> cualitativa. (Variable DEPENDIENTE)<br />

• Habito <strong>de</strong> Fumar (Si – No). (Variable In<strong>de</strong>pendiente)<br />

74


Mirando la asociación:<br />

33,8%<br />

61,2%<br />

Hay un 61,2% <strong>de</strong><br />

niños con BAJO<br />

PESO entre las<br />

mujeres que fuman,<br />

frente al 33,8% <strong>de</strong><br />

bajo peso, entre las<br />

que No Fuman.<br />

75


PROBANDO LA ASOCIACIÓN:<br />

1. PRUEBA DE CHI CUADRADO:<br />

HIPÓTESIS: H 0 : O = E En la distribución aleatoria (NO ASOCIACIÓN);<br />

H 1 : O ≠ E En la distribución aleatoria ( ASOCIACIÓN).<br />

O = Frecuencia absoluta Observada.<br />

E = Frecuencia absoluta Esperada en la distribución aleatoria (No asociación).<br />

¿Cómo calcular el valor esperado<br />

Con base en la proporción <strong>de</strong>:<br />

-PESO BAJO en el Total: 87/174<br />

-PESO NORMAL en el Total: 87/174<br />

¿Cuál es la frecuencia ESPERADA <strong>de</strong> “BAJO” en SI FUMA: 103 x 87/174 = 51,5<br />

¿Cuál es la frecuencia ESPERADA <strong>de</strong> “BAJO” en NO FUMA: 71 x 87/174 = 35,5<br />

Hacer el mismo cálculo, para PESO NORMAL.<br />

76


P < 0,005<br />

12,59<br />

Con 1 gl., se i<strong>de</strong>ntifica asociación significativa estadísticamente (p < 0,005), entre el<br />

hábito <strong>de</strong> fumar y el peso bajo <strong>de</strong> los niños, al nacer.<br />

Grados <strong>de</strong> libertad (gl.) en una tabla <strong>de</strong> contingencia: (C – 1) (F – 1).<br />

77


PROBANDO LA ASOCIACIÓN:<br />

2. PRUEBA Odds Ratio: Relación <strong>de</strong> Ventajas<br />

Ventaja <strong>de</strong> “BAJO” a “NORMAL”:<br />

HIPÓTESIS:<br />

H0: OR = 1<br />

OR ≠ 1<br />

H1: OR > 1 (Riesgo)<br />

OR < 1 (Protección)<br />

La relación PESO “BAJO a NORMAL”, en Fumadoras es 3,08 veces mayor, que la<br />

misma relación en no Fumadoras. Es <strong>de</strong>cir : FUMAR es un factor <strong>de</strong> riego para<br />

BAJO PESO <strong>de</strong> los niños al nacer.<br />

78


NOTA. Para que el análisis <strong>de</strong> las<br />

variables cualitativas sea confiable, el<br />

tamaño <strong>de</strong> la muestra <strong>de</strong>be ser lo<br />

suficientemente gran<strong>de</strong>, para<br />

asegurar que en las tablas <strong>de</strong><br />

contingencia hayan al menos 5 datos<br />

esperados por celda.<br />

79


DISEÑO DEL EXPERIMENTO PARA IDENTIFICAR ASOCIACIÓN ENTRE<br />

VARIABLES CUALITATIVAS:<br />

INVESTIGACIÓN CON EXPERIMENTO OBSERAVCIONAL:<br />

1. TRANSVERSAL O TRANSSECCIONAL: De la población objeto (o <strong>de</strong> su Marco<br />

Muestral), se toma una muestra aleatoria.<br />

Ej. De entre los nacimientos <strong>de</strong> varones en los diferentes centros <strong>de</strong> salud, durante<br />

mínimo seis meses, se toma una muestra <strong>de</strong> recién nacidos (Qué tamaño <strong>de</strong> muestra)<br />

y se clasifican en niños <strong>de</strong> PESO NORMAL y NIÑOS DE PESO BAJO.<br />

Mediante encuesta directa se divi<strong>de</strong>n a las madres en fumadoras y no fumadoras. Las<br />

fumadoras <strong>de</strong>ben haberlo hecho <strong>de</strong>s<strong>de</strong> al menos seis meses antes <strong>de</strong>l embarazo y<br />

durante el embarazo.<br />

Este diseño solo es recomendable, si las categorías <strong>de</strong> la variable in<strong>de</strong>pendiente<br />

(Fumar: Si, No) y <strong>de</strong> la <strong>de</strong>pendiente (Peso: Bajo, Normal), son relativamente altas y<br />

próximas, <strong>de</strong> lo contrario, los grupos serán muy <strong>de</strong>siguales en tamaño.<br />

80


2. LONGITUDINAL TIPO CASOS Y CONTROLES: De entre los nacimientos <strong>de</strong><br />

varones en los diferentes centros <strong>de</strong> salud, se i<strong>de</strong>ntifican niños <strong>de</strong> bajo peso e igual<br />

número <strong>de</strong> niños <strong>de</strong> peso normal, <strong>de</strong> características semejantes (Grupo étnico,<br />

proce<strong>de</strong>ncia, etc.), (Qué tamaño <strong>de</strong> muestra).<br />

Luego se les hará seguimiento retrospectivo a sus respectivas madres, para<br />

<strong>de</strong>terminar si han fumado en el pasado, con el fin <strong>de</strong> clasificarlas en FUMADORAS Y<br />

NO FUMADORAS.<br />

Se registrarán, a<strong>de</strong>más, otras variables <strong>de</strong> interés en el estudio.<br />

La ventaja <strong>de</strong>l diseño: CASOS Y CONTROLES, es que las dos categoría <strong>de</strong> la<br />

variable DEPENDIENTE (PESO: BAJO, NORMAL), son iguales.<br />

81


7.2 ANÁLISIS MULTIVARIANTE: REGRESIÓN LOGÍSTICA. La<br />

variable DEPENDIENTE es cualitativa dicotómica.<br />

I<strong>de</strong>ntificar FACTORES asociados con una VARIABLE CUALITATIVA BINOMIAL O<br />

DICOTÓMICA.<br />

IDENTIFICAR FACTORES DE RIESGO<br />

La variables cualitativa es un atributo “MALO”, por ejemplo: UNA ENFERMEDAD<br />

(Enfermo, Sano)<br />

¿Cuáles son los factores <strong>de</strong> riesgo asociados con el BAJO PESO DE LOS<br />

NIÑOS AL NACER.<br />

¿Cuáles son los factores <strong>de</strong> riesgo asociados con el CÁNCER DE<br />

PULMÓN.<br />

IDENTIFICAR FACTORES FAVORECEDORES<br />

La variables cualitativa es un atributo “BUENO”, por ejemplo: AGUA POTABLE (SI. NO)<br />

¿Qué factores favorecen la POTABILIDAD DEL AGUA<br />

82


En este análisis se busca i<strong>de</strong>ntificar una ecuación <strong>de</strong>l tipo:<br />

Ln (Odds) = ln (Ventajas) = ln (BAJO / NORMAL) = b0 + b1X1 ……bkXk<br />

b0: Constante. b1: Coeficiente <strong>de</strong> regresión logística. X: Variable cualitativa o<br />

cuantitativa.<br />

Odds = Ventaja = BAJO / NORMAL<br />

Odds Ratio: es una medida relativa <strong>de</strong> asociación.<br />

Cuando OR = 1, No es factor <strong>de</strong> riesgo, ni preventivo.<br />

Cuando OR > 1. Factor <strong>de</strong> riesgo (Enfermedad) o Favorecedor (Rasgo bueno).<br />

Cuando OR < 1. Factor preventivo (Enfermedad) o NO Favorecedor (Rasgo bueno).<br />

83


VARIABLE DEPENDIENTE (Y)<br />

VARIABLES INDEPENDIENTES (Xi)<br />

84


CODIFICACIÓN EN LA BASE DE DATOS<br />

Para este análisis, el nivel o GRUPO <strong>de</strong> referencia en cada variable, <strong>de</strong>be tener el<br />

código mas bajo (0)<br />

Ejemplos:<br />

PESO DE LOS NIÑOS: NORMAL= 0 (Grupo referente), BAJO = 1<br />

FUMAR: NO = 0 (Grupo referente)<br />

SI = 1<br />

GEN GSTM1: NORMAL = 0 (Grupo referente) MUTADO = 1<br />

GEN GSTT1: NORMAL = 0 (Grupo referente) MUTADO = 1<br />

85


Regresión Logística Binaria<br />

Coeficiente <strong>de</strong> regresión log.<br />

OR<br />

BIVARIANTE:<br />

Mo<strong>de</strong>lo sin ajustar<br />

OR = 3,08<br />

MULTIVARIANTE:<br />

Mo<strong>de</strong>lo ajustado con base<br />

en todas las variables.<br />

OR = 2,9<br />

Mo<strong>de</strong>lo ajustado con base solo en las<br />

variables significativas. OR = 3,04<br />

La relación “PESO BAJO a NORMAL”,<br />

en Fumadoras es 3,04 veces mayor, que<br />

la misma relación en no Fumadoras y<br />

2,2 veces mayor en el genotipo mutado<br />

que en el normal .<br />

86<br />

Al parecer, NO hay factores <strong>de</strong> confusión para FUMAR, puesto que su B, no cambia. Se aproxima a 1,1


8. ANÁLISIS MULTIVARIANTE<br />

DESCRIPTIVO<br />

ANÁLISIS DE COMPONENTES PRINCIPALES<br />

ANÁLISIS DE CONGLOMERADOS (CLUSTER)<br />

87


8.1 ANALISIS DE COMPONENTES PRINCIPALES (ACP).<br />

METODO REDUCCIONAL: Método <strong>de</strong>scriptivo reduccional, cuyo<br />

fin es i<strong>de</strong>ntificar alguna estructura subyacente en la población,<br />

que se manifieste en la asociación lineal <strong>de</strong> algunas variables.<br />

El objetivo es, por lo tanto, i<strong>de</strong>ntificar grupos <strong>de</strong> variables<br />

que correlacionen entre si (Factores) y que las variables <strong>de</strong><br />

grupos o factores diferentes, sean in<strong>de</strong>pendientes (No<br />

asociadas o correlacionadas).<br />

Técnica estadística <strong>de</strong> síntesis <strong>de</strong> la información, o reducción <strong>de</strong> la<br />

dimensión (número <strong>de</strong> variables).<br />

Los nuevos componentes principales o factores serán una<br />

combinación lineal <strong>de</strong> las variables originales, y a<strong>de</strong>más, serán<br />

in<strong>de</strong>pendientes entre sí.<br />

88


Base <strong>de</strong> datos correspondiente a una investigación para i<strong>de</strong>ntificar variables fisicoquímicas<br />

<strong>de</strong> diferentes sitios <strong>de</strong> un río.<br />

89


• Análisis <strong>de</strong> Componentes Principales: Para este análisis, lo primero que se hace<br />

es un análisis <strong>de</strong> Correlación lineal simple <strong>de</strong> Pearson.<br />

Se observa alta correlación positiva entre variables como: Conductividad, sólidos<br />

disueltos, salinidad, turbi<strong>de</strong>z, OD. Estas variables también correlacionan con<br />

temperatura y pH pero en forma negativa. 90


Varianza <strong>de</strong> cada variable en unida<strong>de</strong>s tipificada (Z).<br />

La varianza total <strong>de</strong> la población es la sumatoria <strong>de</strong> las<br />

varianzas <strong>de</strong> las variables. En este caso es = 11.<br />

R2: Coeficiente <strong>de</strong> <strong>de</strong>terminación múltiple.<br />

Se escogen como<br />

componentes principales,<br />

aquellos cuya varianza<br />

(autovalor) sea 1 o mayor. Es<br />

<strong>de</strong>cir que incluya UNA o MÁS<br />

variables.<br />

En este caso, se han i<strong>de</strong>ntificado 4 Componentes principales, que, en total, explican<br />

el 79,62% <strong>de</strong> la varianza total.<br />

Para explicar el 100% <strong>de</strong> la variabilidad, se necesitan 11 componentes (Todas las<br />

variables).<br />

91


Se han i<strong>de</strong>ntificado CUATRO<br />

componentes principales.<br />

En la tabla se muestran los coeficientes<br />

<strong>de</strong> correlacion <strong>de</strong> cada variable con cada<br />

componente.<br />

Ej. La variable que mejor correlaciona con<br />

el componente 1 es la conductividad y la<br />

peor es el Potencial Oxido-Redox.<br />

¿Qué variables correlacionan mejor con cada componente:<br />

Análisis <strong>de</strong> Factores.<br />

92


FACTORES: Para <strong>de</strong>terminar con mayor precisión los factores o grupos que incluyen a<br />

las variables, se hace una ROTACION ORTOGONAL (u Oblicua o no ortogonal). Las<br />

variables <strong>de</strong> un mismo factor, se asume que tienen información relacionada o “hablan<br />

<strong>de</strong> lo mismo”.<br />

Se han i<strong>de</strong>ntificado 4 grupos o factores, asi:<br />

FACTOR 1: Incluye: Conductividad,<br />

Salinidad, SDT y Turbi<strong>de</strong>z, asociadas<br />

positivamente. pH y Temperatura asociadas<br />

negativamente con el factor.<br />

FACTOR 2: Con Fosfatos y DQO, ambos<br />

asociados positivamente.<br />

FACTOR 3: Incluye al Potencial Oxido-<br />

Redox (Positivo) y OD (Negativo).<br />

FACTOR 4: Solo con la variable NITRITOS.<br />

Aunque no hay regla fija, una variable se incluye en un COMPONENTE, cuando<br />

su correlación es ≥ 0,50. Si una variable carga o entra en dos o más<br />

componentes, lo mejor es excluirla <strong>de</strong>l análisis.<br />

93


8.2 ANÁLSIS DE “CLUSTER” (Árbol o <strong>de</strong>ndograma): METODO CLASIFICATORIO<br />

Es un método <strong>de</strong>scriptivo clasificatorio <strong>de</strong> los casos, unida<strong>de</strong>s <strong>de</strong> muestreo o unida<strong>de</strong>s<br />

experimentales (Filas).<br />

En este ejemplo, se clasificarán los TEJIDOS VEGETALES, <strong>de</strong>s<strong>de</strong> el punto <strong>de</strong> vista <strong>de</strong><br />

sus componentes químicos y <strong>de</strong>terminar si la clasificación o “cluster” concuerda con la<br />

planta <strong>de</strong> origen.<br />

POBLACIÓN OBJETO DE ESTUDIO: TEJIDOS VEGETALES DE DIFERENTES PLANTAS .<br />

VARIABLES: Composición Química<br />

CASOS:<br />

Tejidos<br />

vegetales<br />

94


Los tejidos 1, 2 y 3<br />

son semejantes<br />

respecto <strong>de</strong> variables<br />

como: Ca, Mg, K, Fe,<br />

Cu, Mn, Zn y Al.<br />

Deben pertenecer al<br />

mismo “cluster” o<br />

grupo.<br />

OBJETIVO: Formar grupos homogéneos. Agrupar a las unida<strong>de</strong>s <strong>de</strong> muestreo<br />

con base en su cercania respecto <strong>de</strong> una serie <strong>de</strong> variables cuantitativas.<br />

Los casos <strong>de</strong> cada grupo se parecen, pero difieren <strong>de</strong> las unida<strong>de</strong>s <strong>de</strong> otros<br />

grupos.<br />

Cuando las variables utilizadas para formar los grupos se expresan en unidaes<br />

distintas (gramos, metros, ppm, etc), los datos <strong>de</strong>ben tipificarse (valores Z)<br />

para que que<strong>de</strong>n en la misma unidad <strong>de</strong> medida.<br />

Las unida<strong>de</strong>s <strong>de</strong> muestreo (Casos), pue<strong>de</strong>n ser simples individuos (Personas,<br />

plantas, animales) o ciertos conjuntos como: instituciones, ciuda<strong>de</strong>s, especies<br />

<strong>de</strong> animales, especies vegetales, grupos sociales, etc.<br />

95


Los casos fueron<br />

dispuestos en cuatro<br />

grupos.<br />

Al parecer, las<br />

variables<br />

seleccionadas para el<br />

agrupamiento<br />

(Composición<br />

química), permitieron<br />

formar tantos grupos<br />

como las fuentes <strong>de</strong><br />

tejido utilizadas para<br />

extraer las muestras<br />

que se sometieron a<br />

análisis químico.<br />

96


NOTA: Para estos análisis se recomienda un tamaño <strong>de</strong> muestra:<br />

Entre 10 a 20 UE o UM por variable<br />

97

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!