µ - Métodos de Investigación Interdisciplinaria
µ - Métodos de Investigación Interdisciplinaria
µ - Métodos de Investigación Interdisciplinaria
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
SEMINARIO MÉTODOS INTERDISCIPLINARIOS<br />
DOCTORADO INTER-INSTITUCIONAL EN<br />
CIENCIAS AMBIENTALES<br />
Coordinadores:<br />
Carlos E. López, UTP<br />
Elkin Salcedo, Univalle<br />
Silvio Carvajal, Unicauca<br />
2011<br />
1
METODOS DE INVESTIGACION CUANTITATIVA<br />
CONTINUACIÓN PARTE III<br />
PRUEBA DE HIPÓTESIS O ESTUDIOS<br />
COMPARATIVOS<br />
SILVIO M. CARVAJAL V.<br />
PROFESOR<br />
UNIVERSIDAD DEL CAUCA<br />
FACULTAD DE CIENCIAS NATURALES, EXACTAS Y DE LA EDUCACIÓN<br />
GRUPO DE INVESTIGACIÓN EN TOXICOLOGÍA GENÉTICA Y<br />
CITOGENÉTICA<br />
2011 2
EXPERIMENTOS CON TRES Y MÁS MUESTRAS<br />
(Aplicación <strong>de</strong>l ANÁLISIS DE VARIANZA )<br />
1. DISEÑO COMPLETAMENTE ALEATORIO:<br />
•Problema monofactorial<br />
•Problema factorial.<br />
2. DISEÑO CON AGRUPAMIENTO:<br />
•Bloques<br />
•Cuadrado Latino<br />
3
5. DISEÑO CON TRES O MÁS TRATAMIENTOS (Tres o más Muestras): (Análisis<br />
bivariante)<br />
El factor o variable cualitativa tiene tres ó más niveles o categorías<br />
¿Cuál <strong>de</strong> las concentraciones <strong>de</strong> una droga (Alta, media,<br />
baja, sin) inducen daños en el material genético <strong>de</strong> los<br />
linfocitos cultivados in vitro.<br />
FACTOR: Concentraciones <strong>de</strong> una droga.<br />
NIVELES DEL FACTOR O TRTAMIENTOS: - Alta<br />
- Media<br />
- Baja<br />
- Sin droga (Solvente puro = Control)<br />
VARIABLEDEPENDIENTE: Daños<br />
en los cromosomas (QUIEBRES).<br />
4
DISEÑO DEL EXPERIMENTO:<br />
HIPÓTESIS DE TRABAJO: La droga, por ser un xenobiote, pue<strong>de</strong> inducir daños en<br />
el matrerial gnético, en forma dpendiente <strong>de</strong> su concentración.<br />
HIPÓTESIS ESTADÍSTICAS:<br />
H0: <strong>µ</strong> Sin = <strong>µ</strong> Baja = <strong>µ</strong> Media = <strong>µ</strong> Alta<br />
H1: Al menos un <strong>µ</strong> es diferente<br />
TRATAMIENTOS: Concentración <strong>de</strong> la droga<br />
- Alta<br />
- Media<br />
- Baja<br />
- Sin droga (Solvente puro = Control)<br />
TAMAÑO DE MUESTRA (Repeticiones):<br />
5
EXPERIMENTO: Diseño completamente aleatorio<br />
U.E<br />
Muy Homogéneas<br />
DATO: Número <strong>de</strong> alteraciones cromosómicas en 100 células por persona. (AC/100 cel.)<br />
ANÁLISIS ESTADÍSTICO:<br />
• Descriptivo:<br />
• Inferencial: - Estimación <strong>de</strong>l No.promedio <strong>de</strong> AC/100 cel. en cada población mediante<br />
el IC <strong>de</strong>l 95%<br />
- Comparativo: ANÁLISIS DE VARIANZA MONOFACTORIAL (Prueba Paramétrica) o<br />
mediante Kruskal-Wallis (No Paramétrica).<br />
6
BASE DE DATOS: No. <strong>de</strong> AC, correspondientes a cuatro muestras in<strong>de</strong>pendientes<br />
7
5.1. PRINCIPIO TEÓRICO DEL ANOVA Las técnicas iniciales <strong>de</strong>l analisis <strong>de</strong> varianza<br />
fueron <strong>de</strong>sarrolladas por el estadístico y genetista R. A. Fisher en los años 1920 y 1930 y es algunas veces conocido como Anova<br />
<strong>de</strong> Fisher o analisis <strong>de</strong> varianza <strong>de</strong> Fisher, <strong>de</strong>bido al uso <strong>de</strong> la distribución F <strong>de</strong> Fisher como parte <strong>de</strong>l contraste <strong>de</strong> hipótesis.<br />
Cuando en un experimento intervienen tres o más muestras, el análisis mediante<br />
prueba t <strong>de</strong> “Stu<strong>de</strong>nt” incrementa la probabilidad <strong>de</strong> error tipo I.<br />
Ej. Con tres muestras (3 Ttos), tres comparaciones .<br />
La probabilidad Total <strong>de</strong> error es:<br />
P = 1 – (0,95) C = 1 – (0,95) 3 = 0,143<br />
C = Número <strong>de</strong> comparaciones<br />
¡LA PROBABILIDD DE ERROR<br />
ES 14,3% !<br />
El análisis <strong>de</strong>be hacerse mediante<br />
Análisis <strong>de</strong> varianza, complementada con<br />
una prueba <strong>de</strong> comparaciones múltiples<br />
8
PRINCIPIO TREÓRICO DELANOVA<br />
En todo conjunto <strong>de</strong> datos, correspondiente a dos o más muestras, hay dos<br />
fuentes <strong>de</strong> Variabilidad<br />
9
Si las muestras provienen <strong>de</strong> la MISMA POBLACIÓN, entonces la variabilidad<br />
ENTRE no es más que una consecuencia <strong>de</strong> la variabilidad DENTRO<br />
MUESTRAS REPRESENTATIVAS DE<br />
LA MISMA POBLACIÓN<br />
Por lo tanto:<br />
VAR. ENTRE = VAR. DENTRO<br />
Se acepta la H0: <strong>µ</strong> Sin = <strong>µ</strong> Baja = <strong>µ</strong> Media = <strong>µ</strong> Alta<br />
Se concluye que no hay diferencia significativa entre los promedios. 10
Si las muestras proviene <strong>de</strong> POBLACIONES DIFERENTES (Diferentes tratamientos),<br />
entonces la variabilidad “ENTRE“ es una consecuencia <strong>de</strong> la variabilidad “DENTRO”<br />
MÁS EL EFECTO DE TRATAMIENTOS.<br />
DIFERENTES TRATAMIENTOS<br />
MUETRAS PERTENECIENTES A<br />
POBLACIONES DIFRENTES<br />
Por lo tanto:<br />
Var. ENTRE = Var. DENTRO + EFECTO DE<br />
TRATAMIENTO<br />
Se rechaza la H0: <strong>µ</strong> Sin = <strong>µ</strong> Baja = <strong>µ</strong> Media = <strong>µ</strong> Alta<br />
Se concluye que: Al menos un <strong>µ</strong> es diferente (H1)<br />
11
¿Cómo medir la variabilidad <strong>de</strong> una serie <strong>de</strong> datos (xi).<br />
VARIANZA (S 2 ): Desviación cuadrática promedio, <strong>de</strong> los datos <strong>de</strong> una muestra,<br />
respecto <strong>de</strong> su media aritmética..<br />
Ej. Serie <strong>de</strong> datos:<br />
Tamaño <strong>de</strong> muestra:<br />
Media aritmética:<br />
PROMEDIAR LASDIFRENCIAS AL CUADRADO:<br />
SIMBÓLICAMENTE:<br />
12
TABLA DE ANOVA<br />
Fuente <strong>de</strong><br />
Variación<br />
FACTOR A<br />
(Entre Con.)<br />
ERROR<br />
(Dentro)<br />
TOTAL<br />
Suma <strong>de</strong><br />
Cuadrados<br />
120,844<br />
50,875<br />
171,719<br />
gl<br />
3<br />
28<br />
31<br />
Cuadrado<br />
Medio<br />
(Varianza)<br />
40,281<br />
1,817<br />
F<br />
Sig.<br />
22,170 0,000<br />
SE RECHAZA LA H 0 : Se concluye que al menos un promedio es diferente.<br />
¿Qué promedios son diferentes: PRUEBA DE COMPARACIONES MÚLTIPLES<br />
DE Tukey (Para Varianzas homogéneas).<br />
CONCLUSIÓN:<br />
A las concentraciones Media y Alta, que no<br />
difieren significativamente entre si (p>0,05),<br />
les correspon<strong>de</strong> los mayores promedios <strong>de</strong><br />
daño cromosómico. Alta y Media difieren<br />
significativamente (p < 0,05)<strong>de</strong> Baja y Control<br />
con los menores promedios <strong>de</strong> AC/100 cel.<br />
14
PRUEBA NO PARAMÉTRICA DE KRUSKAL - WALLIS<br />
SE RECHAZA LA H 0 : Se concluye que al menos un promedio es diferente.<br />
En este caso, las comparaciones por parejas se pue<strong>de</strong> hacer con la prueba U <strong>de</strong><br />
Mann-Whitney<br />
15
REQUISITOS PARA APLICAR LA PRUEBA T Y EL ANOVA:<br />
1 Ajuste a la Distribución Normal, en especial si la muestra es pequeña (n
PROBLEMA FACTORIAL O MULTIFACTORIAL<br />
(ANÁLSIS MULTIVARIANTE)<br />
17
5.2. PROBLEMA FACTORIAL O MULTIFACTORIAL (ANÁLISIS<br />
MULTIVARIANTE)<br />
DOS O MÁS FACTORES o Variables cualitativas in<strong>de</strong>pendientes.<br />
TRATAMIENTOS: Resultan <strong>de</strong> combinar los niveles <strong>de</strong> los factores.<br />
SU PRINCIPAL APLICACIÓN ES IDENTIFICAR INTERACCIÓN<br />
ENTRE FACTORES<br />
PROBLEMA CON DISEÑO COMPLETAMENTE ALEATORIO<br />
¿ Cuál <strong>de</strong> dos drogas (A, B) y por qué vía (Boca , intramuscular) es mejor para<br />
controlar la concentración <strong>de</strong> colesterol (mg) en la sangre <strong>de</strong> los ratones.<br />
EFECTOS PRINCIPALES: Drogas (A, B)<br />
Vía (Boca, Intramuscular)<br />
TRATAMIENTOS: A-Boca, A-Intramuscular , B-Boca, B-Intramuscular.<br />
18
EXPERIMENTO, Con diseño completamente Aleatorio.<br />
TRATAMIENTOS:<br />
A-Boca A-Intramuscular B-Boca B-Intramuscular.<br />
ALEATORIZACIÓN<br />
La concentración <strong>de</strong>l<br />
colesterol (mg) en la sangre,<br />
se cuantifica ANTES y<br />
DESPUÉS <strong>de</strong> aplicar el Tto.<br />
20 RATONES<br />
DATO: Diferencia [A] – [D]<br />
U.E. Cada ratón<br />
4 MUESTRAS: n A-Boc = n A-Int = n B-Boc = n B-Int = 5<br />
19
BASE DE DATOS<br />
HIPÓTESIS:<br />
Efectos Principales: DROGA: H 0 : <strong>µ</strong> A = <strong>µ</strong> B<br />
VENENO: H 0 : <strong>µ</strong> IN = <strong>µ</strong> BO<br />
H 1 : <strong>µ</strong> A ≠ <strong>µ</strong> B<br />
H 1 : <strong>µ</strong> IN ≠ <strong>µ</strong> BO<br />
Interacción: H 0 : No hay interacción. H 1 : Si hay interacción.<br />
Tratamientos H 0 : <strong>µ</strong> A-IN = <strong>µ</strong> A-BO = <strong>µ</strong> B-IN = <strong>µ</strong> B-BO<br />
20<br />
H 1 : Al menos un <strong>µ</strong> es diferente
TIPO DE DROGA<br />
A 8,53<br />
20,53<br />
12,53<br />
14,00<br />
10,80<br />
∑ X :66,39<br />
∑ X2 : 963,8825<br />
VÍA DE ENTRADA<br />
INTRAMUSCULAR BOCA<br />
17,53<br />
21,07<br />
20,80<br />
17,33<br />
20,07<br />
∑ X :96,8<br />
∑ X2 :1887,0195<br />
TOTALES<br />
∑ X : 163,19<br />
B 39,14<br />
26,20<br />
31,33<br />
45,80<br />
40,20<br />
∑ X :182,67<br />
∑ X2 :6913,6285<br />
32,00<br />
23,80<br />
28,87<br />
25,06<br />
29,33<br />
∑ X :139,06<br />
∑ X2 :3912,1695<br />
∑ X : 321,73<br />
TOTALES ∑ X : 249,06 ∑ X : 235,86 Gran Total<br />
∑ X : 484,92<br />
∑ X2 : 13676,7<br />
21
FUENTE<br />
VARIACIÓN<br />
SUMA DE<br />
CUADRADOS<br />
gl<br />
CUADRADO<br />
MEDIO<br />
F<br />
Sig.<br />
ENTRE:<br />
Tratamientos<br />
Drogas<br />
Entradas<br />
Droga x Entrada<br />
DENTRO:<br />
Error<br />
1539,407<br />
1256,747<br />
8,712<br />
273,948<br />
379,923<br />
3<br />
1<br />
1<br />
1<br />
16<br />
513,136<br />
1256,747<br />
8,712<br />
273,948<br />
23,745<br />
21,610<br />
52,926<br />
0,367<br />
11,537<br />
0,000<br />
0,000<br />
0,553<br />
0,004<br />
TOTAL<br />
1919,33<br />
19<br />
El ANOVA es significativo (p < 0,05), para las DROGAS y para LA INTERACCIÓN.<br />
Se concluye que hay diferencia significativa entre las drogas, pero DEPENDIENDO <strong>de</strong><br />
la VIA DE ENTRADA.<br />
La interacción “DROGA x VÍA DE ENTRADA” fue significativa. Se concluye que la<br />
influencia <strong>de</strong> la DROGA es DEPENDIENTE <strong>de</strong>l factor Vía. Se <strong>de</strong>ben analizar los<br />
Tratamientos. 22
INTERACCIÓN<br />
Cuando HAY INTERACCIÓN entre dos factores, el efecto <strong>de</strong><br />
uno <strong>de</strong> los factores sobre la variable <strong>de</strong>pendiente, se halla<br />
influenciado por el otro factor.<br />
Cuando la interacción es significativa, no<br />
se justifica analizar a cada Factor por<br />
separado. Se <strong>de</strong>ben analizar los Ttos.<br />
(Combinación <strong>de</strong> niveles), mediante<br />
prueba <strong>de</strong> comparaciones múltiples.<br />
CONCLUSIÓN: El mejor tratamiento es cuando la droga B se<br />
administra por vía INTRAMUSCULAR. Se obtiene la mayor<br />
diferencia en la reducción <strong>de</strong>l colesterol 23
La gráfica muestra la NO INTERACCIÓN entre los dos factores.<br />
En este caso, se concluiría que la droga B es mejor, sin importar<br />
la vía <strong>de</strong> entrada.<br />
24
5.3 DISEÑO CON AGRUPAMIENTO.<br />
5.3.1 DISEÑO DE BLOQUES COMPLETOS ALEATORIZADOS<br />
(DBCA):<br />
El DBCA, permite i<strong>de</strong>ntificar y aislar una variable que surge<br />
en el momento <strong>de</strong> realizar el experimento y que no permite<br />
hacer unida<strong>de</strong>s experimentales homogeneas.<br />
FACTOR DE BLOQUEO: Es la variable cualitativa o categórica que impi<strong>de</strong> hacer UE<br />
homogeneas.<br />
BLOQUE: Grupo <strong>de</strong> UE homogéneas. Cada bloque se constituye en una repetición <strong>de</strong>l<br />
Experimento.<br />
25
PROBLEMA. ¿Con cuál <strong>de</strong> los siguientes abonos: A, B, C, D; se logra<br />
una mejor producción <strong>de</strong> las plantas <strong>de</strong> tomate <strong>de</strong> una <strong>de</strong>terminada<br />
variedad. Indicador <strong>de</strong> producción: Peso en Kg <strong>de</strong> los tomates <strong>de</strong> cada<br />
parcela.<br />
El experimento se hará en el campo en un terreno en PENDIENTE.<br />
OBJETIVO. I<strong>de</strong>ntificar los mejores abonos para la producción <strong>de</strong> tomates.<br />
BLOQUES COMPLETOS ALEATORIZADOS:<br />
La PENDIENTE es un factor restrictivo que impi<strong>de</strong><br />
formar UE (Parcelas) homogéneas.<br />
Por lo tanto, la forma a<strong>de</strong>cuada para i<strong>de</strong>ntificar y<br />
aislar la VARIABILIDAD QUE SE PUEDA<br />
ORIGINAR EN EL FACTOR PENDIENTE DEL<br />
TERRENO, es mediante un DISEÑO DE<br />
BLOQUES COMPLETOS ALEATORIZADOS.<br />
VENTAJAS:<br />
Reduce el error y por lo tanto la prueba<br />
adquiere mayor potencia.<br />
Permite i<strong>de</strong>ntificar y aislar una variable que<br />
impi<strong>de</strong> hacer UE homogéneas.<br />
Menos UE para realizar un experimento.<br />
26
EFECTOS PRINCIPALES:<br />
Tipo <strong>de</strong> abono (A, B, C)<br />
Pendiente (Alto, medios, bajo). Variable <strong>de</strong> bloqueo.<br />
HIPÓTESIS:<br />
Para Abonos (Efecto principal)<br />
H 0 : <strong>µ</strong> A = <strong>µ</strong> B = <strong>µ</strong> C = <strong>µ</strong> D H 1 : Al menos un <strong>µ</strong> es diferente<br />
Para Pendiente (Efecto <strong>de</strong> bloqueo)<br />
H 0 : <strong>µ</strong> Alta = <strong>µ</strong> Medios = <strong>µ</strong> Baja H 1 : Al menos un <strong>µ</strong> es diferente<br />
27
Kg <strong>de</strong> tomate/parcela.<br />
BLOQUES<br />
ABONOS<br />
A B C D<br />
1 89 60 100 60<br />
2 85 62 120 62<br />
Un DATO por<br />
UE; no es<br />
posible evaluar<br />
INTERACCIÓN<br />
.<br />
3 82 64 110 89<br />
4 75 40 80 85<br />
5 65 35 75 75<br />
En este caso solo se ha registrado un dato por UE y por lo<br />
tanto NO se pue<strong>de</strong> evaluar INTERACCIÓN.<br />
ANÁLISIS DE VARIANZA PARA BLOQUES<br />
28
La prueba solo es significativa para ABONOS. Se rechaza la H 0 para abonos, y se<br />
concluye que al menos la producción <strong>de</strong> un ABONO difiere <strong>de</strong> otro u otros.<br />
La prueba <strong>de</strong> COMPARACIONES MÚLTIPLES (Tukey), indica que los abonos D, A y C<br />
no difieren entre si. El abono B difiere <strong>de</strong> A y C, y es el <strong>de</strong> menor producción.<br />
29
5.3.2 DISEÑO CUADRADO LATINO (DCL):<br />
El DCL, permite i<strong>de</strong>ntificar y aislar dos variable que surgen<br />
en el momento <strong>de</strong> realizar el experimento y que no permiten<br />
hacer unida<strong>de</strong>s experimentales homogeneas. Es una<br />
generalizacion <strong>de</strong>l DBCA.<br />
C<br />
A<br />
D<br />
B<br />
B<br />
A<br />
D<br />
A<br />
D<br />
C<br />
C<br />
PENDIENTE:<br />
Filas<br />
B<br />
Si por parcela (UE), se<br />
registran dos o más<br />
datos se pue<strong>de</strong> analizar<br />
como un experiemnto<br />
factorial (La filas y<br />
columnas serian dos<br />
nuevos factores).<br />
B<br />
C<br />
D<br />
A<br />
RIO: Gradiente <strong>de</strong> humedad: COLUMNAS<br />
30
Kg <strong>de</strong> tomate/parcela.<br />
FILAS<br />
COLUMNAS<br />
1 C = 10,5 A = 13,2 B = 12,0 D = 7,7<br />
2 D = 7,5 B = 11,1 A = 12,0 C = 10,3<br />
3 A = 11,2 D = 5,8 C = 12,2 B = 13,7<br />
4 B = 12,3 C = 10,2 D = 5,9 A = 11,6<br />
31
Fuente <strong>de</strong><br />
Variación<br />
ANOVA (Cuadrado Latino)<br />
Suma <strong>de</strong><br />
Cuadrados<br />
gl<br />
Cuadrado<br />
Medio<br />
(Varianza)<br />
ABONOS 78,925 3 26,308 18,9 < 0,005<br />
PENDIENTE 1,170 3 0,390 0,28 > 0,1<br />
(Filas)<br />
HUMEDAD 1,955 3 0,652 0,47 > 0,1<br />
(Columnas)<br />
ERROR 8,35 6 1,39<br />
TOTAL 90,400 15<br />
F<br />
Sig.<br />
Hay diferencia<br />
significativa entre<br />
abonos.<br />
Se <strong>de</strong>be i<strong>de</strong>ntificar<br />
el mejor mediante<br />
prueba <strong>de</strong><br />
Comparaciones<br />
Múltiples.<br />
32
METODOS DE INVESTIGACION CUANTITATIVA<br />
PARTE IV<br />
ANÁLISIS DE VARIABLES CUANTITATIVA,<br />
CUALITATIVAS Y ANÁLISIS MULTIVARIADO<br />
SILVIO M. CARVAJAL V.<br />
PROFESOR<br />
UNIVERSIDAD DEL CAUCA<br />
FACULTAD DE CIENCIAS NATURALES EXACTAS Y DE LA EDUCACIÓN<br />
GRUPO DE INVESTIGACIÓN EN TOXICOLOGÍA GENÉTICA Y<br />
CITOGENÉTICA<br />
2011<br />
33
6. ANALISIS DE VARIABLES CUANTITAVAS.<br />
6.1 Análisis <strong>de</strong> Correlación<br />
6.2 Análisis <strong>de</strong> Regresión simple.<br />
6.3 Análisis Regresión Lineal múltiple.<br />
6.4 Análisis <strong>de</strong> Covarianza.<br />
7. ANALISIS DE VARIABLES CUALITATIVAS.<br />
7.1 Pruebas <strong>de</strong> asociación entre dos variables cualitativas: Prueba <strong>de</strong> Chi<br />
Cuadrado y test exacto <strong>de</strong> Fisher.<br />
7.2 Regresión Logística Binaria.<br />
8. ANÁLISIS MEDIANTE PRUEBAS MULTIVARIANTES (Descriptivas).<br />
Análisis <strong>de</strong> Componentes Principales.<br />
Análisis <strong>de</strong> Cluster o Árbol.<br />
34
6. ANALISIS DE VARIABLES<br />
CUANTITATIVAS<br />
CORRELACIÓN Y REGRESIÓN SIMPLE<br />
(ANÁLSIS BIVARIANTE)<br />
35
ANÁLISIS DE VARIABLES CUANTITATIVAS<br />
6.1 CORRELACIÓN SIMPLE. Grado (o fuerza) <strong>de</strong> asociación<br />
estadística entre dos variables cuantitativas, sin importar<br />
cual es la causa y cual es el efecto.<br />
Se trata <strong>de</strong> respon<strong>de</strong>r la pregunta: ¿La variabilidad<br />
observada en una <strong>de</strong> las variables se asocia con la<br />
variabilidad <strong>de</strong> la otra variable.<br />
Para este análisis es requisito que las dos variables se<br />
ajusten a la distribución normal.<br />
Ejemplos: BIVARIANTE: EXISTE ASOCIACIÓN O DEPENDENCIA ENTRE: ¿Estatura<br />
(cm) y peso (Kg). ¿Temperatura <strong>de</strong>l agua (°C) y concentración <strong>de</strong> oxígeno (ppm).<br />
¿Estatura (cm) y coeficiente intelectual (IQ). ¿Peso <strong>de</strong> las personas (Kg) y distancia<br />
<strong>de</strong> salto (m).<br />
MULTIVARIANTE: ¿Es la concentración <strong>de</strong> colesterol en la sangre (mg/dL)<br />
<strong>de</strong>pendiente <strong>de</strong> la estatura (cm), <strong>de</strong>l peso (Kg), y <strong>de</strong> la edad (Años).<br />
¿Es la concentración <strong>de</strong> proteínas (%)en las hojas <strong>de</strong> una variedad <strong>de</strong> planta<br />
<strong>de</strong>pendiente <strong>de</strong> la altura <strong>de</strong> la planta (m), edad <strong>de</strong> la planta (años), y<br />
concentración <strong>de</strong> Nitrógeno en el suelo (ppm).<br />
36
CORRELACIÓN SIMPLE.<br />
Observando la asociación: Diagrama <strong>de</strong> Dispersión.<br />
Asociación lineal positiva Asociación lineal negativa No asociación<br />
Asociación no lineal o curva<br />
37
CORRELACIÓN LINEAL SIMPLE. ¿EXISTE ASOCIACIÓN LINEAL ENTRE: Estatura (cm) y peso<br />
(kg) <strong>de</strong> las personas.<br />
CUANTIFICANDO LA CORRELACIÓN LINEAL:<br />
Covariación “peso - estatura” <strong>de</strong> la persona A:<br />
cm-Kg<br />
Covariación promedio <strong>de</strong> n personas: COVARIANZA =<br />
COVARIANZA ESTANDARIZADA<br />
O COEFICIENTE DE CORRELACIÓN: r<br />
r =<br />
38
COEFICIENTE DE DETERMINACION: R 2<br />
¿LA VARIABILIDAD OBSERVADA EN UNA DE LAS VARIABLES (Y) EN<br />
QUE PORCENTAGE DEPENDE DE LA VARIABILIDAD DE LA OTRA<br />
VARIABLE (X): Coeficiente <strong>de</strong> Determinación: r 2 .<br />
39
ESTATURA (cm) PESO (Kg)<br />
172 76<br />
150 45<br />
155 55<br />
155 52<br />
170 75<br />
154 53<br />
178 79<br />
160 58<br />
160 63<br />
166 69<br />
HIPÓTESIS: H0: R = 0 H1: R ≠ 0<br />
LA VARIABILIDAD OBSERVADA EN EL PESO, DEPENDE EN UN 79,2%,<br />
DE LA VARIABILIDAD EN LA ESTATURA<br />
40
¿EXISTE ASOCIACIÓN O DEPENDENCIA ENTRE: Temperatura <strong>de</strong>l agua<br />
(°C) y concentración <strong>de</strong> oxígeno (ppm).<br />
[ O 2 ] T 0 C<br />
8<br />
CONCENTRACIÓN DE OXIGENO<br />
1 60<br />
3 50<br />
4 40<br />
5 30<br />
6 20<br />
1 50<br />
3 40<br />
4 30<br />
5 20<br />
6 10<br />
7<br />
6<br />
5<br />
4<br />
3<br />
2<br />
1<br />
0<br />
0<br />
10<br />
20<br />
30<br />
40<br />
TEMPERATURA<br />
50<br />
60<br />
70<br />
Observada<br />
Lineal<br />
HIPÓTESIS: H0: R = 0 H1: R ≠ 0<br />
Existe asociación negativa significativa estadísticamente : La variabilidad en el<br />
oxígeno <strong>de</strong>pen<strong>de</strong> en un 74,8% <strong>de</strong> la variabilidad en la temperatura.<br />
41
Karl Pearson (Londres 27 <strong>de</strong> marzo <strong>de</strong> 1857- Londres, 27 <strong>de</strong> abril <strong>de</strong> 1936) fue un prominente científico, matemático y pensador<br />
británico, que estableció la disciplina <strong>de</strong> la estadística matemática. Desarrolló una intensa investigación sobre la aplicación <strong>de</strong> los<br />
métodos estadísticos en la biología y fue el fundador <strong>de</strong> la bioestadística. Fue un positivista radical.<br />
Charles Edward Spearman (Londres, 10 <strong>de</strong> septiembre <strong>de</strong> 1863 - Londres, 7 <strong>de</strong> septiembre <strong>de</strong> 1945). Psicólogo inglés. Realizó<br />
importantes aportes a la psicología y a la estadística, <strong>de</strong>sarrollando el Análisis Factorial.<br />
TIPOS DE ANÁLSIS DE CORRELACIÓN SIMPLE:<br />
1. ANALSIS DE CORRELACION LINEAL DE PEARSON (Paramétrica): permite<br />
i<strong>de</strong>ntificar ASOCIACIÓN LINEAL entre dos variables cuantitativas.<br />
2. ANALSIS DE CORRELACION DE SPEARMAN (No Paramétrica): permite<br />
i<strong>de</strong>ntificar ASOCIACIÓN GENERAL O DE CUALQUIER TIPO (Incluida la lineal)<br />
entre dos variables cuantitativas.<br />
Cuando se i<strong>de</strong>ntifica asociación general entre dos variables, se <strong>de</strong>be i<strong>de</strong>ntificar la<br />
curva que explica mejo dicha asociación.<br />
Se <strong>de</strong>be hacer ESTIMACION CURVILINEA.<br />
42
6.2 ANALISIS DE REGRESIÓN SIMPLE<br />
I<strong>de</strong>ntificar relación <strong>de</strong> DEPENDENCIA entre una variable cuantitativa<br />
in<strong>de</strong>pendiente X, y una variable cuantitativa <strong>de</strong>pendiente Y. La variable<br />
in<strong>de</strong>pendiente también pue<strong>de</strong> ser cualitativa. Solo exige que la variable<br />
<strong>de</strong>pendiente se ajuste a la distribución normal.<br />
El objetivo es i<strong>de</strong>ntificar la fórmula que exprese la relación <strong>de</strong><br />
<strong>de</strong>pen<strong>de</strong>ncia.<br />
Si esa relación se expresa mediante una función lineal <strong>de</strong>l tipo y = b0 + b1X,<br />
su gráfica correspon<strong>de</strong> a una línea recta.<br />
LÍNEA DE REGRESIÓN DE MEJOR AJUSTE: Método <strong>de</strong> mínimos cuadrados:<br />
43
FÓRMULA DE REGRESIÓN LINEAL: Se <strong>de</strong>be cuantificar la PENDIENTE (b 1 ) y el<br />
intercepto en Y (b 0 ).<br />
¿Cómo calcular b1:<br />
¿Cómo calcular b0:<br />
b 1 = PENDIENTE o COEFICIENTE DE REGRESIÓN:<br />
Es la VARIABILIDAD <strong>de</strong> Y, por cada Unidad <strong>de</strong><br />
incremento en X.<br />
Se <strong>de</strong>speja <strong>de</strong> la fórmula con<br />
base en los valores promedio:<br />
44
HIPÓTESIS DE LA REGRESIÓN: H0: B = 0<br />
H0: B ≠ 0<br />
8<br />
7<br />
CONCENTRACIÓN DE OXIGENO<br />
b 0 = 7,5 ppm<br />
P = 0,000<br />
6<br />
5<br />
4<br />
3<br />
2<br />
1<br />
Observada<br />
0<br />
0<br />
10<br />
20<br />
30<br />
40<br />
50<br />
60<br />
70<br />
Lineal<br />
TEMPERATURA<br />
b0: A 0 0 C le correspon<strong>de</strong> 7,5 ppm <strong>de</strong> oxigeno.<br />
b1: Por cada grado centígrado <strong>de</strong> incremento en la temperatura, la concentración <strong>de</strong><br />
O 2 disminuye 0,1067 ppm.<br />
¿Qué concentración <strong>de</strong> O 2 le correspon<strong>de</strong> a 25 0 C <strong>de</strong> temperatura.<br />
45
Base <strong>de</strong> datos correspondiente a una investigación para i<strong>de</strong>ntificar relaciones entre<br />
componentes <strong>de</strong> tejidos vegetales y componentes <strong>de</strong>l suelo.<br />
¿La concentración <strong>de</strong> grasa (%)en las hojas <strong>de</strong> una variedad <strong>de</strong> planta, se asocia<br />
con la concentración <strong>de</strong> Nitrógeno (%) y con la concentración <strong>de</strong> Ca (meq/100 g) en<br />
el suelo don<strong>de</strong> crece. ¿Cuál es la fórmula que <strong>de</strong>scribe la asociación <strong>de</strong><br />
Depen<strong>de</strong>ncia<br />
46
Mediante análisis <strong>de</strong> correlación <strong>de</strong> Pearson se i<strong>de</strong>ntifica una asociación lineal<br />
negativa, significativa estadísticamente , entre el contenido <strong>de</strong> grasa (%) en los tejidos<br />
vegetales y el contenido <strong>de</strong> N (%) en el suelo (R= -0,70; p
Asociación lineal negativa<br />
No asociación lineal<br />
48
Mediante análisis <strong>de</strong> correlación <strong>de</strong> Spearman se i<strong>de</strong>ntifica<br />
asociación positiva, significativa estadísticamente, entre el<br />
contenido <strong>de</strong> grasa (%) en los tejidos vegetales y el contenido <strong>de</strong><br />
Ca (meq/100g) en el suelo (Rho = 0,547; p
ANÁLISIS DE CURVA DE MEJOR AJUSTE:<br />
50
Mediante estimación curvilínea, se logra establecer que la curva <strong>de</strong> mejor ajuste es<br />
la cuadrática. En consecuencia, la asociación entre GRASA y CALCIO se pue<strong>de</strong><br />
<strong>de</strong>scribir mediante la ecuación:<br />
GRASA (%) = - 4,78 + 4,2 (Ca) – 0,656 (Ca) 2 51
ESTIMACIÓN CURVILINEA<br />
FÓRMULA CORRESPONDIENTE A LÍNEA RECTA<br />
Lineal:<br />
Y = B 0 + B 1 X<br />
Logarítmica: Y = B 0 + B1lnX<br />
Potencial: Y = B 0 X B1<br />
Exponencial: Y = B 0 e B1X<br />
ó lnY = lnB 0 + B 1 lnX<br />
ó lnY = lnB 0 + B 1 X<br />
Compuesta: Y = B 0 B1 X ó lnY = lnB 0 + XlnB 1<br />
Curva-S: Y = e B0 + B1/X ó lnY = B 0 + B 1 /X<br />
Cuadrática o Parábola: Y = B 0 + B 1 X + B 1 X 2<br />
Cúbica: Y = B 0 + B 1 X + B 1 X 2 + B 1 X 3<br />
Crecimiento: Y = e<br />
(B0 + B1X)<br />
ó<br />
lnY = B 0 + B 1 X<br />
Inversa: Y = B 0 + B 1 /X<br />
52
6.3 ANALISIS DE REGRESION LINEAL MULTIPLE (Análisis multivariante)<br />
Y = b 0 + b 1 X 1 + b 2 X 2 ………+b n Xn<br />
I<strong>de</strong>ntificar la relación <strong>de</strong> DEPENDENCIA entre una variable DEPENDIENTE<br />
CUANTITATIVA (Y) y varias variables INDEPENDIENTES (X). Como variables<br />
in<strong>de</strong>pendientes, también se pue<strong>de</strong>n incluir variables Cualitativas dicotómicas.<br />
PROBLEMA: ¿Cuáles <strong>de</strong> los componentes <strong>de</strong>l suelo influyen<br />
en el contenido <strong>de</strong> bacterias.<br />
HIPOTESIS:<br />
H0: B = 0, La variable Xi no influye, condicionado a las variables predictivas en el mo<strong>de</strong>lo.<br />
H1: B ≠ 0, la variable Xi Si influye, condicionado a las variables predictivas en el mo<strong>de</strong>lo.<br />
SI: H1: B > 0 La variable Xi influye positivamente.<br />
B < 0 La variable Xi influye negativamente.<br />
53
Base <strong>de</strong> datos correspondiente a una investigación para i<strong>de</strong>ntificar la relaciones entre<br />
minerales y microorganismos <strong>de</strong>l suelo.<br />
INDEPENDIENTES<br />
DEPENDIENTE<br />
54
ANÁLISIS DE CORRELACIÓN DE<br />
PEARSON:<br />
Se i<strong>de</strong>ntificó ASOCIACIÓN LINEAL<br />
POSITIVA , significativa estadísticamente<br />
(p< 0,05), entre el CONTENIDO DE<br />
BACTERIAS y cada una <strong>de</strong> las siguientes<br />
variables:<br />
Fosforo y calcio .<br />
ASOCIACIÓN LINEAL NEGATVA, con<br />
Nitrogeno y aluminio<br />
55
REGRESIÓN LINEAL MÚLTIPLE:<br />
Como se i<strong>de</strong>ntificó ASOCIACIÓN LINEAL , significativa estadísticamente (p
Al parecer, sobre el recuento <strong>de</strong> BACTERIAS influyen: Calcio, Aluminio y Nitrógeno<br />
(p< 0,05).<br />
Sin embargo, es necesario hacer un análisis por etapas, INCLUYENDO O QUITANDO<br />
VARIABLES PREDICTORAS O INDEPENDIENTES, para I<strong>de</strong>ntificar posibles factores<br />
<strong>de</strong> confusión, entre las variables que aparentemente no influyen.<br />
57
Al parecer, el magnesio se comporta<br />
como un factor <strong>de</strong> confusión para el<br />
calcio.<br />
Sin la presencia <strong>de</strong>l magnesio, el<br />
calcio <strong>de</strong>ja <strong>de</strong> ser significativo (p =<br />
0,09).<br />
En presencia <strong>de</strong>l Mg, el calcio, no<br />
solo es significativo, sino que su<br />
coeficiente <strong>de</strong> regresión cambia en<br />
más <strong>de</strong>l 10%. De 0,126 pasa a 0,321<br />
En consecuencia, es conveniente<br />
que el Mg este en la ecuación, para<br />
que se manifieste el efecto <strong>de</strong>l calcio.<br />
Este análisis por etapas, suele<br />
hacerlo en forma automática el<br />
programa SPSS, pero <strong>de</strong>ja solo las<br />
variables significativas, con la<br />
posibilidad <strong>de</strong> fallar sobre los<br />
58<br />
Bacterias = 5,79 – 0,15Al – 6,68N + 0,32 Ca – 0,307 factores Mg <strong>de</strong> confusión.
COLINEALIDAD: Cuando dos variables in<strong>de</strong>pendientes dan la<br />
misma información (dicen lo mismo), o cuando su coeficiente <strong>de</strong><br />
correlación es muy alto (R > 0,9), el efecto <strong>de</strong> una <strong>de</strong> ellas pue<strong>de</strong><br />
inhibir el efecto <strong>de</strong> la otra, y viceversa. Esto se <strong>de</strong>be a que la H1<br />
en regresión múltiple es condicional (La H0, también lo es).<br />
En consecuencia, si la primera variable afecta a la variable<br />
<strong>de</strong>pendiente, entonces, introducir otra variable que “dice lo<br />
mismo” que la primera, no afectará significativamente a la<br />
<strong>de</strong>pendiente. Nada aporta, más allá <strong>de</strong>l aporte <strong>de</strong> la primera y los<br />
efectos se pue<strong>de</strong>n anular, dando la i<strong>de</strong>a <strong>de</strong> una “confusión”<br />
errada.<br />
Cuando esto ocurre, se <strong>de</strong>be suprimir una <strong>de</strong> las variables, o<br />
incluir en el mo<strong>de</strong>lo <strong>de</strong> regresión, el promedio <strong>de</strong> las dos<br />
variables.<br />
59
PROBELMA: ¿Es la concentración <strong>de</strong>l oxígeno<br />
(ppm) <strong>de</strong>l agua <strong>de</strong> un río, <strong>de</strong>pendiente <strong>de</strong> la<br />
temperatura (°C). Se analizó el agua <strong>de</strong><br />
diferentes sitios, seleccionados aleatoriamente<br />
a lo largo <strong>de</strong>l río, registrando el oxigeno y la<br />
temperatura a nivel <strong>de</strong> superficie y a 50 cm <strong>de</strong><br />
profundidad.<br />
60
ANÁLISIS BIVARIANTE:<br />
Tanto la temperatura a nivel <strong>de</strong><br />
superficie como la temperatura a 50<br />
cm <strong>de</strong> profundidad, influyen<br />
significativamente (p = 0,000) en la<br />
concentración <strong>de</strong> oxígeno.<br />
ANÁLISIS MULTIVARIANTE:<br />
Las temperaturas no influyen<br />
significativamente en la concentración<br />
<strong>de</strong> oxígeno.<br />
Las temperaturas son altamente<br />
correlacionadas (r = 0,996) y es evi<strong>de</strong>nte<br />
que dan la misma información.<br />
Cada temperatura ajusta su influencia, con<br />
base en la influencia <strong>de</strong> la otra temperatura,<br />
y <strong>de</strong>ci<strong>de</strong>, en consecuencia, que ya nada tiene<br />
que aportar, anulándose mutuamente.<br />
61
DISEÑO DE EXPERIMENTOS PARA EL ANÁLSIS DE CORRELACIÓN Y<br />
REGRESIÓN<br />
PROBLEMA: ¿Es la concentración <strong>de</strong> oxígeno <strong>de</strong>l agua <strong>de</strong>pendiente <strong>de</strong> la temperatura<br />
<strong>de</strong> la misma.<br />
1. EXPERIMENTO REAL:<br />
EL INVESTIGADOR DEBE:<br />
•Determinar variables que se consi<strong>de</strong>ren in<strong>de</strong>pendientes y <strong>de</strong>pendientes.<br />
Var. In<strong>de</strong>pendiente: Temperatura <strong>de</strong>l agua (°C)<br />
Var. Dependiente: Con. <strong>de</strong> Oxígeno (ppm).<br />
•Determinar el Rango o Intervalo <strong>de</strong> la variable in<strong>de</strong>pendiente que se evaluará.<br />
Intervalo a evaluar: 10 0 C a 50 0 C<br />
•Determinar los niveles o valores <strong>de</strong> la variable in<strong>de</strong>pendiente que se evaluarán.<br />
Niveles o valores: 10, 20, 30, 40 y 50 0 C<br />
•Determinar el número <strong>de</strong> repeticiones por cada nivel o valor <strong>de</strong> la variable<br />
in<strong>de</strong>pendiente: Seis por nivel. 62
EXPERIMENTO<br />
Agua <strong>de</strong> la misma calidad (Destilada y aireada) y a<br />
temperatura ambiente, será distribuida en 6 recipientes<br />
iguales (20 ml cada/uno). Se comenzará a disminuir<br />
(nevera) o incrementar la temperatura (Incubadora)<br />
según convenga, y cada vez que se llegue a la<br />
temperatura pertinente se medirá <strong>de</strong> inmediato la<br />
concentración <strong>de</strong> oxígeno con un medidor automático.<br />
Este procedimiento se repetirá seis veces en iguales<br />
condiciones.<br />
63
2. EXPERIMENTO OBSERVACIONAL O POST – FACTO.<br />
EL INVESTIGADOR DEBE:<br />
• I<strong>de</strong>ntificar el sitio en don<strong>de</strong> se hará la toma <strong>de</strong> los datos (registro <strong>de</strong> variables). Río,<br />
lago, estanque, laguna, etc.: Se hará en un río.<br />
Inicialmente no es necesario especificar cual <strong>de</strong> las variables es in<strong>de</strong>pendiente o cual<br />
es <strong>de</strong>pendiente. Solo para el caso <strong>de</strong> la Regresión es necesario hacer dicha<br />
clasificación y por lógica parece ser que la temperatura es in<strong>de</strong>pendiente.<br />
• Diseñar la técnica <strong>de</strong> muestreo:<br />
Población objeto: Agua <strong>de</strong>l río<br />
Marco Muestral: Agua <strong>de</strong>l río entre las estaciones A y B distantes entre si 5 Km.<br />
Tipo <strong>de</strong> muestreo aleatorio: Muestreo aleatorio sistemático.<br />
Repeticiones o tamaño <strong>de</strong> la muestra: n = 50 porciones <strong>de</strong> agua<br />
• Registrar las variables en los diferentes puntos <strong>de</strong>l muestreo en forma semejante. Los<br />
mismo equipos y operarios.<br />
En cada sitio i<strong>de</strong>ntificado con la técnica <strong>de</strong> muestreo aleatorio, se hará una muestra<br />
compuesta con agua <strong>de</strong>l centro y <strong>de</strong> las dos orillas y <strong>de</strong> inmediato se medirá la 64<br />
temperatura y la concentración <strong>de</strong> oxígeno.
REQUISITOS PARA APLICAR REGRESIÓN:<br />
1 Ajuste a la Distribución Normal, DE LOS RESIDUOS (Simple o ajustado).<br />
2. Homogeneidad <strong>de</strong> Varianzas. Ver gráfico <strong>de</strong> residuos (Tipificado vs.esperado)<br />
3. No colinealidad. Hay colinealidad cuando la tolerancia es menor al10%, o cuando<br />
el Índice <strong>de</strong> Condición es alto (> 15 posible colinealidad. > 30 colinealidad segura,<br />
pero solo si las proporciones <strong>de</strong> varianza son altas al menos para dos variables).<br />
4. Tamaño <strong>de</strong> muestra: Al menos 20 datos por variable In<strong>de</strong>pendiente.<br />
65
6.4 ANÁLISIS DE COVARIANZA (ANCOVA)<br />
(MULTIVARIANTE)<br />
Fusión <strong>de</strong>l ANOVA y la regresión lineal múltiple. Procedimiento<br />
estadístico que permite eliminar la diferencia que pueda existir<br />
entre las categorías <strong>de</strong> la variable in<strong>de</strong>pendiente, respecto <strong>de</strong><br />
una o más variables cuantitativas (covariables) que acompañan a<br />
la variable <strong>de</strong>pendiente en las UM, y que pue<strong>de</strong>n influir sobre<br />
esta.<br />
La inclusión <strong>de</strong> covariables pue<strong>de</strong> aumentar la potencia<br />
estadística porque a menudo reduce la variabilidad.<br />
COVARIABLE O COVARIADA: Variable cuantitativa que se<br />
registra en la misma UE en don<strong>de</strong> se registra la variable<br />
<strong>de</strong>pendiente, y que pue<strong>de</strong> tener influencia sobre esta.<br />
66
PROBLEMA:<br />
La concentración <strong>de</strong> colesterol en la sangre, es un<br />
factor <strong>de</strong> riesgo asociado con enfermeda<strong>de</strong>s <strong>de</strong>l<br />
aparato circulatorio.<br />
Se ha planeado una investigación para <strong>de</strong>terminar el<br />
contenido <strong>de</strong> colesterol en hombres y mujeres y<br />
<strong>de</strong>terminar si difieren en cuanto a riesgo <strong>de</strong><br />
enfermeda<strong>de</strong>s circulatorias.<br />
Se ha planteado el siguiente interrogante:<br />
¿Es la concentración <strong>de</strong> colesterol, diferente entre<br />
hombre y mujeres.<br />
67
Se conoce, a<strong>de</strong>más, que el contenido <strong>de</strong> colesterol en la sangre, también es<br />
<strong>de</strong>pendiente <strong>de</strong>l contenido <strong>de</strong> grasa en el cuerpo, por tal razón, se consi<strong>de</strong>ra<br />
necesario incluir al Índice <strong>de</strong> Masa (IM) como covariable, siempre y cuando<br />
este factor no haya sido corregido al tomar la muestra, es <strong>de</strong>cir que<br />
hombres y mujeres <strong>de</strong>fieran en su IM.<br />
68
ANÁLISIS BIVARIANTE: Sexo vs. Concentración <strong>de</strong> Colesterol.<br />
Comparación HOMBRES vs. MUJERES respecto a la concentración <strong>de</strong> colesterol.<br />
Prueba T, para muestras in<strong>de</strong>pendientes.<br />
Sin la covariable, la diferencia <strong>de</strong> colesterol entre hombres y<br />
mujeres es significativa estadísticamente y se concluye que<br />
los hombres se hallan en mayor riesgo.<br />
69
ANÁLISI BIVARIANTE: Índice <strong>de</strong> Masa vs. Concentración <strong>de</strong> Colesterol.<br />
ÁNÁLISIS DE DEPENDENCIA ENTRE INDICE DE MASA (x) Y CONCENTRACIÓN DE<br />
COLESTEROL (y).<br />
Se i<strong>de</strong>ntificó asociación Lineal significativa<br />
estadísticamente (p < 0,001) entre el colesterol y el<br />
Índice <strong>de</strong> Masa, que se <strong>de</strong>scribe con la siguiente<br />
ecuación:<br />
Colesterol (mg/dl) = -20,25 + 8,52 (Índice <strong>de</strong> Masa).<br />
El coeficiente <strong>de</strong> <strong>de</strong>terminación (r 2 ) permite concluir<br />
que la variabilidad en la concentración <strong>de</strong>l<br />
colesterol, <strong>de</strong>pen<strong>de</strong> en un 69% <strong>de</strong> la variación en el<br />
Índice <strong>de</strong> Masa.<br />
¿De las dos variables in<strong>de</strong>pendientes (Sexo e Índiced <strong>de</strong> Masa), realmente cual influye<br />
en la concentración <strong>de</strong>l colesterol, o influyen las dos: Se <strong>de</strong>be hacer ANÁLISIS DE<br />
COVARIANZA.<br />
70
Utilizando el análisis <strong>de</strong> la covarianza se "corrige" o "ajusta“ la<br />
diferencia en el Índice <strong>de</strong> Masa ENTRE LOS SEXOS, con el fin<br />
<strong>de</strong> hacerlos comparables respecto <strong>de</strong>l Colesterol.<br />
Con la covariable, la diferencia <strong>de</strong> colesterol entre hombres y mujeres<br />
es NO SIGNIFICATVA estadísticamente (p > 0,05).<br />
La concentración <strong>de</strong> colesterol se asocia significativamente con el IM.<br />
Se concluye que los individuos con mayor IM se hallan en mayor riesgo<br />
71<br />
<strong>de</strong> enfermeda<strong>de</strong>s circulatorias
Media = 28,9 Kg/cm 2<br />
Media = 21,9 Kg/cm 2<br />
I.M.<br />
Semejante<br />
En realidad, hombres y mujeres son diferentes en sus índices <strong>de</strong> masa (I.M.). En<br />
ANCOVA, se ajusta el valor <strong>de</strong>l IM entre las categorías <strong>de</strong>l sexo (Hombre, Mujer)<br />
igualándolos, y luego se los compara respecto <strong>de</strong> la concentración <strong>de</strong> colesterol.<br />
72
7. ANALISIS DE VARIABLES CUALITATIVAS<br />
(<strong>Investigación</strong> Observacional – Falso Experimento – Diseñar la toma <strong>de</strong> la muestra)<br />
7.1 ANÁLISIS BIVARIANTE:<br />
OBJETIVO:<br />
• IDENTIFICAR ASOCIACION O DEPENDENCIA ENTRE DOS VARIABLES<br />
CUALITATIVAS (O CATEGÓRICAS)<br />
Aplicación <strong>de</strong> las pruebas:<br />
• Chi cuadrado <strong>de</strong> Pearson para tablas <strong>de</strong> contingencia 2 x n<br />
y n x n.<br />
Karl Pearson (Londres 27 <strong>de</strong> marzo <strong>de</strong> 1857- Londres, 27 <strong>de</strong> abril <strong>de</strong> 1936) fue<br />
un prominente científico, matemático y pensador británico, que estableció la<br />
disciplina <strong>de</strong> la estadística matemática. Desarrolló una intensa investigación<br />
sobre la aplicación <strong>de</strong> los métodos estadísticos en la biología y fue el fundador<br />
<strong>de</strong> la bioestadística. Fue un positivista radical y en 1901, junto con Galton y<br />
Walter Frank Raphael Weldon, fundó la revista Biometrika<br />
73
PROBLEMA: Se quiere estudiar la posible asociación entre el hecho <strong>de</strong> que una<br />
gestante fume durante el embarazo y que el niño presente bajo peso al nacer.<br />
¿El peso <strong>de</strong>l niño al nacer (Var. Cuantitativa categorizada) ,<br />
<strong>de</strong>pen<strong>de</strong> o se asocia con el hábito <strong>de</strong> fumar <strong>de</strong> la gestante <br />
VARIABLES:<br />
• Peso <strong>de</strong>l niño (Bajo – normal). Aunque es una variable cuantitativa, al<br />
categorizarse, adopta la forma <strong>de</strong> cualitativa. (Variable DEPENDIENTE)<br />
• Habito <strong>de</strong> Fumar (Si – No). (Variable In<strong>de</strong>pendiente)<br />
74
Mirando la asociación:<br />
33,8%<br />
61,2%<br />
Hay un 61,2% <strong>de</strong><br />
niños con BAJO<br />
PESO entre las<br />
mujeres que fuman,<br />
frente al 33,8% <strong>de</strong><br />
bajo peso, entre las<br />
que No Fuman.<br />
75
PROBANDO LA ASOCIACIÓN:<br />
1. PRUEBA DE CHI CUADRADO:<br />
HIPÓTESIS: H 0 : O = E En la distribución aleatoria (NO ASOCIACIÓN);<br />
H 1 : O ≠ E En la distribución aleatoria ( ASOCIACIÓN).<br />
O = Frecuencia absoluta Observada.<br />
E = Frecuencia absoluta Esperada en la distribución aleatoria (No asociación).<br />
¿Cómo calcular el valor esperado<br />
Con base en la proporción <strong>de</strong>:<br />
-PESO BAJO en el Total: 87/174<br />
-PESO NORMAL en el Total: 87/174<br />
¿Cuál es la frecuencia ESPERADA <strong>de</strong> “BAJO” en SI FUMA: 103 x 87/174 = 51,5<br />
¿Cuál es la frecuencia ESPERADA <strong>de</strong> “BAJO” en NO FUMA: 71 x 87/174 = 35,5<br />
Hacer el mismo cálculo, para PESO NORMAL.<br />
76
P < 0,005<br />
12,59<br />
Con 1 gl., se i<strong>de</strong>ntifica asociación significativa estadísticamente (p < 0,005), entre el<br />
hábito <strong>de</strong> fumar y el peso bajo <strong>de</strong> los niños, al nacer.<br />
Grados <strong>de</strong> libertad (gl.) en una tabla <strong>de</strong> contingencia: (C – 1) (F – 1).<br />
77
PROBANDO LA ASOCIACIÓN:<br />
2. PRUEBA Odds Ratio: Relación <strong>de</strong> Ventajas<br />
Ventaja <strong>de</strong> “BAJO” a “NORMAL”:<br />
HIPÓTESIS:<br />
H0: OR = 1<br />
OR ≠ 1<br />
H1: OR > 1 (Riesgo)<br />
OR < 1 (Protección)<br />
La relación PESO “BAJO a NORMAL”, en Fumadoras es 3,08 veces mayor, que la<br />
misma relación en no Fumadoras. Es <strong>de</strong>cir : FUMAR es un factor <strong>de</strong> riego para<br />
BAJO PESO <strong>de</strong> los niños al nacer.<br />
78
NOTA. Para que el análisis <strong>de</strong> las<br />
variables cualitativas sea confiable, el<br />
tamaño <strong>de</strong> la muestra <strong>de</strong>be ser lo<br />
suficientemente gran<strong>de</strong>, para<br />
asegurar que en las tablas <strong>de</strong><br />
contingencia hayan al menos 5 datos<br />
esperados por celda.<br />
79
DISEÑO DEL EXPERIMENTO PARA IDENTIFICAR ASOCIACIÓN ENTRE<br />
VARIABLES CUALITATIVAS:<br />
INVESTIGACIÓN CON EXPERIMENTO OBSERAVCIONAL:<br />
1. TRANSVERSAL O TRANSSECCIONAL: De la población objeto (o <strong>de</strong> su Marco<br />
Muestral), se toma una muestra aleatoria.<br />
Ej. De entre los nacimientos <strong>de</strong> varones en los diferentes centros <strong>de</strong> salud, durante<br />
mínimo seis meses, se toma una muestra <strong>de</strong> recién nacidos (Qué tamaño <strong>de</strong> muestra)<br />
y se clasifican en niños <strong>de</strong> PESO NORMAL y NIÑOS DE PESO BAJO.<br />
Mediante encuesta directa se divi<strong>de</strong>n a las madres en fumadoras y no fumadoras. Las<br />
fumadoras <strong>de</strong>ben haberlo hecho <strong>de</strong>s<strong>de</strong> al menos seis meses antes <strong>de</strong>l embarazo y<br />
durante el embarazo.<br />
Este diseño solo es recomendable, si las categorías <strong>de</strong> la variable in<strong>de</strong>pendiente<br />
(Fumar: Si, No) y <strong>de</strong> la <strong>de</strong>pendiente (Peso: Bajo, Normal), son relativamente altas y<br />
próximas, <strong>de</strong> lo contrario, los grupos serán muy <strong>de</strong>siguales en tamaño.<br />
80
2. LONGITUDINAL TIPO CASOS Y CONTROLES: De entre los nacimientos <strong>de</strong><br />
varones en los diferentes centros <strong>de</strong> salud, se i<strong>de</strong>ntifican niños <strong>de</strong> bajo peso e igual<br />
número <strong>de</strong> niños <strong>de</strong> peso normal, <strong>de</strong> características semejantes (Grupo étnico,<br />
proce<strong>de</strong>ncia, etc.), (Qué tamaño <strong>de</strong> muestra).<br />
Luego se les hará seguimiento retrospectivo a sus respectivas madres, para<br />
<strong>de</strong>terminar si han fumado en el pasado, con el fin <strong>de</strong> clasificarlas en FUMADORAS Y<br />
NO FUMADORAS.<br />
Se registrarán, a<strong>de</strong>más, otras variables <strong>de</strong> interés en el estudio.<br />
La ventaja <strong>de</strong>l diseño: CASOS Y CONTROLES, es que las dos categoría <strong>de</strong> la<br />
variable DEPENDIENTE (PESO: BAJO, NORMAL), son iguales.<br />
81
7.2 ANÁLISIS MULTIVARIANTE: REGRESIÓN LOGÍSTICA. La<br />
variable DEPENDIENTE es cualitativa dicotómica.<br />
I<strong>de</strong>ntificar FACTORES asociados con una VARIABLE CUALITATIVA BINOMIAL O<br />
DICOTÓMICA.<br />
IDENTIFICAR FACTORES DE RIESGO<br />
La variables cualitativa es un atributo “MALO”, por ejemplo: UNA ENFERMEDAD<br />
(Enfermo, Sano)<br />
¿Cuáles son los factores <strong>de</strong> riesgo asociados con el BAJO PESO DE LOS<br />
NIÑOS AL NACER.<br />
¿Cuáles son los factores <strong>de</strong> riesgo asociados con el CÁNCER DE<br />
PULMÓN.<br />
IDENTIFICAR FACTORES FAVORECEDORES<br />
La variables cualitativa es un atributo “BUENO”, por ejemplo: AGUA POTABLE (SI. NO)<br />
¿Qué factores favorecen la POTABILIDAD DEL AGUA<br />
82
En este análisis se busca i<strong>de</strong>ntificar una ecuación <strong>de</strong>l tipo:<br />
Ln (Odds) = ln (Ventajas) = ln (BAJO / NORMAL) = b0 + b1X1 ……bkXk<br />
b0: Constante. b1: Coeficiente <strong>de</strong> regresión logística. X: Variable cualitativa o<br />
cuantitativa.<br />
Odds = Ventaja = BAJO / NORMAL<br />
Odds Ratio: es una medida relativa <strong>de</strong> asociación.<br />
Cuando OR = 1, No es factor <strong>de</strong> riesgo, ni preventivo.<br />
Cuando OR > 1. Factor <strong>de</strong> riesgo (Enfermedad) o Favorecedor (Rasgo bueno).<br />
Cuando OR < 1. Factor preventivo (Enfermedad) o NO Favorecedor (Rasgo bueno).<br />
83
VARIABLE DEPENDIENTE (Y)<br />
VARIABLES INDEPENDIENTES (Xi)<br />
84
CODIFICACIÓN EN LA BASE DE DATOS<br />
Para este análisis, el nivel o GRUPO <strong>de</strong> referencia en cada variable, <strong>de</strong>be tener el<br />
código mas bajo (0)<br />
Ejemplos:<br />
PESO DE LOS NIÑOS: NORMAL= 0 (Grupo referente), BAJO = 1<br />
FUMAR: NO = 0 (Grupo referente)<br />
SI = 1<br />
GEN GSTM1: NORMAL = 0 (Grupo referente) MUTADO = 1<br />
GEN GSTT1: NORMAL = 0 (Grupo referente) MUTADO = 1<br />
85
Regresión Logística Binaria<br />
Coeficiente <strong>de</strong> regresión log.<br />
OR<br />
BIVARIANTE:<br />
Mo<strong>de</strong>lo sin ajustar<br />
OR = 3,08<br />
MULTIVARIANTE:<br />
Mo<strong>de</strong>lo ajustado con base<br />
en todas las variables.<br />
OR = 2,9<br />
Mo<strong>de</strong>lo ajustado con base solo en las<br />
variables significativas. OR = 3,04<br />
La relación “PESO BAJO a NORMAL”,<br />
en Fumadoras es 3,04 veces mayor, que<br />
la misma relación en no Fumadoras y<br />
2,2 veces mayor en el genotipo mutado<br />
que en el normal .<br />
86<br />
Al parecer, NO hay factores <strong>de</strong> confusión para FUMAR, puesto que su B, no cambia. Se aproxima a 1,1
8. ANÁLISIS MULTIVARIANTE<br />
DESCRIPTIVO<br />
ANÁLISIS DE COMPONENTES PRINCIPALES<br />
ANÁLISIS DE CONGLOMERADOS (CLUSTER)<br />
87
8.1 ANALISIS DE COMPONENTES PRINCIPALES (ACP).<br />
METODO REDUCCIONAL: Método <strong>de</strong>scriptivo reduccional, cuyo<br />
fin es i<strong>de</strong>ntificar alguna estructura subyacente en la población,<br />
que se manifieste en la asociación lineal <strong>de</strong> algunas variables.<br />
El objetivo es, por lo tanto, i<strong>de</strong>ntificar grupos <strong>de</strong> variables<br />
que correlacionen entre si (Factores) y que las variables <strong>de</strong><br />
grupos o factores diferentes, sean in<strong>de</strong>pendientes (No<br />
asociadas o correlacionadas).<br />
Técnica estadística <strong>de</strong> síntesis <strong>de</strong> la información, o reducción <strong>de</strong> la<br />
dimensión (número <strong>de</strong> variables).<br />
Los nuevos componentes principales o factores serán una<br />
combinación lineal <strong>de</strong> las variables originales, y a<strong>de</strong>más, serán<br />
in<strong>de</strong>pendientes entre sí.<br />
88
Base <strong>de</strong> datos correspondiente a una investigación para i<strong>de</strong>ntificar variables fisicoquímicas<br />
<strong>de</strong> diferentes sitios <strong>de</strong> un río.<br />
89
• Análisis <strong>de</strong> Componentes Principales: Para este análisis, lo primero que se hace<br />
es un análisis <strong>de</strong> Correlación lineal simple <strong>de</strong> Pearson.<br />
Se observa alta correlación positiva entre variables como: Conductividad, sólidos<br />
disueltos, salinidad, turbi<strong>de</strong>z, OD. Estas variables también correlacionan con<br />
temperatura y pH pero en forma negativa. 90
Varianza <strong>de</strong> cada variable en unida<strong>de</strong>s tipificada (Z).<br />
La varianza total <strong>de</strong> la población es la sumatoria <strong>de</strong> las<br />
varianzas <strong>de</strong> las variables. En este caso es = 11.<br />
R2: Coeficiente <strong>de</strong> <strong>de</strong>terminación múltiple.<br />
Se escogen como<br />
componentes principales,<br />
aquellos cuya varianza<br />
(autovalor) sea 1 o mayor. Es<br />
<strong>de</strong>cir que incluya UNA o MÁS<br />
variables.<br />
En este caso, se han i<strong>de</strong>ntificado 4 Componentes principales, que, en total, explican<br />
el 79,62% <strong>de</strong> la varianza total.<br />
Para explicar el 100% <strong>de</strong> la variabilidad, se necesitan 11 componentes (Todas las<br />
variables).<br />
91
Se han i<strong>de</strong>ntificado CUATRO<br />
componentes principales.<br />
En la tabla se muestran los coeficientes<br />
<strong>de</strong> correlacion <strong>de</strong> cada variable con cada<br />
componente.<br />
Ej. La variable que mejor correlaciona con<br />
el componente 1 es la conductividad y la<br />
peor es el Potencial Oxido-Redox.<br />
¿Qué variables correlacionan mejor con cada componente:<br />
Análisis <strong>de</strong> Factores.<br />
92
FACTORES: Para <strong>de</strong>terminar con mayor precisión los factores o grupos que incluyen a<br />
las variables, se hace una ROTACION ORTOGONAL (u Oblicua o no ortogonal). Las<br />
variables <strong>de</strong> un mismo factor, se asume que tienen información relacionada o “hablan<br />
<strong>de</strong> lo mismo”.<br />
Se han i<strong>de</strong>ntificado 4 grupos o factores, asi:<br />
FACTOR 1: Incluye: Conductividad,<br />
Salinidad, SDT y Turbi<strong>de</strong>z, asociadas<br />
positivamente. pH y Temperatura asociadas<br />
negativamente con el factor.<br />
FACTOR 2: Con Fosfatos y DQO, ambos<br />
asociados positivamente.<br />
FACTOR 3: Incluye al Potencial Oxido-<br />
Redox (Positivo) y OD (Negativo).<br />
FACTOR 4: Solo con la variable NITRITOS.<br />
Aunque no hay regla fija, una variable se incluye en un COMPONENTE, cuando<br />
su correlación es ≥ 0,50. Si una variable carga o entra en dos o más<br />
componentes, lo mejor es excluirla <strong>de</strong>l análisis.<br />
93
8.2 ANÁLSIS DE “CLUSTER” (Árbol o <strong>de</strong>ndograma): METODO CLASIFICATORIO<br />
Es un método <strong>de</strong>scriptivo clasificatorio <strong>de</strong> los casos, unida<strong>de</strong>s <strong>de</strong> muestreo o unida<strong>de</strong>s<br />
experimentales (Filas).<br />
En este ejemplo, se clasificarán los TEJIDOS VEGETALES, <strong>de</strong>s<strong>de</strong> el punto <strong>de</strong> vista <strong>de</strong><br />
sus componentes químicos y <strong>de</strong>terminar si la clasificación o “cluster” concuerda con la<br />
planta <strong>de</strong> origen.<br />
POBLACIÓN OBJETO DE ESTUDIO: TEJIDOS VEGETALES DE DIFERENTES PLANTAS .<br />
VARIABLES: Composición Química<br />
CASOS:<br />
Tejidos<br />
vegetales<br />
94
Los tejidos 1, 2 y 3<br />
son semejantes<br />
respecto <strong>de</strong> variables<br />
como: Ca, Mg, K, Fe,<br />
Cu, Mn, Zn y Al.<br />
Deben pertenecer al<br />
mismo “cluster” o<br />
grupo.<br />
OBJETIVO: Formar grupos homogéneos. Agrupar a las unida<strong>de</strong>s <strong>de</strong> muestreo<br />
con base en su cercania respecto <strong>de</strong> una serie <strong>de</strong> variables cuantitativas.<br />
Los casos <strong>de</strong> cada grupo se parecen, pero difieren <strong>de</strong> las unida<strong>de</strong>s <strong>de</strong> otros<br />
grupos.<br />
Cuando las variables utilizadas para formar los grupos se expresan en unidaes<br />
distintas (gramos, metros, ppm, etc), los datos <strong>de</strong>ben tipificarse (valores Z)<br />
para que que<strong>de</strong>n en la misma unidad <strong>de</strong> medida.<br />
Las unida<strong>de</strong>s <strong>de</strong> muestreo (Casos), pue<strong>de</strong>n ser simples individuos (Personas,<br />
plantas, animales) o ciertos conjuntos como: instituciones, ciuda<strong>de</strong>s, especies<br />
<strong>de</strong> animales, especies vegetales, grupos sociales, etc.<br />
95
Los casos fueron<br />
dispuestos en cuatro<br />
grupos.<br />
Al parecer, las<br />
variables<br />
seleccionadas para el<br />
agrupamiento<br />
(Composición<br />
química), permitieron<br />
formar tantos grupos<br />
como las fuentes <strong>de</strong><br />
tejido utilizadas para<br />
extraer las muestras<br />
que se sometieron a<br />
análisis químico.<br />
96
NOTA: Para estos análisis se recomienda un tamaño <strong>de</strong> muestra:<br />
Entre 10 a 20 UE o UM por variable<br />
97