13.07.2015 Views

M2-Medidas de tendencia central y de dispersión

M2-Medidas de tendencia central y de dispersión

M2-Medidas de tendencia central y de dispersión

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

SEMINARIO DEINVESTIGACIÓNCIENTÍFICACátedra <strong>de</strong> Bioestadística eInformáticaMaterial <strong>de</strong> Lectura 2Este material es recopilación <strong>de</strong>l libro “Estadística para lasCiencias Sociales”, <strong>de</strong> Ferris J. Ritchey, 2007.Dina Raquel Paniagua C.dinabox@hotmail.com


SEMINARIO DE INVESTIGACIÓN CIENTÍFICACÁTEDRA DE BIOESTADÍSTICA E INFORMÁTICACompendioMaterial <strong>de</strong> los <strong>de</strong>capítulos lectura 2IV y V <strong>de</strong>lESTIMACIÓNDE PROMEDIOSIntroducciónTodos estamos familiarizados con el concepto general <strong>de</strong> promedio: calificación promedio,ingreso promedio, puntuación promedio, etc. Si alguien tiene un “promedio” <strong>de</strong> algunamanera —altura, peso, inteligencia, etc.— esta persona no es atípica. Poseer un promediosignifica ser como la mayoría <strong>de</strong> las personas.En una distribución <strong>de</strong> puntuaciones, un promedio caerá entre las puntuacionesextremas, en alguna parte <strong>de</strong>l área media <strong>de</strong> la distribución <strong>de</strong> puntuaciones. Por ejemplo, lamayoría <strong>de</strong> los hombres no son <strong>de</strong>masiado altos o bajos; están sobre el “promedio”.Llamamos a esta puntuación típica la ten<strong>de</strong>ncia <strong>central</strong> <strong>de</strong> la variable. Un estadígrafo <strong>de</strong>ten<strong>de</strong>ncia <strong>central</strong> proporciona una estimación <strong>de</strong> la puntuación típica, común o normalencontrada en una distribución <strong>de</strong> puntuaciones en bruto. Por ejemplo, las alturas <strong>de</strong> loshombres [paraguayos] tien<strong>de</strong>n a agruparse alre<strong>de</strong>dor <strong>de</strong> los 1.69 metros. O, por ejemplo, si[Roberto] tiene un promedio <strong>de</strong> 165 puntos en el boliche, no esperamos que obtenga esapuntuación exacta en cada juego, pero conseguirá cercanamente esa puntuación la mayoría <strong>de</strong>las veces.Existen tres estadígrafos <strong>de</strong> ten<strong>de</strong>ncia <strong>central</strong> comunes: la media, la mediana y lamoda. ¿Por qué tres? Porque cada una tiene fortalezas, pero también <strong>de</strong>bilida<strong>de</strong>s potenciales.En ocasiones, informar cualquier estadígrafo <strong>de</strong> ten<strong>de</strong>ncia <strong>central</strong> solo, conduciría a errores ono proporcionaría información suficiente.La mediaLa media aritmética <strong>de</strong> una distribución <strong>de</strong> puntuaciones (o simplemente media) consiste enun estadígrafo <strong>de</strong> ten<strong>de</strong>ncia <strong>central</strong> que es familiar a cualquier estudiante que haya calculadoel promedio <strong>de</strong> las calificaciones en un examen para algún curso. La media es la suma <strong>de</strong>todas las puntuaciones dividida entre el número <strong>de</strong> puntuaciones observadas (es <strong>de</strong>cir, eltamaño <strong>de</strong> la muestra).La media es el estadígrafo <strong>de</strong> ten<strong>de</strong>ncia <strong>central</strong> más útil. Con un cálculo matemáticorápido, ofrece un resumen <strong>de</strong> las puntuaciones típicas o promedio <strong>de</strong> una distribución. Puestoque emplea la operación matemática <strong>de</strong> división, la media se aplica a las variables <strong>de</strong>intervalo/razón.C o m p e n d i o d e l o s c a p í t u l o s I V y V d e ll i b r o d e F e r r i s R i t c h e y “ E s t a d í s t i c ap a r a l a s C i e n c i a s S o c i a l e s ”2


SEMINARIO DE INVESTIGACIÓN CIENTÍFICACÁTEDRA DE BIOESTADÍSTICA E INFORMÁTICACompendioMaterial <strong>de</strong> los <strong>de</strong>capítulos lectura 2IV y V <strong>de</strong>lPara una variable X (cualquier variable <strong>de</strong> intervalo/razón que <strong>de</strong>finamos), el símbolopara la media calculada con esos datos <strong>de</strong> la muestra es X , que se lee “X barra”, y se calculacomo sigue:don<strong>de</strong>X = media <strong>de</strong> la variable∑ XX =nΣX = la suma <strong>de</strong> todas las puntuaciones individuales para la variable Xn = el número <strong>de</strong> observaciones (tamaño <strong>de</strong> la muestra)La media no dice cuáles serían las puntuaciones X en una muestra si cada sujeto <strong>de</strong> lamuestra tuviera la misma puntuación. Es útil, entonces, pensar en la media como unamedición <strong>de</strong> “partes iguales”. La media también pue<strong>de</strong> ser consi<strong>de</strong>rada como un punto <strong>de</strong>equilibrio, es <strong>de</strong>cir, el punto en el cual se equilibran las diferencias entre la media <strong>de</strong> X y laspuntuaciones individuales <strong>de</strong> X en la distribución.Al calcular los estadígrafos <strong>de</strong> ten<strong>de</strong>ncia <strong>central</strong>, particularmente la media, <strong>de</strong>betenerse cuidado para no incluir las puntuaciones codificadas como casos perdidos. Al<strong>de</strong>terminar la media sólo se incluyen los casos “válidos”. Por ejemplo, si en una muestra <strong>de</strong>49 personas 2 no informaron sus eda<strong>de</strong>s, la suma <strong>de</strong> eda<strong>de</strong>s se dividiría entre 47 —el número<strong>de</strong> puntuaciones válidas— en lugar <strong>de</strong> dividirla entre el tamaño <strong>de</strong> la muestra (49).Como la media es el estadígrafo <strong>de</strong> ten<strong>de</strong>ncia <strong>central</strong> más ampliamente usado, esimportante que tengamos un buen sentido <strong>de</strong> proporción respecto <strong>de</strong> su cálculo. Una situacióndon<strong>de</strong> se comete un error común suele ser cuando combinamos las medias <strong>de</strong> dos grupossumando las dos medias y dividiendo el resultado entre 2. Por ejemplo, observe el número <strong>de</strong>días <strong>de</strong> vacaciones por año (X) para el grupo 1 (ocho secretarias <strong>de</strong> un banco), y para el grupo2 (tres vicepresi<strong>de</strong>ntes):XX( grupo1)( grupo2)ΣX=n( grupo1)( grupo1)7 + 10 + 7 + 12 + 16 + 7 + 14 + 10=883= = 10.38 días <strong>de</strong> vacaciones8ΣX=n( grupo2)( grupo2)60 + 30 + 30=3120= = 40.00 días <strong>de</strong> vacaciones3Si calculamos incorrectamente la media <strong>de</strong> la oficina completa sumando estas dosmedias y dividiendo el resultado entre 2, obtendríamos la respuesta errónea <strong>de</strong> 25.19 días <strong>de</strong>vacaciones. El cálculo correcto para esta media combinada es:C o m p e n d i o d e l o s c a p í t u l o s I V y V d e ll i b r o d e F e r r i s R i t c h e y “ E s t a d í s t i c ap a r a l a s C i e n c i a s S o c i a l e s ”3


SEMINARIO DE INVESTIGACIÓN CIENTÍFICACÁTEDRA DE BIOESTADÍSTICA E INFORMÁTICACompendioMaterial <strong>de</strong> los <strong>de</strong>capítulos lectura 2IV y V <strong>de</strong>lX( grupo1+grupo2)ΣX=n( grupo1)( grupo1)+ ΣX+ n( grupo2)( grupo2)83 + 120 203= = = 18.45 días <strong>de</strong> vacaciones8 + 3 11Cuando se reporta un estadígrafo <strong>de</strong> ten<strong>de</strong>ncia <strong>central</strong>, ten<strong>de</strong>mos a suponer que suvalor es representativo <strong>de</strong> puntuaciones típicas en la parte <strong>central</strong> <strong>de</strong> una distribución. Enocasiones, cuando se informa la media, pue<strong>de</strong> conducir a errores al respecto. Éste es el casoporque el cálculo <strong>de</strong> la media pue<strong>de</strong> inflarse (aumentar) o <strong>de</strong>sinflarse (disminuir) <strong>de</strong>bido apuntuaciones o valores extremos. Puntuaciones muy altas, inflan el valor <strong>de</strong> la media“agrandando” la suma <strong>de</strong> X (es <strong>de</strong>cir, ΣX). Puntuaciones sumamente bajas, o valores extremosnegativos, <strong>de</strong>sinflan el valor <strong>de</strong> la media “encogiendo” ΣX. Por ejemplo, suponga quecalculamos la media <strong>de</strong>l dinero en efectivo que llevan 10 estudiantes. I<strong>de</strong>almente, esta media<strong>de</strong>be indicarnos cuál es la cantidad típica. Pero suponga que un estudiante cobró un chequepor $400. Nuestro cálculo, por razones obvias, daría como resultado una media que norepresenta la cantidad promedio o la ten<strong>de</strong>ncia <strong>central</strong> que los alumnos suelen portar enefectivo. En este caso la media es engañosa.El cálculo <strong>de</strong> la media se distorsiona por la presencia <strong>de</strong> un valor extremo. Tengapresente que nuestro objetivo es usar estadígrafos para estimar los parámetros <strong>de</strong> unapoblación. Si se reporta una media muestral inflada o disminuida, se presentará un resumendistorsionado <strong>de</strong> las puntuaciones <strong>de</strong> la población. Esta limitación <strong>de</strong> la media es un problemaespecial con muestras pequeñas; cuanto menor sea la muestra, mayor será la distorsión quegenere un valor extremo. En tales casos, los valores extremos <strong>de</strong>ben eliminarse, y la media<strong>de</strong>be calcularse <strong>de</strong> nuevo sin ellos.La medianaLa mediana (Mdn) es la puntuación <strong>de</strong> la mitad en una distribución or<strong>de</strong>nada —aquel valor<strong>de</strong> una variable que divi<strong>de</strong> la distribución por la mitad, la puntuación por arriba <strong>de</strong> la cualqueda la mitad <strong>de</strong> los casos y por <strong>de</strong>bajo queda la otra mitad—. Por ejemplo, si la media <strong>de</strong>lingreso <strong>de</strong> los hogares en la Ciudad [Hernadarias] es <strong>de</strong> [Gs 1.200.000], la mitad <strong>de</strong> loshogares <strong>de</strong> esta ciudad tienen ingresos mayores a Gs 1.200.000; y la otra mitad, ingresosmenores a Gs 1.200.000. Conceptualmente, la mediana es un punto <strong>de</strong> localización —lapuntuación <strong>de</strong> la mitad—. La mediana es igual al percentil 50, es el punto en el que 50 porciento <strong>de</strong> las observaciones caen <strong>de</strong>bajo. Entre los tres estadígrafos <strong>de</strong> ten<strong>de</strong>ncia <strong>central</strong>, lamediana es más útil cuando la distribución está sesgada (es <strong>de</strong>cir, tiene pocas puntuacioneshacia un lado). Por ejemplo, la mediana <strong>de</strong>l precio <strong>de</strong> las ventas recientes <strong>de</strong> viviendas espreferible a la media <strong>de</strong>l precio, porque unas cuantas ventas <strong>de</strong> alto precio incrementará elvalor <strong>de</strong> la media.Para calcular la mediana <strong>de</strong> una distribución, primero <strong>de</strong>ben or<strong>de</strong>narse laspuntuaciones para una variable X; es <strong>de</strong>cir, las puntuaciones <strong>de</strong>ben colocarse en or<strong>de</strong>n <strong>de</strong>tamaño, <strong>de</strong> menor a mayor o <strong>de</strong> mayor a menor. Divida el tamaño <strong>de</strong> la muestra n entre 2 paraacercarse a la puntuación <strong>de</strong> la mitad en la distribución. Si n es un número impar, la medianaC o m p e n d i o d e l o s c a p í t u l o s I V y V d e ll i b r o d e F e r r i s R i t c h e y “ E s t a d í s t i c ap a r a l a s C i e n c i a s S o c i a l e s ”4


SEMINARIO DE INVESTIGACIÓN CIENTÍFICACÁTEDRA DE BIOESTADÍSTICA E INFORMÁTICACompendioMaterial <strong>de</strong> los <strong>de</strong>capítulos lectura 2IV y V <strong>de</strong>lserá un caso real en la muestra. Si n es un número par, la mediana se localiza entre las dospuntuaciones <strong>de</strong> la mitad y se calcula tomando la media <strong>de</strong> esas dos puntuaciones. Mire loejemplos:Para n impar:Ubicación <strong>de</strong> la MdnOr<strong>de</strong>n <strong>de</strong> los casos 1 2 3 4 5Valores <strong>de</strong> X $ 3 540 $ 4 675 $ 7 350 $ 9 860 $ 19 000Mdn = un valor <strong>de</strong> XUbicación <strong>de</strong> la MdnPara n par:Ubicación <strong>de</strong> la MdnOr<strong>de</strong>n <strong>de</strong> los casos 1 2 3 4 5 6Valores <strong>de</strong> X $ 3 540 $ 4 675 $ 7 350 $ 9 860 $ 19 000 $ 20 000Mdn = $ 8 605La mediana pue<strong>de</strong> utilizarse con variables <strong>de</strong> intervalo/razón, así como con variablesordinales.Como la mediana se basa en la ubicación or<strong>de</strong>nada <strong>de</strong> puntuaciones en unadistribución, es insensible a los valores <strong>de</strong> las puntuaciones; es <strong>de</strong>cir, sin tener en cuenta losvalores <strong>de</strong> X que la ro<strong>de</strong>an, la mediana es la puntuación <strong>de</strong> la mitad <strong>de</strong>terminada por elnúmero <strong>de</strong> puntuaciones (n) en la muestra. Por ejemplo, las siguientes dos distribuciones <strong>de</strong>puntuaciones en un examen tiene la misma mediana; aunque estén compuestas <strong>de</strong>puntuaciones muy diferentes:Aula 1: 39, 51, 77, 78, 81MdnAula 2: 74. 75, 77, 94, 98Afirmar que la calificación promedio <strong>de</strong>l examen en ambas clases es 77 seríaimpreciso porque sugiere que las dos tuvieron igual <strong>de</strong>sempeño. (De hecho, el aula 2 lo hizomucho mejor, con una media <strong>de</strong> 83.6, comparado con la media <strong>de</strong> 65.2 para el aula 1). Lamediana no se afecta por los valores X.C o m p e n d i o d e l o s c a p í t u l o s I V y V d e ll i b r o d e F e r r i s R i t c h e y “ E s t a d í s t i c ap a r a l a s C i e n c i a s S o c i a l e s ”5


SEMINARIO DE INVESTIGACIÓN CIENTÍFICACÁTEDRA DE BIOESTADÍSTICA E INFORMÁTICACompendioMaterial <strong>de</strong> los <strong>de</strong>capítulos lectura 2IV y V <strong>de</strong>lPero, mientras que es insensible para los valores X, la mediana es sensible a cualquiercambio en el tamaño <strong>de</strong> la muestra (n). Por ejemplo, suponga que en el aula 1 dos estudianteshacen el examen tar<strong>de</strong>; lo realizan mal, que es típico <strong>de</strong> estudiantes que llegan tar<strong>de</strong> a unaevaluación. Cuando sus puntuaciones se incluyen en la distribución, la mediana cambiadrásticamente <strong>de</strong> 71 a 51:Aula 1 (incluyendo puntuaciones tardías): 34, 36, 39, 51, 77, 78, 81La mediana, entonces, tiene dos <strong>de</strong>bilida<strong>de</strong>s potenciales: 1) es insensible para losvalores <strong>de</strong> las puntuaciones en una distribución, y 2) es sensible a cualquier cambio en eltamaño <strong>de</strong> la muestra. Antes <strong>de</strong> reportar la mediana asegúrese <strong>de</strong> que ninguna <strong>de</strong> estas<strong>de</strong>bilida<strong>de</strong>s potenciales lo llevará a conclusiones erróneas.MdnLa modaLa moda (Mo) es la puntuación que ocurre con mayor frecuencia en una distribución.Conceptualmente, la moda es la puntuación “más popular”.Una nota precautoria. No confunda la moda (la “puntuación que ocurre con mayorfrecuencia”) con la “mayoría <strong>de</strong> las puntuaciones”. Una mayoría simple sería “más <strong>de</strong> lamitad” o 50 por ciento <strong>de</strong> los casos en una muestra más por lo menos, uno.La moda es útil con variables <strong>de</strong> todos los niveles <strong>de</strong> medición. La moda es fácil <strong>de</strong>reconocer en un gráfico. En un gráfico <strong>de</strong> pastel, es la categoría con la rebanada más gran<strong>de</strong>;en un gráfico <strong>de</strong> barras, la barra más alta; en un histograma, la columna más alta; en unpolígono, la puntuación <strong>de</strong>l punto más alto, o el pico.En general, por sí misma la moda es el estadígrafo <strong>de</strong> ten<strong>de</strong>ncia <strong>central</strong> menos útilporque tiene un alcance informativo limitado. Mientras i<strong>de</strong>ntifica la puntuación que ocurremás frecuentemente, no sugiere nada sobre las puntuaciones que ocurren alre<strong>de</strong>dor <strong>de</strong> estevalor <strong>de</strong> la puntuación. Así, la moda es muy útil cuando se presenta en conjunto con lamediana y la media.La moda pue<strong>de</strong> ser engañosa cuando se usa sola porque es insensible tanto a losvalores <strong>de</strong> las puntuaciones en una distribución como al tamaño <strong>de</strong> la muestra. Esto significaque usted pue<strong>de</strong> tener cualquier número <strong>de</strong> distribuciones con formas totalmente diferentes, yaún todas podrían tener la misma moda.Existe al menos una situación en la cual la moda es un estadígrafo <strong>de</strong> ten<strong>de</strong>ncia <strong>central</strong>apropiado por sí mismo e informar la media y la mediana es confuso. Ocurre cuando laspuntuaciones <strong>de</strong> X son en esencia <strong>de</strong>l mismo valor para todos los casos, excepto para unoscuantos. Un ejemplo es la estructura <strong>de</strong> sueldos en los restaurantes <strong>de</strong> comida rápida, don<strong>de</strong>todos, excepto los gerentes, tienen un mismo sueldo bajo (ver tabla 4). La media aquí es [Gs10.719], y está “inflada” por las puntuaciones extremas <strong>de</strong> los sueldos <strong>de</strong> los gerentes. Paraalguien que busca empleo, esta media <strong>de</strong>ja la falsa impresión <strong>de</strong> que el restaurante, enpromedio, ofrece un sueldo por arriba <strong>de</strong>l sueldo mínimo. La mediana es [Gs 8.125], igual queC o m p e n d i o d e l o s c a p í t u l o s I V y V d e ll i b r o d e F e r r i s R i t c h e y “ E s t a d í s t i c ap a r a l a s C i e n c i a s S o c i a l e s ”6


SEMINARIO DE INVESTIGACIÓN CIENTÍFICACÁTEDRA DE BIOESTADÍSTICA E INFORMÁTICACompendioMaterial <strong>de</strong> los <strong>de</strong>capítulos lectura 2IV y V <strong>de</strong>lla moda; pero informar esta mediana lleva a la interpretación incorrecta <strong>de</strong> que la mitad <strong>de</strong> losempleados ganan más que esa cantidad, lo cual no es el caso. Informar la moda, [Gs 8.125],significa que a muchos empleados se les paga este sueldo bajo.TABLA 4Distribución <strong>de</strong> sueldos en un restaurante <strong>de</strong> comida rápidaSueldo (Gs) f Clasificación <strong>de</strong> empleados8.125 13 Empleados regulares20.250 2 Gerentes nocturnos25.390 1 Gerente en jefeTotal 16Curvas <strong>de</strong> distribución <strong>de</strong> frecuencias: relacionesentre la media, la mediana y la modaPuesto que cada uno <strong>de</strong> los estadígrafos <strong>de</strong> ten<strong>de</strong>ncia <strong>central</strong> tiene <strong>de</strong>bilida<strong>de</strong>s potenciales,vale la pena observarlos como un conjunto <strong>de</strong> estadígrafos que se van a interpretar juntos.Estos tres estadígrafos son especialmente útiles cuando se examinan <strong>de</strong> manera gráfica. Unaforma informativa <strong>de</strong> enten<strong>de</strong>r la relación entre estos tres estadígrafos consiste en localizar losvalores <strong>de</strong> cada uno en una curva <strong>de</strong> distribución <strong>de</strong> frecuencias.Una curva <strong>de</strong> distribución <strong>de</strong> frecuencias es un sustituto <strong>de</strong> un histograma <strong>de</strong>frecuencias o polígono, don<strong>de</strong> reemplazamos estos gráficos con una curva suavizada. Estasituación es apropiada porque la curva suavizada no se ve tanto como una ilustración <strong>de</strong> ladistribución <strong>de</strong> la muestra, sino más bien como una estimación <strong>de</strong> la manera en que sedistribuyen las puntuaciones en la población. Como con un histograma, las puntuaciones <strong>de</strong>una variable se ilustran <strong>de</strong> izquierda (el más bajo) a <strong>de</strong>recha (el más alto); es <strong>de</strong>cir, laspuntuaciones se or<strong>de</strong>nan sobre el eje horizontal. El área bajo la curva <strong>de</strong> distribución <strong>de</strong>frecuencias representa el número total <strong>de</strong> sujetos <strong>de</strong> la población y es igual a una proporción<strong>de</strong> 1.00 o a un porcentaje <strong>de</strong> 100 por ciento. Nuestra preocupación está en evaluar la forma <strong>de</strong>una distribución y examinar las ubicaciones relativas <strong>de</strong> la media, la mediana y la moda, paraestimar la forma <strong>de</strong> una distribución <strong>de</strong> frecuencias.La distribución normalUna distribución normal es aquella don<strong>de</strong> la media, la mediana y la moda <strong>de</strong> una variable soniguales entre sí y la distribución <strong>de</strong> las puntuaciones tiene forma <strong>de</strong> campana. También nosreferimos a esto como una “curva normal”. La figura 7 ilustra las puntuaciones <strong>de</strong> CI, queestán normalmente distribuidos con una media <strong>de</strong> 100. una distribución normal es simétrica(es <strong>de</strong>cir, equilibrada en cada lado). Su media, mediana y moda se localiza en el centro <strong>de</strong> ladistribución. La presencia <strong>de</strong> mediana aquí asegura la simetría porque, por <strong>de</strong>finición, laC o m p e n d i o d e l o s c a p í t u l o s I V y V d e ll i b r o d e F e r r i s R i t c h e y “ E s t a d í s t i c ap a r a l a s C i e n c i a s S o c i a l e s ”7


SEMINARIO DE INVESTIGACIÓN CIENTÍFICACÁTEDRA DE BIOESTADÍSTICA E INFORMÁTICACompendioMaterial <strong>de</strong> los <strong>de</strong>capítulos lectura 2IV y V <strong>de</strong>lmediana divi<strong>de</strong> por la mitad una distribución or<strong>de</strong>nada <strong>de</strong> puntuaciones. Puesto que la modaestá en el punto <strong>central</strong> <strong>de</strong> una distribución normal, el pico <strong>de</strong> la curva se localiza allí.FIGURA 7Curvas <strong>de</strong> distribución<strong>de</strong> frecuenciascomunes y ubicacionesrelativas <strong>de</strong> la media,la mediana y la moda,don<strong>de</strong> X es unavariable <strong>de</strong> intervalo/razón (datos ficticios)A. La distribución normal o curva normalPuntuaciónbajaX = 100Mdn = 100Mo = 100PuntuaciónaltaX (puntuación CI)B. Distribución positivamente sesgada o sesgo a la <strong>de</strong>rechaX (Ingreso en miles <strong>de</strong> $)Mo = $26 Mdn = $34 X = $46C. Distribución negativamente sesgada o sesgo a la izquierdaX = 76Mdn = 82Mo = 86X (examen <strong>de</strong> grado <strong>de</strong>estudiantes <strong>de</strong> último año)Una distribución sesgada es aquella en la cual la media, la mediana y la moda <strong>de</strong> unavariable son <strong>de</strong>siguales y muchos <strong>de</strong> los sujetos tienen puntuaciones sumamente altas o bajas.Cuando éste es el caso, la distribución se alarga hacia un lado.Como la más <strong>central</strong> <strong>de</strong> los tres estadígrafos, la mediana es el mejor <strong>de</strong> las tres pobresopciones para una distribución sesgada, cuando sólo un estadígrafo <strong>de</strong>be reportarse.C o m p e n d i o d e l o s c a p í t u l o s I V y V d e ll i b r o d e F e r r i s R i t c h e y “ E s t a d í s t i c ap a r a l a s C i e n c i a s S o c i a l e s ”8


SEMINARIO DE INVESTIGACIÓN CIENTÍFICACÁTEDRA DE BIOESTADÍSTICA E INFORMÁTICACompendioMaterial <strong>de</strong> los <strong>de</strong>capítulos lectura 2IV y V <strong>de</strong>lCAPÍTULO5MEDICIÓN DE LADISPERSIÓN O VARIACIÓNEN UNA DISTRIBUCIÓNDE PUNTUACIONESIntroducciónReportar un estadígrafo <strong>de</strong> ten<strong>de</strong>ncia <strong>central</strong> por sí mismo no es suficiente para comunicar laforma <strong>de</strong> una distribución <strong>de</strong> puntuaciones. Dos muestras con las mismas medias pue<strong>de</strong>n tenerformas sumamente diferentes. La figura 8 presenta dos distribuciones <strong>de</strong> eda<strong>de</strong>s: para unamuestra <strong>de</strong> alumnos <strong>de</strong> escuela primaria (<strong>de</strong>s<strong>de</strong> jardín <strong>de</strong> niños hasta sexto grado) y para unaclase <strong>de</strong> tercer grado <strong>de</strong> una segunda escuela. La edad media <strong>de</strong> los alumnos en ambasescuelas es <strong>de</strong> 8.5 años. En la primera escuela, sin embargo, los niños tienen entre 5 y 12años. En la clase <strong>de</strong>l tercer grado <strong>de</strong> la segunda escuela ninguno <strong>de</strong> los alumnos es menor <strong>de</strong> 7o mayor <strong>de</strong> 10 años <strong>de</strong> edad. Aunque estas dos distribuciones <strong>de</strong> eda<strong>de</strong>s tienen la mismaten<strong>de</strong>ncia <strong>central</strong>, sus puntuaciones se dispersan <strong>de</strong> manera muy diferente, con una mayordispersión <strong>de</strong> eda<strong>de</strong>s en la primera escuela.FIGURA 8Comparación <strong>de</strong> ladispersión <strong>de</strong> eda<strong>de</strong>s<strong>de</strong> alumnos en dosmuestras con lasmismas medias.Frecuencia765432105 6 7 8 9 10 11 12Muestra <strong>de</strong> eda<strong>de</strong>s <strong>de</strong> los grados <strong>de</strong> la primera escuelaMedia = 8.5 añosC o m p e n d i o d e l o s c a p í t u l o s I V y V d e ll i b r o d e F e r r i s R i t c h e y “ E s t a d í s t i c ap a r a l a s C i e n c i a s S o c i a l e s ”9


SEMINARIO DE INVESTIGACIÓN CIENTÍFICACÁTEDRA DE BIOESTADÍSTICA E INFORMÁTICACompendioMaterial <strong>de</strong> los <strong>de</strong>capítulos lectura 2IV y V <strong>de</strong>l141210Frecuencia864205 6 7 8 9 10 11 12Muestra <strong>de</strong> eda<strong>de</strong>s <strong>de</strong>l grado 3Media = 8.5 añosEl tema <strong>de</strong> este capítulo es la dispersión, es <strong>de</strong>cir, cómo se extien<strong>de</strong>n las puntuaciones<strong>de</strong> una variable <strong>de</strong> intervalo/razón <strong>de</strong> la menor a la mayor y la forma <strong>de</strong> la distribución entreéstas. Existe un número infinito <strong>de</strong> posibles formas <strong>de</strong> distribución para una variable con unamedia dada. Todas las puntuaciones podrían agruparse alre<strong>de</strong>dor <strong>de</strong> la media con la claraforma <strong>de</strong> una curva <strong>de</strong> campana; pero la curva podría ser <strong>de</strong> diferentes tamaños, <strong>de</strong>pendiendo<strong>de</strong>l tamaño <strong>de</strong> la muestra. O las puntuaciones podrían estar ligera o gran<strong>de</strong>mente sesgadashacia un lado. A<strong>de</strong>más <strong>de</strong> esto, una sola variable pue<strong>de</strong> tener diferentes dispersiones <strong>de</strong> unapoblación a otra. Por ejemplo, el ingreso familiar anual para resi<strong>de</strong>ntes en Estados Unidosvaría <strong>de</strong>s<strong>de</strong> cero hasta <strong>de</strong>cenas <strong>de</strong> millones <strong>de</strong> dólares; mientras el ingreso familiar <strong>de</strong> lospobres que viven en proyectos <strong>de</strong> asistencia social varía <strong>de</strong>s<strong>de</strong> cero hasta unos cuantos miles<strong>de</strong> dólares.Los estadígrafos <strong>de</strong> dispersión permiten <strong>de</strong>scripciones precisas <strong>de</strong> la frecuencia <strong>de</strong>casos en cualquier punto <strong>de</strong> una distribución. Estudiar la dispersión es como pasear hacia atrásy hacia <strong>de</strong>lante a lo largo <strong>de</strong>l eje x <strong>de</strong> un histograma, y observar dón<strong>de</strong> se concentran loscasos. ¿La mayoría <strong>de</strong> los casos cae alre<strong>de</strong>dor <strong>de</strong> la media o están cargados hacia algún lado?¿Cuántos casos caen entre cualesquiera dos puntos? Los dos estadígrafos <strong>de</strong> dispersión másusados son el rango y la <strong>de</strong>sviación estándar.El rango es una expresión <strong>de</strong> cómo las puntuaciones <strong>de</strong> una variable <strong>de</strong>intervalo/razón se distribuyen <strong>de</strong> la menor a la mayor —la distancia entre las puntuacionesmínima y máxima en una muestra—. Se calcula como la diferencia entre las puntuacionesmáxima y mínima.Puesto que el rango utiliza las puntuaciones más extremas <strong>de</strong> una distribución, unvalor extremo inflará enormemente su cálculo. Omitir el valor extremo e indicarlo como unaexcepción es una forma razonable <strong>de</strong> ajustar esta limitación <strong>de</strong>l rango.La <strong>de</strong>sviación estándar es otra medida sumaria <strong>de</strong> la dispersión o la variación <strong>de</strong> laspuntuaciones en una distribución. Este estadígrafo es muy diferente <strong>de</strong>l rango. Al enfocarse enlos extremos <strong>de</strong> la distribución, el rango se aproxima a la dispersión <strong>de</strong>s<strong>de</strong> los “exteriores” oextremos <strong>de</strong> la distribución. En contraste, la <strong>de</strong>sviación estándar <strong>de</strong>scribe cómo laspuntuaciones <strong>de</strong> una variable <strong>de</strong> intervalo/razón se extien<strong>de</strong>n a lo largo <strong>de</strong> la distribución, enrelación con la puntuación media. La media es un estadígrafo <strong>de</strong> ten<strong>de</strong>ncia <strong>central</strong> y como talproporciona un punto <strong>de</strong> enfoque que se centra “<strong>de</strong>ntro” <strong>de</strong> la distribución.La <strong>de</strong>sviación estándar se calcula <strong>de</strong>terminando qué tan lejos está cada puntuación <strong>de</strong>la media —qué tan lejos se <strong>de</strong>svía <strong>de</strong> la media—. En este sentido, la <strong>de</strong>sviación estándar es un<strong>de</strong>rivado <strong>de</strong> la media, y las dos medidas siempre se informan juntas. De hecho, la frase “laC o m p e n d i o d e l o s c a p í t u l o s I V y V d e ll i b r o d e F e r r i s R i t c h e y “ E s t a d í s t i c ap a r a l a s C i e n c i a s S o c i a l e s ”10


SEMINARIO DE INVESTIGACIÓN CIENTÍFICACÁTEDRA DE BIOESTADÍSTICA E INFORMÁTICACompendioMaterial <strong>de</strong> los <strong>de</strong>capítulos lectura 2IV y V <strong>de</strong>lmedia y la <strong>de</strong>sviación estándar” es una <strong>de</strong> las más empleadas por los estadísticos. La<strong>de</strong>sviación estándar nos dice con qué amplitud se agrupan las puntuaciones alre<strong>de</strong>dor <strong>de</strong> lamedia. También es útil en conjunción con la curva normal.Antes <strong>de</strong> calcular una <strong>de</strong>sviación estándar, analicemos su fórmula:don<strong>de</strong>( X − X )2Σs X=sX= <strong>de</strong>sviación estándar para la variable X <strong>de</strong> intervalo/razónX = media <strong>de</strong> la Xn = tamaño <strong>de</strong> la muestranVale la pena aproximarnos paso a paso al cálculo <strong>de</strong> la <strong>de</strong>sviación estándar. Estoelimina el misterio <strong>de</strong> la fórmula y nos ayuda a apreciar que la <strong>de</strong>sviación estándar es parteesencial <strong>de</strong> la curva normal.Calcule la media. Calculamos la media porque la <strong>de</strong>sviación estándar está diseñadapara medir la dispersión alre<strong>de</strong>dor <strong>de</strong> la media.∑ XX =nCalcule las puntuaciones <strong>de</strong> la <strong>de</strong>sviación: pensamiento lineal. Luego<strong>de</strong>terminamos qué tan lejos <strong>de</strong> la media cae la puntuación <strong>de</strong> cada sujeto. La diferencia entreuna puntuación y su media se llama puntuación <strong>de</strong> <strong>de</strong>sviación, es <strong>de</strong>cir, cuánto difiere o se“<strong>de</strong>svía” <strong>de</strong> la media una puntuación individual:X − X = puntuación <strong>de</strong> <strong>de</strong>sviación para un valor <strong>de</strong> XLa puntuación <strong>de</strong> <strong>de</strong>sviación nos dice dos cuestiones sobre una puntuación en ladistribución: 1) la magnitud <strong>de</strong> la distancia <strong>de</strong>s<strong>de</strong> la puntuación X hacia la media, y 2) ladirección <strong>de</strong> la puntuación X: ya sea que esté abajo o arriba <strong>de</strong> la media. Cuando unapuntuación X es mayor que la media, la puntuación <strong>de</strong> <strong>de</strong>sviación resultará un valor positivo,lo cual significa que la puntuación X quedará a la <strong>de</strong>recha en una curva <strong>de</strong> distribución.Cuando una puntuación X es menor que la media, la puntuación <strong>de</strong> <strong>de</strong>sviación resultaránegativa, lo que significa que la puntuación X quedará a la izquierda <strong>de</strong> la media.La puntuación <strong>de</strong> <strong>de</strong>sviación es el cálculo matemático <strong>central</strong> al <strong>de</strong>terminar la<strong>de</strong>sviación estándar. Como una medida sumaria para la muestra entera, la <strong>de</strong>sviación estándares un promedio <strong>de</strong>l cuadrado <strong>de</strong> estas puntuaciones <strong>de</strong> <strong>de</strong>sviación.El siguiente paso consiste en sumar las puntuaciones <strong>de</strong> <strong>de</strong>sviación. Sin embargo, talsuma siempre será igual a cero. En el capítulo 4 estudiamos cómo la media es un punto <strong>de</strong>balance en la distribución. Lo que la media hace es balancear las <strong>de</strong>sviaciones, para que secancelen ente sí.Eleve al cuadrado las puntuaciones <strong>de</strong> <strong>de</strong>sviación y sume los cuadrados. Al elevaral cuadrado cada puntuación <strong>de</strong> <strong>de</strong>sviación <strong>de</strong>saparecen los signos negativos.C o m p e n d i o d e l o s c a p í t u l o s I V y V d e ll i b r o d e F e r r i s R i t c h e y “ E s t a d í s t i c ap a r a l a s C i e n c i a s S o c i a l e s ”11


SEMINARIO DE INVESTIGACIÓN CIENTÍFICACÁTEDRA DE BIOESTADÍSTICA E INFORMÁTICACompendioMaterial <strong>de</strong> los <strong>de</strong>capítulos lectura 2IV y V <strong>de</strong>lDivida la suma <strong>de</strong> cuadrados entre n. Esto nos da la variación promedio (la media<strong>de</strong> la suma <strong>de</strong> cuadrados) <strong>de</strong> la muestra. De esta forma ajustamos la suma <strong>de</strong> cuadrados enproporción al número <strong>de</strong> casos en la muestra. Luego <strong>de</strong> dividir la suma <strong>de</strong> cuadrados por eltamaño <strong>de</strong> la muestra, el resultado se llama varianza. La varianza es la variación promedio<strong>de</strong> las puntuaciones en una distribución.Saque la raíz cuadrada <strong>de</strong> la varianza para obtener la <strong>de</strong>sviación estándar. Lavarianza es absolutamente aceptable para cálculos; pero no se interpreta <strong>de</strong> manera directaporque las unida<strong>de</strong>s <strong>de</strong> medida están al cuadrado. Así, para regresar a la unidad <strong>de</strong> medidaúnica, sacamos la raíz cuadrada <strong>de</strong> la varianza.La distribución normalA<strong>de</strong>más <strong>de</strong> proporcionar un estándar <strong>de</strong> comparación entre variables y muestras diferentes,bajo condiciones apropiadas a la media y la <strong>de</strong>sviación estándar ofrecen una riqueza <strong>de</strong>información. Éste es el caso cuando una variable tiene una distribución <strong>de</strong> puntuaciones quees normal —formada como la curva <strong>de</strong> distribución normal—. Como lo <strong>de</strong>finimos en elcapítulo 4, una distribución normal es simétrica, con su media, mediana y moda iguales entresí y localizadas en el centro <strong>de</strong> la curva. Sin embargo, la simetría o balance <strong>de</strong> la curvarepresenta la imagen completa. La curva normal también tiene una forma <strong>de</strong> campanainconfundible, que no es muy plana ni <strong>de</strong>masiado puntiaguda. Muchas variables sedistribuyen normalmente (como altura, peso, inteligencia, etc.) Sin tener en cuenta quévariable se examina, si está normalmente distribuida, posee las propieda<strong>de</strong>s <strong>de</strong> una curvanormal.Lo que vuelve a la <strong>de</strong>sviación estándar una herramienta estadística tan valiosa es queconstituye una parte matemática <strong>de</strong> la curva normal. Cuando usted sigue la curva <strong>de</strong>s<strong>de</strong> sucentro (es <strong>de</strong>cir, su pico) en cualquier dirección, la curva cambia <strong>de</strong> forma para acercarse aleje <strong>de</strong> las x. Des<strong>de</strong> el pico, el punto en el cual la curva empieza a cambiar hacia fuera es 1<strong>de</strong>sviación estándar <strong>de</strong> la media.Compren<strong>de</strong>r el fenómeno <strong>de</strong> normalidad es un aspecto importante <strong>de</strong> la imaginaciónestadística. Muchos fenómenos que ocurren naturalmente tienen distribuciones <strong>de</strong> frecuenciasque tienen la forma <strong>de</strong> campana <strong>de</strong> la curva normal. La curva normal ilustra el hecho <strong>de</strong> quecuando nos <strong>de</strong>sviamos más allá <strong>de</strong> la media, esperamos encontrar cada vez menos casos. Porejemplo, la altura física se distribuye normalmente; la mayoría <strong>de</strong> las personas está cerca <strong>de</strong>lpromedio, con unas cuantas personas muy altas y muy bajas.Uno <strong>de</strong> los rasgos más sobresalientes <strong>de</strong>l fenómeno <strong>de</strong> normalidad que ocurrenaturalmente es que ofrece predicciones precisas sobre cuántas puntuaciones <strong>de</strong> una poblacióncaen <strong>de</strong>ntro <strong>de</strong> cualquier rango <strong>de</strong> puntuaciones. Para cualquier variable normalmentedistribuida:1. Cincuenta por ciento <strong>de</strong> las puntuaciones caen por encima <strong>de</strong> la media, y 50 por ciento,<strong>de</strong>bajo. Esto se <strong>de</strong>be al hecho <strong>de</strong> que la mediana es igual a la media.2. Virtualmente todas las puntuaciones caen <strong>de</strong>ntro <strong>de</strong> 3 <strong>de</strong>sviaciones estándar a partir <strong>de</strong>la media en ambas direcciones. Esto es, una amplitud <strong>de</strong> 6 <strong>de</strong>sviaciones estándar. Lacantidad precisa es 99.7 por ciento. El restante 0.3 por ciento <strong>de</strong> casos (es <strong>de</strong>cir, 3 casos<strong>de</strong> cada 1000) caen fuera <strong>de</strong> 3 <strong>de</strong>sviaciones estándar y, teóricamente, la curva seC o m p e n d i o d e l o s c a p í t u l o s I V y V d e ll i b r o d e F e r r i s R i t c h e y “ E s t a d í s t i c ap a r a l a s C i e n c i a s S o c i a l e s ”12


SEMINARIO DE INVESTIGACIÓN CIENTÍFICACÁTEDRA DE BIOESTADÍSTICA E INFORMÁTICACompendioMaterial <strong>de</strong> los <strong>de</strong>capítulos lectura 2IV y V <strong>de</strong>lextien<strong>de</strong> hacia el infinito en ambas direcciones. (Prácticamente hablando, laspuntuaciones para algunas variables, como el peso corporal, tienen límites finitos.)3. Cerca <strong>de</strong>l 95 por ciento <strong>de</strong> las puntuaciones <strong>de</strong> una variable normalmente distribuidacaen <strong>de</strong>ntro <strong>de</strong> una distancia <strong>de</strong> 2 <strong>de</strong>sviaciones estándar, en ambas direcciones <strong>de</strong> lamedia.4. Aproximadamente 68 por ciento <strong>de</strong> las puntuaciones <strong>de</strong> una variable normalmentedistribuida caen <strong>de</strong>ntro <strong>de</strong> una distancia <strong>de</strong> 1 <strong>de</strong>sviación estándar, en ambas direcciones<strong>de</strong> la media.Tenga presente que la distribución normal tiene características muy pre<strong>de</strong>cibles. Si unavariable se distribuye en esta peculiar forma <strong>de</strong> campana, po<strong>de</strong>mos utilizar los estadígrafos<strong>de</strong> la muestra y lo que sabemos respecto <strong>de</strong> la curva normal, para estimar cuántaspuntuaciones en una población caen <strong>de</strong>ntro <strong>de</strong> cierto rango (ver figura 9).FIGURA 9La relación <strong>de</strong> la<strong>de</strong>sviación estándarcon la curva normal.-3DE -2DE -1DEX0+1DE +2DE +3DE68%95%99%Para ilustrar la utilidad <strong>de</strong> la curva normal, sigamos el ejemplo siguiente: una muestra<strong>de</strong> mujeres estudiantes <strong>de</strong> la universidad local, don<strong>de</strong> X = peso, el peso medio es <strong>de</strong> [60 kilos],y la <strong>de</strong>sviación estándar es <strong>de</strong> 2 kilos. Como se grafica en la figura 10, asumiendo lanormalidad, po<strong>de</strong>mos hacer las siguientes estimaciones <strong>de</strong> los pesos <strong>de</strong> la población <strong>de</strong>mujeres estudiantes en la universidad local:1. La mitad <strong>de</strong> estas puntuaciones pesa arriba <strong>de</strong> 60 kilos.2. Cerca <strong>de</strong>l 68 por ciento <strong>de</strong> las mujeres estudiantes <strong>de</strong> la universidad local pesan entre58 y 62 kilos.3. Aproximadamente el 95 por ciento <strong>de</strong> las mujeres estudiantes <strong>de</strong> la universidad localpesan entre 56 y 64 kilos.4. Muy pocas pesan menos <strong>de</strong> 54 kilos o más <strong>de</strong> 66 kilos.C o m p e n d i o d e l o s c a p í t u l o s I V y V d e ll i b r o d e F e r r i s R i t c h e y “ E s t a d í s t i c ap a r a l a s C i e n c i a s S o c i a l e s ”13


SEMINARIO DE INVESTIGACIÓN CIENTÍFICACÁTEDRA DE BIOESTADÍSTICA E INFORMÁTICACompendioMaterial <strong>de</strong> los <strong>de</strong>capítulos lectura 2IV y V <strong>de</strong>lFIGURA 10Uso <strong>de</strong> la curvanormal para estimar elpeso (X) en ladistribución <strong>de</strong>mujeres estudiantes enla universidad local.X = peso X = 60 kilos s X = 2 kilosX54 56 58 60 62 64 66 X (kilos)-3DE -2DE -1DE0+1DE +2DE +3DE68%95%99%C o m p e n d i o d e l o s c a p í t u l o s I V y V d e ll i b r o d e F e r r i s R i t c h e y “ E s t a d í s t i c ap a r a l a s C i e n c i a s S o c i a l e s ”14

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!