19.06.2013 Views

Práctica 2: Estadística Descriptiva (II)

Práctica 2: Estadística Descriptiva (II)

Práctica 2: Estadística Descriptiva (II)

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Práctica</strong> 2: <strong>Estadística</strong> <strong>Descriptiva</strong> (<strong>II</strong>)<br />

Objetivos específicos<br />

<strong>Práctica</strong> 2: <strong>Estadística</strong> <strong>Descriptiva</strong> (<strong>II</strong>)<br />

Al finalizar esta práctica deberás ser capaz de:<br />

• Analizar correctamente variables cuantitativas discretas y continuas mediante<br />

tablas, gráficos y medidas numéricas descriptivas.<br />

• Construir correctamente una tabla de frecuencias para variables cuantitativas<br />

continuas.<br />

1. Análisis de variables cuantitativas discretas<br />

Para una variable cuantitativa discreta obtendremos su tabla completa de frecuencias<br />

(con las frecuencias absolutas, relativas, acumuladas y sin acumular), la<br />

representaremos gráficamente mediante un diagrama de barras y obtendremos todas las<br />

medidas numéricas descriptivas (de posición, de dispersión y de forma).<br />

2. Análisis de variables cuantitativas continuas<br />

Para las variables cuantitativas continuas obtendremos su tabla completa de frecuencias<br />

con la agrupación en intervalos de la misma amplitud, las representaremos gráficamente<br />

mediante un histograma y obtendremos todas las medidas numéricas descriptivas (de<br />

posición, de dispersión y de forma).<br />

3. Funciones ESTADÍSTICAS<br />

En este apartado vamos a estudiar algunas de las funciones estadísticas que contiene la<br />

hoja de cálculo Excel. Para acceder a la lista de funciones estadísticas nos situamos en<br />

una casilla de la hoja de cálculo y seleccionamos la opción del menú principal<br />

INSERTAR>FUNCIÓN, tal y como se muestra en la Figura 1, o bien, pinchando en el<br />

botón PEGAR FUNCIÓN, , presente en la barra de herramientas.<br />

Isolina Alberto Moralejo 21


<strong>Práctica</strong> 2: <strong>Estadística</strong> <strong>Descriptiva</strong> (<strong>II</strong>)<br />

Figura 1: Cómo insertar una función en la hoja de cálculo<br />

Al hacerlo, accedemos a la ventana de diálogo de la Figura 2, donde deberemos<br />

seleccionar las funciones estadísticas en la parte izquierda de la tabla.<br />

Figura 2: Funciones estadísticas<br />

Algunas de las funciones estadísticas son las siguientes:<br />

CUARTIL: devuelve el cuartil de un conjunto de datos. Esta función tiene dos<br />

argumentos: el primero es la variable de la que queremos obtener el cuartil. El<br />

segundo argumento puede tomar los valores 0, 1, 2, 3 y 4, que devuelven,<br />

respectivamente, el mínimo valor de la variable, el primer cuartil, el segundo<br />

cuartil o mediana, el tercer cuartil y el máximo valor de la variable.<br />

DESVEST: devuelve la cuasidesviación típica de una variable numérica.<br />

DESVESTP: devuelve la desviación típica de una variable numérica.<br />

DESVIA2: devuelve la suma de los cuadrados de las desviaciones de las<br />

observaciones a la media, es decir, esta función devuelve lo que sería el<br />

numerador de la varianza o de la cuasivarianza de una muestra.<br />

Isolina Alberto Moralejo 22


<strong>Práctica</strong> 2: <strong>Estadística</strong> <strong>Descriptiva</strong> (<strong>II</strong>)<br />

DESVPROM: devuelve la suma de los valores absolutos de las desviaciones de<br />

las observaciones a la media.<br />

MAX: calcula el valor máximo de una muestra.<br />

MEDIA.ACOTADA: calcula la media de una muestra eliminando un<br />

porcentaje de datos por la izquierda y por la derecha de la muestra, para así<br />

eliminar la posible influencia en la media de los datos atípicos y extremos.<br />

MEDIA.ARMO: calcula la media armónica de una muestra.<br />

MEDIA.GEOM: calcula la media geométrica de una muestra.<br />

MEDIANA: calcula la mediana (segundo cuartil) de una muestra.<br />

MIN: calcula el valor mínimo de una muestra.<br />

MODA: calcula el valor más repetido en una muestra.<br />

PERCENTIL: calcula el percentil del q×100% de la muestra, para un valor de q<br />

entre 0 y 1, ambos incluidos. Esta función tiene dos argumentos, el primero es el<br />

conjunto de datos y el segundo es el valor de q.<br />

PROMEDIO: calcula la media aritmética de una muestra.<br />

VAR: calcula la cuasivarianza de una muestra.<br />

VARP: calcula la varianza de una muestra.<br />

Nota: Hay que tener un poco de cuidado al utilizar estas funciones porque, en la<br />

mayoría de los casos, únicamente son válidas para variables numéricas. Sin embargo<br />

hay algunas, como por ejemplo, la moda, que es válida también para variables<br />

cualitativas nominales y ordinales, pero al intentar calcular la moda de una variable<br />

cualitativa (por ejemplo de la variable Sexo) obtenemos como resultado #N/A (es decir,<br />

un error de fórmula), y sin embargo, si recordamos cómo era la tabla de frecuencias de<br />

esta variable (ver la Figura 25 de la <strong>Práctica</strong> 1), la moda era la categoría Mujer.<br />

4. Menú ESTADÍSTICA DESCRIPTIVA<br />

También podemos utilizar las herramientas de análisis estadístico avanzado para<br />

calcular medidas de posición, dispersión y forma seleccionando la opción del menú<br />

principal HERRAMIENTAS>ANÁLISIS DE DATOS y seleccionando después la<br />

opción ESTADÍSTICA DESCRIPTIVA en la ventana de diálogo siguiente, tal y<br />

como se muestra en la Figura 3 y en la Figura 4.<br />

Isolina Alberto Moralejo 23


<strong>Práctica</strong> 2: <strong>Estadística</strong> <strong>Descriptiva</strong> (<strong>II</strong>)<br />

Figura 3<br />

Figura 4<br />

Al hacerlo, entramos en una ventana de diálogo como la que se muestra en la Figura 5<br />

en la que deberemos introducir el rango de entrada (es decir, la columna del fichero en<br />

la que esté la variable) e indicarle que queremos un RESUMEN DE ESTADÍSTICAS.<br />

Nota: Es conveniente introducir en el rango de entrada el nombre de la variable (la<br />

primera fila) ya que si lo hacemos así, aparecerá este nombre en el resultado<br />

proporcionado por Excel. Es también conveniente indicar en las OPCIONES DE<br />

SALIDA, que muestre el resultado EN UNA HOJA NUEVA.<br />

Isolina Alberto Moralejo 24


<strong>Práctica</strong> 2: <strong>Estadística</strong> <strong>Descriptiva</strong> (<strong>II</strong>)<br />

5. Menú HISTOGRAMA<br />

Figura 5: Menú ESTADÍSTICA DESCRIPTIVA<br />

La opción HISTOGRAMA construye el histograma y la tabla de frecuencias con las<br />

frecuencias absolutas y relativas acumuladas (expresadas en porcentaje) para variables<br />

cuantitativas discretas y continuas. Esta opción se encuentra entre las herramientas de<br />

análisis estadístico avanzado, por lo que seleccionaremos como en la Figura 3, la opción<br />

del menú HERRAMIENTAS>ANÁLISIS DE DATOS y una vez en la ventana de la<br />

Figura 4, buscaremos la opción HISTOGRAMA. Al seleccionarla, entramos en la<br />

ventana que se muestra en la Figura 6.<br />

Figura 6: Menú HISTOGRAMA<br />

Isolina Alberto Moralejo 25


<strong>Práctica</strong> 2: <strong>Estadística</strong> <strong>Descriptiva</strong> (<strong>II</strong>)<br />

La variable para la que queramos construir el histograma deberemos introducirla en la<br />

casilla RANGO DE ENTRADA. En la casilla RANGO DE CLASES (que es<br />

opcional), introduciremos el rango de celdas que definan los extremos de los intervalos<br />

de clase. Estos valores tienen que estar en orden ascendente; todos los valores de la<br />

variable por debajo del primer valor de clase formarán la clase inferior, y la clase<br />

superior estará formada por los valores por encima del último valor de clase. Las clases<br />

generadas son abiertas por la izquierda y cerradas por la derecha, es decir, son de la<br />

forma (Li-1,Li]. Si no introducimos ningún dato en la casilla RANGO DE CLASES,<br />

Excel generará un conjunto de clases de igual amplitud entre los valores mínimo y<br />

máximo de la variable, con independencia de la naturaleza discreta o continua de la<br />

variable. Para terminar, seleccionaremos las casillas de PORCENTAJE<br />

ACUMULADO y de CREAR GRÁFICO para que se generen las frecuencias relativas<br />

acumuladas y el histograma, respectivamente.<br />

Nota: Se recomienda introducir el nombre de la variable (la primera celda de la<br />

columna de datos) en la casilla RANGO DE ENTRADA y seleccionar la opción<br />

RÓTULOS (ver Figura 6).<br />

Nota: Para variables discretas, se recomienda construir la tabla de frecuencias y los<br />

gráficos con el menú DATOS>INFORME DE TABLAS Y GRÁFICOS<br />

DINÁMICOS, explicada en la <strong>Práctica</strong> 1.<br />

Ejercicio.- Haz los Ejercicios 1 y 2 del final de la práctica.<br />

Nota: Para variables continuas, y dado que es mejor generar nosotros mismos las clases,<br />

se recomienda calcular el mínimo y el máximo valor de la variable y dividir el rango de<br />

variación de la variable en clases de igual amplitud que tengan los extremos inferior y<br />

superior manejables (es decir, procurando que sean números enteros o con pocos<br />

decimales, como se ha visto en clase).<br />

Ejercicio.- Haz el Ejercicio 3 del final de la práctica.<br />

Isolina Alberto Moralejo 26


<strong>Práctica</strong> 2: <strong>Estadística</strong> <strong>Descriptiva</strong> (<strong>II</strong>)<br />

6. Menú INFORME DE TABLAS Y GRÁFICOS DINÁMICOS<br />

Al igual que hicimos con las variables cualitativas y cuantitativas discretas, se puede<br />

construir una tabla dinámica con una variable cuantitativa continua. La diferencia es<br />

que, una vez construida, nosotros mismos deberemos agrupar los valores de la variable<br />

en clases.<br />

Vamos a trabajar con el fichero de datos Supermercado.xls, donde está la variable<br />

cuantitativa continua Ingresos mensuales. La tabla dinámica se construye como ya se ha<br />

comentado en la <strong>Práctica</strong> 1, a través del menú DATOS>INFORME DE TABLAS Y<br />

GRÁFICOS DINÁMICOS, seleccionando esta variable como en la Figura 7.<br />

Figura 7: Construcción de una tabla dinámica con una variable cuantitativa continua<br />

Al hacerlo, se crea la tabla dinámica de la Figura 8, en la que se puede ver en la parte de<br />

la izquierda, que no se han agrupado los valores de la variable en clases, sino que<br />

únicamente ha ordenado estos valores de menor a mayor. Se puede observar que la<br />

mayoría de las frecuencias absolutas valen 1 ó 2.<br />

Figura 8: Tabla dinámica de la variable Ingresos mensuales<br />

Podemos hacer nosotros las clases de la siguiente manera. Si la primera clase<br />

comprende los valores del intervalo (400,700], seleccionaremos estos valores en la tabla<br />

Isolina Alberto Moralejo 27


<strong>Práctica</strong> 2: <strong>Estadística</strong> <strong>Descriptiva</strong> (<strong>II</strong>)<br />

dinámica y, pinchando con el botón derecho del ratón, nos aparecerá el menú de<br />

contexto que se muestra en la Figura 9, en el que deberemos seleccionar las opciones<br />

AGRUPAR Y ESQUEMA>AGRUPAR. Al hacerlo, los valores seleccionados quedan<br />

agrupados en GRUPO1 como muestra la Figura 10.<br />

Figura 9: Menú AGRUPAR Y ESQUEMA>AGRUPAR<br />

Si pinchamos nuevamente con el botón derecho del ratón, podemos seleccionar la<br />

opción AGRUPAR Y ESQUEMA>OCULTAR DETALLE (ver Figura 10), que<br />

automáticamente sumará las frecuencias absolutas de los valores individuales,<br />

calculando por tanto la frecuencia absoluta de la clase (400,700], como se muestra en la<br />

Figura 11.<br />

Figura 10: Menú AGRUPAR Y ESQUEMA>OCULTAR DETALLE<br />

Estos pasos hay que repetirlos con todas las clases. Además, los nombres GRUPO1,<br />

GRUPO2, etc que van apareciendo por defecto, se pueden cambiar, escribiendo las<br />

clases que correspondan: (400,700], (700, 1000], etc.<br />

Figura 11: Frecuencias absolutas de la clase (400,700]<br />

Isolina Alberto Moralejo 28


<strong>Práctica</strong> 2: <strong>Estadística</strong> <strong>Descriptiva</strong> (<strong>II</strong>)<br />

Si queremos representar gráficamente esta variable por medio de un histograma, no<br />

tenemos más que pinchar en el botón del asistente para gráficos de la barra de<br />

herramientas de la tabla dinámica y automáticamente se generará el gráfico que se<br />

muestra en la Figura 12.<br />

Figura 12: Histograma de la variable Ingresos<br />

Pero ¿qué problema presenta este histograma? Si nos damos cuenta, en lugar de<br />

representar un histograma, se genera un diagrama de barras, como si la variable fuera<br />

cualitativa o discreta. Por tanto, con el fin de unir las barras del diagrama de forma que<br />

presente la forma de un histograma tenemos que hacer doble clic en las barras del<br />

gráfico para entrar en la ventana de la Figura 13, e indicarle que el ANCHO DEL<br />

RANGO es 0.<br />

Figura 13: Opciones del gráfico<br />

Al hacerlo, las barras del histograma se juntarán, pasando a presentar el aspecto de la<br />

Figura 14.<br />

Isolina Alberto Moralejo 29


<strong>Práctica</strong> 2: <strong>Estadística</strong> <strong>Descriptiva</strong> (<strong>II</strong>)<br />

Figura 14: Histograma corregido de la variable Ingresos<br />

Ejercicio.- Haz los Ejercicios 4 y 5 del final de la práctica.<br />

Nota: Es conveniente que las clases se construyan de igual amplitud, puesto que el<br />

gráfico generado así lo entiende aunque no lo sean.<br />

7. Recodificación manual de una variable cuantitativa continua<br />

En ocasiones es conveniente hacer una agrupación en clases de una variable continua de<br />

forma manual para poder introducirla en una tabla dinámica o para poder cruzarla con<br />

otra variable. Esta recodificación hay que hacerla con la función lógica SI.<br />

Por ejemplo, supongamos que queremos recodificar en clases la variable Ingresos<br />

mensuales del fichero de datos Supermercado.xls. Lo primero que tenemos que hacer es<br />

calcular el mínimo y el máximo de esta variable, para saber el rango que habremos de<br />

cubrir. Esto lo hacemos con las funciones MIN y MAX que ya conocemos. El mínimo<br />

vale 525 euros y el máximo 2789 euros, por tanto en este caso, podemos hacer las<br />

siguientes clases: (400, 700], (700, 1000], (1000, 1300], (1300, 1600], (1600, 1900],<br />

(1900, 2200], (2200, 2500] y (2500, 2800]. Una posibilidad es asignar a cada uno de los<br />

intervalos su marca de clase: 550, 850, 1150, 1450, 1750, 2050, 2350 y 2650.<br />

La sintaxis de la función SI es la que se muestra en la Figura 15. Nosotros deberemos<br />

anidar varias veces esta función para conseguir de un golpe toda la recodificación de la<br />

variable Ingresos mensuales que está en la columna K de nuestra hoja de cálculo.<br />

Isolina Alberto Moralejo 30


<strong>Práctica</strong> 2: <strong>Estadística</strong> <strong>Descriptiva</strong> (<strong>II</strong>)<br />

Figura 15: Función lógica SI<br />

Por tanto, situándonos en la segunda celda de una determinada columna (por ejemplo, la<br />

columna Q a la que denominaremos Ingresos recodificados), introducimos la siguiente<br />

expresión:<br />

=SI(K2


<strong>Práctica</strong> 2: <strong>Estadística</strong> <strong>Descriptiva</strong> (<strong>II</strong>)<br />

Figura 17: Tabla dinámica de la variable Ingresos recodificados<br />

8. Formación de grupos en una variable cuantitativa según los valores<br />

de una variable cualitativa<br />

Una vez que ya sabemos analizar, tanto variables cualitativas como cuantitativas por<br />

separado, podría interesarnos analizar relaciones entre una variable cualitativa y otra<br />

cuantitativa. En este caso el estudio se enfoca como un problema de comparación del<br />

comportamiento de la variable numérica en las diferentes subpoblaciones que define la<br />

variable cualitativa. Ignorar la heterogeneidad debida a la presencia de subpoblaciones<br />

puede conducir a conclusiones equivocadas y graves en el análisis realizado.<br />

De momento, este problema lo vamos a reducir a comparar numéricamente las medias y<br />

desviaciones típicas de la variable cuantitativa en las distintas categorías de la variable<br />

cualitativa, así como a representar los histogramas correspondientes. Para ello, tenemos<br />

que hacer uso de la opción del menú DATOS>INFORME DE TABLAS Y<br />

GRÁFICOS DINÁMICOS y de las funciones de resumen que en esta opción<br />

aparecen.<br />

Ejercicio.- Para finalizar, haz los Ejercicios 6, 7 y 8 del final de la práctica.<br />

Isolina Alberto Moralejo 32


<strong>Práctica</strong> 2: <strong>Estadística</strong> <strong>Descriptiva</strong> (<strong>II</strong>)<br />

Apellidos y nombre:<br />

Profesor: Grupo:<br />

Ejercicio 1.- A partir de la información contenida en el fichero Supermercado.xls,<br />

completa la tabla de frecuencias para la variable Número de miembros.<br />

Número de miembros ni fi<br />

Ejercicio 2.- Para la variable del ejercicio anterior, calcula los siguientes descriptivos.<br />

Número de miembros<br />

Media<br />

Mediana<br />

Moda<br />

Desviación estándar<br />

Varianza de la muestra<br />

Coeficiente de asimetría<br />

Rango<br />

Mínimo<br />

Máximo<br />

Nº clientes<br />

Primer cuartil<br />

Tercer cuartil<br />

¿Crees que hay que redondear la media? ….……¿Por qué? ..........………………………<br />

………………………………………………………………………………………….…<br />

………………………………………………………………………………………….…<br />

¿Qué opinas del mínimo valor de la variable? ……………….....……......……………<br />

……………………………………………………………...………………………..........<br />

………………………………………………………………………………………….…<br />

Isolina Alberto Moralejo 33


<strong>Práctica</strong> 2: <strong>Estadística</strong> <strong>Descriptiva</strong> (<strong>II</strong>)<br />

Ejercicio 3.- Con la información del fichero Supermercado.xls determina los siguientes<br />

estadísticos descriptivos para la variable Ingresos mensuales.<br />

Ingresos mensuales<br />

Mínimo<br />

Máximo<br />

Rango de variación<br />

Media<br />

Mediana<br />

Desviación estándar<br />

Si la variable la expresaras en pesetas (teniendo en cuenta que 1€ = 166.386 ptas), ¿cuál<br />

o cuáles de los estadísticos anteriores cambiarían? Indícalo en la tabla siguiente,<br />

proporcionando además, el nuevo valor si es que cambia.<br />

Ingresos mensuales en pesetas<br />

Mínimo<br />

Máximo<br />

Rango de variación<br />

Media<br />

Mediana<br />

Desviación estándar<br />

Ejercicio 4.- Para la variable Ingresos mensuales del ejercicio anterior construye la<br />

tabla de frecuencias. (Nota: utiliza 8 clases de amplitud 300 comenzando con el valor<br />

400€ como extremo inferior de la primera clase).<br />

Ingresos mensuales<br />

(Li-1, Li] ni Ni fi Fi<br />

( , ]<br />

( , ]<br />

( , ]<br />

( , ]<br />

( , ]<br />

( , ]<br />

( , ]<br />

( , ]<br />

Total<br />

Con los intervalos que se han sugerido, ¿se cubre todo el rango de variación de la<br />

variable Ingresos mensuales?........................................ ¿Por qué?.....................................<br />

………………………………………………………………………………………….…<br />

………………………………………………………………………………………….…<br />

Isolina Alberto Moralejo 34


<strong>Práctica</strong> 2: <strong>Estadística</strong> <strong>Descriptiva</strong> (<strong>II</strong>)<br />

Ejercicio 5.- A partir de la tabla de frecuencias del ejercicio anterior representa el<br />

histograma correspondiente.<br />

Frecuencia absoluta<br />

130<br />

120<br />

110<br />

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

0<br />

( , ]<br />

( , ]<br />

( , ]<br />

El intervalo modal es: ( , ]<br />

( , ]<br />

( , ]<br />

Ingresos mensuales<br />

( , ]<br />

( , ]<br />

( , ]<br />

¿Qué forma dirías que presenta el histograma? ..................................................................<br />

Ejercicio 6.- Con la información del fichero Supermercado.xls determina el valor de la<br />

media y de la desviación estándar de la variable Ingresos mensuales para cada una de<br />

las categoría de la variable Tarjeta .<br />

Tarjeta<br />

Sí<br />

No<br />

Ingresos mensuales<br />

Media Desviación estándar<br />

¿En cuál de los dos grupos definidos por la variable Tarjeta se detecta mayor<br />

variabilidad relativa en la variable Ingresos mensuales? ...................................................<br />

¿Por qué? ………………………………………………………………………………....<br />

………………………………………………………………………………………….…<br />

………………………………………………………………………………………….…<br />

Isolina Alberto Moralejo 35


<strong>Práctica</strong> 2: <strong>Estadística</strong> <strong>Descriptiva</strong> (<strong>II</strong>)<br />

Ejercicio 7.- La siguiente gráfica representa un histograma de la variable Ingresos<br />

Mensuales en cada una de las categorías de la variable Tarjeta.<br />

No Sí<br />

Tarjeta<br />

A la vista de dicho gráfico, ¿puedes decir si la variable Ingresos mensuales es<br />

independiente de la variable Tarjeta?………........ Justifícalo……………………………<br />

…………………………………………………………………………………………….<br />

…………………………………………………..………………………………………...<br />

…………………………………………………….………….…………..……………….<br />

Ejercicio 8.- Con los datos del fichero Cortes publicitarios.xls obtén la duración media<br />

y la desviación típica de la variable Duración (minutos) para las distintas cadenas de<br />

televisión. Con los datos obtenidos completa la siguiente tabla:<br />

Cadena de televisión Duración media Desviación típica<br />

TVE 1<br />

TVE 2<br />

Antena 3<br />

Tele 5<br />

Isolina Alberto Moralejo 36

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!