08.08.2015 Views

Ejercicios - Departamento de Matemática Aplicada y Estadística

Ejercicios - Departamento de Matemática Aplicada y Estadística

Ejercicios - Departamento de Matemática Aplicada y Estadística

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Departamento</strong> <strong>de</strong> Matemática <strong>Aplicada</strong> y EstadísticaUniversidad Politécnica <strong>de</strong> CartagenaMathieu Kessler.Práctica 0. Introducción al programa SPSSEL SPSS es un conjunto <strong>de</strong> programas orientados a la realización <strong>de</strong> análisisestadísticos aplicados a las ciencias sociales. Nos permite realizar análisis y gráficosestadísticos sin tener que conocer la mecánica <strong>de</strong> los cálculos ni la sintaxis <strong>de</strong> loscomandos <strong>de</strong>l sistema. Comparado con otros programas, es más intuitivo y fácil <strong>de</strong>apren<strong>de</strong>r. Su <strong>de</strong>sventaja es que es menos flexible y con menos procedimientosavanzados que otros programas comerciales.SPSS es bueno a la hora <strong>de</strong> organizar y analizar datos. Se pue<strong>de</strong> or<strong>de</strong>nar datos, calcularnuevos datos y realizar una gran variedad <strong>de</strong> análisis estadísticos. En teoría el tamaño <strong>de</strong>los ficheros <strong>de</strong> datos que SPSS pue<strong>de</strong> manejar no está limitado por lo que pue<strong>de</strong> trabajarcon ficheros gran<strong>de</strong>s. Esta versión también permite el manejo cómodo <strong>de</strong> ficheros, lapersonalización <strong>de</strong> los informes, y el cortar y pegar en otros programas.Para ejecutarlo, se busca el programa en Inicio. pulsa dos veces sobre el icono<strong>de</strong>l programa, en el escritorio <strong>de</strong> Windows.Hay dos tipo <strong>de</strong> archivos asociados a SPSS:- Archivos <strong>de</strong> datos: tienen extensión .sav y están en formato SPSS.- Archivos <strong>de</strong> texto: tienen extensión .sps (archivos <strong>de</strong> sintaxis) o .spo (archivos<strong>de</strong> resultados.1. Componentes básicos <strong>de</strong> SPSS.Los pasos básicos en el análisis <strong>de</strong> datos consisten en• Introducir los datos, manualmente o recurriendo a un archivo ya existente.• Seleccionar un procedimiento estadístico.• Seleccionar las variables para el análisis. las variables que po<strong>de</strong>mos usar en cadaprocedimiento se muestran en un cuadro <strong>de</strong> diálogo <strong>de</strong>l que se seleccionan.• Ejecutar el procedimiento y ver los resultados. Los resultados aparecen en unaventana <strong>de</strong> resultados y se pue<strong>de</strong>n guardar como archivos con extensión .spo. Losgráficos se pue<strong>de</strong>n modificar en la ventana <strong>de</strong>l editor <strong>de</strong> gráficos.La primera presentación es <strong>de</strong> una tabla <strong>de</strong> datos, don<strong>de</strong> se <strong>de</strong>berán introducir los datos<strong>de</strong> cada problema o leerlos <strong>de</strong> un fichero. Correspon<strong>de</strong> al Editor <strong>de</strong> datos.


Con el editor <strong>de</strong> datos po<strong>de</strong>mos crear nuevos archivos o modificar los existentes. No sepue<strong>de</strong> tener más <strong>de</strong> un archivo <strong>de</strong> datos abierto al mismo tiempo en la misma sesión <strong>de</strong>SPSS. Dentro <strong>de</strong>l editor <strong>de</strong> datos, dos vistas son posibles:Vista <strong>de</strong> datos : muestra los valores <strong>de</strong> datos reales o las etiquetas <strong>de</strong> valor <strong>de</strong>finidas:- Las filas son casos. Cada fila representa un caso u observación.- Las columnas son variables. Cada columna representa una variable o característica quese mi<strong>de</strong>.- Las casillas contienen valores numéricos o <strong>de</strong> ca<strong>de</strong>na, siendo éste un valorúnico <strong>de</strong> una variable para cada caso. A diferencia <strong>de</strong> una hoja <strong>de</strong> cálculo, lascasillas <strong>de</strong>l editor <strong>de</strong> datos no pue<strong>de</strong>n contener fórmulas.Vista <strong>de</strong> variables: contiene <strong>de</strong>scripciones <strong>de</strong> los atributos <strong>de</strong> cada variable <strong>de</strong>larchivo <strong>de</strong> datos. Aquí:- Las filas son variables.- Las columnas son atributos o características <strong>de</strong> las variables.Cambiamos <strong>de</strong> una vista a otra a través <strong>de</strong> las pestañas en la parte inferior <strong>de</strong> la ventana.Otras ventanas irán apareciendo a medida que vayamos realizando nuestro análisis,podrán contener gráficos (Editor <strong>de</strong> gráficos), informes con los resultados, etc…2. Primeros pasos con SPSSAntes <strong>de</strong> todo, <strong>de</strong>bemos introducir los datos. Para hacerlo, distinguiremos dosposibilida<strong>de</strong>s: introducimos los datos manualmente o los importamos a nuestra hoja <strong>de</strong>cálculo <strong>de</strong>s<strong>de</strong> un fichero externo. En el ejemplo ilustrativo que seguiremos a lo largo <strong>de</strong>esta primera sesión, veremos las dos situaciones.I.1. Introducimos los datos manualmente:a) Definimos las variables:Debemos <strong>de</strong>finir, en primer lugar, las variables, utilizando la vista <strong>de</strong> variables,activada a través <strong>de</strong> la pestaña en la parte inferior <strong>de</strong> la ventana.Utilizando una fila para cada variable especificamos los atributos necesarios.Definimos el nombre <strong>de</strong> cada variable, y el tipo <strong>de</strong> datos que contiene cada una.Los valores <strong>de</strong> estas variables, en función <strong>de</strong>l tipo seleccionado serán visualizadas segúnun patrón <strong>de</strong>terminado y sólo estarán disponibles para estas variables aquellasoperaciones que son esperables para el tipo <strong>de</strong> que se trate en cada caso. Si se pulsa elbotón tipo y luego en los puntos suspensivos que aparecen en la casilla tenemos uncuadro <strong>de</strong> diálogo en el que se presentan los siguientes tipos <strong>de</strong> variables posibles:- Numérico. Variable cuyos valores son números. Los valores se muestran en elformato numérico estándar, utilizando los <strong>de</strong>limitadores <strong>de</strong>cimales especificados enla Configuración Regional <strong>de</strong>l Panel <strong>de</strong> control. El editor <strong>de</strong> datos acepta valoresnuméricos en formato estándar o en notación científica.- Coma. Define una variable numérica cuyos valores se muestran con comas <strong>de</strong>separación cada tres posiciones y con un punto como separador <strong>de</strong> la parte <strong>de</strong>cimal.El editor <strong>de</strong> datos acepta los valores numéricos para este tipo <strong>de</strong> variables, con o sincomas, o en notación científica.- Punto. Define una variable numérica cuyos valores se muestran con puntos <strong>de</strong>separación cada tres posiciones y con una coma como separador <strong>de</strong> la parte <strong>de</strong>cimal.


El editor <strong>de</strong> datos acepta valores numéricos para este tipo <strong>de</strong> variables, con o sinpuntos, o en notación científica.- Notación científica. Define una variable numérica cuyos valores se muestran conuna E intercalada y un exponente con signo que representa una potencia <strong>de</strong> basediez.- Fecha. Variable numérica cuyos valores se muestran en uno <strong>de</strong> los diferentesformatos <strong>de</strong> fecha-calendario u hora-reloj. Seleccione una plantilla <strong>de</strong> la lista<strong>de</strong>splegable. Pue<strong>de</strong> introducir las fechas utilizando como <strong>de</strong>limitadores: barras,guiones, puntos, comas o espacios en blanco. El rango <strong>de</strong> siglo para los años <strong>de</strong> dosdígitos se toma <strong>de</strong> las opciones <strong>de</strong> configuración (Menú Edición, Opciones, pestañaDatos).- Dólar. Define una variable numérica cuyos valores contienen un signo <strong>de</strong> dólar, unpunto como separador <strong>de</strong> la parte <strong>de</strong>cimal y múltiples comas como separadores <strong>de</strong>miles.- Moneda personalizada.- Ca<strong>de</strong>na. Variable cuyos valores no son numéricos y, por ello, no se utilizan en loscálculos. Pue<strong>de</strong>n contener cualquier carácter hasta la longitud <strong>de</strong>finida. Lasmayúsculas y la minúsculas son consi<strong>de</strong>radas diferentes. También son conocidascomo variables alfanuméricas.También tenemos la posibilidad <strong>de</strong> especificar la columna Etiqueta, que recoge unabreve <strong>de</strong>scripción <strong>de</strong> las variables que sustituirá al nombre en el editor <strong>de</strong> resultados.No <strong>de</strong>scribimos aquí los <strong>de</strong>más atributos como Valores, alineación, etc…(ver el tutorialen línea para más información)b) Introducimos los datosUna vez <strong>de</strong>finidas las variables, para la introducción <strong>de</strong> datos (en la pestaña Vista <strong>de</strong>datos) simplemente habrá que situar el cursor en la primera celda <strong>de</strong> la columna ycomenzar a teclear los distintos valores <strong>de</strong> acuerdo con las especificaciones <strong>de</strong> cadavariable <strong>de</strong>finida y, finalmente, pulsaremos ENTER o nos moveremos con el cursorpara fijar los valores introducidos.Por ejemplo, queremos introducir los valores obtenidos en mediciones repetidas <strong>de</strong>contenido en nitratos <strong>de</strong> una muestra <strong>de</strong> agua que aparecen tabulados a continuación:VALORES (µg/l) FRECUENCIA VALORES(µg/l) FRECUENCIA0.45 1 0.49 80.46 2 0.50 100.47 4 0.51 50.48 8 0.52 2Definimos una única variable CONC, que tome valores reales, y empezamos aintroducir los datosEn el caso en que <strong>de</strong>bemos introducir repetidamente el mismo valor po<strong>de</strong>mos utilizarlos comandos Copiar y Pegar (incluso en varias celdas a la vez) o sus atajos (Control Cy Control V)Se aconseja guardar la tabla <strong>de</strong> datos en un fichero <strong>de</strong>spués <strong>de</strong> la introducción <strong>de</strong> datos.Para ello, se usa la opción “Guardar” o “Guardar como” <strong>de</strong>l menu Archivo. Al igual quecualquier programa Windows, se pue<strong>de</strong> recorrer las carpetas para <strong>de</strong>cidir don<strong>de</strong> guardarel fichero.


Guardar la tabla <strong>de</strong> datos anterior en un fichero llamado nitrato.sav en la carpetaC:\PRACTICAS\ESTADISTICA.Una vez que se han entrado unos datos, es posible añadir entre dos filas <strong>de</strong> una variableuno o varios datos nuevos usando la opción “Insertar caso” <strong>de</strong>l menu Datos. La nuevacasilla aparece <strong>de</strong>bajo <strong>de</strong> la posición actual <strong>de</strong> la casilla seleccionada.Finalmente, po<strong>de</strong>mos seleccionar un rango <strong>de</strong> casillas con el ratón manteniendo la teclaShift pulsada y copiarlas, cortarlas o pegarlas en otra posición utilizando los comandoshabituales <strong>de</strong>l menu Editar.I.2. Exploración <strong>de</strong> los datos.Ahora que hemos introducido los datos, po<strong>de</strong>mos pasar a una primera exploración. Loharemos con el menu Analizar.Una buena i<strong>de</strong>a es empezar por un diagrama <strong>de</strong> barras tener una primera impresiónvisual. Para ello, seleccionamos la opción Barras en el submenú Interactivos<strong>de</strong>l menú Graficos. Nota: aunque exista la posibilidad <strong>de</strong> escoger directamente undiagrama <strong>de</strong> barras en el menú Gráficos, se recomienda utilizar el submenúInteractivos, que permite mucho mejor control sobre el gráfico.En el cuadro <strong>de</strong> la izquierda aparece la lista <strong>de</strong> las variables que ya tenemos <strong>de</strong>finidas.Basta con seleccionar la variable que nos interesa y pasarla al cuadro variablegracias a la flecha <strong>de</strong> la <strong>de</strong>recha..A continuación, realizamos un diagrama <strong>de</strong> cajas-bigotes <strong>de</strong> los datos. Para ello,seleccionamos la instrucción Diagrama <strong>de</strong> Cajas <strong>de</strong>l menu Graficos. Puestoque sólo tenemos una variable, realizamos un diagrama simple y seleccionamos laopción Resumenes para distintas variables. Utilizamos en particular eldiagrama para <strong>de</strong>tectar datos atípicos.Si nos hemos convencido <strong>de</strong> qué medidas <strong>de</strong> centralización y <strong>de</strong> dispersión son lasa<strong>de</strong>cuadas para nuestro conjunto <strong>de</strong> datos, po<strong>de</strong>mos pedir un informe sobre las medidasnuméricas que escojamos. Para ello, seleccionamos la instrucción Explorar <strong>de</strong>lsubmenu Estadísticos <strong>de</strong>scriptivos, en el menu Analizar. Aparece elcuadro <strong>de</strong> la Figura 2:Pasamos las variables que nos interesan al cuadro Dependientes, y aceptamos.Po<strong>de</strong>mos cambiar los resumenes que proporciona SPSS, pinchando el cuadroEstadísticos, o Gráficos.


<strong>Departamento</strong> <strong>de</strong> Matemática <strong>Aplicada</strong> y EstadísticaUniversidad Politécnica <strong>de</strong> CartagenaMathieu KesslerPráctica . Monedas trucadasEl objetivo <strong>de</strong> esta práctica es <strong>de</strong>cidir <strong>de</strong>l número <strong>de</strong> veces que <strong>de</strong>beríamos tirar una moneda quesospechamos está trucada, para llegar a una conclusión en un sentido o en otro.Utilizaremos principalmente Excel, y realizaremos alguna gráfica con SPSS.Pasos que seguiremos en esta práctica:a) Supondremos que la moneda está trucada y que la probabilidad <strong>de</strong> que salga cara es 0.65.Apren<strong>de</strong>remos a simular <strong>de</strong> una variable que pue<strong>de</strong> tomar el valor 1 (que representa cara) y el valor0 (que representa cruz).b) A continuación realizaremos 10 tiradas, y calcularemos la proporción <strong>de</strong> 1.c) Repetiremos el paso b) anterior 1000 veces.d) Realizamo s un histograma <strong>de</strong> los 1000 valores <strong>de</strong> la proporción <strong>de</strong> 1 en series <strong>de</strong> 10 tiradas quehemos obtenido en el paso anteriore) A la vista <strong>de</strong>l histograma <strong>de</strong>cidimos si con 10 tiradas es fácil <strong>de</strong>tectar que esta moneda está trucada.f) Realizamos todo lo anterior con series con un mayor número <strong>de</strong> tiradas.Paso a) y b): Generación <strong>de</strong> números aleatorios con ExcelPara simular una tirada <strong>de</strong> esta moneda trucada, abrimos Excel, nos colocamos en la primera celda, y labarra <strong>de</strong> fórmulas, escribimos =aleatorio():Barra <strong>de</strong> fórmulasAl dar ENTER, obtenemos un número aleatorio escogido al azar entre 0 y 1. Debemos ahora transformareste número real <strong>de</strong>l intervalo [0,1] en uno <strong>de</strong> los dos valores enteros 1 o 0, <strong>de</strong> manera que laprobabilidad <strong>de</strong> obtener 1 sea 0.65. Para simular una tirada, construimos una variable que valga 1 si elnúmero uniforme anterior es menor que 0.65, y 0 si es mayor que 0.65:Nos colocamos en la celda B1, y entramos en la barra <strong>de</strong> fórmulas la instrucción =SI(A1


columna C. En una celda <strong>de</strong> la columna C, la celda C14 por ejemplo, hemos por lo tanto obtenido lafrecuencia <strong>de</strong> 1 que aparecen en las 10 celdas <strong>de</strong> la columna B que están situadas al lado y por <strong>de</strong>bajo <strong>de</strong>la celda seleccionada, por ejemplo las celdas B14 a B23. Por otra parte como la instrucciónALEATORIO() es volátil, los valores <strong>de</strong> la frecuencia que hemos encontrado son in<strong>de</strong>pendientes, puestoque todas las celdas se vuelven a evaluar a cada ejecución <strong>de</strong> un cálculo.Paso d) Obtención <strong>de</strong>l histograma <strong>de</strong> los valores <strong>de</strong> la proporción <strong>de</strong> caras para1000 series <strong>de</strong> 10 tiradas.Seleccionamos y copiamos las 1000 celdas <strong>de</strong> la columna C. Abrimos SPSS o Statistix y los pegamos enuna columna correspondiente a una nueva variable. Si preferimos trabajar con frecuencias relativas(proporciones), <strong>de</strong>finimos una nueva variable que se obtiene dividiendo la anterior por 10. Realizamos acontinuación el diagrama <strong>de</strong> barras. Yo obtengo el siguiente.300200100Frecuencia0,10,20,30,40,50,60,70,80,90VAR00001Paso e) Interpretación¿Os parece fácil <strong>de</strong>tectar, basándose en una serie <strong>de</strong> 10, tiradas que la moneda está trucada? ¿Qué mo<strong>de</strong>loparece razonable para la distribución <strong>de</strong> los valores que pue<strong>de</strong> tomar la proporción <strong>de</strong> 1 en series <strong>de</strong> 10tiradas <strong>de</strong> moneda?Paso f) Investigación…Investigar si con series que contienen más tiradas, será más fácil <strong>de</strong>tectar que la moneda está trucada…


<strong>Departamento</strong> <strong>de</strong> Matemática <strong>Aplicada</strong> y EstadísticaUniversidad Politécnica <strong>de</strong> CartagenaProf. Mathieu KesslerAjuste por mínimos cuadradosSPSS nos permite realizar ajustes por mínimos cuadrados para mo<strong>de</strong>los lineales en losparámetros, es <strong>de</strong>cir para el caso en que la relación entre la variable <strong>de</strong>pendiente(también llamada variable respuesta) que nos interesa Y, y las variables explicativas(tambíen llamados regresores) X 1 , X 2 ,..., X k esExisten k parámetros constantes β 1 , β 2 ,...,β k tales queY=β 1 X 1 +β 2 X 2 +...+β k X k +εdon<strong>de</strong> ε es una perturbación aleatoriaHemos realizado observaciones <strong>de</strong>l fenómemo: i.e conocemos para variascombinaciones <strong>de</strong> valores <strong>de</strong> las variables in<strong>de</strong>pendientes cuál ha sido el valor <strong>de</strong> lavariable respuesta. Queremos ajustar un mo<strong>de</strong>lo <strong>de</strong> tipo lineal a las observaciones <strong>de</strong>las que disponemos. El ajuste consiste en encontrar valores aproximados <strong>de</strong> loscoeficientes β 1 , β 2 ,...,β k .AJUSTE DE UNA RECTA.El primer caso particular <strong>de</strong> importancia correspon<strong>de</strong> al famoso ajuste <strong>de</strong> una recta. Eneste caso sólo consi<strong>de</strong>ramos una variable in<strong>de</strong>pendiente X y buscamos una relación <strong>de</strong>ltipoY=aX+b+ε,que está contemplado en nuestro mo<strong>de</strong>lo si consi<strong>de</strong>ramosY=β 1 X 1 +β 2 X 2 +εconX 1 =1 y X 2 =X,en estas condiciones, β 1 es la or<strong>de</strong>nada al origen mientras que β 2 es la`pendiente <strong>de</strong> larecta.Nivel <strong>de</strong>l mar en Venecia.Queremos estudiar la evolución <strong>de</strong>l máximo anual <strong>de</strong>l nivel <strong>de</strong>l mar ( en cm) enVenecia. Los datos <strong>de</strong> los que disponemos correspon<strong>de</strong>n a los años 1931-1981, y estáncontenidos en el fichero Venecia.dat. (Datos reales, publicados en Smith R.L, ''Extremevalue theory based on the r largest annual events'', Journal of Hydrology, 86 (1986).Empezamos por importar los datos, (la primera línea <strong>de</strong>l fichero contiene losnombres <strong>de</strong> las variables) y realizamos una nube <strong>de</strong> puntos <strong>de</strong>l nivel en función <strong>de</strong>l año.(Gráficos-> Dispersión.) Los datos parecen presentar una ten<strong>de</strong>ncia lineal,


aunque no se ajustan exactamente a una recta. Decidimos por lo tanto ajustar una rectapara mo<strong>de</strong>lizar la evolución <strong>de</strong>l nivel máximo anual <strong>de</strong>l mar en Venecia en función <strong>de</strong>ltiempo.Para obtener la ecuación <strong>de</strong> la recta ajustada, y así como el valor <strong>de</strong> los residuos,utilizamos en el menu Analizar, Regresion, la instrucción Lineal. Alactivarla obtenemos la siguiente ventana:Figura 1La variable <strong>de</strong>pendiente o respuesta es el Nivel, mientras que tenemos dos variablesexplicativas que son 1 y A. La inclusión <strong>de</strong>l término constante X 1 =1 es la opción por<strong>de</strong>fecto. En en el caso en que queremos forzar el mo<strong>de</strong>lo por el origen, po<strong>de</strong>mos<strong>de</strong>sactivar la casilla se hace al activar la casilla Incluir constante en laecuación que aparece en el cuadro <strong>de</strong> dialogo que se abre pinchando en Opciones.La inclusión <strong>de</strong>l término X 2 se consigue pasando la variable Año al cuadroIn<strong>de</strong>pendientes.Al pinchar en Aceptar, aparece la ventana <strong>de</strong> resultados:RegresiónVariables introducidas/eliminadas bMo<strong>de</strong>lo1Variables Variablesintroducidas eliminadas MétodoAÑO a . Introducira. Todas las variables solicitadas introducidasb. Variable <strong>de</strong>pendiente: NIVELResumen <strong>de</strong>l mo<strong>de</strong>loMo<strong>de</strong>lo1R cuadrado Error típ. <strong>de</strong> laR R cuadrado corregida estimación.416 a .173 .156 18.6198a. Variables predictoras: (Constante), AÑOIaIb


Mo<strong>de</strong>lo1RegresiónResidualTotalANOVA bSuma <strong>de</strong>Mediacuadrados gl cuadrática F Sig.3552.057 1 3552.057 10.245 .002 a16988.100 49 346.69620540.157 50a. Variables predictoras: (Constante), AÑOb. Variable <strong>de</strong>pendiente: NIVELMo<strong>de</strong>lo1(Constante)AÑOa. Variable <strong>de</strong>pendiente: NIVELCoeficientes aCoeficientes noestandarizadosCoeficientesestandarizadosB Error típ. Beta t Sig.-989.382 346.477 -2.856 .006.567 .177 .416 3.201 .002II III IVLos recuadros se interpretan <strong>de</strong> la siguiente manera.Recuadro Ia: Proporciona el valor <strong>de</strong> R 2 que es el coeficiente <strong>de</strong> <strong>de</strong>terminaciónmúltiple que nos indica la proporción <strong>de</strong> la variabilidad en los datos explicada por elmo<strong>de</strong>lo <strong>de</strong> regresión.Recuadro Ib: Proporciona el valor <strong>de</strong> la <strong>de</strong>sviación típica residual.Recuadro II En la columna Coefficientes no estandarizados po<strong>de</strong>mosleer los valores obtenidos <strong>de</strong> los coeficientes, en la línea Constante, tenemos elcoeficiente <strong>de</strong> X1=1 ( es <strong>de</strong>cir la or<strong>de</strong>nada al origen), mientras que en la línea Año, elcoeficiente <strong>de</strong> X2=Año.En este caso la ecuación proporcionada esNivel máximo= -989.4+0.6Año.Recuadro III: Proporciona los errores típicos <strong>de</strong> los estimadores <strong>de</strong> los coeficientes,los podríamos utilizar para construir intervalos <strong>de</strong> confianza.Recuadro IV: Sirve para <strong>de</strong>terminar si los coeficientes <strong>de</strong> cada variable explicativa sonsignificativamente distintos <strong>de</strong> 0: en la columna t, obtenemos los valores <strong>de</strong> losestadísticos <strong>de</strong> prueba asociados a cada coeficiente, mientras que en la columna Sig,po<strong>de</strong>mos encontrar los p-valores <strong>de</strong> las pruebas H 0 : β i =0 contra H 1 : β i ≠0, para cadauno <strong>de</strong> los coeficientes.Cabe <strong>de</strong>stacar que en el cuadro <strong>de</strong> dialogo que aparece con la instrucción Analizar-> Regresion -> Lineal (ver Figura 1), varias opciones proponen posibilida<strong>de</strong>sinteresantes:• Al activar Guardar, po<strong>de</strong>mos guardar los residuos y los valores predictivos,también llamados valores ajustados, picando las casillas correspondientes. Una vez


que hayamos hecho el ajuste, los residuos aparecerán como variables en nuestroeditor <strong>de</strong> datos.• En Estadísticos, po<strong>de</strong>mos pedir por ejemplo intervalos <strong>de</strong> confianza para loscoeficientes• En Gráficos po<strong>de</strong>mos pedir entre otras muchas cosas, un histograma <strong>de</strong> losresiduos.Después <strong>de</strong> guardar los residuos y los valores ajustados, realizar una gráfica en la queaparezcan tanto los valores observados <strong>de</strong>l nivel como los valores predichos, enfunción <strong>de</strong>l año.<strong>Ejercicios</strong>Ajuste <strong>de</strong> una recta que pase por el origenConsi<strong>de</strong>re el problema siguiente:En 1929 Edwin Hubble estudió la relación entre la distancia y la velocidadradial <strong>de</strong> nebulosas extragalácticas con la esperanza <strong>de</strong> que alguna informaciónsobre esta relación pudiera proporcionar i<strong>de</strong>as acerca <strong>de</strong> cómo se formó eluniverso y cuál pue<strong>de</strong> ser su evolución futura. Sus <strong>de</strong>scubrimientos revolucionaronla astronomía y son la fuente <strong>de</strong> muchas investigaciones actuales. En esta prácticavamos a trabajar con los datos que utilizó Hubble para 24 nebulosas. (Fuente:Hubble, E. (1929) ''A Relationship Between Distance and Radial Velocity amongExtra-Galactic Nebulae,'' Proceedings of the National Aca<strong>de</strong>my of Science, 168. )Las unida<strong>de</strong>s <strong>de</strong> medida <strong>de</strong> la distancia son megaparsecs ( 1 parsec = 3.26 años luz)y la velocidad se mi<strong>de</strong> en km/sec.Los datos se encuentran en el fichero hubble.txt con dos columnas, la primeracontiene la distancia mientras que la segunda contiene la velocidad <strong>de</strong> recesión. Elfichero no contiene los nombres <strong>de</strong> la variable. Realizar un ajuste <strong>de</strong> la velocidad sobrela distancia, sabiendo que es razonable suponer que para una distancia nula la velocidad<strong>de</strong> recesión <strong>de</strong>be ser nula. Reflexionar en particular sobre los datos negativos. Lapendiente <strong>de</strong> la recta forzada por el origen se llama la constante <strong>de</strong> Hubble.Transformación <strong>de</strong> un mo<strong>de</strong>lo exponencialConsi<strong>de</strong>re el problema siguiente: La hidrólisis <strong>de</strong> un cierto éster tiene lugar en medioácido según un proceso cinético <strong>de</strong> primer or<strong>de</strong>n. Partiendo <strong>de</strong> una concentracióninicial <strong>de</strong>sconocida <strong>de</strong>l éster, se han medido las concentraciones <strong>de</strong>l mismo adiferentes tiempos obteniéndose los resultados siguientes.T (mn) 3 4 10 15 20 30 40 50 60 75 90C10 -3 (M)25.5 23.4 18.2 14.2 11 6.7 4.1 2.5 1.5 0.7 0.4a) Realice una nube <strong>de</strong> puntos <strong>de</strong> las dos variables. ¿ Le parece a<strong>de</strong>cuado un mo<strong>de</strong>lolineal para escribir este conjunto <strong>de</strong> datos?b) Defina una nueva variable Y’ que sea Y’=ln (concentración) y realizar la nube <strong>de</strong>puntos Y’ en función <strong>de</strong> t.c) Realizar un ajuste por mínimos cuadrados <strong>de</strong> Y’ sobre t con un mo<strong>de</strong>lo <strong>de</strong>l tipo:y=ax+b. ¿Cuál es el mo<strong>de</strong>lo teórico que propone para C en función <strong>de</strong>l tiempo?d) Nos dan la información adicional <strong>de</strong> que se sabe con exactitud que la concentración inicial para T=0era igual a 30.10 -3 M. ¿Cómo po<strong>de</strong>mos incluir esta información en nuestro mo<strong>de</strong>lo?


Inclinación <strong>de</strong> la Torre <strong>de</strong> Pisa.G. Beri y B. Palla, 1988, "Consi<strong>de</strong>razioni sulle ouù recenti osservazioni ottiche alla Torre Pen<strong>de</strong>nte diPisa", Estratto dal Bolletino <strong>de</strong>lla Società Italiana di Topografia e Fotogrammetria, 2 págs. 121-135,citado en Moore, 1998, Estadística <strong>Aplicada</strong> Básica, Antoni Bosch editor, pág 615.La torre inclinada <strong>de</strong> Pisa se inclina más a medida que pasa el tiempo. He aquí las mediciones <strong>de</strong> lainclincación <strong>de</strong> la torre entre los años 1975 y 1987. La inclinación se da como la distancia entre el puntodon<strong>de</strong> estaría la torre en posición vertical y el punto en el que realmente se encuentra. Las distancias sedan en décimas <strong>de</strong> milímetros por encima <strong>de</strong> 2.9m.Año 75 76 77 78 79 80 81 82 83 84 85 86 87Inclinación 642 644 656 667 673 688 696 698 713 717 725 742 757Emisión <strong>de</strong> CO2 por los países europeos.En la dirección http://dataservice.eea.eu.int/dataservice/ , se pue<strong>de</strong>n encontrar los datos <strong>de</strong> emisión <strong>de</strong>CO2 por fuentes fósiles para los distintos paises europeos entre los años 1985 y 1997.Importar los datos <strong>de</strong>l fichero CO2.txt, cuya primera línea contiene los nombres <strong>de</strong> las variables.Los códigos <strong>de</strong> los sectores <strong>de</strong> emisión son los siguientes:0 Total inland emissions 4 Agriculture1 Energy 5 Not available2 Industry 6 Other3 TransportTempeturas medias mensuales en San-Javier.En la dirección http://rainbow.ldgo.columbia.edu/dl/seminars/dataintro/, se pue<strong>de</strong>n obtener datosmeteorológicos <strong>de</strong>l mundo entero, y algunos <strong>de</strong>s<strong>de</strong> el siglo 18! En el fichero Sanjavier.txt. podréisencontrar los datos <strong>de</strong> las temperaturas mensuales medias para la estación meteorológica <strong>de</strong> Murcia SanJavier entre los años 1981 y 1990.Resistencia <strong>de</strong>l cementoSe quiere estudiar la resistencia <strong>de</strong> unas piezas <strong>de</strong> cemento en función<strong>de</strong> su edad en días.Edad (días)Resistencia (kg/cm^2)1 13.0 13.3 11.82 21.9 24.5 24.73 29.8 28.0 24.1 24.2 26.27 32.4 30.4 34.5 33.1 35.728 41.8 42.6 40.3 35.7 37.3Realizar la nube <strong>de</strong> puntos <strong>de</strong> la resistencia en función<strong>de</strong> la edad. ¿Parece presentar una ten<strong>de</strong>ncia lineal?Si la respuesta es no, ¿ qué tipo <strong>de</strong> función podría ajustarse a la nube <strong>de</strong> puntos?Realizar la transformación a<strong>de</strong>cuada, la nube <strong>de</strong> puntos <strong>de</strong> los datos transformados y el ajuste.Producción <strong>de</strong> petroleoSe quiere estudiar la evolución <strong>de</strong> la producción mundial <strong>de</strong> petroleo<strong>de</strong> 1880 a 1973. Los datos se encuentran en el fichero ASCII petroleo.txtRealizar la nube <strong>de</strong> puntos <strong>de</strong> la producción en función <strong>de</strong>l año. ¿Parece presentar una ten<strong>de</strong>ncia lineal? Sila respuesta es no, ¿ qué tipo <strong>de</strong> función podría ajustarse a la nube <strong>de</strong> puntos?Realizar la transformación a<strong>de</strong>cuada, la nube <strong>de</strong> puntos <strong>de</strong> los datos transformados y el ajuste.


<strong>Departamento</strong> <strong>de</strong> Matemática <strong>Aplicada</strong> y EstadísticaUniversidad Politécnica <strong>de</strong> CartagenaCurso 03/04Ajuste por mínimos cuadrados (2)Seguimos con la práctica <strong>de</strong> regresión lineal múltiple con SPSS. Recordar quebuscamos realizar ajustes por mínimos cuadrados para mo<strong>de</strong>los lineales en losparámetros, es <strong>de</strong>cir para el caso en que la relación entre la variable <strong>de</strong>pendiente(también llamada variable respuesta) que nos interesa Y, y las variables explicativas(tambíen llamados regresores) X 1 , X 2 ,..., X k esExisten k parámetros constantes β 1 , β 2 ,...,β k tales queY=β 1 X 1 +β 2 X 2 +...+β k X k +εdon<strong>de</strong> ε es una perturbación aleatoriaHemos realizado observaciones <strong>de</strong>l fenómemo: i.e conocemos para variascombinaciones <strong>de</strong> valores <strong>de</strong> las variables in<strong>de</strong>pendientes cuál ha sido el valor <strong>de</strong> lavariable respuesta. Queremos ajustar un mo<strong>de</strong>lo <strong>de</strong> tipo lineal a las observaciones <strong>de</strong>las que disponemos. El ajuste consiste en encontrar valores aproximados <strong>de</strong> loscoeficientes β 1 , β 2 ,...,β k .Regresión lineal múltiple.Para ilustrar los comandos necesarios, analizaremos el conjunto <strong>de</strong> datoscorrespondiente al problema siguiente: un ingeniero <strong>de</strong> producción es responsable <strong>de</strong> lareducción <strong>de</strong>l costo. Uno <strong>de</strong> las materias primas fundamentales en la producción es elagua. Para estudiar el consumo <strong>de</strong> agua , el ingeniero apunta durante 17 meses elconsumo mensual <strong>de</strong> agua (y) junto con los siguientes indicadores: la temperaturamedia mensual (x2 en ºF) la producción (x3 ), el número <strong>de</strong> días <strong>de</strong> trabajo en el mes(x4) y el número <strong>de</strong> personal en la planta <strong>de</strong> producción (x5). Los datos están en elfichero agua.txt.Después <strong>de</strong> haber importado los datos (comprobar que todas las variables han sidoimportadas como “numéricas”), pasamos al ajuste <strong>de</strong> los datos con un mo<strong>de</strong>loY=β 1 X 1 +β 2 X 2 +β 3 X 3 + β 4 X 4 +β 5 X 5 +εdon<strong>de</strong> ε es una perturbación aleatoria normal con mediacero y varianza,σ 2 y X1=1 (término constante)


Para ello, al igual que para la regresión lineal simple, utilizamos la instrucción Analizar->Regresión->Lineal. Ahora pasamos las cuatro variablesX2 a X5 en el cuadro <strong>de</strong> lasvariables in<strong>de</strong>pendientes. En el submenu <strong>de</strong> opciones, po<strong>de</strong>mos entre otras cosas <strong>de</strong>cidirexcluir el término constante en el mo<strong>de</strong>lo, lo que no haremos en este caso.ObtenemosResumen <strong>de</strong>l mo<strong>de</strong>loMo<strong>de</strong>lo R RcuadradoRcuadradoError típ.<strong>de</strong> lacorregida estimación1 ,876 ,767 ,689 248,9641a Variables predictoras: (Constante), X5, X4, X2, X3IaIbCoeficientesCoeficientes noestandarizadosCoeficientesestandarizadost Sig.Mo<strong>de</strong>lo B Error típ. Beta1(Constante6360,337 1314,392 4,839 ,000)X2 13,869 5,160 ,419 2,688 ,020X3 ,212 ,046 1,671 4,648 ,001X4 -126,690 48,022 -,415 -2,638 ,022X5 -21,818 7,285 -1,074 -2,995 ,011a Variable <strong>de</strong>pendiente: YIIIIIIVLos recuadros se interpretan <strong>de</strong> la siguiente manera.Recuadro Ia: Proporciona el valor <strong>de</strong> R 2 que es el coeficiente <strong>de</strong> <strong>de</strong>terminaciónmúltiple que nos indica la proporción <strong>de</strong> la variabilidad en los datos explicada por elmo<strong>de</strong>lo <strong>de</strong> regresión.Recuadro Ib: Proporciona el valor <strong>de</strong> la <strong>de</strong>sviación típica residual.Recuadro II En la columna Coefficientes no estandarizados po<strong>de</strong>mosleer los valores obtenidos <strong>de</strong> los coeficientes, en la línea Constante, tenemos elcoeficiente <strong>de</strong> X1=1 En este caso la ecuación proporcionada esConsumo promedio= 6360.4+13.9X2+0.2X3-126.7X4+21.8X5Recuadro III: Proporciona los errores típicos <strong>de</strong> los estimadores <strong>de</strong> los coeficientes,los podríamos utilizar para construir intervalos <strong>de</strong> confianza.Recuadro IV: Sirve para <strong>de</strong>terminar si los coeficientes <strong>de</strong> cada variable explicativa sonsignificativamente distintos <strong>de</strong> 0: en la columna t, obtenemos los valores <strong>de</strong> losestadísticos <strong>de</strong> prueba asociados a cada coeficiente, mientras que en la columna Sig,po<strong>de</strong>mos encontrar los p-valores <strong>de</strong> las pruebas H 0 : β i =0 contra H 1 : β i ≠0, para cadauno <strong>de</strong> los coeficientes. En este caso todos los p-valores son pequeños, lo que implicaque nos quedamos con todas las variables en el mo<strong>de</strong>lo.


Po<strong>de</strong>mos realizar con SPSS intentos <strong>de</strong> construcción <strong>de</strong> mo<strong>de</strong>los. En particularpo<strong>de</strong>mos llevar a cabo la eliminación hacia atrás, seleccionando en el cuadro <strong>de</strong> diálogoabierto con la instrucción Analizar->Regresion->Lineal, el método “Hacia atrás”.En el cuadro Opciones, po<strong>de</strong>mos fijar el valor <strong>de</strong>l umbral <strong>de</strong>l p-valor que fijamos paraque una variable sea eliminada <strong>de</strong>l mo<strong>de</strong>lo, cambiando el valor en “Salida”.Por <strong>de</strong>fecto aparece un valor <strong>de</strong>l umbral <strong>de</strong> 0.1. Continuamos y aceptamos para obtenerla secuencia <strong>de</strong> mo<strong>de</strong>los en los que posiblemente vayan siendo las variables eliminadasuna por una hasta dar con el mo<strong>de</strong>lo final. En este caso puesto que todos los p-valoresson menores que 0.1, el algoritmo se para en la primera iteración.


<strong>Ejercicios</strong>Volumen <strong>de</strong> ma<strong>de</strong>ra.En ingeniería forestal existe la necesidad evi<strong>de</strong>nte <strong>de</strong> po<strong>de</strong>r pre<strong>de</strong>cir el volumen <strong>de</strong> ma<strong>de</strong>ra disponible <strong>de</strong>un tronco <strong>de</strong> un árbol todavía en pie. El método más sencillo consiste en medir el diámetro cerca <strong>de</strong>lsuelo y la altura <strong>de</strong>l tronco y estimar el volumen utilizando estas dos cantida<strong>de</strong>s. En el fichero cerezos.txtestán los datos <strong>de</strong> un experimento realizado en un parque nacional <strong>de</strong> Pennsylvania don<strong>de</strong> se midió concuidado el volumen <strong>de</strong>spués <strong>de</strong> cortar el tronco <strong>de</strong> ( v: volumen, d: diámetro y a: altura)1. Realizar el análisis <strong>de</strong> regresión lineal <strong>de</strong>l volumen sobre el diámetro y la altura.1. Proceda al análisis <strong>de</strong> los residuos, ¿Cuál es su diagnóstico?2. Si se supone que el tronco es un cilindro perfecto, ¿ cuál sería la relación entre v,a y d ? Proponer unatransformación sobre los datos que sea acor<strong>de</strong> con esta relación física Realizar el ajuste linealcorrespondiente con especial interés en el análisis <strong>de</strong> los residuos.3. Si se supone que el tronco es un cono perfecto, \¿ cuáles <strong>de</strong>berían ser los valores <strong>de</strong> los parámetros<strong>de</strong>l apartado anterior?.Consumo <strong>de</strong> heladosSe quisó i<strong>de</strong>ntificar los factores más influyentes en el consumo <strong>de</strong> helados. Para ello se midió en unafamilia durante 30 semanas entre el 18 <strong>de</strong> marzo <strong>de</strong> 1953 hasta 11 <strong>de</strong> julio 1953 el consumo semanal <strong>de</strong>helado por persona (y), junto con las cantida<strong>de</strong>s siguientes que se pensaba podían tener alguna influenciasobre el consumo : p el precio <strong>de</strong> una pinta <strong>de</strong> helado, i los ingresos semanales <strong>de</strong> la familia, temp : latemperatura media <strong>de</strong> la semana. También aparece el número <strong>de</strong> la semana. Los datos están en el ficherohelados.dat1. Represente gráficamente el consumo <strong>de</strong> helados en función <strong>de</strong> las semanas.2. Determinar la matriz <strong>de</strong> correlación <strong>de</strong> las variables y,p,i y temp. Para ello se utiliza la opciónAnalizar->Correlaciones->bivariadas, y como es usual en SPSS pasamos <strong>de</strong>s<strong>de</strong> la lista <strong>de</strong> lasvariables <strong>de</strong> la izquierda las variables que nos interesan. ¿Cuál es la variable que parece tener másinfluencia en y?3. Realizar un ajuste lineal <strong>de</strong> y sobre p,i y temp. ¿Qué vale la varianza residual y R^2?4. Realizar un ajuste lineal <strong>de</strong> y sobre i y temp. Misma pregunta que en el apartado anterior5. Guar<strong>de</strong> los valores ajustados en una variable llamada ajucomp. Represente en la misma gráfica y enfunción <strong>de</strong> semanas y ajucomp en función <strong>de</strong> semana.Calor emitido por el fraguado <strong>de</strong> cemento.Se estudia la relación entre la composición <strong>de</strong> un cemento tipo Portland y el calor <strong>de</strong>sprendido durante lafase <strong>de</strong> fraguado 1 . Los datos se pue<strong>de</strong>n encontrar en el fichero hald.txt. La variable Y es la cantidad <strong>de</strong>calor <strong>de</strong>sprendido en calorías por gramos <strong>de</strong> cemento, mientras que las variables X1, X2 X3 y X4representan el contenido en porcentaje <strong>de</strong> cuatro productos A, B, C y D.1. Obtener la matriz <strong>de</strong> correlaciones <strong>de</strong> las distintas variables.2. Realizar un ajuste lineal utilizando el procedimiento <strong>de</strong> eliminación hacia atrás.Perdida <strong>de</strong> peso <strong>de</strong> un productoSe sabe que un <strong>de</strong>terminado producto pier<strong>de</strong> peso <strong>de</strong>spués <strong>de</strong> ser producido. En el archivo peso.txt se harecogido la diferencia (peso nominal-peso real) para varias unida<strong>de</strong>s en distintos tiempos.1. Ajustar un mo<strong>de</strong>lo <strong>de</strong> regresión lineal simple para explicar la evolución <strong>de</strong> la diferencia <strong>de</strong> peso enfunción <strong>de</strong>l tiempo.2. Realizar la gráfica <strong>de</strong> los residuos en función <strong>de</strong> los valores ajustados. ¿Le parece a<strong>de</strong>cuado nuestromo<strong>de</strong>lo para analizar estos datos? ¿Tiene alguna i<strong>de</strong>a para mejorarlo?3. Realizar el ajuste por un polinomio <strong>de</strong> or<strong>de</strong>n 2.1 Fuente: A. Hald, Statistical Theory with Engineering Applications, Wiley, New York, 1952, p. 647


Autor: Pilar Sanmartin / Mathieu KesslerESTADíSTICA INDUSTRIALProf: Mathieu KesslerCOMPONENTES PRINCIPALESPRACTICAS.Curso 04/05Prof. Mathieu KesslerEjemplo: Empresas con mayor volumen <strong>de</strong> ventasConsi<strong>de</strong>ramos las nueve empresas españolas con mayor volumen <strong>de</strong> ventas en 1992:Empresa Ventas BeneficiosEl Corte InglésIberdrolaRepsol ComercialSeatTabacaleraFASA RenaultRepsol PetroleoPrycaIberia775104.0775218.0700963.0674063.0631003.0527744.0489155.0448465.0445853.023795.0058778.001531.00-12756.014729.009059.0012541.0013495.00-34824.0Y buscamos extraer una componente principal para conseguir una reducción <strong>de</strong> la dimensión (aunqueaquí sea inutil dado que sólo tenemos dos variables)Importar los datos <strong>de</strong>l fichero empresas.txt.Notaciones-recordatorios <strong>de</strong> clase:Para este conjunto <strong>de</strong> datos tenemos dos variables X1 y X2, que <strong>de</strong>scriben 9 individuos (las empresas) yperseguimos enten<strong>de</strong>r la estructura <strong>de</strong> variabilidad presente en los datos: ¿cuál es la primera fuente <strong>de</strong>variación entre estos individuos?, es <strong>de</strong>cir, ¿en qué se diferencian?Para ello, buscamos un cambio <strong>de</strong> sistema <strong>de</strong> coor<strong>de</strong>nadas. Llamamos Z1 y Z2 las componentes <strong>de</strong> lanube <strong>de</strong> puntos en el nuevo sistema <strong>de</strong> coor<strong>de</strong>nadas, hemos escogido Z1 y Z2 <strong>de</strong> tal manera que1) La variabilidad total se preserva: Var(X1)+Var(X2)=Var(Z1)+Var(Z2)2) La varianza <strong>de</strong> Z1 es la “más gran<strong>de</strong> posible”, y por lo tanto, Var(Z2) es pequeña.3) Z1 y Z2 no están correlados.Se pue<strong>de</strong> <strong>de</strong>mostrar que se consigue si los vectores <strong>de</strong>l nuevo sistema <strong>de</strong> coor<strong>de</strong>nadas correspon<strong>de</strong>n a losvectores propios <strong>de</strong> la matriz <strong>de</strong> covarianza. (ver apuntes)Análisis en componentes principales con SPSS.Para aplicar la técnica <strong>de</strong> componentes principales con ayuda <strong>de</strong>l programa SPSS importamos los datos<strong>de</strong>l fichero empresas.txt y usamos la opción:Analizar->reducción <strong>de</strong> datos->análisis factorialAutor: Pilar Sanmatín /Mathieu Kessler


Autor: Pilar Sanmartin / Mathieu KesslerEn el submenú extracción:1) Escogemos el método “Componentes principales”.2) Debemos escoger si analizamos la matriz <strong>de</strong> correlaciones o la matriz <strong>de</strong> covarianza- ver el apéndicepara una explicación <strong>de</strong> la diferencia entre las dos opciones.3) Pedimos en Mostrar: la solución factorial sin rotar (las rotaciones se utilizan en análisis encomponentes principales), y la gráfica <strong>de</strong> sedimentación (que llamamos en los apuntes, gráfica <strong>de</strong>codo)4) Finalmente, <strong>de</strong>bemos escoger cuantas componentes aparecerán <strong>de</strong>scritas en la ventana <strong>de</strong> resultados:esto no cambia el análisis sino solamente la cantidad <strong>de</strong> información que nos proporciona elprograma al final. Po<strong>de</strong>mos escoger que se limite a los autovalores 1 mayores que una cierta cantidado especificar nosotros el número <strong>de</strong> componentes <strong>de</strong>scritos. (la opción que recomiendo)En el submenú extracción:Seleccionamos la opción <strong>de</strong> “Guardar como variables”: las puntuaciones factoriales son los valores paracada individuo <strong>de</strong> Z1 y Z2.También seleccionamos la opción <strong>de</strong> “Mostrar la matriz <strong>de</strong> coeficientes <strong>de</strong> punt. factoriales”, que nospermitirá <strong>de</strong>ducir la expresión <strong>de</strong>l cambio <strong>de</strong> sistema.1 El término autovalores es equivalente a “valores propios”.Autor: Pilar Sanmatín /Mathieu Kessler


Autor: Pilar Sanmartin / Mathieu KesslerDe momento no modificamos nada más y le damos a Aceptar.Resultados <strong>de</strong> SPSS.En cuanto a resultados, obtenemos por una parte los autovaloresDeducimos que el mayor autovalor es λ1=1.543 mientras que el segundo es λ2=0.457.La matriz <strong>de</strong> componentes nos da los coeficientes <strong>de</strong> correlación entre las componentes y las variablesoriginales (tipificadas) <strong>de</strong> don<strong>de</strong> podríamos <strong>de</strong>ducir los vectores propios asociados, pero preferimos lamatriz <strong>de</strong> coeficientes <strong>de</strong> las puntuaciones factoriales que intrepretaremos a continuación:.Escribe las ecuaciones <strong>de</strong> la transformación<strong>Ejercicios</strong>:Ejemplo: Encuesta <strong>de</strong> presupuestos familiares. (Peña, 2002, Análisis <strong>de</strong> datos multivariantes,p140)En el fichero epf.txt, La encuesta <strong>de</strong> presupuestos familiares en España para el año 1990/1991, recoge losgastos medios <strong>de</strong> las familias españolas para las 51 provincias (Ceuta y Melilla aparecen unidas como unaprovincia). Las variables son: X1= alimentación, X2= vestido y calzado, X3= vivienda, X4= mobiliariodoméstico, X5= gastos sanitarios, X6= transporte, X7= enseñanza y cultura, X8= turismo y ocio, X9=otros gastos.1. Realizar el análisis en componentes principales, interpretar los coeficientes <strong>de</strong> los dos primeroscomponentes principales2. Clasificar las provincias según la primera componente.Ejemplo: Medidas.En el fichero medidas.txt se encuentran las medidas en inches <strong>de</strong>l pecho, cintura y ca<strong>de</strong>rascorrespondientes a 20 personas 2 . Vamos a intentar interpretar la variabilidad presente en los datos.1. Un primer paso consiste en examinar las inter-relaciones entre las variables utilizando la matriz <strong>de</strong>correlación. Calcular a continuación la matriz <strong>de</strong> covarianzas. Observamos que las varianzas son <strong>de</strong>lmismo or<strong>de</strong>n <strong>de</strong> magnitud, lo que, junto con el hecho <strong>de</strong> que las unida<strong>de</strong>s <strong>de</strong> medidas <strong>de</strong> las tresvariables son las mismas, nos lleva a realizar el análisis en componentes principales con la matriz <strong>de</strong>covarianzas.2. Realizar un análisis en componentes principales. ¿Cómo po<strong>de</strong>mos interpretar los componentes?¿Cuántos componentes retendremos?2 Conjunto nº 79 <strong>de</strong> Hand, Daly Lunn, Mc Conway & Ostrowski, (1994) A handbook of small datasets,Chapman & Hall.Autor: Pilar Sanmatín /Mathieu Kessler


Autor: Pilar Sanmartin / Mathieu KesslerEjemplo: Consumo <strong>de</strong> proteinas en EuropaEn el fichero proteinas.txt, po<strong>de</strong>is encontrar los datos correspondientes al consumo <strong>de</strong> proteinas en 25paises europeos 3 correspondientes a nueve grupos <strong>de</strong> alimentos. Los datos datan <strong>de</strong> 1973. Los nombres<strong>de</strong> las variables son las siguientes:1. Country: País2. RdMeat: Carne roja3. WhMeat: Carne Blanca4. Eggs: Huevos5. Milk: Leche6. Fish: Pescado7. Cereal: Cereales8. Starch: Feculentes9. Nuts: Frutos secos, y aceites10. Fr&Veg: Frutas y verdurasRealizar un análisis <strong>de</strong> componentes principales.Apéndice: Matriz <strong>de</strong> covarianzas o Matriz <strong>de</strong> correlaciones?En el submenu Extracción po<strong>de</strong>mos escoger entre analizar la matriz <strong>de</strong> covarianzas o la correlaciones,explicamos a continuación la diferencia entre las dos opciones.En el caso en que las variables tengan or<strong>de</strong>nes <strong>de</strong> magnitud muy distintos, y en particular or<strong>de</strong>nes <strong>de</strong>dispersión muy distintos, las variables no aportan la misma contribución a la variabilidad total, y esto nospue<strong>de</strong> llevar a <strong>de</strong>scartar una variable importante en la estructura <strong>de</strong> variabilidad sólo porque su or<strong>de</strong>n <strong>de</strong>magnitud es menor que el <strong>de</strong> otra. Las variables con or<strong>de</strong>n <strong>de</strong> magnitud gran<strong>de</strong> dominarían por completoel análisis. En particular, si cambiamos las unida<strong>de</strong>s, los resultados podrían cambiar completamente: setrata <strong>de</strong> una característica muy poco afortunada <strong>de</strong>l análisis en componentes principales.En el caso en que las variables son <strong>de</strong> or<strong>de</strong>n <strong>de</strong> magnitud distintos, po<strong>de</strong>mos transformarlas para obtenernuevas variables que sí se puedan comparar. Esto se consigue tipificando las variables, es <strong>de</strong>cirrestándoles su media y diviendoles por su <strong>de</strong>sviación típica:Definición: Sea X una variable asociada a un conjunto <strong>de</strong> datos, se obtiene la versión tipificada <strong>de</strong> X através <strong>de</strong> la transformación:Y=(X-media(X)/(Desv. Típica(X))La variable Y en el conjunto es centrada (<strong>de</strong> media cero) y tiene una <strong>de</strong>sviación típica igual a 1.Si tipificamos todas las variables X1, X2, X3, … <strong>de</strong>l conjunto y formamos las variables Y1, Y2, Y3,… esposible comprobar que la matriz <strong>de</strong> covarianza <strong>de</strong> Y1, Y2, Y3, … es igual a la matriz <strong>de</strong> correlación <strong>de</strong>X1, X2, X3, … Por lo tanto, realizar un análisis en componentes principales sobre la matriz <strong>de</strong>correlación <strong>de</strong> X1, X2, X3, … es equivalente a realizarlo con la matriz <strong>de</strong> covarianzas <strong>de</strong> las variablestipificadas Y1, Y2, Y3… Seleccionamos en general analizar la matriz <strong>de</strong> correlación <strong>de</strong> X1, X2, X3, …en el caso en que sus <strong>de</strong>sviaciones típicas son <strong>de</strong> or<strong>de</strong>nes <strong>de</strong> magnitud distintos.3 Conjunto nº 360 <strong>de</strong> Hand, Daly Lunn, Mc Conway & Ostrowski, (1994) A handbook of small datasets,Chapman & Hall.Autor: Pilar Sanmatín /Mathieu Kessler


ESTADíSTICA INDUSTRIALProf: Mathieu KesslerAlgorítmo K-mediasANALISIS CLUSTERPRACTICAS.Ilustraremos el análisis en conglomerados con el algorítmo k-medias en SPSS,utilizando los ejemplos vistos en clase y extraidos <strong>de</strong> D. Peña, Análisis <strong>de</strong> datosmultivariantes (2002).Importar los datos <strong>de</strong>l fichero Ruspini.txt.Realizar un diagrama <strong>de</strong> dispersión <strong>de</strong> Y en función <strong>de</strong> X.Para realizar el conglomerado <strong>de</strong> K medias, utilizamosAnalizar->clasificar->conglomerado <strong>de</strong> K mediasPasamos las variables X e Y al cuadro variables, seleccionamos el número G <strong>de</strong>conglomerados que <strong>de</strong>seamos construir (empezamos con 2).En el caso en que <strong>de</strong>seamos fijar los centros iniciales <strong>de</strong> los conglomerados, <strong>de</strong>bemosespecificar un archivo con tantas columnas como variables y tantas líneas comoconglomerados y que contenga las coor<strong>de</strong>nadas <strong>de</strong> los centros. También necesitaremosen este caso escoger la opción “Sólo clasificar” para que SPSS no actualice los centrosen cada iteración.en iterar tenemos la posibilidad <strong>de</strong> fijar el número máximo <strong>de</strong> iteraciones, la opción por<strong>de</strong>fecto es <strong>de</strong> 10.en guardar pediremos que se guar<strong>de</strong>n los conglomerados <strong>de</strong> pertenencia


yFinalmente, po<strong>de</strong>mos en el submenu opciones, pedir que nos proporcione la tabla <strong>de</strong>ANOVA.Después <strong>de</strong> realizar el análisis, po<strong>de</strong>mos ahora visualizar los grupos formados:volvemos a la ventana <strong>de</strong> datos, y observamos que ha aparecido una nueva columnacon los índices <strong>de</strong> l conglomerado al que pertenece cada individuo. Po<strong>de</strong>mos realizaruna gráfica <strong>de</strong> dispersión <strong>de</strong> tipo interactivo, don<strong>de</strong> especificamos que etiquete los datosmediante la variable correspondiente al índice <strong>de</strong>l conglomerado <strong>de</strong> pertenencia.150,00AA A A AA AA AAA AAA A A A2 2 2222222 2A A2 22 22 22A AA2 2 22 2 A2 AAAA A A22 A2 2A A2 AAA 2 2 2 2 22100,0050,00A1AA1AAAA1 A1AAA A 1 11 A AAAA 111 1 A 111 AA 111111A AA2 22A AA 1 A1AA1 1AAAA A 111AA 1 1 1A1A10,000,0 25,0 50,0 75,0 100,0xCálculo <strong>de</strong> la suma <strong>de</strong> cuadrados <strong>de</strong>ntro <strong>de</strong> los grupos final (SCDG).Utilizando la tabla ANOVA proporcionada por SPSS, se pue<strong>de</strong> <strong>de</strong>ducir el valor final <strong>de</strong>la suma <strong>de</strong> cuadrados <strong>de</strong>ntro <strong>de</strong> los grupos.ANOVAConglomerado Error F Sig.Media cuadrática gl Media glcuadráticaMedia cuadrática gl Media glcuadráticaX 12539,059 1 771,382 73 16,255 ,000X 12539,059 1 771,382 73 16,255 ,000Y 142496,975 1 452,424 73 314,963 ,000Y 142496,975 1 452,424 73 314,963 ,000


A partir <strong>de</strong> las cantida<strong>de</strong>s <strong>de</strong> la columna “Error”, po<strong>de</strong>mos calcular la SCDG:multiplicando la media cuadrática por los grados <strong>de</strong> libertad (gl) obtenemos lacontribución <strong>de</strong> cada variable a la suma <strong>de</strong> cuadrados, y la SCDG total se obtienesumando las dos contribuciones:SCDG(2)=771,382*73+452,424*73= 89337,84En particular po<strong>de</strong>mos calcular el estadístico F que nos permitirá, utilizando la regla <strong>de</strong>Hartigan, confirmar el número <strong>de</strong> grupos con el que nos quedamos.F=(SCDG(G)-SCDG(G+1))/(SCDG(G+1)/(n-G-1))Volver a ejecutar el algorítmo para 3 y 4 conglomerados y rellenar la tabla siguiente:Variable XVariable YTotalSuma <strong>de</strong> cuadradosG=2 G=3 G=4FRepetir el análisis para los datos estan<strong>de</strong>rizados: calcular la media y la <strong>de</strong>sviación típica<strong>de</strong> X e Y, construir las variables estan<strong>de</strong>rizadas zx=(x-mediax)/sdx y zy=(ymediay)/sdy.Represente el diagrama <strong>de</strong> dispersión <strong>de</strong> zy en función <strong>de</strong> zx, en suopinión, ¿cambiará significativamente el resultado <strong>de</strong>l análisis <strong>de</strong> conglomerados?Ejercicio: En el archivo mundo<strong>de</strong>s.sav 1 , po<strong>de</strong>is encontrar los datos <strong>de</strong> cinco variables<strong>de</strong>mográficas, tasa natalidad (por 1000 habitantes), tasa mortalidad (por 1000habitantes), mortalidad infantil (<strong>de</strong>bajo <strong>de</strong> 1 año), esperanza <strong>de</strong> vida para los hombresy esperanza <strong>de</strong> vida para las mujeres.Realizar el análisis en conglomerados para 3, 4 y 5 grupos aplicando el criterio <strong>de</strong>Hartigan para <strong>de</strong>ducir el número <strong>de</strong> conglomerados. ¿Se pue<strong>de</strong>n interpretar los gruposque aparecen? Realizar un diagrama <strong>de</strong> dispersión con la tasa <strong>de</strong> natalidad y lamortalidad infantil, etiquetando los casos utilizando el índice <strong>de</strong>l conglomerado <strong>de</strong>pertenencia.Ejercicio: Volver a analizar los conjuntos <strong>de</strong> datos <strong>de</strong> proteinas y <strong>de</strong> la encuesta <strong>de</strong>presupuestos familiares que se introdujeron en la práctica anterior.1 Fuente: "UNESCO 1990 Demographic Year Book" y <strong>de</strong> "The Annual Register 1992".Citado en Peña, D. (2002), Análisis <strong>de</strong> Datos Multivariantes, Mc-Graw Hill.


ESTADíSTICA INDUSTRIALProf: Mathieu KesslerPRACTICASANALISIS CLUSTER 2: métodos jerárquicosIlustraremos el análisis <strong>de</strong> clasificación jeráquica en SPSS, empezando con el ejemplosencillo en el que queremos realizar una clasificación jerárquica <strong>de</strong> cuatro individuosbasándonos en los valores <strong>de</strong> dos variables:XY0,30 0,60,35 0,40,7 0,80,8 0,5Representamos la nube <strong>de</strong> puntos con un diagrama <strong>de</strong> dispersión, y pedimos a SPSSque lleve a cabo la clasificación jerárquica:UtilizamosAnalizar->clasificar->conglomerados jerárquicosPasamos todas las variables al cuadro variablesEn el submenu Gráficos, escogemos la opción <strong>de</strong>l <strong>de</strong>ndograma.


Consi<strong>de</strong>remos ahora el submenu “Método”En método <strong>de</strong> conglomeración, tenemos la posibilidad <strong>de</strong> escoger uno <strong>de</strong> variosmétodos (en clase vimos el <strong>de</strong> Vecino más próximo y el <strong>de</strong> Vecino más lejano) paracalcular la distancia entre dos grupos. Un método que parece dar buenos resultados es el<strong>de</strong> Ward.También po<strong>de</strong>mos <strong>de</strong>cidir <strong>de</strong> transformar los valores y estan<strong>de</strong>rizar las variables en elcaso en que sus or<strong>de</strong>nes <strong>de</strong> magnitud son distintos, escogiendo las puntuaciones Z porejemplo.En guardar pediremos que se guar<strong>de</strong>n los conglomerados <strong>de</strong> pertenencia:Tenemos dos posibilida<strong>de</strong>s: al escoger “Solución única”, escogemos el número <strong>de</strong>grupos que queremos que consi<strong>de</strong>re: SPSS empieza en el nivel más alto <strong>de</strong> laclasificación (sólo 1 grupo) y va bajando hasta encontrar el número <strong>de</strong> grupos requerido.Realizar el análisis con dos grupos.Si escogemos Rango <strong>de</strong> soluciones: <strong>de</strong>s<strong>de</strong> 2 hasta 4 grupos por ejemplo: SPSS creerá 3variables <strong>de</strong> pertenencia, la primera contendrá los índices <strong>de</strong> pertenencia en el caso enque sólo consi<strong>de</strong>ramos dos grupos, la segunda tres, etc…Realizamos el análisis para dos grupos (solución única 2 grupos) escogiendo el método<strong>de</strong>l vecino más próximo por ejemplo, obtenemos en la ventana <strong>de</strong> resultados el historial<strong>de</strong> conglomeraciones


Historial <strong>de</strong> conglomeraciónConglomerado quese combinaCoeficientesEtapa en la que elconglomeradoaparece por primeravezPróximaetapaEtapaConglomerado 1 Conglomerado2Conglomerado 1 Conglomerado 21 1 2 ,740 0 0 32 3 4 1,000 0 0 33 1 3 6,890 1 2 0Este historial nos informa que la obtención <strong>de</strong> una clasificación jerárquica con dosgrupos finales se ha realizado en tres etapas.Recordar que el algoritmo se inicia (etapa 0) con tantos conglomerados comoindividuos (en este caso, cuatro, numerados <strong>de</strong>l 1 al 4, según su or<strong>de</strong>n en la ventana <strong>de</strong>datos). Leemos en el historial que en la etapa 1 que se han combinado el conglomerado1 y el conglomerado 2, es <strong>de</strong>cir el individuo 1 y el individuo 2, por ser los dos máspróximos. En las columnas situadas a la <strong>de</strong>recha <strong>de</strong> la tabla, po<strong>de</strong>mos por una partesaber si el individuo ya ha sido asociado con otro conglomerado en una etapa anterior,que no es el caso aquí, y cuando volvéra a ser combinado (próxima etapa) que ennuestro caso correspon<strong>de</strong> a la etapa 3.Ahora tenemos 3 conglomerados: uno formado por los individuos 1 y 2, y otros dosque contienen los individuos 3 y 4 individualmente.En la etapa 2, combinan el conglomerado 3 con el 4, es <strong>de</strong>cir los dos individuos 3 y 4.Leemos que ninguno <strong>de</strong> estos dos conglomerados había sido aglomerado previamente.Finalmente, en la etapa 3, se junta el conglomerado 1, es <strong>de</strong>cir el que contiene elindividuo 1, (recordar que estaba asociado con el individuo 2, <strong>de</strong>s<strong>de</strong> la etapa1) con elconglomerado que contiene el individuo 3, (que estaba con el individuo 4 <strong>de</strong>s<strong>de</strong> la etapa2).El algoritmo se acaba puesto que todos los individuos están en un único granconglomerado.En la ventana <strong>de</strong> datos, ha aparecido una nueva variable que contiene el conglomerado<strong>de</strong> pertenencia <strong>de</strong> cada individuo, para el número <strong>de</strong> grupos escogidos en el submenúGuardar (ver página anterior). En nuestro caso escogimos dos grupos, los dos primerosindividuos tienen por conglomerado <strong>de</strong> pertenencia el 1, mientras que los dos últimos el2.Ejercicio: Proteinas.Consi<strong>de</strong>rar el fichero <strong>de</strong>l consumo <strong>de</strong> proteinas <strong>de</strong> la práctica anterior.1. Realizar una clasificación jerárquica <strong>de</strong> los paises en base a su consumo <strong>de</strong> proteinas según lasdistintas fuentes <strong>de</strong> alimentación. Podreis utilizar el método <strong>de</strong> Ward, y especificar que los casosse etiqueten con la variable Country. Guardar los conglomerados <strong>de</strong> pertenencia para un rango<strong>de</strong> soluciones <strong>de</strong> 2 a 4.2. Contestar, examinando el historial <strong>de</strong> iteraciones, a las siguientes preguntas: ¿qué dos paises secombinan primero? ¿En qué consiste la segunda etapa? ¿Cuándo es la primera vez que se formaun conglomerado con más <strong>de</strong> dos paises?3. Examinar el <strong>de</strong>ndograma: si queremos quedarnos con tres grupos, realizar la lista <strong>de</strong> los paisesque pertenecen a cada grupo. ¿y con 4 grupos?


4. Realizar el análisis en componentes principales. Guardar las puntuaciones <strong>de</strong> los paises según elprimer componente. Or<strong>de</strong>nar los paises por or<strong>de</strong>n creciente <strong>de</strong> estas puntuaciones. ¿El or<strong>de</strong>nobtenido parece guardar relación con los grupos obtenidos en el apartado anterior? ¿Cómoexplicais esta relación?Ejercicio : Ciuda<strong>de</strong>sEn el fichero ciuda<strong>de</strong>s.txt, se encuentran datos que representan las condiciones económicas <strong>de</strong> 48ciuda<strong>de</strong>s en el mundo en 1991. Los datos fueron recogidos por el “Economic Research Department” <strong>de</strong>“Union Bank of Switzerland” (disponibles en http://lib.stat.cmu.edu/DASL). Las cuatro variables son1. City: ciudad2. Work: el número <strong>de</strong> horas anuales <strong>de</strong> trabajo, calculado como la media correspondiente a 12activida<strong>de</strong>s <strong>de</strong>terminadas.3. Price: precio <strong>de</strong> un conjunto <strong>de</strong> 112 bienes escogidos.4. Salary: Sueldo medio correspondiente a 12 activida<strong>de</strong>s <strong>de</strong>terminadasRealizar un análisis en clusters jerárquicos <strong>de</strong> los datos, con el método <strong>de</strong> enca<strong>de</strong>namiento completo(vecino más lejano). ¿Cuántos grupos aparecen?Ejercicio : SuelosEn el fichero suelos.txt, se encuentran datos correspondientes a 20 muestras <strong>de</strong> suelos. Clasifícalos encuatro grupos utilizando los métodos <strong>de</strong>l vecino más cercano, <strong>de</strong>l vecino más lejano y <strong>de</strong>l centroi<strong>de</strong>.Dibuja los cuatro grupos obtenidos respecto a las variables contenido <strong>de</strong> arena y contenido <strong>de</strong> materiaorgánica.


ESTADíSTICA INDUSTRIALProf: Mathieu KesslerPRACTICAS.Curso 02/03ANALISIS DESCRIPTIVO DE SERIES TEMPORALESIlustraremos el análisis <strong>de</strong>scriptivo <strong>de</strong> series temporales con los datos <strong>de</strong> lastemperaturas mensuales en San Javier, <strong>de</strong>s<strong>de</strong> 1981 hasta 1990.Importar los datos <strong>de</strong>l fichero SanJavier.txt.Para realizar un estudio <strong>de</strong>scriptivo clásico <strong>de</strong> series temporales, separando elcomponente ten<strong>de</strong>ncia-ciclo, el componente estacional así como los residuos, esnecesario especificar la periodicidad natural <strong>de</strong> la serie que estamos contemplando. Paraello, utilizamos el comando Datos/Definir Fechas,Escogemos el tipo <strong>de</strong> datos que tenemos, en este caso, años y meses, y especificamos lafecha <strong>de</strong>l primer caso. Al aceptar, observamos que se crea en nuestra hoja tres variablesconteniendo el mes, el año y la fecha <strong>de</strong> cada observación.A continuación, antes <strong>de</strong> empezar con la <strong>de</strong>scomposición <strong>de</strong> la serie, es fundamentalrealizar un análisis <strong>de</strong>scriptivo exploratorio con representaciones gráficas.La primera gráfica que realizamos se hará a través <strong>de</strong> la instrucción Secuencia <strong>de</strong>l menuGráficos. La variable que queremos representar es la temperatura y ponemos escoger lafecha (“DATE”) como etiquetas para el eje OX. En el submenú Líneas <strong>de</strong> referencia,tenemos la posibilidad <strong>de</strong> añadir líneas verticales para cada cambio <strong>de</strong> año, <strong>de</strong> mes o enfechas señaladas que escojamos. Otras opciones se pue<strong>de</strong>n fijar en el submenúFormato.A la vista <strong>de</strong> la gráfica <strong>de</strong> la serie temporal, confirmamos la periodicidad clara <strong>de</strong> laserie con periodo 12. No observamos ningún dato atípico claro.


La segunda gráfica útil es el autocorrelograma, que se dibuja con la instrucciónAutocorrelaciones <strong>de</strong>l submenú Gráficos/Serie temporal. Po<strong>de</strong>mos <strong>de</strong>sactivar laopción correlaciones parciales, para quedarnos sólo con las autocorrelaciones. ¿Cómose interpreta la gráfica obtenida?Po<strong>de</strong>mos ahora proce<strong>de</strong>r al análisis <strong>de</strong> <strong>de</strong>scomposición <strong>de</strong> la serie. Vamos a empezarpor calcular la media móvil asociada.Para ello, en el menú Transformar, utilizamos la instrucción Crear serie temporal.Pasamos la variable tmp al cuadro nuevas variables, escogemos la función Mediamóvil centrada, y la amplitud igual a 3 para empezar. No <strong>de</strong>bemos olvidar <strong>de</strong> pulsar elbotón Cambiar para que el cambio en el cuadro <strong>de</strong> dialogo sea efectivo.Al aceptar la instrucción, obtenemos en la hoja <strong>de</strong> cálculo una nueva variable que sellama tmp_3 que contiene la media móvil <strong>de</strong> amplitud 3 asociada a la serie tmp.¿Sabríais calcular a mano los términos <strong>de</strong> esta nueva serie?Representar en una misma gráfica utilizando la instrucción Gráficos/Secuencia, laserie tmp junto con la media móvil asociada. ¿Cuál ha sido el efecto <strong>de</strong> calcular lamedia móvil <strong>de</strong> amplitud 3?Volver a calcular las series móviles variando la amplitud escogida ( por ejemplo, 7 y 11y 12 ). Representar todas estas series en una misma gráfica.Calcular la serie en la que hemos restado el componente <strong>de</strong> ten<strong>de</strong>ncia. ¿Cómopodríamos evaluar el componente estacional?


Finalmente vamos a pedir a SPSS que realice la <strong>de</strong>scomposición completa <strong>de</strong> la serie.Para ello utilizamos, en el menú Analizar la instrucción Descomposición estacional<strong>de</strong>l submenú Series temporales.Pasamos la variable tmp al cuadro <strong>de</strong> la <strong>de</strong>recha, escogemos un mo<strong>de</strong>lo aditivo, y altratarse <strong>de</strong> una periodicidad par, los puntos finales se pon<strong>de</strong>ran por 0.5. (correspon<strong>de</strong> alo que hemos llamado 2x12 MA en los apuntes).En el submenú Guardar, po<strong>de</strong>mos pedir que los componentes calculados se guar<strong>de</strong>ncomo nuevas variables, se sustituyan a los componentes ya calculados <strong>de</strong> una análisisanterior o se <strong>de</strong>scarten. (no crear)Al aceptar, SPSS nos proporciona en la ventana <strong>de</strong> resultados los cálculos <strong>de</strong> los índicesestacionales, es <strong>de</strong>cir el efecto medio <strong>de</strong> cada mes. También aparecen en la hoja <strong>de</strong>datos, las nuevas variables según la nomenclatura:• ERR_1: Residuos <strong>de</strong> la <strong>de</strong>scomposición, también llamado componente irregular.• SAS_1: Serie <strong>de</strong>-estacionalizada, es <strong>de</strong>cir la serie a la que se ha restado el efectoperiódico.• SAF_1: Componente estacional.• STC_1: estimación <strong>de</strong> la ten<strong>de</strong>ncia ciclo.Tenemos las siguientes relaciones, ¿Cómo se interpretan?TMP= STC_1+ SAF_1+ ERR_1.SAS_1=TMP- SAF_1SAF_1= TMP - STC_1- ERR_1.<strong>Ejercicios</strong>.1. Analizar la serie <strong>de</strong>l índice <strong>de</strong> paro en España <strong>de</strong>s<strong>de</strong> tercer trimestre 1976 hasta 3trimestre 2003. Fichero: paro.txt2. Analizar la serie <strong>de</strong> la <strong>de</strong>manda mensual <strong>de</strong> energía en España <strong>de</strong>s<strong>de</strong> 1998 hasta2002.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!