Ejercicios - Departamento de MatemÃ¡tica Aplicada y EstadÃstica

Departamento de Matemática Aplicada y EstadísticaUniversidad Politécnica de CartagenaMathieu Kessler.Práctica 0. Introducción al programa SPSSEL SPSS es un conjunto de programas orientados a la realización de análisisestadísticos aplicados a las ciencias sociales. Nos permite realizar análisis y gráficosestadísticos sin tener que conocer la mecánica de los cálculos ni la sintaxis de loscomandos del sistema. Comparado con otros programas, es más intuitivo y fácil deaprender. Su desventaja es que es menos flexible y con menos procedimientosavanzados que otros programas comerciales.SPSS es bueno a la hora de organizar y analizar datos. Se puede ordenar datos, calcularnuevos datos y realizar una gran variedad de análisis estadísticos. En teoría el tamaño delos ficheros de datos que SPSS puede manejar no está limitado por lo que puede trabajarcon ficheros grandes. Esta versión también permite el manejo cómodo de ficheros, lapersonalización de los informes, y el cortar y pegar en otros programas.Para ejecutarlo, se busca el programa en Inicio. pulsa dos veces sobre el iconodel programa, en el escritorio de Windows.Hay dos tipo de archivos asociados a SPSS:- Archivos de datos: tienen extensión .sav y están en formato SPSS.- Archivos de texto: tienen extensión .sps (archivos de sintaxis) o .spo (archivosde resultados.1. Componentes básicos de SPSS.Los pasos básicos en el análisis de datos consisten en• Introducir los datos, manualmente o recurriendo a un archivo ya existente.• Seleccionar un procedimiento estadístico.• Seleccionar las variables para el análisis. las variables que podemos usar en cadaprocedimiento se muestran en un cuadro de diálogo del que se seleccionan.• Ejecutar el procedimiento y ver los resultados. Los resultados aparecen en unaventana de resultados y se pueden guardar como archivos con extensión .spo. Losgráficos se pueden modificar en la ventana del editor de gráficos.La primera presentación es de una tabla de datos, donde se deberán introducir los datosde cada problema o leerlos de un fichero. Corresponde al Editor de datos.

Con el editor de datos podemos crear nuevos archivos o modificar los existentes. No sepuede tener más de un archivo de datos abierto al mismo tiempo en la misma sesión deSPSS. Dentro del editor de datos, dos vistas son posibles:Vista de datos : muestra los valores de datos reales o las etiquetas de valor definidas:- Las filas son casos. Cada fila representa un caso u observación.- Las columnas son variables. Cada columna representa una variable o característica quese mide.- Las casillas contienen valores numéricos o de cadena, siendo éste un valorúnico de una variable para cada caso. A diferencia de una hoja de cálculo, lascasillas del editor de datos no pueden contener fórmulas.Vista de variables: contiene descripciones de los atributos de cada variable delarchivo de datos. Aquí:- Las filas son variables.- Las columnas son atributos o características de las variables.Cambiamos de una vista a otra a través de las pestañas en la parte inferior de la ventana.Otras ventanas irán apareciendo a medida que vayamos realizando nuestro análisis,podrán contener gráficos (Editor de gráficos), informes con los resultados, etc…2. Primeros pasos con SPSSAntes de todo, debemos introducir los datos. Para hacerlo, distinguiremos dosposibilidades: introducimos los datos manualmente o los importamos a nuestra hoja decálculo desde un fichero externo. En el ejemplo ilustrativo que seguiremos a lo largo deesta primera sesión, veremos las dos situaciones.I.1. Introducimos los datos manualmente:a) Definimos las variables:Debemos definir, en primer lugar, las variables, utilizando la vista de variables,activada a través de la pestaña en la parte inferior de la ventana.Utilizando una fila para cada variable especificamos los atributos necesarios.Definimos el nombre de cada variable, y el tipo de datos que contiene cada una.Los valores de estas variables, en función del tipo seleccionado serán visualizadas segúnun patrón determinado y sólo estarán disponibles para estas variables aquellasoperaciones que son esperables para el tipo de que se trate en cada caso. Si se pulsa elbotón tipo y luego en los puntos suspensivos que aparecen en la casilla tenemos uncuadro de diálogo en el que se presentan los siguientes tipos de variables posibles:- Numérico. Variable cuyos valores son números. Los valores se muestran en elformato numérico estándar, utilizando los delimitadores decimales especificados enla Configuración Regional del Panel de control. El editor de datos acepta valoresnuméricos en formato estándar o en notación científica.- Coma. Define una variable numérica cuyos valores se muestran con comas deseparación cada tres posiciones y con un punto como separador de la parte decimal.El editor de datos acepta los valores numéricos para este tipo de variables, con o sincomas, o en notación científica.- Punto. Define una variable numérica cuyos valores se muestran con puntos deseparación cada tres posiciones y con una coma como separador de la parte decimal.

El editor de datos acepta valores numéricos para este tipo de variables, con o sinpuntos, o en notación científica.- Notación científica. Define una variable numérica cuyos valores se muestran conuna E intercalada y un exponente con signo que representa una potencia de basediez.- Fecha. Variable numérica cuyos valores se muestran en uno de los diferentesformatos de fecha-calendario u hora-reloj. Seleccione una plantilla de la listadesplegable. Puede introducir las fechas utilizando como delimitadores: barras,guiones, puntos, comas o espacios en blanco. El rango de siglo para los años de dosdígitos se toma de las opciones de configuración (Menú Edición, Opciones, pestañaDatos).- Dólar. Define una variable numérica cuyos valores contienen un signo de dólar, unpunto como separador de la parte decimal y múltiples comas como separadores demiles.- Moneda personalizada.- Cadena. Variable cuyos valores no son numéricos y, por ello, no se utilizan en loscálculos. Pueden contener cualquier carácter hasta la longitud definida. Lasmayúsculas y la minúsculas son consideradas diferentes. También son conocidascomo variables alfanuméricas.También tenemos la posibilidad de especificar la columna Etiqueta, que recoge unabreve descripción de las variables que sustituirá al nombre en el editor de resultados.No describimos aquí los demás atributos como Valores, alineación, etc…(ver el tutorialen línea para más información)b) Introducimos los datosUna vez definidas las variables, para la introducción de datos (en la pestaña Vista dedatos) simplemente habrá que situar el cursor en la primera celda de la columna ycomenzar a teclear los distintos valores de acuerdo con las especificaciones de cadavariable definida y, finalmente, pulsaremos ENTER o nos moveremos con el cursorpara fijar los valores introducidos.Por ejemplo, queremos introducir los valores obtenidos en mediciones repetidas decontenido en nitratos de una muestra de agua que aparecen tabulados a continuación:VALORES (µg/l) FRECUENCIA VALORES(µg/l) FRECUENCIA0.45 1 0.49 80.46 2 0.50 100.47 4 0.51 50.48 8 0.52 2Definimos una única variable CONC, que tome valores reales, y empezamos aintroducir los datosEn el caso en que debemos introducir repetidamente el mismo valor podemos utilizarlos comandos Copiar y Pegar (incluso en varias celdas a la vez) o sus atajos (Control Cy Control V)Se aconseja guardar la tabla de datos en un fichero después de la introducción de datos.Para ello, se usa la opción “Guardar” o “Guardar como” del menu Archivo. Al igual quecualquier programa Windows, se puede recorrer las carpetas para decidir donde guardarel fichero.

Guardar la tabla de datos anterior en un fichero llamado nitrato.sav en la carpetaC:\PRACTICAS\ESTADISTICA.Una vez que se han entrado unos datos, es posible añadir entre dos filas de una variableuno o varios datos nuevos usando la opción “Insertar caso” del menu Datos. La nuevacasilla aparece debajo de la posición actual de la casilla seleccionada.Finalmente, podemos seleccionar un rango de casillas con el ratón manteniendo la teclaShift pulsada y copiarlas, cortarlas o pegarlas en otra posición utilizando los comandoshabituales del menu Editar.I.2. Exploración de los datos.Ahora que hemos introducido los datos, podemos pasar a una primera exploración. Loharemos con el menu Analizar.Una buena idea es empezar por un diagrama de barras tener una primera impresiónvisual. Para ello, seleccionamos la opción Barras en el submenú Interactivosdel menú Graficos. Nota: aunque exista la posibilidad de escoger directamente undiagrama de barras en el menú Gráficos, se recomienda utilizar el submenúInteractivos, que permite mucho mejor control sobre el gráfico.En el cuadro de la izquierda aparece la lista de las variables que ya tenemos definidas.Basta con seleccionar la variable que nos interesa y pasarla al cuadro variablegracias a la flecha de la derecha..A continuación, realizamos un diagrama de cajas-bigotes de los datos. Para ello,seleccionamos la instrucción Diagrama de Cajas del menu Graficos. Puestoque sólo tenemos una variable, realizamos un diagrama simple y seleccionamos laopción Resumenes para distintas variables. Utilizamos en particular eldiagrama para detectar datos atípicos.Si nos hemos convencido de qué medidas de centralización y de dispersión son lasadecuadas para nuestro conjunto de datos, podemos pedir un informe sobre las medidasnuméricas que escojamos. Para ello, seleccionamos la instrucción Explorar delsubmenu Estadísticos descriptivos, en el menu Analizar. Aparece elcuadro de la Figura 2:Pasamos las variables que nos interesan al cuadro Dependientes, y aceptamos.Podemos cambiar los resumenes que proporciona SPSS, pinchando el cuadroEstadísticos, o Gráficos.

Departamento de Matemática Aplicada y EstadísticaUniversidad Politécnica de CartagenaMathieu KesslerPráctica . Monedas trucadasEl objetivo de esta práctica es decidir del número de veces que deberíamos tirar una moneda quesospechamos está trucada, para llegar a una conclusión en un sentido o en otro.Utilizaremos principalmente Excel, y realizaremos alguna gráfica con SPSS.Pasos que seguiremos en esta práctica:a) Supondremos que la moneda está trucada y que la probabilidad de que salga cara es 0.65.Aprenderemos a simular de una variable que puede tomar el valor 1 (que representa cara) y el valor0 (que representa cruz).b) A continuación realizaremos 10 tiradas, y calcularemos la proporción de 1.c) Repetiremos el paso b) anterior 1000 veces.d) Realizamo s un histograma de los 1000 valores de la proporción de 1 en series de 10 tiradas quehemos obtenido en el paso anteriore) A la vista del histograma decidimos si con 10 tiradas es fácil detectar que esta moneda está trucada.f) Realizamos todo lo anterior con series con un mayor número de tiradas.Paso a) y b): Generación de números aleatorios con ExcelPara simular una tirada de esta moneda trucada, abrimos Excel, nos colocamos en la primera celda, y labarra de fórmulas, escribimos =aleatorio():Barra de fórmulasAl dar ENTER, obtenemos un número aleatorio escogido al azar entre 0 y 1. Debemos ahora transformareste número real del intervalo [0,1] en uno de los dos valores enteros 1 o 0, de manera que laprobabilidad de obtener 1 sea 0.65. Para simular una tirada, construimos una variable que valga 1 si elnúmero uniforme anterior es menor que 0.65, y 0 si es mayor que 0.65:Nos colocamos en la celda B1, y entramos en la barra de fórmulas la instrucción =SI(A1

columna C. En una celda de la columna C, la celda C14 por ejemplo, hemos por lo tanto obtenido lafrecuencia de 1 que aparecen en las 10 celdas de la columna B que están situadas al lado y por debajo dela celda seleccionada, por ejemplo las celdas B14 a B23. Por otra parte como la instrucciónALEATORIO() es volátil, los valores de la frecuencia que hemos encontrado son independientes, puestoque todas las celdas se vuelven a evaluar a cada ejecución de un cálculo.Paso d) Obtención del histograma de los valores de la proporción de caras para1000 series de 10 tiradas.Seleccionamos y copiamos las 1000 celdas de la columna C. Abrimos SPSS o Statistix y los pegamos enuna columna correspondiente a una nueva variable. Si preferimos trabajar con frecuencias relativas(proporciones), definimos una nueva variable que se obtiene dividiendo la anterior por 10. Realizamos acontinuación el diagrama de barras. Yo obtengo el siguiente.300200100Frecuencia0,10,20,30,40,50,60,70,80,90VAR00001Paso e) Interpretación¿Os parece fácil detectar, basándose en una serie de 10, tiradas que la moneda está trucada? ¿Qué modeloparece razonable para la distribución de los valores que puede tomar la proporción de 1 en series de 10tiradas de moneda?Paso f) Investigación…Investigar si con series que contienen más tiradas, será más fácil detectar que la moneda está trucada…

Departamento de Matemática Aplicada y EstadísticaUniversidad Politécnica de CartagenaProf. Mathieu KesslerAjuste por mínimos cuadradosSPSS nos permite realizar ajustes por mínimos cuadrados para modelos lineales en losparámetros, es decir para el caso en que la relación entre la variable dependiente(también llamada variable respuesta) que nos interesa Y, y las variables explicativas(tambíen llamados regresores) X 1 , X 2 ,..., X k esExisten k parámetros constantes β 1 , β 2 ,...,β k tales queY=β 1 X 1 +β 2 X 2 +...+β k X k +εdonde ε es una perturbación aleatoriaHemos realizado observaciones del fenómemo: i.e conocemos para variascombinaciones de valores de las variables independientes cuál ha sido el valor de lavariable respuesta. Queremos ajustar un modelo de tipo lineal a las observaciones delas que disponemos. El ajuste consiste en encontrar valores aproximados de loscoeficientes β 1 , β 2 ,...,β k .AJUSTE DE UNA RECTA.El primer caso particular de importancia corresponde al famoso ajuste de una recta. Eneste caso sólo consideramos una variable independiente X y buscamos una relación deltipoY=aX+b+ε,que está contemplado en nuestro modelo si consideramosY=β 1 X 1 +β 2 X 2 +εconX 1 =1 y X 2 =X,en estas condiciones, β 1 es la ordenada al origen mientras que β 2 es la`pendiente de larecta.Nivel del mar en Venecia.Queremos estudiar la evolución del máximo anual del nivel del mar ( en cm) enVenecia. Los datos de los que disponemos corresponden a los años 1931-1981, y estáncontenidos en el fichero Venecia.dat. (Datos reales, publicados en Smith R.L, ''Extremevalue theory based on the r largest annual events'', Journal of Hydrology, 86 (1986).Empezamos por importar los datos, (la primera línea del fichero contiene losnombres de las variables) y realizamos una nube de puntos del nivel en función del año.(Gráficos-> Dispersión.) Los datos parecen presentar una tendencia lineal,

aunque no se ajustan exactamente a una recta. Decidimos por lo tanto ajustar una rectapara modelizar la evolución del nivel máximo anual del mar en Venecia en función deltiempo.Para obtener la ecuación de la recta ajustada, y así como el valor de los residuos,utilizamos en el menu Analizar, Regresion, la instrucción Lineal. Alactivarla obtenemos la siguiente ventana:Figura 1La variable dependiente o respuesta es el Nivel, mientras que tenemos dos variablesexplicativas que son 1 y A. La inclusión del término constante X 1 =1 es la opción pordefecto. En en el caso en que queremos forzar el modelo por el origen, podemosdesactivar la casilla se hace al activar la casilla Incluir constante en laecuación que aparece en el cuadro de dialogo que se abre pinchando en Opciones.La inclusión del término X 2 se consigue pasando la variable Año al cuadroIndependientes.Al pinchar en Aceptar, aparece la ventana de resultados:RegresiónVariables introducidas/eliminadas bModelo1Variables Variablesintroducidas eliminadas MétodoAÑO a . Introducira. Todas las variables solicitadas introducidasb. Variable dependiente: NIVELResumen del modeloModelo1R cuadrado Error típ. de laR R cuadrado corregida estimación.416 a .173 .156 18.6198a. Variables predictoras: (Constante), AÑOIaIb

Modelo1RegresiónResidualTotalANOVA bSuma deMediacuadrados gl cuadrática F Sig.3552.057 1 3552.057 10.245 .002 a16988.100 49 346.69620540.157 50a. Variables predictoras: (Constante), AÑOb. Variable dependiente: NIVELModelo1(Constante)AÑOa. Variable dependiente: NIVELCoeficientes aCoeficientes noestandarizadosCoeficientesestandarizadosB Error típ. Beta t Sig.-989.382 346.477 -2.856 .006.567 .177 .416 3.201 .002II III IVLos recuadros se interpretan de la siguiente manera.Recuadro Ia: Proporciona el valor de R 2 que es el coeficiente de determinaciónmúltiple que nos indica la proporción de la variabilidad en los datos explicada por elmodelo de regresión.Recuadro Ib: Proporciona el valor de la desviación típica residual.Recuadro II En la columna Coefficientes no estandarizados podemosleer los valores obtenidos de los coeficientes, en la línea Constante, tenemos elcoeficiente de X1=1 ( es decir la ordenada al origen), mientras que en la línea Año, elcoeficiente de X2=Año.En este caso la ecuación proporcionada esNivel máximo= -989.4+0.6Año.Recuadro III: Proporciona los errores típicos de los estimadores de los coeficientes,los podríamos utilizar para construir intervalos de confianza.Recuadro IV: Sirve para determinar si los coeficientes de cada variable explicativa sonsignificativamente distintos de 0: en la columna t, obtenemos los valores de losestadísticos de prueba asociados a cada coeficiente, mientras que en la columna Sig,podemos encontrar los p-valores de las pruebas H 0 : β i =0 contra H 1 : β i ≠0, para cadauno de los coeficientes.Cabe destacar que en el cuadro de dialogo que aparece con la instrucción Analizar-> Regresion -> Lineal (ver Figura 1), varias opciones proponen posibilidadesinteresantes:• Al activar Guardar, podemos guardar los residuos y los valores predictivos,también llamados valores ajustados, picando las casillas correspondientes. Una vez

que hayamos hecho el ajuste, los residuos aparecerán como variables en nuestroeditor de datos.• En Estadísticos, podemos pedir por ejemplo intervalos de confianza para loscoeficientes• En Gráficos podemos pedir entre otras muchas cosas, un histograma de losresiduos.Después de guardar los residuos y los valores ajustados, realizar una gráfica en la queaparezcan tanto los valores observados del nivel como los valores predichos, enfunción del año.EjerciciosAjuste de una recta que pase por el origenConsidere el problema siguiente:En 1929 Edwin Hubble estudió la relación entre la distancia y la velocidadradial de nebulosas extragalácticas con la esperanza de que alguna informaciónsobre esta relación pudiera proporcionar ideas acerca de cómo se formó eluniverso y cuál puede ser su evolución futura. Sus descubrimientos revolucionaronla astronomía y son la fuente de muchas investigaciones actuales. En esta prácticavamos a trabajar con los datos que utilizó Hubble para 24 nebulosas. (Fuente:Hubble, E. (1929) ''A Relationship Between Distance and Radial Velocity amongExtra-Galactic Nebulae,'' Proceedings of the National Academy of Science, 168. )Las unidades de medida de la distancia son megaparsecs ( 1 parsec = 3.26 años luz)y la velocidad se mide en km/sec.Los datos se encuentran en el fichero hubble.txt con dos columnas, la primeracontiene la distancia mientras que la segunda contiene la velocidad de recesión. Elfichero no contiene los nombres de la variable. Realizar un ajuste de la velocidad sobrela distancia, sabiendo que es razonable suponer que para una distancia nula la velocidadde recesión debe ser nula. Reflexionar en particular sobre los datos negativos. Lapendiente de la recta forzada por el origen se llama la constante de Hubble.Transformación de un modelo exponencialConsidere el problema siguiente: La hidrólisis de un cierto éster tiene lugar en medioácido según un proceso cinético de primer orden. Partiendo de una concentracióninicial desconocida del éster, se han medido las concentraciones del mismo adiferentes tiempos obteniéndose los resultados siguientes.T (mn) 3 4 10 15 20 30 40 50 60 75 90C10 -3 (M)25.5 23.4 18.2 14.2 11 6.7 4.1 2.5 1.5 0.7 0.4a) Realice una nube de puntos de las dos variables. ¿ Le parece adecuado un modelolineal para escribir este conjunto de datos?b) Defina una nueva variable Y’ que sea Y’=ln (concentración) y realizar la nube depuntos Y’ en función de t.c) Realizar un ajuste por mínimos cuadrados de Y’ sobre t con un modelo del tipo:y=ax+b. ¿Cuál es el modelo teórico que propone para C en función del tiempo?d) Nos dan la información adicional de que se sabe con exactitud que la concentración inicial para T=0era igual a 30.10 -3 M. ¿Cómo podemos incluir esta información en nuestro modelo?

Inclinación de la Torre de Pisa.G. Beri y B. Palla, 1988, "Considerazioni sulle ouù recenti osservazioni ottiche alla Torre Pendente diPisa", Estratto dal Bolletino della Società Italiana di Topografia e Fotogrammetria, 2 págs. 121-135,citado en Moore, 1998, Estadística Aplicada Básica, Antoni Bosch editor, pág 615.La torre inclinada de Pisa se inclina más a medida que pasa el tiempo. He aquí las mediciones de lainclincación de la torre entre los años 1975 y 1987. La inclinación se da como la distancia entre el puntodonde estaría la torre en posición vertical y el punto en el que realmente se encuentra. Las distancias sedan en décimas de milímetros por encima de 2.9m.Año 75 76 77 78 79 80 81 82 83 84 85 86 87Inclinación 642 644 656 667 673 688 696 698 713 717 725 742 757Emisión de CO2 por los países europeos.En la dirección http://dataservice.eea.eu.int/dataservice/ , se pueden encontrar los datos de emisión deCO2 por fuentes fósiles para los distintos paises europeos entre los años 1985 y 1997.Importar los datos del fichero CO2.txt, cuya primera línea contiene los nombres de las variables.Los códigos de los sectores de emisión son los siguientes:0 Total inland emissions 4 Agriculture1 Energy 5 Not available2 Industry 6 Other3 TransportTempeturas medias mensuales en San-Javier.En la dirección http://rainbow.ldgo.columbia.edu/dl/seminars/dataintro/, se pueden obtener datosmeteorológicos del mundo entero, y algunos desde el siglo 18! En el fichero Sanjavier.txt. podréisencontrar los datos de las temperaturas mensuales medias para la estación meteorológica de Murcia SanJavier entre los años 1981 y 1990.Resistencia del cementoSe quiere estudiar la resistencia de unas piezas de cemento en funciónde su edad en días.Edad (días)Resistencia (kg/cm^2)1 13.0 13.3 11.82 21.9 24.5 24.73 29.8 28.0 24.1 24.2 26.27 32.4 30.4 34.5 33.1 35.728 41.8 42.6 40.3 35.7 37.3Realizar la nube de puntos de la resistencia en funciónde la edad. ¿Parece presentar una tendencia lineal?Si la respuesta es no, ¿ qué tipo de función podría ajustarse a la nube de puntos?Realizar la transformación adecuada, la nube de puntos de los datos transformados y el ajuste.Producción de petroleoSe quiere estudiar la evolución de la producción mundial de petroleode 1880 a 1973. Los datos se encuentran en el fichero ASCII petroleo.txtRealizar la nube de puntos de la producción en función del año. ¿Parece presentar una tendencia lineal? Sila respuesta es no, ¿ qué tipo de función podría ajustarse a la nube de puntos?Realizar la transformación adecuada, la nube de puntos de los datos transformados y el ajuste.

Departamento de Matemática Aplicada y EstadísticaUniversidad Politécnica de CartagenaCurso 03/04Ajuste por mínimos cuadrados (2)Seguimos con la práctica de regresión lineal múltiple con SPSS. Recordar quebuscamos realizar ajustes por mínimos cuadrados para modelos lineales en losparámetros, es decir para el caso en que la relación entre la variable dependiente(también llamada variable respuesta) que nos interesa Y, y las variables explicativas(tambíen llamados regresores) X 1 , X 2 ,..., X k esExisten k parámetros constantes β 1 , β 2 ,...,β k tales queY=β 1 X 1 +β 2 X 2 +...+β k X k +εdonde ε es una perturbación aleatoriaHemos realizado observaciones del fenómemo: i.e conocemos para variascombinaciones de valores de las variables independientes cuál ha sido el valor de lavariable respuesta. Queremos ajustar un modelo de tipo lineal a las observaciones delas que disponemos. El ajuste consiste en encontrar valores aproximados de loscoeficientes β 1 , β 2 ,...,β k .Regresión lineal múltiple.Para ilustrar los comandos necesarios, analizaremos el conjunto de datoscorrespondiente al problema siguiente: un ingeniero de producción es responsable de lareducción del costo. Uno de las materias primas fundamentales en la producción es elagua. Para estudiar el consumo de agua , el ingeniero apunta durante 17 meses elconsumo mensual de agua (y) junto con los siguientes indicadores: la temperaturamedia mensual (x2 en ºF) la producción (x3 ), el número de días de trabajo en el mes(x4) y el número de personal en la planta de producción (x5). Los datos están en elfichero agua.txt.Después de haber importado los datos (comprobar que todas las variables han sidoimportadas como “numéricas”), pasamos al ajuste de los datos con un modeloY=β 1 X 1 +β 2 X 2 +β 3 X 3 + β 4 X 4 +β 5 X 5 +εdonde ε es una perturbación aleatoria normal con mediacero y varianza,σ 2 y X1=1 (término constante)

Para ello, al igual que para la regresión lineal simple, utilizamos la instrucción Analizar->Regresión->Lineal. Ahora pasamos las cuatro variablesX2 a X5 en el cuadro de lasvariables independientes. En el submenu de opciones, podemos entre otras cosas decidirexcluir el término constante en el modelo, lo que no haremos en este caso.ObtenemosResumen del modeloModelo R RcuadradoRcuadradoError típ.de lacorregida estimación1 ,876 ,767 ,689 248,9641a Variables predictoras: (Constante), X5, X4, X2, X3IaIbCoeficientesCoeficientes noestandarizadosCoeficientesestandarizadost Sig.Modelo B Error típ. Beta1(Constante6360,337 1314,392 4,839 ,000)X2 13,869 5,160 ,419 2,688 ,020X3 ,212 ,046 1,671 4,648 ,001X4 -126,690 48,022 -,415 -2,638 ,022X5 -21,818 7,285 -1,074 -2,995 ,011a Variable dependiente: YIIIIIIVLos recuadros se interpretan de la siguiente manera.Recuadro Ia: Proporciona el valor de R 2 que es el coeficiente de determinaciónmúltiple que nos indica la proporción de la variabilidad en los datos explicada por elmodelo de regresión.Recuadro Ib: Proporciona el valor de la desviación típica residual.Recuadro II En la columna Coefficientes no estandarizados podemosleer los valores obtenidos de los coeficientes, en la línea Constante, tenemos elcoeficiente de X1=1 En este caso la ecuación proporcionada esConsumo promedio= 6360.4+13.9X2+0.2X3-126.7X4+21.8X5Recuadro III: Proporciona los errores típicos de los estimadores de los coeficientes,los podríamos utilizar para construir intervalos de confianza.Recuadro IV: Sirve para determinar si los coeficientes de cada variable explicativa sonsignificativamente distintos de 0: en la columna t, obtenemos los valores de losestadísticos de prueba asociados a cada coeficiente, mientras que en la columna Sig,podemos encontrar los p-valores de las pruebas H 0 : β i =0 contra H 1 : β i ≠0, para cadauno de los coeficientes. En este caso todos los p-valores son pequeños, lo que implicaque nos quedamos con todas las variables en el modelo.

Podemos realizar con SPSS intentos de construcción de modelos. En particularpodemos llevar a cabo la eliminación hacia atrás, seleccionando en el cuadro de diálogoabierto con la instrucción Analizar->Regresion->Lineal, el método “Hacia atrás”.En el cuadro Opciones, podemos fijar el valor del umbral del p-valor que fijamos paraque una variable sea eliminada del modelo, cambiando el valor en “Salida”.Por defecto aparece un valor del umbral de 0.1. Continuamos y aceptamos para obtenerla secuencia de modelos en los que posiblemente vayan siendo las variables eliminadasuna por una hasta dar con el modelo final. En este caso puesto que todos los p-valoresson menores que 0.1, el algoritmo se para en la primera iteración.

EjerciciosVolumen de madera.En ingeniería forestal existe la necesidad evidente de poder predecir el volumen de madera disponible deun tronco de un árbol todavía en pie. El método más sencillo consiste en medir el diámetro cerca delsuelo y la altura del tronco y estimar el volumen utilizando estas dos cantidades. En el fichero cerezos.txtestán los datos de un experimento realizado en un parque nacional de Pennsylvania donde se midió concuidado el volumen después de cortar el tronco de ( v: volumen, d: diámetro y a: altura)1. Realizar el análisis de regresión lineal del volumen sobre el diámetro y la altura.1. Proceda al análisis de los residuos, ¿Cuál es su diagnóstico?2. Si se supone que el tronco es un cilindro perfecto, ¿ cuál sería la relación entre v,a y d ? Proponer unatransformación sobre los datos que sea acorde con esta relación física Realizar el ajuste linealcorrespondiente con especial interés en el análisis de los residuos.3. Si se supone que el tronco es un cono perfecto, \¿ cuáles deberían ser los valores de los parámetrosdel apartado anterior?.Consumo de heladosSe quisó identificar los factores más influyentes en el consumo de helados. Para ello se midió en unafamilia durante 30 semanas entre el 18 de marzo de 1953 hasta 11 de julio 1953 el consumo semanal dehelado por persona (y), junto con las cantidades siguientes que se pensaba podían tener alguna influenciasobre el consumo : p el precio de una pinta de helado, i los ingresos semanales de la familia, temp : latemperatura media de la semana. También aparece el número de la semana. Los datos están en el ficherohelados.dat1. Represente gráficamente el consumo de helados en función de las semanas.2. Determinar la matriz de correlación de las variables y,p,i y temp. Para ello se utiliza la opciónAnalizar->Correlaciones->bivariadas, y como es usual en SPSS pasamos desde la lista de lasvariables de la izquierda las variables que nos interesan. ¿Cuál es la variable que parece tener másinfluencia en y?3. Realizar un ajuste lineal de y sobre p,i y temp. ¿Qué vale la varianza residual y R^2?4. Realizar un ajuste lineal de y sobre i y temp. Misma pregunta que en el apartado anterior5. Guarde los valores ajustados en una variable llamada ajucomp. Represente en la misma gráfica y enfunción de semanas y ajucomp en función de semana.Calor emitido por el fraguado de cemento.Se estudia la relación entre la composición de un cemento tipo Portland y el calor desprendido durante lafase de fraguado 1 . Los datos se pueden encontrar en el fichero hald.txt. La variable Y es la cantidad decalor desprendido en calorías por gramos de cemento, mientras que las variables X1, X2 X3 y X4representan el contenido en porcentaje de cuatro productos A, B, C y D.1. Obtener la matriz de correlaciones de las distintas variables.2. Realizar un ajuste lineal utilizando el procedimiento de eliminación hacia atrás.Perdida de peso de un productoSe sabe que un determinado producto pierde peso después de ser producido. En el archivo peso.txt se harecogido la diferencia (peso nominal-peso real) para varias unidades en distintos tiempos.1. Ajustar un modelo de regresión lineal simple para explicar la evolución de la diferencia de peso enfunción del tiempo.2. Realizar la gráfica de los residuos en función de los valores ajustados. ¿Le parece adecuado nuestromodelo para analizar estos datos? ¿Tiene alguna idea para mejorarlo?3. Realizar el ajuste por un polinomio de orden 2.1 Fuente: A. Hald, Statistical Theory with Engineering Applications, Wiley, New York, 1952, p. 647

Autor: Pilar Sanmartin / Mathieu KesslerESTADíSTICA INDUSTRIALProf: Mathieu KesslerCOMPONENTES PRINCIPALESPRACTICAS.Curso 04/05Prof. Mathieu KesslerEjemplo: Empresas con mayor volumen de ventasConsideramos las nueve empresas españolas con mayor volumen de ventas en 1992:Empresa Ventas BeneficiosEl Corte InglésIberdrolaRepsol ComercialSeatTabacaleraFASA RenaultRepsol PetroleoPrycaIberia775104.0775218.0700963.0674063.0631003.0527744.0489155.0448465.0445853.023795.0058778.001531.00-12756.014729.009059.0012541.0013495.00-34824.0Y buscamos extraer una componente principal para conseguir una reducción de la dimensión (aunqueaquí sea inutil dado que sólo tenemos dos variables)Importar los datos del fichero empresas.txt.Notaciones-recordatorios de clase:Para este conjunto de datos tenemos dos variables X1 y X2, que describen 9 individuos (las empresas) yperseguimos entender la estructura de variabilidad presente en los datos: ¿cuál es la primera fuente devariación entre estos individuos?, es decir, ¿en qué se diferencian?Para ello, buscamos un cambio de sistema de coordenadas. Llamamos Z1 y Z2 las componentes de lanube de puntos en el nuevo sistema de coordenadas, hemos escogido Z1 y Z2 de tal manera que1) La variabilidad total se preserva: Var(X1)+Var(X2)=Var(Z1)+Var(Z2)2) La varianza de Z1 es la “más grande posible”, y por lo tanto, Var(Z2) es pequeña.3) Z1 y Z2 no están correlados.Se puede demostrar que se consigue si los vectores del nuevo sistema de coordenadas corresponden a losvectores propios de la matriz de covarianza. (ver apuntes)Análisis en componentes principales con SPSS.Para aplicar la técnica de componentes principales con ayuda del programa SPSS importamos los datosdel fichero empresas.txt y usamos la opción:Analizar->reducción de datos->análisis factorialAutor: Pilar Sanmatín /Mathieu Kessler

Autor: Pilar Sanmartin / Mathieu KesslerEn el submenú extracción:1) Escogemos el método “Componentes principales”.2) Debemos escoger si analizamos la matriz de correlaciones o la matriz de covarianza- ver el apéndicepara una explicación de la diferencia entre las dos opciones.3) Pedimos en Mostrar: la solución factorial sin rotar (las rotaciones se utilizan en análisis encomponentes principales), y la gráfica de sedimentación (que llamamos en los apuntes, gráfica decodo)4) Finalmente, debemos escoger cuantas componentes aparecerán descritas en la ventana de resultados:esto no cambia el análisis sino solamente la cantidad de información que nos proporciona elprograma al final. Podemos escoger que se limite a los autovalores 1 mayores que una cierta cantidado especificar nosotros el número de componentes descritos. (la opción que recomiendo)En el submenú extracción:Seleccionamos la opción de “Guardar como variables”: las puntuaciones factoriales son los valores paracada individuo de Z1 y Z2.También seleccionamos la opción de “Mostrar la matriz de coeficientes de punt. factoriales”, que nospermitirá deducir la expresión del cambio de sistema.1 El término autovalores es equivalente a “valores propios”.Autor: Pilar Sanmatín /Mathieu Kessler

Autor: Pilar Sanmartin / Mathieu KesslerDe momento no modificamos nada más y le damos a Aceptar.Resultados de SPSS.En cuanto a resultados, obtenemos por una parte los autovaloresDeducimos que el mayor autovalor es λ1=1.543 mientras que el segundo es λ2=0.457.La matriz de componentes nos da los coeficientes de correlación entre las componentes y las variablesoriginales (tipificadas) de donde podríamos deducir los vectores propios asociados, pero preferimos lamatriz de coeficientes de las puntuaciones factoriales que intrepretaremos a continuación:.Escribe las ecuaciones de la transformaciónEjercicios:Ejemplo: Encuesta de presupuestos familiares. (Peña, 2002, Análisis de datos multivariantes,p140)En el fichero epf.txt, La encuesta de presupuestos familiares en España para el año 1990/1991, recoge losgastos medios de las familias españolas para las 51 provincias (Ceuta y Melilla aparecen unidas como unaprovincia). Las variables son: X1= alimentación, X2= vestido y calzado, X3= vivienda, X4= mobiliariodoméstico, X5= gastos sanitarios, X6= transporte, X7= enseñanza y cultura, X8= turismo y ocio, X9=otros gastos.1. Realizar el análisis en componentes principales, interpretar los coeficientes de los dos primeroscomponentes principales2. Clasificar las provincias según la primera componente.Ejemplo: Medidas.En el fichero medidas.txt se encuentran las medidas en inches del pecho, cintura y caderascorrespondientes a 20 personas 2 . Vamos a intentar interpretar la variabilidad presente en los datos.1. Un primer paso consiste en examinar las inter-relaciones entre las variables utilizando la matriz decorrelación. Calcular a continuación la matriz de covarianzas. Observamos que las varianzas son delmismo orden de magnitud, lo que, junto con el hecho de que las unidades de medidas de las tresvariables son las mismas, nos lleva a realizar el análisis en componentes principales con la matriz decovarianzas.2. Realizar un análisis en componentes principales. ¿Cómo podemos interpretar los componentes?¿Cuántos componentes retendremos?2 Conjunto nº 79 de Hand, Daly Lunn, Mc Conway & Ostrowski, (1994) A handbook of small datasets,Chapman & Hall.Autor: Pilar Sanmatín /Mathieu Kessler

Autor: Pilar Sanmartin / Mathieu KesslerEjemplo: Consumo de proteinas en EuropaEn el fichero proteinas.txt, podeis encontrar los datos correspondientes al consumo de proteinas en 25paises europeos 3 correspondientes a nueve grupos de alimentos. Los datos datan de 1973. Los nombresde las variables son las siguientes:1. Country: País2. RdMeat: Carne roja3. WhMeat: Carne Blanca4. Eggs: Huevos5. Milk: Leche6. Fish: Pescado7. Cereal: Cereales8. Starch: Feculentes9. Nuts: Frutos secos, y aceites10. Fr&Veg: Frutas y verdurasRealizar un análisis de componentes principales.Apéndice: Matriz de covarianzas o Matriz de correlaciones?En el submenu Extracción podemos escoger entre analizar la matriz de covarianzas o la correlaciones,explicamos a continuación la diferencia entre las dos opciones.En el caso en que las variables tengan ordenes de magnitud muy distintos, y en particular ordenes dedispersión muy distintos, las variables no aportan la misma contribución a la variabilidad total, y esto nospuede llevar a descartar una variable importante en la estructura de variabilidad sólo porque su orden demagnitud es menor que el de otra. Las variables con orden de magnitud grande dominarían por completoel análisis. En particular, si cambiamos las unidades, los resultados podrían cambiar completamente: setrata de una característica muy poco afortunada del análisis en componentes principales.En el caso en que las variables son de orden de magnitud distintos, podemos transformarlas para obtenernuevas variables que sí se puedan comparar. Esto se consigue tipificando las variables, es decirrestándoles su media y diviendoles por su desviación típica:Definición: Sea X una variable asociada a un conjunto de datos, se obtiene la versión tipificada de X através de la transformación:Y=(X-media(X)/(Desv. Típica(X))La variable Y en el conjunto es centrada (de media cero) y tiene una desviación típica igual a 1.Si tipificamos todas las variables X1, X2, X3, … del conjunto y formamos las variables Y1, Y2, Y3,… esposible comprobar que la matriz de covarianza de Y1, Y2, Y3, … es igual a la matriz de correlación deX1, X2, X3, … Por lo tanto, realizar un análisis en componentes principales sobre la matriz decorrelación de X1, X2, X3, … es equivalente a realizarlo con la matriz de covarianzas de las variablestipificadas Y1, Y2, Y3… Seleccionamos en general analizar la matriz de correlación de X1, X2, X3, …en el caso en que sus desviaciones típicas son de ordenes de magnitud distintos.3 Conjunto nº 360 de Hand, Daly Lunn, Mc Conway & Ostrowski, (1994) A handbook of small datasets,Chapman & Hall.Autor: Pilar Sanmatín /Mathieu Kessler

ESTADíSTICA INDUSTRIALProf: Mathieu KesslerAlgorítmo K-mediasANALISIS CLUSTERPRACTICAS.Ilustraremos el análisis en conglomerados con el algorítmo k-medias en SPSS,utilizando los ejemplos vistos en clase y extraidos de D. Peña, Análisis de datosmultivariantes (2002).Importar los datos del fichero Ruspini.txt.Realizar un diagrama de dispersión de Y en función de X.Para realizar el conglomerado de K medias, utilizamosAnalizar->clasificar->conglomerado de K mediasPasamos las variables X e Y al cuadro variables, seleccionamos el número G deconglomerados que deseamos construir (empezamos con 2).En el caso en que deseamos fijar los centros iniciales de los conglomerados, debemosespecificar un archivo con tantas columnas como variables y tantas líneas comoconglomerados y que contenga las coordenadas de los centros. También necesitaremosen este caso escoger la opción “Sólo clasificar” para que SPSS no actualice los centrosen cada iteración.en iterar tenemos la posibilidad de fijar el número máximo de iteraciones, la opción pordefecto es de 10.en guardar pediremos que se guarden los conglomerados de pertenencia

yFinalmente, podemos en el submenu opciones, pedir que nos proporcione la tabla deANOVA.Después de realizar el análisis, podemos ahora visualizar los grupos formados:volvemos a la ventana de datos, y observamos que ha aparecido una nueva columnacon los índices de l conglomerado al que pertenece cada individuo. Podemos realizaruna gráfica de dispersión de tipo interactivo, donde especificamos que etiquete los datosmediante la variable correspondiente al índice del conglomerado de pertenencia.150,00AA A A AA AA AAA AAA A A A2 2 2222222 2A A2 22 22 22A AA2 2 22 2 A2 AAAA A A22 A2 2A A2 AAA 2 2 2 2 22100,0050,00A1AA1AAAA1 A1AAA A 1 11 A AAAA 111 1 A 111 AA 111111A AA2 22A AA 1 A1AA1 1AAAA A 111AA 1 1 1A1A10,000,0 25,0 50,0 75,0 100,0xCálculo de la suma de cuadrados dentro de los grupos final (SCDG).Utilizando la tabla ANOVA proporcionada por SPSS, se puede deducir el valor final dela suma de cuadrados dentro de los grupos.ANOVAConglomerado Error F Sig.Media cuadrática gl Media glcuadráticaMedia cuadrática gl Media glcuadráticaX 12539,059 1 771,382 73 16,255 ,000X 12539,059 1 771,382 73 16,255 ,000Y 142496,975 1 452,424 73 314,963 ,000Y 142496,975 1 452,424 73 314,963 ,000

A partir de las cantidades de la columna “Error”, podemos calcular la SCDG:multiplicando la media cuadrática por los grados de libertad (gl) obtenemos lacontribución de cada variable a la suma de cuadrados, y la SCDG total se obtienesumando las dos contribuciones:SCDG(2)=771,382*73+452,424*73= 89337,84En particular podemos calcular el estadístico F que nos permitirá, utilizando la regla deHartigan, confirmar el número de grupos con el que nos quedamos.F=(SCDG(G)-SCDG(G+1))/(SCDG(G+1)/(n-G-1))Volver a ejecutar el algorítmo para 3 y 4 conglomerados y rellenar la tabla siguiente:Variable XVariable YTotalSuma de cuadradosG=2 G=3 G=4FRepetir el análisis para los datos estanderizados: calcular la media y la desviación típicade X e Y, construir las variables estanderizadas zx=(x-mediax)/sdx y zy=(ymediay)/sdy.Represente el diagrama de dispersión de zy en función de zx, en suopinión, ¿cambiará significativamente el resultado del análisis de conglomerados?Ejercicio: En el archivo mundodes.sav 1 , podeis encontrar los datos de cinco variablesdemográficas, tasa natalidad (por 1000 habitantes), tasa mortalidad (por 1000habitantes), mortalidad infantil (debajo de 1 año), esperanza de vida para los hombresy esperanza de vida para las mujeres.Realizar el análisis en conglomerados para 3, 4 y 5 grupos aplicando el criterio deHartigan para deducir el número de conglomerados. ¿Se pueden interpretar los gruposque aparecen? Realizar un diagrama de dispersión con la tasa de natalidad y lamortalidad infantil, etiquetando los casos utilizando el índice del conglomerado depertenencia.Ejercicio: Volver a analizar los conjuntos de datos de proteinas y de la encuesta depresupuestos familiares que se introdujeron en la práctica anterior.1 Fuente: "UNESCO 1990 Demographic Year Book" y de "The Annual Register 1992".Citado en Peña, D. (2002), Análisis de Datos Multivariantes, Mc-Graw Hill.

ESTADíSTICA INDUSTRIALProf: Mathieu KesslerPRACTICASANALISIS CLUSTER 2: métodos jerárquicosIlustraremos el análisis de clasificación jeráquica en SPSS, empezando con el ejemplosencillo en el que queremos realizar una clasificación jerárquica de cuatro individuosbasándonos en los valores de dos variables:XY0,30 0,60,35 0,40,7 0,80,8 0,5Representamos la nube de puntos con un diagrama de dispersión, y pedimos a SPSSque lleve a cabo la clasificación jerárquica:UtilizamosAnalizar->clasificar->conglomerados jerárquicosPasamos todas las variables al cuadro variablesEn el submenu Gráficos, escogemos la opción del dendograma.

Consideremos ahora el submenu “Método”En método de conglomeración, tenemos la posibilidad de escoger uno de variosmétodos (en clase vimos el de Vecino más próximo y el de Vecino más lejano) paracalcular la distancia entre dos grupos. Un método que parece dar buenos resultados es elde Ward.También podemos decidir de transformar los valores y estanderizar las variables en elcaso en que sus ordenes de magnitud son distintos, escogiendo las puntuaciones Z porejemplo.En guardar pediremos que se guarden los conglomerados de pertenencia:Tenemos dos posibilidades: al escoger “Solución única”, escogemos el número degrupos que queremos que considere: SPSS empieza en el nivel más alto de laclasificación (sólo 1 grupo) y va bajando hasta encontrar el número de grupos requerido.Realizar el análisis con dos grupos.Si escogemos Rango de soluciones: desde 2 hasta 4 grupos por ejemplo: SPSS creerá 3variables de pertenencia, la primera contendrá los índices de pertenencia en el caso enque sólo consideramos dos grupos, la segunda tres, etc…Realizamos el análisis para dos grupos (solución única 2 grupos) escogiendo el métododel vecino más próximo por ejemplo, obtenemos en la ventana de resultados el historialde conglomeraciones

Historial de conglomeraciónConglomerado quese combinaCoeficientesEtapa en la que elconglomeradoaparece por primeravezPróximaetapaEtapaConglomerado 1 Conglomerado2Conglomerado 1 Conglomerado 21 1 2 ,740 0 0 32 3 4 1,000 0 0 33 1 3 6,890 1 2 0Este historial nos informa que la obtención de una clasificación jerárquica con dosgrupos finales se ha realizado en tres etapas.Recordar que el algoritmo se inicia (etapa 0) con tantos conglomerados comoindividuos (en este caso, cuatro, numerados del 1 al 4, según su orden en la ventana dedatos). Leemos en el historial que en la etapa 1 que se han combinado el conglomerado1 y el conglomerado 2, es decir el individuo 1 y el individuo 2, por ser los dos máspróximos. En las columnas situadas a la derecha de la tabla, podemos por una partesaber si el individuo ya ha sido asociado con otro conglomerado en una etapa anterior,que no es el caso aquí, y cuando volvéra a ser combinado (próxima etapa) que ennuestro caso corresponde a la etapa 3.Ahora tenemos 3 conglomerados: uno formado por los individuos 1 y 2, y otros dosque contienen los individuos 3 y 4 individualmente.En la etapa 2, combinan el conglomerado 3 con el 4, es decir los dos individuos 3 y 4.Leemos que ninguno de estos dos conglomerados había sido aglomerado previamente.Finalmente, en la etapa 3, se junta el conglomerado 1, es decir el que contiene elindividuo 1, (recordar que estaba asociado con el individuo 2, desde la etapa1) con elconglomerado que contiene el individuo 3, (que estaba con el individuo 4 desde la etapa2).El algoritmo se acaba puesto que todos los individuos están en un único granconglomerado.En la ventana de datos, ha aparecido una nueva variable que contiene el conglomeradode pertenencia de cada individuo, para el número de grupos escogidos en el submenúGuardar (ver página anterior). En nuestro caso escogimos dos grupos, los dos primerosindividuos tienen por conglomerado de pertenencia el 1, mientras que los dos últimos el2.Ejercicio: Proteinas.Considerar el fichero del consumo de proteinas de la práctica anterior.1. Realizar una clasificación jerárquica de los paises en base a su consumo de proteinas según lasdistintas fuentes de alimentación. Podreis utilizar el método de Ward, y especificar que los casosse etiqueten con la variable Country. Guardar los conglomerados de pertenencia para un rangode soluciones de 2 a 4.2. Contestar, examinando el historial de iteraciones, a las siguientes preguntas: ¿qué dos paises secombinan primero? ¿En qué consiste la segunda etapa? ¿Cuándo es la primera vez que se formaun conglomerado con más de dos paises?3. Examinar el dendograma: si queremos quedarnos con tres grupos, realizar la lista de los paisesque pertenecen a cada grupo. ¿y con 4 grupos?

4. Realizar el análisis en componentes principales. Guardar las puntuaciones de los paises según elprimer componente. Ordenar los paises por orden creciente de estas puntuaciones. ¿El ordenobtenido parece guardar relación con los grupos obtenidos en el apartado anterior? ¿Cómoexplicais esta relación?Ejercicio : CiudadesEn el fichero ciudades.txt, se encuentran datos que representan las condiciones económicas de 48ciudades en el mundo en 1991. Los datos fueron recogidos por el “Economic Research Department” de“Union Bank of Switzerland” (disponibles en http://lib.stat.cmu.edu/DASL). Las cuatro variables son1. City: ciudad2. Work: el número de horas anuales de trabajo, calculado como la media correspondiente a 12actividades determinadas.3. Price: precio de un conjunto de 112 bienes escogidos.4. Salary: Sueldo medio correspondiente a 12 actividades determinadasRealizar un análisis en clusters jerárquicos de los datos, con el método de encadenamiento completo(vecino más lejano). ¿Cuántos grupos aparecen?Ejercicio : SuelosEn el fichero suelos.txt, se encuentran datos correspondientes a 20 muestras de suelos. Clasifícalos encuatro grupos utilizando los métodos del vecino más cercano, del vecino más lejano y del centroide.Dibuja los cuatro grupos obtenidos respecto a las variables contenido de arena y contenido de materiaorgánica.

ESTADíSTICA INDUSTRIALProf: Mathieu KesslerPRACTICAS.Curso 02/03ANALISIS DESCRIPTIVO DE SERIES TEMPORALESIlustraremos el análisis descriptivo de series temporales con los datos de lastemperaturas mensuales en San Javier, desde 1981 hasta 1990.Importar los datos del fichero SanJavier.txt.Para realizar un estudio descriptivo clásico de series temporales, separando elcomponente tendencia-ciclo, el componente estacional así como los residuos, esnecesario especificar la periodicidad natural de la serie que estamos contemplando. Paraello, utilizamos el comando Datos/Definir Fechas,Escogemos el tipo de datos que tenemos, en este caso, años y meses, y especificamos lafecha del primer caso. Al aceptar, observamos que se crea en nuestra hoja tres variablesconteniendo el mes, el año y la fecha de cada observación.A continuación, antes de empezar con la descomposición de la serie, es fundamentalrealizar un análisis descriptivo exploratorio con representaciones gráficas.La primera gráfica que realizamos se hará a través de la instrucción Secuencia del menuGráficos. La variable que queremos representar es la temperatura y ponemos escoger lafecha (“DATE”) como etiquetas para el eje OX. En el submenú Líneas de referencia,tenemos la posibilidad de añadir líneas verticales para cada cambio de año, de mes o enfechas señaladas que escojamos. Otras opciones se pueden fijar en el submenúFormato.A la vista de la gráfica de la serie temporal, confirmamos la periodicidad clara de laserie con periodo 12. No observamos ningún dato atípico claro.

La segunda gráfica útil es el autocorrelograma, que se dibuja con la instrucciónAutocorrelaciones del submenú Gráficos/Serie temporal. Podemos desactivar laopción correlaciones parciales, para quedarnos sólo con las autocorrelaciones. ¿Cómose interpreta la gráfica obtenida?Podemos ahora proceder al análisis de descomposición de la serie. Vamos a empezarpor calcular la media móvil asociada.Para ello, en el menú Transformar, utilizamos la instrucción Crear serie temporal.Pasamos la variable tmp al cuadro nuevas variables, escogemos la función Mediamóvil centrada, y la amplitud igual a 3 para empezar. No debemos olvidar de pulsar elbotón Cambiar para que el cambio en el cuadro de dialogo sea efectivo.Al aceptar la instrucción, obtenemos en la hoja de cálculo una nueva variable que sellama tmp_3 que contiene la media móvil de amplitud 3 asociada a la serie tmp.¿Sabríais calcular a mano los términos de esta nueva serie?Representar en una misma gráfica utilizando la instrucción Gráficos/Secuencia, laserie tmp junto con la media móvil asociada. ¿Cuál ha sido el efecto de calcular lamedia móvil de amplitud 3?Volver a calcular las series móviles variando la amplitud escogida ( por ejemplo, 7 y 11y 12 ). Representar todas estas series en una misma gráfica.Calcular la serie en la que hemos restado el componente de tendencia. ¿Cómopodríamos evaluar el componente estacional?

Finalmente vamos a pedir a SPSS que realice la descomposición completa de la serie.Para ello utilizamos, en el menú Analizar la instrucción Descomposición estacionaldel submenú Series temporales.Pasamos la variable tmp al cuadro de la derecha, escogemos un modelo aditivo, y altratarse de una periodicidad par, los puntos finales se ponderan por 0.5. (corresponde alo que hemos llamado 2x12 MA en los apuntes).En el submenú Guardar, podemos pedir que los componentes calculados se guardencomo nuevas variables, se sustituyan a los componentes ya calculados de una análisisanterior o se descarten. (no crear)Al aceptar, SPSS nos proporciona en la ventana de resultados los cálculos de los índicesestacionales, es decir el efecto medio de cada mes. También aparecen en la hoja dedatos, las nuevas variables según la nomenclatura:• ERR_1: Residuos de la descomposición, también llamado componente irregular.• SAS_1: Serie de-estacionalizada, es decir la serie a la que se ha restado el efectoperiódico.• SAF_1: Componente estacional.• STC_1: estimación de la tendencia ciclo.Tenemos las siguientes relaciones, ¿Cómo se interpretan?TMP= STC_1+ SAF_1+ ERR_1.SAS_1=TMP- SAF_1SAF_1= TMP - STC_1- ERR_1.Ejercicios.1. Analizar la serie del índice de paro en España desde tercer trimestre 1976 hasta 3trimestre 2003. Fichero: paro.txt2. Analizar la serie de la demanda mensual de energía en España desde 1998 hasta2002.

Ejercicios - Departamento de MatemÃ¡tica Aplicada y EstadÃ­stica

Create successful ePaper yourself

Delete template?

Save as template?

Ejercicios - Departamento de MatemÃ¡tica Aplicada y EstadÃstica