Breve Manual do SPSS / PASW 18.0 - ESAC

Breve Manual do SPSS / PASW 18.0Objectivo: auxiliar os alunos da ESAC, inscritos na unidadecurricular de Estatística (curso de LBIO), na utilização do SPSSnas aulas práticas.ESCOLA SUPERIOR AGRÁRIA DE COIMBRAElaborado por Veneranda Inês BatalhaINSTALAÇÃO DO PROGRAMAO aluno deverá dirigir-se aos Serviços Informáticos da ESAC

Conteúdo1. JANELAS MAIS UTILIZADAS .............................................................................................................................. 42. VARIÁVEIS ESTATÍSTICAS E ESCALAS DE MEDIDA ....................................................................................... 73. ABERTURA DE UM FICHEIRO DE DADOS (capítulo 3 do manual, pág. 11)........................................................ 94. INTRODUÇÃO DE DADOS MANUAL (capítulo ? do manual, pág. ?) ............................................................... 165. ESTATÍSTICA DESCRITIVA (estatísticas e gráficos) .......................................................................................... 19TABELA DE FREQUÊNCIAS para as variáveis Maternidade, Cor e Sexo .................................................... 19CRUZAMENTO DE VARIÁVEIS.................................................................................................................... 20QUARTIS da variável Peso ......................................................................................................................... 21PERCENTIS DE DIFERENTES ORDENS (0,1 0,25 0,5 0,8 0,9) para o peso ........................................... 22MÉDIA, MEDIANA, MODA, SOMA, DESVIO-PADRÃO, VARIÂNCIA, AMPLITUDE, MÍNIMO E MÁXIMO davariável peso ............................................................................................................................................. 22GRÁFICO DE BARRAS, para as variáveis qualitativas discretas .................................................................. 23GRÁFICO CIRCULAR, para a variável cor da primeira roupa do recém-nascido ........................................ 23GRÁFICO DE BOX-PLOT, para a variável peso (apenas uma variável) ....................................................... 24ALGUMAS CONSIDERAÇÕES ACERCA DO DIAGRAMA DE EXTREMOS E QUARTIS – “BOXPLOT” (adequadopara dados quantitativos, discretos ou contínuos) ................................................................................... 26GRÁFICO DE BOX-PLOT E ESTATÍSTICA DESCRITIVA, para a variável peso relativamente ao sexo dorecém-nascido .......................................................................................................................................... 27CONSTRUÇÃO DAS CLASSES [1, 2[ [2, 3[ [3, 4[ [4, 5], para a variável peso .......................................... 30HISTOGRAMA, para a variável Classes_Peso (peso agrupada em 4 classes) ............................................. 33DADOS AGRUPADOS EM CATEGORIAS ..................................................................................................... 366. CÁLCULO DE PROBABILIDADES DE DISTRIBUIÇÕES DISCRETAS E CONTÍNUAS .............................................. 39DISTRIBUIÇÃO BINOMIAL ......................................................................................................................... 40DISTRIBUIÇÃO DE POISSON ...................................................................................................................... 41DISTRIBUIÇÃO NORMAL ........................................................................................................................... 43DISTRIBUIÇÃO t DE STUDENT ................................................................................................................... 50DISTRIBUIÇÃO QUI-QUADRADO ............................................................................................................... 51DISTRIBUIÇÃO F-SNEDECOR ..................................................................................................................... 527. TESTES DE HIPÓTESES E INTERVALOS DE CONFIANÇA de um parâmetro populacional ................................ 54TESTE T (teste de hipóteses para , amostra pequena e população Normal) .......................................... 54TESTE BINOMIAL a uma proporção p ........................................................................................................ 588. REGRESSÃO LINEAR SIMPLES E MÚLTIPLA ..................................................................................................... 63Regressão linear simples........................................................................................................................... 63Regressão linear múltipla ......................................................................................................................... 709. ANOVA DE FACTOR ÚNICO ............................................................................................................................ 71

SPSS é a sigla do software intitulado “Statístical Package for the Social Sciences”. Entre 2009 e 2010o SPSS passou a ser chamado de PASW (“Predictive Analytics SoftWare”). O manual integral desteprograma, em inglês, pode ser encontrado de duas formas: http://support.spss.com/ProductsExt/Statistics/Documentation/18/client/User%20Manuals/English/PASW%20Statistics%2018%20Core%20System%20User's%20Guide.pdf Aceder à sua pasta c:\Programas\SPSSInc\PASWStatistics18\Manuals\PASW Statistics 18Core System User's Guide1. JANELAS MAIS UTILIZADASAo iniciar o PASW Statistics 18.0 surge uma janela introdutória, onde poderá escolher uma opção.Caso queira colocar os seus dados, seleccione a opção Type in data; para abrir ficheiros de dados jáexistentes, seleccione a opção Open an existing data source; se é a primeira vez que utiliza o PASWentão seleccione a opção Run the Tutorial para uma introdução rápida ao SPSS e às suaspotencialidades.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 4

Na opção Open an existing data source poderá aceder aos ficheiros de exemplo de que o PASWdispõe, seleccionando More Files… e escolher c:\Programas\SPSSInc\PASWStatistics18\Samples\English\.Janela de edição de dados e variáveis (possui duas folhas, em baixo, àesquerda da janela, onde apenas uma delas poderá estar activa) As duas janelas seguintes sãorepresentativas desta situação.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 5

Exemplos: número de filhos nascidos vivos, número de obras catalogadas,número an ual de baixas hospitalares de uma pessoa.QuantitativadiscretacontínuaExemplos: a pluviosidade diária (mm) registada no quarto trimestre de 2007, oordenado de um trabalhador rural e o consumo eléctrico mensal de uma famíliade quatro pessoas ao longo de 2008.Variávelmedida numa escalanominalExemplos: sexo de um coelho (masculino, feminino), classificação de umpaciente psiquiátrico (psicótico, neurótico) e o grupo sanguíneo de umapessoa (A, B, AB e O).As variáveis nominais podem ainda ser divididas em binárias ou dicotómicas,quando compostas por duas categorias e polinominais, quando apresentammais de duas categorias possíveis.Qualitativamedida numa escalaordinalExemplos: grau de dor ( “nenhuma” até “dor insuportável”), ocomportamento de um animal (“submisso”, “neutro” ou “agressivo”), a corde determinada flor (desde “branca” até “vermelho”, passando por diversastonalidades de “rosa”) e as habilitações literárias de um indivíduo (9º ano, 12ºano, licenciatura, pós-graduação, mestrado e doutoramento).Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 8

No quadro seguinte encontra-se a simbologia utilizada no PASW, ou seja, os símbolos utilizadosconsoante os diferentes níveis de mensuração e tipo de valores, aquando da introdução de dados nosoftware.Fonte: Manual do programa, página 63. ABERTURA DE UM FICHEIRO DE DADOS (capítulo 3 do manual, pág. 11)Ao escolher na barra de menu de qualquer janela do SPSS, File OpenData, surge a janelaO SPSS permite abrir ficheiros oriundos de diferentes programas: obviamente do SPSS (*.sav), Systat(*.sys), Excel (*.xls, *.xlsm, *.xlsx), Lotus (*.w*), SAS (*.xpt), Stata (*.dta), Text (*.txt, *.dat) eoutros.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 9

Muitas vezes os dados encontram-se numa folha do Excel e é inconcebível voltar a introduzir os dadosnovamente. Por essa razão é possível abrir um ficheiro do Excel 95 ou uma versão superior, sendonecessário ter alguns cuidados:A cada coluna deve corresponder uma variável e à primeira linha o nome de cada variável;Em cada coluna os valores deverão ser sempre do mesmo tipo: apenas datas, apenas números,apenas texto, etc;Se numa coluna de valores numéricos existirem células em branco, estes serão convertidos nosistema de valores omissos do SPSS;Se os nomes das variáveis não seguirem as especificações do SPSS, ser-lhes-ão atribuídosoutros nomes.Exemplo para o Excel - considere a folha de cálculo seguinte, criada no Excel:A B C D E F G123 Nome_aluno Dat_Insc Teste 1 Teste 2 Teste 3 Status4 Nuno 09-01-2009 1 4,5 2,5 Reprovado5 Patrícia 20-09-2009 3,5 7 8 Reprovado6 Marco 12-10-2009 12 13 14 Aprovado7 Manuel 23-10-2009 5 6 7 Reprovado8 Elisa 14-10-2009 8 12 14 Aprovado9 Inês 25-10-2009 7 7 7 Reprovado10 Sara 06-10-2009 4 4 Reprovado11 Carla 17-09-2009 11 10 9 Aprovado12 André 18-10-2009 11 11 Reprovado13Para conseguir ler estes dados no Excel, proceda de acordo com o que foi dito anteriormente.No SPSS escolher menu File OpenDataElaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 10

O SPSS detecta dados no intervalo B3:G12 da folha1 do ficheiro analisado. Podemos concordar oudefinir um novo intervalo de dados. Caso exista dados noutras folhas, elas seriam identificadas e outilizador apenas teria de escolher a folha e o range pretendidos.E assim os dados passam a poder ser visualizados no SPSS (ver imagem em baixo). Por vezes naVariable View, nem tudo está como se pretende, nomeadamente nas colunas Label e Measure, peloque convém verificar e/ou emendar.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 11

Exemplo de um ficheiro de texto:Coloque os dados no Bloco de Notas doWindows, utilizando apenas o Tab para separar osvalores e Enter para mudar de linha. No SPSSescolher menu File OpenData.De seguida basta seguir os 6 passos seguintes:Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 12

Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 13


4. INTRODUÇÃO DE DADOS MANUAL (capítulo ? do manual, pág. ?)Ao iniciar o PASW Statistics 18.0 surge uma janela introdutória, seleccione a opção Type in data esurge a Janela de edição de dados e variáveis .Deve começar por definir as variáveis primeiro e só depois digitar os dados.Nota importante: Ao definir uma variável como alfanumérica (opção String no menu Type) nãopoderá depois efectuar o método estatístico apropriado para comparar, por exemplo, se o peso dorecém-nascido é idêntico nas 3 maternidades.De modo a esclarecer algumas questões, comece por introduzir quatro variáveis:Nome: maternidadeTipo: numéricoNome completo (Label): nome da maternidadeCodificação dos Value Labels: (1, Estefânia) (2, Alfredo da Costa) (3, Amadora-Sintra)Nome: corTipo: String ou alfanuméricaNome completo: cor da primeira roupa do recém-nascidoCodificação dos Value Labels: (1, rosa) (2, azul) (3, amarelo) (4, branco)Valores em falta (missing): NRNome: pesoTipo: numérico, com 3 casas decimaisNome completo: peso do recém-nascido, em KgValores em falta: 999Nome: sexoTipo: numéricoNome completo: sexo do recém-nascidoCodificação dos Value Labels: (1, M) (2, F)Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 16


Sexo do recém-nascidoFrequency Percent Valid PercentCumulativePercentValid M 7 43,8 43,8 43,8F 9 56,3 56,3 100,0Total 16 100,0 100,0Cor da primeira roupa do recém-nascidoFrequency Percent Valid PercentCumulativePercentValid Rosa 4 25,0 28,6 28,6Azul 3 18,8 21,4 50,0Amarelo 4 25,0 28,6 78,6Branco 3 18,8 21,4 100,0Total 14 87,5 100,0Missing NR 2 12,5Total 16 100,0CRUZAMENTO DE VARIÁVEISEscolher menu Analyse Descriptive Statistics Crosstabs; Na janela que surge deverá escolher obotão Cells e seleccionar a opção Counts ObservedElaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 20

Nome da maternidade * Cor daprimeira roupa do recém-nascido* Sexo do recém-nascidoCase Processing SummaryCasesValid Missing TotalN Percent N Percent N Percent14 87,5% 2 12,5% 16 100,0%Nome da maternidade * Cor da primeira roupa do recém-nascido * Sexo do recém-nascido CrosstabulationCountSexo do recém-nascidoCor da primeira roupa do recém-nascidorosa azul amarelo branco TotalM Nome da maternidade Estefânia 1 1 0 2Amadora-Sintra 0 1 2 3Total 1 2 2 5F Nome da maternidade Estefânia 0 0 1 1 2Alfredo da Costa 2 1 1 2 6Amadora-Sintra 1 0 0 0 1Total 3 1 2 3 9QUARTIS da variável PesoEscolher menu Analyse Descriptive Statistics Frequencies; Na janela que surge deverá escolhero botão Statistics e seleccionar a opção “Quartiles”, ignorando as restantes opções.StatisticsPeso do recém-nascido, em KgN Valid 14Missing 2Percentiles 25 2,6875050 3,0250075 3,35000Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 21

PERCENTIS DE DIFERENTES ORDENS (0,1 0,25 0,5 0,8 0,9) para o pesoEscolher menu Analyse Descriptive Statistics Frequencies; Na janela que surge deverá escolhero botão Statistics e seleccionar a opção “Percentile(s)”, ignorando as restantes opçõesStatisticsPeso do recém-nascido, em KgN Valid 14Missing 2Percentiles 10 2,0750025 2,6875050 3,0250080 3,5000090 4,00000MÉDIA, MEDIANA, MODA, SOMA, DESVIO-PADRÃO, VARIÂNCIA, AMPLITUDE,MÍNIMO E MÁXIMO da variável pesoEscolher menu Analyse Descriptive Statistics Frequencies; Na janela que surge deverá escolhero botão Statistics e seleccionar as opções assinaladas na imagem abaixo, ignorando as restantesopções.StatisticsPeso do recém-nascido, em KgN Valid 14Missing 2Mean 3,01786Median 3,02500Mode 3,100Std. Deviation ,589852Variance ,348Range 2,150Minimum 1,950Maximum 4,100Sum 42,250Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 22

GRÁFICO DE BARRAS, para as variáveis qualitativas discretasEscolher menu Analyse Descriptive Statistics Frequencies; Na janela que surge deverá escolhero botão Graphs e seleccionar a opção Bar Chart.StatisticsCor daprimeira roupado recémnascidoSexo dorecémnascidoNome damaternidadeN Valid 16 14 16Missing 0 2 0GRÁFICO CIRCULAR, para a variável cor da primeira roupa do recém-nascidoEscolher menu Analyse DescriptiveStatistics Frequencies; Na janela que surgedeverá escolher o botão Graphs e seleccionara opção Pie Charts.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 23

GRÁFICO DE BOX-PLOT, para a variável peso (apenas uma variável)Escolher menu Graphs Graph Builder Gallery, BoxplotArraste agora o tipo de boxplot que pretende da “ Gallery”, a variável pretendida e alguma opção quepretenda do “ Basic Elements” (observe as setas na imagem seguinte).Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 24

Obteve-se o seguinte gráfico (diagrama de extremos e quartis ou “boxplot”:Não foram detectados“outliers”.Informações necessárias para aconstrução deste gráfico:mínimo, 1º quartil, mediana, 3ºquartil e máximo.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 25

ALGUMAS CONSIDERAÇÕES ACERCA DO DIAGRAMA DE EXTREMOS E QUARTIS –“BOXPLOT” (adequado para dados quantitativos, discretos ou contínuos)É um tipo de representação gráfica, em que se realçam algumas características da amostra. O conjuntodos valores da amostra compreendidos entre o 1º e o 3º quartis, que vamos representar por Q 1/4 e Q 3/4 érepresentado por um rectângulo (caixa) com a mediana (med) indicada por uma barra. A largura dorectângulo não dá qualquer informação, pelo que pode ser qualquer. Consideram-se seguidamente duaslinhas que unem os meios dos lados do rectângulo com os extremos da amostra. Para obter estarepresentação, começa por se recolher da amostra, informação sobre 5 números, que são: os 2extremos (mínimo e máximo, caso não sejam considerados “outliers” ou candidatos a “outliers”), amediana e o 1º e 3º quartis. A representação do diagrama de extremos e quartis tem o seguinte aspecto:O extremo inferior é o mínimo da amostra, enquanto que o extremo superior é o máximo da amostra.Qual a importância deste tipo de representação? Realça informação importante sobre os dados,como sejam o centro da amostra (mediana), variabilidade e simetria. Repare-se que da forma como odiagrama se constrói, se pode retirar imediatamente a seguinte informação:Como é que se pode reconhecer a simetria ou o enviesamento dos dados, a partir do diagrama deextremos e quartis? Existem fundamentalmente três características, que nos dão ideia da simetria ouenviesamento e da sua maior ou menor concentração: a distância entre a linha indicadora da mediana eos lados do rectângulo, o comprimento das linhas que saem dos lados dos rectângulos e o comprimentoda caixa.Regras para a classificação dos “outliers” (observação “suspeita”, pois afasta-se do padrão geral dosdados).“Outliers” – caso ultrapasse um dos quartis em 1,5 vezes a amplitude inter-quartil (AIQ)“Outliers” moderados – caso se situe entre 1,5 e 3 vezes a AIQ, a partir de um dos quartis“Outliers” severos ou valores extremos – caso ultrapasse um dos quartis em 3 vezes a AIQElaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 26

GRÁFICO DE BOX-PLOT E ESTATÍSTICA DESCRITIVA, para a variável pesorelativamente ao sexo do recém-nascidoUma forma de obter o que é pedido é escolher o menu Analyse Descriptive StatisticsExploree siga as indicações das janelas seguintes.Após as opções anteriores, os resultados foram os seguintes:Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 27

Case Processing SummaryPeso do recémnascido,em KgSexo do recémnascidoCasesValid Missing TotalN Percent N Percent N PercentM 6 85,7% 1 14,3% 7 100,0%F 8 88,9% 1 11,1% 9 100,0%DescriptivesSexo do recém-nascido Statistic Std. ErrorPeso do recémnascido,em KgM Mean 2,90000 ,19958395% Confidence Interval for Mean Lower Bound 2,38696Upper Bound 3,413045% Trimmed Mean 2,93056Median 3,02500Variance ,239Std. Deviation ,488876Minimum 1,950Maximum 3,300Range 1,350Interquartile Range ,563Skewness -1,947 ,845Kurtosis 4,164 1,741F Mean 3,10625 ,23837995% Confidence Interval for Mean Lower Bound 2,54257Upper Bound 3,669935% Trimmed Mean 3,10139Median 2,95000Variance ,455Std. Deviation ,674239Minimum 2,200Maximum 4,100Range 1,900Interquartile Range 1,237Skewness ,312 ,752Kurtosis -1,199 1,481Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 28

É detectada a presençade um “outlier”severo ou valorextremo (o indivíduo 1que se encontra natabela dos dados).Deverá serconsiderada a suaeliminação dos dados.Outra forma de obter o boxplot, é escolher o menu Graphs Graph Builder Gallery, BoxplotElaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 29

CONSTRUÇÃO DAS CLASSES [1, 2[ [2, 3[ [3, 4[ [4, 5], para a variável peso(capítulo 7 do manual, Visual Banning, PÁGINA 116)O “Visual Binning” foi criado para assistir no processo de criação de novas variáveis baseado noagrupamento de dados contínuos, num número limite de categorias distintas. O “Visual Binning” podeser usado para: Construir classes de uma variável contínua; as classes serão encaradas como variáveiscategóricas; Transformar uma variável medida numa escala ordinal, com um grande número de valoresdistintos, numa nova variável com menos valores distintos (novas categorias).1º PASSO - escolher o menu Transform Visual Binning e seleccionar a variável que pretendeagrupar em “bins” (classes ou novas categorias). Seleccione o botão “Continue”.NOTA: a lista das variáveis contém apenas as variáveis numéricas medidas numa escala ordinale as variáveis contínuas.2º PASSO – na próxima janela escolher o nome da “Binned Variable”, alterar o Label se assimentender, inserir na grelha os valores de “cutpoints” 2, 3, 4 (inseridos abaixo na célula HIGH, um aum, seguido de ENTER), seleccionar “Excluded (

Na janela de Edição de dados, aparecerá a nova variável Classes_Peso, onde indica o nºda classe ou a classe a que pertence o valor da variável Peso, para cada um dos 16indíviduos.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 31

OUElaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 32

HISTOGRAMA, para a variável Classes_Peso (peso agrupada em 4 classes)Escolher o menu Graphs Graph Builder Gallery, HistogramDe seguida apresento o histograma que resultou da construção classes utilizando o “Visual Binning”.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 33

Uma vez que o PASW considera os “bins” como categorias, o histograma mais parece um gráfico debarras! Por essa razão devemos editar o gráfico (duplo clique em cima do gráfico), novo duplo cliqueem cima de uma das barras e no “Bar Optins” aumentar o espaçamento das barras para 100, de modoa que estas fiquem adjacentes, indiciando a continuidade da variável peso de um recém-nascido.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 34

Escolher menu Analyse Descriptive Statistics Frequencies; Na janela que surge deverá escolherapenas o botão Graphs e seleccionar a opção Histogram.Obviamente este histograma utiliza outras classes (o utilizador não sabe especificamente quais asclasses que foram construídas)..Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 35

DADOS AGRUPADOS EM CATEGORIASConsidere o seguinte exercício:Tendo como objectivo analisar o conhecimento dos alunos da Escola Superior Agrária de Coimbra acerca doprojecto EMAS@SCHOOL, foram inquiridos 400 grupos de cinco alunos desta escola. Registado o númerode alunos por grupo que tinham conhecimento do projecto, obteve-se os seguintes resultados:N.º de alunos no grupo que tinham conhecimento do projecto 0 1 2 3 4 5N.º de grupos 16 32 89 137 98 28Construa a tabela de frequências;Calcule a média, moda, o desvio padrão e a mediana;Esboce os diagramas de barras e de extremos e quartis.RESOLUÇÃO DO EXERCÍCIO:Inserir no Editor de dados e variáveis a seguinte informação:Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 36

É chegada a altura de transmitir ao PASW que existe uma variável (nº alunos) que está a serponderada, pesada por uma outra variável que representa uma frequência.Escolher menu Data Weight Cases onde surgirá a janela abaixo; será necessário seleccionar qual avariável que representa a frequência.Escolher menu Analyse Descriptive Statistics Frequencies e seleccionar tudo o que foi pedidono exercício, utilizando as opções “Statistics”, “Charts” , para além da tabela de frequências que já seencontra escolhida por defeito. Clicar OKOs resultados que apresento a seguir foram colocados na janela de” Output”.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 37

N_alunosStatisticsN Valid 400Missing 0Mean 2,88Median 3,00Mode 3Std. Deviation 1,190Variance 1,417Range 5Minimum 0Maximum 5Sum 1153Percentiles 25 2,0050 3,0075 4,00N_alunosFrequency Percent Valid PercentCumulativePercentValid 0 16 4,0 4,0 4,01 32 8,0 8,0 12,02 89 22,3 22,3 34,33 137 34,3 34,3 68,54 98 24,5 24,5 93,05 28 7,0 7,0 100,0Total 400 100,0 100,0Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 38

6. CÁLCULO DE PROBABILIDADES DE DISTRIBUIÇÕES DISCRETAS ECONTÍNUASEscolher o menu Transform Compute Variable… onde surgirá a janela abaixo:É obrigatório indicar a variável onde irão ser colocados os cálculos a realizar (Target Variable), aexpressão numérica que pretende realizar (Numeric Expression), podendo utilizar as funçõesdisponíveis nesta janela (inclui uma breve explicação acerca da função).Para calcular probabilidades de uma distribuição discreta, poderá utilizar a função massa deprobabilidade f x P X xou a função de distribuição F x P X x utilizando,respectivamente, o grupo de funções intitulado “PDF & Noncentral PDF” e “CDF & NoncentralCDF”. O grupo “PDF & Noncentral PDF” contém as funções de distribuição pontuais f(x), referindoseàs funções de massa de probabilidade (no caso discreto) e densidade (no caso contínuo), paradistribuições simétricas ou assimétricas. O grupo “CDF & Noncentral CDF” contém as funções dedistribuição cumulativas F(x), para distribuições simétricas ou assimétricas.O grupo “Inverse DF” contém as funções inversas de distribuições contínuas que permitem obterquantis de ordem p.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 39

DISTRIBUIÇÃO BINOMIALConsidere o seguinte exercício:Supondo que a variável aleatória X Binomial n 8, p 0.4, obtenha os valores de f x , Fxe os respectivos gráficos. Calcule as probabilidades P X 2e P2 X 6 .RESOLUÇÃO DO EXERCÍCIO:Uma vez que esta variável aleatória assume apenas os valores 0, 1, 2, 3,…, 8 é necessário criar umavariável (designada por valores_x) no SPSS/PASW que contenha estes valores.Utilizar, por duas vezes, a opção Computer Variable, escolhendo:Target Variable: fmp_f (o utilizador pode escolher outro nome)Numeric expression: =PDF.Binom(valores_x,8,0.4)OKTarget Variable: fdist_F (o utilizador pode escolher outro nome)Numeric expression: =CDF.Binom(valores_x,8,0.4)OKElaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 40

Função massa de probabilidade da Binomial (8;0,4) Função distribuição da Binomial (8;0,4)Agora já pode calcular variadas probabilidades:P X 2 f 0 f 1 f 2 0,0168 0,0896 0,2090 0,3154 OU P X 2 F 2 0,3154P X f f f OU P X P X F F 2 6 3 4 5 0,2787 0,2322 0,1239 0,63482 6 2 5 5 2 0,9502 0,3154 0,6348DISTRIBUIÇÃO DE POISSONConsidere o seguinte exercício:Supondo que a variável aleatória X Poisson 5, obtenha os valores de f x , respectivos gráficos. Calcule as probabilidades P X 3e P10 X 12 .F x e osRESOLUÇÃO DO EXERCÍCIO:Uma vez que esta variável aleatória assume os valores 0, 1, 2, 3,…, é necessário criar umavariável (designada por valores_x) no SPSS/PASW que contenha alguns destes valores, uma vez queseria difícil ir até …Utilizar, por duas vezes, a opção Computer Variable, escolhendo:Target Variable: fmp_f (o utilizador pode escolher outro nome)Numeric expression: =PDF.Poisson(valores_x,5)OKTarget Variable: fdist_F (o utilizador pode escolher outro nome)Numeric expression: =CDF.Poisson(valores_x,5)OKElaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 41

Função massa de probabilidade da Poisson(5)Função distribuição da Poisson(5) OU P X P X F P X 3 1 P X 3 1 f 0 f 1 f 2 f 3 10,0067 0,0337 0,0842 0,1404 0,7353 1 3 1 3 1 0,2650 0,7350P X f f OU P X P X F F 10 12 10 11 0,0181 0,0082 0,026310 12 9 11 11 9 0,9945 0,9682 0,0263Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 42

DISTRIBUIÇÃO NORMALUma variável aleatória contínua X segue a lei Normal, X N, , se a função densidade deprobabilidade for dada por21 x 1 f ( x) e 2 , x, IR, 0 em que e 2representam, respectivamente, a média (localiza o centro da distribuição) e o desvio padrão dapopulação (mede a variabilidade de X em torno da média ).f(x): média: desvio padrãoxFigura – Curva normal típica ( x, IR, 0 )A distribuição normal de média 0 e desvio padrão 1 é chamada de distribuição Normal padrão, ecostuma ser denotada por Z.A estandardização é a operação que transforma uma Normal ( , ) numa Normal (=0; =1), ouX seja, X N ( , ) Z N(0,1).A probabilidade de uma variável contínua assumir valores entre a e b é igual à área sob a curva entreesses dois pontos. A determinação destas probabilidades é realizada matematicamente através daintegração da função de densidade de probabilidade (f.d.p.) entre os pontos a e b de interesse, ou seja,2bb 1 x 1 Pa X b f xdx e 2 dx 2 . No caso da Normal, o integral não pode seraacalculado exactamente e a probabilidade entre dois pontos só pode ser obtida aproximadamente, pormétodos numéricos.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 43

Considere o seguinte exercício:Supondo que a variável aleatória Z Normal 0 ; 1 e X Normal 3; 1,5a) Obtenha os gráficos de f x e Fx . Quais as propriedades que observa?b) Comprove as percentagens indicadas na figura abaixo, através de probabilidades adequadas;99.73 %95.46 %68.26 %-3-2- + +3+2c) Calcule as probabilidades PZ 0, P X 3e 2,1d) Determine os seguintes quantis da v.a. X Normal 3; 1,5 decil e nonagésimo oitavo percentil.P Z . O que pode concluir? : primeiro quartil, terceiroRESOLUÇÃO DO EXERCÍCIO:Alínea a)Foram criadas duas variáveis, designadas por valores_z e valores_x, no software SPSS/PASW. Umavez que as variáveis assumem valores reais, o software não é aconselhado visto não ser uma folha decálculo, pelo que os valores foram obtidos no Excel e de seguida copiados para o SPSS/PASW.Utilizar, por quatro vezes, a opção Computer Variable, escolhendo:Target Variable: fdp_fz (o utilizador pode escolher outro nome)Numeric expression: =PDF.Normal(valores_z, 0 , 1) OKTarget Variable: fdist_Fz (o utilizador pode escolher outro nome)Numeric expression: =CDF. Normal (valores_z, 0 , 1) OKTarget Variable: fdp_fx (o utilizador pode escolher outro nome)Numeric expression: =PDF. Normal (valores_x, -3 , 1.5) OKTarget Variable: fdist_Fz (o utilizador pode escolher outro nome)Numeric expression: =CDF. Normal (valores_x, -3 , 1.5) OKElaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 44


Uma vez que se tratam de funções contínuas, no Chart Builder deverá escolhar um gráfico de linhas na Gallery e arrasta-lo para o ChartPreview e na janela Element Properties escolher a interpolação do tipo Spline e interpolar para valores em falta.Observação: uma vez que para os valores em falta é seleccionada a interpolação, os valores_z já podem ser escassos (e assim nãoprecisam de ser gerados no Excel); sugiro que coloquem no SPSS/PASW os valores_z -4, -3, -2, -1, 0, 1, 2, 3, 4 , obtenham f(z) efaçam o gráfico…muito semelhante e com menor esforço!Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 46

Alínea a) (continuação)Curva da função densidade de probabilidade da Normal (0; 1) Curva da função densidade de probabilidade da Normal (-3; 1,5)Propriedades da função densidade de probabilidade:fica identificada pelos dois parâmetros: valor médio e desvio-padrão ; tem a forma de sino; é simétrica em relação à recta de equação x = ; a áreacompreendida entre a curva e o eixo XX é igual a 1 (propriedade da f.d.p); tem dois pontos de inflexão (mudança de concavidade) de abcissas - e +; amédia = moda = mediana = ;Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 47

Alínea a) (continuação)Curva da função distribuição da Normal (0; 1) Curva da função distribuição da Normal (-3; -1,5)Propriedades da função distribuição:F( x) P( X x)é uma função cumulativa não decrescente, contínua à direita e lim F x 0 e lim F x 1.xxElaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 48

Alínea b)P Z P 1 Z 1 F 1 F 1 CDF. Normal 1,0,1 CDF. Normal 1,0,1 0,8413 0,1587 0,6826 68,26%OU tendo em conta a simetria da dist. NormalP 1 Z 1 2 P 0 Z 1 2 F 1 F 0 2 CDF. Normal 1,0,1 CDF. Normal 0,0,1 2 0,8413 0,5 2 0,3413 0,6826 68,26%P 2 Z 2 P 2 Z 2 F 2 F 2 CDF. Normal 2,0,1 CDF. Normal 2,0,1 0,9772 0,0228 0,9544 95,44%P 3 Z 3 P 3 Z 3 F 3 F 3 CDF. Normal 3,0,1 CDF. Normal 3,0,1 0,9987 0,0013 0,9974 99,74%Alínea c) Calcule as probabilidades PZ 0, P X 3e 2,1P Z . O que pode concluir?Através da observação dos gráficos das f.d.p. f z e f x , as probabilidades P X P Z 0 3 0,5 , pelo que correspondem a metade da área compreendida entre a curva daf.d.p. e o eixo XX. A última probabilidade equivale a calcular a área de uma recta, logo PZ 2,1 0OU PZ F CDF Normal 0 0 . 0,0,1 0,5 P X 3 1 P X 3 1 F 3 1 CDF. Normal 3, 3,1.5 10,5 0,5OU atendendo à operação de estandardização/padronização 3 3PX 3 PZ PZ 0 1 F 0 1 CDF. Normal 0,0,11 0,5 0,5 1,5 2,1 2,0999 2,1001 2,1001 2,0999CDF Normal CDF Normal P Z P Z F F . 2.1001,0,1 . 2.0999,0,1 0,9821 0,9821 0Assim pode-se concluir que a mediana da v.a. Z Normal 0 ; 1 é zero e a mediana da v.a.X Normal 3; 1,5 é igual a -3. Isto acontece devido ao facto de que na distribuiçãoNormal a média = mediana = . As probabilidades pontuais em distribuições. contínuas são semprenulas.Alínea d)Determine os quantis: primeiro quartil, terceiro decil e nonagésimo oitavo percentil.primeiro quartil = Q IDF Normal 1 . 0.25, 3,1.5 4,014terceiro decil = Q IDF Normal 3 . 0.3, 3,1.5 3,7910nonagésimo oitavo percentil = Q IDF Normal 98 . 0.98, 3,1.5 0,08100Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 49

DISTRIBUIÇÃO t DE STUDENTA distribuição possui um único parâmetro (g.l. > 0) denominado grau de liberdade. Domínio de f = IRConsidere o seguinte exercício:Obtenha os gráficos da função densidade de Y tgle de Gt3200. Determine o 15º percentil, amediana e o octogésimo quinto percentil da v.a. Y.RESOLUÇÃO DO EXERCÍCIO:Foram criadas duas variáveis, designadas por valores_y e valores_g, no software SPSS/PASW. Umavez que as variáveis assumem valores reais, o software não é aconselhado visto não ser uma folha decálculo, pelo que os valores foram obtidos no Excel e de seguida copiados para o SPSS/PASW.Utilizar, por duas vezes, a opção Computer Variable, escolhendo:Target Variable: fdp_fy Numeric expression: =PDF.T(valores_y, 3) OKTarget Variable: fdp_fg Numeric expression: =PDF.T(valores_g, 200) OKCurva da função densidade t 3 Curva da função densidade t 200NOTA: Quando o nº. de graus de liberdade é elevado, a f.d.p. da t-Student aproxima-se da N(0,1).Determinação dos quantis tgl p :15º percentil da 3mediana da 385º percentil da 3t = t IDF T 30,15 . 0.15,3 1,25t = t 3 0,5 IDF . T 0.5,3 0 tal como se pode observar numa das f.d.p. t = t 0,85 IDF . T 0.85,3 1,25 simetrico do decimo quinto percentil 3NOTA: numa distribuição simétrica em torno de zero, Qp1Q pElaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 50

DISTRIBUIÇÃO QUI-QUADRADOA distribuição possui um único parâmetro (g.l. > 0) denominado grau de liberdade. Domínio de f = IR Considere o seguinte exercício:2gl 12gl 5Obtenha os gráficos da função densidade de X e de 1X . Determine o 15º2percentil, a mediana e o terceiro quartil da variável X 2 .RESOLUÇÃO DO EXERCÍCIO:Foram criadas duas variáveis, designadas por valores_x1 e valores_x2, no software SPSS/PASW. Umavez que as variáveis assumem valores superiores a zero, o software não é aconselhado visto não ser umafolha de cálculo, pelo que os valores devem ser obtidos no Excel e de seguida copiados paraSPSS/PASW.Utilizar, por duas vezes, a opção Computer Variable, escolhendo:Target Variable: fdp_fx1 Numeric expression: =PDF.Chisq(valores_x1, 1) OKTarget Variable: fdp_fx2 Numeric expression: =PDF.Chisq(valores_x2, 5) OKCurva da função densidade2gl 1Curva da função densidade2gl 52Determinação dos quantis p15º percentil do25mediana do25terceiro quartil do25 :gl2 = IDF Chisq 2 = 5 0,5 IDF. Chisq 0.5,5 4,352 = IDF Chisq 50,15 . 0.15,5 1,995 0,75 . 0.75,5 6,63Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 51

DISTRIBUIÇÃO F-SNEDECORA distribuição possui 2 parâmetros (gl1, gl2 > 0) denominados graus de liberdade. Domínio de f = IR .Considere o seguinte exercício:Obtenha os gráficos da função densidade de M1 Fgl1 1; gl 2 ,40M2 Fgl1 100; gl2 e de100M3 Fgl1 6; gl2 . Determine o 1º quartil, a mediana e o 3º quartil da v.a. M283 .RESOLUÇÃO DO EXERCÍCIO:Foram criadas duas variáveis, designadas por valores_m1 e valores_m2, no software SPSS/PASW. Umavez que as variáveis assumem valores superiores ou iguais a zero, o software não é aconselhado vistonão ser uma folha de cálculo, pelo que os valores foram obtidos no Excel e de seguida copiados para oSPSS/PASW.Utilizar, por três vezes, a opção Computer Variable, escolhendo:Target Variable: fdp_fm1 Numeric expression: =PDF.F(valores_m1, 1, 40) OKTarget Variable: fdp_fm2 Numeric expression: =PDF.F(valores_m2, 100, 100) OKTarget Variable: fdp_fm3 Numeric expression: =PDF.F(valores_m3, 6, 28) OKCurva da função densidade F 1, 40 Curva da função densidade F 100,100Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 52

Curva da funçãodensidade F 6,28NOTA: A distribuição densidade f(x) é assimétrica e os aspectos da função densidade são variados.Determinação dos quantis 1º quartil de6, 28mediana de6, 283º quartil de6, 28F p :gl1, gl 2F = F IDF F6, 28 F = F IDF F6, 28 F = F IDF F 6, 280,25 . 0.25,6,28 0,570,5 . 0.5,6,28 0,910,75 . 0.75,6,28 1,4NOTA: F pgl1, gl 2Fgl 2, gl111pElaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 53

7. TESTES DE HIPÓTESES E INTERVALOS DE CONFIANÇA de um parâmetropopulacionalTESTE T (teste de hipóteses para, amostra pequena e população Normal)Os valores de pH obtidos em 16 análises de água mineral de uma certa origem são:6,7 6,1 5,9 6,9 7,6 7,4 7,4 7,2 6,3 5,6 5,9 7,0 7,8 6,7 6,0 7,1Admita que o valor do pH das águas analisadas provenientes dessa origem é uma variável aleatóriaque segue uma lei normal N ;. Com base nos valores anteriores:a) Construa um intervalo de confiança para a média , com um grau de confiança de 99%;b) Poderemos concluir, ao nível de significância de 5%, que o pH médio da água provenienteda captação é inferior a 7? E se for diferente de 7?RESOLUÇÃO DO EXERCÍCIO:Alínea a)Depois de introduzir os dados no Editor de Dados, se pretender apenas um intervalo de confiança para oparâmetro μ, deve escolher menu Analyse Descriptive Statistics Explore e especificar o grau deconfiança desejado.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 54

O output obtido foi o seguinte:DescriptivesStatistic Std. Errorph Mean 6,725 ,171199% Confidence Intervalfor MeanLower Bound 6,221Upper Bound 7,2295% Trimmed Mean 6,728Median 6,800Variance ,469Std. Deviation ,6846Minimum 5,6Maximum 7,8Range 2,2Interquartile Range 1,3média amostralSkewness -,127 ,564Kurtosis -1,258 1,091desvio padrão doerro snLimites de confiançado IC para μ a 99%desvio padrãoamostralAssim 6.221, 7.229a 99% cuja interpretação pode ser: considerando um número elevado deamostras, em 99% das vezes o intervalo de confiança encontrado 6.221, 7.229 contém o parâmetro Alínea b) Escolha agora menu Analyse Compare Means One Sample T Test…Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 55

Em seguida aparece a janela em baixo, à esquerda, onde deve escolher a variável em estudo (querepresenta a amostra retirada de uma suposta população Normal) e indicar o verdadeiro valor da média(média populacional) que está a testar, ou seja, o valor de μ em teste (Test Value).No output do teste, aparece sempre por defeito, um intervalo de confiança (IC) para μ a 95%, associado aum possível teste bilateral. Caso seja do seu interesse considerar 5% , clique no botão das Options(surge a janela em baixo, à direita) e indique o grau de confiança 1 desejado. Esta escolha apenas érelevante para os limites de confiança do IC e não para o teste em si, que fornecerá o valor de prova(menor nível de significância a partir do qual se rejeita a hipótese nula). Observe que nada é dito/pedidoacerca do tipo de teste que pretende (bilateral, unilateral à esquerda ou à direita), pelo que no output doteste estará sempre o valor de prova de um teste bilateral (Sig.-2 tailed). A partir desse terá de encontrar oque pretende.Clicar Continue, seguido de Ok. Surge em seguida o output:Apesar de estarmos interessados em testarH0 : 7 vs H1 : 7também testar outras hipóteses:H0 : 7 vs 1H : 87podíamose H0 : 7 vs H1 : 7 usando omesmo output do SPSS/PASW.Valor de prova ∝ pValor observado da de um teste bilateralestatística de teste, ouseja, ET obsGraus de liberdade dadist. t de StudentDiferença entre a médiaamostral e populacional,X = 6,725 - 7Limites de confiança do IC 7 0.779 , 0.229 a 99% +76.221, 7.229 a 99%Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 56

Pretende-se testar H0 : 7 contra H1 : 7 (teste unilateral esquerdo).ET obs = -1,607Conclusão estatística (utilizando o valor de prova):O valor de prova associado ao teste é igual a 0,129/2 pelo que deve rejeitar H0para α ≥ 6,45%. Assimpara os níveis de significância α = 1% e 5% não se rejeita H0 , mas para 10% rejeita-se H0Para o outro teste pretendido, H0 : 7 contra H1 : 7 (teste bilateral).ET obs = -1,607Conclusão estatística (utilizando o valor de prova):O valor de prova associado ao teste é igual a 12,9% pelo que deve rejeitar H0para α ≥ 12,9%. Assimpara os níveis de significância usuais não se rejeita H0 , pelo que não existem evidências estatísticassignificativas de que a verdadeiro valor do pH médio da água proveniente da captação é diferente de 7.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 57

TESTE BINOMIAL a uma proporção p(Exemplo) Uma empresa lançou recentemente no mercado uma dieta de emagrecimento e pretendefazer o controlo do peso dos seus seguidores. Para tal procedeu à recolha dos pesos de 16 indivíduos,escolhidos aleatoriamente entre os seus seguidores, assim como a sua idade e sexo, etc.NOTA: Os dados encontram-se no ficheiro DietStudy.sav do SPSS/PASW.a) Averigúe se a proporção de seguidores com idades superiores a 60 anos é superior a 0,3.b) Pretende-se averiguar se a proporção de seguidores do sexo feminino é significativamentediferente dos seguidores do sexo masculino.c) Teste , para 5% , se a proporção dos indivíduos com peso inicial (variável wgt0) inferiorou igual a 200 kg é superior a 0,2.RESOLUÇÃO DO EXERCÍCIO: Alínea a) Pretende-se efectuar um teste de hipóteses unilateral direitocujas hipóteses são 0H : p idade 60 0,3 contra 1H : p idade 60 0,3 .Para a realização do teste no SPSS/PASW, a variável em causa tem de ser numérica e dicotómica (devepossuir apenas dois valores/categorias possíveis; sim ou não, verdadeiro ou falso, 0 ou 1,mulher ouhomem, peso inferior a 75 quilos ou peso superior ou igual a 75 quilos, e assim por diante).Se a variável for do tipo alfanumérica ou qualitativa (String) deve usar o procedimento de recodificaçãoautomática (Automatic Recode disponível no menu Transform).No caso da variável ser dicotómica, o primeiro valor encontrado nos dados define o primeiro grupo eautomaticamente o outro valor define o segundo grupo. É necessário apenas dizer ao SPSS/PASW que adicotomia será definida através dos dados (Get from data).No caso de a variável não ser dicotómica, deve efectuar uma divisão nos dados especificando para esseefeito um valor de corte (Cut point). O primeiro grupo será definido para valores inferiores ou iguais aovalor de corte e o segundo grupo para valores superiores.Importante salientar que neste teste, o SPSS/PASW, utiliza sempre os indivíduos do grupo 1 paradefinir a proporção em causa nas hipóteses em teste.Voltando ao exercício, como a idade é numérica, mas não dicotómica é necessário definir o valor decorte 60, pelo que o primeiro grupo será constituído pelos indivíduos com idade ≤ 60 anos e o segundogrupo de indivíduos com idade > 60 anos. Assim é obrigatório que a proporção p a utilizar nas hipótesesse refira ao grupo 1, pelo que 0esquerdo).H : p idade 60 0,7 contra 1H : p idade 60 0,7 (teste unilateralElaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 58

Abrir o ficheiro indicado para realizar o exercício proposto. Deve escolher agora menu AnalyseNonparametrics Tests Legacy Dialogs BinomialEm seguida aparece a janela em baixo, onde deve escolher a variável em estudo (idade), o valor de corte60 e o valor de teste p = 0,7.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 59

Foi obtido o output seguinte:Conclusão estatística (utilizando o valor de prova):O valor de prova associado ao teste é igual a 55% pelo que deve rejeitar H0para α ≥ 55%. Assim paraos níveis usuais de significância (α = 1%, 5% e 10%) não se rejeita H0 , ou seja, não existem evidênciasestatísticas significativas que levem a crer que a proporção de seguidores com idades superiores a 60 anosé superior a 30% ( equivalente a dizer que a proporção de seguidores com idades inferiores ou iguais a 60anos é inferior a 70%).Alínea b)Pretende-se averiguar se a proporção de seguidores do sexo feminino é significativamente diferente dosseguidores do sexo masculino, que pode ser realizado através de um teste bilateral cujas hipóteses sãoH0 : p 0,5 contra H1 : p 0,5 onde p representa a proporção de seguidores do sexo masculino.Uma vez que a variável sexo já é dicotómica e o primeiro indivíduo dos dados é do sexo masculino, ogrupo 1 será composto pelos seguidores do sexo masculino. É necessário apenas dizer ao SPSS/PASW quea dicotomia será definida através dos dados (Get from data).Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 60

Foi obtido o output seguinte:Conclusão estatística (utilizando o valor de prova):O valor de prova associado ao teste é igual a 80,4% pelo que deve rejeitar H0para α ≥ 80,4%. Assimpara os níveis usuais de significância (α = 1%, 5% e 10%) não se rejeita H0 , ou seja, não existemevidências estatísticas significativas que levem a crer que a e a proporção de seguidores do sexo femininoé significativamente diferente dos seguidores do sexo masculino.Alínea c)Pretende-se averiguar se a proporção de seguidores, com peso inicial, inferior ou igual a 200 kg, ésuperior a 0.2, que pode ser realizado através de um teste unilateral direito cujas hipóteses são H0 :p 0,2 contra H1 : p 0,2 (teste unilateral direito) onde p representa a proporção de indivíduos compeso inicial, inferior ou igual a 200 kg.Uma vez que a variável peso não é dicotómica, mas sim contínua, é necessário definir o valor de cortede 200, pelo que o primeiro grupo será constituído pelos indivíduos com peso inicial ≤ 200 kg e osegundo grupo de indivíduos com peso inicial > 200 kg. Sendo assim o teste considerado anteriormentepara a alínea c) mantém-se inalterado.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 61

Foi obtido o output seguinte:Conclusão estatística (utilizando o valor de prova):O valor de prova associado ao teste é igual a 0,1% pelo que deve rejeitar H0para α ≥ 0,1%. Assimpara 5% rejeita-se H0 , ou seja, existem evidências estatísticas significativas de que a proporçãodos indivíduos com peso inicial, inferior ou igual a 200 kg, é superior a 0,3.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 62

8. REGRESSÃO LINEAR SIMPLES E MÚLTIPLARegressão linear simplesO modelo de regressão linear simples (MRLS) é caracterizado por uma recta em que apenas existe 1variável dependente e 1 variável independente.(Exemplo) Foi realizado um estudo para determinar a percentagem dos resíduos sólidos eliminados por umsistema de filtragem (P) em função da taxa de fluxo de efluente (T). O quadro resume os valores obtidos:Taxa de fluxo de efluente (T)Percentagem de resíduos sólidos (P)1 4 6 8 1024 19 17,5 14 12a) Identifique a variável dependente (ou explicada) e independente (ou explicativa);a) Obtenha o diagrama de dispersão e comente-o, tendo em conta que se pretende aplicar o MRLS;b) Apresente o coeficiente de correlação linear de Pearson (designado por R) e comente-o;c) Apresente a recta de regressão estimada;d) Interprete as estimativas dos coeficientes de regressão calculados anteriormente;e) Calcule os valores preditos e os resíduos, associados a cada par de observações (x i ,y i );f) Os pressupostos do MRLS são satisfeitos?g) Calcule um intervalo de confiança a 95% para cada coeficiente de regressão;h) Avalie o significado da regressão de P sobre T, ao nível de significância de 5% , utilizando trêsformas distintas: um quantil de ordem apropriado, o valor de prova e um intervalo de confiançaadequado;i) Teste, ao nível de significância de 5%, se o MRLS deve conter a constante (teste à presença deordenada na origem);j) Interprete o coeficiente de determinação (designado por R 2 );k) Comente a adequação do MRLS aos dados;l) Teste, ao nível de significância de 5%, as hipóteses H0: b 1 contra H1: b 1;m) Estime, se possível, a percentagem de resíduos sólidos eliminados por um sistema de filtragem quandoa taxa de fluxo de efluente for 9.2 , 10.5, 11 e 14.NOTA: Este exemplo foi resolvido integralmente na aula prática, pelo que apenas obterei osoutput’s no SPSS/PASW para que possam responder a algumas das questões do exercício.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 63

RESOLUÇÃO DO EXEMPLO DE REGRESSÃO LINEAR SIMPLES:Insira os dados em duas colunas pela ordem que entender.Alínea a) Tendo em conta o enunciado do exemplo, a variável dependente a considerar será apercentagem de resíduos sólidos a eliminar pelo sistema de filtragem (variável Perc) e a independenteserá a taxa de fluxo de efluente (variável Taxa).Alínea b) Como ferramenta exploratória da regressão deverá obter um diagrama de dispersão noSPSS/PASW, através do menu Graphs Chart Builder. Escolha na Gallery um Simple Scatter e arrasteopara a zona do Chart Preview; escolha a variável dependente e arraste-a para o eixo dos yy´s e avariável independente para o eixo dos xx´s.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 64

Através do diagrama de dispersão obtido, parecemuito sensato/plausível tentar ajustar uma rectaaos dados.São inúmeras as rectas que podem passar poraqueles pontos… no entanto procuramos a rectaque tenta minimizar a distância entre os pontose a recta de regressão estimada.Nota: ao editar o gráfico, poderá adicionar umarecta aos dados, mediante a introdução daexpressão analítica da recta.Deve escolher agora menu Analyse Regression Linear e escolher as opções seguintes das diferentesjanelas:Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 65

Caso pretenda predizer valores(banda de previsão), deveráseleccionar a opção Individual epara além dos dados originaisdeverá colocar outros valores davariável Taxa na janela dedados..Ao ter seleccionado a opçãopara guardar os valores preditosda variável Perc, serãocolocados na janela dos dadosos respectivos valores preditos,assim como os limites inferior esuperior (LICI e UICI) dointervalo de confiança deprevisão (chamada banda deprevisão… aconselha-se aosalunos a leitura dos diapositivos16, 17 e 18 dos apontamentosdo Prof. Nuno de Sousa)Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 66

Inicialmente deverá considerar que a constante faz parte darecta, ou seja do seu modelo de regressão. Mais tarde sechegar à conclusão que o modelo não deverá ter constante,repete os passos anteriores e não selecciona esta opção.Após as escolhas anteriores na regressão, à janela de dados (inicialmente com as variáveis Taxa e Perc) foramincluídas 4 colunas (tal como foi pedido na janela Linear Regression: Save): os valores preditos da percentagem nãoestandardizados(PRE_1), os resíduos não estandardizados (RES_1), os limites inferior e superior do intervalo deconfiança de previsão (LICI_1 e UICI_1).Resolvi alterar o nome das duas primeiras variáveis (alterei o nome e não o label) para respectivamente,Valores_preditos e Resíduos.5 valores originais das variáveis Taxa e Percentagem, assimcomo 4 valores de Taxa para predizer a variável PercValores preditos da percentagem,através da recta de regressãoestimada e os respectivos resíduosLimites inferior e superior (LICI eUICI) do intervalo de confiança deprevisão (chamada banda deprevisão)Realizada a análise de regressão linear simples através do SPSS/PASW obtiveram-se os seguintes outputs:média amostral x , desviopadrão amostral s edimensão da amostraElaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 67

R – coeficiente decorrelação de PearsonAo seleccionar o método Enter éanalisado o MRLS, compostopor uma única variávelindependente (taxa), seleccionadaanteriormente.|R| R 2 SEstatística de teste (ET= F) e valor de prova (Sig.) para o teste de precisão de ajustamento(H 0 : b=0 vs H 1 : b≠0).Uma vez que estamos perante a regressão linear simples, este teste é similar ao segundo teste dapróximo output (apesar das ET´s diferentes, valores de prova e conclusões semelhantes.Modelo composto pela constantee pela variável explicativaEstatísticas de teste (ET= t) e valores de prova (Sig.) para os testes de significânciaà ordenada na origem (H 0 : a=0 vs H 1 : a≠0) e ao declive da recta (H 0 : b=0 vs H 1 : b≠0)Estimativas dos coeficientes ou parâmetros de regressãoe respectivos desvios padrão: a, b, a e bIC a 95% para os coeficientesde regressão a e bElaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 68

Para que a regressão linear simples (RLS) seja válida é necessário validar os pressupostos da mesmautilizando para esse efeito a variável Resíduos obtida anteriormente pelo software.Deve escolher agora menu AnalyseDescriptive Statistics Explore e seleccionarseguintes das diferentes janelas:as opçõesObtiveram-se os seguintes outputs:H 0 : os resíduos seguem umadistribuição normal contraH 1 : resíduos não são normaisAplicação do teste Shapiro-Wilk:ET=0,865 e valor de prova=24,7%Caso os pressupostos do modelo de regressão linear sejam validados e o MRLS seja considerado um bommodelo, poderão efectuar-se previsões com os devidos cuidados (ler dispositivos 16, 17 e 18 do Prof.Nuno de Sousa), pelo que este é de facto o objectivo de uma qualquer regressão.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 69

Regressão linear múltiplaO modelo de regressão linear múltiplo (MRLM) é caracterizado por uma combinação linear de variáveis,assim apenas existe 1 variável dependente (Y) e duas ou mais variáveis independentes (designadashabitualmente por X 1 , X 2 , X 3 , … X i ).Deve proceder de modo análogo ao que foi feito na regressão linear simples, sendo que agora deveráseleccionar sempre mais do uma variável independente.Na regressão linear múltipla, o SPSS/PASW disponibiliza métodos de selecção de variáveis (Enter,Forward, Backward e Stepwise) mas nenhum deles, garantidamente, conduz ao modelo “óptimo”. Comoo estudo desta técnica não foi exaustivo nas aulas teóricas, deixo como sugestão utilizarem inicialmente ométodo Enter (utiliza todas as variáveis independentes que o utilizador indicar). Poderão experimentar osmétodos anteriormente referidos.O objectivo final é encontrar o melhor modelo que explique a variável dependente Y, para que depoispossa efectuar previsões.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 70

9. ANOVA DE FACTOR ÚNICOCom o objectivo de se fazer um estudo ecológico sobre os rios portugueses, mediu-se a concentraçãode estrôncio (g/l) em quatro cursos de água. Pensa-se que a concentração de estrôncio é afectada deforma diferente em cada um dos cursos de água. Decidiu-se testar quatro cursos de rios (Mira, Minho,Alviela e Trancão), utilizando um número distinto de observações para cada um dos rios. As 17observações que se encontram na tabela seguinte foram obtidas, por ordem aleatória, num laboratórioque mediu as seguintes concentrações de estrôncio:Cursos de água Concentração de estrôncio (g/l)Mira (1) 28,2 33,2 32,4 29,1 31,0Minho (2) 40,8 43,6 42,4 39,6Alviela (3) 46,3 49,1 48,8 43,7 40,1Trancão (4) 59,4 62,7 60,0Nas alíneas abaixo, considere um nível de significância de 10%.a) Identifique a variável de resposta (variável dependente ou variável em estudo), o factor e osrespectivos níveis desse factor (tratamentos). Apresente um modelo de análise de variânciaadequado para o planeamento em causa.b) Construa diagramas de extremos-e-quartis para os quatro cursos de água. Compare osdiagramas e comente este breve estudo descritivo.c) Comprove que os pressupostos da Anova paramétrica são validados;d) Identifique as hipóteses a testar pela ANOVA, construa a tabela de análise de variância parao planeamento referido na alínea b) e retire conclusões. Caso haja necessidade, recorra aoteste de comparações múltiplas de Tukey, para identificar quais os cursos de água quediferem entre si, relativamente à concentração de estrôncio;e) Suponha que os pressupostos da Anova paramétrica não foram validados. Opte pela Anovade postos e retire conclusões.NOTA: Este exemplo foi resolvido integralmente na aula prática, pelo que apenas obterei os output’s noSPSS/PASW para que possa responder a todas as questões do exercício.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 71

RESOLUÇÃO DO EXEMPLO DE ANÁLISE DE VARIÂNCIA:Variável dependente (ou variável em estudo) - concentração de estrôncio (g/l)Factor (único)- curso de rioNíveis ou tratamentos do factor – Mira, Minho, Alviela e TrancãoIntroduzir os dados na janela de dados doSPSS/PASW, utilizando duas colunas (o factor e avariável dependente).Atenção que os níveis do factor deverão sernúmeros, pelo que neste exemplo o factor serácomposto pelos números 1, 2, 3 e 4.No separador Variable View, na opção Values,deverá atribuir ao 1-Mira, 2-Minho, 3-Alviela e 4-Trancão; na opção Measure deverá escolherNominal.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 72

Deve escolher agora menu AnalyseDescriptive Statistics Explore e seleccionarseguintes das diferentes janelas:as opçõesDeve escolher agora menu Analyse Compare Means One-way ANOVA (ou seja a Anovaparamétrica) e escolher as opções seguintes das diferentes janelas:Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 73

Caso seja necessário optar pela Anova de postos deverá executar os seguintes passos: atribuir à variáveldependente os postos; em seguida aplicar a Anova de factor único aos postos e caso seja necessáriorecorrer ao teste de comparações múltiplas de Tukey.Menu Transform Rank Case (é criada automaticamente uma variável denominada Rconcent, poisseguido da letra R é colocado parte do nome da variável) e escolha as opções seguintes:Após esta transformação pode aplicar simplesmente a Anova de factor único como fezanteriormente, mas agora deve considerar a variável dependente os postos.Elaborado por Veneranda Inês BatalhaVersão de 15 de Janeiro de 2011 Página 74

Breve Manual do SPSS / PASW 18.0 - ESAC

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?