13.04.2013 Views

Aula 20 - Parte 01.pdf

Aula 20 - Parte 01.pdf

Aula 20 - Parte 01.pdf

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

<strong>Aula</strong> <strong>20</strong> – <strong>Parte</strong> 1<br />

ANÁLISE DE VARIÂNCIA ....................................................................................................................................... 2<br />

Hipóteses do modelo ...................................................................................................................................................... 6<br />

Somas de quadrados ...................................................................................................................................................... 7<br />

Graus de liberdade ......................................................................................................................................................... 8<br />

Distribuição de qui-quadrado e soma de quadrados ................................................................................................... 14<br />

Quadrados médios ....................................................................................................................................................... 17<br />

Distribuição F ............................................................................................................................................................... 17<br />

ANÁLISE DE VARIÂNCIA DA REGRESSÃO ...................................................................................................................... 26<br />

Somas de quadrados .................................................................................................................................................... 26<br />

Quadrados médios e estatística F ................................................................................................................................ 29<br />

Coeficiente de determinação ....................................................................................................................................... 31<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 1


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

ANÁLISE DE VARIÂNCIA<br />

1. Introdução<br />

A análise de variância serve para testarmos a hipótese de que as médias de<br />

diferentes populações são todas iguais entre si.<br />

Para termos uma primeira ideia do raciocínio empregado nesta ferramenta,<br />

vamos trabalhar com um exemplo simplificado.<br />

Estamos estudando óleos de motor para um determinado modelo de carro. No<br />

mercado há disponíveis 4 marcas diferentes de óleos. O intuito é verificar se as<br />

4 marcas de óleo permitem que os carros rodem, em média, a mesma<br />

quilometragem, antes de ser necessária a próxima troca de óleo.<br />

Obtivemos amostras para cada uma das quatro marcas. Os resultados dos<br />

estudos estão na tabela abaixo (valores em mil quilômetros):<br />

observações marca A marca B marca C marca D<br />

1ª 4,9 5,3 4,7 4,4<br />

2ª 4,7 5,2 4,2 5,0<br />

3ª 5,3 4,9 4,3 5,1<br />

4ª 4,7 4,9 4,9 4,8<br />

5ª 4,8 4,6 4,8 4,7<br />

Média 4,88 4,98 4,58 4,8<br />

A média geral, de todas as <strong>20</strong> observações acima, independente de marca, é<br />

igual a 4,81.<br />

X<br />

4,<br />

81<br />

Queremos saber se, para as quatro marcas, a média de quilometragem é a<br />

mesma. As hipóteses que vamos testar são:<br />

: H<br />

0<br />

1<br />

HA: pelo menos uma das médias é diferente das demais<br />

Observem que, de acordo com as amostras acima, as médias não são<br />

exatamente iguais. A questão é: as diferenças entre as médias são devidas<br />

apenas a fatores aleatórios? Ou as diferenças são significativas, de modo que é<br />

possível apontar que há pelo menos uma marca diferente das demais?<br />

São estas perguntas que a análise de variância tenta responder.<br />

Bom, como queremos só ter uma primeira idia, fizemos uma simplificação:<br />

todas as amostras têm tamanho 5 (num caso geral, cada amostra pode ter<br />

tamanho diferente das demais).<br />

Uma outra suposição é necessária. Vamos supor que todas as populações de<br />

2<br />

onde foram extraídas as amostras apresentam a mesma variância . Por fim,<br />

vamos supor que todas as populações apresentam distribuição normal.<br />

Vamos calcular a variância dentro de cada grupo.<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 2<br />

2<br />

3<br />

4


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

Cada observação do quadro acima pode ser representada por:<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 3<br />

X ij<br />

onde i indica varia de 1 até 4 (indicando as marcas A, B, C, D) e j varia de 1<br />

até 5 (indicando as observações feitas dentro de cada marca).<br />

A variância dentro de uma dada marca é dada por:<br />

s<br />

2<br />

i<br />

<br />

5<br />

<br />

j1<br />

X X <br />

ij<br />

5 1<br />

Como exemplo, vamos detalhar o cálculo da variância dentro da marca C (ou<br />

seja, para o caso de i 3)<br />

:<br />

5<br />

<br />

<br />

X X<br />

3 j<br />

3<br />

2<br />

2<br />

s 3 <br />

j 1<br />

5 1<br />

2<br />

2<br />

2<br />

2<br />

2<br />

( 4,<br />

7 4,<br />

58)<br />

( 4,<br />

2 4,<br />

58)<br />

( 4,<br />

3 4,<br />

58)<br />

( 4,<br />

9 4,<br />

58)<br />

( 4,<br />

8 4,<br />

58)<br />

<br />

=<br />

4<br />

0,097<br />

Fazendo cálculos semelhantes para as demais marcas, temos:<br />

Marca A B C D<br />

Variância 0,062 0,077 0,097 0,075<br />

Caso todas as marcas apresentem a mesma média, então temos:<br />

- todas elas têm distribuição normal<br />

- todas elas têm mesma variância<br />

- todas elas têm mesma média <br />

2<br />

<br />

Isto equivale a dizer que todas elas apresentam distribuição idêntica. É como<br />

se todas as observações tivessem sido extraídas de uma única população,<br />

2<br />

normal, de média e variância .<br />

Deste modo, temos, na verdade, 4 amostras da mesma população. São 4<br />

amostras de tamanho 5. Vimos na aula de estimadores que a variância da<br />

amostra (com n 1<br />

no denominador) é um estimador não-viciado da variância<br />

da população. Portanto, se tivermos várias amostras, a média de todas as<br />

variâncias amostrais deve ser bem próxima da variância da população.<br />

Assim, uma primeira estimativa da variância da população seria:<br />

Continuando.<br />

s<br />

2<br />

1<br />

s<br />

2<br />

2<br />

s<br />

4<br />

2<br />

3<br />

s<br />

2<br />

4<br />

<br />

i<br />

2<br />

0,<br />

062 0,<br />

077 0,<br />

097 0,<br />

075<br />

0,078<br />

4


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

Ainda supondo que todas as marcas apresentam a mesma média, podemos<br />

achar outra estimativa para a variância da população. Como já estudamos na<br />

aula de estimadores, a média amostral tem variância dada por:<br />

2<br />

2<br />

= X n<br />

Ou seja, as médias amostrais apresentam dispersão bem pequena, quando<br />

comparada com a dispersão da população. Se pegarmos a dispersão da<br />

população e dividirmos por n, aí obtemos a dispersão das médias amostrais. As<br />

médias amostrais estão bem concentradas.<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 4<br />

2<br />

<br />

n = X<br />

2<br />

<br />

Se multiplicarmos a variância das médias amostrais por n, aí obtemos uma<br />

estimativa para a variância populacional.<br />

Assim, podemos usar os diversos valores da média amostral para estimar a<br />

variância de X . Feito isso, multiplicamos por “n”, e obtemos outra estimativa<br />

da variância populacional.<br />

A média das médias amostrais é:<br />

Temos:<br />

X1<br />

X 2 X 3 X 4 4,<br />

88 4,<br />

98 4,<br />

58 4,<br />

8<br />

X <br />

<br />

4,81<br />

4<br />

4<br />

2<br />

2<br />

2<br />

2<br />

2 ( 4,<br />

88 4,<br />

81)<br />

( 4,<br />

98 4,<br />

81)<br />

( 4,<br />

58 4,<br />

81)<br />

( 4,<br />

8 4,<br />

81)<br />

s <br />

0,029<br />

X<br />

4 1<br />

Esta é a chamada variância entre as marcas.<br />

Como o tamanho das amostras é 5 ( n 5),<br />

a nova estimativa da variância da<br />

população é:<br />

5 0,<br />

029 0,<br />

144<br />

Obtidas estas duas estimativas da variância da população, nós dividimos uma<br />

pela outra.<br />

0,<br />

144<br />

Razão entre as estimativas: 1,<br />

85<br />

0,<br />

078<br />

E este número acima é que vai nos permitir decidir se as médias são todas<br />

iguais entre si ou não.<br />

Caso as médias sejam, efetivamente, todas iguais entre si, a razão entre as<br />

duas estimativas deveria ser bem próxima de 1. As duas estimativas deveriam<br />

coincidir (ou serem muito próximas uma da outra).<br />

Caso as estimativas não coincidam (e a razão entre elas seja bem diferente de<br />

1), isto é um sinal de que as médias das marcas de óleo são diferentes entre si<br />

(ou seja, há pelo menos uma marca diferente das demais).<br />

Por quê?


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

Se todas as marcas tiverem a mesma média, suas funções densidade de<br />

probabilidade se sobreporão (estão todas representadas pela curva em preto<br />

no gráfico abaixo).<br />

No fundo, todas as amostras podem ser consideradas como extraídas da<br />

mesma população.<br />

2<br />

2<br />

2<br />

2<br />

s1 s2<br />

s3<br />

s4<br />

Com isso, o cálculo<br />

(decorrente das variâncias dentro das<br />

4<br />

marcas) realmente vai gerar uma boa estimativa da variância da população.<br />

Já a segunda estimativa, ela é derivada da variância entre as marcas. Como<br />

as médias amostrais são pouco dispersas (ver curva verde do gráfico acima),<br />

2<br />

2<br />

s é pequeno. Multiplicando n s , obteremos uma boa estimativa para a<br />

X<br />

X<br />

variância da população. As duas estimativas serão bem próximas. A razão<br />

entre elas será quase igual a 1.<br />

Agora vamos pensar em outro caso.<br />

Se todas as marcas tiverem a mesma variância, mas tiverem médias<br />

diferentes, elas poderiam ser representadas pelo gráfico abaixo:<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 5


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

s1 s2<br />

s3<br />

s4<br />

Como todas elas apresentam a mesma variância, o cálculo<br />

4<br />

(decorrente das variâncias dentro das marcas) realmente vai gerar uma boa<br />

estimativa da variância da população.<br />

Já a segunda estimativa, baseada na variância entre as médias amostrais, ela<br />

será problemática. As médias amostrais estarão mais dispersas do que<br />

estariam caso as médias populacionais fossem todas iguais entre si. Isto fará<br />

com que a segunda estimativa, derivada da variância entre as marcas, resulte<br />

num estimador maior que aquele decorrente da variância dentro das marcas.<br />

Com isso, a razão entre as duas estimativas será bem maior que 1.<br />

Agora vamos começar a estudar a análise de variância com os nomes que<br />

geralmente aparecem nas questões. Veremos que a “razão entre as<br />

estimativas” vai corresponder, na verdade, a uma razão entre os chamados<br />

quadrados médios.<br />

Hipóteses do modelo<br />

Vamos trabalhar com um modelo mais simples (embora a análise de variância<br />

possa ser aplicada para modelos mais complexos).<br />

Temos k populações em estudo (no exemplo dado na seção anterior, k 4 ,<br />

pois eram 4 marcas diferentes). De cada população, são extraídas amostras de<br />

tamanho n i (no exemplo anterior, n1 n2<br />

n3<br />

n4<br />

n5<br />

5 - todas as amostras<br />

tinham tamanho 5).<br />

O número total de extrações feitas (incluindo todos os grupos em estudo) é N .<br />

No nosso exemplo, N <strong>20</strong> (5 extrações para cada uma das 4 marcas de óleo).<br />

Uma dada observação X ij pode ser representada assim:<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 6<br />

2<br />

2<br />

2<br />

2


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

X u<br />

ij<br />

Cada observação é igual à média da população de onde ela foi extraída, mais<br />

um erro aleatório ( u ij ). As hipóteses são:<br />

∙ os erros são variáveis aleatórias com média zero;<br />

∙ os erros são independentes entre si;<br />

∙ os erros têm variância constante, ou seja,<br />

qualquer j.<br />

∙ os erros têm distribuição normal<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 7<br />

i<br />

ij<br />

2<br />

V ( uij<br />

) , para qualquer i e<br />

Na verdade, vocês não precisam se preocupar em decorar as hipóteses acima.<br />

Elas sempre estarão implícitas na questão. O motivo pelo qual eu as mencionei<br />

é o seguinte. Pode acontecer de a questão indicar expressamente tais<br />

hipóteses. Aí o aluno poderia se assustar, pensando que a questão está<br />

pedindo alguma coisa que ele não estudou. Então, se a questão trouxer as<br />

hipóteses acima, não precisa entrar em pânico, achando que é uma coisa de<br />

outro mundo. É só fazer a análise de variância normalmente, como veremos<br />

nos tópicos a seguir.<br />

Somas de quadrados<br />

Como vimos no exemplo inicial (com as 4 marcas de óleo), o teste se baseia<br />

em cálculo da variância (entre e dentro). E a variância é resultado de uma<br />

soma de quadrados de desvios. Então, por hora, vamos focar nestas somas de<br />

quadrados de desvios.<br />

Há três somas importantes: a soma de quadrados total; a soma de quadrados<br />

dentro dos grupos (ou ainda: soma de quadrados dos resíduos); a soma de<br />

quadrados entre grupos (ou ainda: soma de quadrados de tratamentos).<br />

Seja ni o número de termos do iésimo grupo. No exemplo das marcas de óleo,<br />

para cada grupo nós tínhamos 5 observações. Ou seja:<br />

n<br />

1<br />

n n n<br />

2<br />

A soma dos quadrados dos resíduos (ou ainda, dentro dos grupos) é definida<br />

por:<br />

s SQ Re<br />

k<br />

3<br />

ni<br />

<br />

i1<br />

j1<br />

X (<br />

4<br />

ij<br />

5<br />

X )<br />

Ou seja, tomamos todas as observações e subtraímos da média do respectivo<br />

grupo. Elevamos ao quadrado. Depois somamos tudo.<br />

Para o exemplo das marcas de óleo, ficaríamos com:<br />

i<br />

2


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

2<br />

2<br />

2<br />

2<br />

2<br />

SQRe<br />

s ( 4,<br />

9 4,<br />

88)<br />

( 4,<br />

7 4,<br />

88)<br />

( 5,<br />

3 4,<br />

88)<br />

( 4,<br />

7 4,<br />

88)<br />

( 4,<br />

8 4,<br />

88)<br />

...<br />

<br />

<br />

2<br />

2<br />

2<br />

2<br />

( 4,<br />

4<br />

4,<br />

8)<br />

( 5<br />

4,<br />

8)<br />

( 5,<br />

1<br />

4,<br />

8)<br />

( 4,<br />

8<br />

4,<br />

8)<br />

( 4,<br />

7 <br />

SQ Re s 1,<br />

244<br />

A soma dos quadrados de tratamentos (ou ainda, entre os grupos) é dada<br />

por:<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 8<br />

ni<br />

2<br />

SQTrat ( X X ) n<br />

<br />

i1<br />

Lembrando que X i é a média de cada uma das 5 amostras (para 1 i , por<br />

i<br />

i<br />

4,<br />

8)<br />

exemplo, temos X 4,<br />

88 , que é a média para a amostra da marca A).<br />

1 <br />

E X é a média de todos os valores, é a média geral de todas as observações,<br />

independente de marca. No exemplo das marcas de óleo, X 4,<br />

81.<br />

O cálculo da soma de quadrados de tratamentos é dado por:<br />

2<br />

2<br />

2<br />

2<br />

SQTrat ( 4,<br />

88 4,<br />

81)<br />

5<br />

( 4,<br />

98 4,<br />

81)<br />

5<br />

( 4,<br />

58 4,<br />

81)<br />

5<br />

( 4,<br />

8 4,<br />

81)<br />

5<br />

A soma de quadrados total é dada por:<br />

SQTotal<br />

SQTrat 0,<br />

434<br />

k<br />

ni<br />

<br />

i1<br />

j1<br />

X (<br />

ij<br />

X )<br />

Tomamos cada observação e subtraímos da média geral. Elevamos ao<br />

quadrado e somamos tudo. Para o exemplo que temos trabalhado, ficamos<br />

com:<br />

2<br />

2<br />

2<br />

2<br />

SQTotal ( 4,<br />

9 4,<br />

81)<br />

( 4,<br />

7 4,<br />

81)<br />

...<br />

( 4,<br />

8 4,<br />

81)<br />

( 4,<br />

7 4,<br />

81)<br />

= 1,678<br />

Observem que:<br />

Isto sempre acontece.<br />

Graus de liberdade<br />

SQTotal SQRe<br />

s SQTrat<br />

Vamos interromper um pouco a matéria que estamos estudando (análise de<br />

variância). Vamos falar um pouco sobre graus de liberdade. Utilizamos esta<br />

expressão em aulas anteriores, sem falar exatamente do que se trata.<br />

Bem, o grau de liberdade nada mais é que um parâmetro que entra no cálculo<br />

da função gama. É uma função importante. A partir dela é que são construídas<br />

as funções densidade de probabilidade para diversas distribuições de<br />

probabilidade importantes (como T, qui-quadrado, F).<br />

2<br />

2


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

Só que indicar para vocês qual é a função gama e, dentro dela, qual é o<br />

parâmetro que corresponde ao número de graus de liberdade, não vai ajudar<br />

em nada a entender melhor o que é esse grau de liberdade.<br />

Creio eu, deve haver alguma explicação “geométrica” para o número de graus<br />

de liberdade. Para quem já estudou cálculo, estou pensando em alguma coisa<br />

análoga à explicação de derivada e integral por meio de inclinações de reta e<br />

áreas abaixo da curva. Explicações utilizando geometria são mais fáceis para<br />

assimilarmos.<br />

Em todas as vezes que vimos os graus de liberdade, havia uma soma de<br />

quadrados de desvios. A quantidade de graus de liberdade será igual à<br />

quantidade de termos independentes que estamos somando.<br />

A primeira vez que vimos o grau de liberdade foi com a distribuição T. Vimos<br />

<br />

que X tem média e desvio padrão .<br />

n<br />

Quando desconhecemos o desvio-padrão da população, substituímos por s<br />

(desvio padrão da amostra).<br />

Para cálculo de s 2 , fazemos assim:<br />

s<br />

2<br />

<br />

n<br />

<br />

i1<br />

X X <br />

n 1<br />

No denominador temos um número, uma constante, algo que não varia. No<br />

numerador, temos uma soma de n quadrados de desvios, que podem variar de<br />

uma amostra para outra. É este fator que é aleatório. Vamos nos concentrar<br />

nele.<br />

Numerador:<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 9<br />

i<br />

2<br />

2<br />

2<br />

2<br />

( X1 X ) ( X 2 X ) ( X 3 X ) ...<br />

( X n1<br />

X ) X n X<br />

Qual a referência para o cálculo dos desvios? É a média aritmética.<br />

Pois bem, vamos supor que a gente conhece justamente a média aritmética.<br />

Conhecemos a média aritmética da amostra, mas não conhecemos os valores<br />

observados. Ou ainda: a média da amostra é dada.<br />

Quanto aos valores de cada uma das observações, este nós não conhecemos.<br />

Fixada a média da amostra, vamos considerar que a gente é livre para<br />

estabelecer quaisquer valores para as observações e, com isso, calcular o valor<br />

do desvio ao quadrado, que entra na fórmula do numerador.<br />

Assim, nós somos livres para escolher o valor de X1 (e, com isso, determinar o<br />

2<br />

valor de ( X1 X ) ). Nós também somos livres para escolher o valor de X2. E<br />

assim por diante.<br />

Neste processo, nós seríamos livres para escolher os valores de n 1<br />

observações. Nós seríamos livres para escolher os valores de X 1,<br />

X 2 , ..., X n1<br />

.<br />

2<br />

)<br />

2


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

Já o valor de Xn, este nós não temos liberdade para escolher. Escolhidas todas<br />

as demais observações ( X 1,<br />

X 2 , ..., X n1<br />

), só existe um único valor de Xn que<br />

faz com que a média da amostra seja igual ao valor fixado para X .<br />

Ou seja, nossa liberdade se restringiu a n 1<br />

desvios ao quadrado. O último<br />

desvio ao quadrado não pode ser livremente escolhido. Portanto, são n 1<br />

graus de liberdade.<br />

A segunda vez que vimos os graus de liberdade foi com a distribuição de quiquadrado.<br />

Ela é dada por:<br />

2 ( n 1)<br />

s<br />

2<br />

<br />

No denominador, temos a variância da população. Ela é um número, uma<br />

constante, algo fixo, que não varia.<br />

No numerador, temos duas parcelas. A primeira é ( n 1)<br />

, que também é um<br />

número fixo (é o tamanho da amostra menos 1).<br />

O outro fator, ele sim varia. Trata-se da variância amostral. É a variância de<br />

uma determinada amostra. Se pensarmos em todas as amostras possíveis, em<br />

2<br />

2<br />

( n 1)<br />

s<br />

cada uma delas s assume um valor diferente. É este fator que torna 2<br />

<br />

uma variável aleatória, que faz esta expressão variar. Vamos portanto, nos<br />

concentrar neste termo.<br />

Novamente, temos a variância amostral (s 2 ), que advém da soma de n desvios<br />

ao quadrado.<br />

Fixada uma determinada média amostral, poderemos escolher livremente o<br />

valor de n 1<br />

desvios. O último desvio, este não pode ser livremente escolhido.<br />

Só há um valor possível para ele, de tal modo que a média das observações<br />

seja igual a uma dada média amostral. Temos, novamente, n 1<br />

graus de<br />

liberdade.<br />

A terceira vez que estudamos graus de liberdade foi no teste de qui-quadrado<br />

para várias proporções.<br />

2<br />

( Oi<br />

Ei<br />

)<br />

A estatística teste era dada pela soma de todos os valores de<br />

. Agora<br />

Ei<br />

os desvios são calculados em relação às freqüências esperadas.<br />

Pergunta: qual a referência para cálculo dos desvios?<br />

A referência são as frequências esperadas. Pois então vamos supor que as<br />

frequências esperadas são dadas e que nós somos livres para escolher as<br />

frequências observadas (determinando, assim, o valor do desvio). Quantas<br />

frequências observadas nós podemos escolher livremente?<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 10<br />

2


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

Vejamos um exemplo:<br />

No curso A, havia 100 candidatos inscritos em um concurso. No curso B<br />

também havia 100 candidatos inscritos neste concurso. Foram aprovados 140<br />

candidatos destes <strong>20</strong>0 alunos. Os 60 restantes foram reprovados. Calcule a<br />

estatística teste para testar a hipótese de que a proporção de aprovados nos<br />

dois cursos é a mesma.<br />

Este problema não tem resposta. Isto porque não foram fornecidas as<br />

freqüências observadas dentro de cada curso. Mas não tem problema. Nosso<br />

interesse aqui não será achar exatamente o valor da estatística teste; sim<br />

determinar o número de graus de liberdade.<br />

Agora nós só conhecemos os totais da amostra.<br />

Do total de alunos (incluindo tanto o curso A quanto B), 140 foram aprovados<br />

e 60 foram reprovados. Sabemos ainda que há 100 alunos em cada curso.<br />

Sabendo apenas os totais (ou seja, o total de aprovados, o total de<br />

reprovados, e o total de alunos em cada curso), podemos determinar as<br />

freqüências esperadas, caso a hipótese nula seja verdadeira:<br />

curso A curso B<br />

Freqüênci<br />

a<br />

esperada<br />

Freqüência<br />

esperada<br />

Total<br />

Aprovados 70 70 140<br />

Reprovados 30 30 60<br />

Total 100 100 <strong>20</strong>0<br />

Os números em vermelho indicam os totais. São esses números que a gente<br />

conhece.<br />

Se a hipótese nula for verdadeira, esperamos que a proporção de aprovados e<br />

reprovados, em cada curso, seja igual à proporção geral, tomando os dois<br />

cursos em conjunto.<br />

Ou seja, conhecer os valores totais é o mesmo que conhecer as frequências<br />

esperadas. E vice-versa.<br />

Agora vamos para as freqüências observadas.<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 11


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

curso A curso B<br />

Freqüência<br />

observada<br />

Freqüência<br />

observada<br />

Total<br />

Aprovados ? ? 140<br />

Reprovados ? ? 60<br />

Total 100 100 <strong>20</strong>0<br />

As freqüências observadas não foram informadas. Vamos considerar que<br />

somos livres para preenchê-las. Ou seja, no fundo estamos considerando que<br />

2<br />

( Oi<br />

Ei<br />

)<br />

somos livres para determinar os valores de cada .<br />

E<br />

Vamos preencher a primeira célula com o número 80. Por quê? Porque somos<br />

livres para escolher qualquer número, então vamos escolher o número 80.<br />

curso A curso B<br />

Freqüência<br />

observada<br />

Freqüência<br />

observada<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 12<br />

i<br />

Total<br />

Aprovados 80 ? 140<br />

Reprovados ? ? 60<br />

Total 100 100 <strong>20</strong>0<br />

E esta foi a única célula que poderíamos preencher livremente. As demais não<br />

podem mais ser preenchidas livremente.<br />

Para que o total de alunos aprovados seja de 140, a segunda célula deve ser<br />

igual a 60.<br />

curso A curso B<br />

Freqüência<br />

observada<br />

Freqüência<br />

observada<br />

Total<br />

Aprovados 80 60 140<br />

Reprovados ? ? 60<br />

Total 100 100 <strong>20</strong>0


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

Para que o total de alunos do curso A seja igual a 100, a terceira célula deve<br />

ser preenchida com <strong>20</strong>.<br />

curso A curso B<br />

Freqüência<br />

observada<br />

Freqüência<br />

observada<br />

Total<br />

Aprovados 80 60 140<br />

Reprovados <strong>20</strong> ? 60<br />

Total 100 100 <strong>20</strong>0<br />

Para que o total do curso B seja igual a 100 e o total de reprovados seja 60, a<br />

quarta célula deve ser igual a 40.<br />

curso A curso B<br />

Freqüência<br />

observada<br />

Freqüência<br />

observada<br />

Total<br />

Aprovados 80 60 140<br />

Reprovados <strong>20</strong> 40 60<br />

Total 100 100 <strong>20</strong>0<br />

Nós só fomos livres para preencher 1 célula. Por isso, temos 1 grau de<br />

liberdade.<br />

Assim, quando formos calcular a soma dos valores<br />

( O E )<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 13<br />

i<br />

E<br />

i<br />

i<br />

2<br />

, nós podemos<br />

escolher livremente 1 deles. Os demais, estes não serão livremente escolhidos.<br />

Generalizando, para um caso qualquer com várias proporções, o número de<br />

graus de liberdade será sempre igual a ( L 1) (<br />

C 1)<br />

.<br />

Nos problemas em que o número de linhas ou de colunas for igual a 1, aí a<br />

gente não faz a subtração por 1.<br />

Resumindo tudo: o que fica da “história” é que os graus de liberdade têm<br />

relação com a quantidade de termos que podemos escolher livremente.


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

Distribuição de qui-quadrado e soma de quadrados<br />

Seja X uma variável aleatória, com média e variância<br />

2<br />

. Seja<br />

2<br />

s o<br />

estimador da variância populacional, baseado em uma amostra aleatória de<br />

2<br />

( n 1)<br />

s<br />

tamanho n. Vimos que 2<br />

<br />

graus de liberdade.<br />

tem distribuição de qui-quadrado com n 1<br />

Vamos analisar com calma esta expressão.<br />

2 ( n 1)<br />

s<br />

2<br />

<br />

E como é que se calcula uma variância amostral? Bom, o primeiro passo é<br />

calcular a soma dos quadrados dos desvios em relação à média da amostra.<br />

Fica assim:<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 14<br />

2<br />

X X <br />

2<br />

s<br />

i<br />

<br />

1<br />

n 1<br />

Voltemos à variável de qui-quadrado em estudo. Ela é dada por:<br />

Substituindo o valor de s 2 :<br />

2<br />

<br />

n<br />

<br />

<br />

2 ( n 1)<br />

s<br />

2<br />

<br />

<br />

n<br />

<br />

i1<br />

i<br />

2<br />

2<br />

X X <br />

No numerador temos uma soma de quadrados dos desvios.<br />

Então é isso que eu queria chamar a atenção, para facilitar a memorização.<br />

Somas de quadrados de desvios podem ser usadas para gerar distribuições de<br />

qui-quadrado. Basta dividir a soma de quadrado dos desvios pela variância da<br />

população.<br />

Finalmente, voltemos para a matéria de hoje (análise de variância). Se a<br />

hipótese nula for verdadeira (ou seja, se todas as marcas de óleo tiverem a<br />

mesma média), então todas as somas de quadrados de desvios que estudamos<br />

nesta aula podem ser usadas para gerar distribuições de qui-quadrado. Assim:<br />

SQ Re s<br />

<br />

∙ 2<br />

i<br />

2<br />

<br />

tem distribuição de qui-quadrado.<br />

SQTrat<br />

∙ tem distribuição de qui-quadrado.<br />

2<br />

<br />

2


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

SQTotal<br />

∙ tem distribuição de qui-quadrado.<br />

2<br />

<br />

Cada uma destas distribuições tem um certo grau de liberdade. Os graus de<br />

liberdade são:<br />

SQ Re s<br />

<br />

∙ 2<br />

∙ 2<br />

<br />

∙ 2<br />

<br />

: N k<br />

SQTrat<br />

: k 1<br />

SQTotal<br />

: N 1<br />

Observem que:<br />

( N k)<br />

( k 1)<br />

N 1<br />

Ou seja, se somarmos os graus de liberdade para os resíduos e para os<br />

tratamentos, chegamos ao grau de liberdade total.<br />

Vamos tentar memorizar os graus de liberdade. Para tanto, vamos lembrar da<br />

“história” que contamos lá na fl. 8.<br />

No cálculo da soma de quadrados total, pegamos cada observação e<br />

subtraímos da média geral. Depois elevamos ao quadrado. Como são N<br />

observações, são N desvios ao quadrado.<br />

Vamos considerar que X é dado.<br />

Podemos escolher livremente N 1<br />

desvios. O último, este não pode ser<br />

livremente escolhido. Só há um valor possível para ele, de tal modo que a<br />

média geral da amostra seja igual ao valor fixado para X<br />

No cálculo da soma de quadrados de tratamentos, pegamos a média de cada<br />

grupo (no nosso exemplo, seria a média de cada uma das 4 marcas de óleo) e<br />

subtraímos da média geral. Novamente, vamos supor que X é dado.<br />

São k desvios ao quadrado (neste exemplo, k 4 ). Veja:<br />

2<br />

2<br />

2<br />

2<br />

SQTrat ( 4,<br />

88 4,<br />

81)<br />

5<br />

( 4,<br />

98 4,<br />

81)<br />

5<br />

( 4,<br />

58 4,<br />

81)<br />

5<br />

( 4,<br />

8 4,<br />

81)<br />

5<br />

Em símbolos:<br />

SQTrat <br />

<br />

2<br />

2<br />

2<br />

2<br />

( X1<br />

X ) n1<br />

( X 2 X ) n2<br />

( X 3 X ) n3<br />

( X 4 X ) n4<br />

Se não conhecêssemos as médias de cada grupo (só soubéssemos a média<br />

geral das 4 marcas), poderíamos escolher livremente 3 desvios. O último, este<br />

não poderia ser escolhido. Para ele só haveria um valor possível, de tal forma<br />

que a média das 4 marcas seja igual à média geral fixada. Temos, portanto,<br />

k 1<br />

graus de liberdade.<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 15


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

Por fim, no cálculo da soma de quadrados dos resíduos, tomamos cada<br />

observação e subtraímos da média do respectivo grupo. São N desvios ao<br />

quadrado.<br />

Se soubéssemos apenas as médias de cada grupo (ou seja, as médias de cada<br />

marca), e não conhecêssemos o valor de cada observação, poderíamos<br />

escolher livremente diversos desvios.<br />

Para a marca A, teríamos:<br />

2<br />

2<br />

2<br />

2<br />

( X X ) ( X X ) ( X X ) ( X X ) ( X X )<br />

11<br />

1<br />

12<br />

1<br />

13<br />

Se não conhecemos as observações, apenas a média da marca A, poderíamos<br />

escolher livremente 4 desvios. O quinto não pode escolher livremente. Só há<br />

um valor possível para ele, de tal modo que a média da marca A seja igual ao<br />

valor estabelecido.<br />

O mesmo ocorre para todas as demais marcas. Em cada uma delas, 1 dos<br />

desvios não pode ser livremente escolhido.<br />

Assim, o número de graus de liberdade é igual a N k . São N desvios ao todo.<br />

Para cada grupo, 1 desvio não pode ser livremente escolhido. Como temos k<br />

grupos, temos k desvios que não podem ser livremente escolhidos.<br />

Todo esse blá blá blá que temos visto desde a fl. 8 (a historinha dos graus de<br />

liberdade e das somas de quadrado sendo relacionadas com distribuições de<br />

qui-quadrado), tudo isso era para facilitar na memorização do resumo abaixo.<br />

Se você não gostou de toda essa conversa, pelo menos decore o quadro a<br />

seguir:<br />

Caso a hipótese nula seja verdadeira (ou seja, todos os grupos<br />

apresentem a mesma média), então:<br />

SQ Re s<br />

tem distribuição de qui-quadrado com N k graus de liberdade<br />

2<br />

<br />

SQTrat<br />

tem distribuição de qui-quadrado com k 1<br />

graus de liberdade<br />

2<br />

<br />

SQTotal<br />

tem distribuição de qui-quadrado com N 1<br />

graus de liberdade<br />

2<br />

<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 16<br />

1<br />

14<br />

1<br />

15<br />

1<br />

2


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

Quadrados médios<br />

Quando dividimos uma soma de quadrados pelo respectivo número de graus<br />

de liberdade, obtemos os chamados “quadrados médios”.<br />

O quadrado médio dos resíduos fica:<br />

SQ Re s<br />

QM Re s <br />

N k<br />

Analogamente, os quadrados médios de tratamento e total ficam:<br />

Distribuição F<br />

Seja<br />

2<br />

1<br />

SQTrat<br />

QMTrat <br />

k 1<br />

SQTotal<br />

QMTotal <br />

N 1<br />

uma variável aleatória com distribuição de qui-quadrado com g1 graus<br />

2<br />

de liberdade. Seja 2 uma variável aleatória com distribuição de qui-quadrado<br />

com g2 graus de liberdade.<br />

Vamos criar a seguinte variável:<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 17<br />

2<br />

1<br />

2<br />

2<br />

/ g1<br />

W <br />

/ g<br />

No numerador temos uma variável de qui-quadrado dividida pelo seu número<br />

de graus de liberdade.<br />

No denominador, temos uma variável de qui-quadrado dividida pelo seu<br />

número de graus de liberdade.<br />

Essa divisão gera uma terceira variável, com distribuição F (ou ainda: F de<br />

Snedecor). Esta variável W possui g1 graus de liberdade associados ao seu<br />

numerador e g2 graus de liberdade associados ao seu denominador.<br />

Portanto, a razão:<br />

2<br />

QMTrat<br />

F <br />

QM Re s<br />

Tem distribuição F de Snedecor, com k 1<br />

graus de liberdade no numerador e<br />

N k graus de liberdade no denominador. Esta razão é utilizada para testar a<br />

hipótese nula, de que todas as populações têm a mesma média (no nosso<br />

exemplo, de que todas as marcas de óleo permitem a mesma quilometragem<br />

média).<br />

Caso a hipótese nula seja verdadeira, os dois quadrados médios serão<br />

próximos, e a razão será próxima de 1.<br />

Caso a hipótese nula seja falsa, os dois quadrados médios serão bem<br />

diferentes entre si, e a razão acima será bem maior que 1.


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

Então o teste é apenas isso. Basta calcular os valores de QMTrat e QM Re s ,<br />

específicos para o experimento feito, o que vai gerar a estatística teste (<br />

F _ teste , ou seja, o valor de F para o experimento feito).<br />

Depois consultamos a tabela da distribuição F (obtendo F _ crítico ). Depois,<br />

basta comparar a estatística teste com o valor crítico. Se a estatística teste for<br />

maior que o valor crítico, rejeitamos a hipótese nula. Se for menor, aceitamos<br />

a hipótese nula.<br />

QMTrat<br />

QM Re s<br />

o que vai gerar a estatística teste ( F _ teste ).<br />

Se F _teste F _ critico , rejeitamos a hipótese nula.<br />

Se F _teste F _ critico , aceitamos a hipótese nula.<br />

1. MP RO <strong>20</strong>05 [CESGRANRIO]<br />

QMTrat e QM Re s ,<br />

Se X1, X2, ... Xn, Y1, Y2, ... Yn são variáveis aleatórias independentes e com<br />

2 2<br />

2<br />

X 1 X 2 ... X n<br />

distribuição normal reduzida, então a variável aleatória W 2 2<br />

2<br />

Y Y ... Y<br />

tem distribuição:<br />

(A) normal.<br />

(B) qui-quadrado com n - 1 graus de liberdade.<br />

(C) t de Student com n graus de liberdade.<br />

(D) F com (n -1, n -1) graus de liberdade.<br />

(E) F com (n, n) graus de liberdade.<br />

Resolução.<br />

Podemos reescrever a variável W deste modo:<br />

W<br />

<br />

2 2<br />

2<br />

X 1 X 2 ... X n /<br />

2 2<br />

2<br />

Y Y ... Y / n<br />

1<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 18<br />

2<br />

No numerador temos uma distribuição de qui-quadrado com n graus de<br />

liberdade, dividida por n. Idem para o denominador.<br />

Logo, W tem distribuição F com (n, n) graus de liberdade.<br />

Gabarito: E<br />

n<br />

n<br />

1<br />

2<br />

n


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

2. TCE RO <strong>20</strong>07 [CESGRANRIO]<br />

Se X1, X2, ..., Xn, Y1, Y2, ..., Yn são variáveis aleatórias independentes e com<br />

2 2<br />

2<br />

X 1 X 2 ... X n<br />

distribuição normal reduzida, então a variável aleatória W 2 2<br />

2<br />

Y Y ... Y<br />

tem distribuição:<br />

(A) normal.<br />

(B) qui-quadrado com n - 1 graus de liberdade.<br />

(C) t de Student com n graus de liberdade.<br />

(D) F com (n - 1, n - 1) graus de liberdade.<br />

(E) F com (n, n) graus de liberdade.<br />

Resolução.<br />

Questão idêntica à anterior.<br />

Gabarito: E<br />

Exemplo 1. Para o exemplo das quatro marcas de óleo, trabalhadas<br />

durante a aula, teste a hipótese de que as médias são iguais, contra a<br />

hipótese alternativa de que há pelo menos uma média diferente das<br />

demais. Utilize um nível de significância de 10%.<br />

Resolução.<br />

Podemos juntar todos os cálculos já realizados durante a aula em uma tabela,<br />

assim:<br />

Fonte da<br />

variação<br />

Tratamentos<br />

(entre)<br />

Resíduos<br />

(dentro)<br />

Graus de<br />

liberdade<br />

Soma de<br />

quadrados<br />

Quadrado<br />

médio<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 19<br />

1<br />

2<br />

F _ teste<br />

3 0,434 0,145 1,858974<br />

16 1,244 0,078<br />

Total 19 1,678<br />

Os quadrados médios foram obtidos pela divisão entre a soma de quadrados e<br />

o número de graus de liberdade.<br />

n


Ou seja:<br />

RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

0,<br />

434<br />

QMTrat 0,<br />

145<br />

3<br />

Em vez de utilizar a expressão “tratamento”, o exercício pode se referir à<br />

variação entre tratamentos. Ou seja, o símbolo seria QM _ entre<br />

QMTrat QM _ entre 0,<br />

145<br />

Para o quadrado médio de resídulos (dentro), a conta é análoga:<br />

1,<br />

244<br />

QM Re s QM _ dentro <br />

16<br />

0,<br />

078<br />

Estes dois quadrados médios são utilizados para fazer o teste F.<br />

QMTrat QM _ entre 0,<br />

145<br />

F _ teste <br />

1,8589<br />

QM Re s QM _ dentro 0,<br />

078<br />

A razão entre os quadrados foi de 1,8589. Foi diferente de 1.<br />

Caso a razão seja bem próxima de 1, aceitamos a hipótese nula. Caso a razão<br />

seja bem afastada de 1, rejeitamos a hipótese nula.<br />

E agora?<br />

O número 1,8589 é próximo ou afastado de 1?<br />

Bem, o que vai nos responder isso é a tabela da distribuição F. Abaixo segue<br />

um trechinho da Tabela F para nível de confiança de 10%.<br />

Fornece valores críticos (F0), tal que ( 0) 10%<br />

F F P<br />

Número de GL do numerador<br />

Número GL<br />

denominador<br />

2 3 4 5<br />

15 2,695172932 2,489787735 2,361433116 2,273022447<br />

16 2,668171457 2,461810755 2,332744869 2,243757603<br />

17 2,644638468 2,437433917 2,307747133 2,218252647<br />

18 2,623946985 2,416005381 2,285771772 2,195827465<br />

19 2,605612364 2,397021508 2,266302568 2,175956494<br />

<strong>20</strong> 2,589254118 2,380087057 2,248934402 2,158227217<br />

A estatística teste (1,8589) é menor que o valor crítico (2,46). Aceitamos a<br />

hipótese nula.<br />

Para melhor visualização, segue desenho da função densidade de<br />

probabilidade, para (3, 16) graus de liberdade.<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br <strong>20</strong>


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

De acordo com a tabela para a distribuição F, temos que a área amarela da<br />

figura abaixo é de 10%.<br />

Que é a região crítica. A estatística teste não caiu na região crítica. Portanto,<br />

aceitamos a hipótese nula.<br />

3. PETROBRAS <strong>20</strong>08/2 [CESGRANRIO]<br />

Dividem-se aleatoriamente 12 lotes de terra em três grupos.<br />

O primeiro é mantido como grupo de controle (C), enquanto os outros dois<br />

recebem os fertilizantes A e B. A tabela abaixo apresenta a ANOVA parcial do<br />

experimento.<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 21


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

Então, as constantes a, b e c são, respectiva e aproximadamente, iguais a<br />

(A) 1, 11 e 4,5<br />

(B) 1, 11 e 9<br />

(C) 2, 11 e 9<br />

(D) 2, 12 e 2<br />

(E) 3, 12 e 3<br />

Resolução.<br />

O exercício forneceu direto a tabela da análise de variância, já com todas as<br />

contas prontas.<br />

SQ indica “soma de quadrados”. GL indica “graus de liberdade”. EQM indica<br />

“erro quadrático médio” (que é sinônimo de quadrado médio).<br />

Queremos testar se os três tipos de produção (com fertilizantes A e B, mais o<br />

grupo de controle, C) apresentam os mesmos resultados. O exercício não<br />

indicou exatamente o que se está comparando. Poderia, por exemplo, ser a<br />

quantidade de toneladas produzidas por determinada área plantada.<br />

Ao todo, são 12 observações (uma para cada lote de terra). Portanto:<br />

N 12 N 1<br />

11<br />

A soma de quadrados total tem N 1<br />

graus de liberdade. Logo, a constante b<br />

da tabela é igual a 11.<br />

b 11<br />

O número de graus de liberdade associado à soma de quadrados total é igual à<br />

soma dos demais graus de liberdade.<br />

a 9 b<br />

a 9 11<br />

a 2<br />

Com isso, já dá para marcar letra C.<br />

Por fim, a estatística teste fica:<br />

156<br />

F _ teste c 9,02<br />

17,<br />

3<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 22


Gabarito: C<br />

RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

Considere a descrição abaixo para responder as próximas questões.<br />

Um estudo pretende comparar as medidas de pressão sanguínea sistólica de<br />

três grupos: não fumantes, ex-fumantes e fumantes. Uma amostra é<br />

selecionada de cada grupo, sendo os dados relevantes apresentados abaixo.<br />

Supõe-se que as variâncias populacionais sejam iguais, e que a pressão<br />

sanguínea sistólica seja normalmente distribuída. As médias e os desvios<br />

padrões estão expressos em mmHg.<br />

4. FUNASA <strong>20</strong>09 [CESGRANRIO]<br />

As estimativas da variância dentro dos grupos e entre os grupos, são,<br />

respectivamente,<br />

Resolução<br />

Temos um total de 100 observações ( N 100<br />

), referentes a três grupos<br />

pesquisados ( k 3)<br />

A média geral dos três grupos é dada por:<br />

115<br />

60 114<br />

30 11810<br />

X <br />

115<br />

100<br />

A soma de quadrados entre os grupos é dada por:<br />

SQ _ entre 60<br />

( 115 115)<br />

2<br />

30<br />

( 114 115)<br />

10<br />

( 118 115)<br />

Esta soma de quadrados possui k 1<br />

graus de liberdade.<br />

k<br />

1<br />

31<br />

2<br />

1<strong>20</strong><br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 23<br />

2<br />

2


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

Logo, o quadrado médio fica:<br />

1<strong>20</strong><br />

QM _ entre <br />

2<br />

Vamos agora calcular a soma de quadrados dentro dos grupos. Para tanto,<br />

precisamos, em cada grupo, calcular a soma dos quadrados dos desvios em<br />

relação à média do grupo.<br />

Para os não-fumantes, sabemos que a variância é igual a 14 2 . E como foi<br />

calculada esta variância? Ela foi calculada somando os quadrados dos desvios e<br />

dividindo por 59. Logo, a soma dos quadrados dos desvios, para o grupo dos<br />

não-fumantes, é igual a 14 59<br />

2 .<br />

Como o mesmo raciocínio, podemos achar as somas dos quadrados dos<br />

desvios para os demais grupos. Com isso, temos:<br />

SQ _ dentro 14<br />

2<br />

59<br />

10<br />

29 12<br />

Esta soma de quadrados tem N k graus de liberdade.<br />

Logo:<br />

Gabarito: E<br />

N k 100<br />

3 97<br />

15760<br />

QM _ dentro <br />

97<br />

9<br />

15760<br />

5. FUNASA <strong>20</strong>09 [CESGRANRIO]<br />

Utilizando um nível de significância de 5%, a Estatística F, as pressões<br />

sanguíneas médias nos três grupos e o valor crítico são, respectivamente,<br />

Resolução.<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 24<br />

2<br />

2


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

Estatística teste:<br />

QM _ entre 1<strong>20</strong> / 2 60<br />

97<br />

F _ teste <br />

0,37<br />

QM _ dentro 15760 / 97 15760<br />

Consultando a tabela colocada ao final do arquivo (para um nível de<br />

significância de 5%), temos um pequeno problema. Há uma coluna para 2<br />

graus de liberdade no numerador. Mas não há uma linha para 97 graus de<br />

liberdade no denominador.<br />

O valor mais próximo é 1<strong>20</strong> graus de liberdade. Logo, o valor crítico deve estar<br />

próximo de 3,07. A própria questão faz esta aproximação, pois traz, em todas<br />

as alternativas, o valor 3,07.<br />

Assim, concluímos que a região crítica corresponde ao intervalo de 3,07 até<br />

infinito.<br />

A estatística teste cai na região de aceitação. Aceitamos a hipótese de que as<br />

médias nos três grupos são iguais entre si.<br />

Gabarito: A<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 25


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

ANÁLISE DE VARIÂNCIA DA REGRESSÃO<br />

Um teste de hipóteses muito comum é aquele que testa a hipótese nula de que<br />

o coeficiente da reta de regressão é nulo. Caso a hipótese nula seja<br />

verdadeira, temos que a reta de regressão é horizontal.<br />

Relembrando o significado da reta de regressão. Para cada valor de X nós<br />

temos uma sub-população de valores de Y, com média dada pela reta de<br />

2<br />

regressão e variância .<br />

Se a reta é horizontal, então todas as sub-populações terão a mesma média.<br />

Nós vimos uma ferramenta para testar se a média de diferentes populações<br />

são iguais entre si. Esta ferramenta era a análise de variância.<br />

Como testar a hipótese de ser igual a zero equivale a testar a hipótese de as<br />

varais populações têm a mesma média, então podemos usar a análise de<br />

variância para isso. Vamos ver como fica.<br />

Somas de quadrados<br />

Quando utilizamos a regressão linear, obtemos i Yˆ , que é uma estimativa para<br />

Y . A diferença entre estas duas grandezas é o desvio.<br />

Rearranjando os termos:<br />

Subtraindo Y dos dois lados:<br />

Elevando ao quadrado:<br />

e<br />

i<br />

i<br />

Y Yˆ<br />

Y e Yˆ<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 26<br />

i<br />

i<br />

Y<br />

e Yˆ<br />

Y<br />

Yi i i<br />

2<br />

2<br />

Y<br />

e Yˆ<br />

Y<br />

Yi i i<br />

2 2<br />

2<br />

Y<br />

e Yˆ Y<br />

2<br />

e Yˆ Y<br />

<br />

Yi i i<br />

i i<br />

Somando as parcelas acima para todos os valores de i:<br />

<br />

2<br />

2<br />

2<br />

Y e Yˆ Y<br />

2<br />

e Yˆ Y<br />

<br />

<br />

<br />

i<br />

i<br />

<br />

Yi i<br />

i<br />

i i


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

<br />

É possível demonstrar que [ Y Y<br />

] 0<br />

Portanto:<br />

<br />

ˆ<br />

ei i<br />

2<br />

2<br />

Y<br />

e Yˆ Y<br />

<br />

<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 27<br />

.<br />

<br />

Yi i<br />

i<br />

E o que é que temos aí em cima? Temos somas de quadrados.<br />

Cada uma destas parcelas recebe um nome especial:<br />

<br />

2<br />

Y<br />

<br />

Y i<br />

2<br />

i<br />

<br />

soma de quadrados total (S.Q.Total)<br />

e soma de quadrados dos resíduos (S.Q.Resíduos)<br />

2<br />

ˆ Y<br />

<br />

Yi soma de quadrados do modelo de regressão (S.Q.Regressão) –<br />

corresponde à Soma de quadrado de tratamentos.<br />

Portanto:<br />

É possível demonstrar que:<br />

SQTotal SQRe<br />

gressao SQRe<br />

siduos<br />

SQ Re gressao<br />

<br />

X X Y <br />

b<br />

Y<br />

Onde b é a estimativa do coeficiente angular da reta de regressão.<br />

Resumo das somas de quadrados<br />

SQ Re<br />

gressao<br />

<br />

SQTotal SQRe<br />

gressao SQRe<br />

siduos<br />

X X Y <br />

b <br />

Y<br />

2


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

Vamos calcular cada um destes valores para aqueles 4 alunos que fizeram as<br />

provas de física e matemática.<br />

Aluno Nota de<br />

matemática X <br />

Nota de<br />

física Y <br />

1 2 6<br />

2 6 7<br />

3 8 7<br />

4 10 8<br />

Média 6,5 7<br />

Já fizemos o modelo de regressão linear para, a partir das notas de<br />

matemática, estimar as notas de física. O resultado foi:<br />

Aluno Nota de<br />

matemática X <br />

Nota de<br />

física Y <br />

Nota de física<br />

estimada Y ˆ<br />

1 2 6 5,97<br />

2 6 7 6,89<br />

3 8 7 7,34<br />

4 10 8 7,80<br />

A partir dos valores acima, podemos montar o quadro abaixo:<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 28


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

Nota de<br />

física Y <br />

Nota de física<br />

estimada Y ˆ<br />

2<br />

2<br />

Y ˆ Y <br />

2<br />

e Yˆ<br />

Y 2<br />

Y Y<br />

6 5,97 0,0009 1,0609 1<br />

7 6,89 0,0121 0,0121 0<br />

7 7,34 0,1156 0,1156 0<br />

8 7,80 0,04 0,64 1<br />

Da última linha da tabela, temos:<br />

Note que:<br />

Ou ainda:<br />

TOTAL 0,1686 1,8286 2<br />

<br />

SQTotal 2<br />

SQRe<br />

gressao 1,<br />

8286<br />

SQRe<br />

siduos <br />

0,<br />

1686<br />

2<br />

2<br />

Y<br />

e Yˆ Y<br />

<br />

<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 29<br />

<br />

Yi i<br />

i<br />

SQTotal SQRe<br />

gressao SQRe<br />

siduos<br />

Na verdade, substituindo os valores, obtemos:<br />

2 1,<br />

9972<br />

A diferença se deve aos arredondamentos (os valores apresentados para as<br />

notas de física estimada estão arredondados).<br />

Quadrados médios e estatística F<br />

A análise de variância, aplicada à reta de regressão, serve para testar a<br />

hipótese de que é igual a zero.<br />

Vimos que, para cada valor de X, nós temos uma população de valores de Y<br />

que gira em torno da reta de regressão. Caso a reta seja horizontal, todas as<br />

2


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

populações de valores de Y girarão em torno do mesmo valor. Todas elas terão<br />

a mesma média.<br />

Logo, as somas de quadrados de desvios, acima definidas, podem ser usadas<br />

para testar a hipótese de que o coeficiente é igual a zero.<br />

A hipótese nula ( 0 ) nada mais é que supor que a reta de regressão é<br />

horizontal. Ou seja, é a hipótese de que todas as sub-populações de Y provém,<br />

na verdade, de uma única população (ou seja, apresentam mesma média e<br />

mesma variância). E vimos que a análise de variância pode ser utilizada<br />

justamente para isso. Basta calcular a estatística F, com base nos quadrados<br />

médios.<br />

No caso da regressão linear, temos:<br />

<br />

2<br />

Y<br />

<br />

Y i<br />

2<br />

i<br />

<br />

SQTotal n 1<br />

graus de liberdade<br />

e SQRe siduos n 2 graus de liberdade<br />

2<br />

ˆ Y<br />

<br />

E os quadrados médios ficam assim.<br />

Quadrado médio total:<br />

Quadrado médio dos desvios:<br />

Yi SQRe gressao 1 grau de liberdade<br />

SQTotal<br />

QMTotal <br />

n 1<br />

Quadrado médio do modelo de regressão:<br />

SQ Re siduos<br />

QM Re siduos <br />

n 2<br />

SQ Re gressao<br />

QM Re gressão <br />

1<br />

Para o caso dos alunos que fizeram as provas de física e matemática, temos:<br />

2<br />

QMTotal <br />

4 1<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 30<br />

2<br />

3<br />

0,<br />

1686<br />

QM Re siduos 0,0843<br />

4 2<br />

1,<br />

8286<br />

QM<br />

Re gressao 1,<br />

8286<br />

1


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

E a estatística F fica:<br />

Coeficiente de determinação<br />

QM Re gressao 1,<br />

8286<br />

F _ teste <br />

21,71<br />

QM Re siduos 0,<br />

0842<br />

As somas de quadrados servem para definir uma grandeza conhecida como<br />

coeficiente de determinação da regressão linear.<br />

Ele é dado por:<br />

r<br />

2 <br />

SQ Re gressao<br />

SQTotal<br />

Esta grandeza, no caso do modelo Yi X<br />

i i , é igual ao quadrado do<br />

coeficiente de correlação linear.<br />

2<br />

Se a soma dos quadrados dos resíduos for pequena, de tal forma que r se<br />

aproxime de 1, isto significa que as diferenças entre os valores observados ( Y i )<br />

e a média (Y ) são quase totalmente explicados pela reta de regressão.<br />

2<br />

Se a soma dos quadrados dos resíduos for grande, de tal forma que r se<br />

aproxime de zero, isto significa que a reta de regressão pouco explica sobre as<br />

diferenças entre os valores observados e a média. Ou seja, é perca de tempo<br />

ficar calculando reta de regressão se ela é um estimador ruim.<br />

Como o coeficiente de correlação (r) assume valores entre -1 e 1, então o<br />

coeficiente de determinação (r 2 ) assume valores entre 0 e 1.<br />

6. BACEN <strong>20</strong>06 [FCC]<br />

Uma empresa, com finalidade de determinar a relação entre gastos anuais com<br />

propaganda (X), em R$ 1.000,00 e o lucro bruto anual (Y), em R$ 1.000,00,<br />

optou por utilizar o modelo linear simples Yi X<br />

i i , em que Yi é o valor<br />

do lucro bruto auferido no ano i e i o erro aleatório com as respectivas<br />

hipóteses consideradas para a regressão linear simples ( e são parâmetros<br />

desconhecidos). Considerou, para o estudo, as seguintes informações<br />

referentes às observações nos últimos 10 anos da empresa:<br />

10<br />

<br />

i1<br />

Y 100 ; X 60;<br />

650 Y X ; X 400 ; Y 1080<br />

i<br />

10<br />

<br />

i1<br />

i<br />

i i<br />

10<br />

<br />

i1<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 31<br />

i<br />

2 <br />

10<br />

<br />

i1<br />

i<br />

2


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

Montando o quadro de análise de variância, tem-se que:<br />

a) a variação explicada, fonte de variação devido à regressão, apresenta um<br />

valor igual a 80;<br />

b) dividindo a variação residual pela variação total, obtemos o correspondente<br />

coeficiente de determinação;<br />

c) o valor da estatística F necessária para o teste da existência de regressão é<br />

igual ao coeficiente da divisão da variação explicada pela variação residual<br />

d) a variação residual apresenta um valor igual a 17,5<br />

e) a variação total apresenta um valor igual a 62,5.<br />

[Observação: considere que você já sabe que os coeficientes a e b são dados<br />

por: a 2,<br />

5;<br />

b 1,<br />

25 , conforme cálculos do Erro! Fonte de referência não<br />

encontrada.]<br />

Resolução.<br />

Em vez de utilizar o termo “soma de quadrados”, a questão está utilizando<br />

“variação”. Assim, fazendo a correspondência dos termos da questão com<br />

aqueles que nós vimos:<br />

- Soma de quadrados total: variação total<br />

- Soma de quadrados dos resíduos: variação residual<br />

- Soma de quadrados da regressão: variação explicada (ou seja, é a parte da<br />

variação total que é explicada pelo modelo de regressão).<br />

A variação total fica:<br />

2<br />

SQTotal Y i Y<br />

<br />

Utilizando a transformação que vimos:<br />

Y<br />

Y<br />

<br />

Portanto a letra E está errada.<br />

2<br />

2<br />

SQTotal i Yi<br />

SQTotal 1.<br />

080 1010<br />

nY<br />

A variação explicada (=variação do modelo = Soma de Quadrados da<br />

Regressão) fica:<br />

SQ Re gressao<br />

Utilizando as transformações vistas:<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 32<br />

<br />

2 <br />

80<br />

X X Y <br />

b <br />

Y<br />

2


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

XY nX<br />

Y <br />

XY nX<br />

<br />

S Re gressao b<br />

<br />

S Re gressao<br />

b<br />

Y<br />

650 10<br />

610<br />

1,<br />

25<br />

50 62,<br />

5<br />

SQRe<br />

gressao 1,<br />

25<br />

<br />

Deste modo, a letra A está errada.<br />

A variância residual (=Soma de Quadrados de Resíduos) é igual a:<br />

E a letra D está correta.<br />

Vamos checar a alternativa B.<br />

Vimos que:<br />

A letra B pretende dizer que<br />

SQRe<br />

siduos SQTotal SQRe<br />

gressão 80 62,<br />

5 17,<br />

5<br />

r<br />

2 <br />

SQ Re gressao<br />

SQTotal<br />

2 SQ Re siduos<br />

r , o que está errado.<br />

SQTotal<br />

Por fim, vejamos a letra C. A estatística F é dada por:<br />

QM Re gressao SQ Re gressao / 1<br />

F _ teste <br />

<br />

QM Re siduos SQ Re siduos /( n 2)<br />

A alternativa C está errada, pois afirma que a estatística F é dada por<br />

SQ Re gressao<br />

, ignorando as divisões pelos graus de liberdade.<br />

SQ Re siduos<br />

Gabarito: D.<br />

7. SEAD/PM SANTOS <strong>20</strong>05 [FCC]<br />

Para resolver à questão seguinte, considere que foi realizado um estudo em<br />

um país com a finalidade de se determinar a relação entre a Renda Disponível<br />

(Y), em milhões de dólares, e o consumo (C), também em milhões de dólares.<br />

Sabe-se que foi utilizado o modelo linear simples Ci a bYi<br />

ei<br />

, em que Ci é o<br />

consumo no ano i, Yi é a renda disponível no ano ‘i’ e ei o erro aleatório com as<br />

respectivas hipóteses consideradas para a regressão linear simples.<br />

Este estudo apresentou as seguintes informações colhidas através da<br />

observação nos últimos 10 anos:<br />

10<br />

<br />

i1<br />

10<br />

<br />

i1<br />

10<br />

<br />

i1<br />

Ci 800 Yi 1.<br />

000 YiCi 83.<br />

600 Yi 105.<br />

000 Ci<br />

67.<br />

240<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 33<br />

10<br />

<br />

i1<br />

2 <br />

10<br />

<br />

i1<br />

2


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

O coeficiente de correlação r de Pearson entre as variáveis Y e C é obtido pela<br />

fórmula:<br />

cov( C,<br />

Y)<br />

r em que:<br />

DP(<br />

Y)<br />

DP(<br />

C)<br />

Cov(C,Y) é a covariância entre C e Y;<br />

DP(Y) é o desvio padrão de Y<br />

DP(C) é o desvio padrão de C.<br />

Tem-se que o valor do correspondente de determinação 2<br />

r é igual a:<br />

a) 60%<br />

b) 72%<br />

c) 76%<br />

d) 80%<br />

e) 90%<br />

Resolução:<br />

Nós temos representado os parâmetros do modelo por e . E<br />

representamos suas estimativas por a e b .<br />

Pois bem, neste exercício os parâmetros estão sendo chamados de a e b .<br />

Vamos chamar suas estimativas de â e b ˆ .<br />

Portanto:<br />

n<br />

<br />

i1<br />

C C<br />

<br />

SQTotal i<br />

2<br />

i<br />

n<br />

<br />

i1<br />

2 2<br />

= <br />

nC<br />

<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 34<br />

C<br />

2<br />

i<br />

2<br />

SQTotal C nC<br />

67.<br />

240 10<br />

80 3.<br />

240<br />

YC <br />

n<br />

Y <br />

<br />

SQ Re gressao bˆ<br />

<br />

C<br />

83. 600 10100<br />

80<br />

SQ Re gressao bˆ<br />

<br />

<br />

Lá no Erro! Fonte de referência não encontrada. nós vimos que bˆ<br />

0,<br />

72<br />

Logo:<br />

Por fim, chegamos a:<br />

2<br />

83. 600 10100<br />

80<br />

2.<br />

592<br />

SQRe<br />

gressao 0,<br />

72


Gabarito: D<br />

RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

8. TCE RO <strong>20</strong>05 [CESGRANRIO]<br />

r<br />

2 <br />

r<br />

2<br />

SQ Re gressao<br />

SQTotal<br />

2.<br />

592<br />

<br />

3.<br />

240<br />

Avaliações de terrenos baseiam-se, geralmente, em modelos de regressão<br />

linear nos quais o preço de venda é uma função de algumas variáveis tais<br />

como o tamanho do terreno, suas condições e localização. Uma amostra de<br />

terrenos comercializados no último mês coletou dados sobre o preço da venda,<br />

em R$ 1 000,00, o tamanho do terreno, em m2, e a distância ao centro da<br />

cidade, em km. Primeiramente obteve-se o modelo com apenas a variável<br />

tamanho do terreno, X1, como explicativa do preço de venda. Os principais<br />

quantitativos relativos a esse modelo foram calculados como:<br />

Considerando o quadro acima, os valores de X, Y e Z, respectivamente, são:<br />

(A) 2826, 121 e 3,65E-07<br />

(B) 2178, 121 e 0,77<br />

(C) 2178, 36 e 0,77<br />

(D) 648, 36 e 60,5<br />

(E) 32,4, 18 e 34,1<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 35<br />

0,<br />

80


Resolução.<br />

RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

O quadrado médio dos resíduos é igual a 36 (dado no enunciado).<br />

Logo:<br />

Com isso já podemos marcar a letra D.<br />

SQ Re siduos<br />

QM Re siduos <br />

36<br />

18<br />

SQRe siduos 18 36 648<br />

X 648<br />

O quadrado médio dos resíduos é 36 (dado no enunciado). Portanto, Y = 36.<br />

A soma de quadrados total é de 2826 (dado enunciado). Portanto, a soma de<br />

quadrados da regressão é:<br />

A estatística F fica:<br />

Gabarito: D<br />

SQRe gressao SQTotal SQRe<br />

siduos<br />

SQRe gressao 2826 648 2178<br />

QM Re gressao SQ Re gressao / 1 2178<br />

F _ teste <br />

<br />

60,5<br />

QM Re siduos 36 36<br />

9. CAPES <strong>20</strong>08 [CESGRANRIO]<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 36


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

O Coeficiente de Correlação Linear de Pearson entre os desempenhos de<br />

determinados alunos em duas avaliações nacionais é igual a 0,844. Nesse<br />

caso, conclui-se que a proporção da variabilidade nos resultados de uma das<br />

avaliações explicada pela relação linear entre elas é<br />

(A) 15,6%<br />

(B) 39,4%<br />

(C) 71,2%<br />

(D) 84,4%<br />

(E) 91,8%<br />

Resolução.<br />

O coeficiente de determinação é o quadrado do coeficiente de correlação.<br />

Gabarito: C<br />

10. PETROBRAS <strong>20</strong>08 [CESGRANRIO]<br />

2<br />

2<br />

r 0,<br />

844 0,712<br />

Um modelo de regressão linear simples de Y em X, com uma variável<br />

explicativa e o termo constante, foi estimado com 32 observações, gerando um<br />

r 2 de 0,25. No teste de validade do modelo, o F-calculado ou F-observado é<br />

igual a<br />

(A) 10<br />

(B) 11<br />

(C) 12<br />

(D) 13<br />

(E) 14<br />

Resolução.<br />

r<br />

2 <br />

SQ Re gressao<br />

SQTotal<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 37


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

Lembrando que:<br />

Logo:<br />

A estatística F fica:<br />

Gabarito: A<br />

0, 25 <br />

SQ Re gressao<br />

SQTotal<br />

SQRe<br />

gressao SQtotal 0,<br />

25<br />

SQTotal SQRe<br />

gressao SQRe<br />

siduos<br />

SQRe siduos 0,<br />

75<br />

SQTotal<br />

QM Re gressao SQ Re gressao / 1 0,<br />

25<br />

SQtotal<br />

F _ teste <br />

<br />

<br />

10<br />

QM Re siduos SQ Re siduos /( 32 2)<br />

0,<br />

75<br />

SQTotal / 30<br />

11. BNDES <strong>20</strong>08/2 [CESGRANRIO – questão adaptada]<br />

Um experimento foi realizado com o objetivo de estimar o preço de uma ação,<br />

dado o seu valor patrimonial, ambos em reais.<br />

Uma amostra de ações negociadas recentemente forneceu dados sobre o preço<br />

e o valor patrimonial por ação. Aplicou-se o modelo de regressão linear simples<br />

Y X<br />

. Alguns resultados da tabela da análise da variância, obtida a<br />

partir dos dados dessa amostra, estão apresentados a seguir.<br />

Julgue os itens abaixo:<br />

I – O coeficiente de determinação mostra que o modelo proposto explica<br />

aproximadamente 63% da variabilidade total.<br />

II – O valor da estatística Fcalculado é 100, e a conclusão do teste é que a<br />

variável valor patrimonial é significativa, isto é, deve-se rejeitar a hipótese<br />

nula H : 0 .<br />

0<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 38


Resolução.<br />

Primeiro item.<br />

RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

O coeficiente de determinação fica:<br />

SQRe gressao QM Re gressao / 1<br />

SQRe<br />

gressao <br />

56.<br />

000<br />

2 SQ Re gressao 56.<br />

000<br />

r <br />

= 0,63<br />

SQTotal 88.<br />

480<br />

Portanto, 63% da variação é explicada pela reta de regressão. Ou seja, o<br />

modelo de regressão explica 63% da variabilidade total. O primeiro item está<br />

certo.<br />

Segundo item.<br />

A estatística F fica:<br />

SQRe siduos SQTotal SQRe<br />

gressao<br />

SQRe<br />

siduos 88.<br />

480 56.<br />

000 <br />

32.<br />

480<br />

QM Re gressao SQ Re gressao / 1 56.<br />

000<br />

F _ teste <br />

<br />

100<br />

QM Re siduos SQ Re siduos /( 60 2)<br />

32.<br />

480 / 58<br />

O segundo item também está certo.<br />

Gabarito: Certo, certo<br />

Embora esta informação não tenha sido necessária para resolver a questão,<br />

vamos falar sobre o Fsig, que aparece na tabela.<br />

O valor de Fsig nada mais é que o valor descritivo do teste de hipóteses para<br />

0 . Ou seja, é a probabilidade de uma variável com distribuição F, com 1<br />

grau de liberdade no numerador e 58 no denominador, assumir valores<br />

maiores que 100 (que é a estatística teste).<br />

12. SEFAZ SP <strong>20</strong>09 [ESAF]<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 39


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

Uma amostra aleatória simples (X1, Y1), (X2, Y2), ..., (Xn, Yn) de duas variáveis<br />

aleatórias X e Y forneceu as seguintes quantidades:<br />

n<br />

<br />

i1<br />

n<br />

<br />

i1<br />

n<br />

<br />

i1<br />

X X<br />

i<br />

Y Y<br />

i<br />

X X <br />

i<br />

414<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 40<br />

2<br />

2<br />

359<br />

Y<br />

345<br />

Calcule o valor mais próximo do coeficiente de determinação da regressão<br />

linear de Y em X.<br />

a) 0,88<br />

b) 0,92<br />

c) 0,85<br />

d) 0,80<br />

e) 0,83<br />

Resolução:<br />

No caso do modelo usual de regressão linear, o coeficiente de determinação é<br />

igual ao quadrado do coeficiente de correlação.<br />

Aqui a questão explora outra igualdade envolvendo somatórios.<br />

O numerador da fórmula do coeficiente de correlação é:<br />

n<br />

<br />

i1<br />

Fazendo a multiplicação, ficamos com:<br />

n<br />

<br />

i1<br />

X X Y Y<br />

<br />

i<br />

X X Y X X Y<br />

<br />

i<br />

Separando o somatório da diferença em diferença de somatórios:<br />

i<br />

n<br />

n<br />

= X X Y<br />

X X Y<br />

<br />

<br />

i1<br />

i<br />

i<br />

i<br />

<br />

i1<br />

i<br />

i<br />

i


RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />

PROFESSOR: GUILHERME NEVES<br />

A média de Y é constante e pode “sair” do somatório:<br />

n<br />

n<br />

= X X Y<br />

Y X X <br />

<br />

i1<br />

A soma dos desvios em relação à média de X é igual a zero:<br />

i<br />

Prof. Guilherme Neves www.pontodosconcursos.com.br 41<br />

i<br />

<br />

i1<br />

n<br />

= X X Y<br />

Y 0<br />

<br />

i1<br />

i<br />

n<br />

= X X Y<br />

<br />

Logo, outra fórmula para o coeficiente de correlação seria:<br />

r <br />

n<br />

<br />

i1<br />

n<br />

<br />

i1<br />

i<br />

X X Y <br />

n<br />

2<br />

X X Y Y <br />

i <br />

i1<br />

i1<br />

E, para esta fórmula, o enunciado já deu todas as contas prontas:<br />

r <br />

Elevando o coeficiente ao quadrado:<br />

Fazendo a primeira divisão, temos:<br />

r<br />

r<br />

2<br />

2<br />

<br />

<br />

i<br />

345<br />

414<br />

359<br />

345<br />

414<br />

0,<br />

83<br />

O “0,83” está sendo multiplicado por um número menor que 1. Toda vez que<br />

multiplicamos um número por outro que seja menor que 1, o número original<br />

diminui. Logo, a resposta procurada será menor que 0,83. A única opção é a<br />

letra D.<br />

Gabarito: D<br />

<br />

<br />

i<br />

345<br />

359<br />

345<br />

359<br />

i<br />

i<br />

i<br />

i<br />

2

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!