Aula 20 - Parte 01.pdf
Aula 20 - Parte 01.pdf
Aula 20 - Parte 01.pdf
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
<strong>Aula</strong> <strong>20</strong> – <strong>Parte</strong> 1<br />
ANÁLISE DE VARIÂNCIA ....................................................................................................................................... 2<br />
Hipóteses do modelo ...................................................................................................................................................... 6<br />
Somas de quadrados ...................................................................................................................................................... 7<br />
Graus de liberdade ......................................................................................................................................................... 8<br />
Distribuição de qui-quadrado e soma de quadrados ................................................................................................... 14<br />
Quadrados médios ....................................................................................................................................................... 17<br />
Distribuição F ............................................................................................................................................................... 17<br />
ANÁLISE DE VARIÂNCIA DA REGRESSÃO ...................................................................................................................... 26<br />
Somas de quadrados .................................................................................................................................................... 26<br />
Quadrados médios e estatística F ................................................................................................................................ 29<br />
Coeficiente de determinação ....................................................................................................................................... 31<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 1
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
ANÁLISE DE VARIÂNCIA<br />
1. Introdução<br />
A análise de variância serve para testarmos a hipótese de que as médias de<br />
diferentes populações são todas iguais entre si.<br />
Para termos uma primeira ideia do raciocínio empregado nesta ferramenta,<br />
vamos trabalhar com um exemplo simplificado.<br />
Estamos estudando óleos de motor para um determinado modelo de carro. No<br />
mercado há disponíveis 4 marcas diferentes de óleos. O intuito é verificar se as<br />
4 marcas de óleo permitem que os carros rodem, em média, a mesma<br />
quilometragem, antes de ser necessária a próxima troca de óleo.<br />
Obtivemos amostras para cada uma das quatro marcas. Os resultados dos<br />
estudos estão na tabela abaixo (valores em mil quilômetros):<br />
observações marca A marca B marca C marca D<br />
1ª 4,9 5,3 4,7 4,4<br />
2ª 4,7 5,2 4,2 5,0<br />
3ª 5,3 4,9 4,3 5,1<br />
4ª 4,7 4,9 4,9 4,8<br />
5ª 4,8 4,6 4,8 4,7<br />
Média 4,88 4,98 4,58 4,8<br />
A média geral, de todas as <strong>20</strong> observações acima, independente de marca, é<br />
igual a 4,81.<br />
X<br />
4,<br />
81<br />
Queremos saber se, para as quatro marcas, a média de quilometragem é a<br />
mesma. As hipóteses que vamos testar são:<br />
: H<br />
0<br />
1<br />
HA: pelo menos uma das médias é diferente das demais<br />
Observem que, de acordo com as amostras acima, as médias não são<br />
exatamente iguais. A questão é: as diferenças entre as médias são devidas<br />
apenas a fatores aleatórios? Ou as diferenças são significativas, de modo que é<br />
possível apontar que há pelo menos uma marca diferente das demais?<br />
São estas perguntas que a análise de variância tenta responder.<br />
Bom, como queremos só ter uma primeira idia, fizemos uma simplificação:<br />
todas as amostras têm tamanho 5 (num caso geral, cada amostra pode ter<br />
tamanho diferente das demais).<br />
Uma outra suposição é necessária. Vamos supor que todas as populações de<br />
2<br />
onde foram extraídas as amostras apresentam a mesma variância . Por fim,<br />
vamos supor que todas as populações apresentam distribuição normal.<br />
Vamos calcular a variância dentro de cada grupo.<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 2<br />
2<br />
3<br />
4
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
Cada observação do quadro acima pode ser representada por:<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 3<br />
X ij<br />
onde i indica varia de 1 até 4 (indicando as marcas A, B, C, D) e j varia de 1<br />
até 5 (indicando as observações feitas dentro de cada marca).<br />
A variância dentro de uma dada marca é dada por:<br />
s<br />
2<br />
i<br />
<br />
5<br />
<br />
j1<br />
X X <br />
ij<br />
5 1<br />
Como exemplo, vamos detalhar o cálculo da variância dentro da marca C (ou<br />
seja, para o caso de i 3)<br />
:<br />
5<br />
<br />
<br />
X X<br />
3 j<br />
3<br />
2<br />
2<br />
s 3 <br />
j 1<br />
5 1<br />
2<br />
2<br />
2<br />
2<br />
2<br />
( 4,<br />
7 4,<br />
58)<br />
( 4,<br />
2 4,<br />
58)<br />
( 4,<br />
3 4,<br />
58)<br />
( 4,<br />
9 4,<br />
58)<br />
( 4,<br />
8 4,<br />
58)<br />
<br />
=<br />
4<br />
0,097<br />
Fazendo cálculos semelhantes para as demais marcas, temos:<br />
Marca A B C D<br />
Variância 0,062 0,077 0,097 0,075<br />
Caso todas as marcas apresentem a mesma média, então temos:<br />
- todas elas têm distribuição normal<br />
- todas elas têm mesma variância<br />
- todas elas têm mesma média <br />
2<br />
<br />
Isto equivale a dizer que todas elas apresentam distribuição idêntica. É como<br />
se todas as observações tivessem sido extraídas de uma única população,<br />
2<br />
normal, de média e variância .<br />
Deste modo, temos, na verdade, 4 amostras da mesma população. São 4<br />
amostras de tamanho 5. Vimos na aula de estimadores que a variância da<br />
amostra (com n 1<br />
no denominador) é um estimador não-viciado da variância<br />
da população. Portanto, se tivermos várias amostras, a média de todas as<br />
variâncias amostrais deve ser bem próxima da variância da população.<br />
Assim, uma primeira estimativa da variância da população seria:<br />
Continuando.<br />
s<br />
2<br />
1<br />
s<br />
2<br />
2<br />
s<br />
4<br />
2<br />
3<br />
s<br />
2<br />
4<br />
<br />
i<br />
2<br />
0,<br />
062 0,<br />
077 0,<br />
097 0,<br />
075<br />
0,078<br />
4
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
Ainda supondo que todas as marcas apresentam a mesma média, podemos<br />
achar outra estimativa para a variância da população. Como já estudamos na<br />
aula de estimadores, a média amostral tem variância dada por:<br />
2<br />
2<br />
= X n<br />
Ou seja, as médias amostrais apresentam dispersão bem pequena, quando<br />
comparada com a dispersão da população. Se pegarmos a dispersão da<br />
população e dividirmos por n, aí obtemos a dispersão das médias amostrais. As<br />
médias amostrais estão bem concentradas.<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 4<br />
2<br />
<br />
n = X<br />
2<br />
<br />
Se multiplicarmos a variância das médias amostrais por n, aí obtemos uma<br />
estimativa para a variância populacional.<br />
Assim, podemos usar os diversos valores da média amostral para estimar a<br />
variância de X . Feito isso, multiplicamos por “n”, e obtemos outra estimativa<br />
da variância populacional.<br />
A média das médias amostrais é:<br />
Temos:<br />
X1<br />
X 2 X 3 X 4 4,<br />
88 4,<br />
98 4,<br />
58 4,<br />
8<br />
X <br />
<br />
4,81<br />
4<br />
4<br />
2<br />
2<br />
2<br />
2<br />
2 ( 4,<br />
88 4,<br />
81)<br />
( 4,<br />
98 4,<br />
81)<br />
( 4,<br />
58 4,<br />
81)<br />
( 4,<br />
8 4,<br />
81)<br />
s <br />
0,029<br />
X<br />
4 1<br />
Esta é a chamada variância entre as marcas.<br />
Como o tamanho das amostras é 5 ( n 5),<br />
a nova estimativa da variância da<br />
população é:<br />
5 0,<br />
029 0,<br />
144<br />
Obtidas estas duas estimativas da variância da população, nós dividimos uma<br />
pela outra.<br />
0,<br />
144<br />
Razão entre as estimativas: 1,<br />
85<br />
0,<br />
078<br />
E este número acima é que vai nos permitir decidir se as médias são todas<br />
iguais entre si ou não.<br />
Caso as médias sejam, efetivamente, todas iguais entre si, a razão entre as<br />
duas estimativas deveria ser bem próxima de 1. As duas estimativas deveriam<br />
coincidir (ou serem muito próximas uma da outra).<br />
Caso as estimativas não coincidam (e a razão entre elas seja bem diferente de<br />
1), isto é um sinal de que as médias das marcas de óleo são diferentes entre si<br />
(ou seja, há pelo menos uma marca diferente das demais).<br />
Por quê?
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
Se todas as marcas tiverem a mesma média, suas funções densidade de<br />
probabilidade se sobreporão (estão todas representadas pela curva em preto<br />
no gráfico abaixo).<br />
No fundo, todas as amostras podem ser consideradas como extraídas da<br />
mesma população.<br />
2<br />
2<br />
2<br />
2<br />
s1 s2<br />
s3<br />
s4<br />
Com isso, o cálculo<br />
(decorrente das variâncias dentro das<br />
4<br />
marcas) realmente vai gerar uma boa estimativa da variância da população.<br />
Já a segunda estimativa, ela é derivada da variância entre as marcas. Como<br />
as médias amostrais são pouco dispersas (ver curva verde do gráfico acima),<br />
2<br />
2<br />
s é pequeno. Multiplicando n s , obteremos uma boa estimativa para a<br />
X<br />
X<br />
variância da população. As duas estimativas serão bem próximas. A razão<br />
entre elas será quase igual a 1.<br />
Agora vamos pensar em outro caso.<br />
Se todas as marcas tiverem a mesma variância, mas tiverem médias<br />
diferentes, elas poderiam ser representadas pelo gráfico abaixo:<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 5
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
s1 s2<br />
s3<br />
s4<br />
Como todas elas apresentam a mesma variância, o cálculo<br />
4<br />
(decorrente das variâncias dentro das marcas) realmente vai gerar uma boa<br />
estimativa da variância da população.<br />
Já a segunda estimativa, baseada na variância entre as médias amostrais, ela<br />
será problemática. As médias amostrais estarão mais dispersas do que<br />
estariam caso as médias populacionais fossem todas iguais entre si. Isto fará<br />
com que a segunda estimativa, derivada da variância entre as marcas, resulte<br />
num estimador maior que aquele decorrente da variância dentro das marcas.<br />
Com isso, a razão entre as duas estimativas será bem maior que 1.<br />
Agora vamos começar a estudar a análise de variância com os nomes que<br />
geralmente aparecem nas questões. Veremos que a “razão entre as<br />
estimativas” vai corresponder, na verdade, a uma razão entre os chamados<br />
quadrados médios.<br />
Hipóteses do modelo<br />
Vamos trabalhar com um modelo mais simples (embora a análise de variância<br />
possa ser aplicada para modelos mais complexos).<br />
Temos k populações em estudo (no exemplo dado na seção anterior, k 4 ,<br />
pois eram 4 marcas diferentes). De cada população, são extraídas amostras de<br />
tamanho n i (no exemplo anterior, n1 n2<br />
n3<br />
n4<br />
n5<br />
5 - todas as amostras<br />
tinham tamanho 5).<br />
O número total de extrações feitas (incluindo todos os grupos em estudo) é N .<br />
No nosso exemplo, N <strong>20</strong> (5 extrações para cada uma das 4 marcas de óleo).<br />
Uma dada observação X ij pode ser representada assim:<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 6<br />
2<br />
2<br />
2<br />
2
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
X u<br />
ij<br />
Cada observação é igual à média da população de onde ela foi extraída, mais<br />
um erro aleatório ( u ij ). As hipóteses são:<br />
∙ os erros são variáveis aleatórias com média zero;<br />
∙ os erros são independentes entre si;<br />
∙ os erros têm variância constante, ou seja,<br />
qualquer j.<br />
∙ os erros têm distribuição normal<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 7<br />
i<br />
ij<br />
2<br />
V ( uij<br />
) , para qualquer i e<br />
Na verdade, vocês não precisam se preocupar em decorar as hipóteses acima.<br />
Elas sempre estarão implícitas na questão. O motivo pelo qual eu as mencionei<br />
é o seguinte. Pode acontecer de a questão indicar expressamente tais<br />
hipóteses. Aí o aluno poderia se assustar, pensando que a questão está<br />
pedindo alguma coisa que ele não estudou. Então, se a questão trouxer as<br />
hipóteses acima, não precisa entrar em pânico, achando que é uma coisa de<br />
outro mundo. É só fazer a análise de variância normalmente, como veremos<br />
nos tópicos a seguir.<br />
Somas de quadrados<br />
Como vimos no exemplo inicial (com as 4 marcas de óleo), o teste se baseia<br />
em cálculo da variância (entre e dentro). E a variância é resultado de uma<br />
soma de quadrados de desvios. Então, por hora, vamos focar nestas somas de<br />
quadrados de desvios.<br />
Há três somas importantes: a soma de quadrados total; a soma de quadrados<br />
dentro dos grupos (ou ainda: soma de quadrados dos resíduos); a soma de<br />
quadrados entre grupos (ou ainda: soma de quadrados de tratamentos).<br />
Seja ni o número de termos do iésimo grupo. No exemplo das marcas de óleo,<br />
para cada grupo nós tínhamos 5 observações. Ou seja:<br />
n<br />
1<br />
n n n<br />
2<br />
A soma dos quadrados dos resíduos (ou ainda, dentro dos grupos) é definida<br />
por:<br />
s SQ Re<br />
k<br />
3<br />
ni<br />
<br />
i1<br />
j1<br />
X (<br />
4<br />
ij<br />
5<br />
X )<br />
Ou seja, tomamos todas as observações e subtraímos da média do respectivo<br />
grupo. Elevamos ao quadrado. Depois somamos tudo.<br />
Para o exemplo das marcas de óleo, ficaríamos com:<br />
i<br />
2
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
2<br />
2<br />
2<br />
2<br />
2<br />
SQRe<br />
s ( 4,<br />
9 4,<br />
88)<br />
( 4,<br />
7 4,<br />
88)<br />
( 5,<br />
3 4,<br />
88)<br />
( 4,<br />
7 4,<br />
88)<br />
( 4,<br />
8 4,<br />
88)<br />
...<br />
<br />
<br />
2<br />
2<br />
2<br />
2<br />
( 4,<br />
4<br />
4,<br />
8)<br />
( 5<br />
4,<br />
8)<br />
( 5,<br />
1<br />
4,<br />
8)<br />
( 4,<br />
8<br />
4,<br />
8)<br />
( 4,<br />
7 <br />
SQ Re s 1,<br />
244<br />
A soma dos quadrados de tratamentos (ou ainda, entre os grupos) é dada<br />
por:<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 8<br />
ni<br />
2<br />
SQTrat ( X X ) n<br />
<br />
i1<br />
Lembrando que X i é a média de cada uma das 5 amostras (para 1 i , por<br />
i<br />
i<br />
4,<br />
8)<br />
exemplo, temos X 4,<br />
88 , que é a média para a amostra da marca A).<br />
1 <br />
E X é a média de todos os valores, é a média geral de todas as observações,<br />
independente de marca. No exemplo das marcas de óleo, X 4,<br />
81.<br />
O cálculo da soma de quadrados de tratamentos é dado por:<br />
2<br />
2<br />
2<br />
2<br />
SQTrat ( 4,<br />
88 4,<br />
81)<br />
5<br />
( 4,<br />
98 4,<br />
81)<br />
5<br />
( 4,<br />
58 4,<br />
81)<br />
5<br />
( 4,<br />
8 4,<br />
81)<br />
5<br />
A soma de quadrados total é dada por:<br />
SQTotal<br />
SQTrat 0,<br />
434<br />
k<br />
ni<br />
<br />
i1<br />
j1<br />
X (<br />
ij<br />
X )<br />
Tomamos cada observação e subtraímos da média geral. Elevamos ao<br />
quadrado e somamos tudo. Para o exemplo que temos trabalhado, ficamos<br />
com:<br />
2<br />
2<br />
2<br />
2<br />
SQTotal ( 4,<br />
9 4,<br />
81)<br />
( 4,<br />
7 4,<br />
81)<br />
...<br />
( 4,<br />
8 4,<br />
81)<br />
( 4,<br />
7 4,<br />
81)<br />
= 1,678<br />
Observem que:<br />
Isto sempre acontece.<br />
Graus de liberdade<br />
SQTotal SQRe<br />
s SQTrat<br />
Vamos interromper um pouco a matéria que estamos estudando (análise de<br />
variância). Vamos falar um pouco sobre graus de liberdade. Utilizamos esta<br />
expressão em aulas anteriores, sem falar exatamente do que se trata.<br />
Bem, o grau de liberdade nada mais é que um parâmetro que entra no cálculo<br />
da função gama. É uma função importante. A partir dela é que são construídas<br />
as funções densidade de probabilidade para diversas distribuições de<br />
probabilidade importantes (como T, qui-quadrado, F).<br />
2<br />
2
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
Só que indicar para vocês qual é a função gama e, dentro dela, qual é o<br />
parâmetro que corresponde ao número de graus de liberdade, não vai ajudar<br />
em nada a entender melhor o que é esse grau de liberdade.<br />
Creio eu, deve haver alguma explicação “geométrica” para o número de graus<br />
de liberdade. Para quem já estudou cálculo, estou pensando em alguma coisa<br />
análoga à explicação de derivada e integral por meio de inclinações de reta e<br />
áreas abaixo da curva. Explicações utilizando geometria são mais fáceis para<br />
assimilarmos.<br />
Em todas as vezes que vimos os graus de liberdade, havia uma soma de<br />
quadrados de desvios. A quantidade de graus de liberdade será igual à<br />
quantidade de termos independentes que estamos somando.<br />
A primeira vez que vimos o grau de liberdade foi com a distribuição T. Vimos<br />
<br />
que X tem média e desvio padrão .<br />
n<br />
Quando desconhecemos o desvio-padrão da população, substituímos por s<br />
(desvio padrão da amostra).<br />
Para cálculo de s 2 , fazemos assim:<br />
s<br />
2<br />
<br />
n<br />
<br />
i1<br />
X X <br />
n 1<br />
No denominador temos um número, uma constante, algo que não varia. No<br />
numerador, temos uma soma de n quadrados de desvios, que podem variar de<br />
uma amostra para outra. É este fator que é aleatório. Vamos nos concentrar<br />
nele.<br />
Numerador:<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 9<br />
i<br />
2<br />
2<br />
2<br />
2<br />
( X1 X ) ( X 2 X ) ( X 3 X ) ...<br />
( X n1<br />
X ) X n X<br />
Qual a referência para o cálculo dos desvios? É a média aritmética.<br />
Pois bem, vamos supor que a gente conhece justamente a média aritmética.<br />
Conhecemos a média aritmética da amostra, mas não conhecemos os valores<br />
observados. Ou ainda: a média da amostra é dada.<br />
Quanto aos valores de cada uma das observações, este nós não conhecemos.<br />
Fixada a média da amostra, vamos considerar que a gente é livre para<br />
estabelecer quaisquer valores para as observações e, com isso, calcular o valor<br />
do desvio ao quadrado, que entra na fórmula do numerador.<br />
Assim, nós somos livres para escolher o valor de X1 (e, com isso, determinar o<br />
2<br />
valor de ( X1 X ) ). Nós também somos livres para escolher o valor de X2. E<br />
assim por diante.<br />
Neste processo, nós seríamos livres para escolher os valores de n 1<br />
observações. Nós seríamos livres para escolher os valores de X 1,<br />
X 2 , ..., X n1<br />
.<br />
2<br />
)<br />
2
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
Já o valor de Xn, este nós não temos liberdade para escolher. Escolhidas todas<br />
as demais observações ( X 1,<br />
X 2 , ..., X n1<br />
), só existe um único valor de Xn que<br />
faz com que a média da amostra seja igual ao valor fixado para X .<br />
Ou seja, nossa liberdade se restringiu a n 1<br />
desvios ao quadrado. O último<br />
desvio ao quadrado não pode ser livremente escolhido. Portanto, são n 1<br />
graus de liberdade.<br />
A segunda vez que vimos os graus de liberdade foi com a distribuição de quiquadrado.<br />
Ela é dada por:<br />
2 ( n 1)<br />
s<br />
2<br />
<br />
No denominador, temos a variância da população. Ela é um número, uma<br />
constante, algo fixo, que não varia.<br />
No numerador, temos duas parcelas. A primeira é ( n 1)<br />
, que também é um<br />
número fixo (é o tamanho da amostra menos 1).<br />
O outro fator, ele sim varia. Trata-se da variância amostral. É a variância de<br />
uma determinada amostra. Se pensarmos em todas as amostras possíveis, em<br />
2<br />
2<br />
( n 1)<br />
s<br />
cada uma delas s assume um valor diferente. É este fator que torna 2<br />
<br />
uma variável aleatória, que faz esta expressão variar. Vamos portanto, nos<br />
concentrar neste termo.<br />
Novamente, temos a variância amostral (s 2 ), que advém da soma de n desvios<br />
ao quadrado.<br />
Fixada uma determinada média amostral, poderemos escolher livremente o<br />
valor de n 1<br />
desvios. O último desvio, este não pode ser livremente escolhido.<br />
Só há um valor possível para ele, de tal modo que a média das observações<br />
seja igual a uma dada média amostral. Temos, novamente, n 1<br />
graus de<br />
liberdade.<br />
A terceira vez que estudamos graus de liberdade foi no teste de qui-quadrado<br />
para várias proporções.<br />
2<br />
( Oi<br />
Ei<br />
)<br />
A estatística teste era dada pela soma de todos os valores de<br />
. Agora<br />
Ei<br />
os desvios são calculados em relação às freqüências esperadas.<br />
Pergunta: qual a referência para cálculo dos desvios?<br />
A referência são as frequências esperadas. Pois então vamos supor que as<br />
frequências esperadas são dadas e que nós somos livres para escolher as<br />
frequências observadas (determinando, assim, o valor do desvio). Quantas<br />
frequências observadas nós podemos escolher livremente?<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 10<br />
2
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
Vejamos um exemplo:<br />
No curso A, havia 100 candidatos inscritos em um concurso. No curso B<br />
também havia 100 candidatos inscritos neste concurso. Foram aprovados 140<br />
candidatos destes <strong>20</strong>0 alunos. Os 60 restantes foram reprovados. Calcule a<br />
estatística teste para testar a hipótese de que a proporção de aprovados nos<br />
dois cursos é a mesma.<br />
Este problema não tem resposta. Isto porque não foram fornecidas as<br />
freqüências observadas dentro de cada curso. Mas não tem problema. Nosso<br />
interesse aqui não será achar exatamente o valor da estatística teste; sim<br />
determinar o número de graus de liberdade.<br />
Agora nós só conhecemos os totais da amostra.<br />
Do total de alunos (incluindo tanto o curso A quanto B), 140 foram aprovados<br />
e 60 foram reprovados. Sabemos ainda que há 100 alunos em cada curso.<br />
Sabendo apenas os totais (ou seja, o total de aprovados, o total de<br />
reprovados, e o total de alunos em cada curso), podemos determinar as<br />
freqüências esperadas, caso a hipótese nula seja verdadeira:<br />
curso A curso B<br />
Freqüênci<br />
a<br />
esperada<br />
Freqüência<br />
esperada<br />
Total<br />
Aprovados 70 70 140<br />
Reprovados 30 30 60<br />
Total 100 100 <strong>20</strong>0<br />
Os números em vermelho indicam os totais. São esses números que a gente<br />
conhece.<br />
Se a hipótese nula for verdadeira, esperamos que a proporção de aprovados e<br />
reprovados, em cada curso, seja igual à proporção geral, tomando os dois<br />
cursos em conjunto.<br />
Ou seja, conhecer os valores totais é o mesmo que conhecer as frequências<br />
esperadas. E vice-versa.<br />
Agora vamos para as freqüências observadas.<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 11
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
curso A curso B<br />
Freqüência<br />
observada<br />
Freqüência<br />
observada<br />
Total<br />
Aprovados ? ? 140<br />
Reprovados ? ? 60<br />
Total 100 100 <strong>20</strong>0<br />
As freqüências observadas não foram informadas. Vamos considerar que<br />
somos livres para preenchê-las. Ou seja, no fundo estamos considerando que<br />
2<br />
( Oi<br />
Ei<br />
)<br />
somos livres para determinar os valores de cada .<br />
E<br />
Vamos preencher a primeira célula com o número 80. Por quê? Porque somos<br />
livres para escolher qualquer número, então vamos escolher o número 80.<br />
curso A curso B<br />
Freqüência<br />
observada<br />
Freqüência<br />
observada<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 12<br />
i<br />
Total<br />
Aprovados 80 ? 140<br />
Reprovados ? ? 60<br />
Total 100 100 <strong>20</strong>0<br />
E esta foi a única célula que poderíamos preencher livremente. As demais não<br />
podem mais ser preenchidas livremente.<br />
Para que o total de alunos aprovados seja de 140, a segunda célula deve ser<br />
igual a 60.<br />
curso A curso B<br />
Freqüência<br />
observada<br />
Freqüência<br />
observada<br />
Total<br />
Aprovados 80 60 140<br />
Reprovados ? ? 60<br />
Total 100 100 <strong>20</strong>0
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
Para que o total de alunos do curso A seja igual a 100, a terceira célula deve<br />
ser preenchida com <strong>20</strong>.<br />
curso A curso B<br />
Freqüência<br />
observada<br />
Freqüência<br />
observada<br />
Total<br />
Aprovados 80 60 140<br />
Reprovados <strong>20</strong> ? 60<br />
Total 100 100 <strong>20</strong>0<br />
Para que o total do curso B seja igual a 100 e o total de reprovados seja 60, a<br />
quarta célula deve ser igual a 40.<br />
curso A curso B<br />
Freqüência<br />
observada<br />
Freqüência<br />
observada<br />
Total<br />
Aprovados 80 60 140<br />
Reprovados <strong>20</strong> 40 60<br />
Total 100 100 <strong>20</strong>0<br />
Nós só fomos livres para preencher 1 célula. Por isso, temos 1 grau de<br />
liberdade.<br />
Assim, quando formos calcular a soma dos valores<br />
( O E )<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 13<br />
i<br />
E<br />
i<br />
i<br />
2<br />
, nós podemos<br />
escolher livremente 1 deles. Os demais, estes não serão livremente escolhidos.<br />
Generalizando, para um caso qualquer com várias proporções, o número de<br />
graus de liberdade será sempre igual a ( L 1) (<br />
C 1)<br />
.<br />
Nos problemas em que o número de linhas ou de colunas for igual a 1, aí a<br />
gente não faz a subtração por 1.<br />
Resumindo tudo: o que fica da “história” é que os graus de liberdade têm<br />
relação com a quantidade de termos que podemos escolher livremente.
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
Distribuição de qui-quadrado e soma de quadrados<br />
Seja X uma variável aleatória, com média e variância<br />
2<br />
. Seja<br />
2<br />
s o<br />
estimador da variância populacional, baseado em uma amostra aleatória de<br />
2<br />
( n 1)<br />
s<br />
tamanho n. Vimos que 2<br />
<br />
graus de liberdade.<br />
tem distribuição de qui-quadrado com n 1<br />
Vamos analisar com calma esta expressão.<br />
2 ( n 1)<br />
s<br />
2<br />
<br />
E como é que se calcula uma variância amostral? Bom, o primeiro passo é<br />
calcular a soma dos quadrados dos desvios em relação à média da amostra.<br />
Fica assim:<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 14<br />
2<br />
X X <br />
2<br />
s<br />
i<br />
<br />
1<br />
n 1<br />
Voltemos à variável de qui-quadrado em estudo. Ela é dada por:<br />
Substituindo o valor de s 2 :<br />
2<br />
<br />
n<br />
<br />
<br />
2 ( n 1)<br />
s<br />
2<br />
<br />
<br />
n<br />
<br />
i1<br />
i<br />
2<br />
2<br />
X X <br />
No numerador temos uma soma de quadrados dos desvios.<br />
Então é isso que eu queria chamar a atenção, para facilitar a memorização.<br />
Somas de quadrados de desvios podem ser usadas para gerar distribuições de<br />
qui-quadrado. Basta dividir a soma de quadrado dos desvios pela variância da<br />
população.<br />
Finalmente, voltemos para a matéria de hoje (análise de variância). Se a<br />
hipótese nula for verdadeira (ou seja, se todas as marcas de óleo tiverem a<br />
mesma média), então todas as somas de quadrados de desvios que estudamos<br />
nesta aula podem ser usadas para gerar distribuições de qui-quadrado. Assim:<br />
SQ Re s<br />
<br />
∙ 2<br />
i<br />
2<br />
<br />
tem distribuição de qui-quadrado.<br />
SQTrat<br />
∙ tem distribuição de qui-quadrado.<br />
2<br />
<br />
2
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
SQTotal<br />
∙ tem distribuição de qui-quadrado.<br />
2<br />
<br />
Cada uma destas distribuições tem um certo grau de liberdade. Os graus de<br />
liberdade são:<br />
SQ Re s<br />
<br />
∙ 2<br />
∙ 2<br />
<br />
∙ 2<br />
<br />
: N k<br />
SQTrat<br />
: k 1<br />
SQTotal<br />
: N 1<br />
Observem que:<br />
( N k)<br />
( k 1)<br />
N 1<br />
Ou seja, se somarmos os graus de liberdade para os resíduos e para os<br />
tratamentos, chegamos ao grau de liberdade total.<br />
Vamos tentar memorizar os graus de liberdade. Para tanto, vamos lembrar da<br />
“história” que contamos lá na fl. 8.<br />
No cálculo da soma de quadrados total, pegamos cada observação e<br />
subtraímos da média geral. Depois elevamos ao quadrado. Como são N<br />
observações, são N desvios ao quadrado.<br />
Vamos considerar que X é dado.<br />
Podemos escolher livremente N 1<br />
desvios. O último, este não pode ser<br />
livremente escolhido. Só há um valor possível para ele, de tal modo que a<br />
média geral da amostra seja igual ao valor fixado para X<br />
No cálculo da soma de quadrados de tratamentos, pegamos a média de cada<br />
grupo (no nosso exemplo, seria a média de cada uma das 4 marcas de óleo) e<br />
subtraímos da média geral. Novamente, vamos supor que X é dado.<br />
São k desvios ao quadrado (neste exemplo, k 4 ). Veja:<br />
2<br />
2<br />
2<br />
2<br />
SQTrat ( 4,<br />
88 4,<br />
81)<br />
5<br />
( 4,<br />
98 4,<br />
81)<br />
5<br />
( 4,<br />
58 4,<br />
81)<br />
5<br />
( 4,<br />
8 4,<br />
81)<br />
5<br />
Em símbolos:<br />
SQTrat <br />
<br />
2<br />
2<br />
2<br />
2<br />
( X1<br />
X ) n1<br />
( X 2 X ) n2<br />
( X 3 X ) n3<br />
( X 4 X ) n4<br />
Se não conhecêssemos as médias de cada grupo (só soubéssemos a média<br />
geral das 4 marcas), poderíamos escolher livremente 3 desvios. O último, este<br />
não poderia ser escolhido. Para ele só haveria um valor possível, de tal forma<br />
que a média das 4 marcas seja igual à média geral fixada. Temos, portanto,<br />
k 1<br />
graus de liberdade.<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 15
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
Por fim, no cálculo da soma de quadrados dos resíduos, tomamos cada<br />
observação e subtraímos da média do respectivo grupo. São N desvios ao<br />
quadrado.<br />
Se soubéssemos apenas as médias de cada grupo (ou seja, as médias de cada<br />
marca), e não conhecêssemos o valor de cada observação, poderíamos<br />
escolher livremente diversos desvios.<br />
Para a marca A, teríamos:<br />
2<br />
2<br />
2<br />
2<br />
( X X ) ( X X ) ( X X ) ( X X ) ( X X )<br />
11<br />
1<br />
12<br />
1<br />
13<br />
Se não conhecemos as observações, apenas a média da marca A, poderíamos<br />
escolher livremente 4 desvios. O quinto não pode escolher livremente. Só há<br />
um valor possível para ele, de tal modo que a média da marca A seja igual ao<br />
valor estabelecido.<br />
O mesmo ocorre para todas as demais marcas. Em cada uma delas, 1 dos<br />
desvios não pode ser livremente escolhido.<br />
Assim, o número de graus de liberdade é igual a N k . São N desvios ao todo.<br />
Para cada grupo, 1 desvio não pode ser livremente escolhido. Como temos k<br />
grupos, temos k desvios que não podem ser livremente escolhidos.<br />
Todo esse blá blá blá que temos visto desde a fl. 8 (a historinha dos graus de<br />
liberdade e das somas de quadrado sendo relacionadas com distribuições de<br />
qui-quadrado), tudo isso era para facilitar na memorização do resumo abaixo.<br />
Se você não gostou de toda essa conversa, pelo menos decore o quadro a<br />
seguir:<br />
Caso a hipótese nula seja verdadeira (ou seja, todos os grupos<br />
apresentem a mesma média), então:<br />
SQ Re s<br />
tem distribuição de qui-quadrado com N k graus de liberdade<br />
2<br />
<br />
SQTrat<br />
tem distribuição de qui-quadrado com k 1<br />
graus de liberdade<br />
2<br />
<br />
SQTotal<br />
tem distribuição de qui-quadrado com N 1<br />
graus de liberdade<br />
2<br />
<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 16<br />
1<br />
14<br />
1<br />
15<br />
1<br />
2
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
Quadrados médios<br />
Quando dividimos uma soma de quadrados pelo respectivo número de graus<br />
de liberdade, obtemos os chamados “quadrados médios”.<br />
O quadrado médio dos resíduos fica:<br />
SQ Re s<br />
QM Re s <br />
N k<br />
Analogamente, os quadrados médios de tratamento e total ficam:<br />
Distribuição F<br />
Seja<br />
2<br />
1<br />
SQTrat<br />
QMTrat <br />
k 1<br />
SQTotal<br />
QMTotal <br />
N 1<br />
uma variável aleatória com distribuição de qui-quadrado com g1 graus<br />
2<br />
de liberdade. Seja 2 uma variável aleatória com distribuição de qui-quadrado<br />
com g2 graus de liberdade.<br />
Vamos criar a seguinte variável:<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 17<br />
2<br />
1<br />
2<br />
2<br />
/ g1<br />
W <br />
/ g<br />
No numerador temos uma variável de qui-quadrado dividida pelo seu número<br />
de graus de liberdade.<br />
No denominador, temos uma variável de qui-quadrado dividida pelo seu<br />
número de graus de liberdade.<br />
Essa divisão gera uma terceira variável, com distribuição F (ou ainda: F de<br />
Snedecor). Esta variável W possui g1 graus de liberdade associados ao seu<br />
numerador e g2 graus de liberdade associados ao seu denominador.<br />
Portanto, a razão:<br />
2<br />
QMTrat<br />
F <br />
QM Re s<br />
Tem distribuição F de Snedecor, com k 1<br />
graus de liberdade no numerador e<br />
N k graus de liberdade no denominador. Esta razão é utilizada para testar a<br />
hipótese nula, de que todas as populações têm a mesma média (no nosso<br />
exemplo, de que todas as marcas de óleo permitem a mesma quilometragem<br />
média).<br />
Caso a hipótese nula seja verdadeira, os dois quadrados médios serão<br />
próximos, e a razão será próxima de 1.<br />
Caso a hipótese nula seja falsa, os dois quadrados médios serão bem<br />
diferentes entre si, e a razão acima será bem maior que 1.
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
Então o teste é apenas isso. Basta calcular os valores de QMTrat e QM Re s ,<br />
específicos para o experimento feito, o que vai gerar a estatística teste (<br />
F _ teste , ou seja, o valor de F para o experimento feito).<br />
Depois consultamos a tabela da distribuição F (obtendo F _ crítico ). Depois,<br />
basta comparar a estatística teste com o valor crítico. Se a estatística teste for<br />
maior que o valor crítico, rejeitamos a hipótese nula. Se for menor, aceitamos<br />
a hipótese nula.<br />
QMTrat<br />
QM Re s<br />
o que vai gerar a estatística teste ( F _ teste ).<br />
Se F _teste F _ critico , rejeitamos a hipótese nula.<br />
Se F _teste F _ critico , aceitamos a hipótese nula.<br />
1. MP RO <strong>20</strong>05 [CESGRANRIO]<br />
QMTrat e QM Re s ,<br />
Se X1, X2, ... Xn, Y1, Y2, ... Yn são variáveis aleatórias independentes e com<br />
2 2<br />
2<br />
X 1 X 2 ... X n<br />
distribuição normal reduzida, então a variável aleatória W 2 2<br />
2<br />
Y Y ... Y<br />
tem distribuição:<br />
(A) normal.<br />
(B) qui-quadrado com n - 1 graus de liberdade.<br />
(C) t de Student com n graus de liberdade.<br />
(D) F com (n -1, n -1) graus de liberdade.<br />
(E) F com (n, n) graus de liberdade.<br />
Resolução.<br />
Podemos reescrever a variável W deste modo:<br />
W<br />
<br />
2 2<br />
2<br />
X 1 X 2 ... X n /<br />
2 2<br />
2<br />
Y Y ... Y / n<br />
1<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 18<br />
2<br />
No numerador temos uma distribuição de qui-quadrado com n graus de<br />
liberdade, dividida por n. Idem para o denominador.<br />
Logo, W tem distribuição F com (n, n) graus de liberdade.<br />
Gabarito: E<br />
n<br />
n<br />
1<br />
2<br />
n
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
2. TCE RO <strong>20</strong>07 [CESGRANRIO]<br />
Se X1, X2, ..., Xn, Y1, Y2, ..., Yn são variáveis aleatórias independentes e com<br />
2 2<br />
2<br />
X 1 X 2 ... X n<br />
distribuição normal reduzida, então a variável aleatória W 2 2<br />
2<br />
Y Y ... Y<br />
tem distribuição:<br />
(A) normal.<br />
(B) qui-quadrado com n - 1 graus de liberdade.<br />
(C) t de Student com n graus de liberdade.<br />
(D) F com (n - 1, n - 1) graus de liberdade.<br />
(E) F com (n, n) graus de liberdade.<br />
Resolução.<br />
Questão idêntica à anterior.<br />
Gabarito: E<br />
Exemplo 1. Para o exemplo das quatro marcas de óleo, trabalhadas<br />
durante a aula, teste a hipótese de que as médias são iguais, contra a<br />
hipótese alternativa de que há pelo menos uma média diferente das<br />
demais. Utilize um nível de significância de 10%.<br />
Resolução.<br />
Podemos juntar todos os cálculos já realizados durante a aula em uma tabela,<br />
assim:<br />
Fonte da<br />
variação<br />
Tratamentos<br />
(entre)<br />
Resíduos<br />
(dentro)<br />
Graus de<br />
liberdade<br />
Soma de<br />
quadrados<br />
Quadrado<br />
médio<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 19<br />
1<br />
2<br />
F _ teste<br />
3 0,434 0,145 1,858974<br />
16 1,244 0,078<br />
Total 19 1,678<br />
Os quadrados médios foram obtidos pela divisão entre a soma de quadrados e<br />
o número de graus de liberdade.<br />
n
Ou seja:<br />
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
0,<br />
434<br />
QMTrat 0,<br />
145<br />
3<br />
Em vez de utilizar a expressão “tratamento”, o exercício pode se referir à<br />
variação entre tratamentos. Ou seja, o símbolo seria QM _ entre<br />
QMTrat QM _ entre 0,<br />
145<br />
Para o quadrado médio de resídulos (dentro), a conta é análoga:<br />
1,<br />
244<br />
QM Re s QM _ dentro <br />
16<br />
0,<br />
078<br />
Estes dois quadrados médios são utilizados para fazer o teste F.<br />
QMTrat QM _ entre 0,<br />
145<br />
F _ teste <br />
1,8589<br />
QM Re s QM _ dentro 0,<br />
078<br />
A razão entre os quadrados foi de 1,8589. Foi diferente de 1.<br />
Caso a razão seja bem próxima de 1, aceitamos a hipótese nula. Caso a razão<br />
seja bem afastada de 1, rejeitamos a hipótese nula.<br />
E agora?<br />
O número 1,8589 é próximo ou afastado de 1?<br />
Bem, o que vai nos responder isso é a tabela da distribuição F. Abaixo segue<br />
um trechinho da Tabela F para nível de confiança de 10%.<br />
Fornece valores críticos (F0), tal que ( 0) 10%<br />
F F P<br />
Número de GL do numerador<br />
Número GL<br />
denominador<br />
2 3 4 5<br />
15 2,695172932 2,489787735 2,361433116 2,273022447<br />
16 2,668171457 2,461810755 2,332744869 2,243757603<br />
17 2,644638468 2,437433917 2,307747133 2,218252647<br />
18 2,623946985 2,416005381 2,285771772 2,195827465<br />
19 2,605612364 2,397021508 2,266302568 2,175956494<br />
<strong>20</strong> 2,589254118 2,380087057 2,248934402 2,158227217<br />
A estatística teste (1,8589) é menor que o valor crítico (2,46). Aceitamos a<br />
hipótese nula.<br />
Para melhor visualização, segue desenho da função densidade de<br />
probabilidade, para (3, 16) graus de liberdade.<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br <strong>20</strong>
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
De acordo com a tabela para a distribuição F, temos que a área amarela da<br />
figura abaixo é de 10%.<br />
Que é a região crítica. A estatística teste não caiu na região crítica. Portanto,<br />
aceitamos a hipótese nula.<br />
3. PETROBRAS <strong>20</strong>08/2 [CESGRANRIO]<br />
Dividem-se aleatoriamente 12 lotes de terra em três grupos.<br />
O primeiro é mantido como grupo de controle (C), enquanto os outros dois<br />
recebem os fertilizantes A e B. A tabela abaixo apresenta a ANOVA parcial do<br />
experimento.<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 21
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
Então, as constantes a, b e c são, respectiva e aproximadamente, iguais a<br />
(A) 1, 11 e 4,5<br />
(B) 1, 11 e 9<br />
(C) 2, 11 e 9<br />
(D) 2, 12 e 2<br />
(E) 3, 12 e 3<br />
Resolução.<br />
O exercício forneceu direto a tabela da análise de variância, já com todas as<br />
contas prontas.<br />
SQ indica “soma de quadrados”. GL indica “graus de liberdade”. EQM indica<br />
“erro quadrático médio” (que é sinônimo de quadrado médio).<br />
Queremos testar se os três tipos de produção (com fertilizantes A e B, mais o<br />
grupo de controle, C) apresentam os mesmos resultados. O exercício não<br />
indicou exatamente o que se está comparando. Poderia, por exemplo, ser a<br />
quantidade de toneladas produzidas por determinada área plantada.<br />
Ao todo, são 12 observações (uma para cada lote de terra). Portanto:<br />
N 12 N 1<br />
11<br />
A soma de quadrados total tem N 1<br />
graus de liberdade. Logo, a constante b<br />
da tabela é igual a 11.<br />
b 11<br />
O número de graus de liberdade associado à soma de quadrados total é igual à<br />
soma dos demais graus de liberdade.<br />
a 9 b<br />
a 9 11<br />
a 2<br />
Com isso, já dá para marcar letra C.<br />
Por fim, a estatística teste fica:<br />
156<br />
F _ teste c 9,02<br />
17,<br />
3<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 22
Gabarito: C<br />
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
Considere a descrição abaixo para responder as próximas questões.<br />
Um estudo pretende comparar as medidas de pressão sanguínea sistólica de<br />
três grupos: não fumantes, ex-fumantes e fumantes. Uma amostra é<br />
selecionada de cada grupo, sendo os dados relevantes apresentados abaixo.<br />
Supõe-se que as variâncias populacionais sejam iguais, e que a pressão<br />
sanguínea sistólica seja normalmente distribuída. As médias e os desvios<br />
padrões estão expressos em mmHg.<br />
4. FUNASA <strong>20</strong>09 [CESGRANRIO]<br />
As estimativas da variância dentro dos grupos e entre os grupos, são,<br />
respectivamente,<br />
Resolução<br />
Temos um total de 100 observações ( N 100<br />
), referentes a três grupos<br />
pesquisados ( k 3)<br />
A média geral dos três grupos é dada por:<br />
115<br />
60 114<br />
30 11810<br />
X <br />
115<br />
100<br />
A soma de quadrados entre os grupos é dada por:<br />
SQ _ entre 60<br />
( 115 115)<br />
2<br />
30<br />
( 114 115)<br />
10<br />
( 118 115)<br />
Esta soma de quadrados possui k 1<br />
graus de liberdade.<br />
k<br />
1<br />
31<br />
2<br />
1<strong>20</strong><br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 23<br />
2<br />
2
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
Logo, o quadrado médio fica:<br />
1<strong>20</strong><br />
QM _ entre <br />
2<br />
Vamos agora calcular a soma de quadrados dentro dos grupos. Para tanto,<br />
precisamos, em cada grupo, calcular a soma dos quadrados dos desvios em<br />
relação à média do grupo.<br />
Para os não-fumantes, sabemos que a variância é igual a 14 2 . E como foi<br />
calculada esta variância? Ela foi calculada somando os quadrados dos desvios e<br />
dividindo por 59. Logo, a soma dos quadrados dos desvios, para o grupo dos<br />
não-fumantes, é igual a 14 59<br />
2 .<br />
Como o mesmo raciocínio, podemos achar as somas dos quadrados dos<br />
desvios para os demais grupos. Com isso, temos:<br />
SQ _ dentro 14<br />
2<br />
59<br />
10<br />
29 12<br />
Esta soma de quadrados tem N k graus de liberdade.<br />
Logo:<br />
Gabarito: E<br />
N k 100<br />
3 97<br />
15760<br />
QM _ dentro <br />
97<br />
9<br />
15760<br />
5. FUNASA <strong>20</strong>09 [CESGRANRIO]<br />
Utilizando um nível de significância de 5%, a Estatística F, as pressões<br />
sanguíneas médias nos três grupos e o valor crítico são, respectivamente,<br />
Resolução.<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 24<br />
2<br />
2
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
Estatística teste:<br />
QM _ entre 1<strong>20</strong> / 2 60<br />
97<br />
F _ teste <br />
0,37<br />
QM _ dentro 15760 / 97 15760<br />
Consultando a tabela colocada ao final do arquivo (para um nível de<br />
significância de 5%), temos um pequeno problema. Há uma coluna para 2<br />
graus de liberdade no numerador. Mas não há uma linha para 97 graus de<br />
liberdade no denominador.<br />
O valor mais próximo é 1<strong>20</strong> graus de liberdade. Logo, o valor crítico deve estar<br />
próximo de 3,07. A própria questão faz esta aproximação, pois traz, em todas<br />
as alternativas, o valor 3,07.<br />
Assim, concluímos que a região crítica corresponde ao intervalo de 3,07 até<br />
infinito.<br />
A estatística teste cai na região de aceitação. Aceitamos a hipótese de que as<br />
médias nos três grupos são iguais entre si.<br />
Gabarito: A<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 25
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
ANÁLISE DE VARIÂNCIA DA REGRESSÃO<br />
Um teste de hipóteses muito comum é aquele que testa a hipótese nula de que<br />
o coeficiente da reta de regressão é nulo. Caso a hipótese nula seja<br />
verdadeira, temos que a reta de regressão é horizontal.<br />
Relembrando o significado da reta de regressão. Para cada valor de X nós<br />
temos uma sub-população de valores de Y, com média dada pela reta de<br />
2<br />
regressão e variância .<br />
Se a reta é horizontal, então todas as sub-populações terão a mesma média.<br />
Nós vimos uma ferramenta para testar se a média de diferentes populações<br />
são iguais entre si. Esta ferramenta era a análise de variância.<br />
Como testar a hipótese de ser igual a zero equivale a testar a hipótese de as<br />
varais populações têm a mesma média, então podemos usar a análise de<br />
variância para isso. Vamos ver como fica.<br />
Somas de quadrados<br />
Quando utilizamos a regressão linear, obtemos i Yˆ , que é uma estimativa para<br />
Y . A diferença entre estas duas grandezas é o desvio.<br />
Rearranjando os termos:<br />
Subtraindo Y dos dois lados:<br />
Elevando ao quadrado:<br />
e<br />
i<br />
i<br />
Y Yˆ<br />
Y e Yˆ<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 26<br />
i<br />
i<br />
Y<br />
e Yˆ<br />
Y<br />
Yi i i<br />
2<br />
2<br />
Y<br />
e Yˆ<br />
Y<br />
Yi i i<br />
2 2<br />
2<br />
Y<br />
e Yˆ Y<br />
2<br />
e Yˆ Y<br />
<br />
Yi i i<br />
i i<br />
Somando as parcelas acima para todos os valores de i:<br />
<br />
2<br />
2<br />
2<br />
Y e Yˆ Y<br />
2<br />
e Yˆ Y<br />
<br />
<br />
<br />
i<br />
i<br />
<br />
Yi i<br />
i<br />
i i
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
<br />
É possível demonstrar que [ Y Y<br />
] 0<br />
Portanto:<br />
<br />
ˆ<br />
ei i<br />
2<br />
2<br />
Y<br />
e Yˆ Y<br />
<br />
<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 27<br />
.<br />
<br />
Yi i<br />
i<br />
E o que é que temos aí em cima? Temos somas de quadrados.<br />
Cada uma destas parcelas recebe um nome especial:<br />
<br />
2<br />
Y<br />
<br />
Y i<br />
2<br />
i<br />
<br />
soma de quadrados total (S.Q.Total)<br />
e soma de quadrados dos resíduos (S.Q.Resíduos)<br />
2<br />
ˆ Y<br />
<br />
Yi soma de quadrados do modelo de regressão (S.Q.Regressão) –<br />
corresponde à Soma de quadrado de tratamentos.<br />
Portanto:<br />
É possível demonstrar que:<br />
SQTotal SQRe<br />
gressao SQRe<br />
siduos<br />
SQ Re gressao<br />
<br />
X X Y <br />
b<br />
Y<br />
Onde b é a estimativa do coeficiente angular da reta de regressão.<br />
Resumo das somas de quadrados<br />
SQ Re<br />
gressao<br />
<br />
SQTotal SQRe<br />
gressao SQRe<br />
siduos<br />
X X Y <br />
b <br />
Y<br />
2
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
Vamos calcular cada um destes valores para aqueles 4 alunos que fizeram as<br />
provas de física e matemática.<br />
Aluno Nota de<br />
matemática X <br />
Nota de<br />
física Y <br />
1 2 6<br />
2 6 7<br />
3 8 7<br />
4 10 8<br />
Média 6,5 7<br />
Já fizemos o modelo de regressão linear para, a partir das notas de<br />
matemática, estimar as notas de física. O resultado foi:<br />
Aluno Nota de<br />
matemática X <br />
Nota de<br />
física Y <br />
Nota de física<br />
estimada Y ˆ<br />
1 2 6 5,97<br />
2 6 7 6,89<br />
3 8 7 7,34<br />
4 10 8 7,80<br />
A partir dos valores acima, podemos montar o quadro abaixo:<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 28
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
Nota de<br />
física Y <br />
Nota de física<br />
estimada Y ˆ<br />
2<br />
2<br />
Y ˆ Y <br />
2<br />
e Yˆ<br />
Y 2<br />
Y Y<br />
6 5,97 0,0009 1,0609 1<br />
7 6,89 0,0121 0,0121 0<br />
7 7,34 0,1156 0,1156 0<br />
8 7,80 0,04 0,64 1<br />
Da última linha da tabela, temos:<br />
Note que:<br />
Ou ainda:<br />
TOTAL 0,1686 1,8286 2<br />
<br />
SQTotal 2<br />
SQRe<br />
gressao 1,<br />
8286<br />
SQRe<br />
siduos <br />
0,<br />
1686<br />
2<br />
2<br />
Y<br />
e Yˆ Y<br />
<br />
<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 29<br />
<br />
Yi i<br />
i<br />
SQTotal SQRe<br />
gressao SQRe<br />
siduos<br />
Na verdade, substituindo os valores, obtemos:<br />
2 1,<br />
9972<br />
A diferença se deve aos arredondamentos (os valores apresentados para as<br />
notas de física estimada estão arredondados).<br />
Quadrados médios e estatística F<br />
A análise de variância, aplicada à reta de regressão, serve para testar a<br />
hipótese de que é igual a zero.<br />
Vimos que, para cada valor de X, nós temos uma população de valores de Y<br />
que gira em torno da reta de regressão. Caso a reta seja horizontal, todas as<br />
2
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
populações de valores de Y girarão em torno do mesmo valor. Todas elas terão<br />
a mesma média.<br />
Logo, as somas de quadrados de desvios, acima definidas, podem ser usadas<br />
para testar a hipótese de que o coeficiente é igual a zero.<br />
A hipótese nula ( 0 ) nada mais é que supor que a reta de regressão é<br />
horizontal. Ou seja, é a hipótese de que todas as sub-populações de Y provém,<br />
na verdade, de uma única população (ou seja, apresentam mesma média e<br />
mesma variância). E vimos que a análise de variância pode ser utilizada<br />
justamente para isso. Basta calcular a estatística F, com base nos quadrados<br />
médios.<br />
No caso da regressão linear, temos:<br />
<br />
2<br />
Y<br />
<br />
Y i<br />
2<br />
i<br />
<br />
SQTotal n 1<br />
graus de liberdade<br />
e SQRe siduos n 2 graus de liberdade<br />
2<br />
ˆ Y<br />
<br />
E os quadrados médios ficam assim.<br />
Quadrado médio total:<br />
Quadrado médio dos desvios:<br />
Yi SQRe gressao 1 grau de liberdade<br />
SQTotal<br />
QMTotal <br />
n 1<br />
Quadrado médio do modelo de regressão:<br />
SQ Re siduos<br />
QM Re siduos <br />
n 2<br />
SQ Re gressao<br />
QM Re gressão <br />
1<br />
Para o caso dos alunos que fizeram as provas de física e matemática, temos:<br />
2<br />
QMTotal <br />
4 1<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 30<br />
2<br />
3<br />
0,<br />
1686<br />
QM Re siduos 0,0843<br />
4 2<br />
1,<br />
8286<br />
QM<br />
Re gressao 1,<br />
8286<br />
1
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
E a estatística F fica:<br />
Coeficiente de determinação<br />
QM Re gressao 1,<br />
8286<br />
F _ teste <br />
21,71<br />
QM Re siduos 0,<br />
0842<br />
As somas de quadrados servem para definir uma grandeza conhecida como<br />
coeficiente de determinação da regressão linear.<br />
Ele é dado por:<br />
r<br />
2 <br />
SQ Re gressao<br />
SQTotal<br />
Esta grandeza, no caso do modelo Yi X<br />
i i , é igual ao quadrado do<br />
coeficiente de correlação linear.<br />
2<br />
Se a soma dos quadrados dos resíduos for pequena, de tal forma que r se<br />
aproxime de 1, isto significa que as diferenças entre os valores observados ( Y i )<br />
e a média (Y ) são quase totalmente explicados pela reta de regressão.<br />
2<br />
Se a soma dos quadrados dos resíduos for grande, de tal forma que r se<br />
aproxime de zero, isto significa que a reta de regressão pouco explica sobre as<br />
diferenças entre os valores observados e a média. Ou seja, é perca de tempo<br />
ficar calculando reta de regressão se ela é um estimador ruim.<br />
Como o coeficiente de correlação (r) assume valores entre -1 e 1, então o<br />
coeficiente de determinação (r 2 ) assume valores entre 0 e 1.<br />
6. BACEN <strong>20</strong>06 [FCC]<br />
Uma empresa, com finalidade de determinar a relação entre gastos anuais com<br />
propaganda (X), em R$ 1.000,00 e o lucro bruto anual (Y), em R$ 1.000,00,<br />
optou por utilizar o modelo linear simples Yi X<br />
i i , em que Yi é o valor<br />
do lucro bruto auferido no ano i e i o erro aleatório com as respectivas<br />
hipóteses consideradas para a regressão linear simples ( e são parâmetros<br />
desconhecidos). Considerou, para o estudo, as seguintes informações<br />
referentes às observações nos últimos 10 anos da empresa:<br />
10<br />
<br />
i1<br />
Y 100 ; X 60;<br />
650 Y X ; X 400 ; Y 1080<br />
i<br />
10<br />
<br />
i1<br />
i<br />
i i<br />
10<br />
<br />
i1<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 31<br />
i<br />
2 <br />
10<br />
<br />
i1<br />
i<br />
2
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
Montando o quadro de análise de variância, tem-se que:<br />
a) a variação explicada, fonte de variação devido à regressão, apresenta um<br />
valor igual a 80;<br />
b) dividindo a variação residual pela variação total, obtemos o correspondente<br />
coeficiente de determinação;<br />
c) o valor da estatística F necessária para o teste da existência de regressão é<br />
igual ao coeficiente da divisão da variação explicada pela variação residual<br />
d) a variação residual apresenta um valor igual a 17,5<br />
e) a variação total apresenta um valor igual a 62,5.<br />
[Observação: considere que você já sabe que os coeficientes a e b são dados<br />
por: a 2,<br />
5;<br />
b 1,<br />
25 , conforme cálculos do Erro! Fonte de referência não<br />
encontrada.]<br />
Resolução.<br />
Em vez de utilizar o termo “soma de quadrados”, a questão está utilizando<br />
“variação”. Assim, fazendo a correspondência dos termos da questão com<br />
aqueles que nós vimos:<br />
- Soma de quadrados total: variação total<br />
- Soma de quadrados dos resíduos: variação residual<br />
- Soma de quadrados da regressão: variação explicada (ou seja, é a parte da<br />
variação total que é explicada pelo modelo de regressão).<br />
A variação total fica:<br />
2<br />
SQTotal Y i Y<br />
<br />
Utilizando a transformação que vimos:<br />
Y<br />
Y<br />
<br />
Portanto a letra E está errada.<br />
2<br />
2<br />
SQTotal i Yi<br />
SQTotal 1.<br />
080 1010<br />
nY<br />
A variação explicada (=variação do modelo = Soma de Quadrados da<br />
Regressão) fica:<br />
SQ Re gressao<br />
Utilizando as transformações vistas:<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 32<br />
<br />
2 <br />
80<br />
X X Y <br />
b <br />
Y<br />
2
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
XY nX<br />
Y <br />
XY nX<br />
<br />
S Re gressao b<br />
<br />
S Re gressao<br />
b<br />
Y<br />
650 10<br />
610<br />
1,<br />
25<br />
50 62,<br />
5<br />
SQRe<br />
gressao 1,<br />
25<br />
<br />
Deste modo, a letra A está errada.<br />
A variância residual (=Soma de Quadrados de Resíduos) é igual a:<br />
E a letra D está correta.<br />
Vamos checar a alternativa B.<br />
Vimos que:<br />
A letra B pretende dizer que<br />
SQRe<br />
siduos SQTotal SQRe<br />
gressão 80 62,<br />
5 17,<br />
5<br />
r<br />
2 <br />
SQ Re gressao<br />
SQTotal<br />
2 SQ Re siduos<br />
r , o que está errado.<br />
SQTotal<br />
Por fim, vejamos a letra C. A estatística F é dada por:<br />
QM Re gressao SQ Re gressao / 1<br />
F _ teste <br />
<br />
QM Re siduos SQ Re siduos /( n 2)<br />
A alternativa C está errada, pois afirma que a estatística F é dada por<br />
SQ Re gressao<br />
, ignorando as divisões pelos graus de liberdade.<br />
SQ Re siduos<br />
Gabarito: D.<br />
7. SEAD/PM SANTOS <strong>20</strong>05 [FCC]<br />
Para resolver à questão seguinte, considere que foi realizado um estudo em<br />
um país com a finalidade de se determinar a relação entre a Renda Disponível<br />
(Y), em milhões de dólares, e o consumo (C), também em milhões de dólares.<br />
Sabe-se que foi utilizado o modelo linear simples Ci a bYi<br />
ei<br />
, em que Ci é o<br />
consumo no ano i, Yi é a renda disponível no ano ‘i’ e ei o erro aleatório com as<br />
respectivas hipóteses consideradas para a regressão linear simples.<br />
Este estudo apresentou as seguintes informações colhidas através da<br />
observação nos últimos 10 anos:<br />
10<br />
<br />
i1<br />
10<br />
<br />
i1<br />
10<br />
<br />
i1<br />
Ci 800 Yi 1.<br />
000 YiCi 83.<br />
600 Yi 105.<br />
000 Ci<br />
67.<br />
240<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 33<br />
10<br />
<br />
i1<br />
2 <br />
10<br />
<br />
i1<br />
2
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
O coeficiente de correlação r de Pearson entre as variáveis Y e C é obtido pela<br />
fórmula:<br />
cov( C,<br />
Y)<br />
r em que:<br />
DP(<br />
Y)<br />
DP(<br />
C)<br />
Cov(C,Y) é a covariância entre C e Y;<br />
DP(Y) é o desvio padrão de Y<br />
DP(C) é o desvio padrão de C.<br />
Tem-se que o valor do correspondente de determinação 2<br />
r é igual a:<br />
a) 60%<br />
b) 72%<br />
c) 76%<br />
d) 80%<br />
e) 90%<br />
Resolução:<br />
Nós temos representado os parâmetros do modelo por e . E<br />
representamos suas estimativas por a e b .<br />
Pois bem, neste exercício os parâmetros estão sendo chamados de a e b .<br />
Vamos chamar suas estimativas de â e b ˆ .<br />
Portanto:<br />
n<br />
<br />
i1<br />
C C<br />
<br />
SQTotal i<br />
2<br />
i<br />
n<br />
<br />
i1<br />
2 2<br />
= <br />
nC<br />
<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 34<br />
C<br />
2<br />
i<br />
2<br />
SQTotal C nC<br />
67.<br />
240 10<br />
80 3.<br />
240<br />
YC <br />
n<br />
Y <br />
<br />
SQ Re gressao bˆ<br />
<br />
C<br />
83. 600 10100<br />
80<br />
SQ Re gressao bˆ<br />
<br />
<br />
Lá no Erro! Fonte de referência não encontrada. nós vimos que bˆ<br />
0,<br />
72<br />
Logo:<br />
Por fim, chegamos a:<br />
2<br />
83. 600 10100<br />
80<br />
2.<br />
592<br />
SQRe<br />
gressao 0,<br />
72
Gabarito: D<br />
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
8. TCE RO <strong>20</strong>05 [CESGRANRIO]<br />
r<br />
2 <br />
r<br />
2<br />
SQ Re gressao<br />
SQTotal<br />
2.<br />
592<br />
<br />
3.<br />
240<br />
Avaliações de terrenos baseiam-se, geralmente, em modelos de regressão<br />
linear nos quais o preço de venda é uma função de algumas variáveis tais<br />
como o tamanho do terreno, suas condições e localização. Uma amostra de<br />
terrenos comercializados no último mês coletou dados sobre o preço da venda,<br />
em R$ 1 000,00, o tamanho do terreno, em m2, e a distância ao centro da<br />
cidade, em km. Primeiramente obteve-se o modelo com apenas a variável<br />
tamanho do terreno, X1, como explicativa do preço de venda. Os principais<br />
quantitativos relativos a esse modelo foram calculados como:<br />
Considerando o quadro acima, os valores de X, Y e Z, respectivamente, são:<br />
(A) 2826, 121 e 3,65E-07<br />
(B) 2178, 121 e 0,77<br />
(C) 2178, 36 e 0,77<br />
(D) 648, 36 e 60,5<br />
(E) 32,4, 18 e 34,1<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 35<br />
0,<br />
80
Resolução.<br />
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
O quadrado médio dos resíduos é igual a 36 (dado no enunciado).<br />
Logo:<br />
Com isso já podemos marcar a letra D.<br />
SQ Re siduos<br />
QM Re siduos <br />
36<br />
18<br />
SQRe siduos 18 36 648<br />
X 648<br />
O quadrado médio dos resíduos é 36 (dado no enunciado). Portanto, Y = 36.<br />
A soma de quadrados total é de 2826 (dado enunciado). Portanto, a soma de<br />
quadrados da regressão é:<br />
A estatística F fica:<br />
Gabarito: D<br />
SQRe gressao SQTotal SQRe<br />
siduos<br />
SQRe gressao 2826 648 2178<br />
QM Re gressao SQ Re gressao / 1 2178<br />
F _ teste <br />
<br />
60,5<br />
QM Re siduos 36 36<br />
9. CAPES <strong>20</strong>08 [CESGRANRIO]<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 36
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
O Coeficiente de Correlação Linear de Pearson entre os desempenhos de<br />
determinados alunos em duas avaliações nacionais é igual a 0,844. Nesse<br />
caso, conclui-se que a proporção da variabilidade nos resultados de uma das<br />
avaliações explicada pela relação linear entre elas é<br />
(A) 15,6%<br />
(B) 39,4%<br />
(C) 71,2%<br />
(D) 84,4%<br />
(E) 91,8%<br />
Resolução.<br />
O coeficiente de determinação é o quadrado do coeficiente de correlação.<br />
Gabarito: C<br />
10. PETROBRAS <strong>20</strong>08 [CESGRANRIO]<br />
2<br />
2<br />
r 0,<br />
844 0,712<br />
Um modelo de regressão linear simples de Y em X, com uma variável<br />
explicativa e o termo constante, foi estimado com 32 observações, gerando um<br />
r 2 de 0,25. No teste de validade do modelo, o F-calculado ou F-observado é<br />
igual a<br />
(A) 10<br />
(B) 11<br />
(C) 12<br />
(D) 13<br />
(E) 14<br />
Resolução.<br />
r<br />
2 <br />
SQ Re gressao<br />
SQTotal<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 37
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
Lembrando que:<br />
Logo:<br />
A estatística F fica:<br />
Gabarito: A<br />
0, 25 <br />
SQ Re gressao<br />
SQTotal<br />
SQRe<br />
gressao SQtotal 0,<br />
25<br />
SQTotal SQRe<br />
gressao SQRe<br />
siduos<br />
SQRe siduos 0,<br />
75<br />
SQTotal<br />
QM Re gressao SQ Re gressao / 1 0,<br />
25<br />
SQtotal<br />
F _ teste <br />
<br />
<br />
10<br />
QM Re siduos SQ Re siduos /( 32 2)<br />
0,<br />
75<br />
SQTotal / 30<br />
11. BNDES <strong>20</strong>08/2 [CESGRANRIO – questão adaptada]<br />
Um experimento foi realizado com o objetivo de estimar o preço de uma ação,<br />
dado o seu valor patrimonial, ambos em reais.<br />
Uma amostra de ações negociadas recentemente forneceu dados sobre o preço<br />
e o valor patrimonial por ação. Aplicou-se o modelo de regressão linear simples<br />
Y X<br />
. Alguns resultados da tabela da análise da variância, obtida a<br />
partir dos dados dessa amostra, estão apresentados a seguir.<br />
Julgue os itens abaixo:<br />
I – O coeficiente de determinação mostra que o modelo proposto explica<br />
aproximadamente 63% da variabilidade total.<br />
II – O valor da estatística Fcalculado é 100, e a conclusão do teste é que a<br />
variável valor patrimonial é significativa, isto é, deve-se rejeitar a hipótese<br />
nula H : 0 .<br />
0<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 38
Resolução.<br />
Primeiro item.<br />
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
O coeficiente de determinação fica:<br />
SQRe gressao QM Re gressao / 1<br />
SQRe<br />
gressao <br />
56.<br />
000<br />
2 SQ Re gressao 56.<br />
000<br />
r <br />
= 0,63<br />
SQTotal 88.<br />
480<br />
Portanto, 63% da variação é explicada pela reta de regressão. Ou seja, o<br />
modelo de regressão explica 63% da variabilidade total. O primeiro item está<br />
certo.<br />
Segundo item.<br />
A estatística F fica:<br />
SQRe siduos SQTotal SQRe<br />
gressao<br />
SQRe<br />
siduos 88.<br />
480 56.<br />
000 <br />
32.<br />
480<br />
QM Re gressao SQ Re gressao / 1 56.<br />
000<br />
F _ teste <br />
<br />
100<br />
QM Re siduos SQ Re siduos /( 60 2)<br />
32.<br />
480 / 58<br />
O segundo item também está certo.<br />
Gabarito: Certo, certo<br />
Embora esta informação não tenha sido necessária para resolver a questão,<br />
vamos falar sobre o Fsig, que aparece na tabela.<br />
O valor de Fsig nada mais é que o valor descritivo do teste de hipóteses para<br />
0 . Ou seja, é a probabilidade de uma variável com distribuição F, com 1<br />
grau de liberdade no numerador e 58 no denominador, assumir valores<br />
maiores que 100 (que é a estatística teste).<br />
12. SEFAZ SP <strong>20</strong>09 [ESAF]<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 39
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
Uma amostra aleatória simples (X1, Y1), (X2, Y2), ..., (Xn, Yn) de duas variáveis<br />
aleatórias X e Y forneceu as seguintes quantidades:<br />
n<br />
<br />
i1<br />
n<br />
<br />
i1<br />
n<br />
<br />
i1<br />
X X<br />
i<br />
Y Y<br />
i<br />
X X <br />
i<br />
414<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 40<br />
2<br />
2<br />
359<br />
Y<br />
345<br />
Calcule o valor mais próximo do coeficiente de determinação da regressão<br />
linear de Y em X.<br />
a) 0,88<br />
b) 0,92<br />
c) 0,85<br />
d) 0,80<br />
e) 0,83<br />
Resolução:<br />
No caso do modelo usual de regressão linear, o coeficiente de determinação é<br />
igual ao quadrado do coeficiente de correlação.<br />
Aqui a questão explora outra igualdade envolvendo somatórios.<br />
O numerador da fórmula do coeficiente de correlação é:<br />
n<br />
<br />
i1<br />
Fazendo a multiplicação, ficamos com:<br />
n<br />
<br />
i1<br />
X X Y Y<br />
<br />
i<br />
X X Y X X Y<br />
<br />
i<br />
Separando o somatório da diferença em diferença de somatórios:<br />
i<br />
n<br />
n<br />
= X X Y<br />
X X Y<br />
<br />
<br />
i1<br />
i<br />
i<br />
i<br />
<br />
i1<br />
i<br />
i<br />
i
RACIOCÍNIO LÓGICO QUANTITATIVO DIRETO AO PONTO<br />
PROFESSOR: GUILHERME NEVES<br />
A média de Y é constante e pode “sair” do somatório:<br />
n<br />
n<br />
= X X Y<br />
Y X X <br />
<br />
i1<br />
A soma dos desvios em relação à média de X é igual a zero:<br />
i<br />
Prof. Guilherme Neves www.pontodosconcursos.com.br 41<br />
i<br />
<br />
i1<br />
n<br />
= X X Y<br />
Y 0<br />
<br />
i1<br />
i<br />
n<br />
= X X Y<br />
<br />
Logo, outra fórmula para o coeficiente de correlação seria:<br />
r <br />
n<br />
<br />
i1<br />
n<br />
<br />
i1<br />
i<br />
X X Y <br />
n<br />
2<br />
X X Y Y <br />
i <br />
i1<br />
i1<br />
E, para esta fórmula, o enunciado já deu todas as contas prontas:<br />
r <br />
Elevando o coeficiente ao quadrado:<br />
Fazendo a primeira divisão, temos:<br />
r<br />
r<br />
2<br />
2<br />
<br />
<br />
i<br />
345<br />
414<br />
359<br />
345<br />
414<br />
0,<br />
83<br />
O “0,83” está sendo multiplicado por um número menor que 1. Toda vez que<br />
multiplicamos um número por outro que seja menor que 1, o número original<br />
diminui. Logo, a resposta procurada será menor que 0,83. A única opção é a<br />
letra D.<br />
Gabarito: D<br />
<br />
<br />
i<br />
345<br />
359<br />
345<br />
359<br />
i<br />
i<br />
i<br />
i<br />
2