4 Método dos quadrados mínimos
4 Método dos quadrados mínimos
4 Método dos quadrados mínimos
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
4.7 - AJUSTE DE CURVAS PELO MÉTODO DOS QUADRADOS MÍNIMOS<br />
Introdução<br />
Vimos, no capítulo anterior, que uma forma de se trabalhar com uma função<br />
definida por uma tabela de valores é a interpolação polinomial.<br />
Contudo, a interpolação não é aconselhável quando:<br />
a) é preciso obter um valor aproximado da função em algum ponto fora do<br />
intervalo de tabelamento, ou seja, quando se quer extrapolar;<br />
b) os valores tabela<strong>dos</strong> são resulta<strong>dos</strong> de algum experimento físico ou de alguma<br />
pesquisa, porque, nestes casos, estes valores poderão conter erros inerentes<br />
que, em geral, não são previsíveis.<br />
Surge então a necessidade de se ajustar a estas funções tabeladas uma função que<br />
seja uma “boa aproximação” para os valores tabela<strong>dos</strong> e que nos permita “extrapolar” com<br />
certa margem de segurança.<br />
4.7.1 - <strong>Método</strong> <strong>dos</strong> quadra<strong>dos</strong> <strong>mínimos</strong><br />
4.7.1.1- O Caso discreto<br />
Sejam da<strong>dos</strong> os pontos (x 1 , f(x 1 )), (x 2 , f(x 2 )), ..., (x m , f(x m )) e as n funções g 1 (x),<br />
g2(x), ..., gn(x) escolhidas de alguma forma.<br />
Consideraremos que o número de pontos m, tabela<strong>dos</strong>, é sempre maior ou igual a n<br />
o número de funções escolhidas ou o número de coeficientes α i a se determinar.<br />
Nosso objetivo é encontrar os coeficientes α 1 , α 2 , ..., α n tais que a função ϕ(x) =<br />
α 1 g 1 (x) + α 2 g 2 (x) + ... + α n g n (x) se aproxime ao máximo de f(x).<br />
Seja dk = f(xk) – ϕ(xk) o desvio em xk. Vamos observar que, um conceito de<br />
proximidade é que d k seja mínimo para todo k = 1, 2, ..., m.<br />
O método <strong>dos</strong> quadra<strong>dos</strong> <strong>mínimos</strong> consiste em escolher os α j´s de tal forma que a<br />
soma <strong>dos</strong> quadra<strong>dos</strong> <strong>dos</strong> desvios seja mínima. É claro que se a soma<br />
m m<br />
2<br />
2<br />
∑ d k = ∑ (f (x k ) − ϕ(xk<br />
)) é mínima, teremos que cada parcela [f(x k ) – ϕ(x k )] 2 é<br />
k=<br />
1 k=<br />
1<br />
pequena, donde cada desvio [f(xk) – ϕ(xk)] é pequeno.<br />
Portanto, dentro do critério <strong>dos</strong> quadra<strong>dos</strong> <strong>mínimos</strong>, os coeficientes α k , que fazem<br />
com que ϕ(x) se aproxime ao máximo de f(x), são os que minimizam a função<br />
m<br />
F(<br />
α α α = ∑ − ϕ 2<br />
1 , 2,<br />
K , n ) [f (xk<br />
) (x k )] =<br />
k=<br />
1<br />
m<br />
= ∑[ f (x − α − α − − α<br />
2<br />
k ) 1g1(xk<br />
) 2g2<br />
(x k ) K ng<br />
n (xk<br />
)] .<br />
k = 1<br />
96
Observamos que, se o modelo ajustar exatamente os da<strong>dos</strong>, o mínimo da função<br />
acima será zero e, portanto, a interpolação é um caso especial dentro do método <strong>dos</strong><br />
quadra<strong>dos</strong> <strong>mínimos</strong>.<br />
Usando o Cálculo Diferencial, sabemos que, para obter um ponto de mínimo de<br />
F(α 1, α 2, ..., α n), temos de, inicialmente, encontrar seus pontos críticos, ou seja, os (α 1, α 2,<br />
..., α n ) tais que<br />
temos<br />
∂F<br />
= 0 , j = 1, 2, ..., n.<br />
∂α j ( α1,<br />
α2<br />
, K,<br />
αn<br />
)<br />
Calculando estas derivadas parciais para cada j = 1, 2, ..., n, temos<br />
m<br />
∂F<br />
= 2∑[f (xk<br />
) − α1g1(xk<br />
) − K − α ngn<br />
(x k )]<br />
∂α j ( α , α , , α ) k = 1<br />
1 2 K n<br />
Impondo a condição<br />
∂F<br />
∂α j ( α1,<br />
α2<br />
, K,<br />
αn<br />
)<br />
= 0 , j = 1, 2, ..., n.<br />
m<br />
∑[ f (x k ) − α1g1(x<br />
k ) −K − αng<br />
n (xk<br />
)][g j (x k )] = 0 , j = 1, 2, ..., n.<br />
k = 1<br />
Assim,<br />
m<br />
⎫<br />
∑[f(x<br />
k ) − α1g1(x<br />
k ) −...<br />
− αngn<br />
(xk<br />
)]g1(x<br />
k ) = 0⎪<br />
k=<br />
1<br />
⎪<br />
m<br />
⎪<br />
∑[f<br />
(xk<br />
) − α1g1(x<br />
k ) − ... − α ngn<br />
(x k )]g2<br />
(x k ) = 0⎪<br />
⎬ ⇒<br />
k = 1<br />
⎪<br />
M<br />
m<br />
⎪<br />
⎪<br />
∑[f(x<br />
k ) − α1g1(xk<br />
) − ... − αng<br />
n (xk<br />
)]g n (x k ) = 0<br />
⎪<br />
k=<br />
1<br />
⎭<br />
⎧ m<br />
m<br />
⎪ [ ∑ g1(x<br />
k )g1(xk<br />
)] α1<br />
+ K + [ ∑g<br />
n (xk<br />
)g1(xk<br />
)] α n<br />
⎪ k=<br />
1<br />
k=<br />
1<br />
⎪ m<br />
m<br />
⎪<br />
⇒<br />
[<br />
α + +<br />
α<br />
⎨ ∑ g1(x<br />
k )g 2 (x k )] 1 K [ ∑ gn<br />
(x k )g2<br />
(xk<br />
)] n<br />
⎪ k=<br />
1<br />
k=<br />
1<br />
⎪ m<br />
m<br />
⎪<br />
⎪<br />
[ ∑ gn<br />
(x k )g1(xk<br />
)] α1<br />
+ K + [ ∑g<br />
n (xk<br />
)gn<br />
(xk<br />
)] α n<br />
⎩ k=<br />
1<br />
k=<br />
1<br />
m<br />
= ∑ f (x k )g1(x<br />
k )<br />
k = 1<br />
m<br />
= ∑ f (x k )g2<br />
(xk<br />
)<br />
k = 1<br />
M<br />
m<br />
= ∑ f (x k )gn<br />
(x k )<br />
k = 1<br />
que é um sistema linear com n equações e n incógnitas: α 1, α 2, ..., α n.<br />
97
As equações deste sistema linear são as chamadas equações normais.<br />
O sistema linear acima pode ser escrito na forma matricial Aα = b:<br />
⎧ a11α1<br />
+ a12α<br />
2 + K + a1n<br />
αn<br />
⎪<br />
a 21α1<br />
+ a 22α2<br />
+ K + a 2n αn<br />
⎨<br />
⎪<br />
⎪<br />
⎩a<br />
n1α1<br />
+ a n 2α<br />
2 + K + a nnαn<br />
= b1<br />
= b 2<br />
M<br />
= b n<br />
m<br />
onde A = (a ij ) é tal que a ij = ∑ g j(xk<br />
)gi<br />
(xk<br />
) = aij<br />
(ou seja, A é simétrica)<br />
k=<br />
1<br />
α = (α 1 , α 2 , ..., α n ) t e b = (b 1 , b 2 , ..., b n ) t é tal que<br />
m<br />
bi = ∑ f (xk )gi<br />
(x k ) .<br />
k = 1<br />
Lembramos que, da<strong>dos</strong> os vetores x e y ∈ R m , o número real<br />
chamado de produto escalar de x por y.<br />
Usando esta notação, o sistema normal Aα = b ficará expresso por<br />
x , y = ∑<br />
m<br />
x i y i é<br />
i=<br />
1<br />
A =<br />
( a ij)<br />
= gi,<br />
g j e b = (b i ) = f , gi<br />
onde<br />
g l é o vetor (g l (x1)g l (x2) ... g l (xm)) T e f, o vetor (f(x1)f(x2) ... f(xm)) T .<br />
Demonstra-se que, se as funções g 1 (x), ..., g n (x) forem tais que os vetores<br />
g1,<br />
g 2,<br />
K , g n sejam linearmente independentes, então o determinante da matriz A é<br />
diferente de zero e, portanto, o sistema linear<br />
⎧ m<br />
m<br />
⎪ [ ∑g1(xk<br />
)g1(x<br />
k )] α1<br />
+ K+<br />
[ ∑ gn<br />
(x k )g1(xk<br />
)] αn<br />
⎪ k=<br />
1<br />
k=<br />
1<br />
⎪ m<br />
m<br />
⎪[<br />
α + +<br />
α<br />
⎨<br />
∑g1(xk<br />
)g2<br />
(x k )] 1 K [ ∑g<br />
n (xk<br />
)g2<br />
(xk<br />
)] n<br />
k=<br />
1<br />
k = 1<br />
⎪<br />
⎪ m<br />
m<br />
⎪<br />
⎪<br />
[ ∑g<br />
n (xk<br />
)g1(x<br />
k )] α1<br />
+ K+<br />
[ ∑ gn<br />
(x k )g n (xk<br />
)] αn<br />
⎩ k = 1<br />
k=<br />
1<br />
m<br />
= ∑ f (x k )g1(x<br />
k )<br />
k = 1<br />
m<br />
= ∑ f (x k )g2<br />
(x k )<br />
k = 1<br />
M<br />
m<br />
= ∑ f (x k )gn<br />
(x k )<br />
k = 1<br />
98
admite solução única:<br />
α K . Ainda mais, demonstra-se também que esta solução<br />
1 , , αn<br />
α1 , K , αn<br />
é o ponto em que a função F( 1 , , αn<br />
α K ) atinge seu valor mínimo.<br />
Observamos que, se os vetores g1,<br />
g 2,<br />
K , g n tiverem uma propriedade<br />
suplementar de serem tais que g i , g j : ⎨ ⎧ = 0, i ≠ j<br />
⎩ ≠ 0,i = , o que, em linguagem de álgebra linear<br />
j<br />
se diz “se os vetores g1,g<br />
2,<br />
K , g n forem ortogonais entre si”, então a matriz A do sistema<br />
normal será matriz diagonal, com aii ≠ 0 e, portanto, o sistema terá solução única, a qual<br />
será facilmente determinada.<br />
Felizmente, dado um conjunto de pontos {x1, x2, ..., xm} é fácil construir<br />
polinômios de grau 0, 1, ..., n que são ortogonais, no sentido acima, em relação ao produto<br />
escalar<br />
g i , g j = ∑<br />
m<br />
g i (x k )g j(xk<br />
) .<br />
k = 1<br />
Polinômios ortogonais constituem uma classe particular de funções ortogonais.<br />
Tais funções possuem várias propriedades muito interessantes e úteis. O leitor interessado<br />
em aprender sobre o assunto pode pesquisar, por exemplo, nos livros [5] e [27]. O estudo<br />
de funções ortogonais, em particular de polinômios ortogonais, merece um capítulo<br />
especial, o que será feito aqui.<br />
Exemplo 4.7.1:<br />
Seja o conjunto de pontos X5 = {–1, – ½, 0, ½, 1} e os polinômios<br />
g 0 (x) = 1; g 1 (x) = x, g 2 (x) = x 2 – ½<br />
Então, os polinômios g 0 (x), g 1 (x) e g 2 (x) são funções ortogonais em X 5 com<br />
relação ao produto escalar g i , g j = ∑<br />
m<br />
g i (x k )g j(xk<br />
) pois os vetores<br />
k = 1<br />
g 0 = (g 0 (x i )) = (1 1 1 1 1) T<br />
g 1<br />
= (g 1 (x i )) = (–1 – ½ 0 ½ 1) T e<br />
g 2 = (g 2 (x i )) = ( ½ – ¼ – ½ –¼ ½ ) T são ortogonais entre si, o que se verifica<br />
facilmente:<br />
g 0 , g 0 = 5 ≠ 0<br />
g 0 , g 1 = 1(– 1) + 1(–½ ) + 1(0) + 1(½) + 1(1) = 0<br />
g 0 , g 2 = 1(½) + 1(–¼) + 1(–½) + 1(–¼) + 1(½) = 0<br />
Fica a cargo do leitor fazer as demais verificações.<br />
99
P =<br />
Os polinômios cita<strong>dos</strong> são conheci<strong>dos</strong> como polinômios de Gram, { im} m i 0<br />
2 i<br />
ortogonais em conjuntos de pontos eqüidistantes, xi = –1 + . m<br />
Assim,<br />
Pi<br />
,m , Pj,<br />
m<br />
⎧=<br />
0<br />
⎨<br />
⎩≠<br />
0<br />
se i ≠<br />
j<br />
≠<br />
Exemplo 4.7.2:<br />
Seja a função tabelada<br />
x –1.0 –0.75 –0.6 –0.5 –0.3 0 0.2 0.4 0.5 0.7 1.0<br />
f(x) 2.05 1.153 0.45 0.4 0.5 0 0.2 0.6 0.512 1.2 2.05<br />
Feito o diagrama de dispersão, deve ser ajustada por uma parábola passando pela<br />
origem, ou seja, f(x) = ϕ(x) = αx 2 (neste caso temos apenas uma função g(x) = x 2 ).<br />
Temos, pois, de resolver apenas a equação<br />
11<br />
11<br />
[ ∑ g(xk )g(x k )] α = ∑ f (x k )g(xk<br />
)<br />
k=<br />
1<br />
k = 1<br />
11<br />
11<br />
2<br />
[ ∑g(x<br />
k ) ] α = ∑f<br />
(xk<br />
)g(x k )<br />
k−1<br />
k=<br />
1<br />
11<br />
11<br />
[ ∑(x<br />
2 ) 2]<br />
α = 2<br />
∑ (x )f (x<br />
k<br />
k k )<br />
k=<br />
1<br />
k = 1<br />
Continuando a tabela com g(xk)g(xk) e g(xk)f(xk), temos<br />
x –1.0 –0.75 –0.6 –0.5 –0.3 0 0.2 0.4 0.5 0.7 1.0<br />
Somas<br />
(x 2 )(x 2 ) 1 0.3164 0.1296 0.0625 0.0081 0 0.0016 0.0256 0.0625 0.2401 1.0 2.8464<br />
f(x)x 2 2.05 0.6486 0.162 0.1 0.045 0 0.008 0.096 0.128 0.0588 2.05 5.8756<br />
5.8756<br />
Assim, nossa equação é 2.0642α = 5.8756 ⇒ α = ≈ 2.0642<br />
2.8464<br />
Então ϕ(x) =2.0642x 2 é a parábola que melhor se aproxima, no sentido <strong>dos</strong><br />
quadra<strong>dos</strong> <strong>mínimos</strong>, da função tabelada.<br />
4.7.1.2- O Caso Contínuo<br />
Para simplificar a notação, desenvolveremos aqui o caso em que “escolhemos”<br />
apenas duas funções.<br />
100
Sejam então f(x) contínua em um intervalo [a, b] e g 1 (x) e g 2 (x) duas funções<br />
contínuas em [a, b] que foram escolhidas de alguma forma. É preciso encontrar duas<br />
constantes reais α 1 e α 2 tais que ϕ(x) = α 1 g 1 (x) + α 2 g 2 (x) esteja o “mais próximo possível”<br />
de f(x).<br />
Seguindo o critério <strong>dos</strong> quadra<strong>dos</strong> <strong>mínimos</strong> para o conceito de proximidade entre<br />
ϕ(x) e f(x), os coeficientes α 1 e α 2 a serem obti<strong>dos</strong> deverão ser tais que o valor de<br />
b<br />
∫ [ f(x) − ϕ (x)]<br />
2 dx seja o menor possível.<br />
a<br />
Geometricamente, isto significa que a área entre as curvas f(x) e ϕ(x) seja mínima.<br />
Portanto, o problema consiste em obter o mínimo para<br />
b<br />
b<br />
2<br />
2<br />
2<br />
∫ [ f(x) − ϕ(x)]<br />
dx = ∫[f(x)<br />
− 2f (x) ϕ(x)<br />
+ ϕ(x)<br />
]dx =<br />
a<br />
a<br />
b<br />
2<br />
2 2<br />
= ∫ { f (x) − 2f(x)[ α1g1(x)<br />
+ α2g2<br />
(x)] + α1<br />
g1<br />
(x) +<br />
a<br />
2 2<br />
+ 2α1α2g1(x)g2<br />
(x) + α2g2<br />
(x)}dx<br />
b<br />
b<br />
b<br />
= 2<br />
∫f<br />
(x) dx − [2∫<br />
f (x)g1(x)dx]<br />
α1<br />
− [2 ∫ f(x)g2<br />
(x)dx] α2<br />
+<br />
a<br />
a<br />
a<br />
b<br />
b<br />
b<br />
+ 2 2<br />
2<br />
[ ∫ g1 (x)dx] α1<br />
+ [2∫<br />
g1(x)g2<br />
(x)dx] α1α2<br />
+ [ ∫ g 2(x)dx]<br />
= F( α1,<br />
α2<br />
)<br />
a<br />
a<br />
a<br />
b<br />
⇒<br />
2<br />
∫ [ f (x) − ϕ(x)]<br />
dx = F( α1,<br />
α2<br />
)<br />
a<br />
Com o mesmo argumento do caso discreto, temos de achar os pontos críticos de F,<br />
ou seja, achar (α 1, α 2) tal que<br />
∂F<br />
∂αi<br />
( α1,<br />
α2<br />
)<br />
= 0 , i = 1, 2.<br />
b<br />
b<br />
∂F<br />
2<br />
i = 1 ⇒ = −2<br />
+<br />
α +<br />
∂α ∫f<br />
(x)g1(x)dx<br />
[2∫<br />
g1<br />
(2)dx] 1<br />
1 ( α , α ) a<br />
a<br />
1<br />
2<br />
+ [ 2∫ g 1 (x)g 2 (x)dx]<br />
α 2<br />
Assim,<br />
∂F<br />
∂α1<br />
∂F<br />
= = 0 ⇒<br />
∂α<br />
( α1,<br />
α2<br />
) 2 ( α1,<br />
α2<br />
)<br />
101
⎧ b<br />
b<br />
2<br />
⎪[<br />
∫g1<br />
(x)dx] α1<br />
+ [ ∫ g1(x)g2<br />
(x)dx] α2<br />
⎪<br />
a<br />
a<br />
⎨<br />
b<br />
b<br />
⎪<br />
⎪[<br />
∫g<br />
α + 2<br />
1(x)g2(x)dx]<br />
1 [ ∫ g2<br />
(x)dx] α2<br />
⎪⎩<br />
a<br />
a<br />
b<br />
= ∫ f(x)g1(x)dx<br />
a<br />
b<br />
= ∫ f(x)g2<br />
(x)dx<br />
a<br />
b<br />
b<br />
b<br />
2<br />
Se a 11 = ∫ g1<br />
(x) dx , a 12 = ∫ g1(x)g2(x)dx = ∫ g 2(x)g1(x)dx<br />
= a 21<br />
a<br />
a<br />
a<br />
b<br />
2<br />
a 22 = ∫g<br />
2(x)<br />
dx<br />
a<br />
b<br />
b<br />
b 1 = ∫ f (x)g1(x)<br />
dx e b 2 = ∫ f(x)g2<br />
(x) dx ,<br />
a<br />
a<br />
podemos escrever o sistema linear acima como<br />
⎧a11α1<br />
+ a12α2<br />
= b1<br />
⎨<br />
⎩a<br />
21α1<br />
+ a 22α2<br />
= b2<br />
⎛ a11<br />
ou Aα = b, onde A = ⎜<br />
⎝ a 21<br />
a12<br />
a 22<br />
⎞<br />
⎟<br />
⎠<br />
α = (α 1 α 2 ) T , b = (b 1 b 2 ) T .<br />
Demonstra-se que, se as funções escolhidas g1(x) e g2(x) forem linearmente<br />
independentes, o determinante da matriz A é diferente de zero, o que implica que o sistema<br />
linear admite única solução ( α 1,<br />
α2)<br />
. Ainda mais, demonstra-se também que esta solução<br />
é o ponto em que a função F(α 1, α 2) atinge seu valor mínimo.<br />
Usando aqui a definição de produto escalar de duas funções p(x) e q(x) no<br />
intervalo [a, b] por<br />
b<br />
p , q = ∫ p(x)q(x)dx ,<br />
a<br />
teremos que, no caso em que queremos aproximar<br />
f(x) ≈ α 1 g 1 (x) + ... + α n g n (x) o sistema normal Aα = b fica<br />
A = (a ij ) = g i , g j<br />
b<br />
= ∫ gi<br />
(x)g j(x)dx<br />
=<br />
a<br />
b<br />
b = (bi) = f , gi<br />
= ∫f<br />
(x)gi<br />
(x) dx .<br />
a<br />
g j,<br />
gi<br />
102
Da mesma forma que no caso discreto, temos funções ortogonais com relação ao<br />
produto escalar, como mostrará o exemplo abaixo.<br />
Exemplo 4.7.3:<br />
Os polinômios de Legendre, defini<strong>dos</strong> por<br />
(k)<br />
1 d<br />
P 0 (x) ≡ 2 k<br />
1, P k (x) =<br />
[(x − 1)] , k = 1, 2, ...<br />
k (k)<br />
2 k! dx<br />
b<br />
são ortogonais em [–1, 1], com relação ao produto escalar p , q = ∫ p(x)q(x)dx .<br />
a<br />
Fica como exercício a verificação de que os três primeiros polinômios de Legendre<br />
P0(x) ≡ 1, P1(x) = x e P2(x) = 1 (3x<br />
2 − 1)<br />
são ortogonais entre si.<br />
2<br />
Uma observação interessante é que, em geral, polinômios ortogonais satisfazem<br />
uma fórmula de recorrência de 3 termos, ou seja, da<strong>dos</strong> P 0 (x) e P 1 (x), conseguimos<br />
construir P k (x), k = 2, 3, ...<br />
No caso <strong>dos</strong> polinômios de Legendre, a fórmula de recorrência é<br />
⎛ 2j + 1⎞<br />
⎛ j ⎞<br />
P j + 1 (x) = ⎜ ⎟xP<br />
j(x)<br />
− ⎜ ⎟Pj−1<br />
(x)<br />
, j = 1, 2, ...<br />
⎝ j + 1 ⎠ ⎝ j + 1⎠<br />
Exemplo 4.7.4:<br />
Vamos aproximar f(x) = 4x 3<br />
intervalo [a, b] = [0, 1].<br />
por um polinômio do primeiro grau, uma reta, no<br />
ϕ(x) = α 1 g 1 (x) + α 2 g 2 (x) = α 1 + α 2 x, α 1 , α 2 ∈ R<br />
(g 1 (x) ≡ 1 g 2 (x) = x).<br />
Pelo que vimos, (α 1 , α 2 ) é a única solução de Aα = b onde<br />
A =<br />
⎡a11<br />
⎢<br />
⎣a21<br />
a12<br />
⎤<br />
a<br />
⎥<br />
22 ⎦<br />
α =<br />
⎡α1<br />
⎤<br />
⎢ ⎥<br />
⎣α2<br />
⎦<br />
b =<br />
⎡b1<br />
⎤<br />
⎢ ⎥ , sendo<br />
⎣b2<br />
⎦<br />
a 11 =<br />
a 12 =<br />
b<br />
1<br />
2<br />
1 = 1<br />
∫ g (x)dx ∫1dx<br />
=<br />
a<br />
b<br />
0<br />
1 2<br />
1<br />
x 1<br />
1 a 21<br />
2 2<br />
0<br />
0<br />
∫ g (x)g2<br />
(x)dx = ∫ xdx = = =<br />
a<br />
103
a 22 =<br />
b<br />
1 3<br />
1<br />
2<br />
2 x<br />
∫ g 2 (x)dx = ∫ x dx = =<br />
3<br />
a<br />
0<br />
0<br />
1<br />
3<br />
b<br />
1<br />
4<br />
1<br />
3 4x<br />
b1 = ∫ f (x)g1(x)dx<br />
= ∫ 4x dx = = 1<br />
4<br />
a<br />
0<br />
0<br />
b<br />
1<br />
5<br />
1<br />
3 4x 4<br />
b2 = ∫ f (x)g2<br />
(x)dx = ∫ 4x xdx = =<br />
5 5<br />
a<br />
0<br />
0<br />
Temos então o sistema<br />
⎧ 1<br />
⎪<br />
1α<br />
1 + α2<br />
= 1<br />
2<br />
⎨<br />
⎪1<br />
1 4<br />
α + α =<br />
1 2<br />
⎩ 2 3 5<br />
4 18<br />
⇒ α1 = − , α2<br />
= .<br />
5 5<br />
Logo, a aproximação por quadra<strong>dos</strong> <strong>mínimos</strong> de f(x) = 4x 3 no intervalo [0, 1], por<br />
18 4<br />
um polinômio de grau 1, é a reta ϕ(x) = x − .<br />
5 5<br />
4.7.3- O Caso Não Linear<br />
Em alguns casos, a família de funções escolhidas pode ser não linear nos<br />
parâmetros, como, por exemplo, se ao diagrama de dispersão de uma determinada função se<br />
ajustar uma exponencial do tipo f(x) ≈ ϕ(x) = α1e –α 2 x , α 1 e α 2 positivos.<br />
Para se aplicar o método <strong>dos</strong> quadra<strong>dos</strong> <strong>mínimos</strong>, é necessário que se efetue uma<br />
linearização do problema através de alguma transformação conveniente.<br />
Por exemplo:<br />
y ≈ α 1 e –α 2 x ⇒ z = ln(y) ≈ ln(α 1 ) – α 2 x.<br />
Se a1 = ln(α 1) e a2 = – α 2 ⇒ ln(y) ≈ a1 – a2x = φ(x) que é um problema linear nos<br />
parâmetros a 1 e a 2 .<br />
O método <strong>dos</strong> quadra<strong>dos</strong> <strong>mínimos</strong> pode então ser aplicado na resolução do<br />
problema linearizado. Obti<strong>dos</strong> os parâmetros deste problema, usaremos estes valores para<br />
calcular os parâmetros originais.<br />
É importante observar que os parâmetros assim obti<strong>dos</strong> não são ótimos dentro do<br />
critério <strong>dos</strong> quadra<strong>dos</strong> <strong>mínimos</strong>, isto porque estamos ajustando o problema linearizado por<br />
quadra<strong>dos</strong> <strong>mínimos</strong> e não o problema original.<br />
Portanto, no exemplo, os parâmetros a 1 e a 2 são os que ajustam a função φ(x) à<br />
função z(x) no sentido <strong>dos</strong> quadra<strong>dos</strong> <strong>mínimos</strong>; não se pode afirmar que os parâmetros α 1 e<br />
α 2 (obti<strong>dos</strong> através de a 1 e a 2 ) são os que ajustam ϕ(x) à f(x) dentro do critério <strong>dos</strong><br />
quadra<strong>dos</strong> <strong>mínimos</strong>.<br />
104
Exemplo 4.7.5:<br />
Suponhamos que num laboratório obtivemos experimentalmente os seguintes<br />
valores para f(x) sobre os pontos x i , i = 1, 2, ..., 8:<br />
x –1.0 –0.7 –0.4 –0.1 0.2 0.5 0.8 1.0<br />
f(x) 36.547 17.264 8.155 3.852 1.820 0.860 0.406 0.246<br />
Fazendo o diagrama de dispersão <strong>dos</strong> da<strong>dos</strong> acima, obtemos<br />
y<br />
Figura 4.7.1 – diagrama de dispersão <strong>dos</strong> da<strong>dos</strong> da tabela dada.<br />
x<br />
Os da<strong>dos</strong> nos sugere um ajuste y ≈ ϕ(x) = α 1 e –α 2 x .<br />
Conforme vimos anteriormente, a “linearização” a ser feita é<br />
z = ln(y) ≈ ln(α 1e –α 2 x ) = ln(α 1) – α 2x = φ(x).<br />
Assim, em vez de ajustarmos y por quadra<strong>dos</strong> <strong>mínimos</strong>, ajustaremos z = ln(y) por<br />
quadra<strong>dos</strong> <strong>mínimos</strong>, encontrando φ(x) = a 1 + a 2 x, onde a 1 = ln (α 1 ) e a 2 = –α 2 . (Aqui g 1 (x)<br />
= 1 e g 2 (x) = x).<br />
Temos pois:<br />
x –1.0 –0.7 –0.4 –0.1 0.2 0.5 0.8 1.0<br />
z = ln(y) 3.599 2.849 2.099 1.349 0.599 –0.151 –0.901 –1.402<br />
e a1 e a2 serão a solução do sistema:<br />
105
⎧ 8<br />
8<br />
8<br />
⎪[<br />
∑g1(xk<br />
)g1(x<br />
k )]a1<br />
+ [ ∑ g2<br />
(xk<br />
)g1(x<br />
k )]a 2 = ∑ z(xk<br />
)g1(xk<br />
)<br />
⎪ k = 1<br />
k=<br />
1<br />
k=<br />
1<br />
⎨<br />
8<br />
8<br />
8<br />
⎪<br />
⎪[<br />
∑g1(xk<br />
)g2<br />
(xk<br />
)]a 1 + [ ∑ g 2(x<br />
k )g 2(x<br />
k )]a 2 = ∑ z(xk<br />
)g2<br />
(xk<br />
)<br />
⎩ k = 1<br />
k = 1<br />
k=<br />
1<br />
8<br />
g 1 (x) = 1 ⇒ ∑ g1 (x k )g1(x<br />
k ) = ∑1=<br />
a11<br />
= 8<br />
k = 1<br />
k = 1<br />
8<br />
8<br />
g (x )g (x ) x2<br />
∑ 2 k 2 k = ∑ = a 22 = 3.<br />
k<br />
k = 1<br />
k=<br />
1<br />
g2(x) = x ⇒ 59<br />
8<br />
donde<br />
8<br />
8<br />
∑ g1(xk<br />
)g2<br />
(xk<br />
) = ∑1x<br />
k = a12<br />
= a 21 = 0.3<br />
k = 1<br />
k=<br />
1<br />
8<br />
8<br />
b 1 = ∑ z(x k )g1(x<br />
k ) = ∑ z(xk<br />
) = 8. 041<br />
k=<br />
1<br />
k=<br />
1<br />
8<br />
8<br />
b 2 = ∑ z (x k )g2<br />
(x k ) = ∑ z(xk<br />
)xk<br />
= −8.<br />
646<br />
k=<br />
1<br />
k=<br />
1<br />
⎡ 8 0.3 ⎤<br />
⎡ 8.041⎤<br />
A = ⎢ ⎥ b = ⎢ ⎥<br />
⎣0.3<br />
3.59⎦<br />
⎣− 8. 646 ⎦<br />
e o sistema fica<br />
⎧ 8.0a1<br />
+ 0.3a 2<br />
⎨<br />
⎩0.3a1<br />
+ 3.59a 2<br />
= 8.041<br />
= −8.646<br />
⇒ a 1 = 1. 099 e a 2 − 2. 5<br />
Agora, α 1 = e a 1 ⇒ α 1 = e 1.099 = 3.001<br />
α 2 = –a 2 ⇒ α 2 = 2.5.<br />
Assim, a função ϕ(x) = α 1e –α 2 x = 3.001e –2.5x<br />
Assim, como no exemplo anterior, onde ajustamos aos da<strong>dos</strong> a curva y ≈ α 1 e –α 2 x , é<br />
comum encontrarmos casos em que os da<strong>dos</strong> tabela<strong>dos</strong>, feito o diagrama de dispersão,<br />
devem ser ajusta<strong>dos</strong> por<br />
1<br />
1) Uma hipérbole: y ≈ = ϕ(x)<br />
α1<br />
+ α 2x<br />
106
1<br />
( z = ≈ α1 + α2x)<br />
x<br />
x<br />
2) Uma curva exponencial: y ≈ α 1 α 2 = ϕ(x)<br />
(se y > 0, z = ln(y) ≈ ln( α + α =<br />
123 1 ) x ln(<br />
14243<br />
2 ) a 1 + a 2 x = φ(x)).<br />
a<br />
1 a 2<br />
3) Uma curva geométrica: y ≈ α 1 x α 2 = ϕ(x)<br />
(se x > 0 e y > 0, z = ln(y) ≈ ln( α1 ) + α<br />
{ 2 ln( x)<br />
= a 12<br />
3 1 + a 2{<br />
ln( x)<br />
a1 a2<br />
t<br />
⇒ z = ln(y) ≈ a 1 + a 2 t = φ(t)).(Aqui minimizamos a soma <strong>dos</strong> quadra<strong>dos</strong> <strong>dos</strong><br />
desvios nos logaritmos de y, para os logaritmos de x.)<br />
4) Uma curva trigonométrica: y ≈ α 1 + α 2 cos(wx) = ϕ(x).(t = cos(wx) ⇒ ϕ(t) = α 1<br />
+ α 2t e, neste caso, estamos minimizando a soma <strong>dos</strong> quadra<strong>dos</strong> <strong>dos</strong> desvios<br />
em y.)<br />
4.7.4- Teste de Alinhamento<br />
Uma vez escolhida uma função linear em α 1, α 2, ..., α n para ajustar uma função<br />
dada, uma forma de verificarmos se a escolha feita foi razoável é aplicarmos o teste de<br />
alinhamento, que consiste em:<br />
i) fazer a “linearização” da função não linear escolhida;<br />
ii) fazer o diagrama de dispersão <strong>dos</strong> novos da<strong>dos</strong>;<br />
iii)se os pontos do diagrama (ii) estiverem alinha<strong>dos</strong>, isto significará que a função<br />
não linear escolhida foi uma “boa escolha”.<br />
Observamos que, devido aos erros de observação, e cálculos aproxima<strong>dos</strong>,<br />
consideramos satisfatório o diagrama de dispersão onde os pontos se distribuem<br />
aleatoriamente em torno de uma reta média.<br />
No exemplo 4.7.5, temos<br />
x –1.0 –0.7 –0.4 –0.1 0.2 0.5 0.8 1.0<br />
y 36.547 17.264 8.155 3.852 1.820 0.860 0.406 0.246<br />
z = ln(y) 3.599 2.849 2.099 1.349 0.599 –0.151 –0.901 –1.402<br />
107
z<br />
x<br />
Figura 4.7.2- diagrama de dispersão <strong>dos</strong> da<strong>dos</strong> da tabela dada.<br />
4.7.5- Exercícios<br />
Ver Ruggiero (página 287 a 291 – exercícios 01 ao 13)<br />
108