Artigo/Paper - UNESP
Artigo/Paper - UNESP
Artigo/Paper - UNESP
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
UM ESTUDO SOBRE O DESEMPENHO DE INTERVALOS DE<br />
CONFIANÇA BOOTSTRAP PARA A MÉDIA DE UMA DISTRIBUIÇÃO<br />
NORMAL USANDO AMOSTRAGEM POR CONJUNTOS ORDENADOS<br />
PERFEITAMENTE<br />
Luciana Cristina CESÁRIO 1<br />
Maria Cecília Mendes BARRETO 1<br />
RESUMO: O delineamento de amostras por conjuntos ordenados tem se mostrado eficiente na<br />
estimação de diversos parâmetros populacionais, entre eles a média, os parâmetros de um modelo de<br />
regressão linear simples e os quantis populacionais. Usando informação sobre o tipo de distribuição<br />
da variável resposta, mais recentemente, diversos autores propuseram, para o parâmetro de locação,<br />
estimadores diferentes da média da amostra de conjuntos ordenados, entre eles o estimador linear<br />
não viciado ótimo. Por outro lado, intervalos de confiança bootstrap são uma alternativa<br />
computacionalmente intensiva e eficiente, principalmente quando não se tem resultados exatos ou<br />
assintóticos que possam garantir seu desempenho. Neste trabalho são apresentadas propostas para a<br />
construção de intervalos bootstrap de confiança e estudos sobre seu desempenho para a média de<br />
populações com distribuição normal sob o delineamento por conjuntos ordenados perfeitamente. Foi<br />
verificado por simulação que o intervalo de confiança t-bootstrap possui o melhor desempenho.<br />
Esses resultados tornam-se relevantes à medida que, em amostragem por conjuntos ordenados, são a<br />
única alternativa para a obtenção de intervalos de confiança.<br />
PALAVRAS-CHAVE: Amostragem por conjuntos ordenados; intervalos de confiança bootstrap;<br />
estimação intervalar da média; distribuição normal.<br />
1 Introdução<br />
A busca de métodos e técnicas estatísticas eficientes, principalmente relacionadas com<br />
estudos do meio ambiente, têm sido discutidas recentemente, dando-se grande ênfase àquelas<br />
em que a obtenção de dados pode envolver altos custos de mensuração ou mesmo restrições<br />
ao acesso de resultados (Barnett, 1999; Barreto, 2001).<br />
A amostragem por conjuntos ordenados (ranked-set sampling – RSS), introduzida por<br />
McIntyre (1952), usa o fato de ser possível fazer uma ordenação entre os elementos da<br />
amostra, antes de sua efetiva mensuração. A média da amostra de conjuntos ordenados,<br />
apresentada nesse trabalho pioneiro, é um estimador não viciado da média populacional que<br />
apresenta variância menor ou igual à média de uma amostra aleatória simples. Esta<br />
desigualdade está relacionada ao processo da obtenção da amostra de conjuntos ordenados.<br />
1 Departamento de Estatística, Universidade Federal de São Carlos – UFSCar, CEP: 13565-905, São Carlos, SP,<br />
Brasil. E-mail: cbarreto@power.ufscar.br.<br />
Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003 7
A técnica de RSS tem sido desenvolvida, ultimamente, buscando aumentar sua<br />
eficiência e aplicabilidade para as diferentes distribuições das variáveis de interesse. Por<br />
exemplo, diversos autores consideram os estimadores lineares não viciados ótimos (best<br />
linear unbiased linear estimators – BLUEs), verificando seus ganhos de eficiência sobre<br />
outros estimadores. Em particular, considerando a amostragem por conjuntos ordenados em<br />
distribuições na família locação-escala, Stokes (1995) obteve o BLUE do parâmetro de<br />
locação, µ, com o parâmetro de escala σ conhecido, e também o BLUE de σ, com µ<br />
conhecido. Sinha et al. (1996) estudaram o BLUE da média populacional para as<br />
distribuições normal e exponencial. Nestes trabalhos, as propriedades dos estimadores<br />
obtidos foram estudadas no caso em que a ordenação é perfeita, isto é, a ordenação antes da<br />
mensuração é feita sem erros.<br />
Barnett e Moore (1997) obtiveram a forma geral dos BLUEs de µ e σ para distribuições<br />
pertencentes a família locação-escala, considerando ordenação perfeita e imperfeita. Seus<br />
resultados mostram o ganho de eficiência do BLUE de µ sobre a média da amostra por<br />
conjuntos ordenados. O estimador de µ obtido por Barnett e Moore (1997) coincide com o<br />
obtido por Sinha et al. (1996) para distribuições normal e exponencial.<br />
Existem poucos trabalhos que estudam intervalos de confiança na amostragem por<br />
conjuntos ordenados. Chen (2000) faz um estudo assintótico sobre os quantis na amostra de<br />
conjuntos ordenados e apresenta suas propriedades. Com isso o autor desenvolve métodos de<br />
inferência para os quantis populacionais, entre eles intervalos de confiança.<br />
Neste trabalho, apresenta-se a construção de intervalos de confiança bootstrap para a<br />
média de uma distribuição normal considerando o delineamento de amostras por conjuntos<br />
ordenados perfeitamente. Com o objetivo de validá-los, faz-se também um estudo, via<br />
simulação, das respectivas probabilidades de cobertura.<br />
2 Amostra de conjuntos ordenados e alguns estimadores para a média<br />
populacional<br />
O delineamento por amostras de conjuntos ordenados pode ser obtido em três passos:<br />
no primeiro, selecionam-se n amostras com n objetos cada (pessoas, animais, plantas, entre<br />
outros); no segundo passo, por algum julgamento profissional, por alguma variável<br />
concomitante ou por outro método não dispendioso, ordenam-se os objetos em cada amostra<br />
sem que de fato tenham sido observados quanto à variável de interesse; no terceiro passo,<br />
após a ordenação, mensura-se um objeto de cada amostra quanto à variável de interesse, X i(i) ,<br />
(i =1,2, ..., n), ou seja, mede-se aquele que foi ordenado como tendo o i-ésimo menor valor<br />
da variável de interesse na i-ésima amostra.<br />
Desse modo, uma amostra por conjuntos ordenados é definida como<br />
X 1(1)<br />
, X 2(2) ,..., X n ( n)<br />
.<br />
Observe que cada elemento amostral provém de uma amostra independentemente<br />
escolhida, ou seja, eles são não-correlacionados.<br />
Diz-se que a ordenação é perfeita quando a amostra é ordenada corretamente, ou seja,<br />
quando X i(i) é realmente o i-ésimo valor ordenado na i-ésima amostra, caso contrário, tem-se<br />
a ordenação imperfeita. Existem dois modelos (Nahhas et al., 2002) que levam em conta<br />
erros de ordenação (ranking error models). O modelo de ordenação visual, proposto por Dell<br />
e Clutter (1972), considera que a ordenação é feita com uma perturbação quantificada na<br />
8<br />
Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003
forma de uma adição ao verdadeiro valor de uma variável aleatória normal com média zero e<br />
variância proporcionalmente inversa à habilidade do especialista. Quanto maior a habilidade<br />
mais próxima de zero é a variância. O modelo de ordenação baseado em variável<br />
concomitante, proposto por Stokes (1977), leva em consideração a correlação existente entre<br />
a variável de interesse e a variável concomitante.<br />
Como estimador não viciado da média populacional, µ x , McIntyre (1952) sugeriu a<br />
média dos elementos da amostra por conjuntos ordenados dada por<br />
1<br />
X = <br />
n<br />
n<br />
X i ( i)<br />
,<br />
i=<br />
1<br />
comentando que sua variância é menor ou igual à variância da média de uma amostra<br />
aleatória simples. Só em 1968, entretanto, Takahasi e Wakimoto (1968) mostraram<br />
matematicamente as idéias de McIntyre para diferentes tamanhos de amostras e<br />
distribuições. Isto é, sendo X (i) a i-ésima estatística de ordem numa amostra por conjuntos<br />
ordenados então,<br />
= 1 n<br />
Var(<br />
X ) =<br />
2<br />
n i=<br />
1<br />
Var(<br />
1 n<br />
n<br />
≤ Var(<br />
X ( i)<br />
) + 2 Cov<br />
2<br />
n <br />
i=<br />
1<br />
i= 1 j > i<br />
X i ( i)<br />
)<br />
<br />
( j)<br />
<br />
( X , X ) <br />
<br />
( i)<br />
(1)<br />
= Var( _ X ) ,<br />
pois Cov (X i(i), X j(j) )= 0 uma vez que os elementos provêm de amostras independentemente<br />
selecionadas. Essas propriedades são válidas mesmo no caso em que existem erros de<br />
ordenação.<br />
Em seu trabalho de 1980, Stokes sugeriu como estimador da variância populacional,<br />
σ 2 x, a variância da amostra de conjuntos ordenados dada por<br />
n<br />
2 1<br />
ˆ σ x = ( Xi<br />
i − 2<br />
( ) X ) , (2)<br />
n −1<br />
e mostrou que ela é assintóticamente não viciada, mesmo na presença de erros de<br />
mensuração, e também mais eficiente que seu análogo na amostra aleatória simples.<br />
No caso específico da distribuição da variável de interesse, X, pertencer à família<br />
locação-escala, onde µ é o parâmetro de locação e σ o parâmetro de escala, a i-ésima<br />
estatística de ordem padronizada, U (i) = (X (i) - µ)/σ, tem valores esperados η i e variâncias τ i .<br />
Dada a relação existente entre estatísticas de ordem e os elementos da amostra de conjuntos<br />
ordenados, a variância de X pode ser escrita na forma<br />
2<br />
n<br />
σ<br />
Var( X ) = τ<br />
2 i . (3)<br />
n<br />
i=<br />
1<br />
Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003 9
Quando a variável de interesse, X, tem distribuição pertencente a família locaçãoescala,<br />
Barnett e Moore (1997) obtiveram o estimador linear ótimo, θ * , do vetor de<br />
parâmetros, θ 1 = (µ, σ). No caso da variável de interesse ter distribuição normal, µ x = µ e<br />
σ 2 x=σ 2 , os componentes de θ * podem ser escritos por<br />
e<br />
com<br />
n<br />
i=<br />
1 ( X i ( i)<br />
/ τi)<br />
µ * =<br />
(4)<br />
n<br />
i=<br />
1(1/<br />
τi)<br />
n<br />
i=<br />
1 ( ηi ( ) / )<br />
* =<br />
X i i τi<br />
σ (5)<br />
n 2<br />
i=<br />
1(<br />
ηi<br />
/ τi)<br />
2<br />
σ<br />
Var(<br />
µ *) =<br />
n<br />
(6)<br />
i = 1(1/<br />
τ i )<br />
e<br />
2<br />
σ<br />
Var(<br />
σ *) =<br />
n 2<br />
i = 1(<br />
ηi<br />
/ τi)<br />
e a covariância entre µ* e σ* nula. Também foi mostrado que µ* é mais eficiente que X no<br />
caso de distribuição normal.<br />
Os valores de η i e τ i só dependem da distribuição subjacente de n e da posição i. Para a<br />
distribuição normal eles foram tabulados, entre outros, por Pearson e Hartley (1976).<br />
Usando algumas propriedades das estatísticas de ordem (por exemplo, David, 1981), as<br />
quantidades η i e τ i podem ser computacionalmente obtidas para qualquer distribuição de<br />
interesse. Assim, a média e a variância das estatísticas de ordem padronizadas são dadas por:<br />
n<br />
−1<br />
i−1<br />
n−i<br />
η i = ufi<br />
( u)<br />
du = n<br />
u[ P(<br />
u)<br />
] [ 1−<br />
P(<br />
u)<br />
] p(<br />
u)<br />
du e<br />
i −1<br />
n<br />
−1<br />
τ i = n<br />
u<br />
i −1<br />
2<br />
i 1<br />
[ P(<br />
u)<br />
] [ 1−<br />
P(<br />
u)<br />
]<br />
− n−i<br />
2<br />
p(<br />
u)<br />
du − ( ηi<br />
)<br />
onde n é o tamanho da amostra, i é a ordem, P(u) é a distribuição acumulada da variável<br />
reduzida e p(u), a respectiva função densidade. Um programa para o cálculo dessas<br />
constantes usando SPLUS (Venables e Riplye, 1997) encontra-se em Cesário (2001).<br />
Na maioria das vezes, apenas uma estimativa pontual a partir de uma amostra não é<br />
informação suficiente para se fazer inferências sobre o parâmetro de interesse. Também é<br />
interessante que se tenha idéia da precisão ou possível erro dessa estimativa e os intervalos<br />
de confiança possuem essas características.<br />
3 Intervalos de confiança bootstrap<br />
Como não existem estudos sobre intervalos de confiança exatos ou mesmo intervalos de<br />
confiança assintóticos para a média de uma distribuição normal sob o delineamento de<br />
10<br />
Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003
amostras de conjuntos ordenados, a construção de intervalos de confiança foi baseada em<br />
métodos bootstrap. Inicialmente, são apresentados os fundamentos da construção de<br />
intervalos de confiança bootstrap considerando a amostragem aleatória simples, baseadas<br />
principalmente nos trabalhos de Efron e Tibshirani (1993) e Davison e Hinkley (1997). A<br />
seguir, introduz-se intervalos de confiança bootstrap e sua utilização em amostras por<br />
conjuntos ordenados.<br />
3.1 Método bootstrap em amostragem aleatória simples<br />
Elaborado por Efron (1979), o método de simulação de dados bootstrap é baseado nas<br />
idéias tradicionais da inferência estatística com o mínimo de suposições matemáticas<br />
possíveis. Computacionalmente intensivo, sua utilização em trabalhos recentes evidenciam<br />
sua grande versatilidade. Efron e Tibshirani (1993) e Davison e Hinkley (1997) apresentam<br />
uma ampla discussão e aplicação de métodos bootstrap nas mais variadas técnicas<br />
estatísticas de análise de dados.<br />
Considerando que a amostra original é aleatória simples de tamanho n, as amostras<br />
bootstrap são obtidas por amostragem aleatória simples de tamanho n com reposição da<br />
amostra original. Isto é, a amostragem é feita a partir de Fˆ , a distribuição empírica dos<br />
dados, que atribui probabilidade 1/n a cada um dos valores observados, x 1 , x 2 , ...,x n . Essa<br />
geração de amostras bootstrap é conhecida como não-paramétrica. Quando a reamostragem é<br />
feita a partir de uma distribuição conhecida, Fˆ<br />
par , cujos parâmetros são estimativas obtidas<br />
na amostra original, o processo de reamostragem bootstrap é conhecido como paramétrico.<br />
Sendo δˆ um estimador do parâmetro de interesse δ e se (δˆ ) o seu erro padrão<br />
estimado na amostra original, definem-se B como o número de replicações bootstrap de<br />
tamanho n da amostra original e ˆ •<br />
δ ( b)<br />
, a estimativa bootstrap em cada uma das B amostras,<br />
com b = 1,2,..., B.<br />
com<br />
A estimativa bootstrap do erro padrão de δˆ , se boot (δˆ ), é dada por:<br />
Supondo que<br />
( ˆ) = B<br />
se<br />
b=<br />
1<br />
boot δ<br />
[ ˆ•<br />
δ ( b)<br />
− s(<br />
⋅)<br />
]<br />
B −1<br />
B<br />
ˆ•<br />
b<br />
s ⋅ = b = 1<br />
δ ( )<br />
( )<br />
B<br />
ˆ δ −δ<br />
Z = ~ N(0,1),<br />
seboot ( δ )<br />
um intervalo de confiança bootstrap padrão para δ com probabilidade de cobertura de<br />
aproximadamente (1 - 2α) é dado por:<br />
ˆ δ ± zα seboot<br />
( ˆ) δ<br />
2<br />
Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003 11
onde z α é o α-ésimo quantil da distribuição normal padrão. O método boostrap padrão é<br />
acurado de primeira ordem (Efron e Tibshirani, 1993).<br />
Baseado no procedimento para a construção de intervalos de confiança quando Z tem<br />
distribuição t-Student, o intervalo de confiança t-bootstrap pressupõe o cálculo da estatística<br />
Z em cada amostra e obtém-se tˆ<br />
(1−α<br />
) e t (<br />
ˆα ) através da estimação da distribuição de Z. Assim,<br />
para cada uma das B amostras bootstrap geradas calcula-se<br />
ˆ•<br />
δ ( b)<br />
− ˆ δ<br />
Z ( b)<br />
= ,<br />
•<br />
se b ( ˆ) δ<br />
onde seb<br />
• (δˆ ) é o erro padrão estimado em cada amostra bootstrap e estima-se o 100α-ésimo<br />
percentil de Z através de t (<br />
ˆα ) de modo que<br />
#<br />
{ Z ( b)<br />
≤ tˆ<br />
} ( α )<br />
= α<br />
Analogamente, estima-se o 100 (1 - α)-ésimo percentil de Z através de por tˆ( 1−α<br />
)<br />
B<br />
{ Z(<br />
b)<br />
tˆ<br />
}<br />
# )<br />
≤ (1 − α<br />
= 1−α<br />
.<br />
B<br />
Assim o intervalo de confiança t-bootstrap para δ com probabilidade de cobertura de<br />
aproximadamente (1 - 2α) é dado por<br />
( ˆ δ tˆ<br />
se(<br />
ˆ), δ ˆ δ − tˆ<br />
se(<br />
ˆ) )<br />
− ( 1 − α)<br />
( α)<br />
δ .<br />
O intervalo t-bootstrap é acurado de segunda ordem.<br />
•<br />
A partir da distribuição empírica acumulada de δˆ constrói-se o intervalo de confiança<br />
( α )<br />
bootstrap percentil. Sendo ˆ •<br />
δ • (1 α )<br />
B e ˆ• • −<br />
δ B , respectivamente, o (100-α)-ésimo e o 100(1 -<br />
α)-ésimo percentis da distribuição empírica de ˆ•<br />
δ (.) , o intervalo de confiança bootstrap<br />
percentil para δ é dado por<br />
( ˆ δ<br />
• ) (1 )<br />
)<br />
( α<br />
, ˆ δ<br />
• −α<br />
B<br />
com probabilidade de cobertura aproximada de (1 - 2α). O intervalo bootstrap percentil é<br />
acurado de primeira ordem.<br />
O intervalo bootstrap com vício corrigido acelerado (bias corrected and accelerated -<br />
BC α ) corresponde a uma modificação no método de obtenção do intervalo bootstrap<br />
percentil. O BC α utiliza a distribuição empírica bootstrap modificada que depende das<br />
quantidades ẑ0<br />
e αˆ , chamadas respectivamente de correção do vício e aceleração. Em sua<br />
obtenção é usado um método de reamostragem (jackknife ou bootstrap). O método BC α é<br />
acurado de segunda ordem e requer um esforço computacional maior.<br />
O método ABC (approximate bootstrap confidence interval) corresponde a uma<br />
aproximação analítica por expansão de Taylor da segunda reamostragem no método BC α .<br />
Ele também é acurado de segunda ordem.<br />
B<br />
.<br />
12<br />
Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003
Neste trabalho considera-se a extensão do método bootstrap paramétrico em<br />
amostragem por conjuntos ordenados para os intervalos bootstrap padrão, percentil e t-<br />
bootstrap.<br />
3.2 Método bootstrap sob o delineamento de amostras por conjuntos<br />
ordenados<br />
Efron e Tibshirani (1993) e Davison e Hinkley (1997), ao abordarem o método<br />
bootstrap não paramétrico, consideram uma amostra de tamanho n cujos elementos são<br />
independentes e identicamente distribuídos.<br />
Na amostragem por conjuntos ordenados sabe-se que os elementos que compõem a<br />
amostra são estatísticas de ordem vindos de amostras independentemente escolhidas, e<br />
portanto, são independentes. Porém, como suas distribuições dependem das suas respectivas<br />
ordens, eles não são identicamente distribuídos. Assim, ao se aplicar diretamente o método<br />
bootstrap não-paramétrico na reamostragem, pode-se estar deixando de levar em<br />
consideração a ordem do seu elemento perdendo na análise essa informação adicional de ser<br />
uma amostra de conjuntos ordenados, especialmente quando a ordenação é perfeita.<br />
Além disso, considera-se que o procedimento de amostragem apresentado na Seção 2, é<br />
realizado apenas uma única vez. Dessa forma, não se tem replicações das estatísticas de<br />
ordem que compõem a amostra de conjuntos ordenados. Por esses motivos o método<br />
bootstrap paramétrico é a opção para a construção de intervalos de confiança.<br />
Dada a amostra de conjuntos ordenados original, as amostras bootstrap são obtidas a<br />
partir da geração de variáveis pseudo-aleatórias da distribuição normal com parâmetros<br />
iguais às estimativas obtidas na amostra original. Isto é, quando a variância é conhecida,<br />
usando o estimador média amostral, X , dado em (1) ou o estimador linear ótimo, µ*, dado<br />
em (4), as amostras bootstrap são obtidas a partir da simulação de n conjuntos, cada um com<br />
n elementos, oriundos de uma população com distribuição normal com média igual a<br />
estimativa escolhida. Em cada um desses conjuntos, seus elementos são ordenados e da<br />
primeira amostra é selecionado o menor elemento, da segunda, o segundo menor elemento, e<br />
assim por diante até que da n-ésima amostra é selecionado o maior elemento.<br />
No caso em que a variância é desconhecida, usam-se também os estimadores<br />
apresentados em (2) ou (5), para a obtenção das reamostras.<br />
4 Estimação intervalar via método bootstrap para o parâmetro de locação sob<br />
RSS<br />
A partir da amostra de conjuntos ordenados bootstrap, esta proposta de intervalo de<br />
confiança bootstrap para a média populacional de uma distribuição normal utiliza o<br />
estimador média amostral, X dado em (1), com seu respectivo erro padrão, se (X ) , que<br />
corresponde a raiz quadrada de (2) ou o estimador linear ótimo, µ*, dado em (4), cujo erro<br />
padrão, se (µ*)<br />
, corresponde a raiz quadrada de (6).<br />
Se o interesse é a obtenção de intervalos de confiança bootstrap padrão para µ,<br />
utilizando, µ*, então, inicialmente, para cada uma das B reamostras calcula-se µ*(b), ou seja,<br />
a estimativa linear ótima da b-ésima amostra bootstrap de conjuntos ordenados, seu erro<br />
padrão, seb<br />
( µ *), e Z(<br />
b)<br />
= [ µ *( b)<br />
− µ *]/<br />
seb<br />
( µ *) onde b = 1,...,B.<br />
Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003 13
A seguir, para se obter o intervalo de confiança bootstrap percentil, ordenam-se os<br />
µ*(b) e tomam-se G -1 (α) e G -1 (1 - α), o 100α-ésimo e o 100(1 - α)-ésimo percentis,<br />
respectivamente, da distribuição de µ*(b).<br />
Ao estimar o erro padrão bootstrap,<br />
B<br />
[ µ *( b)<br />
− *( b)<br />
]<br />
seboot<br />
( µ *) =<br />
µ /( B −1)<br />
,<br />
b=<br />
1<br />
B<br />
com µ *(<br />
b)<br />
= b = 1<br />
µ *( b)<br />
/ B , calcula-se µ* ± z α se boot (µ*) para se obter o intervalo de<br />
confiança bootstrap padrão, onde z α é o quantil (1 - 2α) da distribuição normal padrão.<br />
Por fim, ao se calcular t (<br />
ˆα ) tal que {# Z ( b)<br />
≤ tˆ<br />
( α ) }/<br />
B = α e t ˆ<br />
(1−α<br />
) , tal que<br />
{# Z ( b)<br />
≤ t ˆ ( 1−α<br />
) }/<br />
B = 1−α<br />
, e substituir os respectivos valores na expressão<br />
( µ * −tˆ<br />
( *), * ˆ<br />
( 1 − α ) se µ µ −t(<br />
α)<br />
se(<br />
µ *)), tem-se o intervalo de confiança t-bootstrap para µ.<br />
O procedimento de obtenção de intervalos de confiança bootstrap para µ utilizando o<br />
estimador X é realizado de modo análogo.<br />
Como o interesse é estimar a média populacional, uma observação a ser feita é a<br />
respeito da variância, σ 2 . Esse parâmetro pode ser conhecido, como no trabalho de Stokes<br />
(1995), ou, se desconhecido, precisa ser estimado.<br />
Uma primeira sugestão é, através da amostra original, calcular σ 2 , o estimador linear<br />
ótimo de σ dado em (5), e usá-lo como parâmetro de escala da distribuição no processo de<br />
reamostragem paramétrica. Nesse caso, a sugestão 1 considera “fixa” a estimativa de σ<br />
obtida durante todo o procedimento de estimação intervalar.<br />
Ao aplicar o método t-bootstrap, uma estimativa do erro padrão do estimador de µ,<br />
baseada em (3) ou (6), é calculada em cada amostra bootstrap, que dependem de σ. Assim,<br />
uma outra alternativa (sugestão 2), para este cálculo, é utilizar as respectivas estimativas de<br />
σ,<br />
*<br />
σ b ou<br />
2 ˆ b<br />
σ<br />
em cada amostra bootstrap.<br />
5 Resultados do estudo por simulação<br />
A Arabidopsis thaliana é uma planta muito usada em estudos genéticos e moleculares,<br />
principalmente quando são necessários métodos de detecção de diferenças fenotípicas entre<br />
plantas que poderiam estar ligadas a mudanças genéticas. Comumente, essas diferenças são<br />
pequenas. Para aumentar a precisão da estimação, há a necessidade de amostras de tamanho<br />
grande. O problema é que se a variável de interesse é o peso da raiz, sua mensuração pode<br />
consumir um longo tempo. Uma alternativa é ordenar o possível peso pelas dimensões da<br />
copa da planta por inspeção visual.<br />
Em Barnett e Moore (1997) são apresentados diversos conjuntos de dados sobre o<br />
crescimento da raiz da planta Arabidopsis thaliana. Neste trabalho considerou-se apenas o<br />
conjunto referente a pesos de raízes que cresceram em potes grandes mantidos à alta<br />
temperatura, cuja média foi 8,4 g e a variância 9,8 g 2 . Outra suposição é que a ordenação por<br />
inspeção visual é perfeita, ou seja, não existem erros de ordenação.<br />
O estudo de simulação foi baseado em uma amostra de conjuntos ordenados de<br />
tamanho 5, gerada de uma distribuição normal com média 8,4 e variância 9,8. Ou seja, a<br />
2<br />
14<br />
Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003
partir da geração de 5 conjuntos de tamanho 5, ordenaram-se os elementos (pesos simulados)<br />
em cada conjunto e tomou-se apenas o i-ésimo elemento ordenado no i-ésimo conjunto para<br />
compor a amostra, da qual se obteve parametricamente as amostras bootstrap de conjuntos<br />
ordenados perfeitamente.<br />
*<br />
Em cada uma das B = 1000 amostras bootstrap calcularam-se µ b , X b e demais<br />
estatísticas a fim de se encontrar os intervalos bootstrap de confiança para a média<br />
populacional.<br />
A Tabela 1 apresenta os valores estimados de µ utilizando * µ e X , seus respectivos<br />
erros padrão, erros padrão bootstrap e intervalos de confiança (95%) bootstrap para µ<br />
considerando os métodos bootstrap percentil, padrão e t-bootstrap e o parâmetro de escala<br />
conhecido. Sua análise revela que para essa amostra, as estatísticas relacionadas com o<br />
estimador linear tiveram um melhor desempenho, por exemplo, seu erro padrão e o erro<br />
padrão bootstrap foram ligeiramente menores que os do estimador média da amostra de<br />
conjuntos ordenados. O mesmo comportamento pode-se notar quanto aos intervalos de<br />
confiança bootstrap.<br />
Tabela 1 - Estimativas de µ e respectivos erro padrão, erro padrão bootstrap e intervalos de<br />
confiança bootstrap considerando σ conhecido<br />
Estatísticas<br />
Estimadores<br />
µ* X<br />
Estimativa 7,38 7,43<br />
Erro padrão 0,83 0,84<br />
Erro padrão bootstrap 0,79 0,80<br />
IC bootstrap padrão (5,84 ; 8,93) (5,86 ; 8,99)<br />
Amplitude 3,09 3,13<br />
IC bootstrap percentil (5,86 ; 8,95) (5,82 ; 9,12)<br />
Amplitude 3,09 3,30<br />
IC t-bootstrap (5,81 ; 8,91) (5,73 ; 9,03)<br />
Amplitude 3,10 3,30<br />
Para a situação em que σ é desconhecido, os erros padrão de<br />
*<br />
µ e X , dados como a<br />
raiz quadrada de (6) e (3), respectivamente, foram calculados usando as estimativas σ* e<br />
2 ˆ σ de σ.<br />
Os resultados para o cálculo dos intervalos bootstrap com σ desconhecido aparecem na<br />
Tabela 2. Sua análise revela que os erros padrão de µ* são maiores que os de X e,<br />
conseqüentemente, também os intervalos baseados em µ* tem amplitude maior que os<br />
baseados em X . Pode ser que esses resultados estejam relacionados com as propriedades do<br />
2<br />
estimador ˆ σ ainda não estudadas na literatura.<br />
Percebe-se, entretanto, que os resultados das Tabelas 1 e 2 são muito próximos para os<br />
métodos considerados, com exceção da amplitude do intervalo t-bootstrap (sugestão 2) que é<br />
maior comparada com os demais intervalos de confiança bootstrap considerados. Nesse<br />
Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003 15
caso, ao estimar σ em cada amostra bootstrap, a variação dos erros padrão de µ* e X<br />
aumenta em relação à situação em que considera a estimativa de σ utilizando a amostra<br />
original.<br />
Tabela 2 - Estimativas de µ e respectivos erro padrão, erro padrão bootstrap e intervalos de<br />
confiança bootstrap utilizando µ*, com σ estimado por σ*, e X , com σ estimado<br />
por<br />
2 ˆ σ<br />
Estatísticas<br />
Estimadores<br />
µ* X<br />
Estimativa 7,38 7,43<br />
Erro padrão 0,88 0,74<br />
Erro padrão bootstrap 0,84 0,69<br />
IC bootstrap padrão (5,76 ; 9,06) (6,02 ; 8,91)<br />
Amplitude 3,30 2,89<br />
IC bootstrap percentil (5,74 ; 9,03) (6,06 ; 8,80)<br />
Amplitude 3,09 2,74<br />
IC t-bootstrap (sugestão 1) (5,71 ; 9,01) (5,94 ; 8,83)<br />
Amplitude 3,10 3,30<br />
IC t-bootstrap (sugestão 1) (5,23; 9,58) (5,67; 9,16)<br />
Amplitude 4,35 3,49<br />
Como uma amostra obtida em um experimento é uma possibilidade de ocorrência<br />
dentre infinitas, é interessante analisar o desempenho dos métodos bootstrap propostos não<br />
apenas através dos resultados apresentados deste exemplo. Por esse motivo, calculou-se, por<br />
simulação, a probabilidade de cobertura desses intervalos considerando as situações<br />
apresentadas no exemplo.<br />
6 Verificação da probabilidade de cobertura dos intervalos de confiança<br />
bootstrap<br />
O estudo sobre a probabilidade de cobertura dos intervalos de confiança bootstrap foi<br />
feito através de simulação, utilizando as mesmas condições do experimento do exemplo<br />
descrito anteriormente, repetido 1.000 vezes. O elemento usado na análise é o número de<br />
intervalos que contém o verdadeiro valor do parâmetro.<br />
A Tabela 3 apresenta os resultados da simulação dos intervalos de confiança bootstrap<br />
para o parâmetro de locação considerando o parâmetro de escala conhecido, utilizando,<br />
respectivamente, o estimador linear e o estimador média da amostra de conjuntos ordenados.<br />
Quando o parâmetro de escala é conhecido, cada um dos intervalos de confiança<br />
bootstrap baseados, respectivamente, em µ* e X têm desempenho similar, mesmo existindo<br />
uma pequena diferença quanto ao número de intervalos que contém o verdadeiro valor, que<br />
não deve ser considerada significativa. Por exemplo, para o caso de 90% de confiança, dos<br />
1.000 intervalos bootstrap percentil obtidos, 877 contiveram o verdadeiro valor, ao usar µ*<br />
como estimador, e 878 contiveram o verdadeiro valor ao usar X como estimador.<br />
16<br />
Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003
A Tabela 4 mostra os resultados da simulação da probabilidade de cobertura quando σ é<br />
desconhecido. Observa-se que os intervalos de confiança t-bootstrap da sugestão 2 são os<br />
mais adequados, uma vez que o número de intervalos que contém o verdadeiro valor é<br />
sempre o mais próximo do valor esperado em cada confiança.<br />
Tabela 3 - Número de intervalos de confiança, entre os 1000 gerados, que contém o valor<br />
verdadeiro do parâmetro considerando σ conhecido<br />
Confiança<br />
90%<br />
95%<br />
99%<br />
Intervalos<br />
bootstrap percentil<br />
bootstrap padrão<br />
t-bootstrap<br />
bootstrap percentil<br />
bootstrap padrão<br />
t-bootstrap<br />
bootstrap percentil<br />
bootstrap padrão<br />
t-bootstrap<br />
Estimadores<br />
µ*<br />
877<br />
880<br />
879<br />
934<br />
937<br />
934<br />
988<br />
990<br />
988<br />
X<br />
878<br />
880<br />
872<br />
939<br />
941<br />
937<br />
992<br />
992<br />
992<br />
Tabela 4 - Número de intervalos de confiança, entre os 1.000 gerados, que contém o valor<br />
verdadeiro do parâmetro utilizando µ*, com σ estimado por σ*, e X , com σ<br />
estimado por<br />
2 ˆ σ<br />
Confiança<br />
90%<br />
95%<br />
99%<br />
Intervalos<br />
bootstrap percentil<br />
bootstrap padrão<br />
t-bootstrap sugestão 1<br />
t-bootstrap sugestão 2<br />
bootstrap percentil<br />
bootstrap padrão<br />
t-bootstrap sugestão 1<br />
t-bootstrap sugestão 2<br />
bootstrap percentil<br />
bootstrap padrão<br />
t-bootstrap sugestão 1<br />
t-bootstrap sugestão 2<br />
Estimadores<br />
µ*<br />
X<br />
829 827<br />
832 826<br />
825 824<br />
885 886<br />
882<br />
883<br />
876<br />
947<br />
945<br />
947<br />
945<br />
985<br />
889<br />
890<br />
882<br />
933<br />
940<br />
941<br />
937<br />
987<br />
Não existe diferença significativa entre os demais métodos propostos, mostrando-se,<br />
inclusive, não indicados para a estimação intervalar.<br />
Dessa forma, pode-se dizer que a precisão de intervalos de confiança bootstrap está<br />
diretamente relacionada com a qualidade do estimador de σ, principalmente no método t-<br />
bootstrap. No procedimento de estimação intervalar para a média populacional de uma<br />
Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003 17
distribuição normal, utilizando métodos bootstrap percentil e padrão, caso σ seja<br />
desconhecido, sua estimativa só é necessária no processo de reamostragem paramétrica. Já<br />
no caso da utilização do método t-bootstrap para a mesma finalidade, o processo envolve o<br />
erro padrão de cada amostra bootstrap e, conseqüentemente, a estimativa de σ. Assim, ao<br />
considerar a sugestão 1, as estimativas do erro padrão em cada amostra bootstrap estão<br />
vinculadas ao valor de σ estimado a partir da amostra original. E, dependendo dessa<br />
estimativa, a probabilidade de cobertura pode ficar comprometida.<br />
Verifica-se ainda que quando σ é estimado em cada uma das amostras bootstrap<br />
(intervalo t-bootstrap – sugestão 2) os intervalos em cada situação tornam-se mais precisos,<br />
2<br />
mostrando que as duas formas de estimação de σ ( σˆ ou σ*) são adequadas e<br />
equivalentemente eficientes, pois produzem intervalos de confiança com probabilidade de<br />
cobertura simulada muito próxima da probabilidade de cobertura exata.<br />
Um fato importante a relatar, não sendo entretanto objeto deste estudo, é que o<br />
estimador σ* algumas vezes pode ser negativo. Quando isso ocorreu foi adotado o<br />
procedimento de retirar outra amostra bootstrap.<br />
Conclusão<br />
Intervalos de confiança bootstrap para a média de uma população normal utilizando o<br />
delineamento por conjuntos ordenados é uma alternativa atraente, uma vez que não existem<br />
métodos assintóticos ou mesmo exato para a estimação intervalar. A opção por um<br />
procedimento bootstrap paramétrico deve-se ao fato de que as estatísticas de ordem que<br />
compõem a amostra não são identicamente distribuídas.<br />
O presente estudo mostrou que a probabilidade de cobertura simulada dos diferentes<br />
intervalos de confiança bootstrap é bem próxima da exata na situação em que a variância é<br />
conhecida, sendo similares os intervalos utilizando o estimador linear ótimo e a medida<br />
amostral. Por outro lado, quando a variância é desconhecida, o método t-bootstrap com a<br />
opção de estimar σ em cada amostra bootstrap é o mais indicado.<br />
Agradecimentos. À CAPES pela bolsa concedida (março de 2000 a novembro de 2001)<br />
para o desenvolvimento deste trabalho.<br />
CESÁRIO, L. C.; BARRETO, M.C.M. A study on the performance of bootstrap confidence<br />
intervals for the mean of normal distribution using perfect ranked set sampling. Rev. Mat.<br />
Estat., São Paulo, v.21, n.3, p. 7-20, 2003.<br />
ABSTRACT: The design of ranked set sampling is an efficient estimation procedure for several<br />
parameters such as the population mean, the parameters of the simple linear regression model and<br />
the populational quantil. More recently, several authors have proposed more general estimators for<br />
the location parameter, for instance, the best linear unbiased estimator, using the additional<br />
information of the underlying distribution. On the other hand, boostrap confidence intervals are a<br />
computer-intensive and efficient statistical technique mainly when exact or asymptotic methods do<br />
not exist. In this article, we propose bootstrap confidence intervals for the mean of normal<br />
18<br />
Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003
distribution using perfect ranked set sampling. The simulation study has shown that the t-bootstrap<br />
confidence interval has the best performance. These results are relevant because they are the only<br />
actual alternative for confidence interval estimation of the location parameter using perfect ranked<br />
set sampling.<br />
KEYWORDS: Ranked set sampling; bootstrap confidence intervals; interval estimation of the<br />
location parameter; normal distribution.<br />
Referências<br />
BARNETT, V. Ranked set sample design for environmental investigations. Environ. Ecol.<br />
Stat., London, v.6, p.58-74, 1999.<br />
BARNETT, V.; MOORE, K. Best linear unbiased estimates in ranked-set sampling with<br />
particular reference to imperfect ordering. J. Appl. Stat., Abingdom, v.24, n.6, p.697-710,<br />
1997.<br />
BARRETO, M.C.M. Planejamentos eficientes em pesquisa do Meio Ambiente usando<br />
amostragem em conjuntos ordenados. Rev. Mat. Estat., São Paulo, v.19, p.71-84, 2001.<br />
CESÁRIO, L.C. Intervalos de confiança bootstrap em amostragem por conjuntos<br />
ordenados. 2001. 103f. Dissertação (Mestrado em Estatística) – Centro de Ciências Exatas e<br />
Tecnológicas, Universidade Federal de São Carlos, São Carlos, 2001.<br />
CHEN, Z. On ranked-set sample quantiles and their applications. J. Stat. Plan. Inf.,<br />
Amsterdam, v.83, p.125-135, 2000.<br />
DAVID, H.A. Order Statistics. 2.ed. New York: John Wiley & Sons, 1981. 360p.<br />
DAVISON, A.C.; HINKLEY, D.V. Bootstrap methods and their application. New York:<br />
Cambridge University Press, 1997. 582p.<br />
DELL, T.R.; CUTTLER, J.L. Ranked set sampling theory whit order statistics background.<br />
Biometrics, Washington, v.28, p.545-555, 1972.<br />
EFRON, B. Bootstrap methods: another look at the jackknife. Ann. Stat., Beachood, v.7, p.<br />
1-26, 1979.<br />
EFRON, B.; TIBSHIRANI, R.J. An Introduction to the Bootstrap. New York: Chapman &<br />
Hall, 1993. 436p.<br />
McINTYRE, G.A. A method of unbiased selective sampling using ranked sets. Aust. J.<br />
Agric. Res., Victoria, v.3, p.385-390, 1952.<br />
NAHHAS, R.W.; WOLFE, D.A.; CHEN, H. Ranked set sampling: cost and optimal set size.<br />
Biometrics, Washington, v.58, p.964-971, 2002.<br />
PEARSON, E.S.; HARTLEY, H.O. Biometrika tables for statisticans. London: Griffin,<br />
1976. v.2.<br />
SINHA, B.K.; SINHA, B.K.; PURKAYASTHA, S. On some aspects of ranked-set sampling<br />
for estimation of normal and exponential parameters. Stat. Decis., München, v.14, p.223-<br />
240, 1996.<br />
Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003 19
STOKES, S.L. Ranked set sampling with concomitant variables. Commun. Stat.: Theory<br />
Meth., New York, v.36, p.35-42, 1977.<br />
STOKES, S.L. Estimation of variance using judgment ordered ranked set sampling.<br />
Biometrics, Washington, v.36, p.35-42, 1980.<br />
STOKES, S.L. Estimation of variance using judgment ordered ranked set samples.<br />
Biometrics, Washington , v.47, p.465-482, 1995.<br />
TAKAHASI, K.; WAKIMOTO, K. On unbiased estimates of the population mean based on<br />
the sample stratified by means of ordering. Ann. Inst. Math., Tokyo, v.20, p.1-31, 1968.<br />
VENABLES, W.N.; RIPLEY, B.D. Modern applied statistics with SPLUS 2. Nova York:<br />
Springer, 1997. 548p.<br />
Recebido em 05.05.2002.<br />
Aprovado após revisão em 23.04.2003.<br />
20<br />
Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003