23.04.2014 Views

Artigo/Paper - UNESP

Artigo/Paper - UNESP

Artigo/Paper - UNESP

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

UM ESTUDO SOBRE O DESEMPENHO DE INTERVALOS DE<br />

CONFIANÇA BOOTSTRAP PARA A MÉDIA DE UMA DISTRIBUIÇÃO<br />

NORMAL USANDO AMOSTRAGEM POR CONJUNTOS ORDENADOS<br />

PERFEITAMENTE<br />

Luciana Cristina CESÁRIO 1<br />

Maria Cecília Mendes BARRETO 1<br />

RESUMO: O delineamento de amostras por conjuntos ordenados tem se mostrado eficiente na<br />

estimação de diversos parâmetros populacionais, entre eles a média, os parâmetros de um modelo de<br />

regressão linear simples e os quantis populacionais. Usando informação sobre o tipo de distribuição<br />

da variável resposta, mais recentemente, diversos autores propuseram, para o parâmetro de locação,<br />

estimadores diferentes da média da amostra de conjuntos ordenados, entre eles o estimador linear<br />

não viciado ótimo. Por outro lado, intervalos de confiança bootstrap são uma alternativa<br />

computacionalmente intensiva e eficiente, principalmente quando não se tem resultados exatos ou<br />

assintóticos que possam garantir seu desempenho. Neste trabalho são apresentadas propostas para a<br />

construção de intervalos bootstrap de confiança e estudos sobre seu desempenho para a média de<br />

populações com distribuição normal sob o delineamento por conjuntos ordenados perfeitamente. Foi<br />

verificado por simulação que o intervalo de confiança t-bootstrap possui o melhor desempenho.<br />

Esses resultados tornam-se relevantes à medida que, em amostragem por conjuntos ordenados, são a<br />

única alternativa para a obtenção de intervalos de confiança.<br />

PALAVRAS-CHAVE: Amostragem por conjuntos ordenados; intervalos de confiança bootstrap;<br />

estimação intervalar da média; distribuição normal.<br />

1 Introdução<br />

A busca de métodos e técnicas estatísticas eficientes, principalmente relacionadas com<br />

estudos do meio ambiente, têm sido discutidas recentemente, dando-se grande ênfase àquelas<br />

em que a obtenção de dados pode envolver altos custos de mensuração ou mesmo restrições<br />

ao acesso de resultados (Barnett, 1999; Barreto, 2001).<br />

A amostragem por conjuntos ordenados (ranked-set sampling – RSS), introduzida por<br />

McIntyre (1952), usa o fato de ser possível fazer uma ordenação entre os elementos da<br />

amostra, antes de sua efetiva mensuração. A média da amostra de conjuntos ordenados,<br />

apresentada nesse trabalho pioneiro, é um estimador não viciado da média populacional que<br />

apresenta variância menor ou igual à média de uma amostra aleatória simples. Esta<br />

desigualdade está relacionada ao processo da obtenção da amostra de conjuntos ordenados.<br />

1 Departamento de Estatística, Universidade Federal de São Carlos – UFSCar, CEP: 13565-905, São Carlos, SP,<br />

Brasil. E-mail: cbarreto@power.ufscar.br.<br />

Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003 7


A técnica de RSS tem sido desenvolvida, ultimamente, buscando aumentar sua<br />

eficiência e aplicabilidade para as diferentes distribuições das variáveis de interesse. Por<br />

exemplo, diversos autores consideram os estimadores lineares não viciados ótimos (best<br />

linear unbiased linear estimators – BLUEs), verificando seus ganhos de eficiência sobre<br />

outros estimadores. Em particular, considerando a amostragem por conjuntos ordenados em<br />

distribuições na família locação-escala, Stokes (1995) obteve o BLUE do parâmetro de<br />

locação, µ, com o parâmetro de escala σ conhecido, e também o BLUE de σ, com µ<br />

conhecido. Sinha et al. (1996) estudaram o BLUE da média populacional para as<br />

distribuições normal e exponencial. Nestes trabalhos, as propriedades dos estimadores<br />

obtidos foram estudadas no caso em que a ordenação é perfeita, isto é, a ordenação antes da<br />

mensuração é feita sem erros.<br />

Barnett e Moore (1997) obtiveram a forma geral dos BLUEs de µ e σ para distribuições<br />

pertencentes a família locação-escala, considerando ordenação perfeita e imperfeita. Seus<br />

resultados mostram o ganho de eficiência do BLUE de µ sobre a média da amostra por<br />

conjuntos ordenados. O estimador de µ obtido por Barnett e Moore (1997) coincide com o<br />

obtido por Sinha et al. (1996) para distribuições normal e exponencial.<br />

Existem poucos trabalhos que estudam intervalos de confiança na amostragem por<br />

conjuntos ordenados. Chen (2000) faz um estudo assintótico sobre os quantis na amostra de<br />

conjuntos ordenados e apresenta suas propriedades. Com isso o autor desenvolve métodos de<br />

inferência para os quantis populacionais, entre eles intervalos de confiança.<br />

Neste trabalho, apresenta-se a construção de intervalos de confiança bootstrap para a<br />

média de uma distribuição normal considerando o delineamento de amostras por conjuntos<br />

ordenados perfeitamente. Com o objetivo de validá-los, faz-se também um estudo, via<br />

simulação, das respectivas probabilidades de cobertura.<br />

2 Amostra de conjuntos ordenados e alguns estimadores para a média<br />

populacional<br />

O delineamento por amostras de conjuntos ordenados pode ser obtido em três passos:<br />

no primeiro, selecionam-se n amostras com n objetos cada (pessoas, animais, plantas, entre<br />

outros); no segundo passo, por algum julgamento profissional, por alguma variável<br />

concomitante ou por outro método não dispendioso, ordenam-se os objetos em cada amostra<br />

sem que de fato tenham sido observados quanto à variável de interesse; no terceiro passo,<br />

após a ordenação, mensura-se um objeto de cada amostra quanto à variável de interesse, X i(i) ,<br />

(i =1,2, ..., n), ou seja, mede-se aquele que foi ordenado como tendo o i-ésimo menor valor<br />

da variável de interesse na i-ésima amostra.<br />

Desse modo, uma amostra por conjuntos ordenados é definida como<br />

X 1(1)<br />

, X 2(2) ,..., X n ( n)<br />

.<br />

Observe que cada elemento amostral provém de uma amostra independentemente<br />

escolhida, ou seja, eles são não-correlacionados.<br />

Diz-se que a ordenação é perfeita quando a amostra é ordenada corretamente, ou seja,<br />

quando X i(i) é realmente o i-ésimo valor ordenado na i-ésima amostra, caso contrário, tem-se<br />

a ordenação imperfeita. Existem dois modelos (Nahhas et al., 2002) que levam em conta<br />

erros de ordenação (ranking error models). O modelo de ordenação visual, proposto por Dell<br />

e Clutter (1972), considera que a ordenação é feita com uma perturbação quantificada na<br />

8<br />

Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003


forma de uma adição ao verdadeiro valor de uma variável aleatória normal com média zero e<br />

variância proporcionalmente inversa à habilidade do especialista. Quanto maior a habilidade<br />

mais próxima de zero é a variância. O modelo de ordenação baseado em variável<br />

concomitante, proposto por Stokes (1977), leva em consideração a correlação existente entre<br />

a variável de interesse e a variável concomitante.<br />

Como estimador não viciado da média populacional, µ x , McIntyre (1952) sugeriu a<br />

média dos elementos da amostra por conjuntos ordenados dada por<br />

1<br />

X = <br />

n<br />

n<br />

X i ( i)<br />

,<br />

i=<br />

1<br />

comentando que sua variância é menor ou igual à variância da média de uma amostra<br />

aleatória simples. Só em 1968, entretanto, Takahasi e Wakimoto (1968) mostraram<br />

matematicamente as idéias de McIntyre para diferentes tamanhos de amostras e<br />

distribuições. Isto é, sendo X (i) a i-ésima estatística de ordem numa amostra por conjuntos<br />

ordenados então,<br />

= 1 n<br />

Var(<br />

X ) =<br />

2<br />

n i=<br />

1<br />

Var(<br />

1 n<br />

n<br />

≤ Var(<br />

X ( i)<br />

) + 2 Cov<br />

2<br />

n <br />

i=<br />

1<br />

i= 1 j > i<br />

X i ( i)<br />

)<br />

<br />

( j)<br />

<br />

( X , X ) <br />

<br />

( i)<br />

(1)<br />

= Var( _ X ) ,<br />

pois Cov (X i(i), X j(j) )= 0 uma vez que os elementos provêm de amostras independentemente<br />

selecionadas. Essas propriedades são válidas mesmo no caso em que existem erros de<br />

ordenação.<br />

Em seu trabalho de 1980, Stokes sugeriu como estimador da variância populacional,<br />

σ 2 x, a variância da amostra de conjuntos ordenados dada por<br />

n<br />

2 1<br />

ˆ σ x = ( Xi<br />

i − 2<br />

( ) X ) , (2)<br />

n −1<br />

e mostrou que ela é assintóticamente não viciada, mesmo na presença de erros de<br />

mensuração, e também mais eficiente que seu análogo na amostra aleatória simples.<br />

No caso específico da distribuição da variável de interesse, X, pertencer à família<br />

locação-escala, onde µ é o parâmetro de locação e σ o parâmetro de escala, a i-ésima<br />

estatística de ordem padronizada, U (i) = (X (i) - µ)/σ, tem valores esperados η i e variâncias τ i .<br />

Dada a relação existente entre estatísticas de ordem e os elementos da amostra de conjuntos<br />

ordenados, a variância de X pode ser escrita na forma<br />

2<br />

n<br />

σ<br />

Var( X ) = τ<br />

2 i . (3)<br />

n<br />

i=<br />

1<br />

Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003 9


Quando a variável de interesse, X, tem distribuição pertencente a família locaçãoescala,<br />

Barnett e Moore (1997) obtiveram o estimador linear ótimo, θ * , do vetor de<br />

parâmetros, θ 1 = (µ, σ). No caso da variável de interesse ter distribuição normal, µ x = µ e<br />

σ 2 x=σ 2 , os componentes de θ * podem ser escritos por<br />

e<br />

com<br />

n<br />

i=<br />

1 ( X i ( i)<br />

/ τi)<br />

µ * =<br />

(4)<br />

n<br />

i=<br />

1(1/<br />

τi)<br />

n<br />

i=<br />

1 ( ηi ( ) / )<br />

* =<br />

X i i τi<br />

σ (5)<br />

n 2<br />

i=<br />

1(<br />

ηi<br />

/ τi)<br />

2<br />

σ<br />

Var(<br />

µ *) =<br />

n<br />

(6)<br />

i = 1(1/<br />

τ i )<br />

e<br />

2<br />

σ<br />

Var(<br />

σ *) =<br />

n 2<br />

i = 1(<br />

ηi<br />

/ τi)<br />

e a covariância entre µ* e σ* nula. Também foi mostrado que µ* é mais eficiente que X no<br />

caso de distribuição normal.<br />

Os valores de η i e τ i só dependem da distribuição subjacente de n e da posição i. Para a<br />

distribuição normal eles foram tabulados, entre outros, por Pearson e Hartley (1976).<br />

Usando algumas propriedades das estatísticas de ordem (por exemplo, David, 1981), as<br />

quantidades η i e τ i podem ser computacionalmente obtidas para qualquer distribuição de<br />

interesse. Assim, a média e a variância das estatísticas de ordem padronizadas são dadas por:<br />

n<br />

−1<br />

i−1<br />

n−i<br />

η i = ufi<br />

( u)<br />

du = n<br />

u[ P(<br />

u)<br />

] [ 1−<br />

P(<br />

u)<br />

] p(<br />

u)<br />

du e<br />

i −1<br />

n<br />

−1<br />

τ i = n<br />

u<br />

i −1<br />

2<br />

i 1<br />

[ P(<br />

u)<br />

] [ 1−<br />

P(<br />

u)<br />

]<br />

− n−i<br />

2<br />

p(<br />

u)<br />

du − ( ηi<br />

)<br />

onde n é o tamanho da amostra, i é a ordem, P(u) é a distribuição acumulada da variável<br />

reduzida e p(u), a respectiva função densidade. Um programa para o cálculo dessas<br />

constantes usando SPLUS (Venables e Riplye, 1997) encontra-se em Cesário (2001).<br />

Na maioria das vezes, apenas uma estimativa pontual a partir de uma amostra não é<br />

informação suficiente para se fazer inferências sobre o parâmetro de interesse. Também é<br />

interessante que se tenha idéia da precisão ou possível erro dessa estimativa e os intervalos<br />

de confiança possuem essas características.<br />

3 Intervalos de confiança bootstrap<br />

Como não existem estudos sobre intervalos de confiança exatos ou mesmo intervalos de<br />

confiança assintóticos para a média de uma distribuição normal sob o delineamento de<br />

10<br />

Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003


amostras de conjuntos ordenados, a construção de intervalos de confiança foi baseada em<br />

métodos bootstrap. Inicialmente, são apresentados os fundamentos da construção de<br />

intervalos de confiança bootstrap considerando a amostragem aleatória simples, baseadas<br />

principalmente nos trabalhos de Efron e Tibshirani (1993) e Davison e Hinkley (1997). A<br />

seguir, introduz-se intervalos de confiança bootstrap e sua utilização em amostras por<br />

conjuntos ordenados.<br />

3.1 Método bootstrap em amostragem aleatória simples<br />

Elaborado por Efron (1979), o método de simulação de dados bootstrap é baseado nas<br />

idéias tradicionais da inferência estatística com o mínimo de suposições matemáticas<br />

possíveis. Computacionalmente intensivo, sua utilização em trabalhos recentes evidenciam<br />

sua grande versatilidade. Efron e Tibshirani (1993) e Davison e Hinkley (1997) apresentam<br />

uma ampla discussão e aplicação de métodos bootstrap nas mais variadas técnicas<br />

estatísticas de análise de dados.<br />

Considerando que a amostra original é aleatória simples de tamanho n, as amostras<br />

bootstrap são obtidas por amostragem aleatória simples de tamanho n com reposição da<br />

amostra original. Isto é, a amostragem é feita a partir de Fˆ , a distribuição empírica dos<br />

dados, que atribui probabilidade 1/n a cada um dos valores observados, x 1 , x 2 , ...,x n . Essa<br />

geração de amostras bootstrap é conhecida como não-paramétrica. Quando a reamostragem é<br />

feita a partir de uma distribuição conhecida, Fˆ<br />

par , cujos parâmetros são estimativas obtidas<br />

na amostra original, o processo de reamostragem bootstrap é conhecido como paramétrico.<br />

Sendo δˆ um estimador do parâmetro de interesse δ e se (δˆ ) o seu erro padrão<br />

estimado na amostra original, definem-se B como o número de replicações bootstrap de<br />

tamanho n da amostra original e ˆ •<br />

δ ( b)<br />

, a estimativa bootstrap em cada uma das B amostras,<br />

com b = 1,2,..., B.<br />

com<br />

A estimativa bootstrap do erro padrão de δˆ , se boot (δˆ ), é dada por:<br />

Supondo que<br />

( ˆ) = B<br />

se<br />

b=<br />

1<br />

boot δ<br />

[ ˆ•<br />

δ ( b)<br />

− s(<br />

⋅)<br />

]<br />

B −1<br />

B<br />

ˆ•<br />

b<br />

s ⋅ = b = 1<br />

δ ( )<br />

( )<br />

B<br />

ˆ δ −δ<br />

Z = ~ N(0,1),<br />

seboot ( δ )<br />

um intervalo de confiança bootstrap padrão para δ com probabilidade de cobertura de<br />

aproximadamente (1 - 2α) é dado por:<br />

ˆ δ ± zα seboot<br />

( ˆ) δ<br />

2<br />

Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003 11


onde z α é o α-ésimo quantil da distribuição normal padrão. O método boostrap padrão é<br />

acurado de primeira ordem (Efron e Tibshirani, 1993).<br />

Baseado no procedimento para a construção de intervalos de confiança quando Z tem<br />

distribuição t-Student, o intervalo de confiança t-bootstrap pressupõe o cálculo da estatística<br />

Z em cada amostra e obtém-se tˆ<br />

(1−α<br />

) e t (<br />

ˆα ) através da estimação da distribuição de Z. Assim,<br />

para cada uma das B amostras bootstrap geradas calcula-se<br />

ˆ•<br />

δ ( b)<br />

− ˆ δ<br />

Z ( b)<br />

= ,<br />

•<br />

se b ( ˆ) δ<br />

onde seb<br />

• (δˆ ) é o erro padrão estimado em cada amostra bootstrap e estima-se o 100α-ésimo<br />

percentil de Z através de t (<br />

ˆα ) de modo que<br />

#<br />

{ Z ( b)<br />

≤ tˆ<br />

} ( α )<br />

= α<br />

Analogamente, estima-se o 100 (1 - α)-ésimo percentil de Z através de por tˆ( 1−α<br />

)<br />

B<br />

{ Z(<br />

b)<br />

tˆ<br />

}<br />

# )<br />

≤ (1 − α<br />

= 1−α<br />

.<br />

B<br />

Assim o intervalo de confiança t-bootstrap para δ com probabilidade de cobertura de<br />

aproximadamente (1 - 2α) é dado por<br />

( ˆ δ tˆ<br />

se(<br />

ˆ), δ ˆ δ − tˆ<br />

se(<br />

ˆ) )<br />

− ( 1 − α)<br />

( α)<br />

δ .<br />

O intervalo t-bootstrap é acurado de segunda ordem.<br />

•<br />

A partir da distribuição empírica acumulada de δˆ constrói-se o intervalo de confiança<br />

( α )<br />

bootstrap percentil. Sendo ˆ •<br />

δ • (1 α )<br />

B e ˆ• • −<br />

δ B , respectivamente, o (100-α)-ésimo e o 100(1 -<br />

α)-ésimo percentis da distribuição empírica de ˆ•<br />

δ (.) , o intervalo de confiança bootstrap<br />

percentil para δ é dado por<br />

( ˆ δ<br />

• ) (1 )<br />

)<br />

( α<br />

, ˆ δ<br />

• −α<br />

B<br />

com probabilidade de cobertura aproximada de (1 - 2α). O intervalo bootstrap percentil é<br />

acurado de primeira ordem.<br />

O intervalo bootstrap com vício corrigido acelerado (bias corrected and accelerated -<br />

BC α ) corresponde a uma modificação no método de obtenção do intervalo bootstrap<br />

percentil. O BC α utiliza a distribuição empírica bootstrap modificada que depende das<br />

quantidades ẑ0<br />

e αˆ , chamadas respectivamente de correção do vício e aceleração. Em sua<br />

obtenção é usado um método de reamostragem (jackknife ou bootstrap). O método BC α é<br />

acurado de segunda ordem e requer um esforço computacional maior.<br />

O método ABC (approximate bootstrap confidence interval) corresponde a uma<br />

aproximação analítica por expansão de Taylor da segunda reamostragem no método BC α .<br />

Ele também é acurado de segunda ordem.<br />

B<br />

.<br />

12<br />

Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003


Neste trabalho considera-se a extensão do método bootstrap paramétrico em<br />

amostragem por conjuntos ordenados para os intervalos bootstrap padrão, percentil e t-<br />

bootstrap.<br />

3.2 Método bootstrap sob o delineamento de amostras por conjuntos<br />

ordenados<br />

Efron e Tibshirani (1993) e Davison e Hinkley (1997), ao abordarem o método<br />

bootstrap não paramétrico, consideram uma amostra de tamanho n cujos elementos são<br />

independentes e identicamente distribuídos.<br />

Na amostragem por conjuntos ordenados sabe-se que os elementos que compõem a<br />

amostra são estatísticas de ordem vindos de amostras independentemente escolhidas, e<br />

portanto, são independentes. Porém, como suas distribuições dependem das suas respectivas<br />

ordens, eles não são identicamente distribuídos. Assim, ao se aplicar diretamente o método<br />

bootstrap não-paramétrico na reamostragem, pode-se estar deixando de levar em<br />

consideração a ordem do seu elemento perdendo na análise essa informação adicional de ser<br />

uma amostra de conjuntos ordenados, especialmente quando a ordenação é perfeita.<br />

Além disso, considera-se que o procedimento de amostragem apresentado na Seção 2, é<br />

realizado apenas uma única vez. Dessa forma, não se tem replicações das estatísticas de<br />

ordem que compõem a amostra de conjuntos ordenados. Por esses motivos o método<br />

bootstrap paramétrico é a opção para a construção de intervalos de confiança.<br />

Dada a amostra de conjuntos ordenados original, as amostras bootstrap são obtidas a<br />

partir da geração de variáveis pseudo-aleatórias da distribuição normal com parâmetros<br />

iguais às estimativas obtidas na amostra original. Isto é, quando a variância é conhecida,<br />

usando o estimador média amostral, X , dado em (1) ou o estimador linear ótimo, µ*, dado<br />

em (4), as amostras bootstrap são obtidas a partir da simulação de n conjuntos, cada um com<br />

n elementos, oriundos de uma população com distribuição normal com média igual a<br />

estimativa escolhida. Em cada um desses conjuntos, seus elementos são ordenados e da<br />

primeira amostra é selecionado o menor elemento, da segunda, o segundo menor elemento, e<br />

assim por diante até que da n-ésima amostra é selecionado o maior elemento.<br />

No caso em que a variância é desconhecida, usam-se também os estimadores<br />

apresentados em (2) ou (5), para a obtenção das reamostras.<br />

4 Estimação intervalar via método bootstrap para o parâmetro de locação sob<br />

RSS<br />

A partir da amostra de conjuntos ordenados bootstrap, esta proposta de intervalo de<br />

confiança bootstrap para a média populacional de uma distribuição normal utiliza o<br />

estimador média amostral, X dado em (1), com seu respectivo erro padrão, se (X ) , que<br />

corresponde a raiz quadrada de (2) ou o estimador linear ótimo, µ*, dado em (4), cujo erro<br />

padrão, se (µ*)<br />

, corresponde a raiz quadrada de (6).<br />

Se o interesse é a obtenção de intervalos de confiança bootstrap padrão para µ,<br />

utilizando, µ*, então, inicialmente, para cada uma das B reamostras calcula-se µ*(b), ou seja,<br />

a estimativa linear ótima da b-ésima amostra bootstrap de conjuntos ordenados, seu erro<br />

padrão, seb<br />

( µ *), e Z(<br />

b)<br />

= [ µ *( b)<br />

− µ *]/<br />

seb<br />

( µ *) onde b = 1,...,B.<br />

Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003 13


A seguir, para se obter o intervalo de confiança bootstrap percentil, ordenam-se os<br />

µ*(b) e tomam-se G -1 (α) e G -1 (1 - α), o 100α-ésimo e o 100(1 - α)-ésimo percentis,<br />

respectivamente, da distribuição de µ*(b).<br />

Ao estimar o erro padrão bootstrap,<br />

B<br />

[ µ *( b)<br />

− *( b)<br />

]<br />

seboot<br />

( µ *) =<br />

µ /( B −1)<br />

,<br />

b=<br />

1<br />

B<br />

com µ *(<br />

b)<br />

= b = 1<br />

µ *( b)<br />

/ B , calcula-se µ* ± z α se boot (µ*) para se obter o intervalo de<br />

confiança bootstrap padrão, onde z α é o quantil (1 - 2α) da distribuição normal padrão.<br />

Por fim, ao se calcular t (<br />

ˆα ) tal que {# Z ( b)<br />

≤ tˆ<br />

( α ) }/<br />

B = α e t ˆ<br />

(1−α<br />

) , tal que<br />

{# Z ( b)<br />

≤ t ˆ ( 1−α<br />

) }/<br />

B = 1−α<br />

, e substituir os respectivos valores na expressão<br />

( µ * −tˆ<br />

( *), * ˆ<br />

( 1 − α ) se µ µ −t(<br />

α)<br />

se(<br />

µ *)), tem-se o intervalo de confiança t-bootstrap para µ.<br />

O procedimento de obtenção de intervalos de confiança bootstrap para µ utilizando o<br />

estimador X é realizado de modo análogo.<br />

Como o interesse é estimar a média populacional, uma observação a ser feita é a<br />

respeito da variância, σ 2 . Esse parâmetro pode ser conhecido, como no trabalho de Stokes<br />

(1995), ou, se desconhecido, precisa ser estimado.<br />

Uma primeira sugestão é, através da amostra original, calcular σ 2 , o estimador linear<br />

ótimo de σ dado em (5), e usá-lo como parâmetro de escala da distribuição no processo de<br />

reamostragem paramétrica. Nesse caso, a sugestão 1 considera “fixa” a estimativa de σ<br />

obtida durante todo o procedimento de estimação intervalar.<br />

Ao aplicar o método t-bootstrap, uma estimativa do erro padrão do estimador de µ,<br />

baseada em (3) ou (6), é calculada em cada amostra bootstrap, que dependem de σ. Assim,<br />

uma outra alternativa (sugestão 2), para este cálculo, é utilizar as respectivas estimativas de<br />

σ,<br />

*<br />

σ b ou<br />

2 ˆ b<br />

σ<br />

em cada amostra bootstrap.<br />

5 Resultados do estudo por simulação<br />

A Arabidopsis thaliana é uma planta muito usada em estudos genéticos e moleculares,<br />

principalmente quando são necessários métodos de detecção de diferenças fenotípicas entre<br />

plantas que poderiam estar ligadas a mudanças genéticas. Comumente, essas diferenças são<br />

pequenas. Para aumentar a precisão da estimação, há a necessidade de amostras de tamanho<br />

grande. O problema é que se a variável de interesse é o peso da raiz, sua mensuração pode<br />

consumir um longo tempo. Uma alternativa é ordenar o possível peso pelas dimensões da<br />

copa da planta por inspeção visual.<br />

Em Barnett e Moore (1997) são apresentados diversos conjuntos de dados sobre o<br />

crescimento da raiz da planta Arabidopsis thaliana. Neste trabalho considerou-se apenas o<br />

conjunto referente a pesos de raízes que cresceram em potes grandes mantidos à alta<br />

temperatura, cuja média foi 8,4 g e a variância 9,8 g 2 . Outra suposição é que a ordenação por<br />

inspeção visual é perfeita, ou seja, não existem erros de ordenação.<br />

O estudo de simulação foi baseado em uma amostra de conjuntos ordenados de<br />

tamanho 5, gerada de uma distribuição normal com média 8,4 e variância 9,8. Ou seja, a<br />

2<br />

14<br />

Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003


partir da geração de 5 conjuntos de tamanho 5, ordenaram-se os elementos (pesos simulados)<br />

em cada conjunto e tomou-se apenas o i-ésimo elemento ordenado no i-ésimo conjunto para<br />

compor a amostra, da qual se obteve parametricamente as amostras bootstrap de conjuntos<br />

ordenados perfeitamente.<br />

*<br />

Em cada uma das B = 1000 amostras bootstrap calcularam-se µ b , X b e demais<br />

estatísticas a fim de se encontrar os intervalos bootstrap de confiança para a média<br />

populacional.<br />

A Tabela 1 apresenta os valores estimados de µ utilizando * µ e X , seus respectivos<br />

erros padrão, erros padrão bootstrap e intervalos de confiança (95%) bootstrap para µ<br />

considerando os métodos bootstrap percentil, padrão e t-bootstrap e o parâmetro de escala<br />

conhecido. Sua análise revela que para essa amostra, as estatísticas relacionadas com o<br />

estimador linear tiveram um melhor desempenho, por exemplo, seu erro padrão e o erro<br />

padrão bootstrap foram ligeiramente menores que os do estimador média da amostra de<br />

conjuntos ordenados. O mesmo comportamento pode-se notar quanto aos intervalos de<br />

confiança bootstrap.<br />

Tabela 1 - Estimativas de µ e respectivos erro padrão, erro padrão bootstrap e intervalos de<br />

confiança bootstrap considerando σ conhecido<br />

Estatísticas<br />

Estimadores<br />

µ* X<br />

Estimativa 7,38 7,43<br />

Erro padrão 0,83 0,84<br />

Erro padrão bootstrap 0,79 0,80<br />

IC bootstrap padrão (5,84 ; 8,93) (5,86 ; 8,99)<br />

Amplitude 3,09 3,13<br />

IC bootstrap percentil (5,86 ; 8,95) (5,82 ; 9,12)<br />

Amplitude 3,09 3,30<br />

IC t-bootstrap (5,81 ; 8,91) (5,73 ; 9,03)<br />

Amplitude 3,10 3,30<br />

Para a situação em que σ é desconhecido, os erros padrão de<br />

*<br />

µ e X , dados como a<br />

raiz quadrada de (6) e (3), respectivamente, foram calculados usando as estimativas σ* e<br />

2 ˆ σ de σ.<br />

Os resultados para o cálculo dos intervalos bootstrap com σ desconhecido aparecem na<br />

Tabela 2. Sua análise revela que os erros padrão de µ* são maiores que os de X e,<br />

conseqüentemente, também os intervalos baseados em µ* tem amplitude maior que os<br />

baseados em X . Pode ser que esses resultados estejam relacionados com as propriedades do<br />

2<br />

estimador ˆ σ ainda não estudadas na literatura.<br />

Percebe-se, entretanto, que os resultados das Tabelas 1 e 2 são muito próximos para os<br />

métodos considerados, com exceção da amplitude do intervalo t-bootstrap (sugestão 2) que é<br />

maior comparada com os demais intervalos de confiança bootstrap considerados. Nesse<br />

Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003 15


caso, ao estimar σ em cada amostra bootstrap, a variação dos erros padrão de µ* e X<br />

aumenta em relação à situação em que considera a estimativa de σ utilizando a amostra<br />

original.<br />

Tabela 2 - Estimativas de µ e respectivos erro padrão, erro padrão bootstrap e intervalos de<br />

confiança bootstrap utilizando µ*, com σ estimado por σ*, e X , com σ estimado<br />

por<br />

2 ˆ σ<br />

Estatísticas<br />

Estimadores<br />

µ* X<br />

Estimativa 7,38 7,43<br />

Erro padrão 0,88 0,74<br />

Erro padrão bootstrap 0,84 0,69<br />

IC bootstrap padrão (5,76 ; 9,06) (6,02 ; 8,91)<br />

Amplitude 3,30 2,89<br />

IC bootstrap percentil (5,74 ; 9,03) (6,06 ; 8,80)<br />

Amplitude 3,09 2,74<br />

IC t-bootstrap (sugestão 1) (5,71 ; 9,01) (5,94 ; 8,83)<br />

Amplitude 3,10 3,30<br />

IC t-bootstrap (sugestão 1) (5,23; 9,58) (5,67; 9,16)<br />

Amplitude 4,35 3,49<br />

Como uma amostra obtida em um experimento é uma possibilidade de ocorrência<br />

dentre infinitas, é interessante analisar o desempenho dos métodos bootstrap propostos não<br />

apenas através dos resultados apresentados deste exemplo. Por esse motivo, calculou-se, por<br />

simulação, a probabilidade de cobertura desses intervalos considerando as situações<br />

apresentadas no exemplo.<br />

6 Verificação da probabilidade de cobertura dos intervalos de confiança<br />

bootstrap<br />

O estudo sobre a probabilidade de cobertura dos intervalos de confiança bootstrap foi<br />

feito através de simulação, utilizando as mesmas condições do experimento do exemplo<br />

descrito anteriormente, repetido 1.000 vezes. O elemento usado na análise é o número de<br />

intervalos que contém o verdadeiro valor do parâmetro.<br />

A Tabela 3 apresenta os resultados da simulação dos intervalos de confiança bootstrap<br />

para o parâmetro de locação considerando o parâmetro de escala conhecido, utilizando,<br />

respectivamente, o estimador linear e o estimador média da amostra de conjuntos ordenados.<br />

Quando o parâmetro de escala é conhecido, cada um dos intervalos de confiança<br />

bootstrap baseados, respectivamente, em µ* e X têm desempenho similar, mesmo existindo<br />

uma pequena diferença quanto ao número de intervalos que contém o verdadeiro valor, que<br />

não deve ser considerada significativa. Por exemplo, para o caso de 90% de confiança, dos<br />

1.000 intervalos bootstrap percentil obtidos, 877 contiveram o verdadeiro valor, ao usar µ*<br />

como estimador, e 878 contiveram o verdadeiro valor ao usar X como estimador.<br />

16<br />

Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003


A Tabela 4 mostra os resultados da simulação da probabilidade de cobertura quando σ é<br />

desconhecido. Observa-se que os intervalos de confiança t-bootstrap da sugestão 2 são os<br />

mais adequados, uma vez que o número de intervalos que contém o verdadeiro valor é<br />

sempre o mais próximo do valor esperado em cada confiança.<br />

Tabela 3 - Número de intervalos de confiança, entre os 1000 gerados, que contém o valor<br />

verdadeiro do parâmetro considerando σ conhecido<br />

Confiança<br />

90%<br />

95%<br />

99%<br />

Intervalos<br />

bootstrap percentil<br />

bootstrap padrão<br />

t-bootstrap<br />

bootstrap percentil<br />

bootstrap padrão<br />

t-bootstrap<br />

bootstrap percentil<br />

bootstrap padrão<br />

t-bootstrap<br />

Estimadores<br />

µ*<br />

877<br />

880<br />

879<br />

934<br />

937<br />

934<br />

988<br />

990<br />

988<br />

X<br />

878<br />

880<br />

872<br />

939<br />

941<br />

937<br />

992<br />

992<br />

992<br />

Tabela 4 - Número de intervalos de confiança, entre os 1.000 gerados, que contém o valor<br />

verdadeiro do parâmetro utilizando µ*, com σ estimado por σ*, e X , com σ<br />

estimado por<br />

2 ˆ σ<br />

Confiança<br />

90%<br />

95%<br />

99%<br />

Intervalos<br />

bootstrap percentil<br />

bootstrap padrão<br />

t-bootstrap sugestão 1<br />

t-bootstrap sugestão 2<br />

bootstrap percentil<br />

bootstrap padrão<br />

t-bootstrap sugestão 1<br />

t-bootstrap sugestão 2<br />

bootstrap percentil<br />

bootstrap padrão<br />

t-bootstrap sugestão 1<br />

t-bootstrap sugestão 2<br />

Estimadores<br />

µ*<br />

X<br />

829 827<br />

832 826<br />

825 824<br />

885 886<br />

882<br />

883<br />

876<br />

947<br />

945<br />

947<br />

945<br />

985<br />

889<br />

890<br />

882<br />

933<br />

940<br />

941<br />

937<br />

987<br />

Não existe diferença significativa entre os demais métodos propostos, mostrando-se,<br />

inclusive, não indicados para a estimação intervalar.<br />

Dessa forma, pode-se dizer que a precisão de intervalos de confiança bootstrap está<br />

diretamente relacionada com a qualidade do estimador de σ, principalmente no método t-<br />

bootstrap. No procedimento de estimação intervalar para a média populacional de uma<br />

Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003 17


distribuição normal, utilizando métodos bootstrap percentil e padrão, caso σ seja<br />

desconhecido, sua estimativa só é necessária no processo de reamostragem paramétrica. Já<br />

no caso da utilização do método t-bootstrap para a mesma finalidade, o processo envolve o<br />

erro padrão de cada amostra bootstrap e, conseqüentemente, a estimativa de σ. Assim, ao<br />

considerar a sugestão 1, as estimativas do erro padrão em cada amostra bootstrap estão<br />

vinculadas ao valor de σ estimado a partir da amostra original. E, dependendo dessa<br />

estimativa, a probabilidade de cobertura pode ficar comprometida.<br />

Verifica-se ainda que quando σ é estimado em cada uma das amostras bootstrap<br />

(intervalo t-bootstrap – sugestão 2) os intervalos em cada situação tornam-se mais precisos,<br />

2<br />

mostrando que as duas formas de estimação de σ ( σˆ ou σ*) são adequadas e<br />

equivalentemente eficientes, pois produzem intervalos de confiança com probabilidade de<br />

cobertura simulada muito próxima da probabilidade de cobertura exata.<br />

Um fato importante a relatar, não sendo entretanto objeto deste estudo, é que o<br />

estimador σ* algumas vezes pode ser negativo. Quando isso ocorreu foi adotado o<br />

procedimento de retirar outra amostra bootstrap.<br />

Conclusão<br />

Intervalos de confiança bootstrap para a média de uma população normal utilizando o<br />

delineamento por conjuntos ordenados é uma alternativa atraente, uma vez que não existem<br />

métodos assintóticos ou mesmo exato para a estimação intervalar. A opção por um<br />

procedimento bootstrap paramétrico deve-se ao fato de que as estatísticas de ordem que<br />

compõem a amostra não são identicamente distribuídas.<br />

O presente estudo mostrou que a probabilidade de cobertura simulada dos diferentes<br />

intervalos de confiança bootstrap é bem próxima da exata na situação em que a variância é<br />

conhecida, sendo similares os intervalos utilizando o estimador linear ótimo e a medida<br />

amostral. Por outro lado, quando a variância é desconhecida, o método t-bootstrap com a<br />

opção de estimar σ em cada amostra bootstrap é o mais indicado.<br />

Agradecimentos. À CAPES pela bolsa concedida (março de 2000 a novembro de 2001)<br />

para o desenvolvimento deste trabalho.<br />

CESÁRIO, L. C.; BARRETO, M.C.M. A study on the performance of bootstrap confidence<br />

intervals for the mean of normal distribution using perfect ranked set sampling. Rev. Mat.<br />

Estat., São Paulo, v.21, n.3, p. 7-20, 2003.<br />

ABSTRACT: The design of ranked set sampling is an efficient estimation procedure for several<br />

parameters such as the population mean, the parameters of the simple linear regression model and<br />

the populational quantil. More recently, several authors have proposed more general estimators for<br />

the location parameter, for instance, the best linear unbiased estimator, using the additional<br />

information of the underlying distribution. On the other hand, boostrap confidence intervals are a<br />

computer-intensive and efficient statistical technique mainly when exact or asymptotic methods do<br />

not exist. In this article, we propose bootstrap confidence intervals for the mean of normal<br />

18<br />

Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003


distribution using perfect ranked set sampling. The simulation study has shown that the t-bootstrap<br />

confidence interval has the best performance. These results are relevant because they are the only<br />

actual alternative for confidence interval estimation of the location parameter using perfect ranked<br />

set sampling.<br />

KEYWORDS: Ranked set sampling; bootstrap confidence intervals; interval estimation of the<br />

location parameter; normal distribution.<br />

Referências<br />

BARNETT, V. Ranked set sample design for environmental investigations. Environ. Ecol.<br />

Stat., London, v.6, p.58-74, 1999.<br />

BARNETT, V.; MOORE, K. Best linear unbiased estimates in ranked-set sampling with<br />

particular reference to imperfect ordering. J. Appl. Stat., Abingdom, v.24, n.6, p.697-710,<br />

1997.<br />

BARRETO, M.C.M. Planejamentos eficientes em pesquisa do Meio Ambiente usando<br />

amostragem em conjuntos ordenados. Rev. Mat. Estat., São Paulo, v.19, p.71-84, 2001.<br />

CESÁRIO, L.C. Intervalos de confiança bootstrap em amostragem por conjuntos<br />

ordenados. 2001. 103f. Dissertação (Mestrado em Estatística) – Centro de Ciências Exatas e<br />

Tecnológicas, Universidade Federal de São Carlos, São Carlos, 2001.<br />

CHEN, Z. On ranked-set sample quantiles and their applications. J. Stat. Plan. Inf.,<br />

Amsterdam, v.83, p.125-135, 2000.<br />

DAVID, H.A. Order Statistics. 2.ed. New York: John Wiley & Sons, 1981. 360p.<br />

DAVISON, A.C.; HINKLEY, D.V. Bootstrap methods and their application. New York:<br />

Cambridge University Press, 1997. 582p.<br />

DELL, T.R.; CUTTLER, J.L. Ranked set sampling theory whit order statistics background.<br />

Biometrics, Washington, v.28, p.545-555, 1972.<br />

EFRON, B. Bootstrap methods: another look at the jackknife. Ann. Stat., Beachood, v.7, p.<br />

1-26, 1979.<br />

EFRON, B.; TIBSHIRANI, R.J. An Introduction to the Bootstrap. New York: Chapman &<br />

Hall, 1993. 436p.<br />

McINTYRE, G.A. A method of unbiased selective sampling using ranked sets. Aust. J.<br />

Agric. Res., Victoria, v.3, p.385-390, 1952.<br />

NAHHAS, R.W.; WOLFE, D.A.; CHEN, H. Ranked set sampling: cost and optimal set size.<br />

Biometrics, Washington, v.58, p.964-971, 2002.<br />

PEARSON, E.S.; HARTLEY, H.O. Biometrika tables for statisticans. London: Griffin,<br />

1976. v.2.<br />

SINHA, B.K.; SINHA, B.K.; PURKAYASTHA, S. On some aspects of ranked-set sampling<br />

for estimation of normal and exponential parameters. Stat. Decis., München, v.14, p.223-<br />

240, 1996.<br />

Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003 19


STOKES, S.L. Ranked set sampling with concomitant variables. Commun. Stat.: Theory<br />

Meth., New York, v.36, p.35-42, 1977.<br />

STOKES, S.L. Estimation of variance using judgment ordered ranked set sampling.<br />

Biometrics, Washington, v.36, p.35-42, 1980.<br />

STOKES, S.L. Estimation of variance using judgment ordered ranked set samples.<br />

Biometrics, Washington , v.47, p.465-482, 1995.<br />

TAKAHASI, K.; WAKIMOTO, K. On unbiased estimates of the population mean based on<br />

the sample stratified by means of ordering. Ann. Inst. Math., Tokyo, v.20, p.1-31, 1968.<br />

VENABLES, W.N.; RIPLEY, B.D. Modern applied statistics with SPLUS 2. Nova York:<br />

Springer, 1997. 548p.<br />

Recebido em 05.05.2002.<br />

Aprovado após revisão em 23.04.2003.<br />

20<br />

Rev. Mat. Estat., São Paulo, v.21, n.3, p.7-20, 2003

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!