12.07.2015 Views

Um mundo para conhecer os números - Universidade Fernando ...

Um mundo para conhecer os números - Universidade Fernando ...

Um mundo para conhecer os números - Universidade Fernando ...

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Notas sobre a História da Estatística | Maria João Ferreira # Isabel TavaresO Inquérito Estatístico | Maria João Ferreira # Pedro Camp<strong>os</strong>Estatística Descritiva com Excel | Luísa Canto e Castro Loura # Maria Eugénia Graça MartinsRepresentações gráficas | Ana Alexandrino da SilvaEstatística com R | Pedro Camp<strong>os</strong> # Rita Sousad<strong>os</strong>siês122655987569484641<strong>Um</strong> <strong>mundo</strong><strong>para</strong> <strong>conhecer</strong><strong>os</strong> númer<strong>os</strong>DIRECÇÃOREGIONALDEEDUCAÇÃODONORTEEscola Secundáriade Tomaz Pelayo


<strong>Um</strong> <strong>mundo</strong><strong>para</strong> <strong>conhecer</strong><strong>os</strong> númer<strong>os</strong>


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 2Ficha TécnicaTítulo<strong>Um</strong> <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong>EditoresInstituto Nacional de Estatística, I.P.Av. António J<strong>os</strong>é de Almeida1000-043 LisboaPortugalEscola Secundária Tomaz PelayoRua Prof. Doutor <strong>Fernando</strong> Pires de Lima4780-430 Santo TirsoPortugalDirecção Regional de Educação do NorteRua António Carneiro, 984349-003 PortoPortugalDesign, Comp<strong>os</strong>ição e ImpressãoInstituto Nacional de Estatística, I.P.Tiragem300 exemplaresISBN978-98925-0043-0Depósito Legal300079/09PeriodicidadeIrregular© INE, I.P., Lisboa | Portugal, 2009*A reprodução de quaisquer páginas desta obra é autorizada, excepto <strong>para</strong> fins comerciais, desde que mencionando oINE, I.P., como autor, o título da obra, o ano de edição e a referência Lisboa-Portugal.


pág. 5PrefácioO ALEA faz 10 an<strong>os</strong>. E 10 an<strong>os</strong> notáveis.Estão de <strong>para</strong>béns <strong>os</strong> seus responsáveis ecolaboradores. Estão de <strong>para</strong>béns a EscolaSecundária Tomaz Pelayo, o Instituto Nacional deEstatística e a Direcção Regional de Educação doNorte, instituições que são o sustentáculo desteprojecto. Está também de <strong>para</strong>béns a supervisoracientífica, Profª Doutora Maria Eugénia GraçaMartins. Mas estão principalmente de <strong>para</strong>bénstod<strong>os</strong> <strong>os</strong> seus utilizadores, quer sejam alun<strong>os</strong> ouprofessores d<strong>os</strong> Ensin<strong>os</strong> Básico e Secundário, a<strong>os</strong>quais o projecto principalmente se dirige, quersejam cidadã<strong>os</strong> interessad<strong>os</strong> em melhorar a sualiteracia estatística.O ALEA assume-se efectivamente como umprojecto ao serviço da literacia estatística,indispensável n<strong>os</strong> n<strong>os</strong>s<strong>os</strong> dias ao exercício plenoda cidadania. De facto, não basta ao cidadãodispor de informação, não lhe basta disportambém de informação estatística, é necessárioainda que ele saiba compreender e interpretaressa informação e a saiba utilizar na tomada dedecisões úteis, quer na sua vida pessoal querna sua intervenção na sociedade. A literaciaestatística é assim um instrumento poder<strong>os</strong>o a<strong>os</strong>erviço da qualidade da democracia.O ALEA é um exemplo vivo do que podem fazera vontade e a determinação de alguns quandop<strong>os</strong>tas ao serviço da comunidade. Quem visita apágina web www.alea.pt do ALEA fica encantadocom o que lá vê e seguro de que este projecto


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 6é um instrumento muito útil <strong>para</strong> a melhoria daqualidade do ensino da Estatística em Portugal(e noutr<strong>os</strong> países, quer de língua portuguesa,quer outr<strong>os</strong>, já que a página tem uma versãoem língua inglesa). A qualidade do projecto énotável e isso mesmo foi reconhecido a nívelinternacional, tendo o ALEA sido galardoado em2007 com o Prémio “Best Cooperative ProjectAward” que, pela primeira vez, o InternationalStatistical Literacy Program (ISLP) atribuiu.Note-se que o ISLP é um projecto da InternationalAssociation for Statistical Education, a secção deeducação estatística do centenário InternationalStatistical Institute. Curi<strong>os</strong>amente, a 56ªSessão do International Statistical Institute(reunião científica internacional que decorrede dois em dois an<strong>os</strong>) teve lugar em 2007em Lisboa. Portugal está assim a afirmar-seinternacionalmente na área da Estatística, quern<strong>os</strong> aspect<strong>os</strong> científic<strong>os</strong>, quer também, atravésdo ALEA, n<strong>os</strong> aspect<strong>os</strong> educativ<strong>os</strong>. E obviamente,o progresso científico na área da Estatística sóé sustentável se estiver assente numa educaçãoestatística de qualidade. Daí a SociedadePortuguesa de Estatística (SPE), a que tenho ahonra de presidir, se preocupar não apenas como desenvolvimento científico, mas também como progresso educativo, com iniciativas várias, deque destacam<strong>os</strong> <strong>os</strong> Prémi<strong>os</strong> Estatístico Júnior.É, pois, com grande satisfação que registam<strong>os</strong> ovali<strong>os</strong>o trabalho desenvolvido pelo ALEA.Mas não contente com tão vali<strong>os</strong><strong>os</strong> contribut<strong>os</strong>,o ALEA oferece-n<strong>os</strong> agora esta publicaçãocomemorativa do seu 10º aniversário. Ela contém5 d<strong>os</strong>siers d<strong>os</strong> muit<strong>os</strong> mais produzid<strong>os</strong> pelo ALEA.Os temas versad<strong>os</strong> são: O Inquérito Estatístico(com importantes considerações metodológicase práticas de como organizar e interpretarinquérit<strong>os</strong> estatístic<strong>os</strong>), Estatística com R (quen<strong>os</strong> ensina a utilizar este software livre <strong>para</strong> <strong>os</strong>cálcul<strong>os</strong> e gráfic<strong>os</strong> estatístic<strong>os</strong>), Notas sobre aHistória da Estatística (desde <strong>os</strong> primórdi<strong>os</strong> àactualidade, não esquecendo a Estatística emPortugal), Representações Gráficas (atraentese facilmente compreensíveis e bem sabem<strong>os</strong> queuma boa imagem vale mais do que 1000 palavras)e Estatística Descritiva com EXCEL (que põe aoalcance de tod<strong>os</strong> <strong>os</strong> cálcul<strong>os</strong> básic<strong>os</strong> e <strong>os</strong> gráfic<strong>os</strong>estatístic<strong>os</strong>). Foram temas muito bem escolhid<strong>os</strong>e muito bem desenvolvid<strong>os</strong>, agora p<strong>os</strong>t<strong>os</strong> emforma de livro, já que não só de internet vive ohomem e é muito mais agradável ler e estudarnum livro do que num ecrã. Parabéns por maisesta utilíssima iniciativa, que, além do tudo omais, tem um grafismo muito atraente.E é aqui uma boa oportunidade <strong>para</strong> registar oimportante apoio que o INE tem prestado a muitasiniciativas que visam o desenvolvimento científicoe educacional da Estatística em Portugal e de quea SPE tem frequentemente beneficiado. Mais umavez o País conta com o apoio do INE, agora nestapublicação. O seu lançamento vai decorrer nacerimónia de abertura do XVII Congresso Anual daSPE. Que excelente ocasião <strong>para</strong> sentar à mesmamesa três aliad<strong>os</strong> ao serviço da Estatística emPortugal: a SPE, o INE e o ALEA.Para o leitor apenas um voto que certamente secumprirá, o de que desfrute este livro com prazere proveito.Carl<strong>os</strong> Braumann(Presidente da Sociedade Portuguesa de Estatística)


pág. 7Notas sobre aHistória daEstatísticaMaria João Ferreira# Isabel Tavarescom a colaboração da Prof.ª Doutora Maria Antónia Amaral Turkman


pág. 9# Notas sobre a história da estatísticaNotas sobre aHistória daEstatísticaMaria João Ferreira# Isabel TavaresSumário:1. Introdução2. As Civilizações Antigas2.1. Introdução2.2. As Civilizações Antigas e <strong>os</strong> Cens<strong>os</strong>2.2.1. A Grécia Antiga2.2.2. A Antiga Civilização Egípcia2.2.2.1. Os recenseament<strong>os</strong> e aEstatística de “massa”2.2.3. Israel e <strong>os</strong> Númer<strong>os</strong>2.2.4. A Máquina de Recensear Chinesa2.2.5. O Japão até a Tokugawa2.2.6. <strong>Um</strong> Tratado de Recenseamento naÍndia Antiga2.2.7. O Recenseamento em Roma2.2.8. As Estatísticas na Era de Cristo…3. …Até à Idade Moderna3.1. As Estatísticas e <strong>os</strong> Jog<strong>os</strong> de Azar3.2. O Início das Probabilidades3.2.1. A curi<strong>os</strong>idade do “passe-dix”3.3. O Desenvolvimento da Estatística4. A Estatística n<strong>os</strong> Dias de Hoje4.1. Introdução4.2. A Estatística no Estudo daHereditariedade Humana4.2.1 - Lei da Regressão <strong>para</strong> amediocridade4.3. De Karl Pearson a Ronald Fisher4.4. Andrei Nicolaevitch Kolmogorov4.5. O Século XX4.5.1. Berço das Aplicações daEstatística4.5.2. Análise Exploratória de Dad<strong>os</strong>4.6. Tendências <strong>para</strong> o Futuro5. A Estatística em Portugal5.1. Portugal e a Estatística: <strong>os</strong> Númer<strong>os</strong>e a História5.2. Os Recenseament<strong>os</strong> em Portugal5.3. O Ensino da Estatística em Portugal5.3.1. Estatística no Secundário5.4. O INE e o Sistema Estatístico Nacional6. Ver Também


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 101. IntroduçãoEste d<strong>os</strong>siê inclui <strong>os</strong> fact<strong>os</strong> considerad<strong>os</strong> maisimportantes da história da Estatística e dasEstatísticas, desde as Antigas Civilizações atéa<strong>os</strong> n<strong>os</strong>s<strong>os</strong> dias. Alguns cientistas tambémsão aqui mencionad<strong>os</strong>, não tod<strong>os</strong>, mas simaqueles que deram um maior contributo <strong>para</strong>o desenvolvimento da Estatística. No últimocapítulo é apresentado um pouco da evolução daEstatística no n<strong>os</strong>so país. No final, a rubrica “VerTambém” contém ligações <strong>para</strong> outr<strong>os</strong> estud<strong>os</strong>de interesse relacionad<strong>os</strong> com as temáticas emcausa (publicações e páginas na internet).2. As CivilizaçõesAntigas2.1 IntroduçãoDesde o começo da civilização que a Estatísticatem estado sempre presente: n<strong>os</strong> primórdi<strong>os</strong>mais oculta e na actualidade mais visível.Contar, enumerar e recensear sempre foiuma preocupação permanente em todas asculturas. Em civilizações como a antiga Grécia,Roma, Egipto, Israel, Índia, Japão, China, etc,o Estado tinha necessidade de <strong>conhecer</strong> a suapopulação, tanto a nível económico como a nívelsocial. Os Imperadores da altura ordenavam<strong>os</strong> recenseament<strong>os</strong> da população com vistaà cobrança de imp<strong>os</strong>t<strong>os</strong> e ao recrutamentomilitar, pois as guerras eram constantes e havianecessidade de conseguir jovens rapazes <strong>para</strong>serem treinad<strong>os</strong> fisicamente <strong>para</strong> a guerra.Nas civilizações antigas quem não respondessea<strong>os</strong> Cens<strong>os</strong> era punido com a morte.


pág. 11# Notas sobre a história da estatísticaEstes recenseament<strong>os</strong> não podem ser com<strong>para</strong>d<strong>os</strong>com <strong>os</strong> da actualidade, pois não assentavamem princípi<strong>os</strong> estatístic<strong>os</strong> credíveis ou não eramfeit<strong>os</strong> exaustivamente. Pode dizer-se contudo queo princípio da Estatística começou com estassociedades, não como hoje é conhecida entre nósmas de uma maneira mais simples e rudimentar.2.2 As Civilizações Antigas e <strong>os</strong> Cens<strong>os</strong>2.2.1 A Grécia Antiga (2100 a.C. a 146 a.C.)cada nascimento se oferecia à sacerdotisa deAtenas uma medida de frumento (uma espécie detrigo candial), e em cada falecimento uma medidade cevada. Além disso, tod<strong>os</strong> <strong>os</strong> jovens quandoatingiam a idade de 18 an<strong>os</strong> eram inscrit<strong>os</strong> naqualidade de cidadã<strong>os</strong> e eram colocad<strong>os</strong> na listade homens em estado de apresentar armas.Até esta idade, somente estudavam aritmética,literatura, música, escrita e educação física.As jovens não recebiam qualquer educaçãoformal, mas aprendiam <strong>os</strong> ofíci<strong>os</strong> doméstic<strong>os</strong> e<strong>os</strong> trabalh<strong>os</strong> manuais com as mães. É atravésdestas descrições feitas por historiadoresque conseguim<strong>os</strong> aperceber-n<strong>os</strong> d<strong>os</strong> primeir<strong>os</strong>recenseament<strong>os</strong> efectuad<strong>os</strong> nas antigascivilizações. Também é sabido que <strong>os</strong> estrangeir<strong>os</strong>eram recensead<strong>os</strong>, através do seu tributoparticular que era cobrado por cabeça.É curi<strong>os</strong>o constatar que no quadro descritivo deAtenas, já Aristóteles descrevia não só a situaçãode uma cidade ou de um país por si só, do pontode vista do governo, da justiça, das ciências e dasartes, d<strong>os</strong> museus e d<strong>os</strong> c<strong>os</strong>tumes, mas tambémpor com<strong>para</strong>ção com outr<strong>os</strong> Estad<strong>os</strong>. Destemodo, podem<strong>os</strong> observar nesta parte da obra deAristóteles, o princípio da Estatística Descritiva.Estatística Descritiva:A Grécia Antiga abrangia um vasto território.Era formada por um conjunto de cidades-estado,politicamente autónomas, p<strong>os</strong>suindo em comum<strong>os</strong> c<strong>os</strong>tumes e a língua. No século V a.C. entreestas cidades sobressaía Atenas. A sua culturaera a mais brilhante de todas as cidades gregas,em particular nas artes, no teatro, na históriae na fil<strong>os</strong>ofia. Também p<strong>os</strong>suía o governo maisdemocrático de todas as cidades gregas. Além deAtenas destacavam-se as cidades de Esparta eCorinto.Como se refere em Bedarida et al, 1987, Atenasera a cidade grega que melhor conhecia a suapopulação. Aristóteles dá-n<strong>os</strong> a <strong>conhecer</strong> que emEstudo descritivo de dad<strong>os</strong> de uma am<strong>os</strong>tra(ou de uma população) em que se resume todaa informação recolhida em gráfic<strong>os</strong> e tabelas,calculando algumas das suas características, porexemplo a moda, a média, frequências, etc.2.2.2. A Antiga Civilização Egípcia (5000 a 30 a.C.)A cultura egípcia é uma das mais antigas e maisduradouras, com uma duração de quase cincomiléni<strong>os</strong>. Beneficiou de uma abundância de boasterras, de recurs<strong>os</strong> minerais próxim<strong>os</strong> e de umaboa p<strong>os</strong>ição estratégica.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 12a indicação do nome do pai e da mãe de cadaocupante. No tempo de Amasis II (Século VI a.C.)tod<strong>os</strong> <strong>os</strong> indivídu<strong>os</strong> tinham de declarar tod<strong>os</strong> <strong>os</strong>an<strong>os</strong> ao governo da sua província (incorrendona pena de morte, caso não o fizessem) a suaprofissão e suas fontes de rendimento.Recenseamento:Estudo de um universo de pessoas, instituiçõesou object<strong>os</strong> físic<strong>os</strong> com o objectivo de obterconheciment<strong>os</strong> quantitativ<strong>os</strong> acerca dascaracterísticas importantes dessa população.LocalizaçãoO EGIPTO antigo ocupava quase a mesma áreaque o Egipto actual ocupa hoje. A sua civilização,muito perto do Rio Nilo, era cercada quasecompletamente pelo deserto.2.2.2.1 Os recenseament<strong>os</strong> e a estatística de“massa”Se o cálculo remonta às mais antigas comunidadeshumanas, a estatística de “massa” teveinício com <strong>os</strong> grandes Impéri<strong>os</strong> da Antiguidade,preocupad<strong>os</strong> em administrar <strong>os</strong> seus bens, <strong>os</strong>seus homens, as suas armas e as suas imensasobras públicas. Esta enumeração presume umaorganização complexa e uma forte estruturaadministrativa. Mas <strong>os</strong> recenseament<strong>os</strong> já erampraticad<strong>os</strong> por uma das mais antigas civilizaçõesconhecidas: o Egipto, provocado em parte porfalta de mão de obra ligada à construção daspirâmides. <strong>Um</strong> registo de Pierre de Palermedatado de 2900 A.C. fez, de facto, alusão aorecenseamento de pessoas. No período de2700 a 2500 A.C., já existiam recenseament<strong>os</strong>bianuais, depois anuais, sobre <strong>os</strong> diferentesbens que tinham como destino a fiscalização. Porvolta de 1900 A. C., são estabelecidas as listasd<strong>os</strong> familiares d<strong>os</strong> soldad<strong>os</strong>; estas informaçõesdestinavam-se ao uso fiscal e militar. Em mead<strong>os</strong>de 1200 A.C. apareceram as listas das casas,d<strong>os</strong> chefes de família e seus parentes , comOs antig<strong>os</strong> egípci<strong>os</strong> acreditavam que poderiamcomunicar com <strong>os</strong> deuses através do rei. O reitinha poder absoluto, dirigia o governo, o comércioe a política externa, aplicava as leis e conduzia oexército.Tod<strong>os</strong> <strong>os</strong> trabalhadores pagavam imp<strong>os</strong>t<strong>os</strong>,calculad<strong>os</strong> a partir de uma percentagem desua produção. Além disso, cada casa tinha quedisponibilizar um trabalhador por várias semanasem cada ano <strong>para</strong> a realização de obras públicas.As pirâmides provavelmente foram construídaspor trabalhadores que contribuíam com <strong>os</strong>seus serviç<strong>os</strong> anuais. De facto, o rigor da suaconstrução e as suas dimensões implicavam umaorganização de trabalho humano nunca antesdemonstrada em nenhuma outra civilização.Ora, a administração deste Estado, constituídaessencialmente pel<strong>os</strong> numer<strong>os</strong><strong>os</strong> «escribas»,só era p<strong>os</strong>sível graças a um grande número defuncionári<strong>os</strong> muito eficazes e . Estes usavamcaracteres hieroglífic<strong>os</strong> que apareceram na Feníciano ano 3000 a.C., escrit<strong>os</strong> a partir de imagens eque vigoraram até ao fim do Império Egípcio.


pág. 13# Notas sobre a história da estatística2.2.3. Israel e <strong>os</strong> Númer<strong>os</strong> (1700 a.C. a 70 d.C)As pessoas confundem <strong>os</strong> term<strong>os</strong> “Hebreu”,“Judeu” e “Israelita”. Os Hebreus são <strong>os</strong> primeir<strong>os</strong>judeus, <strong>os</strong> primeir<strong>os</strong> habitantes da Terra de Israel,aqueles que usaram pela primeira vez a línguahebraica. O termo tem um sentido mais étnicoe tribal do que religi<strong>os</strong>o. Quanto a israelitas ejudeus, fazia-se uma distinção no período entre<strong>os</strong> sécul<strong>os</strong> X e VIII a.C., quando dez trib<strong>os</strong> seestabeleceram no norte da Terra Santa (Reino deIsrael) e duas no sul (Reino de Judá). Hoje, porém,<strong>os</strong> dois term<strong>os</strong> são sinónim<strong>os</strong>.Em “Pour une Histoire de la Statistique” (Bedaridaet al, 1987), refere-se que a atitude d<strong>os</strong> Hebreusrelativamente a<strong>os</strong> cens<strong>os</strong> contribuiu, largamente, <strong>para</strong>modelar a opinião ocidental durante quase 2000 an<strong>os</strong>.O legado cultural hebreu foi importante <strong>para</strong> aformação de vári<strong>os</strong> traç<strong>os</strong> da cultura ocidental,pois a produção cultural hebraica está ligada coma sua vida religi<strong>os</strong>a.D<strong>os</strong> hebreus guardam<strong>os</strong> também sua cultura ea crença em um Deus único, Criador de todo oUniverso e de todas as coisas. Boa parte da Bíbliafoi escrita por eles.Deste modo, a história do povo hebreu nãopode ser dissociada da história da sua religião,pois o que sabem<strong>os</strong> sobre o povo Hebreudeve-se sobretudo às informações da Bíblia,principalmente do Antigo testamento. Assimsendo, a referida obra chama a atenção <strong>para</strong> umfacto curi<strong>os</strong>o a observar, que é a atitude ambígua,hesitante e contraditória que reporta a Bíblia.Na maior parte das vezes , <strong>os</strong> recenseament<strong>os</strong>eram tid<strong>os</strong> como sacríleg<strong>os</strong> porque se declaravamcontra o segredo da vida e da criação, do qualDeus era o único detentor. É claro que aqui comonoutr<strong>os</strong> lugares, a população receava ver-serecenseada <strong>para</strong> fins fiscais e militares, e parecialhes,por outro lado, que fazer inventári<strong>os</strong> da suariqueza, tanto de homens como de bens, podiatrazer desgraça.Por todas estas razões, <strong>os</strong> recenseament<strong>os</strong> nãoparecem ser admissíveis senão quando ordenad<strong>os</strong>pelo próprio Deus. E além disso, são por vezesatribuíd<strong>os</strong> a Satanás, o que parece ser o únicomeio <strong>para</strong> explicar <strong>os</strong> males que lhes aconteciam,como se as vidas recenseadas não pudessem serresgatadas e <strong>para</strong> sempre ficassem condenadas.Segundo <strong>os</strong> hebreus antig<strong>os</strong>, <strong>os</strong> recenseament<strong>os</strong>não parecem ser admissíveis senão quandoordenad<strong>os</strong> pelo próprio Deus. E além disso, sãopor vezes atribuíd<strong>os</strong> a Satanás, o que pareceser o único meio <strong>para</strong> explicar <strong>os</strong> males quelhes aconteciam, como se as vidas recenseadasnão pudessem ser resgatadas e <strong>para</strong> sempreficassem condenadas.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 14O recenseamento ordenado por Deus em Sinaié relatado em duas passagens, no livro deMoisés ao qual foi dado o nome de «Númer<strong>os</strong>».Iavé impôs a Moisés no deserto de Sinai: «fazeio recenseamento geral de toda a comunidaded<strong>os</strong> filh<strong>os</strong> de Israel, clã por clã, família porfamília» (Númer<strong>os</strong>, 1, 2). No livro do Êxodo(30, 12-15), está escrito que, quando Moisésfez o recenseamento daqueles que deviamser numerad<strong>os</strong>, «cada um deveria pagar aIavé <strong>para</strong> redenção da sua vida, <strong>para</strong> que esserecenseamento não lhe trouxesse calamidades».Iavé exigia homenagens e oferendas exclusivas emsua honra, e, em troca, seria o Todo-Poder<strong>os</strong>oprotector do povo hebreu.2.2.4. A máquina de recensear ChinesaLocalizaçãoA CHINA localiza-se no extremo sul do continenteasiático. O País é cortado por grandes ri<strong>os</strong>: rioAmarelo e Azul, que com outr<strong>os</strong> ri<strong>os</strong>, Branco eVermelho, formam long<strong>os</strong> vales que fertilizam <strong>os</strong>camp<strong>os</strong> do coração da China.No Extremo Oriente também se desenvolveramcivilizações antigas perfeitamente ac<strong>os</strong>tumadascom a prática d<strong>os</strong> recenseament<strong>os</strong>.Os regist<strong>os</strong> históric<strong>os</strong> mais antig<strong>os</strong> dizem-n<strong>os</strong>que o primeiro recenseamento foi realizado no ano2238 a.C., pelo primeiro imperador da China, Yuou Yao. O regime chinês desejava <strong>conhecer</strong> comexactidão o número de habitantes, a fim de poderrepartir o território, de distribuir as terras,estabelecer <strong>os</strong> rol<strong>os</strong> de pergaminho de imp<strong>os</strong>t<strong>os</strong> ede proceder ao recrutamento militar.Foram vári<strong>os</strong> <strong>os</strong> recenseament<strong>os</strong> efectuad<strong>os</strong> naChina:• Os recenseament<strong>os</strong> ligad<strong>os</strong> a umsistema de recrutamento (época dadinastia d<strong>os</strong> Han, 200 a.C. – 200 d. C.).O Estado, como meio de centralização,procura avaliar o número de soldad<strong>os</strong>disponíveis <strong>para</strong> as guerras e <strong>para</strong> otrabalho público.• Os recenseament<strong>os</strong> ligad<strong>os</strong> a<strong>os</strong>istema de distribuição das terras(do terceiro reino à quinta dinastia:221-959 d.C.). Para encorajar a produçãoagrícola e restringir <strong>os</strong> grandesdomíni<strong>os</strong> o soberano redistribui,com efeito, as terras em troca deserviç<strong>os</strong> e de pagament<strong>os</strong> em praz<strong>os</strong>fix<strong>os</strong> e surge a necessidade de <strong>conhecer</strong>a dimensão e a comp<strong>os</strong>ição das famílias.• De 960 a 1368 d.C. <strong>os</strong> recenseament<strong>os</strong>têm como objectivo principal a fiscalização.A noção de família ainda prevalece.• Na época de Ming (1368-1844 d.C.),funciona o que M. Cartier chamou de uma«admirável máquina» de recenseamento.Até ao fim da dinastia, procede-se àredacção d<strong>os</strong> «regist<strong>os</strong> de cartas» dapopulação. Estes regist<strong>os</strong> continham onome, a profissão, o sexo e a idade.


pág. 15# Notas sobre a história da estatística• A partir do 1644 d.C.(Ching) houveum período de regist<strong>os</strong> <strong>para</strong> a policia,destinad<strong>os</strong> a vigiar a deslocação d<strong>os</strong>habitantes e a despistar <strong>os</strong> indivídu<strong>os</strong>pouco recomendáveis. Em 1741 sãomodificad<strong>os</strong> <strong>os</strong> métod<strong>os</strong> de estimação.Em 1975, vigorou o sistema pao-chia,que exigia a ap<strong>os</strong>ição em todas as casasde um cartaz indicando o número deocupantes, o sexo, a idade, a profissãoe o montante d<strong>os</strong> seus tribut<strong>os</strong>. Estesistema permitiu obter sériesdemográficas desde 1750 a 1850.Em suma, durante um longo período, o imensoimpério Chinês esforçou-se por se recensearapesar das dificuldades com uma “paciência”comparável ao rigor científico d<strong>os</strong> Estad<strong>os</strong>modern<strong>os</strong>.2.2.5. O Japão até a TokugawaLocalizaçãoO JAPÃO localiza-se no extremo leste da Ásiasendo formado por quatro ilhas principais e 3mil ilhas mais pequenas. O país está exp<strong>os</strong>to aterramot<strong>os</strong> e erupções vulcânicas. É a segundapotência económica mundial.O Japão parece ter conhecido <strong>os</strong> recenseament<strong>os</strong>numa época bem remota da história, mas <strong>os</strong>resultad<strong>os</strong> desses recenseament<strong>os</strong> não foramdivulgad<strong>os</strong>. O primeiro surgiu no ano de 86 a.C.,no tempo do imperador Soujin. As actividadesda população, nesse tempo, eram registadasde modo a permitir examinar a sua evolução. Ameio do século VII a.C a reforma de Taika quevisava submeter toda a população a um tributocoincide com a redistribuição das terras, o quenecessitava do estabelecimento de um cadastroe de regist<strong>os</strong> de direit<strong>os</strong> civis revist<strong>os</strong> tod<strong>os</strong><strong>os</strong> 6 an<strong>os</strong>. As famílias eram recenseadas pelacasa da câmara e arquivadas em função d<strong>os</strong>seus recurs<strong>os</strong>, com distinção do sexo e do grupoetário. Este recenseamento não tinha somentecomo objectivo a tributação de imp<strong>os</strong>t<strong>os</strong>, mastambém facilitar o recrutamento militar e otrabalho forçado.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 16Segundo este livro, no tempo d<strong>os</strong> Tokugawa(sécul<strong>os</strong> XVII-XIX), no fim do século XVII (1665),efectuaram-se recenseament<strong>os</strong> locais. Em 1721,procedeu-se ao primeiro recenseamento geral,operação que deveria ser repetida de 6 em 6an<strong>os</strong>. Neste recenseamento eram excluídascertas categorias da população, assim como <strong>os</strong>nobres, <strong>os</strong> habitantes mais pobres ou as criançascom men<strong>os</strong> de 15 an<strong>os</strong>. Como é evidente, esteregisto comportava um certo número de lacunas.Daí se compreende a grande ansiedade que<strong>os</strong> Japoneses tinham pelo desenvolvimento dademografia.2.2.6. <strong>Um</strong> tratado de recenseamento na ÍndiaAntigaLocalizaçãoA INDIA é um país situado a sul da Ásia, comforma de l<strong>os</strong>ango. É limitado a Norte pela China,Nepal e Butão; a Este por Myanmar; a Noroestepelo Paquistão; e a Sudeste, Sul e Sudoeste pelooceano Índico.<strong>Um</strong> outro exemplo, muito conhecido, de interessedemonstrado pel<strong>os</strong> impéri<strong>os</strong> asiátic<strong>os</strong> na enumeraçãoda sua população é o tratado redigidopelo hindu Kautilya, ministro do rei Candragupta(313-289 a.C.), fundador da dinastia e do primeiroimpério indiano <strong>os</strong> Maurya (313-226 a.C.), n<strong>os</strong>éculo IV antes da n<strong>os</strong>sa era. Este tratado eraextremamente original e avançado <strong>para</strong> a época.Sendo de ciência política é também um tratado deeconomia: o seu nome correcto era Arthasástra,ou seja tratado ou ciência (sástra) do progresso(artha).Nesta obra, que descreve o estado centralizadore expansionista que era o império Maurya, Kautilya,(mais tarde Machiaval), reflecte sobre a arte degovernar e indica ao soberano como aumentarincessantemente o seu reino. Exactamente comoKautilya, o Estado deverá dirigir e controlar tudo.Mestre absoluto da economia, ele governa como auxílio de um aparelho administrativo muitoextenso, desempenhado pelo exército e pela políciasecreta. Para se realizar um “rol planificador”, oEstado, segundo Kautilya, terá de recorrer a<strong>os</strong>recenseament<strong>os</strong>, à estatística e ao cadastro. “Tudoo que for feito terá que ser conhecido: do efectivoda população até o número de elefantes, passandopelas matérias-primas, <strong>os</strong> produt<strong>os</strong> fabricad<strong>os</strong>, <strong>os</strong>preç<strong>os</strong> e <strong>os</strong> salári<strong>os</strong>”.Arthasástra: O Tratado do ProgressoEm Arthasástra, Kautilya descreve com muitaprecisão as tarefas d<strong>os</strong> revisores n<strong>os</strong> diferentesescalões territoriais. Em cada estado o revisordeve dividir o país em quatro províncias, recenseare transferir <strong>para</strong> a escrita o número de aldeias eordená-las conforme a sua riqueza (ricas, médias epobres), de modo a melhor contabilizar o trabalho e<strong>os</strong> produt<strong>os</strong> que, em grande parte, eram entreguessob a forma de imp<strong>os</strong>t<strong>os</strong>. Por outro lado, com estaorientação pretendia-se, também, fazer um melhorrecrutamento de soldad<strong>os</strong>.


pág. 17# Notas sobre a história da estatísticaO revisor provincial assegurava a escrituração d<strong>os</strong>regist<strong>os</strong>, nomeadamente das casas e das pessoasque não pagavam <strong>os</strong> imp<strong>os</strong>t<strong>os</strong>. Por outro lado,estavam também registad<strong>os</strong> o nome das pessoaspertencentes a cada uma das quatro classes(varsa), o número de feitores, de pastores, decomerciantes, de artesã<strong>os</strong>, de trabalhadoreslivres ou escrav<strong>os</strong>, o número de animais, e ainda aquantidade de dinheiro, de trabalho, de direit<strong>os</strong> ecoimas. O revisor registava igualmente, em cadafamília, o número de mulheres e de homens, decrianças, de pessoas id<strong>os</strong>as, e <strong>os</strong> seus ofíci<strong>os</strong>,<strong>os</strong> seus mod<strong>os</strong> de vida, o montante d<strong>os</strong> seusrecurs<strong>os</strong> e das suas despesas.Por sua vez, o governador geral do país mantinhao registo do número de habitantes, o sexo, acasta, o nome de família e o ofício, e também odomicílio, <strong>os</strong> recurs<strong>os</strong> e as despesas.Assim informado e apetrechado, o Estado, segundoKautilya, poderia, mais eficazmente executar o seurol de previsões e de racionalizações.2.2.7. O recenseamento em Roma(750 a.C. a 476 d.C.)LocalizaçãoA ITÁLIA estende-se no centro do mar Mediterrâneo,tendo a Sul e a Oeste duas grandes ilhas:Sicília e Sardehna. Cerca de 80% do território émontanh<strong>os</strong>o ou colin<strong>os</strong>o, sendo a maior extensãode terra plana a da planície Padana, atravessadapelo Rio Pó.A cidade de Roma foi fortemente influenciada,em matéria de recenseament<strong>os</strong>, no que respeitaa conceit<strong>os</strong> e práticas, pelo pensamentoOriental. No fim do século VI antes de Cristo, <strong>os</strong>recenseament<strong>os</strong> eram feit<strong>os</strong> de 5 em 5 an<strong>os</strong>,até ao ano 68 a.C. e, depois de uma interrupçãode uma vintena de an<strong>os</strong>, foram retomad<strong>os</strong> porAugusto sob uma forma decenal.Segundo a tradição, o primeiro recenseamentoautorizava a repartição entre as tarefas civis e asmilitares não por cabeça, mas segundo a fortuna.Os cidadã<strong>os</strong> roman<strong>os</strong> eram obrigad<strong>os</strong> a declararas suas fortunas, o seu nome, o d<strong>os</strong> seus pais,a idade, o nome da sua esp<strong>os</strong>a assim como o d<strong>os</strong>seus filh<strong>os</strong>, a tribo onde residiam e o número deescrav<strong>os</strong>. Caso não fornecessem algumas destasinformações poderiam ficar sem <strong>os</strong> seus bens ousem <strong>os</strong> direit<strong>os</strong> de cidadão.Os cens<strong>os</strong> permitiam não só classificar <strong>os</strong>cidadã<strong>os</strong> segundo <strong>os</strong> seus rendiment<strong>os</strong>, mastambém cobrar imp<strong>os</strong>t<strong>os</strong> sobre <strong>os</strong> seusrendiment<strong>os</strong> e determinar a condição social quelhes permitisse ter funções a nível político emilitar na cidade.


pág. 18um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #2.2.8. As Estatísticas na Era de Cristo…A data do nascimento de Cristo é hoje bastantecontroversa, pois o governador romano da Síriaque incluía a Judeia e a Galileia, por ordem doSenado, teve de fazer um recenseamento <strong>para</strong> oqual utilizou uma técnica, talvez a mais absurdade todas (Collected Works: obras de J.Tiago deOliveira, Volume II,1995). A Bíblia conta que SãoJ<strong>os</strong>é e a virgem Maria saíram de Nazareth, naGalileia, <strong>para</strong> Belém, na Judeia, <strong>para</strong> responder aoCenso ordenado por César Augusto (as pessoastinham que ser entrevistadas no local de suaorigem). Foi enquanto estavam na cidade queJesus nasceu.Em Portugal está escrito em Diário da Repúblicae portanto constitui lei, que <strong>os</strong> jog<strong>os</strong> de azar são,pura e simplesmente, jog<strong>os</strong> de Acaso. O que nã<strong>os</strong>ignifica, portanto, jog<strong>os</strong> de má sorte.3.2. O início das Probabilidades3. …Até à Idade Moderna3.1. As Estatísticas e <strong>os</strong> Jog<strong>os</strong> de AzarOs jog<strong>os</strong> sempre tiveram grande interessee foram largamente praticad<strong>os</strong> em todas asCivilizações. Eram de tal maneira importantes que,no Olimpo grego, havia uma Deusa “encarregada”das artes do Acaso, que era a Deusa Thykhe,parente da Deusa da fortuna do Panteão romano,de tod<strong>os</strong> conhecida pela chamada roda da fortuna,que era o seu símbolo (Oliveira, 1995). O termoAcaso, ou mais propriamente o termo Azar nã<strong>os</strong>ignifica aqui má sorte ou má fortuna; a palavraazar vem do árabe e significa exactamente Acaso.O termo “azar”, usado na expressão “jog<strong>os</strong> deazar” não significa má sorte ou má fortuna massimplesmente Acaso.Como refere J. Tiago de Oliveira, em Jerusalémainda existe um traçado no chão da prisão emque esteve Cristo, formando um quadrado divididoem nove partes iguais, relativo ao velho jogo dogalo. Do mesmo modo <strong>os</strong> jog<strong>os</strong> estiveram semprepresentes em quase todas as civilizações, como om<strong>os</strong>tram vári<strong>os</strong> document<strong>os</strong> do tipo arqueológic<strong>os</strong>ou históric<strong>os</strong>. Curi<strong>os</strong>amente, <strong>os</strong> jog<strong>os</strong> nuncaforam objecto de estudo até à Idade Média.A abordagem matemática do acaso, do azar e dorisco só se iniciou há pouco mais de 500 an<strong>os</strong>.A disciplina que assim foi constituída, a Teoriadas Probabilidades, nasceu das tentativas dequantificação d<strong>os</strong> risc<strong>os</strong> d<strong>os</strong> segur<strong>os</strong> e de avaliaras p<strong>os</strong>sibilidades de se ganhar em jog<strong>os</strong> de azar.Com o término da Idade Média, o crescimentod<strong>os</strong> centr<strong>os</strong> urban<strong>os</strong> levou ao aparecimento d<strong>os</strong>eguro de vida. Foi em torno desses assunt<strong>os</strong>que surgiram <strong>os</strong> primeir<strong>os</strong> estud<strong>os</strong> matemátic<strong>os</strong>sobre segur<strong>os</strong>. Mas, só passad<strong>os</strong> quase 250an<strong>os</strong>, com Daniel Bernoulli, é que a matemáticad<strong>os</strong> segur<strong>os</strong> atingiu um estado suficientementemaduro. Ele retomou um problema clássico


pág. 19# Notas sobre a história da estatísticade, a partir de um número determinado derecém nascid<strong>os</strong>, calcular o número esperado desobreviventes após n an<strong>os</strong>. Bernoulli deu também<strong>os</strong> primeir<strong>os</strong> pass<strong>os</strong> em direcção a nov<strong>os</strong> tip<strong>os</strong>de segur<strong>os</strong> calculando a mortalidade causada pelavaríola em pessoas com uma dada idade.Girolano Cardano (1501/1576) foium matemático notável, vigaristanotável, médico notável, probabilistanotável, algebrista notável e escreveuum pequeno manual de jog<strong>os</strong> de azar“Liber de Ludo Aleae”, que é, talvezo primeiro sobre probabilidades,que analisa jog<strong>os</strong> e p<strong>os</strong>sibilidades.Cardano foi o primeiro a introduzirtécnicas combinatórias <strong>para</strong> calcular aquantidade de p<strong>os</strong>sibilidades favoráveisnum evento aleatório. Limitou-se aresolver alguns problemas concret<strong>os</strong>,isto é, problemas com dad<strong>os</strong> estritamentenuméric<strong>os</strong>, mas nuncachegou a produzir nenhum teorema.Podem<strong>os</strong> considerar Pascal (1623/1662) e Fermat (1601/1665) com<strong>os</strong>endo <strong>os</strong> fundadores do Cálculo dasProbabilidades.Blaise Pascal nasceu em 1623 emClermont. Filósofo, matemático, físico,teólogo e escritor deu uma grandecontribuição <strong>para</strong> o desenvolvimentodo estudodas probabilidades, descobrindo novaspropriedades do triângulo aritmético,conhecido entre nós como o Triângulode Pascal.Técnicas Combinatórias:Técnicas de contagem que n<strong>os</strong> permitem saberquant<strong>os</strong> são <strong>os</strong> resultad<strong>os</strong> p<strong>os</strong>síveis de umaexperiência. Não interessa saber quais são <strong>os</strong>resultad<strong>os</strong> (enumeração directa), mas sim qual onúmero de resultad<strong>os</strong>.O primeiro grande problema das Probabilidades,que foi prop<strong>os</strong>to pelo Cavaleiro de Méré a Pascal,surgiu na corte d<strong>os</strong> reis de França onde anobreza se divertia, entre outras actividades,a jogar. Tratava-se da procura da compreensãode um determinado jogo com três dad<strong>os</strong> de queMéré não conseguia entender <strong>os</strong> resultad<strong>os</strong>empiricamente observad<strong>os</strong>. Pascal e Fermat,se<strong>para</strong>damente, encontraram a solução doproblema, mas a solução de Pascal era muitoespecífica enquanto que a de Fermat constituiutalvez o primeiro método geral das probabilidades.Naquele problema surgiam duas situações quese punham com a mesma probabilidade mas quediferiam na verificação empírica da análise defrequência. Começa aqui a surgir a ideia da Lei d<strong>os</strong>Grandes Númer<strong>os</strong> e a identificação “automática”entre probabilidade e frequência num elevadonúmero de provas.Pierre de Fermat, nasceu em1601 em Beaumont. Conhecidocomo o “Príncipe d<strong>os</strong> Amadores emMatemática”, estudou matemáticapor vocação, tendo sido, comoadvogado, conselheiro do Parlamentode Toulouse desde 1631. Éconsiderado o criador da teoria d<strong>os</strong>númer<strong>os</strong> e precursor da geometriaanalítica, cálculo das probabilidades ecálculo diferencial. O seu contributo<strong>para</strong> o cálculo das probabilidadesderivou da correspondênciaestabelecida com o seu colegaPascal <strong>para</strong> tentarem resolver <strong>os</strong>problemas exp<strong>os</strong>t<strong>os</strong> pelo Cavaleirode Méré.


pág. 20um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #Inicia-se então um período, que termina noprincípio do século xx, em que a Estatística émarginalizada e em que o que se desenvolve é oCálculo das Probabilidades.A LEI DOS GRANDES NÚMEROS, em linguagemsimplista diz-n<strong>os</strong> que a frequência de umacontecimento, numa longa série de experiências,se aproxima, cada vez mais, da probabilidadedesse acontecimento, probabilidade que assimsurge como uma frequência –limite. Ou seja, aLei d<strong>os</strong> Grandes Númer<strong>os</strong> exprime-se pela ideiade que se a probabilidade de uma face de umdado é 1/6, em 100 experiências sucessivasindependentes cerca de 100/6 vezes essa faceaparecerá, em 1000 experiências sucessivasindependentes cerca de 1000/6 vezes essa faceaparecerá, etc.3.2.1 A curi<strong>os</strong>idade do “passe-dix”“A incerteza tem sido, desde há long<strong>os</strong> temp<strong>os</strong>,uma preocupação do homem. E foi a arte lúdicad<strong>os</strong> jog<strong>os</strong> que, através das probabilidades,construiu <strong>os</strong> instrument<strong>os</strong> e as regras quepermitem à Estatística medir a intensidade deincerteza (ou de realização) d<strong>os</strong> fenómen<strong>os</strong>.”(Oliveira, 1995)Quadro 1Soma 11 Soma 126+4+1 6+5+16+3+2 6+4+25+5+1 6+3+35+4+2 5+5+25+3+3 5+4+3e portanto em número igual (6) o que devia darfrequência igual ou muito aproximada. Todavia éfácil ver que enquanto a forma (6,4,1) se podedar de 6 mod<strong>os</strong> (pense-se, por exemplo, que <strong>os</strong>dad<strong>os</strong> são de cores diferentes e que 6,4,1 podesair com 6 no dado branco, 4 no azul, 1 no verdeou com 6 no azul, 4 no verde e 1 no branco, etc.,ao todo de 6 maneiras), já o mesmo não sucede<strong>para</strong> a forma (4,4,3) que só pode acontecer d<strong>os</strong> 3mod<strong>os</strong> em que o “3” sai com um d<strong>os</strong> três dad<strong>os</strong>e <strong>os</strong> “4” n<strong>os</strong> outr<strong>os</strong> dois. Feitas agora as contascom cuidado (o número total de mod<strong>os</strong> está entreparêntesis, a seguir a cada forma) vê-se que 12só pode acontecer de 25 mod<strong>os</strong> enquanto que 11pode ser observado de 27 maneiras diferentes.Méré tinha, pois, verificado correctamente que nojogo de “passe–dix” a soma 11 era mais frequente(provável) do que a soma 12, em contradição como que à primeira vista parecia dever acontecer.O “Passe - Dix”Na corte de França era comum o jogo do “passe–dix”em que o jogador atira 3 dad<strong>os</strong> simultaneamente eganha se a soma d<strong>os</strong> pont<strong>os</strong> passa de 10, perdend<strong>os</strong>e a soma for 9 ou inferior. <strong>Um</strong> inteligente e cultojogador inveterado, o Cavaleiro de Méré, ao tempo deLuís XIV, tinha observado que saía mais vezes a soma11 do que a soma 12, facto que lhe parecia estranhopois as formas que lhe levavam às somas 11 e 12são as seguintes:Quadro 2Soma 11 Soma 126+4+1(6)6+3+2(6)5+5+1(3)5+4+2(6)5+3+3(3)4+4+3(3)6+5+1(6)6+4+2(6)6+3+3(3)5+5+2(3)5+4+3(6)4+4+4(1)(27) (25)


pág. 21# Notas sobre a história da estatística3.3 O desenvolvimento da EstatísticaÉ a partir do século XVIII que a Estatística começaa caminhar <strong>para</strong> a ciência que conhecem<strong>os</strong> hojeem dia.Nessa altura apareceram duas Escolas, umana Alemanha e outra em Inglaterra. A EscolaDescritiva Alemã, assim como ficou conhecida,afastou-se das ideias que fundamentaram aEstatística Moderna. O representante maisconhecido da Escola Alemã foi Gottfried Achenwall(1719-1772), o qual é considerado por algunsautores o “pai” da palavra Estatística. Mas, naopinião de Sir Maurice Kendall (Pearson e Kendall,1820), esta palavra já tinha sido utilizada emItália, num trabalho do historiador Girolamo Ghilini,em 1589 que se refere a um registo da “civile,politica, statistica e militare scienza”. SegundoKendall, a palavra utilizada na Escola Alemãdenotava apenas o método utilizado n<strong>os</strong> estud<strong>os</strong>dedicad<strong>os</strong> à descrição d<strong>os</strong> estad<strong>os</strong> polític<strong>os</strong> e,se alguma informação numérica aparecia nessesregist<strong>os</strong> era somente por acaso ou conveniência.A Escola Inglesa, “Escola de Aritmétic<strong>os</strong>Polític<strong>os</strong>”, preocupava-se com o estudo numéricod<strong>os</strong> fenómen<strong>os</strong> sociais e polític<strong>os</strong>.A Escola de Aritmétic<strong>os</strong> Polític<strong>os</strong> preocupava-secom o estudo numérico d<strong>os</strong> fenómen<strong>os</strong> sociais epolític<strong>os</strong>, enquanto que a Escola Alemã somentefazia a descrição d<strong>os</strong> estad<strong>os</strong>.Da Escola Inglesa surgiram dois Estatístic<strong>os</strong>importantes <strong>para</strong> o desenvolvimento daEstatística Moderna, sendo eles, John Graunt(1620-1674) e William Petty (1623-1687).O trabalho desenvolvido por John Graunt (Senetae Heyde, 2001) constituiu a base da EstatísticaModerna. Graunt estudou a mortalidade da cidadede Londres e as incidências das causas naturais,sociais e políticas nesse fenómeno. Através dasTábuas de Mortalidade realizadas na altura dapeste na cidade de Londres, Graunt fez uma análiseexaustiva do número de pessoas que morriam devárias doenças e estimou o número de nasciment<strong>os</strong>de homens e mulheres. Foi a primeira pessoa afazer observações entre sex<strong>os</strong> e m<strong>os</strong>trou quenasciam mais homens que mulheres e que por cada100 pessoas nascidas, 36 morriam a<strong>os</strong> 6 an<strong>os</strong> e 7sobreviviam até a<strong>os</strong> 70 an<strong>os</strong>.John Graunt nasceu em 1620 emLondres. Homem bem conceituadoe muito estudi<strong>os</strong>o, ocupou carg<strong>os</strong>muito importantes na cidade deLondres. Herdou a loja do seu pai econseguiu por o negócio em grandeevolução. Foi Capitão da banda militare, n<strong>os</strong> últim<strong>os</strong> an<strong>os</strong>, Major. <strong>Um</strong> d<strong>os</strong>fundadores da Royal Society, viveunuma época marcada pelo nascimentoda ciência moderna. Em 1662, Grauntpublicou a sua grande obra Naturaland Political Observations on theLondon Bills of Mortality o qual foi <strong>os</strong>eu primeiro tratamento estatísticode dad<strong>os</strong> demográfic<strong>os</strong> e a tentativade aplicar a teoria a problemas reais.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 22Graunt publicou a sua obra Natural and PoliticalObservation Made Upon The Bills of Mortalityem 1662, a qual deu um grande impulso àanálise quantitativa d<strong>os</strong> fenómen<strong>os</strong> sociais e aodesenvolvimento das Estatísticas Demográficas.O trabalho realizado por John Graunt chamoua atenção de Carl<strong>os</strong> III (Rei de Inglaterra), quepropôs a Graunt ser sócio fundador da RoyalSociety.William Petty trabalhou em conjunto com JohnGraunt durante três an<strong>os</strong> e, também ele pode serconsiderado como um impulsionador da EstatísticaModerna.John Graunt nasceu em 1620 em Londres.Homem bem conceituado e muito estudi<strong>os</strong>o,ocupou carg<strong>os</strong> muito importantes na cidade deLondres. Herdou a loja do seu pai e conseguiupor o negócio em grande evolução. Foi Capitão dabanda militar e n<strong>os</strong> últim<strong>os</strong> an<strong>os</strong> Major. <strong>Um</strong> d<strong>os</strong>fundadores da Royal Society, viveu numa épocamarcada pelo nascimento da ciência moderna. Em1662, Graunt publicou a sua grande obra Naturaland Political Observations on the London Bills ofMortality o qual foi o seu primeiro tratamentoestatístico de dad<strong>os</strong> demográfic<strong>os</strong> e a tentativade aplicar a teoria a problemas reais.Outro d<strong>os</strong> estudi<strong>os</strong><strong>os</strong> foi Abraham DeMoivre (1667-1754) que abriu caminho aodesenvolvimento da geometria analítica e da teoriadas probabilidades; publicou em 1718 o célebreDoctrine of Chances sobre a teoria do acaso, ondeexpôs a definição de independência estatísticajunto com muit<strong>os</strong> problemas relacionad<strong>os</strong> comdad<strong>os</strong> e outr<strong>os</strong> jog<strong>os</strong>, por exemplo a probabilidadede tirar bolas de cores diferentes de uma urna. Éatribuído a De Moivre o princípio segundo o quala probabilidade de um acontecimento comp<strong>os</strong>to éo produto das probabilidades das componentes,embora essa ideia já tivesse aparecido emtrabalh<strong>os</strong> anteriores. Também ele se interessoupelas estatísticas demográficas e fundou a teoriadas pensões.Inferência EstatísticaFase fundamental da análise estatística, durantea qual, conhecidas certas propriedades (obtidasa partir de uma análise descritiva da am<strong>os</strong>tra),expressas por meio de prop<strong>os</strong>ições, se imaginamprop<strong>os</strong>ições mais gerais, que exprimam aexistência de leis (na população).Mas as três grandes figuras da Teoria dasProbabilidades foram, na verdade, Jacob Bernoulli,Thomas Bayes e Pierre Simon Laplace.Antes de aparecer a Empresa Geral de Regist<strong>os</strong>em Inglaterra, Petty já tinha prop<strong>os</strong>to umaempresa de Estatística Central. Esta empresanão tinha só como objectivo o registo d<strong>os</strong>baptism<strong>os</strong>, casament<strong>os</strong> e mortes, mas tambémas características das casas, o tamanho dasfamílias, o sexo, a idade, a forma de ocupaçãoe nível de estud<strong>os</strong> de cada membro da família.Propôs a elaboração de Tábuas de Sobrevivênciabaseadas em taxas de mortalidade por grup<strong>os</strong>etári<strong>os</strong>. A ligação das probabilidades com <strong>os</strong>conheciment<strong>os</strong> estatístic<strong>os</strong> veio dar uma novadimensão à Estatística. Considera-se umanova fase, em que se começa a fazer InferênciaEstatística. Neste período alguns estudi<strong>os</strong><strong>os</strong>evidenciam-se. É o caso de Christian Huygens(1629-1695) que introduz a noção de valor médioou esperança matemática, em 1654.Jacob Bernoulli (1654-1705) em 1713, de quemé editada “p<strong>os</strong>mortem”, a “Ars Conjectandi”,m<strong>os</strong>tra, ao mesmo tempo que Leibniz, umaconsciência do que vai ser ou deve ser a ciênciaEstatística. <strong>Um</strong>a das grandes contribuições <strong>para</strong>a Estatística, foi a distribuição de Bernoulli, queconsiste em dizer que cada tentativa tem duasp<strong>os</strong>sibilidades de ocorrência chamadas: sucessoe insucesso (ex.: no lançamento de uma moeda ousai cara ou coroa). Esta distribuição foi a base dadistribuição binomial.


pág. 23# Notas sobre a história da estatísticaTod<strong>os</strong> estes contribut<strong>os</strong> foram extremamenteimportantes <strong>para</strong> a Estatística porquecomeçaram a levantar <strong>os</strong> grandes problemasda Teoria das Probabilidades. Problemas que sóforam resolvid<strong>os</strong> de maneira completa, metódica esistemática em 1933 por Kolmogorov.Prova de Bernoulli:1. Considera-se à partida um número fixo,n, de observações, a que é usual chamarprovas;2. As observações são independentesumas das outras;3. Em cada observação pode-se obter umde dois resultad<strong>os</strong> p<strong>os</strong>síveis a quechamam<strong>os</strong> sucesso ou insucesso;4. A probabilidade de sucesso, p, éconstante de observação <strong>para</strong> observação.P<strong>os</strong>teriormente surge Bayes (1701-1761)que, segundo Tiago de Oliveira, foi o primeiroa lançar claramente o problema fundamentalda Estatística: de que maneira, a partir dasobservações, é p<strong>os</strong>sível saber alguma coisarelativamente a um certo universo. Em 1762Bayes demonstrou o método que ficou conhecidopela Regra de Bayes, a qual consiste na partiçãodo espaço am<strong>os</strong>tral em divers<strong>os</strong> subconjunt<strong>os</strong>cujas probabilidades são conhecidas e érepresentada pela seguinte fórmula:As ideias de Thomas Bayes não foram muitobem aceites pel<strong>os</strong> cientistas daquela épocapois as equações resultantes da EstatísticaBayesiana eram por vezes bastante difíceis deresolver. Já no século XX, a partir da décadade 90, com o crescente desenvolvimento d<strong>os</strong>computadores, essas ideias foram recuperadase são frequentemente aplicadas em estud<strong>os</strong>estatístic<strong>os</strong>.Entretanto, surge uma outra figura de granderelevo, Pierre Simon de Laplace (1749-1827),que publicou em 1812 o tratado “Teoria Analíticadas Probabilidades” (Théorie Analytique desProbabilités), constituindo um grande marco daTeoria das Probabilidades. Neste tratado Laplacedefiniu probabilidade como o número de vezesem que um dado acontecimento pode ocorrer,dividido pelo número total d<strong>os</strong> cas<strong>os</strong> que podemacontecer, considerando-se que estes têmp<strong>os</strong>sibilidades iguais de acontecer.Pierre Simon de Laplace, nasceuem 1749 na Normandia (França).Astrónomo e matemático francês,estudou em Beumont-en-Auge, ondecomeçou a despertar o seu interessepela matemática. O seu grandecontributo <strong>para</strong> o desenvolvimentoda Estatística deve-se à publicaçãodo tratado “Teoria Analítica dasProbabilidades” onde descreveuum cálculo útil <strong>para</strong> assegurar um“grau de credibilidade racional” aprop<strong>os</strong>ições sobre aconteciment<strong>os</strong>aleatóri<strong>os</strong>.PP B / A P Ai iA / B iPB / A P Aj j“…É notável que tal ciência, que começou n<strong>os</strong>estud<strong>os</strong> sobre jog<strong>os</strong> de azar, tenha alcançado <strong>os</strong>mais alt<strong>os</strong> níveis do conhecimento humano.”Laplace


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 24Outro matemático que deu um grande contributo<strong>para</strong> o desenvolvimento da Estatística foi o“Príncipe d<strong>os</strong> Matemátic<strong>os</strong>”, Carl Friedrich Gauss(1777-1855). Forneceu o ponto de partida <strong>para</strong>algumas das principais áreas de pesquisa damatemática moderna; formulou a chamada leide Gauss, que trata da distribuição de cert<strong>os</strong>valores ao longo de uma curva em forma de sino(contribuição extremamente vali<strong>os</strong>a no campo daEstatística).Tiago de Oliveira (1995), refere que a Estatísticaestá por vezes reduzida, como sucede n<strong>os</strong> paísesmen<strong>os</strong> desenvolvid<strong>os</strong>, a uma contabilidade d<strong>os</strong>fact<strong>os</strong>, a uma listagem de aconteciment<strong>os</strong>, comopor exemplo, sobre o número de indivídu<strong>os</strong> quemorreram com a doença A ou B, sem a análise dascausas desses fact<strong>os</strong>.O primeiro a abordar o problema com bastanteclareza e a defender a criação de um serviçoautónomo de Estatística, foi o belga AdolphQuételet (1796-1874) que em 1846 propôs aorganização de cens<strong>os</strong> e preparou a organizaçãodo grande serviço belga de Estatística. Quételetgeneralizou o uso da distribuição normal alémda sua aplicação <strong>para</strong> a análise de err<strong>os</strong> e, emparticular, a aplicação da distribuição normal<strong>para</strong> o estudo das características humanas,tais como altura e peso. Quételet melhorou <strong>os</strong>métod<strong>os</strong> <strong>para</strong> a recolha de dad<strong>os</strong> e trabalhou naanálise estatística de dad<strong>os</strong> que envolvem crime,mortalidade, geofísica e astronomia, organizoua primeira conferência de estatística em 1853e escreveu “Sur l’homme et le développementde ses facultés, essai d’une physique sociale”,publicado nesse ano.“…todas as ciências de observação, no princípio,passaram pelas mesmas fases; foram artes,porque elas se limitavam a agrupar dumamaneira mais ou men<strong>os</strong> feliz colecções de fact<strong>os</strong>pertencendo a uma mesma ordem de coisas; efoi pela com<strong>para</strong>ção e estudo destes fact<strong>os</strong> queforam elevadas de seguida, à p<strong>os</strong>ição em que asvem<strong>os</strong> hoje. Porquê m<strong>os</strong>trar-se mais exigente<strong>para</strong> com a Estatística?”Adolph QuételetExemplo de umaCurva de Gauss0.40.30.20.1f( )122-( - )220 1 2 3 4 5 6- +A distribuição normal é uma aproximação àdistribuição de valores de uma característica. Aforma exacta da distribuição depende da média edo desvio padrão da distribuição.Duas figuras igualmente importantes <strong>para</strong> odesenvolvimento da estatística foram: SiméonDenis Poisson (1781-1840), que em 1810descobriu a forma limitada da distribuiçãobinomial que p<strong>os</strong>teriormente recebeu o seu nome;e Marquês de Condorcet (1743-1794), que éo primeiro a fazer a aplicação destas « artesmágicas do Acaso» a<strong>os</strong> problemas de caráctersocial e a analisar metodicamente o problema dasvotações.e ((


pág. 25# Notas sobre a história da estatística4.2. A Estatística no Estudo da HereditariedadeHumanaEstes dois homens foram <strong>os</strong> primeir<strong>os</strong> apreocuparem-se com as aplicações sociais daestatística.A partir da segunda década do século XIX, dá-seuma expl<strong>os</strong>ão no desenvolvimento da estatísticamoderna, tendo como principal responsável,Ronald A. Fisher, conhecido entre nós como o paida estatística moderna. Quanto a este célebrematemático, vam<strong>os</strong> conhecê-lo no capítul<strong>os</strong>eguinte.Na área da hereditariedade pode afirmar-seque <strong>os</strong> “pais” da Inferência Estatística, foramJ. Neyman e Karl Pearson. Embora <strong>os</strong> estud<strong>os</strong>estivessem associad<strong>os</strong> a questões relacionadascom a Biologia e a Genética, <strong>os</strong> métod<strong>os</strong> quecriaram, tais como a “hipótese nula” e “nível designificância”, fazem hoje parte da rotina diáriade todo o estatístico e cientista que precisa daEstatística.Francis Galton4. A Estatística n<strong>os</strong>dias de hoje4.1. IntroduçãoFrancis Galton, um d<strong>os</strong> grandesfundadores da ciência moderna eda ciência humana, em particularno século XIX, foi o fundador daantropologia, do estudo da naturezahumana e de suas origens, autor demuito do estudo da meteorologia(descobriu e introduziu o termoanticiclone) e instituiu o começo doestudo da genética.É na segunda metade do século XIX, que se dá aviragem da Estatística Descritiva ou Gráfica <strong>para</strong>o estudo metodológico, a qual se iniciou a partirdo Primeiro Congresso de Estatística que tevelugar em Bruxelas, em 1853 (Oliveira, 1995).Até aqui, a Estatística era vista somente comouma mera compilação de dad<strong>os</strong>, a sua disp<strong>os</strong>içãoem tabelas, uns tant<strong>os</strong> cálcul<strong>os</strong> de médias eoutras estatísticas simples…e pouco mais. Adecisão Estatística era, tantas vezes, feita deum modo intuitivo, vendo se o valor calculado apartir da am<strong>os</strong>tra estava próximo ou distantedaquele que teoricamente se esperava. É nestaaltura que surgem nov<strong>os</strong> nomes importantes<strong>para</strong> o desenvolvimento da Estatística, sendoeles Galton, Karl Pearson, “Student”, Lexis eVon Bortkiewicz. Estes matemátic<strong>os</strong>, “abrem”caminho <strong>para</strong> Fisher, Neyman e Wald, lançarem<strong>os</strong> fundament<strong>os</strong> da Estatística Moderna, aprocura d<strong>os</strong> métod<strong>os</strong> óptim<strong>os</strong> da inferência, oestudo do comportamento indutivo, rigorizando acom<strong>para</strong>ção indutiva e vaga.Fundador do termo Eugenia e activamenteenvolvido na sua prática, a qual propunha omelhoramento genético da espécie humana,Francis Galton, acreditava que as característicasfísicas e mentais d<strong>os</strong> seres human<strong>os</strong> seriamdevidas à hereditariedade. Idealizou instrument<strong>os</strong><strong>para</strong> medir a capacidade sensitiva, a memóriae a imaginação. Publicou, em 1865, um livro“Hereditary Talent and Genius” onde defende aideia de que a inteligência é predominantementeherdada e não fruto de acção ambiental.A ambição principal de Galton era provar como éque o carácter e <strong>os</strong> talent<strong>os</strong> foram transmitid<strong>os</strong>pela reprodução através de sucessivas gerações.Instalou o seu laboratório em Londres, onde <strong>os</strong>visitantes podiam fazer-se examinar desfilandoperante <strong>os</strong> seus instrument<strong>os</strong>. A altura, o peso, aenvergadura do palmo, a capacidade respiratória,a força, etc., eram medid<strong>os</strong> no laboratório


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 26de Galton. Com <strong>os</strong> dad<strong>os</strong> recolhid<strong>os</strong> elaborougráfic<strong>os</strong>, curvas de probabilidade, valores médi<strong>os</strong>,entre outr<strong>os</strong> cálcul<strong>os</strong>. Galton criou um esquemaexplicativo que mais tarde viria a dar lugar àmedida da correlação entre duas variáveis. SeriaPearson a formular, mais tarde, o coeficiente decorrelação. Por volta de 1870, Galton teve a ideiade modificar um disp<strong>os</strong>itivo que tinha criado eusado em lições <strong>para</strong> ilustrar as bases da lei doerro. A este disp<strong>os</strong>itivo chamou-o de quincunx.(ver caixa explicativa)EUGENIA:Termo definido por Francis Galton como sendoo estudo d<strong>os</strong> agentes sob o controlo social quepodem melhorar ou empobrecer as qualidadesraciais das futuras gerações seja física oumentalmente.Galton modificou o quincunx <strong>para</strong> demonstrarque as distribuições normais eram habitualmenteuma mistura de distribuições normais. Por outraspalavras, com a força da experimentação e odisp<strong>os</strong>itivo que ele inventou, chamado quincunx,concluiu que p<strong>os</strong>suía uma clara prova experimentalde que as causas significativas d<strong>os</strong> fenómen<strong>os</strong>poderiam, de facto, ser isoladas em conformidadecom a lei do erro.Numa primeira fase Galton inspirou-se no <strong>mundo</strong>natural, inicialmente reflectindo em pomares defruta, e como é que factores específic<strong>os</strong>, taiscomo o aspecto, podem afectar o tamanho dafruta.Galton QuincunxFrancis Galton nasceu a 16de Fevereiro de 1822 perto deBirminghan, Inglaterra. Afirma-seque, antes de completar 3 an<strong>os</strong>,foi capaz de ler um livro simples,e desde muito jovem deu provasde engenho <strong>para</strong> a mecânica e<strong>para</strong> as matemáticas. Fundadorda escola biométrica, interessousepel<strong>os</strong> métod<strong>os</strong> estatístic<strong>os</strong>e pela sua aplicação a todasas espécies de domíni<strong>os</strong>. Ostrabalh<strong>os</strong> de Galton são basead<strong>os</strong>na medição quantitativa feita apartir da lei normal de Gauss.A sua contribuição essencialna Estatística é o conceito decorrelação e a sua medição pelocoeficiente de correlação.Este aparelho consiste numconjunto de bolas de chumbo quedescem por um rampa com grandeinclinação. Estas, durante o seupercurso, colidem com preg<strong>os</strong>colocad<strong>os</strong> ao longo da rampa.Não é difícil imaginar condições nas quais as bolastêm igual probabilidade de ressaltar à esquerdaou à direita do prego. Se por baixo de cada pregoestão colocad<strong>os</strong> dois preg<strong>os</strong> numa linha horizontale o declive da rampa estiver correctamenteajustado, a bola baterá num ou noutro depois deressaltar do primeiro prego. Novamente a boladeve ter igual probabilidade de queda à esquerdaou à direita desses preg<strong>os</strong>.As probabilidades de queda à esquerda de amb<strong>os</strong>ou entre eles ou à direita de amb<strong>os</strong>, deveriamestar na proporção 1:2:1. O processo pode sercontinuado e está claro que as probabilidades deum bola passar entre <strong>os</strong> preg<strong>os</strong> diferentes de umafila são proporcionais a<strong>os</strong> númer<strong>os</strong> no Triângulo dePascal:11 11 2 11 3 3 11 4 6 4 1... ... ... ... ... ...


pág. 27# Notas sobre a história da estatísticaLei da regressão <strong>para</strong> a mediocridade de Galton:valorn<strong>os</strong>filh<strong>os</strong>A distribuição de probabilidades ao longo da n-ésima fila é assim proporcional a<strong>os</strong> coeficientes den( 1+t). <strong>Um</strong>a tal distribuição é chamadadistribuição binomial.<strong>Um</strong>a rampa deste tipo é chamada GaltonQuincunx, depois do nome do seu inventor, Galton;Quincunx é o nome latino <strong>para</strong> a face 5 de umdado, ou qualquer padrão semelhante.Na base da rampa foram feitas partições <strong>para</strong>as bolas e foi colocado um vidro <strong>para</strong> que asbolas não passem de uma <strong>para</strong> outra. Na partesuperior da rampa foi construído um reservatório<strong>para</strong> colocar as bolas, que se encontra fechadopor uma pequena porta que pode ser removida.Quando a porta é removida as bolas descem pelarampa abaixo e são desviadas pel<strong>os</strong> preg<strong>os</strong> que seencontram distribuíd<strong>os</strong> de forma conveniente. Seo ângulo for ajustado adequadamente, o númerode bolas n<strong>os</strong> compartiment<strong>os</strong> pode aproximar-semuito da distribuição binomial.Para um grande número de bolas e de filas depreg<strong>os</strong> esta distribuição aproxima-se da curva2erro padrão y=Ke - 22S, com k e s constantes.A curva formada pelas colunas de bolas n<strong>os</strong>compartiment<strong>os</strong> deveria dar uma ideia gr<strong>os</strong>seirada sua forma.4.2.1 Lei da regressão <strong>para</strong> a mediocridadeO investigador britânico, Francis Galton, a partirde um estudo com pares pais-filh<strong>os</strong>, propôs a “leida regressão <strong>para</strong> a mediocridade”.valor n<strong>os</strong> paisNo gráfico acima está representada a relaçãode uma variável métrica entre pais e filh<strong>os</strong>(por exemplo, altura). A linha azul representao esperado se <strong>os</strong> filh<strong>os</strong> tiverem exactamente ovalor da média d<strong>os</strong> pais. Note-se que pais queapresentam valores maiores da característicatêm descendência com um valor médio dacaracterística menor que a média observadamedida entre <strong>os</strong> pais. Por outro lado, <strong>os</strong> paisque têm o valor menor da característica têm <strong>os</strong>filh<strong>os</strong> com valores maiores que o resultante damédia entre <strong>os</strong> pais. Por isso a lei foi chamadade “regressão <strong>para</strong> a média”. Como curi<strong>os</strong>idade,o método estatístico de ajuste de linhas pelométodo d<strong>os</strong> mínim<strong>os</strong> quadrad<strong>os</strong> é até hojechamado de “regressão linear” devido a Pearson,um d<strong>os</strong> seguidores de Galton. O índice r, quem<strong>os</strong>tra quão bem <strong>os</strong> pont<strong>os</strong> experimentais seajustam a uma recta, é o coeficiente de regressãolinear de Pearson.Os resultad<strong>os</strong> e suas interpretaçõesaparentemente antagónicas originaram umadisputa de natureza científica que durou asprimeiras décadas do século XX. Essa disputateve importância na discussão a respeito doprocesso de evolução biológica, pois CharlesDarwin, um d<strong>os</strong> criadores da teoria da evoluçãopor selecção natural junto com Alfred RussellWallace, também inglês, acreditava que a evoluçãopor selecção natural era um processo que ocorriasobre a variação genética de natureza contínua,sendo portanto um processo gradual.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 284.3 De Karl Pearson a Ronald A. FisherÉ a mead<strong>os</strong> do século XIX que se dá oaparecimento da Estatística Moderna. Pode-sedizer que esta nova etapa da Estatística nasceun<strong>os</strong> laboratóri<strong>os</strong> de pesquisas biométricas.Comecem<strong>os</strong> por falar de Karl Pearson;Matemático britânico, foi o fundador da“Biometrika” (revista sobre Biometria muitoconhecida a nível internacional) e seguidor deFrancis Galton. É conhecido entre nós como o“criador da Estatística Aplicada”. Formou-sena <strong>Universidade</strong> de Cambridge e inicialmentededicou-se ao estudo da hereditariedade aplicandométod<strong>os</strong> estatístic<strong>os</strong> e desenvolvendo a teoria deGalton. O trabalho de Karl Pearson é constituídopor uma enorme quantidade de trabalh<strong>os</strong>publicad<strong>os</strong> principalmente na revista “Biometrika”,a qual foi fundada em conjunto com Walter Weldone Francis Galton.Desenvolveu a teoria da regressão e da correlaçãoaplicada a<strong>os</strong> problemas da hereditariedade, criouo teste do “qui quadrado” e foi um d<strong>os</strong> defensoresdo reconhecimento da Estatística como umadisciplina autónoma e introduzida no ensin<strong>os</strong>ecundário. (Galeria d<strong>os</strong> Matemátic<strong>os</strong> 1991).Karl Pearson nasceu emLondres a 27 de Marçode 1857 é consideradoo “criador da EstatísticaAplicada”. Seguidor de FrancisGalton no seu trabalho dehereditariedade. Apesarde todo o seu trabalho serligado à biologia, o seu grandecontributo <strong>para</strong> a Estatísticadeve-se a descobertas feitas<strong>para</strong> explicar <strong>os</strong> problemasbiológic<strong>os</strong> relacionad<strong>os</strong>com a evolução e com ahereditariedade.Criou o “método d<strong>os</strong> moment<strong>os</strong>” e o sistemade “curvas de frequência”, que ainda hoje sãousad<strong>os</strong> <strong>para</strong> a descrição matemática d<strong>os</strong>fenómen<strong>os</strong> naturais. A distribuição de Pearson,mais conhecida entre nós como a distribuição do“qui quadrado” ( ), constitui a base da Estatísticadas pequenas am<strong>os</strong>tras de populações normais,servindo <strong>para</strong> medir a confiança de resultad<strong>os</strong>estatístic<strong>os</strong>, testar hipóteses, etc.Outro matemático importante <strong>para</strong> a evoluçãoda estatística moderna é o inglês William SealeyG<strong>os</strong>set, mais conhecido como Student. Studenttrabalhou como químico na Cervejaria Guiness,onde começou a fazer várias experiênciasrelacionadas com o controlo de qualidade dacerveja. Student no início das suas experiênciasaplicou a distribuição Normal, começando asentir dificuldades na utilização da “Lei do Erro”em am<strong>os</strong>tras pequenas. Para resolver esseproblema entrou em contacto com o grandeestatístico da altura, Karl Pearson, o qual já tinhadesenvolvido as ideias que o levaram à distribuiçãodo mas, tal como tod<strong>os</strong> <strong>os</strong> estatístic<strong>os</strong> daaltura, estava mais interessado em grandesam<strong>os</strong>tras. Contudo, Student desenvolveu o testet de Student e <strong>os</strong> resultad<strong>os</strong> forma publicad<strong>os</strong> narevista “Biometrika”.William Sealey G<strong>os</strong>setnasceu a 13 de junho de 1876em Canterbury Inglaterra.Estudou química e matemáticae contribuiu <strong>para</strong> a Estatísticacom a descoberta dadistribuição t student. Devidoà fábrica onde trabalhava nãodeixar publicar o seu nomeverdadeiro, pois tinha medo deque as fábricas concorrentessoubessem das descobertasfeitas sobre a qualidade doproduto, G<strong>os</strong>set é conhecidoentre nós como Student,pseudónimo modesto utilizadopor este grande estatístico.


pág. 29# Notas sobre a história da estatísticaUtilizou o pseudónimo de Student, devidoà Cervejaria Guiness não desejar que <strong>os</strong>seus concorrentes soubessem d<strong>os</strong> métod<strong>os</strong>estatístic<strong>os</strong> utilizad<strong>os</strong> <strong>para</strong> melhorar a qualidadeda sua cerveja. Apesar da grande importânciadesta descoberta, o seu trabalho foi ignorado e sóredescoberto por Fisher. A distribuição t é umadistribuição de probabilidade teórica e semelhanteà curva normal reduzida, diferenciando-se destacom a introdução de um parâmetro chamado graude liberdade. Estes graus de liberdade podem serqualquer número real maior que zero.Falem<strong>os</strong> agora do grande Estatístico RonaldA. Fisher, um d<strong>os</strong> fundadores da EstatísticaModerna.Interessou-se pela teoria da evolução e selecção,sobretudo em genética, tal como Francis Galtone foi com este tema que se interessou pelaEstatística e que desenvolveu grande parte d<strong>os</strong>seus trabalh<strong>os</strong>. Mantendo correspondência como seu grande amigo Student, Fisher acabou porfazer a distinção entre a média am<strong>os</strong>tral e amédia da população. Interessou-se pelas am<strong>os</strong>trasrelativamente pequenas e não pelas infinitivamentegrandes. Era uma pessoa que não g<strong>os</strong>tava decometer err<strong>os</strong> e sofria bastante quando <strong>os</strong> tinhade admitir. Por isso, pensou em várias teorias quemais tarde ele e outr<strong>os</strong> tentaram desenvolver.Foi rejeitado <strong>para</strong> o serviço nacional na 1ª GrandeGuerra devido à fraca visão que p<strong>os</strong>suía e entãocomeçou a leccionar numa escola secundária comoforma de serviço comunitário.… apesar de haver sempre incerteza naestatística isto não implica que haja falta deprecisão. - a incerteza pode ser alvo de precisãoquantitativa. Fisher fez muito <strong>para</strong> dar forma erealidade a esta ideia.G.A.BarnardProfessor Universitário em ESSEXNessa altura, o seu trabalho na área de Estatísticachamou a atenção de Karl Pearson, fam<strong>os</strong>oestatístico da altura. Pearson, criticou o trabalhode Fisher, talvez por inveja, ferindo o seu orgulho,o que acabou por gerar um grande conflito entreestes dois estatístic<strong>os</strong> pois amb<strong>os</strong> começarama re<strong>para</strong>r n<strong>os</strong> err<strong>os</strong> que cada um cometia.2 Em1919 teve duas prop<strong>os</strong>tas de emprego: ou iriatrabalhar <strong>para</strong> Inglaterra com Pearson ou <strong>para</strong> aEstação Agrícola Experimental de Rothamsted.Como não tinha grande amizade por Pearson,optou pela segunda prop<strong>os</strong>ta, a qual também oentusiasmou bastante, pois na Estação Agrícolaexistiam observações adquiridas há mais de ceman<strong>os</strong>. Procedeu à análise desses dad<strong>os</strong> e introduziuum novo conjunto de métod<strong>os</strong>, como por exemplo oda máxima ver<strong>os</strong>imilhança, (procedendo ao estudode todas as suas propriedades), a análise devariância, <strong>os</strong> testes de hipóteses, e o planeamentode experiências.Ronald Aylmer Fisher, nasceua 17 de Fevereiro de 1890em East Finchley Londres eé considerado um d<strong>os</strong> paise fundadores da EstatísticaModerna. Licenciou-se emastronomia na <strong>Universidade</strong>de Cambridge, tendo-seinteressado desde muitonovo pela matemática. O seucontributo <strong>para</strong> a evoluçãoda Estatística é baseado, namaior parte, em experiênciasrealizadas na EstaçãoAgrícola Experimental deRothamsted. Aí desenvolveualguns métod<strong>os</strong> estatístic<strong>os</strong>tal como o método da máximaver<strong>os</strong>imilhança, a análisede variância, <strong>os</strong> testes dehipótese, e o planeamento deexperiências.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 30Na escola, Kolgomorov era uma criança queinventava vári<strong>os</strong> problemas de matemática, sendomuit<strong>os</strong> deles publicad<strong>os</strong> no jornal da escola.Estas ideias deram a<strong>os</strong> investigadores muit<strong>os</strong>instrument<strong>os</strong> <strong>para</strong> lidar com variáveis, am<strong>os</strong>traspequenas e estimativas mais precisas.Fisher recebeu três medalhas da Royal StatisticalSociety: a Medalha Real (1938), a Medalha deDarwin (1948) e a Medalha de Copley (1955),tendo sido nomeado Cavaleiro pela Rainha Isabelem 1952.Nunca deixou de parte <strong>os</strong> seus estud<strong>os</strong> realizad<strong>os</strong>em genética, tendo mesmo previsto dois nov<strong>os</strong>anticorp<strong>os</strong> ao avaliar <strong>os</strong> tip<strong>os</strong> de sangue. Todaesta estatística é estudada hoje em quase tod<strong>os</strong><strong>os</strong> curs<strong>os</strong> universitári<strong>os</strong> e faz parte do n<strong>os</strong>so diaa-dia.Tal como foi referido no capítulo 3, Kolmogorovlançou as bases axiomáticas das probabilidadese desenvolveu toda uma teoria que constituiuum enorme avanço na área, estabelecendo ummarco histórico. Essencialmente, <strong>os</strong> axiomas deKolmogorov estabelecem que:Os Axiomas das Probabilidades• Associad<strong>os</strong> a<strong>os</strong> p<strong>os</strong>síveis resultad<strong>os</strong> de umaexperiência aleatória, existe sempre um espaçoam<strong>os</strong>tral e uma álgebra de aconteciment<strong>os</strong>;• Para tod<strong>os</strong> <strong>os</strong> aconteciment<strong>os</strong> da álgebra,existe um número não-negativo (maior ou igual azero), chamado probabilidade, que se atribui a talacontecimento;• A probabilidade do espaço am<strong>os</strong>tral é igual a 1;• Para quaisquer dois aconteciment<strong>os</strong> disjunt<strong>os</strong>(que não compartilham nenhum resultado) aprobabilidade da reunião é igual à soma das suasprobabilidades;4.4 Andrei Nicolaevitch Kolmogorov• O Axioma anterior é verdadeiro <strong>para</strong>infinitas uniões, desde que tod<strong>os</strong> <strong>os</strong> pares deaconteciment<strong>os</strong> sejam disjunt<strong>os</strong>.Nasceu no dia 25 de Abril de1903 em Tambov, Rússia edesde muito cedo, Kolmogorovinteressou-se pela matemática.Com cinco ou seis an<strong>os</strong>,descobriu que a sucessão desomas de númer<strong>os</strong> ímpares éigual à sucessão de quadrad<strong>os</strong> denúmer<strong>os</strong> inteir<strong>os</strong>.1=1 21+3=2 21+3+5=3 21+3+5+7=4 2…1+3+…+(2n-1)=n 2A aplicação da lógica matemática a<strong>os</strong> princípi<strong>os</strong>acima leva às seguintes propriedadesfundamentais da probabilidade:Propriedades Fundamentais das Probabilidades:• A probabilidade de qualquer acontecimento ésempre um número maior ou igual a zero e menorou igual a um;• A probabilidade de um acontecimento imp<strong>os</strong>sívelé zero;• Se a ocorrência de um acontecimento implicaa ocorrência de um outro, então a probabilidade


pág. 31# Notas sobre a história da estatísticado primeiro é menor do que a probabilidade d<strong>os</strong>egundo;• A probabilidade da união de dois aconteciment<strong>os</strong>é igual à probabilidade do primeiro mais aprobabilidade do segundo men<strong>os</strong> a probabilidade daocorrência simultânea d<strong>os</strong> dois.4.5 O Século XX4.5.1 Berço das Aplicações da EstatísticaA Estatística encontra aplicações em quase tod<strong>os</strong><strong>os</strong> camp<strong>os</strong> da actividade humana. No sectoragrícola Fisher deu um grande contributo devidoao emprego na Estação Agrária Experimental deRothamsteed. Os métod<strong>os</strong> de análise estatísticapermitiram a melhoria da produtividade, o aumentoda eficácia, o estudo cuidado e metódicodas condições de produção, etc. “As aplicaçõesindustriais surgem por volta da década de 30: ascartas de controle, o controle d<strong>os</strong> lotes (estes tãoligad<strong>os</strong> ao desenvolvimento d<strong>os</strong> testes de hipóteses)são talvez <strong>os</strong> primeir<strong>os</strong> contribut<strong>os</strong> da Estatísticaao aperfeiçoamento tecnológico da sociedadeindustrial; no domínio das aplicações médicas, oestudo da eficácia d<strong>os</strong> fármac<strong>os</strong>, da qualidade d<strong>os</strong>tratament<strong>os</strong>, a detecção de causas p<strong>os</strong>síveis dedoença, são algumas das aplicações da estatística”(Oliveira,1995). O Estado tem necessidadede <strong>conhecer</strong> a população; <strong>para</strong> isso recorre àEstatística, nomeadamente a<strong>os</strong> recenseament<strong>os</strong>,<strong>para</strong> tomar decisões a nível governamental, porexemplo, <strong>para</strong> saber quant<strong>os</strong> indivídu<strong>os</strong> d<strong>os</strong> 15 a<strong>os</strong>18 an<strong>os</strong> existem numa certa localidade: a partirdaí vai saber se há necessidade de construir umaescola secundária nessa localidade ou não. Osserviç<strong>os</strong> de Meteorologia, tão importantes <strong>para</strong> anavegação aérea e marítima, são essencialmenteestatístic<strong>os</strong>. A Informática também encontraaplicações estatísticas , por exemplo, na InteligênciaArtificial, na avaliação de desempenho de redes decomputadores, etc. A Medicina recorre à Estatística<strong>para</strong> prever determinadas doenças e quais <strong>os</strong> efeit<strong>os</strong>que determinado medicamento pode ter em cert<strong>os</strong>doentes. Na Engenharia, a Estatística é aplicadamais a nível do controlo de qualidade, por exemplo, naobtenção da percentagem de peças defeitu<strong>os</strong>as queuma máquina pode produzir.4.5.2 Análise Exploratória da Dad<strong>os</strong>As técnicas clássicas de estatística foramconcebidas <strong>para</strong> serem as melhores p<strong>os</strong>síveis,assumindo um conjunto de pressup<strong>os</strong>t<strong>os</strong> rígid<strong>os</strong>.Experiência e investigação p<strong>os</strong>terior levaramn<strong>os</strong>a re<strong>conhecer</strong> que as técnicas clássicas secomportam deficientemente quando a situaçãoreal se afasta do ideal descrito por esse conjuntode pressup<strong>os</strong>t<strong>os</strong>. Desenvolviment<strong>os</strong> recentes,tais como métod<strong>os</strong> robust<strong>os</strong> e de análiseexploratória de dad<strong>os</strong>, contribuem <strong>para</strong> aumentara eficácia da análise estatística.O principal objectivo de uma análise exploratóriaé extrair informações d<strong>os</strong> dad<strong>os</strong>, estabelecendorelações entre object<strong>os</strong> e variáveis. A análiseexploratória não estabelece model<strong>os</strong> à priori, maspermite que, a partir das relações observadas n<strong>os</strong>dad<strong>os</strong>, sejam levantadas hipóteses e prop<strong>os</strong>t<strong>os</strong>model<strong>os</strong>.Existem duas fases na prática de análise dedad<strong>os</strong>: exploratória e confirmatória. A análiseexploratória de dad<strong>os</strong> realça a procura flexívelde pistas e da evidência, enquanto a análiseconfirmatória de dad<strong>os</strong> realça a avaliação daevidência disponível.34.6 - Tendências <strong>para</strong> o FuturoActualmente as informações estatísticas sãoobtidas, classificadas e armazenadas em meiomagnético e disponibilizadas em divers<strong>os</strong> sistemasde informações abrangentes que fornecem a<strong>os</strong>pesquisadores/cidadã<strong>os</strong> e às organizações dasociedade informações estatísticas inteligentese necessárias ao desenvolvimento de suasactividades. A expansão no processo de obtenção,armazenamento e disseminação de informaçõesestatísticas, extensivamente facilitadas pelouso d<strong>os</strong> recurs<strong>os</strong> computacionais, tem sidoacompanhada pelo rápido desenvolvimento de


pág. 32um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #Tratava-se de contar a riqueza em temp<strong>os</strong>mercantilistas, f<strong>os</strong>se em homens, f<strong>os</strong>seem géner<strong>os</strong>, estimando a grandeza daspotencialidades militares, avaliando <strong>os</strong> recurs<strong>os</strong>tributári<strong>os</strong>, esboçando orçament<strong>os</strong> estatais”(Sousa, 1995).Territórionovas técnicas e metodologias estatísticas deanálise estatística de dad<strong>os</strong>.<strong>Um</strong>a nova área em que a informática deu um forteimpulso foi a da “Engenharia de dad<strong>os</strong>”.Com a descoberta do cálculo computacional,desenvolveram-se famílias de algoritm<strong>os</strong> <strong>para</strong>tratamento de dad<strong>os</strong>, que se podem agrupar naárea do Data Mining.Portugal está situado a sudoeste da PenínsulaIbérica. Este país de configuração rectangular,é limitado a oriente e ao norte pela Espanha.A fronteira terrestre de Portugal segueocasionalmente o curso d<strong>os</strong> ri<strong>os</strong>, mas na suamaior extensão não existem barreiras naturais.Esta fronteira, que remonta ao ano 1297, é amais antiga da Europa.5. A Estatística em Portugal5.1 Portugal e a Estatística: <strong>os</strong> númer<strong>os</strong> e a história“A aplicação da Estatística em Portugal começou,tal como n<strong>os</strong> outr<strong>os</strong> países da Europa, com anecessidade de o Estado <strong>conhecer</strong> melhor ascaracterísticas da sua população. A partir d<strong>os</strong>éculo XVI, factores como a afirmação do EstadoAbsolutista, o desenvolvimento da administração,de um mercado cada vez mais amplo e dinâmico,implicaram o recurso ao quantitativo comoelemento que começou a ser decisivo naadministração.Segundo a obra “História da Estatística emPortugal” (<strong>Fernando</strong> Sousa, 1995), o registode aconteciment<strong>os</strong>, especialmente a contagemde forças militares, a enumeração de bens,rendiment<strong>os</strong> e despesas, constituem <strong>os</strong> object<strong>os</strong>de notação que mais se destacam na Idade Médiaportuguesa, marcada pela grande escassez dedad<strong>os</strong> de natureza quantitativa estatística.


pág. 33# Notas sobre a história da estatísticaO rei tinha necessidade de <strong>conhecer</strong> o seuexército e a sua população a defender, e por issologo havia necessidade de quantificar a sociedade.Os primeir<strong>os</strong> regist<strong>os</strong> encontrad<strong>os</strong> são relativ<strong>os</strong>a<strong>os</strong> besteir<strong>os</strong> (soldad<strong>os</strong> cuja arma principal erauma Besta), <strong>os</strong> quais eram objecto de listagens decontrolo e mais tarde estabeleceu-se uma relaçãoquantitativa entre o número de besteir<strong>os</strong> de cadaconcelho (“conto”) e a respectiva população. Combase no papel da Igreja, também na Idade Média,produziram-se numer<strong>os</strong><strong>os</strong> document<strong>os</strong> (censuaise tomb<strong>os</strong> de propriedades) relativamente aoconhecimento da realidade económico-socialde áreas por si controladas. A crise instaladan<strong>os</strong> sécul<strong>os</strong> XIV e XV, exigiu d<strong>os</strong> senhoreseclesiástic<strong>os</strong> e laic<strong>os</strong> um melhor aproveitamentod<strong>os</strong> seus patrimóni<strong>os</strong> fundiári<strong>os</strong>, levando-<strong>os</strong> àelaboração de inventári<strong>os</strong> sistemátic<strong>os</strong> de bens erendiment<strong>os</strong>, a<strong>os</strong> tomb<strong>os</strong>, que permitiam não só<strong>conhecer</strong> e dominar melhor a situação económicade cada senhorio, mas também prever <strong>os</strong>rendiment<strong>os</strong> de cada ano.Com a aproximação do Estado Liberal e aafirmação do conceito de Nação como baseda administração, a cobertura estatísticageneralizada <strong>para</strong> o país começa a ser reclamada,pois o governo não se pode exercer eficazmentesobre o incerto, o desconhecido. Surgemplan<strong>os</strong> <strong>para</strong> o cadastro do Reino, levantam-senumerament<strong>os</strong> de carácter sistemático, iniciasea primeira grande série estatística sobre ocomércio externo – Balança Geral do Comérciodo Reino de Portugal, 1776-1831, que podem<strong>os</strong>adoptar como o símbolo do início de um novoperíodo.Numerament<strong>os</strong>:Contagem do número de fog<strong>os</strong> (casas) feita com oobjectivo de recolher dad<strong>os</strong> <strong>para</strong> lançar imp<strong>os</strong>t<strong>os</strong>ou recrutar militares.Eram feitas Inquirições, isto é, inquérit<strong>os</strong> feit<strong>os</strong>pel<strong>os</strong> monarcas portugueses, n<strong>os</strong> quais eraminvestigad<strong>os</strong> <strong>os</strong> estad<strong>os</strong> d<strong>os</strong> direit<strong>os</strong> reais e alegitimidade das p<strong>os</strong>sessões d<strong>os</strong> nobres. Destasinquirições também se podia tirar conclusõesacerca da organização profissional e económica,bem como detectar alguns níveis de estratificaçã<strong>os</strong>ocial. Com base no resultad<strong>os</strong> destas Inquirições,D. Dinis mandou fazer um cadastro geral, ou seja,um registo escrito, <strong>para</strong> evitar que <strong>os</strong> ambici<strong>os</strong><strong>os</strong>se apoderassem de terren<strong>os</strong> e direit<strong>os</strong> quenão lhes pertenciam. Naturalmente surgiramprotest<strong>os</strong>, reclamações, algumas tentativasde revolta, mas a vontade e as ordens do reiprevaleceram.Multiplicam-se <strong>os</strong> quadr<strong>os</strong> estatístic<strong>os</strong> emdiversas áreas da realidade social, apontam-senúmer<strong>os</strong> globais, mas a informação é ainda, emgrande parte, dispersa, recolhida em segundamão, produzida por terceir<strong>os</strong> e nem sempre deacordo com <strong>os</strong> requisit<strong>os</strong> de qualidade e exigênciaque a estatística requer – por exemplo, <strong>os</strong> dad<strong>os</strong>da população são solicitad<strong>os</strong> a<strong>os</strong> pároc<strong>os</strong> – nocomércio externo (1842), nas contribuiçõesmunicipais (1845), no movimento da alfândegas deLisboa e Porto (1856-1857), na área demográfica,com a realização do primeiro censo digno dessenome (1864), noutras áreas, com a publicaçãodo Annuario Estatistico (1875), a que seseguirão séries autónomas <strong>para</strong> outr<strong>os</strong> sectores,(contribuições, movimento bancário, transportes,etc.).


pág. 34um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #5.2 Os Recenseament<strong>os</strong> em PortugalA entrada na era estatística faz-se, portanto,gradualmente, ao longo do século XIX, com acriação de organism<strong>os</strong> que se fazem representarn<strong>os</strong> respectiv<strong>os</strong> Congress<strong>os</strong> Internacionais.Mas só no século XX surge uma eficaz utilizaçãod<strong>os</strong> dad<strong>os</strong> recolhid<strong>os</strong>, com o desenvolvimento daestatística como ramo aplicado da matemática,ligando ao cálculo das probabilidades, que vaipermitir o fornecimento regular de indicadoresde síntese, a perspectiva sequencial dastendências de desenvolvimento, a p<strong>os</strong>sibilidadede pr<strong>os</strong>pectiva. Situação apenas p<strong>os</strong>sível com acriação do Instituto Nacional de Estatística (INE),em 1935.” (<strong>Fernando</strong> Sousa,1995)Trabalh<strong>os</strong> estatístic<strong>os</strong> importantes e conhecid<strong>os</strong>depois da fundação da nacionalidade portuguesae antes da criação do INE• Rol de Besteir<strong>os</strong> do Conto, de D. Afonso III(1260-1279);• Rol de Besteir<strong>os</strong> do Conto, de D. João I(1421-1422);• Numeramento ou Cadastro Geral do Reino,de D. João III (1527);• Resenha de Gente de Guerra, de D. Filipe III(1639);• Lista d<strong>os</strong> Fog<strong>os</strong> e Almas que há nas Terras dePortugal, de D. João V (1732), tambémconhecida por Censo do Marquês de Abrantes;Os primeir<strong>os</strong> cens<strong>os</strong> portugueses foramrealizad<strong>os</strong> de 31 de Dezembro de 1863 <strong>para</strong> 1 deJaneiro de 1864, tendo por base as orientaçõesdo Congresso Internacional de Estatísticarealizado em Bruxelas, em 1853. Antes destadata, tal como foi referido anteriormente, já serealizavam em Portugal recenseament<strong>os</strong>, mas pornão serem exaustiv<strong>os</strong> e/ou não se apoiarem emprincípi<strong>os</strong> estatístic<strong>os</strong> credíveis, não podem serconsiderad<strong>os</strong> equivalentes a<strong>os</strong> iniciad<strong>os</strong> em 1864.A palavra Censo deriva da palavra Censere que emlatim significa Taxar.Nestes cens<strong>os</strong> foi optado o método de recolhadirecta sendo todas as pessoas recenseadasno mesmo dia e n<strong>os</strong> lugares onde passarama noite. Os recenseament<strong>os</strong> a partir daquideveriam ser realizad<strong>os</strong> de 10 em 10 an<strong>os</strong>, maso recenseamento seguinte foi em 1878 ao qualse seguiria o Censo de 1890. A partir de então,<strong>os</strong> recenseament<strong>os</strong> populacionais têm vindo arealizar-se, com algumas excepções, regularmentecom interval<strong>os</strong> de 10 an<strong>os</strong>.Desde 1940 (inclusive), <strong>os</strong> recenseament<strong>os</strong>passaram a ser realizad<strong>os</strong> pelo Instituto Nacionalde Estatística e a partir de 1970 realizou-se emsimultâneo o I Recenseamento Geral da Habitação.Até a<strong>os</strong> dias de hoje, já foram realizad<strong>os</strong> catorzerecenseament<strong>os</strong> da população e quatro dahabitação.Apresentam-se de seguida tod<strong>os</strong> <strong>os</strong>recenseament<strong>os</strong> efectuad<strong>os</strong> em Portugal, e <strong>os</strong>seus antecedentes históric<strong>os</strong> resumid<strong>os</strong>:• Numeramento de Pina Manique, de D. Maria I(1798);• Recenseamento Geral do Reino, de D. João VI,também conhecido por Censo do Conde deLinhares (1801);• Recenseament<strong>os</strong> Gerais de 1835 e 1851.


pág. 35# Notas sobre a história da estatística1864 - 1 de Janeiro (I RecenseamentoGeral da População):Realizou-se o I Recenseamento Geral daPopulação, tendo por base as orientaçõesdo Congresso Internacional de Estatística,que teve lugar em Bruxelas, em 1853.1878 - 1 de Janeiro (II RecenseamentoGeral da População):Efectuou-se o II Recenseamento Geralda População; embora mais completo queo anterior, quanto às variáveis observadase a<strong>os</strong> apurament<strong>os</strong> efectuad<strong>os</strong>, ainda temum conteúdo bastante reduzido.1890 - 1 de Dezembro (III RecenseamentoGeral da População):Realizou-se já com novas orientaçõesmetodológicas, de acordo com oCongresso Internacional de Estatísticade S. Petersburgo, realizado em 1872;a caracterização da população e dasfamílias foi bastante mais completa.1900 - 1 de Dezembro (IV RecenseamentoGeral da População):A metodologia da recolha de dad<strong>os</strong>, do seutratamento e apresentação foi semelhanteà do censo anterior, tendo-se, no entanto,registado algumas inovações.1911 - 1 de Dezembro (V RecenseamentoGeral da População)Manteve-se a metodologia e as variáveisobservadas.1920 - 1 de Dezembro (VI RecenseamentoGeral da População):Manteve-se a metodologia e as variáveisobservadas.1930 - 1 de Dezembro (VII RecenseamentoGeral da População):Não houve grandes alterações nascaracterísticas observadas, continuandomal coberta a parte referente àscaracterísticas económicas.1940 - 12 de Dezembro (VIII RecenseamentoGeral da População):Este foi o primeiro censo efectuado peloInstituto Nacional de Estatística e é aceitecomo um marco na história d<strong>os</strong> recenseament<strong>os</strong>portugueses. Adoptou-seuma nova metodologia de execução. Ascaracterísticas económicas são definidascom maior rigor e consideradas como umelemento importante de observação.1950 - 15 de Dezembro (IX RecenseamentoGeral da População):Seguiu a metodologia do censo anteriormas com algumas inovações como, porexemplo, a melhoria da técnica dasperguntas fechadas.1960 - 15 de Dezembro (X RecenseamentoGeral da População):Publicaram-se pela primeira vez dad<strong>os</strong>retr<strong>os</strong>pectiv<strong>os</strong>. Os recenseament<strong>os</strong> de1950 e 1960 seguem, de perto, oconteúdo do de 1940.1970 - 15 de Dezembro (XI RecenseamentoGeral da População) (I Recenseamento Geral daHabitação):Realizou-se o I Recenseamento Geralda Habitação, juntamente com o daPopulação; contudo, o programa audaci<strong>os</strong>oque procurava dar resp<strong>os</strong>ta às inúmerassolicitações governamentais não tevesucesso no plano executivo, em especial natotalidade d<strong>os</strong> resultad<strong>os</strong> a divulgar.1981 - 16 de Março (XII Recenseamento Geralda População) (II Recenseamento Geral daHabitação):Realizaram-se <strong>os</strong> recenseament<strong>os</strong>da População e Habitação que seguiram,de perto, as recomendações internacionais(CEE/ ONU) e fazem, em quase todas asáreas, uma aplicação rigor<strong>os</strong>a d<strong>os</strong>conceit<strong>os</strong> e uma grande desagregaçãogeográfica d<strong>os</strong> respectiv<strong>os</strong> dad<strong>os</strong>.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 361991 - 15 de Abril (XIII Recenseamento Geralda População) (III Recenseamento Geral daHabitação):Seguiu-se a metodologia do censoanterior, desenvolvendo-se no entantoalgumas das vertentes de pre<strong>para</strong>ção daoperação e do tratamento d<strong>os</strong> dad<strong>os</strong>já iniciad<strong>os</strong> em 1981. Construiu-se umaBase Geográfica de ReferenciaçãoEspacial, constituída por um conjunto desuportes cartográfic<strong>os</strong> contendo ainformação que permite a divisão dasfreguesias em secções e subsecçõesestatísticas.2001 - 12 de Março (XIV Recenseamento Geralda População) (IV Recenseamento Geral daHabitação):A grande diferença prende-se essencialmentecom a inovação das tecnologiasutilizadas (digitalização cartográfica,utilização de sistemas de informaçãogeográfica, leitura óptica d<strong>os</strong> questionári<strong>os</strong>,codificação assistida porcomputador e o reforço da correcçãoautomática das resp<strong>os</strong>tas incoerentes).Também é introduzida uma nova questãono questionário individual que diz respeito àdeficiência.5.3 O Ensino da Estatística em PortugalNão só em Portugal, mas em muit<strong>os</strong> outr<strong>os</strong>países a Estatística é um ramo da MatemáticaAplicada. O seu estudo e desenvolvimento comociência tem vindo a crescer com o progress<strong>os</strong>ocial e hoje a Estatística está presente emquase todas as áreas do saber.Como refere João Branco (JME-190), no finaldo século XIX assistiu-se a uma generalizadaemergência e reconhecimento de problemasde natureza estatística n<strong>os</strong> vári<strong>os</strong> ram<strong>os</strong>científic<strong>os</strong>, na indústria e em actividadesgovernamentais o que fez crescer o interesse pelaactividade estatística. A rapidez com que estesdesenvolviment<strong>os</strong> ocorreram gerou uma crisede falta de pessoal técnico com conheciment<strong>os</strong>de estatística que foi intensamente procuradopelas instituições que desejavam usufruir danova metodologia <strong>para</strong> fazer avançar as suasactividades. É neste contexto que surgiua necessidade de ensinar estatística a umnúmero de pessoas cada vez maior. Inicialmentea prioridade foi dada ao ensino avançado comvista a aperfeiçoar <strong>os</strong> conheciment<strong>os</strong> daquelescom interesse na profissão de estatístico oud<strong>os</strong> que se encontravam a apoiar actividadesde investigação n<strong>os</strong> vári<strong>os</strong> ram<strong>os</strong> da ciência.Só depois se passou a pensar no ensino daEstatística elementar destinado a fornecerconheciment<strong>os</strong> básic<strong>os</strong> a estudantes dasciências naturais e sociais e ainda a estudantesinteressad<strong>os</strong> em seguir uma actividade deestatístico profissional. Apesar de elementaresestes conheciment<strong>os</strong> começaram a serintroduzid<strong>os</strong> n<strong>os</strong> curs<strong>os</strong> de pós-graduação oun<strong>os</strong> últim<strong>os</strong> an<strong>os</strong> da graduação. Porém depressase concluiu que estes curs<strong>os</strong> de estatísticaelementar deviam ser introduzid<strong>os</strong> mais cedo,numa fase mais inicial do ensino universitário.5.3.1. Estatística no SecundárioSegundo João Branco (JME-190), o ensino daEstatística no Secundário, surgiu como umanecessidade de proporcionar à população emgeral um sistema coerente de ideias estatísticase de capacidades <strong>para</strong> usar essas ideias, comnaturalidade, numa sociedade cada vez maisbaseada em dad<strong>os</strong> e informação numérica.<strong>Um</strong>a reunião de grande importância <strong>para</strong> odesenvolvimento do ensino desta disciplina, tevelugar em Royaumont, em 1959 sob <strong>os</strong> auspíci<strong>os</strong>d<strong>os</strong> directores da Organização Europeia daCooperação Económica (OECE), organização aque sucedeu a Organização <strong>para</strong> a Cooperação eDesenvolvimento Económico (OCDE), em 1961.


pág. 37# Notas sobre a história da estatísticaA este acontecimento compareceram matemátic<strong>os</strong>de todo o <strong>mundo</strong> com o fim de estudaruma reforma profunda do ensino da Matemáticaao nível do ensino pré-universitário, tendo-seconcluído que se deveria introduzir no plano deestud<strong>os</strong> secundári<strong>os</strong> o ensino do Cálculo dasProbabilidades e da Estatística.O movimento que começa a registar-se em algunspaíses com o objectivo de modificar <strong>os</strong> programase métod<strong>os</strong> de ensino da Matemática nas escolassecundárias chega também a Portugal, sobretudoatravés de publicações e reuniões promovidas pelaOCDE. E é J<strong>os</strong>é Sebastião e Silva, um d<strong>os</strong> maisimportantes matemátic<strong>os</strong> portugueses de tod<strong>os</strong><strong>os</strong> temp<strong>os</strong>, que fica com a responsabilidade doprojecto de modernização do ensino da Matemáticano 3º ciclo.A modificação d<strong>os</strong> programas com vista aadaptá-l<strong>os</strong> às exigências da revolução científicae tecnológica que caracteriza a época levamà introdução, pela primeira vez, n<strong>os</strong> liceusportugueses, de vári<strong>os</strong> temas entre <strong>os</strong> quaiselement<strong>os</strong> de Cálculo das Probabilidades e deEstatística. Em 1963/64 são criadas as trêsprimeiras turmas <strong>para</strong> funcionarem a títuloexperimental. Foi esta experiência, repetidasucessivamente ao longo de vári<strong>os</strong> an<strong>os</strong> eestendida a várias dezenas de turmas espalhadaspel<strong>os</strong> liceus do País, que preparou o terreno<strong>para</strong> a introdução definitiva destas matérias nocurrículo do ensino secundário.É curi<strong>os</strong>o saber que o movimento que leva àintrodução da Estatística no secundário ocorresensivelmente no mesmo período em que se dãopass<strong>os</strong> definitiv<strong>os</strong> <strong>para</strong> implantar o ensino daEstatística nas licenciaturas de matemática nasuniversidades. O movimento <strong>para</strong> o ensino daEstatística na universidade foi particularmenteactivo na Faculdade de Ciências de Lisboa tendolevado à criação da Primeira licenciatura emProbabilidades e Estatística em 1982. Nestemovimento destaca-se J<strong>os</strong>é Tiago de Oliveira,grande cientista que se apaixona pela Estatísticae seus problemas a tod<strong>os</strong> <strong>os</strong> níveis incluindotambém o ensino no secundário. (JME-190)Segundo Adrião Ferreira da Cunha (2001),verificou-se em 1841 o início do ensino daEstatística em Portugal na Faculdade de Direitoda <strong>Universidade</strong> de Coimbra. Foi introdutordeste ensino o Professor Adrião Sampaio coma sua obra Primeir<strong>os</strong> Element<strong>os</strong> da CiênciaEstatística que utilizou <strong>para</strong> auxílio das suasaulas suplementares ao Curso de EconomiaPolítica de que era encarregado na referidaFaculdade.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 385.4 O INE e o Sistema Estatístico NacionalEm Portugal o INE é o organismo operacionalresponsável pela recolha, apuramento e difusãodas estatísticas oficiais nacionais. No entanto,existem organism<strong>os</strong> que gerem a atribuição decompetências em todo o processo estatístico.CSESENINEBanco de PortugalComp<strong>os</strong>ição do Sistema Estatístico NacionalN<strong>os</strong> term<strong>os</strong> da Lei nº 22/2008, de 13 de Maio,o SEN é constituído pelo Conselho Superior deEstatística (CSE), pelo Instituto Nacional deEstatística (INE), pelo Banco de Portugal e pel<strong>os</strong>Serviç<strong>os</strong> Regionais de Estatística das RegiõesAutónomas d<strong>os</strong> Açores e da Madeira.• O CSE é o órgão do estado quesuperiormente orienta e coordena oSistema Estatístico Nacional.• O INE é o orgão central de produção edifusão de estatísticas oficiais queassegura a supervisão tecnico-cientificado SEN.• O Banco de Portugal no âmbito dassuas atribuições de recolha e elaboraçãode estatísticas monetárias, financeiras,cambiais e da balança de pagament<strong>os</strong>.Serviç<strong>os</strong> Regionais de Estatísticad<strong>os</strong> Açores e da MadeiraEntidades produtoras de estatísticasoficiais por delegação do INE, IP.O Instituto Nacional de Estatística (INE) foi criadoem 1935 numa tentativa de dar resp<strong>os</strong>ta àprocura cada vez maior da informação estatística.Tem como objectivo o exercício de funções taiscomo efectuar inquérit<strong>os</strong>, recenseament<strong>os</strong> eoutras operações estatísticas; criar gerir ecentralizar ficheir<strong>os</strong> de unidades estatísticas;aceder a<strong>os</strong> dad<strong>os</strong> individuais (excepto dad<strong>os</strong> depessoas singulares) disponíveis nas entidadesencarregadas da gestão de serviç<strong>os</strong> públic<strong>os</strong>;realizar estud<strong>os</strong> de estatística pura e aplicadae proceder à análise económico-social de dad<strong>os</strong>estatístic<strong>os</strong> disponíveis; promover a formaçãode quadr<strong>os</strong> do SEN e cooperar com organizaçõesestatísticas estrangeiras.• Os Serviç<strong>os</strong> Regionais de Estatística d<strong>os</strong>Açores e da Madeira, que funcionam emrelação às estatísticas oficiais de âmbitonacional, como delegações do INE, IP.• As entidades produtoras de estatísticasoficiais por delegação do INE, IP.Em 1989 o INE passou a ser um instituto público,ao qual foi concedida personalidade jurídica,autonomia administrativa, financeira e patrimóniopróprio.N<strong>os</strong> dias de hoje, o INE tem dezenas de publicaçõesoficiais, não só em estud<strong>os</strong> demográfic<strong>os</strong>mas em divers<strong>os</strong> camp<strong>os</strong> de aplicação, tal comoindústria, comércio, educação, etc.


pág. 39# Notas sobre a história da estatísticaAssociação de Professores de Matemática,Departamento de Educação e de Estatística eInvestigação Operacional da Faculdade de Ciênciasda <strong>Universidade</strong> de Lisboa, 2000.•OLIVEIRA, J. Tiago (1981), O Ensino Iniciário daEstatística. Actas do II Colóquio de Estatística eInvestigação Operacional, Fundão.•OLIVEIRA, J. Tiago (1995), Collected works(Volume II), Évora.Ver também…Publicações• BÉDARIDA et al (1987), Pour Une Histoire DeLa Statistique, Economica.• CUNHA, Adrião Simões Ferreira (2001),Nótulas Históricas em Torno do SistemaEstatístico Nacional, Lisboa, Instituto Nacional deEstatística.• DAVID, F.N.(1998), Games, Gods and Gambling,A History of Probability and Statistical Ideas,Dover Publications, Inc. Mineola, New York.•Galeria d<strong>os</strong> Matemátic<strong>os</strong> do Jornal deMatemática Elementar (2º Volume), (1994),Lisboa.•Galeria de Matemátic<strong>os</strong> do Jornal de MatemáticaElementar, (1991), Lisboa.•HEYDE, C.C., SENETA, E. (2001), Statisticiansof the Centuries, Springer, New York.•HOAGLIN, David C., MOSTELLER, Frederick,TUKEY, John W. (1983), Novas Tecnologias/Estatística: Análise Exploratória de Dad<strong>os</strong>.Técnicas Robustas, Edições Salamandra.•INE, Programa Global d<strong>os</strong> Cens<strong>os</strong> 2001,Instituto Nacional de Estatística, Lisboa,disponível em: http://www.ine.pt/cens<strong>os</strong>2001/Organizacao/programaglobal.asp•Jornal de Matemática Elementar nº190, Lisboa.•LOUREIRO, Cristina; OLIVEIRA, Fernanda;BRUNHEIRA, Lina, Ensino e Aprendizagem daEstatística, Sociedade Portuguesa de Estatística,•PERSON, E. S., KENDALL, Sir Maurice(1820), Studies in the History of Statistics andProbability, volume I, Charles Griffin & Co Ltd,London.• SOUSA, <strong>Fernando</strong> (1995), História daEstatística em Portugal, Instituto Nacional deEstatística, Lisboa.• STIGLER, Stephen M. (1986), The History ofStatistics, The Measurement of Uncertaintybefore 1900, Belknap Harvard.Web sites:http://www.sobiografias.hpg.com.br (algumasbiografias de personalidades históricas);http://users.hotlink.com.br/marielli/ (neste sitede matemática, encontra várias biografias dematemátic<strong>os</strong> fam<strong>os</strong><strong>os</strong>, bem como histórias sobre<strong>os</strong> númer<strong>os</strong>, aritmética, etc);http://www.educ.fc.ul.pt/semtem/semtem99/sem21/framegeral.htm (história do triângulo dePascal);http://www.mala.bc.ca/~johnstoi/darwin/sect4.htmhttp://www.mat.uc.pt/~bebiano/Atractor/esta.htm(alguns model<strong>os</strong> matemátic<strong>os</strong>, entre <strong>os</strong> quais oQuincunx);http://www.geocities.com/g10ap/matematic<strong>os</strong>/<strong>os</strong>_grandes_geni<strong>os</strong>.htm (biografias de grandes géni<strong>os</strong>matemátic<strong>os</strong>);http://www.ib.usp.br/evolucao/QTL/historiaqtl.html(inclui a explicação da lei da regressão <strong>para</strong> amediocridade de Galton)


pág. 41O Inquérito EstatísticoMaria João Ferreira# Pedro Camp<strong>os</strong>


pág. 43# o inquérito estatísticoO InquéritoEstatístico<strong>Um</strong>a introdução à elaboração de questionári<strong>os</strong>,am<strong>os</strong>tragem, organização e apresentação d<strong>os</strong>resultad<strong>os</strong>Maria João Ferreira# Pedro Camp<strong>os</strong>Sumário:1. Introdução2. Porque fazem<strong>os</strong> Inquérit<strong>os</strong>?3. Inquérito, observação e experimentação4. Como perguntar? - Regras gerais <strong>para</strong> aconstrução de um questionário5. Escolha da população a inquirir e métod<strong>os</strong> derecolha de informação: am<strong>os</strong>tragem6. Recolha da informação necessária sobre <strong>os</strong>element<strong>os</strong> da am<strong>os</strong>tra7. Organização e apresentação d<strong>os</strong> dad<strong>os</strong>8. Ver Também1. IntroduçãoNeste D<strong>os</strong>siê, que teve a colaboração esupervisão da Profª Doutora Maria Eugénia GraçaMartins, Professora da Faculdade de Ciências da<strong>Universidade</strong> de Lisboa e consultora científica doALEA, poderá encontrar uma pequena introduçãoàs fases de um inquérito por questionário,as regras de construção de um questionário,noções sobre como seleccionar <strong>os</strong> element<strong>os</strong>da am<strong>os</strong>tra e ainda a pre<strong>para</strong>ção do relatório<strong>para</strong> apresentação final d<strong>os</strong> resultad<strong>os</strong>. No final,a rubrica Ver Também contém ligações <strong>para</strong>outr<strong>os</strong> estud<strong>os</strong> de interesse relacionad<strong>os</strong> comas temáticas em causa (publicações e páginas nainternet).


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 44O recurso ao inquérito é necessário de cada vezque tem<strong>os</strong> necessidade de informação sobre umagrande variedade de comportament<strong>os</strong> de ummesmo indivíduo, ou quanto pretendem<strong>os</strong> <strong>conhecer</strong>o mesmo tipo de variável <strong>para</strong> muit<strong>os</strong> indivídu<strong>os</strong>.População:2. Porque Fazem<strong>os</strong> Inquérit<strong>os</strong>Estatístic<strong>os</strong>?O Inquérito é um d<strong>os</strong> instrument<strong>os</strong> maisutilizad<strong>os</strong> no domínio da investigação aplicada,nomeadamente na área social. Desde <strong>os</strong> estud<strong>os</strong>de mercado às pesquisas puramente teóricas,passando pelas sondagens de opinião, pouc<strong>os</strong>são <strong>os</strong> estud<strong>os</strong> que não se apoiam, parcial outotalmente, em informações recolhidas combase em inquérit<strong>os</strong>.Colecção de unidades individuais, que podemser pessoas, empresas ou resultad<strong>os</strong>experimentais, com uma ou mais característicascomuns, que se pretendem estudar.Inquérito:<strong>Um</strong> inquérito pode ser considerado como umainterrogação particular acerca de uma situaçãoenglobando indivídu<strong>os</strong>, com o objectivo degeneralizar.Sondagem:Estudo científico de uma parte de umapopulação com o objectivo de estudaratitudes, hábit<strong>os</strong> e preferências da populaçãorelativamente a aconteciment<strong>os</strong>, circunstânciase assunt<strong>os</strong> de interesse comum.2.1. O que é um Inquérito Estatístico?É a necessidade de <strong>conhecer</strong> uma população noque se refere a uma ou várias características, quen<strong>os</strong> leva a recorrer à realização de inquérit<strong>os</strong>.A alternativa da observação directa, mesmoque viável, em cert<strong>os</strong> cas<strong>os</strong>, levaria demasiadotempo, ou seria imp<strong>os</strong>sível quando <strong>os</strong> fenómen<strong>os</strong>em estudo se reportam ao passado (Ghiglione eMatalon, 1992).<strong>Um</strong> inquérito pode ser considerado como umainterrogação particular acerca de uma situaçãoenglobando indivídu<strong>os</strong>, com o objectivo degeneralizar.Exemplo de um d<strong>os</strong> Inquérit<strong>os</strong> realizado pelo INE:O Inquérito a<strong>os</strong> Orçament<strong>os</strong> Familiares, actualmentedenominado IDF, realizado pelo INE, temcomo objectivo <strong>conhecer</strong> a origem e o valor d<strong>os</strong>rendiment<strong>os</strong> d<strong>os</strong> agregad<strong>os</strong> e a forma como setransformam em despesas de consumo. É atravésdeste inquérito que se pode actualizar o Índice dePreç<strong>os</strong> no Consumidor, desenvolver e construirum sistema de Indicadores de Pobreza, a análiseda concentração da despesa e do rendimento d<strong>os</strong>agregad<strong>os</strong> familiares, bem como a realização deoutr<strong>os</strong> estud<strong>os</strong> sócio-económic<strong>os</strong>.A figura 1 contém uma das partes do questionárioque tinha de ser preenchida tod<strong>os</strong> <strong>os</strong> dias poruma pessoa do agregado familiar, de preferênciaa pessoa que efectuava as compras. Neste caso,o método de recolha de informação (ou dad<strong>os</strong>)utilizado neste inquérito, conciliou a recolhaatravés do auto-preenchimento (preenchimentofeito pelo próprio inquirido) com a recolha porentrevista. Mais à frente abordam<strong>os</strong> todas estastécnicas de recolha de informação.


Fig. 1 - Questionárioutilizado noInquéritoàs Despesas dasFamílias(Fonte: INE)pág. 45


pág. 46um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #Na figura 2, podem<strong>os</strong> observar um esquema dastécnicas de recolha de informação.<strong>Um</strong>a das técnicas mais utilizada na realizaçãode Inquérit<strong>os</strong> é o Questionário. Trata-se de umatécnica não documental, de observação indirecta,que pode ser feita através de uma entrevista. Oinquérito muitas vezes é visto como um processocompleto (desde a recolha, à análise, utilizandovárias técnicas). O questionário é o instrumentode notação.3. O Questionário e as Fases deum InquéritoFig. 2(adapt. Lima, 1981)Técnicas derecolha deinformação3.1 Inquérito e QuestionárioNão documentaisDocumentaisNeste ponto, farem<strong>os</strong> uma aproximação às noçõesde Inquérito e Questionário, enquadrando <strong>os</strong> vári<strong>os</strong>métod<strong>os</strong> de recolha de informação.Observação indirecta einquérito em relaçõesindividuais (utiliza ainformação verbalproporcionada porinformadores individuaisObservação directa,em sentido lato degrup<strong>os</strong> oucolectividadesClássicasAnálise de conteúdoObservação nãoparticipantePode-se considerar que existem dois tip<strong>os</strong> detécnicas de recolha de informação: as documentaise não documentais. Nas técnicas documentaiso objectivo é a recolha de informação a partir desuportes bibliográfic<strong>os</strong> já existentes. É o caso dapesquisa bibliográfica e da análise de text<strong>os</strong>. Nastécnicas não documentais o investigador realizaobservação directa (como por exemplo, a mediçãoda altura do salto de um atleta ou o número deflexões por minuto) ou indirecta - podendo serfeita, neste caso, através da administração de umquestionário.Questionário:É um d<strong>os</strong> suportes de registo de informação n<strong>os</strong>Inquérit<strong>os</strong>, feito ou não através de uma entrevistaEntrevistaTestesEscalas de atitudesQuestionárioObservaçãoparticipanteTécnicas deExperimentaçãoTal como foi referido anteriormente, recorrem<strong>os</strong>ao inquérito <strong>para</strong> compreender fenómen<strong>os</strong> comoas atitudes, as opiniões ou as preferências, quesó são acessíveis de uma forma prática pelalinguagem, e que só raramente se exprimem deforma espontânea. É através do inquérito, e porvezes através da observação, que podem<strong>os</strong> obterinformações do que se passa num determinadomomento. Colocando um maior número dequestões podem-se fazer análises mais profundas,descrever de forma mais perspicaz as opiniõese <strong>os</strong> comportament<strong>os</strong> que procuram<strong>os</strong> estudar,verificar hipóteses mais complexas, etc.


pág. 47# o inquérito estatístico4. Como perguntar? - Regrasgerais <strong>para</strong> a construção de umquestionárioIndependentemente de todas as vantagens queum questionário tem, existem sempre algumasdesvantagens, das quais se destacam o facto deo questionário depender totalmente da linguagem- tudo o que dispom<strong>os</strong> é do que o inquirido pôde ouquis dizer.Portanto, as perguntas de um questionáriodevem recorrer a palavras simples e a umalinguagem acessível, clara e precisa (eliminandoa p<strong>os</strong>sibilidade de interpretações subjectivas porparte do inquirido). As questões devem ser curtase directas (evitando as negações e sobretudo asduplas-negações).No próximo capítulo explorarem<strong>os</strong> melhor asregras <strong>para</strong> a construção de questionári<strong>os</strong>.O questionário é um d<strong>os</strong> instrument<strong>os</strong> de notaçãomais utilizado <strong>para</strong> obter informação acerca de umadada população. A construção do questionário ea formulação das questões constituem uma fasefundamental do desenvolvimento de um inquérito.Para construir um questionário é necessário sabercom exactidão o que procuram<strong>os</strong>, garantir que asquestões tenham a mesma interpretação em tod<strong>os</strong><strong>os</strong> inquirid<strong>os</strong> e que tod<strong>os</strong> <strong>os</strong> aspect<strong>os</strong> das questõestenham sido bem abordad<strong>os</strong>, etc. Estas condiçõesresultam da realização das entrevistas e do teste àsprimeiras versões do questionário (pré-teste).Pré-teste:Consiste em testar o questionário juntode uma parte da am<strong>os</strong>tra, antes desteser utilizado em definitivo.3.2. Etapas do desenvolvimento de um inquéritoAs etapas de desenvolvimento de um inquéritonão se descrevem segundo uma ordem linearconstante. Segundo Giglione e Matalon (1992),antes de realizarm<strong>os</strong> um inquérito devem<strong>os</strong>saber quem querem<strong>os</strong> inquirir e o que devem<strong>os</strong>perguntar. Podem<strong>os</strong> dizer que ao elaborarm<strong>os</strong>um inquérito, devem<strong>os</strong> ter em consideraçãoalgumas preocupações: ao planear o inquérito jádeve estar definida a população que se pretendeinquirir e o que se quer saber acerca dela, quais<strong>os</strong> objectiv<strong>os</strong> do inquérito e como vai ser aplicado;depois, deve-se pre<strong>para</strong>r o instrumento de notação(questionário), <strong>para</strong> o qual é necessário ter-se ematenção o tipo de perguntas, a ordem pela qualocorrem, a linguagem aplicada e a apresentaçãofinal; por último, surge o trabalho no terreno(recolha de dad<strong>os</strong>), onde se recolhe toda ainformação necessária <strong>para</strong> concretizar o objectivodo inquérito. A recolha d<strong>os</strong> dad<strong>os</strong> pode ser feita devárias formas, que verem<strong>os</strong> mais adiante.4.1 Os diferentes tip<strong>os</strong> de questõesAs primeiras questões de um questionário sãomuito importantes. São elas que indicam às pessoasinquiridas o estilo geral do questionário, o génerode resp<strong>os</strong>ta que delas se espera e o tema quevai ser abordado. É também a partir delas que seestabelece a relação entrevistador-entrevistado, poisdeterminam a forma de reacção do entrevistado,nomeadamente se este sente que a sua vida privadaestá a ser incomodada. Normalmente é preferívelcomeçar por questões que despertem interesse noentrevistado e não o assustem.As questões de um questionário podem serfechadas, abertas e semi-abertas.Questões fechadas:São questões onde existe uma lista pré-estabelecidade resp<strong>os</strong>tas, a qual é apresentadaao inquirido, <strong>para</strong> ele indicar a que melhorcorresponde à resp<strong>os</strong>ta que deseja dar.


pág. 484.1.1 Questões fechadasDiz-se que uma questão é fechada se as modalidades de resp<strong>os</strong>ta são imp<strong>os</strong>tas (Grangé e Lebart, 1994).Por exemplo:Qual é a sua situação de estado civil ?[1] Solteiro[2] Casado ou a viver maritalmente[3] Divorciado ou se<strong>para</strong>do[4] ViúvoEste tipo de questões autoriza uma pré-codificação, ou seja, uma tradução imediata da resp<strong>os</strong>tasob a forma de um código alfanumérico. Estas questões limitam as pessoas inquiridas a respondersomente àquilo que lhes é apresentado como modalidades de resp<strong>os</strong>ta.Podem<strong>os</strong> distinguir vári<strong>os</strong> tip<strong>os</strong> de questões fechadas:• Questões de resp<strong>os</strong>ta única (o inquirido escolhe apenas uma modalidade de resp<strong>os</strong>ta).• Questões de resp<strong>os</strong>ta múltipla (o inquirido escolhe de várias modalidades de resp<strong>os</strong>tas emnúmero limitado ou não), por exemplo:Quais são, na sua opinião, <strong>os</strong> pont<strong>os</strong> fortes do produto X? (indique no máximo 3 escolhas)[1] apresentação geral[2] forma[3] comodidade de emprego[4] variedade de utilizações[5] eficácia[6] robustez[7] preço[8] duração da garantia[9] serviço pós-venda• Classificação (o inquirido ordena as várias modalidades de resp<strong>os</strong>tas por ordem de importância),por exemplo:Para o produto Y, classifique as seguintes características, partindo daquilo queconsidera como <strong>os</strong> seus pont<strong>os</strong> mais fortes até a<strong>os</strong> pont<strong>os</strong> mais frac<strong>os</strong>,utilizando a numeração de 1 a 9, sendo o 1 o ponto mais forte e o 9 o mais fraco.[ ] apresentação geral[ ] forma[ ] comodidade de emprego[ ] variedade de utilizações[ ] eficácia[ ] robustez[ ] preço[ ] duração da garantia[ ] serviço pós-vendaAs questões em escala também são um tipo de questões fechadas. Este tipo de questões permiteatenuar as resp<strong>os</strong>tas quando estam<strong>os</strong> na presença de questões do tipo concordo/não concordo.Para uma situação deste tipo, poderíam<strong>os</strong> estabelecer uma escala completa de resp<strong>os</strong>tas do tipo:Concordo plenamente / concordo um pouco / indiferente / não concordo muito /em desacordo total<strong>Um</strong> questionário comp<strong>os</strong>to, na sua maioria, por questões fechadas, não deve ultrapassar <strong>os</strong> 45minut<strong>os</strong> quando a sua aplicação é feita em boas condições, ou seja, em casa do inquirido ou numlugar tranquilo (Ghiglione e Matalon, 1992). Ultrapassando esse limite, o interesse perde-se, o quese nota através de sinais como a rapidez das resp<strong>os</strong>tas indicando pouca reflexão sobre as mesmas.


pág. 49# o inquérito estatísticoDo ponto de vista da análise de resultad<strong>os</strong>, asquestões fechadas são, em principio, as maiscómodas. Quando se trata de um inquéritode aplicação e exploração rápida, como umasondagem de opinião, esforçamo-n<strong>os</strong> por aplicarapenas este tipo de questões.4.1.2 Questões abertasPara estas questões não existe qualquer tipo derestrição à resp<strong>os</strong>ta, devendo esta ser transcritaliteralmente, através do modo mais fiável.O espaço reservado <strong>para</strong> esta restrição deveráser medido previamente <strong>para</strong> facilitar a exploraçãodas resp<strong>os</strong>tas (Grangé, 1994).(Ghiglione e Matalon, 1992). Por último, há umarazão forte <strong>para</strong> n<strong>os</strong> levar a preferir deixar umaquestão aberta: é que um questionário totalmentefechado torna-se rapidamente fastidi<strong>os</strong>o. Apoiand<strong>os</strong>enas listas de resp<strong>os</strong>tas que lhes apresentam<strong>os</strong>,as pessoas podem reflectir cada vez men<strong>os</strong> e tomarcada vez men<strong>os</strong> cuidado com o que dizem. Outromotivo <strong>para</strong> se escolher a forma aberta é que estapermite várias codificações. Depois de analisarm<strong>os</strong>todas as resp<strong>os</strong>tas, estas vão ser codificadasmediante a construção de um livro de códig<strong>os</strong>(também designado por tabela de classificação).4.1.3 Questões semi-abertasQuestões abertas:São questões às quais o inquirido responde comoquer, utilizando o seu próprio vocabulário.Exemplo de uma questão aberta:Qual o tipo de detergente que usa <strong>para</strong>a máquina da louça?Num questionário podem ocorrer simultaneamentemodalidades de resp<strong>os</strong>ta fechada e aberta namesma questão:Qual é o nome da companhia de segur<strong>os</strong>do seu veículo?[1] companhia A[2] companhia B[…] …[10] outra:Esta forma mista tende a resolver <strong>os</strong> problemasde pertinência e de exaustividade das questõesfechadas, reduzindo fortemente <strong>os</strong> cust<strong>os</strong> decodificação pós-inquérito de uma resp<strong>os</strong>ta “literal”.Há várias razões <strong>para</strong> se formularem questõesabertas. Muitas vezes não se tem tempo <strong>para</strong>elaborar uma lista de resp<strong>os</strong>tas-tipo a apresentaràs pessoas e, por essa razão, deixa-se um espaçoaberto <strong>para</strong> registar a resp<strong>os</strong>ta do inquirido.Por outro lado, podem<strong>os</strong> ter que recorrer aquestões abertas quando <strong>os</strong> pré-testes (ver4.5) do questionário forem insuficientes, ouainda quando as resp<strong>os</strong>tas a esses pré-testespareçam demasiado complexas <strong>para</strong> poderemser resumidas numa lista de tamanho aceitável4.2 Ordem das questõesNa elaboração de um questionário deve ter-se emconsideração um princípio, meio e fim. Não existeuma regra <strong>para</strong> a ordem das perguntas, massim alguns conselh<strong>os</strong> que podem ser seguid<strong>os</strong>.No princípio deve existir uma pequena introduçã<strong>os</strong>obre a entidade que promove o estudo, qual oobjectivo do questionário e as vantagens que esseestudo pode trazer <strong>para</strong> a sociedade.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 50As primeiras questões devem ser simples poiselas vão determinar a condução do questionário.As primeiras questões devem ser simples poisvão determinar a condução do questionário. Seas primeiras questões forem complicadas, oinquirido pode perder o interesse de responder,o que dificulta o trabalho do entrevistador. Como decorrer do questionário as perguntas devemser mais específicas, por exemplo, abordar temasembaraçantes ou íntim<strong>os</strong>, por exemplo “Lava <strong>os</strong>dentes tod<strong>os</strong> <strong>os</strong> dias?”, temas que podem levar aum esforço mental, como por exemplo, pedir <strong>para</strong>ordenar por ordem de preferência <strong>os</strong> produt<strong>os</strong>que g<strong>os</strong>ta mais, etc. Os dad<strong>os</strong> pessoais podemtanto vir no princípio como no fim, dependendodo critério do investigador. Todas as questõesdevem ser claras, nunca devem sugerir nenhumaresp<strong>os</strong>ta particular e não devem exprimirnenhuma expectativa (Ghiglione e Matalon, 1992).<strong>Um</strong> questionário deve parecer uma trocade palavras tão natural quanto p<strong>os</strong>sível. Sep<strong>os</strong>sível deve elaborar-se como um guião.É certo que não é p<strong>os</strong>sível perguntarm<strong>os</strong> tudonum questionário, pois <strong>os</strong> vári<strong>os</strong> temas de estudopodem originar muitas questões; logo deve-se tersensibilidade suficiente <strong>para</strong> escolher as questõesmais importantes <strong>para</strong> o estudo.Questões de filtro:Servem <strong>para</strong> filtrar as pessoas <strong>para</strong> as quaiscertas questões não fazem qualquer sentido ounão são aplicáveis.As questões devem ser curtas e sequenciais, semrepetições nem descontextualizadas. Por exemplo,antes de perguntarm<strong>os</strong> a uma pessoa se g<strong>os</strong>tou dofilme X deve-se perguntar se alguma vez viu o filmeX, pois assim poderem<strong>os</strong> ter uma questão de filtroque vai avaliar a informação que o entrevistadotem acerca do filme. Caso a sua informação sejanula isto é, que nunca tenha visto o filme X, asquestões seguintes que poderiam ser acerca dofilme já não fazem sentido <strong>para</strong> este entrevistado,logo esta questão tem de ser um filtro, passandoassim a outra questão acerca de outro tema.Exemplo dequestão de filtro:1. Alguma vez viu o filme X?Sim1.1 G<strong>os</strong>tou do filme?SimNão1.1 Era capaz de voltar a ver o filme X?Sim Não2. Alguma vez viu a série Y?Não (passe à questão 2)Questãode filtro4.3. Outras sugestões na elaboração de questões<strong>Um</strong> questionário não deve conter só perguntasabertas ou ou só perguntas fechadas. Deve-sealternar as questões <strong>para</strong> não tornar o questionáriomaçador. Como já foi referido, um questionário sócom questões fechadas pode por vezes levar aque o entrevistado fique um pouco “irritado”, poistem a sensação que as resp<strong>os</strong>tas lhe estão a serimp<strong>os</strong>tas. Não se devem utilizar questões duplas,isto é, não devem<strong>os</strong> introduzir mais do que umaideia em cada pergunta. Antes de elaborarm<strong>os</strong>algumas questões que podem provocar o embaraçodo entrevistado, tais como por exemplo, questõessobre religião ou consumo de determinad<strong>os</strong>produt<strong>os</strong>, devem<strong>os</strong> fazer uma pequena introduçãoao inquirido, pois muitas pessoas podem ter receiode fornecer resp<strong>os</strong>tas erradas ou confessar a suaignorância. Por isso, uma regra consiste em abordaressas questões da seguinte forma:“…no seu caso pessoal poderia dizer-me…”;“G<strong>os</strong>taria de saber a sua opinião…”.


pág. 514.4 Os diferentes tip<strong>os</strong> de escalasSe um questionário contiver perguntas fechadas, é necessário escolher sempre um conjunto dealternativas <strong>para</strong> cada questão (conforme Hill e Hill, 2000). Por exemplo, na questão Sexo, asalternativas são homem e mulher. Convém codificar as resp<strong>os</strong>tas (associar númer<strong>os</strong> a cada resp<strong>os</strong>ta)<strong>para</strong> que estas p<strong>os</strong>sam ser analisadas p<strong>os</strong>teriormente por meio de técnicas estatísticas. Os dois tip<strong>os</strong>de escala frequentemente usad<strong>os</strong> em questionári<strong>os</strong> são as escalas nominais e as escalas ordinais. Mashá, no entanto, outr<strong>os</strong> tip<strong>os</strong> de escalas igualmente utilizadas: as escalas de intervalo e de rácio.4.4.1 Escala nominalEste tipo de escala é utilizado em questões como a deste exemplo:Na empresa onde trabalha qual é o cargoque ocupa?Gerente Técnico Administrador Operário1 2 3 4A estas questões é p<strong>os</strong>sível atribuir um número a cada categoria <strong>para</strong> codificar a resp<strong>os</strong>ta. Estesnúmer<strong>os</strong> só servem <strong>para</strong> identificar as categorias. Aliás, as diferentes modalidades ou categoriaspoderiam ser codificadas por outr<strong>os</strong> símbol<strong>os</strong>, não necessariamente numéric<strong>os</strong> – por exemploas categorias da variável sexo, masculino e feminino, poderiam ser representadas por M e F,respectivamente. Numa escala nominal não faz sentido calcular a média das variáveis, mas simcalcular as frequências das suas modalidades . Para se saber mais sobre o cálculo de frequênciasnuma escala nominal, consulte o curso de Noções de Estatística existente na página do ALEA(página 2 do capítulo III, Dad<strong>os</strong>, Tabelas e Gráfic<strong>os</strong> - 1. Tip<strong>os</strong> de Dad<strong>os</strong>, em:www.alea.ine.pt/html/nocoes/html/cap3_1_1.html).4.4.2 Escala ordinalEste tipo de escala é utilizado em questões como a que se segue:Indique o seu grau de concordância ou discordância das seguintes afirmações relativasao produto XO produto X tem umaembalagem atractiva.O produto X tem umpreço muito caro.DiscordototalmenteDiscordoNão concordonem discordoConcordo1 2 3 4Concordototalmente1 2 3 4 55


pág. 52um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #Para as variáveis ordinais, do mesmo modoque <strong>para</strong> as nominais, também se utilizam ascategorias mas, no entanto, existe uma relaçãode ordem entre elas. Se um júri ordenar 5candidat<strong>os</strong> de 1 – mais fraco, a 5 – mais forte,podem<strong>os</strong> dizer que o candidato que ficou em 4ºlugar é melhor do que o que ficou em 3º lugar. Noentanto, não poderem<strong>os</strong> dizer que o candidatoclassificado com o número 4, é duas vezes melhorque o classificado com o número 2, isto é, não ép<strong>os</strong>sível medir a magnitude das diferenças entreas categorias (Hill e Hill, 2000). Do mesmo modoque <strong>para</strong> as variáveis nominais, continua a não tersentido o cálculo da média mas, já que existe umaordenação, pode-se calcular a mediana.quais quase todas as pessoas respondem damesma forma, o que as torna muito pouco úteis<strong>para</strong> análises mais finas, realizadas através docruzamento com outras questões. Neste caso énecessário rectificar a forma como as questõesestão colocadas. Pode também recorrer-se atécnicas como a análise factorial, <strong>para</strong> identificarquestões redundantes. Depois da análise dopré-teste, caso existam muitas alterações, énecessário voltar a testar o questionário quantasvezes for preciso.5. Como Seleccionar<strong>os</strong> Element<strong>os</strong> <strong>para</strong>a Am<strong>os</strong>tra4.5 O Pré-testeNo início do capítulo falam<strong>os</strong> sobre o pré-teste.Mas afinal <strong>para</strong> que serve o pré-teste?Quando uma primeira versão do questionáriofica redigida, ou seja, quando a formulaçãode todas as questões e a sua ordem sãoprovisoriamente fixadas, é necessário garantirque o questionário seja de facto aplicável e queresponda efectivamente a<strong>os</strong> problemas colocad<strong>os</strong>pelo investigador (Ghiglione e Matalon, 1992).Então, o questionário deve ser aplicado a umpequeno grupo de pessoas, com o objectivode saber se elas entenderam o significado doquestionário e das perguntas. Esta situaçãopermite-n<strong>os</strong> saber como as questões e resp<strong>os</strong>tassão compreendidas, permite-n<strong>os</strong> evitar err<strong>os</strong> devocabulário e de formulação e salientar recusas,incompreensões e equívoc<strong>os</strong> (Ghiglione e Matalon,1992). Com a elaboração do pré-teste podem<strong>os</strong>avaliar a taxa de recusas, <strong>conhecer</strong> a formacomo as pessoas reagem ao questionário e se aordem das questões não coloca nenhum problema.Podem<strong>os</strong> também constatar se há questões àsDe cada vez que se faz uma sondagem, énecessário seleccionar uma am<strong>os</strong>tra da populaçãoque se pretende estudar, à qual se aplica depoisum inquérito, <strong>para</strong> eventualmente se extrapolarem<strong>os</strong> resultad<strong>os</strong> <strong>para</strong> toda a população (Vicente,Reis e Ferrão, 1996).A necessidade de <strong>conhecer</strong> uma população noque respeita a uma ou várias características,impulsiona um processo de recolha e análisede informação. A dificuldade e mesmo nalgunscas<strong>os</strong>, a imp<strong>os</strong>sibilidade de estudar a totalidadeda população ditou a importância do estudo dorecurso a am<strong>os</strong>tras. É imp<strong>os</strong>sível assegurar aqualidade de uma sondagem, se não houver umconhecimento d<strong>os</strong> problemas e do impacto queeles podem ter n<strong>os</strong> resultad<strong>os</strong> do estudo.Am<strong>os</strong>tra:É uma parte da população que é observada como objectivo de obter informação <strong>para</strong> estudar acaracterística pretendida.


pág. 53# o inquérito estatístico5.1 Sondagens versus Recenseament<strong>os</strong>Quando precisam<strong>os</strong> de fazer um estudo sobreuma população, nem sempre é p<strong>os</strong>sível fazerum recenseamento, isto é, inquirir tod<strong>os</strong> <strong>os</strong>element<strong>os</strong> e, mesmo que f<strong>os</strong>se p<strong>os</strong>sível, esteprocesso demoraria muito tempo, o que tornaria oestudo muito caro e p<strong>os</strong>sivelmente já sem nenhumsentido, pois tornar-se-ia desactualizado. Assondagens são mais baratas, men<strong>os</strong> demoradas,sendo muito mais fácil aceder a tod<strong>os</strong> <strong>os</strong>element<strong>os</strong> de uma am<strong>os</strong>tra do que a<strong>os</strong> de umapopulação inteira.Recenseamento:Estudo de um universo de pessoas, instituiçõesou object<strong>os</strong> físic<strong>os</strong> com o propósito deadquirir conheciment<strong>os</strong>, observando tod<strong>os</strong><strong>os</strong> seus element<strong>os</strong> e fazer juíz<strong>os</strong> acerca decaracterísticas importantes desse universo.É certo que <strong>os</strong> recenseament<strong>os</strong> são importantespois são úteis na actualização de bases de dad<strong>os</strong><strong>para</strong> a realização de sondagens. Em Portugal, <strong>os</strong>Cens<strong>os</strong> ou recenseament<strong>os</strong> são realizad<strong>os</strong> dedez em dez an<strong>os</strong> o que faz com que consigam<strong>os</strong>ter uma actualização exaustiva, tanto do parquehabitacional como das características dapopulação residente. Com o decorrer do tempo,essa base de dad<strong>os</strong> vai ficando desactualizada,pois num curto espaço de tempo existemmudanças, tanto a nível habitacional comopopulacional. Por isso, conforme vão decorrendo<strong>os</strong> inquérit<strong>os</strong> por am<strong>os</strong>tragem, a actualização dabase de dad<strong>os</strong> vai sendo feita.5.2 Fases de realização de uma sondagemComo é habitual numa sondagem, o inquéritoé aplicado a uma am<strong>os</strong>tra retirada de umapopulação (Vicente, Reis e Ferrão, 1996).Conceber e levar à prática um estudo porsondagem é um processo complexo envolvendodiversas fases interdependentes.A vantagem deste esquema é a ilustração clara dafase de am<strong>os</strong>tragem (nível “escolha da am<strong>os</strong>tra”),dentro do processo de sondagem.É sobre <strong>os</strong> métod<strong>os</strong> de am<strong>os</strong>tragem que a seguirn<strong>os</strong> vam<strong>os</strong> debruçar.Fig. 4 - Orecenseamentoé uma fotografiainstantânea dapopulação numdeterminadomomento.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 54Fig. 5 -(adapt. Vicente, Reis eFerrão, 1996)CondiçõesdadasCondições dadasTipo deam<strong>os</strong>trae suadimensãoMétod<strong>os</strong> deRecolha deinformaçãoEscolha da am<strong>os</strong>traElaborar oquestionárioTestar oquestionárioRecolher asresp<strong>os</strong>tasPre<strong>para</strong>r<strong>os</strong>dad<strong>os</strong>Obtenção da informaçãoMedida deumacaracterísticaTeste deumahipóteseAnálise d<strong>os</strong> dad<strong>os</strong>RelatórioFinalRelatório Final5.3 Etapas do Plano Am<strong>os</strong>tralSegundo Vicente Reis e Ferrão (1996), “o planoam<strong>os</strong>tral é o momento da sondagem onde seseleccionam <strong>os</strong> element<strong>os</strong> a partir d<strong>os</strong> quais sevão recolher <strong>os</strong> dad<strong>os</strong> necessári<strong>os</strong>”.Assim sendo, <strong>os</strong> pass<strong>os</strong> requerid<strong>os</strong> <strong>para</strong> recolhera am<strong>os</strong>tra podem ser descrit<strong>os</strong> através daseguinte sequência:• Definir a População Alvo• Identificar a base de Sondagem• Escolher uma técnica am<strong>os</strong>tral• Determinar a dimensão da am<strong>os</strong>tra• Seleccionar <strong>os</strong> element<strong>os</strong> da am<strong>os</strong>tra• Recolher a informação necessária d<strong>os</strong>element<strong>os</strong> da am<strong>os</strong>tra5.3.1 Definir a População AlvoA definição da população alvo é uma das fasesmais importantes na realização de uma sondagem.É sobre essa população que o n<strong>os</strong>so estudovai incidir. A maior parte d<strong>os</strong> autores (Cochran(1963), Stuart (1984) e Barnett (1991)) definemcomo população alvo a totalidade d<strong>os</strong> element<strong>os</strong>sobre <strong>os</strong> quais incide a n<strong>os</strong>sa análise e d<strong>os</strong>quais se pretende obter informação. Para definircorrectamente a população alvo, primeiro tem<strong>os</strong>de ter a certeza qual é o objectivo do n<strong>os</strong>soinquérito, e depois, podemo-n<strong>os</strong> perguntar: sobrequem incide o inquérito? quem são <strong>os</strong> element<strong>os</strong>de referência acerca d<strong>os</strong> quais se pretende obtera informação? Por exemplo, vam<strong>os</strong> supor que oobjectivo do n<strong>os</strong>so inquérito era caracterizaro emprego e o desemprego em Portugal. Esteestudo tem de ser feito junto das famílias mas,como através d<strong>os</strong> alojament<strong>os</strong> é mais fácildetectar as famílias, devido à existência dasmoradas de residência, então a n<strong>os</strong>sa populaçãoalvo é a d<strong>os</strong> alojament<strong>os</strong>.População Alvo:Totalidade d<strong>os</strong> element<strong>os</strong> sobre <strong>os</strong> quais incidea n<strong>os</strong>sa análise e d<strong>os</strong> quais se pretende obterinformação.


pág. 55# o inquérito estatísticoAlojamento:Local distinto e independente construído,reconstruído, ampliado ou transformado<strong>para</strong> habitação humana e que, no período deobservação, não está a ser utilizado, totalmente,<strong>para</strong> outro fim.Base de Sondagem:Diz respeito a listas, mapas ou qualquer outroregisto da população de onde será retirada aam<strong>os</strong>tra.5.3.2 Identificação da Base de SondagemA base de sondagem é uma listagem d<strong>os</strong>element<strong>os</strong> da qual se vai seleccionar a am<strong>os</strong>tra(Vicente et al, 1996). Para utilizar a base desondagem como a fonte <strong>para</strong> a recolha daam<strong>os</strong>tra é necessário que se p<strong>os</strong>sam identificaras unidades am<strong>os</strong>trais, sendo estas, element<strong>os</strong>ou grupo de element<strong>os</strong> da população.Pela dificuldade em construir essas listagens,é em muit<strong>os</strong> cas<strong>os</strong> imp<strong>os</strong>sível fazer coincidir apopulação alvo com a população a inquirir. Tratased<strong>os</strong> cas<strong>os</strong> em que a população é muito grande,tornando-se incomportável fazer selecçõessucessivas de am<strong>os</strong>tras. Nestes cas<strong>os</strong> optasepor considerar uma grande am<strong>os</strong>tra, bemrepresentativa da população, a que se chama basede sondagem. A partir desta população, que reúnecaracterísticas da população-alvo inicial, extraemse,de seguida, várias am<strong>os</strong>tras. No InstitutoNacional de Estatística, por exemplo, a Am<strong>os</strong>tra-Mãe (utilizada em divers<strong>os</strong> inquérit<strong>os</strong> como porexemplo o Inquérito ao Emprego) é uma grandeam<strong>os</strong>tra extraída da população-alvo, a partir daqual se extraem outras am<strong>os</strong>tras, relacionadascom <strong>os</strong> inquérit<strong>os</strong> às famílias. P<strong>os</strong>teriormente,quando esta base de sondagem começa aficar saturada, pois cert<strong>os</strong> indivídu<strong>os</strong> já foraminquirid<strong>os</strong> um determinado número de vezes,a base de sondagem é actualizada, através dasubstituição por nov<strong>os</strong> indivídu<strong>os</strong>. Gomes (1998)explica claramente esta estratégia que consisteem actualizar uma parte “representativa” dapopulação alvo, que assume o papel de base desondagem. Tal como se referiu, em Portugal oINE actualiza a Am<strong>os</strong>tra-Mãe de 5 em 5 an<strong>os</strong> ea partir de 1998 recorre-se a uma actualizaçãoparcial em cada ano.5.3.3 Escolha de uma técnica am<strong>os</strong>tralDepois de definida a população-alvo, o problemaque se levanta é o da selecção d<strong>os</strong> element<strong>os</strong>da am<strong>os</strong>tra. Nesta fase da sondagem importadistinguir <strong>os</strong> métod<strong>os</strong> probabilístic<strong>os</strong> oualeatóri<strong>os</strong> (em que a<strong>os</strong> element<strong>os</strong> da populaçãoestá associada uma probabilidade de inclusãona am<strong>os</strong>tra) d<strong>os</strong> não probabilístic<strong>os</strong> (onde essaprobabilidade não é determinada).Os métod<strong>os</strong> probabilístic<strong>os</strong> estão associad<strong>os</strong> àselecção de am<strong>os</strong>tras aleatórias. No momentoda selecção de uma am<strong>os</strong>tra aleatória tem de seconsiderar toda a população, (ou, quando tal sejustifica, uma base de sondagem).<strong>Um</strong>a am<strong>os</strong>tra é considerada não aleatória quandodeterminad<strong>os</strong> element<strong>os</strong> da população não têmp<strong>os</strong>sibilidade de serem escolhid<strong>os</strong>. Por exemplo,nas entrevistas de rua, apesar das pessoasserem escolhidas aleatoriamente, a am<strong>os</strong>traque se obtém é uma am<strong>os</strong>tra não aleatória,visto que nem tod<strong>os</strong> <strong>os</strong> indivídu<strong>os</strong> da populaçãotêm a mesma p<strong>os</strong>sibilidade de passar no localno momento em que se estão a realizar asentrevistas.Am<strong>os</strong>tragem Aleatória:Procedimento de selecção d<strong>os</strong> element<strong>os</strong> ougrupo de element<strong>os</strong> de um modo tal que dá acada elemento da população uma probabilidadede inclusão na am<strong>os</strong>tra calculável e diferente dezero, ou seja, cada elemento da população temuma probabilidade conhecida de ser escolhido.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 56A - Métod<strong>os</strong> Probabilístic<strong>os</strong>5.3.3.1 Am<strong>os</strong>tragem Aleatória SimplesAm<strong>os</strong>tragem não Aleatória:Procedimento de selecção de element<strong>os</strong> dapopulação que permite a escolha d<strong>os</strong> indivídu<strong>os</strong> aincluir na am<strong>os</strong>tra segundo determinado critériomais ou men<strong>os</strong> subjectivo. Nesta forma deam<strong>os</strong>tragem não se conhece a probabilidade dedeterminado elemento ser seleccionado.Importa salientar que só com a utilização deam<strong>os</strong>tras aleatórias é p<strong>os</strong>sível <strong>conhecer</strong> o grau deconfiança (grau de certeza que se tem a respeitoda precisão da estimativa) d<strong>os</strong> resultad<strong>os</strong>, mas emcontrapartida são as am<strong>os</strong>tras não aleatórias quep<strong>os</strong>sibilitam a conclusão mais rápida do estudo ecom menor custo (Vicente, Reis e Ferrão, 1996).Quer se escolha uma am<strong>os</strong>tra aleatória ou não,o importante é obter estimativas próximas d<strong>os</strong>parâmetr<strong>os</strong> a estimar e isto só se consegue setiverm<strong>os</strong> uma am<strong>os</strong>tra o mais representativap<strong>os</strong>sível do universo.O tipo de am<strong>os</strong>tragem probabilística maisconhecido é o da am<strong>os</strong>tragem aleatória simples.Segundo Stuart (1984), uma am<strong>os</strong>tra aleatóriasimples (a.a.s.) de dimensão n é uma am<strong>os</strong>traseleccionada por um processo que confere acada conjunto p<strong>os</strong>sível de n element<strong>os</strong> a mesmaprobabilidade de ser seleccionado.Pode-se m<strong>os</strong>trar que neste plano de am<strong>os</strong>tragem,tod<strong>os</strong> <strong>os</strong> element<strong>os</strong> da população têm a mesmaprobabilidade de serem escolhid<strong>os</strong> <strong>para</strong> fazerparte da am<strong>os</strong>tra.Plano de Am<strong>os</strong>tragem:Metodologia adoptada <strong>para</strong> obter a am<strong>os</strong>tra dapopulação.A obtenção de uma am<strong>os</strong>tra aleatória simplespode ser feita mediante <strong>os</strong> seguintes pass<strong>os</strong>(Vicente, Reis e Ferrão, 1996):Depois de feita uma pequena introdução acercad<strong>os</strong> tip<strong>os</strong> de am<strong>os</strong>tras verem<strong>os</strong> a seguir, commais pormenor, as várias técnicas am<strong>os</strong>trais. Osprincipais tip<strong>os</strong> de Am<strong>os</strong>tragem Aleatória são:simples, sistemática, estratificada, por Clusters,multi-etapas e multi-fases.Fig. 6 -Entrevista de ruarealizada porta a portaPass<strong>os</strong> <strong>para</strong> obtenção de uma am<strong>os</strong>traaleatória simples:1. Numerar consecutivamente <strong>os</strong> element<strong>os</strong> dapopulação de 1 a N;2. Escolher n element<strong>os</strong> mediante o uso de umprocedimento aleatório como seja o métododa lotaria ou utilizando tabelas de númer<strong>os</strong>aleatóri<strong>os</strong>, que podem ser geradas porcomputador. Os númer<strong>os</strong> têm que serdiferentes e não superiores a N;3. <strong>Um</strong>a vez escolhid<strong>os</strong> <strong>os</strong> númer<strong>os</strong>, <strong>os</strong> element<strong>os</strong>da população que lhes correspondemconstituirão a am<strong>os</strong>tra.


pág. 57# o inquérito estatísticoA escolha das a.a.s. nem sempre é a melhoropção. Devido a tod<strong>os</strong> <strong>os</strong> indivídu<strong>os</strong> da populaçãoterem a mesma p<strong>os</strong>sibilidade de pertenceremà am<strong>os</strong>tra, pode resultar em am<strong>os</strong>tras muitodispersas geograficamente e, se forem exigidasentrevistas pessoais, a am<strong>os</strong>tra obtida torna-sedispendi<strong>os</strong>a e mor<strong>os</strong>a. Estas am<strong>os</strong>tras podem seruma óptima escolha se a população for reduzida;existirem listas com <strong>os</strong> element<strong>os</strong> da população,sendo portanto p<strong>os</strong>sível a definição da basede sondagem e se a dispersão geográfica d<strong>os</strong>element<strong>os</strong> não for um problema.5.3.3.2 Am<strong>os</strong>tragem SistemáticaExemplo de utilização da am<strong>os</strong>tragem aleatória simples:Considere-se uma população constituída por20 nomes, de onde se pretende seleccionaraleatoriamente 10 nomes. O investigador associacada nome da lista inicial a um número de 1 a20, por exemplo, por ordem alfabética, sendo<strong>os</strong> númer<strong>os</strong> representad<strong>os</strong> por dois dígit<strong>os</strong>- como por exemplo o 1, que será escrito 01.Depois, com o auxílio de uma tabela de númer<strong>os</strong>aleatóri<strong>os</strong> (que se encontra praticamente emtod<strong>os</strong> <strong>os</strong> livr<strong>os</strong> de Estatística), o investigadorvai seleccionando númer<strong>os</strong> de dois dígit<strong>os</strong>, atécompletar a dimensão da am<strong>os</strong>tra necessária.Repare-se que haverá necessidade de seleccionarmais de 10 númer<strong>os</strong>, pois alguns não terãocontrapartida na população considerada – porexemplo, se seleccionar o 56, terá de o deitarfora e seleccionar um outro número. <strong>Um</strong> outroprocesso consiste em gerar aleatoriamente, pelocomputador (folha de cálculo, etc.) 10 númer<strong>os</strong>aleatóri<strong>os</strong> entre 1 e 20.Numa população com N element<strong>os</strong>, o númerototal de am<strong>os</strong>tras p<strong>os</strong>síveis de n element<strong>os</strong>,retirad<strong>os</strong> sem rep<strong>os</strong>ição é dado por:NC N !n , pelo que a probabilidade de cadan!( N n)!uma ser seleccionada é N!1( )n!(N n )!Dada uma população de dimensão N, ordenadapor algum critério, uma am<strong>os</strong>tra sistemática, dedimensão n, é obtida seleccionando aleatoriamenteum elemento de entre <strong>os</strong> primeir<strong>os</strong> K da base desondagem, onde K é a parte inteira do quocienteN/n, e adicionando tod<strong>os</strong> <strong>os</strong> K-ésim<strong>os</strong> element<strong>os</strong>seguintes (Vicente, Reis e Ferrão, 1996).Pass<strong>os</strong> <strong>para</strong> obtenção de uma am<strong>os</strong>trasistemática de dimensão n:1. Calcular o intervalo k da am<strong>os</strong>tra (obtido peloquociente N/n, em que k representa a parteinteira desse quociente).2. Escolher aleatoriamente um número j entre 1e k.Partindo desse número, adicionar sucessivamenteo valor k, ficando assim seleccionad<strong>os</strong> <strong>os</strong>element<strong>os</strong> j, j+k, j+2k, j+3k, …, j+(n-1)k,perfazendo um total de n observaçõesseleccionadas <strong>para</strong> a am<strong>os</strong>tra.A selecção de um elemento, na am<strong>os</strong>trasistemática, depende do que foi anteriormenteseleccionado. De facto só o primeiro elementoé que é seleccionado aleatoriamente, sendo <strong>os</strong>restantes dependentes dessa primeira escolha.Neste tipo de am<strong>os</strong>tra a probabilidade de selecçãonão é igual <strong>para</strong> tod<strong>os</strong> <strong>os</strong> element<strong>os</strong>.(ver “combinatória” no curso de Noções Probabilidades doALEA em: www.alea.pt/html/probabil/html/cal_combinatorio/html/calcomb.html)


pág. 58um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #Exemplo de utilização da am<strong>os</strong>tragem sistemática(população conhecida)- retirado de Vicente, Reis e Ferrão, (1996)Considerem<strong>os</strong> uma população com 5135 indivídu<strong>os</strong>e pretende-se uma am<strong>os</strong>tra aleatória sistemáticade dimensão 100. Então o intervalo da am<strong>os</strong>traserá 5135/100 ou seja 51,35, originando k=51;seguidamente, escolhe-se aleatoriamente umnúmero entre 1 e 51 (por exemplo o 2) e porfim, tod<strong>os</strong> <strong>os</strong> 51-ésim<strong>os</strong> da lista. Neste caso aam<strong>os</strong>tra seria comp<strong>os</strong>ta pel<strong>os</strong> element<strong>os</strong> 2, 53,104, 155, … ,5051.Por vezes a am<strong>os</strong>tragem sistemática (a.s.)é preferível à am<strong>os</strong>tragem aleatória simples(a.a.s.), por ser mais fácil de realizar devidoao facto de precisar de men<strong>os</strong> tempo do que ométodo de a.a.s. que utiliza o método da lotaria.Por outro lado, tem como desvantagens adificuldade de atribuir númer<strong>os</strong> ao acaso, quandoa população é desconhecida. Nestes cas<strong>os</strong>, ovalor j é escolhido ao acaso, mas <strong>os</strong> restanteselement<strong>os</strong> (j+k, j+2k, etc) são escolhid<strong>os</strong> poraplicação de um intervalo fixo, e portanto, não sãoescolhid<strong>os</strong> aleatoriamente (Hill, Hill, 2000).Outra desvantagem é que se deve ter em conta<strong>os</strong> padrões de repetição que podem enviesar aam<strong>os</strong>tra. Imaginem<strong>os</strong>, por exemplo, que existea necessidade de controlar a pontualidade ea assiduidade de um determinado funcionário.A população em estudo é comp<strong>os</strong>ta pel<strong>os</strong>regist<strong>os</strong> diári<strong>os</strong> de entrada e saída do livro deponto. Suponham<strong>os</strong> que este funcionário estáautorizado a chegar mais tarde às quartasfeiraspor imperativ<strong>os</strong> familiares. Se optarm<strong>os</strong>pela am<strong>os</strong>tragem sistemática <strong>para</strong> a recolhada am<strong>os</strong>tra e se k=7, sendo o primeiro dia umaquarta-feira, terem<strong>os</strong> de seleccionar apenas asquartas-feiras, o que enviesará a am<strong>os</strong>tra. Estetipo de problemas surge sempre que a populaçãoestá associada a padrões de repetição, comoacontece neste caso com <strong>os</strong> dias da semana.Exemplo de utilização da am<strong>os</strong>tragem sistemática(população desconhecida):Suponham<strong>os</strong> que querem<strong>os</strong> extrair uma am<strong>os</strong>trade 20 pessoas compradoras de um determinadoestabelecimento comercial.Como não sabem<strong>os</strong> qual a dimensão da n<strong>os</strong>sapopulação, não podem<strong>os</strong> aplicar a a.a.s., logovam<strong>os</strong> ter de aplicar a am<strong>os</strong>tragem sistemática.Como fazem<strong>os</strong> <strong>para</strong> obter a n<strong>os</strong>sa am<strong>os</strong>tra?Podem<strong>os</strong> optar pelo critério de escolher umcomprador de 5 em 5 pelo que, o 5º, 10º, 15º,20º, etc. são <strong>os</strong> element<strong>os</strong> pertencentes à n<strong>os</strong>saam<strong>os</strong>tra.5.3.3.3 Am<strong>os</strong>tragem Aleatória EstratificadaEnquanto as duas formas de am<strong>os</strong>tragemanteriores consideram a população como umtodo, existem situações em que conseguemidentificar-se subdomíni<strong>os</strong> ou subgrup<strong>os</strong>, queresultam da divisão da população em grup<strong>os</strong> ouestrat<strong>os</strong> (Vicente, Reis e Ferrão, 1996). É ocaso da am<strong>os</strong>tragem estratificada. Nesta, cadaestrato é tomado como uma população se<strong>para</strong>dae a selecção d<strong>os</strong> element<strong>os</strong> dentro de cada umd<strong>os</strong> estrat<strong>os</strong> é feita à parte.A am<strong>os</strong>tragem estratificada tem, assim, porprincípio, dividir a população em subconjunt<strong>os</strong>chamad<strong>os</strong> estrat<strong>os</strong>, de forma a realizar umasondagem em cada um deles.Estrato:Subgrupo de element<strong>os</strong> da população, que sepretende que sejam o mais homogéne<strong>os</strong> p<strong>os</strong>sívelentre si no que respeita à característica emestudo.


pág. 59# o inquérito estatísticoPass<strong>os</strong> <strong>para</strong> obtenção de uma am<strong>os</strong>traestratificada:1. Definir <strong>os</strong> estrat<strong>os</strong>. Os estrat<strong>os</strong> têm de serbastante diferentes uns d<strong>os</strong> outr<strong>os</strong>, mas <strong>os</strong>element<strong>os</strong> dentro de cada estrato têm de tercaracterísticas comuns (ex. sexo, grupoetário).2. Seleccionar <strong>os</strong> element<strong>os</strong> dentro de cadaestrato, independentes uns d<strong>os</strong> outr<strong>os</strong>.3. Conjugar <strong>os</strong> element<strong>os</strong> seleccionad<strong>os</strong> em cadaestrato, que na sua totalidade constituem aam<strong>os</strong>tra.Este tipo de am<strong>os</strong>tragem é muito usado, vistoque a maioria das populações podem ser divididasem estrat<strong>os</strong> (por exemplo, homens/mulheres,alun<strong>os</strong> do ensino superior/não superior, etc)e conduz-n<strong>os</strong> a análises de subgrup<strong>os</strong> comvariabilidades inferiores do que na a.a.s. Este tipode am<strong>os</strong>tragem tem como desvantagem ser muitocaro e mor<strong>os</strong>o quando existem muit<strong>os</strong> estrat<strong>os</strong>.A população com N unidades é, assim, divididaem subpopulações ou estrat<strong>os</strong> com N1, N2,…, Nk element<strong>os</strong>, onde N1+N2+…+Nk = N.Os estrat<strong>os</strong> assim formad<strong>os</strong> são mutuamenteexclusiv<strong>os</strong> e exaustiv<strong>os</strong>.Como já foi referido, a lógica que assisteà estratificação de uma população é a daidentificação de grup<strong>os</strong> que variam muito entresi, ou seja, no que diz respeito ao parâmetro emestudo, mas muito pouco dentro de si, ou seja,cada grupo é homogéneo e com pouca variabilidade(Vicente, Reis e Ferrão, 1996). Cada estrato étomado como uma população se<strong>para</strong>da, de onde seretira uma am<strong>os</strong>tra, que fornece uma estimativa.As estimativas obtidas a partir d<strong>os</strong> k estrat<strong>os</strong>servem de base à construção de estimativas doparâmetro populacional em estudo.Parâmetro:Indicador quantitativo referente a um atributo oucaracterística da população (ex. média de idadesdas mulheres, total de pequenas empresas,etc.).Fig. 7 -Esquema daam<strong>os</strong>tragem aleatóriaestratificadaPopulação...Am<strong>os</strong>trasExemplo de utilização da am<strong>os</strong>tragem aleatóriaestratificada:Suponham<strong>os</strong> que se pretendia estudar o volumedas vendas de prestação de serviç<strong>os</strong> dasempresas de construção civil. Podem<strong>os</strong> à partidaconsiderar a População das empresas dividas em 3estrat<strong>os</strong> quanto ao número de trabalhadores queemprega: pequenas – 10 ou men<strong>os</strong> trabalhadores,médias – entre 11 e 40 e grandes – mais de 41trabalhadores. <strong>Um</strong>a vez identificad<strong>os</strong> <strong>os</strong> estrat<strong>os</strong>,procede-se numa segunda etapa à recolha deuma a.a.s. dentro de cada estrato. Admitindoque a população em estudo é constituída por 500empresas, das quais 55% são pequenas, 35% sãomédias e 10% são grandes e que a dimensão daam<strong>os</strong>tra pretendida é de 85, seleccionaríam<strong>os</strong>,am<strong>os</strong>tras de dimensão 47, 30 e 8, respectivamentedo conjunto das pequenas, das médias e dasgrandes empresas. Esta selecção teve em contaa manutenção da igualdade da proporção dotamanho da am<strong>os</strong>tra em cada estrato. Existemoutr<strong>os</strong> métod<strong>os</strong> de estratificação que podem serconsultad<strong>os</strong> em Cochran


pág. 60um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #5.3.3.4 Am<strong>os</strong>tragem Aleatória por Cach<strong>os</strong><strong>Um</strong> cacho, grupo ou “cluster”, é uma entidadeque ocorre naturalmente associada a umarealidade. <strong>Um</strong>a escola, por exemplo (comp<strong>os</strong>tapor várias salas, alun<strong>os</strong> e professores) podeser considerada um “cluster” ou cacho. Podemser considerad<strong>os</strong> “clusters” universidades,h<strong>os</strong>pitais, cidades, países, etc, onde existamréplicas da população a estudar. Estes grup<strong>os</strong>são seleccionad<strong>os</strong> aleatoriamente e tod<strong>os</strong> <strong>os</strong>element<strong>os</strong> desse grupo são incluíd<strong>os</strong> na am<strong>os</strong>tra.Como nem sempre é fácil obterm<strong>os</strong> bases desondagens, a utilização da am<strong>os</strong>tragem porcach<strong>os</strong> torna-se mais económica e é muitoutilizada quando querem<strong>os</strong> fazer uma sondagemque cobre uma grande área geográfica.Para exemplificarm<strong>os</strong> melhor este tipo deam<strong>os</strong>tragem, considerem<strong>os</strong> um cacho de uvas.Se nós retirarm<strong>os</strong> uma uva do cacho, ficam<strong>os</strong> asaber se o resto das uvas desse mesmo cacho éde boa qualidade ou não, não precisando de comero cacho todo, pelo que a selecção de tod<strong>os</strong> <strong>os</strong>element<strong>os</strong> do cacho <strong>para</strong> pertencerem à am<strong>os</strong>traresulta numa certa redundância.Verifica-se que o princípio que torna eficiente aam<strong>os</strong>tra estratificada torna ineficiente a am<strong>os</strong>trapor cach<strong>os</strong> (Vicente, Reis e Ferrão, 1996). Quantomais semelhantes forem <strong>os</strong> element<strong>os</strong> dentro deum cacho, melhores serão <strong>os</strong> resultad<strong>os</strong> se essecacho for usado como um estrato na am<strong>os</strong>traestratificada e piores se forem usad<strong>os</strong> comounidades am<strong>os</strong>trais na am<strong>os</strong>tragem por cach<strong>os</strong>.Cacho ou Cluster:Grupo de unidades elementares da população,idealmente com a mesma variabilidade dapopulação.A preferência por este tipo de am<strong>os</strong>tragem emmuit<strong>os</strong> cas<strong>os</strong> deve-se muitas vezes ao factode esta ter um custo reduzido relativamente aoutr<strong>os</strong> tip<strong>os</strong> de am<strong>os</strong>tragem.Pass<strong>os</strong> <strong>para</strong> obtenção de uma am<strong>os</strong>tra porcach<strong>os</strong>:Exemplo: diferenças entre a am<strong>os</strong>tragem estratificada eam<strong>os</strong>tragem por cach<strong>os</strong>Caso 1: am<strong>os</strong>tragem estratificadaOs empregad<strong>os</strong> da firma XYZ são agrupad<strong>os</strong> deacordo com <strong>os</strong> departament<strong>os</strong> onde trabalham(vendas, marketing, investigação e produção).Seleccionam-se, em seguida, 10 empregad<strong>os</strong>,aleatoriamente, de cada grupo.Caso 2: am<strong>os</strong>tragem por cach<strong>os</strong>Cinco hotéis da cadeia Líri<strong>os</strong> (que é comp<strong>os</strong>ta por10 hotéis) foram seleccionad<strong>os</strong> aleatoriamente.Tod<strong>os</strong> <strong>os</strong> empregad<strong>os</strong> desses 5 hotéis foramconsiderad<strong>os</strong> na am<strong>os</strong>tra.1. Especificar <strong>os</strong> cach<strong>os</strong>, isto é, geralmente <strong>os</strong>element<strong>os</strong> d<strong>os</strong> cach<strong>os</strong> estão fisicamente muitopróxim<strong>os</strong> e por isso apresentam característicasmuito similares. Assim, pode não terinteresse definirm<strong>os</strong> cach<strong>os</strong> muito grandes.2. Seleccionar uma am<strong>os</strong>tra de cach<strong>os</strong>aleatoriamente e incluir na am<strong>os</strong>tra tod<strong>os</strong><strong>os</strong> element<strong>os</strong> que pertencem a<strong>os</strong> cach<strong>os</strong>seleccionad<strong>os</strong>.


pág. 61# o inquérito estatísticoFig. 8 -Esquema daam<strong>os</strong>tragem aleatória porcach<strong>os</strong>. Podem<strong>os</strong> imaginar que <strong>os</strong>cah<strong>os</strong> (aqui representad<strong>os</strong> pelascélulas) são <strong>os</strong> hotéis do exemploacima referido . Neste caso, apenasdois d<strong>os</strong> hotéis foram seleccionad<strong>os</strong>,num total d<strong>os</strong> 5 que existem napopulação.A am<strong>os</strong>tra do Inquérito ao Emprego realizadopelo INE, por exemplo, é recolhida com basenum processo de am<strong>os</strong>tragem multi-etápica.De acordo com a sua metodologia (INE, 1998)a população é repartida num certo número deunidades primárias (freguesias). Cada unidadeprimária é, por sua vez repartida por secçõesestatísticas (áreas geográficas contíguas e umaúnica freguesia com cerca de 300 alojament<strong>os</strong>).Cada secção estatística constitui uma unidadesecundária. Em cada secção são listadas todasas unidades de alojamento que a constituem.Unidade Am<strong>os</strong>tral::Elemento ou grupo de element<strong>os</strong> da população.<strong>Um</strong>a am<strong>os</strong>tra é constituída por unidadesam<strong>os</strong>trais baseada em métod<strong>os</strong> probabilístic<strong>os</strong>.PopulaçãoAm<strong>os</strong>trasB - Métod<strong>os</strong> Não Probabilístic<strong>os</strong>5.3.3.5 Am<strong>os</strong>tragem Aleatória Multi-EtapasA am<strong>os</strong>tragem multi-etapas pode ser consideradacomo uma extensão da am<strong>os</strong>tragem por cach<strong>os</strong>em que só alguns d<strong>os</strong> cach<strong>os</strong> são seleccionad<strong>os</strong>e d<strong>os</strong> grup<strong>os</strong> ou cach<strong>os</strong> só se retiram algunsatravés de am<strong>os</strong>tragem aleatória simples.Depois de term<strong>os</strong> abordado algumas técnicasde am<strong>os</strong>tragem aleatória, vam<strong>os</strong> ver algunstip<strong>os</strong> de am<strong>os</strong>tragem não aleatória. SegundoBacelar (1999), ao contrário das técnicasaleatórias, estas técnicas não têm “garantiaestatística” de que a am<strong>os</strong>tra seleccionada sejarepresentativa. Não existe, nestes cas<strong>os</strong>, umateoria estatística de suporte à obtenção deam<strong>os</strong>tras representativas, mas pode existir umaprobabilidade significativamente elevada de quea am<strong>os</strong>tra obtida seja representativa, emboraesta probabilidade não seja muitas vezes fácilde determinar. Estas técnicas de am<strong>os</strong>tragemnão aleatória são muito utilizadas e muitoúteis quando não é p<strong>os</strong>sível usar am<strong>os</strong>trasaleatórias, no âmbito de estud<strong>os</strong> preliminares ouexploratóri<strong>os</strong>.Exempl<strong>os</strong> de cach<strong>os</strong> numa am<strong>os</strong>tragem multi-etapas(Vicente, Reis e Ferrão, 1996):Clusters ou unidadeam<strong>os</strong>tral primáriaUnidade am<strong>os</strong>tralsecundáriaUnidade am<strong>os</strong>tralterciáriaUnidade am<strong>os</strong>tralquaternáriaFreguesia Quarteirão Prédio HabitaçãoPáginaLinha de TextoPaís Centro urbano Estab. comercial


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 625.3.3.6 Am<strong>os</strong>tragem por Conveniência<strong>Um</strong>a am<strong>os</strong>tra por conveniência consiste numgrupo de indivídu<strong>os</strong> que se encontram disponíveisno momento da investigação. Estas am<strong>os</strong>trasnão são representativas da população (Vicenteet al, 1996). Apesar da sua fragilidade científica,este tipo de am<strong>os</strong>tragem pode ser usada comêxito em situações nas quais captar ideias geraise identificar aspect<strong>os</strong> crític<strong>os</strong> pode ser maisimportante do que a objectividade científica,como é o caso da realização de pré-testes de umquestionário. Devido ao caracter “oportunista”da am<strong>os</strong>tra, <strong>os</strong> seus element<strong>os</strong> podem não serrepresentativ<strong>os</strong> da população.Exemplo de utilização da am<strong>os</strong>tragem por conveniência:Considerem<strong>os</strong> um estudo sobre a associaçãoentre o rendimento das famílias e o acesso aserviç<strong>os</strong> de saúde mental (psicanálise, psicologiamédica, etc.). Para um estudo deste tipo, uminvestigador colocou 5 entrevistadores, em frentea 5 supermercad<strong>os</strong> e 5 igrejas de um bairrodegradado n<strong>os</strong> subúrbi<strong>os</strong> de Nova Iorque.5.3.3.7 Am<strong>os</strong>tragem “Bola de Neve”Este tipo de am<strong>os</strong>tragem recai n<strong>os</strong> indivídu<strong>os</strong>que foram previamente identificad<strong>os</strong> comopertencentes à am<strong>os</strong>tra. É uma técnica utilizadan<strong>os</strong> cas<strong>os</strong> em que não existe informação disponívelsobre a população, ou torna-se imp<strong>os</strong>síveldisponibilizá-la. Este tipo de am<strong>os</strong>tragem é utilizadoquando se pretende analisar populações pequenasou com características muito específicas.Para construir uma am<strong>os</strong>tra baseada nestatécnica, o entrevistador pede ajuda ao inquirido,após ser entrevistado, <strong>para</strong> que este forneçanomes de outr<strong>os</strong> indivídu<strong>os</strong> que p<strong>os</strong>sam serigualmente inquirid<strong>os</strong> (Vicente et al, 1996). <strong>Um</strong>inconveniente deste processo é que as pessoasque são entrevistadas, têm tendência a indicaremamig<strong>os</strong> o que leva por vezes a term<strong>os</strong> uma am<strong>os</strong>trade pessoas que pensam e agem de forma idêntica.Exemplo de utilização da am<strong>os</strong>tragem “Bola de Neve”:Vam<strong>os</strong> supor que querem<strong>os</strong> uma am<strong>os</strong>tra detoxicodependentes que residem no Porto. Como nãotem<strong>os</strong> nenhuma listagem, o que fazem<strong>os</strong> é tentarencontrar uma pessoa com essa característicae, depois de a entrevistarm<strong>os</strong>, pedirm<strong>os</strong><strong>para</strong> n<strong>os</strong> indicar o nome de outras pessoastoxicodependentes residentes no Porto e garantirque não referim<strong>os</strong> qual a fonte dessa informação


pág. 63# o inquérito estatístico5.3.3.8 Am<strong>os</strong>tragem por quotasEste é o método não aleatório de am<strong>os</strong>tragemmais utilizado. É muito semelhante à am<strong>os</strong>tragemaleatória estratificada, mas a selecção d<strong>os</strong>element<strong>os</strong> da am<strong>os</strong>tra não é aleatória. Aexistência deste método de am<strong>os</strong>tragem justificasefundamentalmente pela inexistência delistagens da população (Vicente et al, 1996). Aam<strong>os</strong>tragem por quotas conduz a uma am<strong>os</strong>traonde a proporção de element<strong>os</strong> que p<strong>os</strong>suem umadeterminada característica é aproximadamenteigual à proporção de indivídu<strong>os</strong> na populaçãoque p<strong>os</strong>suem essa mesma característica. Porexemplo, se a população tem tant<strong>os</strong> homens comomulheres, o mesmo vai acontecer na am<strong>os</strong>tra.Neste método o tempo de realização do trabalhode campo é inferior ao d<strong>os</strong> métod<strong>os</strong> aleatóri<strong>os</strong>,pois não há necessidade de contactar mais do queuma vez o entrevistado (Vicente et al, 1996). Seno primeiro contacto o indivíduo não se encontraé automaticamente substituído por outro. Estapode ser uma vantagem expressiva se existir umagrande urgência na obtenção da informação.Pass<strong>os</strong> <strong>para</strong> obtenção de uma am<strong>os</strong>trapor quotas:1. Definir as quotas, isto é, dividir a população emcategorias. A escolha das variáveis é feita namaioria d<strong>os</strong> cas<strong>os</strong> com base no recenseamentoda população, quando se trata de variáveissócio-demográficas.2. Seleccionar <strong>os</strong> element<strong>os</strong>, cabendo aoentrevistador tomar a decisão de quem éescolhido. A única obrigatoriedade é querespeite as quotas estabelecidas no plano deam<strong>os</strong>tragem. Muitas vezes definem-se plan<strong>os</strong><strong>para</strong> seleccionar <strong>os</strong> element<strong>os</strong>, tais comocircuit<strong>os</strong> urban<strong>os</strong> ou fórmulas <strong>para</strong> encontraro andar e o alojamento a inquirir num prédio.A qualidade de uma am<strong>os</strong>tra por quotas dependeda forma como <strong>os</strong> entrevistadores procuram<strong>os</strong> indivídu<strong>os</strong> e entram em contacto com eles(Ghiglione e Matalon, 1992). Para assegurar umamelhor representatividade, <strong>os</strong> entrevistadoresdevem ser enviad<strong>os</strong> <strong>para</strong> zonas tiradas à sorte. Aí,eles poderão, ou abordar quem passa, ou utilizaro método porta-a-porta, ou eventualmente,combinar <strong>os</strong> dois. A reprodução das distribuiçõesda população deve ser considerada como umacondição necessária, mas não suficiente, daqualidade de uma am<strong>os</strong>tra.Exemplo de utilização da am<strong>os</strong>tragem por quotas:Suponham<strong>os</strong> que querem<strong>os</strong> fazer uma pesquisasobre “quem pratica exercício físico”. É certo quetem<strong>os</strong> de ter em conta a idade, o sexo, tempolivre, etc. O primeiro passo que tem de ser dadoé saber a proporção existente na populaçãodessas características. Vam<strong>os</strong> supor que existemna população 40% de homens e 60% mulheres.Então, o entrevistador terá de inquirir 40% dehomens e 60% de mulheres, o que será a sua“quota”.De seguida, apresentam<strong>os</strong> um quadro com<strong>para</strong>tivode alguns métod<strong>os</strong> probabilístic<strong>os</strong> e nãoprobabilístic<strong>os</strong>, mais utilizad<strong>os</strong>.


pág. 64Fig. 9 - Métod<strong>os</strong> de am<strong>os</strong>tragemprobabilístic<strong>os</strong> e nãoprobabilístic<strong>os</strong> mais utilizad<strong>os</strong>– quadro resumoMétodo/descrição Vantagens DesvantagensMétod<strong>os</strong> Probabilístic<strong>os</strong>Am<strong>os</strong>tragem Simples(Qualquer conjunto de n element<strong>os</strong>tem a mesma probabilidade de serseleccionado, de onde resulta que<strong>os</strong> element<strong>os</strong> têm igual probabilidadede serem seleccionad<strong>os</strong>)Utilização fácil.Os membr<strong>os</strong> de alguns grup<strong>os</strong>de interesse men<strong>os</strong> representativ<strong>os</strong>podem não ocorrer nas proporçõesdesejadas.Am<strong>os</strong>tragem Estratificada(a população estudada é agrupadade acordo com características deinteresse ou estrat<strong>os</strong>)Conduz a análises porsubgrup<strong>os</strong> com variânciasinferiores do que na am<strong>os</strong>tragem simples.Caro e mor<strong>os</strong>o quando existemmuit<strong>os</strong> estrat<strong>os</strong>Am<strong>os</strong>tragem Sistemática(todo o x-ésimo elemento da populaçãoé seleccionado até perfazer o tamanhoda am<strong>os</strong>tra, de acordo com um passofixo. Esse passo é determinadodividindo o tamanho da população pelotamanho da am<strong>os</strong>tra desejado).Conveniente quando existeuma listagem de nomes com<strong>os</strong>uporte da am<strong>os</strong>tra.Dever-se-á ter em conta <strong>os</strong>padrões de repetiçãoque podem enviesar a am<strong>os</strong>tra.Am<strong>os</strong>tragem por Cach<strong>os</strong> eMulti-etápica(D<strong>os</strong> grup<strong>os</strong> formad<strong>os</strong> naturalmente eque fazem parte da am<strong>os</strong>tra serãoinquirid<strong>os</strong> tod<strong>os</strong> <strong>os</strong> seus element<strong>os</strong>).Utilização conveniente quandoexistem unidades estatísticasque correspondem a<strong>os</strong> grup<strong>os</strong>desejad<strong>os</strong> (escolas, h<strong>os</strong>pitais,etc.)Métod<strong>os</strong> não Probabilístic<strong>os</strong>Am<strong>os</strong>tragem por Conveniência(utilização de indivídu<strong>os</strong> que seencontram disponíveis).Am<strong>os</strong>tragem "Bola de neve"(Element<strong>os</strong> previamenteidentificad<strong>os</strong> identificam outr<strong>os</strong>membr<strong>os</strong> da população)Am<strong>os</strong>tragem por quotas(A população é dividida em grup<strong>os</strong>,com base em características quesó são identificáveis através daentrevista).Método prático pois ainvestigação recai em unidades jádisponíveis (estudantes nas escolas,doentes na sala de espera, etc.).Útil quando não existem referênciassobre a população ou essasreferências são muito difíceis deobter.Torna-se prático quando existeinformação fiável sobre as proporçõesd<strong>os</strong> atribut<strong>os</strong> que interessam napopulação.Devido ao caracter"oportunista" da am<strong>os</strong>tra,<strong>os</strong> seus element<strong>os</strong> podemnão ser representativ<strong>os</strong>da população.A am<strong>os</strong>tra pode resultarbastante enviesada.Neste processo o entrevistadorpode conferir involutariamenteenviesament<strong>os</strong> na selecção d<strong>os</strong>inquirid<strong>os</strong>.


pág. 65# o inquérito estatístico5.3.4 Como determinar a dimensão da am<strong>os</strong>traA questão da dimensão a considerar <strong>para</strong> am<strong>os</strong>traé sempre uma decisão importante no processo desondagem. Há dois aspect<strong>os</strong> muito importantesa ter em conta nesta fase: a precisão requerida<strong>para</strong> <strong>os</strong> resultad<strong>os</strong> (pois existe sempre um erroque se pretende que seja o mais reduzido p<strong>os</strong>sível)e as limitações de tempo e de custo envolvidas nasondagem.Também tem<strong>os</strong> de ter em conta que quanto maiorfor a am<strong>os</strong>tra, maior é a precisão, mas tambémmaior é o custo. Por isso, devem<strong>os</strong> conjugar bemas duas situações.A dimensão da am<strong>os</strong>tra necessária <strong>para</strong> obteruma determinada precisão n<strong>os</strong> resultad<strong>os</strong> só podeser calculada matematicamente se as am<strong>os</strong>trasforem escolhidas por um processo aleatório.Caso contrário, segundo Weiers (1998) tem<strong>os</strong>três opções: adoptar a dimensão já utilizada, comsucesso, em estud<strong>os</strong> anteriores das mesmascaracterísticas, ter em conta o orçamentodisponível <strong>para</strong> o estudo e <strong>os</strong> cust<strong>os</strong> envolvid<strong>os</strong>e por fim suporm<strong>os</strong> que a am<strong>os</strong>tra é aleatória ever qual a dimensão que seria necessária, sendoo valor encontrado meramente indicativo. <strong>Um</strong>aam<strong>os</strong>tra deve ser representativa da população,isto é, tem de apresentar <strong>os</strong> aspect<strong>os</strong> típic<strong>os</strong>,pois a am<strong>os</strong>tra é um modelo em miniatura dapopulação. Deve-se ter presente que a dimensãoda am<strong>os</strong>tra a recolher não é directamenteproporcional ao tamanho da população e queessa dimensão depende fundamentalmente davariabilidade existente na população. Por exemplo,se relativamente à população constituída pel<strong>os</strong>alun<strong>os</strong> do 10º ano de uma escola secundária,estiverm<strong>os</strong> interessad<strong>os</strong> em estudar a suaidade média, a dimensão da am<strong>os</strong>tra a recolhernão necessita de ser muito grande já que avariável idade apresenta valores semelhantes,numa classe etária restrita. No entanto se acaracterística a estudar for o tempo médio que<strong>os</strong> alun<strong>os</strong> levam a chegar de casa à escola, jáam<strong>os</strong>tra terá de ter uma dimensão maior, umavez que a variabilidade da população é muito maior.Cada aluno pode apresentar um valor diferente<strong>para</strong> esse tempo. Num caso extremo, se numapopulação a variável a estudar tiver o mesmovalor <strong>para</strong> tod<strong>os</strong> <strong>os</strong> element<strong>os</strong>, então bastariarecolher uma am<strong>os</strong>tra de dimensão 1 <strong>para</strong> seter informação completa sobre a população; se,no entanto, a variável assumir valores diferentes<strong>para</strong> tod<strong>os</strong> <strong>os</strong> element<strong>os</strong>, <strong>para</strong> se ter o mesmotipo de informação seria necessário investigartod<strong>os</strong> <strong>os</strong> element<strong>os</strong> (Graça Martins, 2001).Exemplo: Determinação do tamanho da am<strong>os</strong>tra numproblema de estimação de uma proporção pPretende-se determinar a verdadeira proporçãop de indivídu<strong>os</strong> com rendimento inferior a 1000cont<strong>os</strong> por ano numa região portuguesa. Ointervalo de confiança <strong>para</strong> uma proporção tema seguinte forma (admitindo uma dimensão daam<strong>os</strong>tra maior que 100):sendo:c = parâmetro determinado pelo nívelde confiança desejadon = tamanho da am<strong>os</strong>traf = frequência relativa do atributo naam<strong>os</strong>tra (proporção) f (1 f) f (1 f) fc; f c nn Assim, a dimensão da am<strong>os</strong>tra é determinadafixando a amplitude (A) e o nível de confiançadesejad<strong>os</strong>.24cf (1 f)n 2A


pág. 661. Considerem<strong>os</strong> uma população de dimensão N e seja p a proporção (desconhecida) de element<strong>os</strong>da população que verificam determinada característica. Para estimar esta proporção p, recolhe-seuma am<strong>os</strong>tra de dimensão n e calcula-se a proporção p’ de element<strong>os</strong> nessa am<strong>os</strong>tra, que verificam acaracterística em estudo. Então o estimador p’ é um bom estimador de p, com algumas propriedadesmuito interessantes, entre as quais sobressai o facto de ter uma variância (medida da variabilidadeentre p e p’) igual ap(1p)N n( )n N 1Repare-se que se a dimensão n da am<strong>os</strong>tra, for muito pequena quandocom<strong>para</strong>da com a dimensão da população, N-n é aproximadamente igual a N-1,e fica unicamente o 1º factor da expressão que mede a variabilidade. É por estarazão que se diz que “quando a dimensão da população é muito grande quandocom<strong>para</strong>da com a dimensão da am<strong>os</strong>tra, pode-se considerar infinita”.2. Intervalo de confiança <strong>para</strong> a proporção pIndependentemente de como se chega lá, a forma do intervalo de confiança <strong>para</strong> p, com uma confiançade 100(1-α)% (α é um valor normalmente considerado da ordem de 0,05, e daí ser c<strong>os</strong>tumeapresentar o intervalo de 95% de confiança!) ép ´( 1 p'), p’ + zn(p’ + z )p ´( 1p')nAmplitude do intervalo =2 zp ´( 1p')nÀ quantidadezp ´( 1p')nchama-se a margem de erro ou precisão da sondagem.3. Qual a dimensão da am<strong>os</strong>tra que é necessário recolher <strong>para</strong> obter um intervalo com umadeterminada precisão d e com um nível de confiança 100(1-α)%?Terem<strong>os</strong> de resolver a seguinte equação em ordem a n:zp 1 p')nzn> ( 2) p'(1p')d´( ( )2dApresenta-se a seguir a tabela d<strong>os</strong> valores de Zα, <strong>para</strong> alguns valores de α:Confiança 100(1-)% z90% 1.64595% 1.96098% 2.32699% 2.576Exemplo: Pretende-se saber se a população em geraltem confiança n<strong>os</strong> professores. Pretende-se obter umaestimativa com uma confiança de 95% e uma margem deerro no máximo de 0.05. Qual a dimensão da am<strong>os</strong>tra quese deve recolher?Se <strong>para</strong> a mesma confiança pretenderm<strong>os</strong> uma margemde erro de 0.02, virá que a dimensão da am<strong>os</strong>tra é muitomaior, pois terá de ser igual a 2401!1.96 2n> ( )20.05n=385


pág. 67# o inquérito estatístico6. Recolha da informaçãonecessária d<strong>os</strong> element<strong>os</strong> daam<strong>os</strong>tra5.3.5 Seleccionar <strong>os</strong> element<strong>os</strong> da am<strong>os</strong>traTal como vim<strong>os</strong> n<strong>os</strong> itens anteriores, existemvárias formas de seleccionarm<strong>os</strong> <strong>os</strong> element<strong>os</strong>de uma am<strong>os</strong>tra. Nas am<strong>os</strong>tras aleatórias oesquema de selecção designa objectivamentequal o elemento a ser escolhido. Nestes cas<strong>os</strong>,devido à existência de listagens prévias quecontêm as referências sobre <strong>os</strong> element<strong>os</strong>incluíd<strong>os</strong> na am<strong>os</strong>tra, é p<strong>os</strong>sível identificarcada um d<strong>os</strong> inquirid<strong>os</strong> e estabelecer contact<strong>os</strong>(pessoais, via telefone, ou por correio) de modoa desencadear o processo de recolha de dad<strong>os</strong>.No caso do Inquérito ao Emprego do INE, porexemplo, <strong>os</strong> seleccionad<strong>os</strong> são contactad<strong>os</strong>por correio, seguindo-se um conjunto de váriasvisitas pessoais d<strong>os</strong> entrevistadores. Se aam<strong>os</strong>tra for não aleatória, o entrevistador temde seleccionar <strong>os</strong> element<strong>os</strong> a incluir e, <strong>para</strong> tal,devido à inexistência de uma base de sondagem,é necessário recorrer ao julgamento humano(Vicente, Reis e Ferrão, 1996). No caso daam<strong>os</strong>tragem por quotas, por exemplo, existemguiões ou plan<strong>os</strong> que constituem um bom auxílio,pois ajudam o entrevistador a introduzir algumaaleatoriedade no processo de selecção d<strong>os</strong>entrevistad<strong>os</strong>. Estes guiões ou plan<strong>os</strong> contêmfórmulas <strong>para</strong> seleccionar as ruas dentro de umafreguesia, ou <strong>para</strong> seleccionar alojament<strong>os</strong> dentrode um edifício.<strong>Um</strong>a vez seleccionad<strong>os</strong> <strong>os</strong> element<strong>os</strong> da am<strong>os</strong>trahá que <strong>os</strong> contactar no sentido de obter <strong>os</strong> dad<strong>os</strong>necessári<strong>os</strong> <strong>para</strong> a concretização do objectivodo estudo. Num estudo por sondagem existemessencialmente três métod<strong>os</strong> de recolha deinformação: a entrevista pessoal, entrevistatelefónica e o questionário por correio. Cadaum destes métod<strong>os</strong> tem as suas vantagens edesvantagens, as quais passam a ser mencionadas.6.1 Entrevista PessoalA entrevista pessoal pode ser considerada comouma conversa entre duas pessoas, face a face,iniciada e conduzida pelo entrevistador com opropósito particular de obter informação relevante,no sentido de concretizar <strong>os</strong> objectiv<strong>os</strong> do estudo(Mayer, 1974). Este tipo de recolha de informação,foi durante muito tempo o mais utilizado, sendohoje em dia, bastante importante na realizaçãode alguns inquérit<strong>os</strong> realizad<strong>os</strong> pelo INE. Estemétodo de recolha de informação pode ser umbocado dispendi<strong>os</strong>o, visto haver necessidade deformação prévia do entrevistador e este ter dese deslocar ao local do inquirido <strong>para</strong> obter aentrevista. Por vezes estas deslocações têm deser feitas várias vezes, porque <strong>os</strong> entrevistad<strong>os</strong>


pág. 68um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #não se encontram em casa, ou porque naquelemomento não estão disponíveis <strong>para</strong> responderao questionário. Por vezes pode também ocorreruma recusa, o que torna este método maisdispendi<strong>os</strong>o do que <strong>os</strong> outr<strong>os</strong> dois métod<strong>os</strong>seguintes. Segundo Aaker e Day (1990) só 30%a 40% do tempo do entrevistador é gasto coma entrevista propriamente dita, pois o restantetempo é ocupado em deslocações, localização d<strong>os</strong>inquirid<strong>os</strong>, etc. É certo, que este método temvantagens em relação ao questionário por correio,pois a entrevista pode ser conseguida em pouc<strong>os</strong>minut<strong>os</strong> enquanto que o questionário por correiopode demorar semanas. A taxa de resp<strong>os</strong>tas émais elevada na entrevista pessoal, devido ao factode haver maior incentivo <strong>para</strong> a resp<strong>os</strong>ta por partedo entrevistador <strong>para</strong> com o entrevistado.Entrevistador:Pessoa responsável pela recolha de informaçãoque vai de encontro a<strong>os</strong> objectiv<strong>os</strong> particularesde cada estudo, realizando as entrevistas deacordo com as regras estabelecidas.6.2 A Entrevista TelefónicaA entrevista telefónica é uma alternativa àentrevista pessoal. A recolha desta informaçãoé feita pelo telefone, tal como o nome diz, ondeo entrevistador realiza o questionário aoentrevistado. Este método torna-se por vezesmais barato do que o anterior. Por exemplo,se tiverm<strong>os</strong> em conta que não é necessáriofazer várias deslocações a<strong>os</strong> alojament<strong>os</strong> <strong>para</strong>conseguirm<strong>os</strong> as entrevistas sendo o tempo quese gasta a fazer uma entrevista por telefonemenor do que no caso da entrevista pessoal,este método é muito mais vantaj<strong>os</strong>o. Mas, nemtudo são vantagens, pois se o questionário formuito longo, pode fatigar-se mais depressa e ainteracção com o entrevistador é menor.Entrevista Pessoal:Pode ser considerada como uma conversa entreduas pessoas, face a face, iniciada e dirigidapelo entrevistador com o propósito particularde obter informação relevante, no sentido deconcretizar <strong>os</strong> objectiv<strong>os</strong> do estudo.6.3 O Questionário por Correio ou deauto-preenchimentoA característica deste método é que aquele quevai responder ao questionário, após ter lido asquestões e explicações que as acompanham,deverá por si só redigir as suas resp<strong>os</strong>tassem poder recorrer a um entrevistador. Estemétodo é aconselhável no caso de populaçõesgeograficamente dispersas. Os cust<strong>os</strong> de recolhade informação são reduzid<strong>os</strong>. Os questionári<strong>os</strong> sãopré-testad<strong>os</strong> várias vezes <strong>para</strong> se ter a certezaque as questões são entendidas e que todas aspessoas as entendem da mesma maneira. Apesard<strong>os</strong> cust<strong>os</strong> serem reduzid<strong>os</strong>, a questão do temponem sempre é muito favorável, portanto quando setem de obter resp<strong>os</strong>tas rápidas este método não éaconselhável. Além do mais, deve-se ter em contaa taxa de não resp<strong>os</strong>tas que neste tipo de recolhade informação pode ser sempre mais elevado facea<strong>os</strong> anteriores.


pág. 69# o inquérito estatísticoHoje em dia, com o desenvolvimento d<strong>os</strong> CallCenters (locais onde se realizam e recebemchamadas telefónicas), muit<strong>os</strong> inquérit<strong>os</strong>passavam a fazer-se no modo CATI-COMPUTERASSISTED TELEPHONE INTERVIEW-. Têmprofilerado, também, <strong>os</strong> inquérit<strong>os</strong> via web,realizad<strong>os</strong> no modo CAWI- COMPUTER ASSISTEDWEB INTERVIEW.Numa última fase, é necessário ter em atençãoa apresentação do relatório final. Segundo Hille Hill (2000) existem vári<strong>os</strong> tip<strong>os</strong> de relatóri<strong>os</strong>:por exemplo o académico e o interno. Amb<strong>os</strong> têmestruturas semelhantes e contêm <strong>os</strong> itens que aseguir se apresentam.7. Organização e apresentaçãod<strong>os</strong> dad<strong>os</strong>Depois da definição do problema a estudar, daplanificação do inquérito e da recolha d<strong>os</strong> dad<strong>os</strong>tem<strong>os</strong> o problema da organização <strong>os</strong> dad<strong>os</strong>. Aorganização d<strong>os</strong> dad<strong>os</strong> consiste em “resumir”<strong>os</strong> resultad<strong>os</strong> obtid<strong>os</strong> de uma forma simplese clara <strong>para</strong> melhor serem interpretad<strong>os</strong>. Aapresentação d<strong>os</strong> dad<strong>os</strong> pode ser feita de váriasmaneiras. Por exemplo, numa abordagem inicial,<strong>os</strong> dad<strong>os</strong> podem ser apresentad<strong>os</strong> em tabelasde frequências, diagramas de barras, diagramascirculares, histogramas, etc. Para obter maisinformações sobre a organização d<strong>os</strong> dad<strong>os</strong> aonível da estatística descritiva introdutória, podeconsultar <strong>os</strong> D<strong>os</strong>siês sobre Estatísticas comExcel e Gráfic<strong>os</strong>, disponíveis na página do ALEA(www.alea.pt/html/statofic/html/d<strong>os</strong>sier/html/d<strong>os</strong>sier.html) e neste livro.Pode também consultar <strong>os</strong> resultad<strong>os</strong> d<strong>os</strong> Mini-Cens<strong>os</strong> realizad<strong>os</strong> a várias escolas do n<strong>os</strong>so país,disponíveis na página:www.alea.pt/html/statofic/html/d<strong>os</strong>sier/doc/D<strong>os</strong>sier5_2.PDF, onde encontraráum exemplo de formas de organização d<strong>os</strong> dad<strong>os</strong>.Pode ainda consultar a Galeria Virtual (www.alea.pt/html/galvirt/html/galeriavirt.html) que contémexempl<strong>os</strong> de gráfic<strong>os</strong> e quadr<strong>os</strong> que sintetizam ainformação principal d<strong>os</strong> inquérit<strong>os</strong> realizad<strong>os</strong>.7.1 Algumas recomendaçõesQualquer relatório deve conter um título que identifiquequal o conteúdo apresentado no relatório. Oíndice deve conter tod<strong>os</strong> <strong>os</strong> capítul<strong>os</strong> existentes norelatório. Devem ser enumerad<strong>os</strong> e conter o númeroda página onde começam.Embora o resumo seja a primeira parte do relatório,é normal não o escrever até que todas as outrascomponentes estejam escritas, revistas, “polidas” eexistam nas suas versões finais. (Hill e Hill, 2000). Oresumo deve conter a informação sobre qual a razãoque levou a fazer a investigação, como foi feita, quais<strong>os</strong> resultad<strong>os</strong> mais importantes e as conclusõestiradas acerca da sua investigação e comopodem ajudar a resolver o problema. A introduçãotem como objectivo explicar qual a natureza dainvestigação e as razões que a justificaram edeve apresentar uma breve panorâmica sobre <strong>os</strong>restantes capítul<strong>os</strong> do relatório.7.2 Os resultad<strong>os</strong>Existem várias maneiras de apresentar resultad<strong>os</strong>numéric<strong>os</strong>. Devem<strong>os</strong> sempre apresentar uma análiseexploratória inicial d<strong>os</strong> dad<strong>os</strong>, com particular incidêncianum resumo das principais variáveis analisadas.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 70Por exemplo, n<strong>os</strong> “Mini-Cens<strong>os</strong>”, uma das variáveisanalisadas foi a altura d<strong>os</strong> indivídu<strong>os</strong> 1 . Norelatório que apresenta <strong>os</strong> resultad<strong>os</strong> destetrabalho, um d<strong>os</strong> quadr<strong>os</strong> contém uma síntesedescritiva desta variável:NMinimoMáximoMédiaDesvio padrãoALTURA917192170133.219.917Para <strong>os</strong> mesm<strong>os</strong> dad<strong>os</strong> optou-se por fazerigualmente uma representação gráfica, soba forma de um histograma (ver regras deconstrução de histogramas nas Noções deEstatística do ALEA).número de crianças200018001600140012001000800600AlturaPara a variável “Número de irmaõs”, apresentousea tabela de frequências e o gráfico circularcorrespondente.Neste quadro podem<strong>os</strong> ver o número de irmã<strong>os</strong>que cada criança tem. Podem<strong>os</strong> observar quecerca de metade das crianças que responderam aesta questão têm mais um irmão e que 16% sãofilh<strong>os</strong> únic<strong>os</strong>. 18% das crianças têm 2 irmã<strong>os</strong> e asrestantes têm 3 ou mais.número de irmã<strong>os</strong>Não responderamTotal01234 ou maisTotalFrequênciasAbsolutas1403 16.4 16.44356 50.8 67.11540 18.0 85.1636 7.4 92.5643 7.5 100.08578 100.05939171FrequênciasRelativas (%)FrequênciasRelativasAcumuladas (%)400200Quant<strong>os</strong> irmã<strong>os</strong> tens?090.0 100.0 110.0 120.0 130.0 140.0 150.0 160.0 170.095.0 105.0 115.0 125.0 135.0 145.0 155.0 165.0Altura em cm7.4%7.5%16.4%18.0%50.8%0 irmã<strong>os</strong>1 irmão2 irmã<strong>os</strong>3 irmã<strong>os</strong>4 ou mais irmã<strong>os</strong>1 <strong>Um</strong>a das principais iniciativas realizadas pelo ALEA em 2001 foia do “Mini-Cens<strong>os</strong>” destinado às escola básicas. Remeteram-se <strong>os</strong>inquérit<strong>os</strong> a escolas do 1º ciclo e toda a informação recolhida foiorganizada e tratada por uma equipa conjunta envolvendo tambémtécnic<strong>os</strong> do INE e da Sociedade Portuguesa de Estatística. <strong>os</strong> “Mini-Cens<strong>os</strong>” tiveram com principal propósito dar a <strong>conhecer</strong> a<strong>os</strong> alun<strong>os</strong>o que são, <strong>para</strong> que servem e como se fazem <strong>os</strong> Cens<strong>os</strong>. O relatóriocom <strong>os</strong> resultad<strong>os</strong> deste encontra-se disponível em: www.alea.pt/Html/statofic/html/cens<strong>os</strong>2001/html/cens<strong>os</strong>2001.html


pág. 71# o inquérito estatísticoSegundo Hill e Hill (2000) quando apresentam<strong>os</strong><strong>os</strong> resultad<strong>os</strong>, devem<strong>os</strong> ter em atenção qual on<strong>os</strong>so público alvo, <strong>para</strong> assim escolherm<strong>os</strong> ométodo mais adequado de apresentação. Quandoo público alvo está habituado a ler e interpretarquadr<strong>os</strong>, devem<strong>os</strong> utilizá-l<strong>os</strong> mas de uma formaa facilitar a sua interpretação. Por outro lado,quando o público alvo não está habituado aler e interpretar quadr<strong>os</strong>, devem<strong>os</strong> utilizargráfic<strong>os</strong> <strong>para</strong> apresentar a informação maisimportante. Ambas as escolhas de apresentaçãod<strong>os</strong> resultad<strong>os</strong> devem ser acompanhadas poruma explicação em forma de texto <strong>para</strong> melhorcompreensão do leitor. Os quadr<strong>os</strong> e gráfic<strong>os</strong>apresentad<strong>os</strong> devem ser tod<strong>os</strong> numerad<strong>os</strong> econterem um título.Para esta fase do trabalho recomendam<strong>os</strong> uma consulta a<strong>os</strong>d<strong>os</strong>siês didáctic<strong>os</strong> “Estatística com Excel” e “Representaçõesgráficas”.• CAMPOS, P. (1997), Relatório de aula teórica -práticasobre Teoria da Am<strong>os</strong>tragem, PAPCC, FEP, <strong>Universidade</strong>do Porto.• CAMPOS, P. (2000), Módulo 2 - da Concepçãoao Tratamento Estatístico de Questionári<strong>os</strong> -Apontament<strong>os</strong> do curso de Análise Estatística deDad<strong>os</strong> com SPSS. Escola Superior de Biotecnologia da<strong>Universidade</strong> Católica, Porto.• GHIGLIONE, R. e MATALON, B. (1992), O Inquérito,Teoria e Prática, Oeiras, Celta Editora;• GOMES, P. (1998), Tópic<strong>os</strong> de Sondagens, (Cursoapresentado no âmbito do VI Congresso da SociedadePortuguesa de Estatística - Tomar, 9 a 12 de Junho de1998);• GRANGÉ, D., LEBART, L. (1994), TraitementsStatistiques des Ênquetes, Paris, Edições Dunod;• HILL, M. M., Hill, A. (2000), Investigação porQuestionário, Lisboa, Edições Sílabo;• INE (1998), Inquérito ao Emprego - Série - 1998;também disponível na Internet na publicação referente1º Trimestre de 1998 das Estatísticas do Emprego.• LIMA, M. P. (1981), O Inquérito Sociológico -Problemas de Metodologia, 2ª Ed., Editorial Presença;• MARTINS, E. G., (2001), Noções Básicas sobreAm<strong>os</strong>tragem - Introdução à Inferência Estatística,Departamento de Estatística e InvestigaçãoOperacional, Faculdade de Ciências da <strong>Universidade</strong> deLisboa;8. Ver também…Publicações• ALEA, “Estatística com Excel”, D<strong>os</strong>siê Didáctico nºIV, disponível em: http://alea.ine.pt/html/statofic/html/d<strong>os</strong>sier/html/meio_d<strong>os</strong>sier4.html• ALEA, “Representações Gráficas - notas sobre acriação e apresentação de alguns tip<strong>os</strong> de gráfic<strong>os</strong>”,D<strong>os</strong>siê Didáctico nº IX, disponível em: http://alea.ine.pt/html/statofic/html/d<strong>os</strong>sier/html/meio_d<strong>os</strong>sier9.html• BACELAR, S. (1999), Relatório de Aula Teórico-Prática sobre Am<strong>os</strong>tragem nas Ciências Sociais,PAPCC, FEP, Porto, <strong>Universidade</strong> do Porto;• STUART, A., (1984), The Ideas of Sampling,Monograph no. 4, Charles Griffin and Company Ltd,London;• VICENTE, P., REIS, E. e FERRÃO, F. (1996),Sondagens - A am<strong>os</strong>tragem como factor decisivo daqualidade, Lisboa, Edições Sílabo;• WEIERS, R.M. (1998), Marketing Research, 2nd Ed.,Prentice-Hall, London.Web sites:http://www.socio-estatistica.com.br/http://www.fecap.br/portal/index.aspNestes dois sites pode encontrar algumas sugestõessobre a construção de questionári<strong>os</strong> e algumas referênciasbibliográficas.


pág. 73Luísa Canto E Castro Loura# Maria Eugénia Graça MartinsEstatísticaDescritivacom EXCEL


pág. 75# Estatística Descritiva com EXCELSumário1 – Noções básicas sobream<strong>os</strong>tragem1.1 Introdução1.2 Aquisição de dad<strong>os</strong>: sondagens eexperimentações. População e am<strong>os</strong>tra.Parâmetro e Estatística.1.3 Técnicas de am<strong>os</strong>tragem aleatória1.4 Estatística Descritiva e InferênciaEstatística.2 – Representação e redução de dad<strong>os</strong>.Tabelas e gráfic<strong>os</strong>2.1 Introdução.2.2 Utilização do Excel na obtenção de tabelasde frequência2.3 Utilização do Excel na representaçãográfica de dad<strong>os</strong>2.4 Alguns exempl<strong>os</strong>3 – Características am<strong>os</strong>trais.Medidas de localização e dispersãoEstatística Descritivacom EXCELComplement<strong>os</strong>Luísa Canto E Castro Loura# Maria Eugénia Graça Martins3.1 Introdução.3.2 Medidas de localização3.3 Medidas de dispersão3.4 Função Descriptive Statistics4 – Dad<strong>os</strong> bivariad<strong>os</strong>4.1 Introdução4.2 Tabelas de contingência4.3 Utilização das PivotTables <strong>para</strong>agrupar dad<strong>os</strong>5 – Introdução à simulação5.1 Introdução5.2 Obtenção de probabilidades por simulação.Lista de algumas funções usadas no ExcelBibliografia/ Outr<strong>os</strong> recurs<strong>os</strong>.Anexo – Ficheiro Deputad<strong>os</strong>


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 76Este d<strong>os</strong>siê começou por ter como objectiv<strong>os</strong>ervir de apoio à interpretação do programado módulo B2 d<strong>os</strong> curs<strong>os</strong> profissionais. Nestescurs<strong>os</strong> era pressup<strong>os</strong>to que <strong>os</strong> alun<strong>os</strong> tivessemum módulo de Estatística onde aprenderiam <strong>os</strong>principais conceit<strong>os</strong> e técnicas subjacentes aotratamento e redução de colecções de dad<strong>os</strong>.Nota IntrodutóriaEste d<strong>os</strong>siê é constituído por 5 capítul<strong>os</strong>, cadaum autónomo d<strong>os</strong> restantes. Assim, um leitorinteressado em saber como construir uma tabelade frequências ou um histograma vai directamente<strong>para</strong> o Capítulo 2, “Representação e reduçãode dad<strong>os</strong>. Tabelas e gráfic<strong>os</strong>”, sem necessitarde passar pelo Capítulo 1. Do mesmo modo,se estiver interessado em utilizar o Excel, porexemplo, no cálculo da média ou da mediana,vai directamente <strong>para</strong> o Capítulo 3. Assim, éfundamental a consulta do índice, <strong>para</strong> situar <strong>os</strong>seus interesses imediat<strong>os</strong>.Entretanto fizem<strong>os</strong> uma revisão do texto iniciale pensam<strong>os</strong> que a sua utilização poderá serútil a tod<strong>os</strong> <strong>os</strong> que pretenderem implementaras referidas técnicas. O software escolhido é oExcel (versão em Inglês) que, embora não seja umsoftware estatístico, inclui funções <strong>para</strong> cálculodas principais estatísticas descritivas, permiterealizar as principais representações gráficas e,mediante recurso a outras funções predefinidas,permite ainda efectuar procediment<strong>os</strong> nãoimediat<strong>os</strong> como seleccionar aleatoriamente umaam<strong>os</strong>tra, construir histogramas com classesde diferente amplitude, organizar <strong>os</strong> dad<strong>os</strong> emtabelas de contingência ou, até mesmo, procederà simulação de pequenas experiências aleatórias.A abordagem foi feita de uma forma que sepretendeu simples, pois o n<strong>os</strong>so objectivo foifazer uma introdução à utilização do Excel. Paraa resolução de alguns d<strong>os</strong> exempl<strong>os</strong> tratad<strong>os</strong>,haverá outr<strong>os</strong> tip<strong>os</strong> de abordagem, aindautilizando o Excel e incentivam<strong>os</strong> fortemente<strong>os</strong> leitores a enveredarem e ensaiarem outrasalternativas, que p<strong>os</strong>sam eventualmente serutilizadas.Não é demais repetir a ideia de que a Estatísticaé uma ciência e também é uma arte. Assim, cadautilizador da Estatística pode dar um pouco desi ao fazer um tratamento de dad<strong>os</strong>, mesmoque esse tratamento seja só exploratório oudescritivo.


pág. 77# Estatística Descritiva com EXCELPorém, na última década, em grande partedevido às facilidades computacionais p<strong>os</strong>tas àsua disp<strong>os</strong>ição, <strong>os</strong> Estatístic<strong>os</strong> têm-se vindo apreocupar cada vez mais, com a necessidadede desenvolver métod<strong>os</strong> de análise e exploraçãod<strong>os</strong> dad<strong>os</strong>, que dêem uma maior importânciaa<strong>os</strong> dad<strong>os</strong> e que se traduz na seguinte frase“Devem<strong>os</strong> deixar <strong>os</strong> dad<strong>os</strong> falar por si”.1. Noções básicas sobream<strong>os</strong>tragem1.1 - Introdução 1Não é uma tarefa simples definir o que é aEstatística. Por vezes define-se como sendo umconjunto de técnicas de tratamento de dad<strong>os</strong>,mas é muito mais do que isso! A Estatística é uma“arte” e uma ciência que permite tirar conclusõese de uma maneira geral fazer inferências a partirde conjunt<strong>os</strong> de dad<strong>os</strong>.Até 1900, a Estatística resumia-se ao que hojeem dia se chama Estatística Descritiva ou Análisede Dad<strong>os</strong>. Apesar de tudo, deu contribuiçõesmuito p<strong>os</strong>itivas em várias áreas científicas.A necessidade de uma maior formalização n<strong>os</strong>métod<strong>os</strong> utilizad<strong>os</strong>, fez com que, n<strong>os</strong> an<strong>os</strong>seguintes, a Estatística se desenvolvesse numaoutra direcção, nomeadamente no que diz respeitoao desenvolvimento de métod<strong>os</strong> e técnicasde Inferência Estatística. Assim, por volta de1960 <strong>os</strong> text<strong>os</strong> de Estatística debruçam-seespecialmente sobre métod<strong>os</strong> de estimação e detestes de hipóteses, assumindo determinadasfamílias de model<strong>os</strong>, descurando <strong>os</strong> aspect<strong>os</strong>prátic<strong>os</strong> da análise d<strong>os</strong> dad<strong>os</strong>.Do que dissem<strong>os</strong> anteriormente, podemo-n<strong>os</strong>aperceber que a Estatística é uma ciênciaque trata de dad<strong>os</strong> e que num procedimentoestatístico estão envolvidas duas fasesimportantes, nomeadamente a fase que dizrespeito à organização de dad<strong>os</strong> – Análise deDad<strong>os</strong>, e a fase em que se procura retirarconclusões a partir d<strong>os</strong> dad<strong>os</strong>, dando aindainformação de qual a confiança que devem<strong>os</strong>atribuir a essas conclusões – InferênciaEstatística. Existe, no entanto, uma fase pioneira,que diz respeito à Produção ou Aquisição deDad<strong>os</strong>. Para realçar a importância desta faseconsiderem<strong>os</strong>, por analogia, o que se passaquando se pretende realizar um determinadocozinhado. Começa-se por seleccionar <strong>os</strong>ingredientes, que serão depois manipulad<strong>os</strong> deacordo com determinada receita. O resultadodo cozinhado pode ser desastr<strong>os</strong>o, emborade aspecto agradável. Efectivamente se <strong>os</strong>ingredientes não estiverem em condições,resulta um prato de aspecto semelhante aoque se obteria com ingredientes bons, masde sabor intragável. O mesmo se passa com oprocedimento estatístico. Se <strong>os</strong> dad<strong>os</strong> não forembons, embora se aplique a técnica correcta, oresultado pode ser desastr<strong>os</strong>o, na medida em quese pode ser levado e retirar conclusões erradas.Hoje em dia com a utilização cada vez maiorde dad<strong>os</strong> nas mais variadas profissões e nasmais diversas situações do dia a dia, torna-senecessário acompanhar este processo de umacultura estatística que cada vez mais abarqueum maior número de pessoas, <strong>para</strong> que maisfacilmente se consiga compreender o <strong>mundo</strong> quen<strong>os</strong> rodeia.1 Este capítulo segue de perto o texto Introdução àProbabilidade e à Estatística – Com complement<strong>os</strong> de Excel, deMaria Eugénia Graça Martins, edição da Sociedade Portuguesade Estatística, 2005.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 78Sendo a Estatística a ciência que trata d<strong>os</strong>dad<strong>os</strong>, g<strong>os</strong>taríam<strong>os</strong> desde já de chamar a atenção<strong>para</strong> que fazer estatística é muito mais do quefazer cálcul<strong>os</strong> e manipular fórmulas. Tambémnão é matemática, embora utilize a matemática.Efectivamente, ao fazer estatística trabalham<strong>os</strong>com dad<strong>os</strong>, que são mais do que númer<strong>os</strong>! Comodiz David Moore (1997) “ Data are numbers, butthey are not “just numbers”. Data are numberswith a context. The number 10.5, for example,carries no information by itself. But if we hearthat a friend’s new baby weighed 10.5 pounds atbirth, we congratulate her on the healthy size ofthe child. The context engages our backgroundknowledge and allows us to make judgements. Weknow that a baby weighing 10.5 pounds is quitelarge, and that it isn’t p<strong>os</strong>sible for a human babyto weigh 10.5 ounces or 10.5 kilograms. Thecontext makes the number informative”.Da experiência que tem<strong>os</strong> no dia a dia com <strong>os</strong>dad<strong>os</strong> já concluím<strong>os</strong>, com certeza, que estesapresentam variabilidade. Por exemplo é comumque um pacote de açúcar que na embalagem tenhaescrito um quilograma, não pese exactamente umquilograma. Por outro lado ao pesar duas vezeso mesmo pacote p<strong>os</strong>sivelmente não obterem<strong>os</strong>o mesmo valor. Assim, ao dizerm<strong>os</strong> que o pesodo pacote é um determinado valor, não podem<strong>os</strong>ter a certeza que esse valor seja correcto.Esta variabilidade está presente em todas assituações do <strong>mundo</strong> que n<strong>os</strong> rodeia, pelo que asconclusões que tiram<strong>os</strong> a partir d<strong>os</strong> dad<strong>os</strong> que sen<strong>os</strong> apresentam, têm inerente um certo grau deincerteza.A Estatística trata e estuda esta variabilidadeapresentada pel<strong>os</strong> dad<strong>os</strong>. Permite-n<strong>os</strong> a partird<strong>os</strong> dad<strong>os</strong> retirar conclusões, mas tambémexprimir o grau de confiança que devem<strong>os</strong> ternessas conclusões. É precisamente nestaparticularidade que se manifesta toda apotencialidade da Estatística.Podem<strong>os</strong> então, e tal como refere David Mooreem Perspectives on Contemporary Statistics,considerar três grandes áreas nesta ciência d<strong>os</strong>dad<strong>os</strong>:1. Aquisição de dad<strong>os</strong>2. Análise d<strong>os</strong> dad<strong>os</strong>3. Inferência a partir d<strong>os</strong> dad<strong>os</strong>Neste capítulo vam<strong>os</strong> abordar o primeiro temaconsiderado, ou seja o que diz respeito àAquisição de Dad<strong>os</strong>, numa perspectiva de quepretendem<strong>os</strong> obter dad<strong>os</strong>, a partir d<strong>os</strong> quais seriap<strong>os</strong>sível responder a determinadas questões,isto é, p<strong>os</strong>teriormente retirar conclusões <strong>para</strong>as Populações a partir das quais esses dad<strong>os</strong> sãoadquirid<strong>os</strong> – contexto em que tem sentido fazerinferência estatística. Vam<strong>os</strong> assim, preocuparn<strong>os</strong>em obter am<strong>os</strong>tras representativas dePopulações que se pretendem estudar.1.2 – Aquisição de dad<strong>os</strong>: sondagens eexperimentações. População e am<strong>os</strong>tra.Parâmetro e Estatística.O <strong>mundo</strong> que n<strong>os</strong> rodeia será mais facilmentecompreendido se puder ser quantificado. Em todasas áreas do conhecimento é necessário saber“o que medir” e “como medir”. Na Estatísticaensina-se a recolher dad<strong>os</strong> válid<strong>os</strong>, assim como ainterpretá-l<strong>os</strong>.Perante um conjunto de dad<strong>os</strong> podem-se distinguirduas situações:• Aquela em que o estatístico é confrontadocom conjunt<strong>os</strong> de dad<strong>os</strong> sem ter qualquer ideiapreconcebida sobre o que é que vai encontrare então procede a uma análise exploratóriade dad<strong>os</strong>, quase sempre utilizando process<strong>os</strong>


pág. 79# Estatística Descritiva com EXCELprocess of gathering or collecting data. Data arethe raw material of which statistical informationis made, and in order to get good statisticalinformation one needs good data”.gráfic<strong>os</strong>, análise esta que revelará aspect<strong>os</strong> docomportamento d<strong>os</strong> dad<strong>os</strong>. Neste caso não sefala em am<strong>os</strong>tras, mas sim conjunt<strong>os</strong> de dad<strong>os</strong>(Murteira, 1993) e de uma maneira geral a análiseexploratória é suficiente <strong>para</strong> <strong>os</strong> fins que se têmem vista;• <strong>Um</strong>a outra em que procede à análise de dad<strong>os</strong>com propósit<strong>os</strong> bem definid<strong>os</strong> no sentido deresponder a questões específicas. Neste caso<strong>os</strong> dad<strong>os</strong> têm que ser produzid<strong>os</strong> ou adquirid<strong>os</strong>por meio de técnicas adequadas de forma a queresultem dad<strong>os</strong> válid<strong>os</strong> (am<strong>os</strong>tras representativas).Estas técnicas, em que é fundamental aintervenção do acaso, revolucionaram e fizeramprogredir a maior parte d<strong>os</strong> camp<strong>os</strong> da ciênciaaplicada. Pode-se dizer que hoje em dia não existeárea do conhecimento <strong>para</strong> cujo progresso nãotenha contribuído a Estatística.1.2.1 – Sondagens. População e am<strong>os</strong>tra.Parâmetro e Estatística.Estas noções, que já foram dadas num móduloanterior, são aqui de novo apresentadas,unicamente com o objectivo de enquadrar oestudo seguinte, ou seja, o de introduzir algumasnoções de Am<strong>os</strong>tragem.O objectivo de uma sondagem é o de recolherinformação acerca de uma população,seleccionando e observando um conjunto deelement<strong>os</strong> dessa população.Abordarem<strong>os</strong> de seguida algumas das técnicasde aquisição de dad<strong>os</strong>, que se enquadram nestaúltima situação, em que se distinguem asSondagens e Experimentações (aleatoriezadas).G<strong>os</strong>taríam<strong>os</strong> desde já de realçar que o objectivodeste texto é o de explorar, de uma formasimples, algumas das técnicas de am<strong>os</strong>tragem,com vista à realização de sondagens, situaçõesque se encontram de um modo geral nas CiênciasSociais, ao contrário das Ciências experimentais,tais como Física ou Química, em que a recolhade dad<strong>os</strong> se faz fundamentalmente recorrendo aexperiências. Por exemplo, a população constituídapel<strong>os</strong> eleitores, a população constituída pelacontas sedeadas num banco, etc., que só contêmum número finito de element<strong>os</strong>, ao contrário daPopulação conceptual de resp<strong>os</strong>tas geradas porum processo químico.Não é demais realçar a importância desta fase,a que chamam<strong>os</strong> de Produção ou Aquisiçãode Dad<strong>os</strong>. Como é referido em Tannenbaum(1998), página 426: “Behind every statisticalstatement there is a story, and like a story ithas a beginning, a middle, an end, and a moral.In this first statistics chapter we begin with thebeginning, which in statistics typically means theSondagemEstudo estatístico de uma população, feiroatravés de uma am<strong>os</strong>tra, destinado a estudaruma ou mais características tais como elas deapresenta nessa população.Por exemplo, numa fábrica de <strong>para</strong>fus<strong>os</strong> odepartamento de controlo de qualidade pretendesaber qual a percentagem de <strong>para</strong>fus<strong>os</strong>defeitu<strong>os</strong><strong>os</strong>. Tempo, cust<strong>os</strong> e outr<strong>os</strong> inconvenientesimpedem a inspecção de tod<strong>os</strong> <strong>os</strong> <strong>para</strong>fus<strong>os</strong>.Assim, a informação pretendida será obtidaà custa de uma parte do conjunto – am<strong>os</strong>tra,mas com o objectivo de tirar conclusões <strong>para</strong>o conjunto todo – população. Se se observaremtod<strong>os</strong> <strong>os</strong> element<strong>os</strong> da população tem-se umrecenseamento. Por vezes confunde-se sondagemcom am<strong>os</strong>tragem. No entanto a am<strong>os</strong>tragem dizrespeito ao procedimento da recolha da am<strong>os</strong>traqualquer que seja o estudo estatístico que sepretenda fazer, pelo que a am<strong>os</strong>tragem é uma dasfases das sondagens, já que estas devem incluirainda o estudo d<strong>os</strong> dad<strong>os</strong> recolhid<strong>os</strong>, assim como aelaboração do relatório final.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 80População, unidade, am<strong>os</strong>traPopulação é o conjunto de object<strong>os</strong>, indivídu<strong>os</strong>ou resultad<strong>os</strong> experimentais acerca do qual sepretende estudar alguma característica comum.As populações podem ser finitas ou infinitas,existentes ou conceptuais. A<strong>os</strong> element<strong>os</strong> dapopulação chamam<strong>os</strong> unidades estatísticas.Am<strong>os</strong>traque interrogad<strong>os</strong> disseram estar decidid<strong>os</strong> avotar”. Estas quantidades são conceptualmentedistintas, pois enquanto a característicapopulacional (parâmetro) pode ser consideradaum valor exacto, embora desconhecido, acaracterística am<strong>os</strong>tral (estatística) é conhecida,embora difira de am<strong>os</strong>tra <strong>para</strong> am<strong>os</strong>tra, mas quetodavia pode ser considerada uma estimativa útilda característica populacional respectiva.ParâmetroÉ uma característica numérica da população,enquanto que a estatística é uma característicanumérica da am<strong>os</strong>tra.É uma parte da população que é observada como objectivo de obter informação <strong>para</strong> estudar acaracterística pretendida.PopulaçãoAm<strong>os</strong>traGeralmente, há algumas quantidades numéricasacerca da população que se pretendem <strong>conhecer</strong>.A essas quantidades chamam<strong>os</strong> parâmetr<strong>os</strong>.ParâmetroEstatísticaPor exemplo, ao estudar a população constituídapor tod<strong>os</strong> <strong>os</strong> potenciais eleitores <strong>para</strong> aslegislativas, dois parâmetr<strong>os</strong> que podem terinteresse são:• idade média d<strong>os</strong> potenciais eleitores que estãodecidid<strong>os</strong> a votar;• percentagem de eleitores que estão decidid<strong>os</strong> avotar.Para <strong>conhecer</strong> aqueles parâmetr<strong>os</strong>, teria de seperguntar a cada eleitor a sua idade, assim comoa sua intenção no que diz respeito a votar ou não.Esta tarefa seria impraticável, nomeadamente porquestões de tempo e de dinheiro.Os parâmetr<strong>os</strong> são estimad<strong>os</strong> por estatísticas,que são númer<strong>os</strong> calculad<strong>os</strong> a partir d<strong>os</strong>dad<strong>os</strong> que constituem a am<strong>os</strong>tra. No caso doexemplo anterior, se se tivesse recolhido umaam<strong>os</strong>tra de dimensão 1000, à característicapopulacional “percentagem de eleitores que estãodecidid<strong>os</strong> a votar” corresponde a característicaam<strong>os</strong>tral “percentagem d<strong>os</strong> 1000 eleitores,No entanto, <strong>para</strong> se poder utilizar as estatísticas,<strong>para</strong> estimar parâmetr<strong>os</strong> é necessário que asam<strong>os</strong>tras sejam representativas das populaçõesde onde foram retiradas.Observação – Anteriormente dissem<strong>os</strong> que umaestatística é um número calculado a partir d<strong>os</strong>dad<strong>os</strong> da am<strong>os</strong>tra, que se utiliza <strong>para</strong> estimar umparâmetro. Como, de um modo geral, podem<strong>os</strong>recolher muitas am<strong>os</strong>tras diferentes, embora damesma dimensão, terem<strong>os</strong> muitas estatísticasdiferentes, como estimativas do parâmetroem estudo. Tantas as am<strong>os</strong>tras diferentes (2am<strong>os</strong>tras da mesma dimensão serão diferentesse diferirem pelo men<strong>os</strong> num d<strong>os</strong> element<strong>os</strong>)que se puderem obter da população, tantas asestimativas eventualmente diferentes que sepodem calcular <strong>para</strong> o parâmetro. Então podem<strong>os</strong>considerar que todas estas estimativas são <strong>os</strong>valores observad<strong>os</strong> de uma função d<strong>os</strong> element<strong>os</strong>da am<strong>os</strong>tra, a que se dá o nome de estimador. Aesta função também se dá o nome de estatística,


pág. 81# Estatística Descritiva com EXCELutilizando-se assim, indevidamente, o mesmotermo <strong>para</strong> a variável e o valor observado davariável.É oportuno chamar a atenção <strong>para</strong> o seguinte:por vezes a População que se estuda, ou seja aPopulação inquirida, não é a objecto do estudo –População alvo ou População objectivo. Por exemplo,se se pretende estudar a População constituídapel<strong>os</strong> indivídu<strong>os</strong> adult<strong>os</strong> de nacionalidade portuguesa- População alvo, a População inquirida pode, noentanto, ser constituída pel<strong>os</strong> indivídu<strong>os</strong> adult<strong>os</strong> denacionalidade portuguesa e residentes no territórioportuguês, à data do inquérito.1.2.1.1 – Am<strong>os</strong>tra enviesada. Am<strong>os</strong>tra aleatória eam<strong>os</strong>tra não aleatória.<strong>Um</strong>a am<strong>os</strong>tra que não seja representativa daPopulação diz-se enviesada e a sua utilização podedar origem a interpretações erradas, como sesugere n<strong>os</strong> seguintes exempl<strong>os</strong>:• utilizar uma am<strong>os</strong>tra constituída por 10benfiquistas, <strong>para</strong> prever o vencedor do próximoBenfica - Sporting!• utilizar uma am<strong>os</strong>tra constituída por leitoresde determinada revista especializada, <strong>para</strong> tirarconclusões sobre a opinião da população em geral.ou seja <strong>para</strong> a população de onde <strong>os</strong> dad<strong>os</strong> foramrecolhid<strong>os</strong> e de modo a que <strong>os</strong> resultad<strong>os</strong> obtid<strong>os</strong>p<strong>os</strong>sam ser considerad<strong>os</strong> válid<strong>os</strong>. Vem a propósitoreferir a seguinte frase de Fisher: “Ao pedir a umEstatístico que diagn<strong>os</strong>tique dad<strong>os</strong> já recolhid<strong>os</strong>,muitas vezes só se obtém uma autópsia”.O planeamento de um estudo estatístico, quecomeça com a forma de seleccionar a am<strong>os</strong>tra,deve ser feito de forma a evitar am<strong>os</strong>trasenviesadas. Alguns process<strong>os</strong> que provocamquase sempre am<strong>os</strong>tras enviesadas são, porexemplo, a am<strong>os</strong>tragem por conveniência ea obtenção de uma am<strong>os</strong>tra por resp<strong>os</strong>tavoluntária. Este último processo é usado, commuita frequência, pelas estações de televisão oujornais, com resultad<strong>os</strong> por vezes contraditóri<strong>os</strong>com <strong>os</strong> que se obtêm quando se utiliza umprocesso correcto (aleatório) de seleccionar aam<strong>os</strong>tra.A utilização de uma am<strong>os</strong>tragem por conveniênciatambém se realiza frequentemente, quando seselecciona a am<strong>os</strong>tra a partir de uma listagem d<strong>os</strong>element<strong>os</strong> de determinado clube ou grupo, comopor exemplo a Ordem d<strong>os</strong> Engenheir<strong>os</strong>. A seguirapresentam<strong>os</strong> exempl<strong>os</strong> de más am<strong>os</strong>tras ouam<strong>os</strong>tras enviesadas e resultado da sua aplicação:<strong>Um</strong> processo de am<strong>os</strong>tragem diz-se enviesadoquando tende sistematicamente a seleccionarelement<strong>os</strong> de alguns segment<strong>os</strong> da População, ea não seleccionar sistematicamente element<strong>os</strong> deoutr<strong>os</strong> segment<strong>os</strong> da População.Surge assim, a necessidade de fazer um planeamentoda am<strong>os</strong>tragem, onde se decide quais ecomo devem ser seleccionad<strong>os</strong> <strong>os</strong> element<strong>os</strong>da População, com o fim de serem observad<strong>os</strong>,relativamente à característica de interesse. Deum modo geral, o trabalho do Estatístico devecomeçar antes de <strong>os</strong> dad<strong>os</strong> serem recolhid<strong>os</strong>.Deve planear o modo de <strong>os</strong> recolher, de forma aque, p<strong>os</strong>teriormente, se p<strong>os</strong>sa extrair o máximo deinformação relevante <strong>para</strong> o problema em estudo,Am<strong>os</strong>tra 1 – A SIC pretende saber qual apercentagem de pessoas que é a favor dadespenalização do aborto. Para isso indicoudois númer<strong>os</strong> de telefone, um d<strong>os</strong> quais <strong>para</strong>as resp<strong>os</strong>tas SIM e o outro <strong>para</strong> a resp<strong>os</strong>taNÃO. Resultado – A utilização da percentagemde resp<strong>os</strong>tas p<strong>os</strong>itivas como indicação dapercentagem da população portuguesa queé a favor da despenalização do aborto éenganadora. Efectivamente só uma pequenapercentagem da população responde a estasquestões e de um modo geral tendem a serpessoas com a mesma opinião.Am<strong>os</strong>tra 2 – <strong>Um</strong>a estação de televisãopreparou um debate sobre o aumento decriminalidade, onde enfatizou o facto de teraumentado o número de crimes violent<strong>os</strong>. Ao


pág. 82um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #mesmo tempo, e inserida no mesmo programa,decorria uma sondagem de opinião sobre seas pessoas eram a favor da implementação dapena de morte. Esta recolha de opiniões erafeita no molde descrito no exemplo anterior,isto é, por resp<strong>os</strong>ta voluntária. Resultado– A utilização da percentagem de SIM´s,que naturalmente se espera elevada, dá umaindicação errada sobre a opinião da populaçãoem geral. As pessoas influenciadas pelo debatee pelo medo da criminalidade serão levadas atelefonar dando indicação de estarem a favorda pena de morte.Am<strong>os</strong>tra 3 – Recolha de opiniões de algunsleitores de determinada revista técnica, <strong>para</strong>representar as opiniões d<strong>os</strong> portugueses emgeral.Resultado – Diferentes tip<strong>os</strong> de pessoaslêem diferentes tip<strong>os</strong> de revistas, pelo que aam<strong>os</strong>tra não é representativa da população.Basta pensar que, de um modo geral, apopulação feminina ainda não adere às revistastécnicas como a população masculina. Aam<strong>os</strong>tra daria unicamente indicações sobrea população constituída pel<strong>os</strong> leitores da talrevista.Am<strong>os</strong>tra 4 – Utilização de alguns alun<strong>os</strong>de uma turma, <strong>para</strong> tirar conclusões sobreo aproveitamento de tod<strong>os</strong> <strong>os</strong> alun<strong>os</strong> daescola. Resultado – Poderíam<strong>os</strong> concluir que oaproveitamento d<strong>os</strong> alun<strong>os</strong> é pior ou melhor doque na realidade é. As turmas de uma escolanão são todas homogéneas, pelo que a am<strong>os</strong>tranão é representativa d<strong>os</strong> alun<strong>os</strong> da escola.Poderia servir <strong>para</strong> tirar conclusões sobre apopulação constituída pel<strong>os</strong> alun<strong>os</strong> da turma.Am<strong>os</strong>tra 5 – Utilização d<strong>os</strong> jogadores de umaequipa de basquete de uma determinada escola<strong>para</strong> estudar as alturas d<strong>os</strong> alun<strong>os</strong> dessaescola. Resultado – O estudo concluiria que <strong>os</strong>estudantes são mais alt<strong>os</strong> do que na realidadesão.Os exempl<strong>os</strong> que apresentám<strong>os</strong> anteriormentesão exempl<strong>os</strong> de am<strong>os</strong>tras enviesadas porquetiveram a intervenção do factor humano. Como objectivo de minimizar o enviesamento, noplaneamento da escolha da am<strong>os</strong>tra deve ter-sepresente o princípio da aleatoriedade de forma aobter uma am<strong>os</strong>tra aleatória.Am<strong>os</strong>tra aleatória e am<strong>os</strong>tra não aleatória – Dada umapopulação, uma am<strong>os</strong>tra aleatória é uma am<strong>os</strong>tratal que qualquer elemento da população temalguma probabilidade de ser seleccionado <strong>para</strong> aam<strong>os</strong>tra. Numa am<strong>os</strong>tra não aleatória, algunselement<strong>os</strong> da população podem não poder serseleccionad<strong>os</strong> <strong>para</strong> a am<strong>os</strong>tra.Am<strong>os</strong>tra aleatória e am<strong>os</strong>tra não aleatóriaDada uma população, uma am<strong>os</strong>tra aleatóriaé uma am<strong>os</strong>tra tal que qualquer elemento dapopulação tem alguma probabilidade de serseleccionado <strong>para</strong> a am<strong>os</strong>tra. Numa am<strong>os</strong>tra nãoaleatória, alguns element<strong>os</strong> da população podemnão poder ser seleccionad<strong>os</strong> <strong>para</strong> a am<strong>os</strong>tra.Quando se pretende recolher uma am<strong>os</strong>tra dedimensão n, de uma População de dimensãoN, podem<strong>os</strong> recorrer a vári<strong>os</strong> process<strong>os</strong> deam<strong>os</strong>tragem. Como normalmente o objectivoé, a partir das propriedades estudadas naam<strong>os</strong>tra, inferir propriedades <strong>para</strong> a População,g<strong>os</strong>taríam<strong>os</strong> de obter process<strong>os</strong> de am<strong>os</strong>tragemque dêem origem a “bons” estimadores. Emboraa classificação de um estimador como “bom”ou não, saia fora do âmbito deste trabalho,podem<strong>os</strong> adiantar que essa análise só podeser efectuada se conseguirm<strong>os</strong> estabelecerum plano de am<strong>os</strong>tragem que atribua a cadaam<strong>os</strong>tra seleccionada uma determinadaprobabilidade, e esta atribuição só pode ser feitacom plan<strong>os</strong> de am<strong>os</strong>tragem aleatóri<strong>os</strong>. Assim, éimportante term<strong>os</strong> sempre presente o princípioda aleatoriedade, quando vam<strong>os</strong> proceder aum estudo em que procuram<strong>os</strong> alargar <strong>para</strong> aPopulação as propriedades estudadas na am<strong>os</strong>tra.Numa secção p<strong>os</strong>terior apresentarem<strong>os</strong> técnicas<strong>para</strong> obter am<strong>os</strong>tras aleatórias.


pág. 83# Estatística Descritiva com EXCELdoença, pelo que se seleccionaram 20 doentespadecendo dessa doença; h) Pretendia-se averiguaro nº de carr<strong>os</strong> vendid<strong>os</strong> num dia por um stand deautomóveis, pelo que se investigou junto de porcada um d<strong>os</strong> 5 empregad<strong>os</strong> desse stand, quant<strong>os</strong>carr<strong>os</strong> tinha vendido; i) Pretendia-se averiguar onúmero de leitores d<strong>os</strong> jornais diári<strong>os</strong>, pelo que seinvestigou junto de 6 jornais diári<strong>os</strong>, o número deleitores. j) Pretendia-se averiguar a percentagemde raparigas que frequentam o tronco comumde Matemática Aplicada da FCUL, pelo que seseleccionaram 50 alun<strong>os</strong> do dito curso.Exercíci<strong>os</strong>População e Am<strong>os</strong>traParâmetro e EstatísticaIdentifique, no que se segue, População eAm<strong>os</strong>tra:a) Numa determinada empresa, pretende-sesaber qual o salário médio d<strong>os</strong> seus empregad<strong>os</strong>,pelo que se recolheu informação sobre <strong>os</strong> salári<strong>os</strong>mensais, auferid<strong>os</strong> pel<strong>os</strong> empregad<strong>os</strong> dessaempresa;b) Prendia-se saber a nota média obtida naprova global de Matemática no ano lectivo2000¬2001, d<strong>os</strong> alun<strong>os</strong> do 10º ano da EscolaSecundária Prof. Herculano de Carvalho, pelo quese recolheu informação sobre as notas obtidasnessa disciplina por tod<strong>os</strong> <strong>os</strong> alun<strong>os</strong> da Escola;c) Pretendia-se averiguar a idade média d<strong>os</strong>alun<strong>os</strong> do 10º ano da Escola Secundária Prof.Herculano de Carvalho, pelo que se recolheuinformação sobre a idade de 45 alun<strong>os</strong> do 10ºano dessa Escola; d) Pretendia-se averiguar aquantidade de vinho produzida no Alentejo, noano de 1999, pelo que se recolheu informaçã<strong>os</strong>obre as quantidades de vinho produzidas por 10agricultores da região do Alentejo; e) Pretendiaseestudar o salário médio auferido pel<strong>os</strong>trabalhadores da indústria têxtil, pelo que serecolheu informação sobre <strong>os</strong> salári<strong>os</strong> mensaisauferid<strong>os</strong> por 250 desses trabalhadores; f)Pretendia-se averiguar a quantidade mensal debatata consumida n<strong>os</strong> lares portugueses, pelo quese recolheu informação sobre as quantidades debatata consumidas mensalmente em 100 laresportugueses; g) Pretendia-se estudar a eficáciade um medicamento novo <strong>para</strong> curar determinada1. Diga se são verdadeiras ou falsas as seguintesafirmações:a) <strong>Um</strong>a estatística é um número que se calcula apartir da am<strong>os</strong>tra; b) Os parâmetr<strong>os</strong> utilizam-se<strong>para</strong> estimar estatísticas; c) A média populacionalé um parâmetro; d) <strong>Um</strong> parâmetro é umacaracterística numérica da variável que se está aestudar na População.2. Identifique cada uma das quantidadesseguintes, a negrito, como parâmetro ouestatística:a) Nas últimas eleições <strong>para</strong> a Associação deEstudantes da Escola, 67% d<strong>os</strong> estudantes quevotaram, fizeram-no na lista vencedora; b) Paraobter uma estimativa do número de irmã<strong>os</strong> d<strong>os</strong>alun<strong>os</strong> que frequentam o 4.º ano de uma escolabásica, perguntou-se a 30 alun<strong>os</strong>, escolhid<strong>os</strong>ao acaso, quant<strong>os</strong> irmã<strong>os</strong> tinham. Verificou¬seque em média, tinham 1.5 irmã<strong>os</strong>. c) D<strong>os</strong> 230deputad<strong>os</strong> que compõem a VIII legislatura, 21.3%são mulheres. d) Perguntou-se a 80 deputad<strong>os</strong>qual o partido que representavam, tendo-seconcluído que 49% representavam o PS. e)Perguntou-se a 10 deputad<strong>os</strong> qual a sua idade,tendo-se concluído que a idade média era de 45an<strong>os</strong>.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 84Am<strong>os</strong>tras enviesadas eam<strong>os</strong>tras aleatórias1. (Adaptado de R<strong>os</strong>sman, 2001) Considere aPopulação constituída pel<strong>os</strong> deputad<strong>os</strong> da VIIIlegislatura, que se encontra em anexo. Seleccione5 deputad<strong>os</strong> de que já tenha ouvido falar.a) Estes deputad<strong>os</strong> constituem uma am<strong>os</strong>traou uma população? b) Quant<strong>os</strong> deputad<strong>os</strong>, n<strong>os</strong> 5seleccionad<strong>os</strong>, pertencem ao círculo eleitoral dasua residência? c) Suponha que está interessadaem estudar o n.º médio de an<strong>os</strong> de serviço d<strong>os</strong>deputad<strong>os</strong> que constituem a VIII legislatura.Considera o conjunto de deputad<strong>os</strong> seleccionad<strong>os</strong>representativ<strong>os</strong> da população? Porquê? d) Secalculasse a média d<strong>os</strong> an<strong>os</strong> de serviço d<strong>os</strong>deputad<strong>os</strong> seleccionad<strong>os</strong> esperava obter um valorsuperior ou inferior ao da média populacional? e)Se na sua aula ou outr<strong>os</strong> colegas seleccionassemconjunt<strong>os</strong> de 5 deputad<strong>os</strong>, pelo mesmo processo,isto é, deputad<strong>os</strong> que lhe sejam familiares,espera que a média d<strong>os</strong> an<strong>os</strong> de serviço, tenhaa mesma tendência, de sistematicamente exibirum enviesamento em determinado sentido?Explique. f) Se tivesse seleccionado pelo mesmoprocesso 10 deputad<strong>os</strong>, obteria uma am<strong>os</strong>tramais representativa do que a constituída pel<strong>os</strong> 5deputad<strong>os</strong>? Explique.1.2.2 - ExperimentaçõesEnquanto que o objectivo de uma sondagemé o de recolher informação acerca de umapopulação seleccionando e observando umaam<strong>os</strong>tra da população tal qual ela se apresenta,pelo contrário, uma experimentação impõe umtratamento às unidades experimentais com ofim de observar a resp<strong>os</strong>ta. O princípio base deuma experimentação é o método da com<strong>para</strong>ção,em que se com<strong>para</strong>m <strong>os</strong> resultad<strong>os</strong> obtid<strong>os</strong> navariável resp<strong>os</strong>ta de um grupo de tratamento comum grupo de controlo.Exemplo 1.2.2.1 (Moore, 1997) – Será que aaspirina reduz o perigo de um ataque cardíaco? Oestudo conhecido por Physicians’ Health Study, foiuma experimentação médica levada a cabo com oobjectivo de responder a esta questão específica.Metade de um grupo de 22000 médic<strong>os</strong> (homens)foram escolhid<strong>os</strong> aleatoriamente <strong>para</strong> tomaruma aspirina tod<strong>os</strong> <strong>os</strong> dias. A outra metaded<strong>os</strong> médic<strong>os</strong> tomou um placebo, que tinha omesmo aspecto e sabor da aspirina. Depois devári<strong>os</strong> an<strong>os</strong> 239 médic<strong>os</strong> do grupo que tomouplacebo, contra 139 do grupo que tomou aspirina,tiveram ataques cardíac<strong>os</strong>. Esta diferença ésuficientemente grande <strong>para</strong> evidenciar o efeito daaspirina na prevenção d<strong>os</strong> ataques cardíac<strong>os</strong>.Unidades experimentais, tratamento, variávelresp<strong>os</strong>ta, variáveis explanatórias.Unidades experimentais são <strong>os</strong> object<strong>os</strong> sobre <strong>os</strong>quais incide a experimentação e a quem é aplicadouma condição experimental específica, a quechamam<strong>os</strong> tratamento. Variável resp<strong>os</strong>ta é a variávelcujo comportamento pretendem<strong>os</strong> estudar. Asvariáveis explanatórias são as variáveis que explicamou causam mudanças na variável resp<strong>os</strong>ta.No estudo considerado anteriormente tem<strong>os</strong>:• Unidades experimentais – 22000 médic<strong>os</strong>• Tratament<strong>os</strong> – aspirina ou placebo• Variável explanatória – se o indivíduo tomouaspirina ou placebo• Variável resp<strong>os</strong>ta – se o indivíduo teve ou nãoataque cardíaco.


pág. 85TratamentoUnidadesexperimentaisAtribuição aleatóriaGrupo 1Grupo 2Resp<strong>os</strong>tas aotratamento 1Resp<strong>os</strong>tas aotratamento 2Com<strong>para</strong>çãoSem a com<strong>para</strong>ção de tratament<strong>os</strong> <strong>os</strong> resultad<strong>os</strong> de experimentações em medicina e em ciênciasdo comportamento, duas áreas onde estes métod<strong>os</strong> são largamente utilizad<strong>os</strong>, poderiam ser muitoinfluenciad<strong>os</strong> pela selecção d<strong>os</strong> indivídu<strong>os</strong>, o efeito do placebo, etc. O resultado poderia vir enviesado.<strong>Um</strong> estudo não controlado de uma nova terapia médica é quase sempre enviesado no sentido de darao tratamento um maior sucesso do que ele tem na realidade (efeito placebo).Exemplo 1.2.2.2 (Moore, 1997) - <strong>Um</strong> tratamento utilizado durante vári<strong>os</strong> an<strong>os</strong> <strong>para</strong> tratar úlcerasdo estômago consistia em pôr o doente a aspirar, durante uma hora, uma solução refrigerada queera bombeada <strong>para</strong> dentro de um balão. Segundo o Journal of the American Medical Association,uma experimentação levada a efeito com este tratamento permitiu concluir que o arrefecimentogástrico reduzia a secreção de ácido, diminuindo a propensão <strong>para</strong> as úlceras. No entanto, veio-sea verificar mais tarde com um planeamento adequado, que a resp<strong>os</strong>ta d<strong>os</strong> doentes ao tratamentofoi influenciada pelo efeito placebo – efeito confounding. O que acontece é que há doentes querespondem favoravelmente a qualquer tratamento, mesmo que seja um placebo, p<strong>os</strong>sivelmente pelaconfiança que dep<strong>os</strong>itam no médico e pelas expectativas de cura que dep<strong>os</strong>itam no tratamento. Numplaneamento adequado feito an<strong>os</strong> mais tarde, um grupo de doentes com úlcera foi dividido em doisgrup<strong>os</strong>, tratando-se um com a solução refrigerada e o outro grupo com um placebo, constituído poruma solução à temperatura ambiente. Os resultad<strong>os</strong> desta experimentação permitiram concluir qued<strong>os</strong> 82 doentes sujeit<strong>os</strong> à solução refrigerada - grupo de tratamento, 34% apresentaram melhoras,enquanto que d<strong>os</strong> 78 doentes que receberam o placebo - grupo de controlo, 38% apresentarammelhoras.Num planeamento experimental, uma vez identificadas as variáveis e estabelecido o protocolod<strong>os</strong> tratament<strong>os</strong>, segue-se uma segunda fase que consiste na atribuição de cada unidadeexperimental a um tratamento. Esta segunda fase deve ser regida pelo princípio da aleatoriedade.Este princípio tem como objectivo fazer com que <strong>os</strong> grup<strong>os</strong> que vão ser com<strong>para</strong>d<strong>os</strong>, tenham àpartida constituição semelhante, de forma que as diferenças observadas na variável resp<strong>os</strong>tap<strong>os</strong>sam ser atribuídas a<strong>os</strong> efeit<strong>os</strong> d<strong>os</strong> tratament<strong>os</strong>. Assim, a atribuição de cada indivíduo aogrupo de tratamento ou de controlo é feita de forma aleatória. Combinando a com<strong>para</strong>ção com aaleatoriedade, podem<strong>os</strong> esquematizar da seguinte forma o tipo de planeamento mais simples:Ao com<strong>para</strong>r <strong>os</strong> resultad<strong>os</strong> tem<strong>os</strong> de ter presente que haverá sempre alguma diferença que setem de atribuir ao facto de <strong>os</strong> grup<strong>os</strong> não serem perfeitamente idêntic<strong>os</strong> e algumas diferençasque se atribuem ao acaso. O que se pretende é averiguar se as diferenças encontradas nã<strong>os</strong>erão “demasiado grandes” <strong>para</strong> que se p<strong>os</strong>sam atribuir a essas causas, ou seja, verificar se nãotendo em linha de conta a diferença entre <strong>os</strong> tratament<strong>os</strong>, a probabilidade de obter as diferençasobservadas não seria extremamente pequena. Se efectivamente esta probabilidade for inferior aum determinado valor (de que falarem<strong>os</strong> mais tarde) dizem<strong>os</strong> que a diferença é estatisticamentesignificativa, sendo de admitir que foi provocada pel<strong>os</strong> diferentes tratament<strong>os</strong>.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 861.3 - Técnicas de am<strong>os</strong>tragem aleatóriaConvém ainda observar que numa experimentação<strong>os</strong> indivídu<strong>os</strong> seleccionad<strong>os</strong> <strong>para</strong> cada grupo nãodevem saber qual o tipo de tratamento a queestão a ser sujeit<strong>os</strong>, nem o investigador queestá a conduzir a experimentação e a medir <strong>os</strong>resultad<strong>os</strong> deve saber qual o tipo de tratamentoque cada indivíduo seguiu. Tem<strong>os</strong> o que se chamauma experimentação duplamente cega. Estaprecaução é uma forma de evitar o enviesamento,quer nas resp<strong>os</strong>tas, quer nas medições (ummédico ao observar o efeito de um tratamentoque provoque, por exemplo, uma mancha vermelhana pele, pode estar condicionado na interpretaçãoda gravidade dessa mancha se souber qual otratamento a que o doente foi sujeito).Seguidamente apresentarem<strong>os</strong> alguns d<strong>os</strong>planeament<strong>os</strong> mais utilizad<strong>os</strong> <strong>para</strong> seleccionaram<strong>os</strong>tras aleatórias. D<strong>os</strong> vári<strong>os</strong> tip<strong>os</strong> deplaneamento utilizad<strong>os</strong>, destacam-se <strong>os</strong> queconduzem a am<strong>os</strong>tras aleatórias simples,am<strong>os</strong>tras aleatórias com rep<strong>os</strong>ição, am<strong>os</strong>trassistemáticas e am<strong>os</strong>tras estratificadas.1.3.1 - Am<strong>os</strong>tragem aleatória simples(sem rep<strong>os</strong>ição) e am<strong>os</strong>tragem aleatóriacom rep<strong>os</strong>içãoO plano de am<strong>os</strong>tragem aleatória mais básico é oque permite obter a am<strong>os</strong>tra aleatória simples:Em muitas situações <strong>os</strong> investigadores têm dese cingir a<strong>os</strong> estud<strong>os</strong> observáveis, já que não ép<strong>os</strong>sível conduzir uma experimentação controlada.Por exemplo, <strong>para</strong> estudar o efeito do tabacono cancro do pulmão, o investigador limita-sea observar grup<strong>os</strong> de indivídu<strong>os</strong> que fumam ounão, não podendo ser ele próprio a seleccionarum conjunto de indivídu<strong>os</strong> e depois pô-l<strong>os</strong>aleatoriamente a fumar tabaco ou um placebo.No capítulo seguinte abordarem<strong>os</strong> de formaintrodutória o estudo de alguns plan<strong>os</strong> deam<strong>os</strong>tragem, já que um estudo conveniente doplaneamento das experiências, assim como dadefinição da am<strong>os</strong>tra adequada <strong>para</strong> o estudoem vista contêm, por si só, matéria suficiente<strong>para</strong> ser objecto de várias disciplinas num cursode Estatística, nomeadamente as disciplinas dePlaneamento de Experiências e Am<strong>os</strong>tragem.Am<strong>os</strong>tra aleatória simplesDada uma população, uma am<strong>os</strong>tra aleatóriasimples de dimensão n é um conjunto de nunidades da população, tal que qualquer outroNconjunto d<strong>os</strong> nconjunt<strong>os</strong> diferentes den unidades teria igual probabilidade de serseleccionado.Se uma população tem dimensão N e sepretende uma am<strong>os</strong>tra aleatória simplesde dimensão n, esta am<strong>os</strong>tra é recolhidaaleatoriamente de entre todas as N = nN!n! (N-n)!N(N= =-1)(N- 2)...(N - nn(n -1)(n - 2)...11)am<strong>os</strong>tras distintas que se podem recolher dapopulação. Isto implica que cada am<strong>os</strong>tra tenha a1mesma probabilidade Nde ser seleccionada. n<strong>Um</strong>a am<strong>os</strong>tra destas pode ser escolhida sequencialmenteda população, escolhendo um elementode cada vez, sem rep<strong>os</strong>ição, pelo que em cada


pág. 87# Estatística Descritiva com EXCELselecção cada elemento tem a mesma probabilidadede ser seleccionado. <strong>Um</strong> esquema de am<strong>os</strong>tragemaleatória simples, conduz a que cada elementoda População tenha a mesma probabilidade deser seleccionado <strong>para</strong> a am<strong>os</strong>tra. No entantoexistem outr<strong>os</strong> esquemas de am<strong>os</strong>tragem emque cada elemento tem igual probabilidade deser seleccionado, sem que cada conjunto de nelement<strong>os</strong> tenha a mesma probabilidade de serseleccionado. É o que se passa com a am<strong>os</strong>tragemaleatória sistemática, de que falarem<strong>os</strong> adiante.Am<strong>os</strong>tragem com rep<strong>os</strong>içãoNa am<strong>os</strong>tragem com rep<strong>os</strong>ição, sempre queum elemento é seleccionado, ele é rep<strong>os</strong>to napopulação, antes de seleccionar o seguinte,ao contrário do que acontece na am<strong>os</strong>tragemsem rep<strong>os</strong>ição. Intuitivamente conseguim<strong>os</strong>apercebermo-n<strong>os</strong> de que se a dimensão dapopulação for “grande”, quando com<strong>para</strong>da coma dimensão da am<strong>os</strong>tra, estes dois tip<strong>os</strong> deam<strong>os</strong>tragem podem ser considerad<strong>os</strong> de certomodo equivalentes, já que a probabilidade deseleccionar o mesmo elemento duas vezes é“muito pequena”.Dada uma população de dimensão N, referir-n<strong>os</strong>em<strong>os</strong>a uma am<strong>os</strong>tra aleatória de dimensão n, comrep<strong>os</strong>ição, como um conjunto de n unidades dapopulação, tal que qualquer outro conjunto d<strong>os</strong>N n conjunt<strong>os</strong> diferentes de n unidades, teria igualprobabilidade de ser seleccionadoExemplo 1.3.1.1 – Considerem<strong>os</strong> a populaçãoconstituída pel<strong>os</strong> 18 alun<strong>os</strong> de uma turma do10.º ano de uma determinada Escola Secundária,em que a característica de interesse a estudaré a altura média desses alun<strong>os</strong>. <strong>Um</strong>a maneirap<strong>os</strong>sível de recolher desta população umaam<strong>os</strong>tra aleatória, seria escrever cada um d<strong>os</strong>indicadores (n.º do aluno, nome, …) d<strong>os</strong> element<strong>os</strong>da população num quadrado de papel, inserirtod<strong>os</strong> esses bocad<strong>os</strong> de papel numa caixa edepois seleccionar tant<strong>os</strong> quant<strong>os</strong> a dimensão daam<strong>os</strong>tra desejada.A recolha tem de ser feita sem rep<strong>os</strong>içãopois quando se retira um papel (elemento dapopulação), ele não é rep<strong>os</strong>to enquanto a am<strong>os</strong>tranão estiver completa (com a dimensão desejada).Qualquer conjunto de númer<strong>os</strong> recolhid<strong>os</strong> destaforma dará origem a uma am<strong>os</strong>tra aleatóriasimples, constituída pelas alturas d<strong>os</strong> alun<strong>os</strong>seleccionad<strong>os</strong> (desde que se tenha o cuidado decortar <strong>os</strong> bocadinh<strong>os</strong> de papel tod<strong>os</strong> do mesmotamanho, <strong>para</strong> ficarem semelhantes, e de <strong>os</strong>baralhar convenientemente). A partir de cadaam<strong>os</strong>tra, pode-se calcular o valor da estatísticamédia, que será uma estimativa do parâmetroa estudar – valor médio da altura d<strong>os</strong> alun<strong>os</strong> daturma. Obter-se-ão tantas estimativas, quantasas am<strong>os</strong>tras retiradas.Chama-se a atenção <strong>para</strong> o facto de nestaaltura não se poder dizer qual das estimativasé “melhor”, isto é, qual delas é uma melhoraproximação do parâmetro a estimar, já que esseparâmetro é desconhecido (obviamente que nestapopulação tão pequena seria p<strong>os</strong>sível estudarexaustivamente tod<strong>os</strong> <strong>os</strong> seus element<strong>os</strong>, nã<strong>os</strong>endo necessário recolher nenhuma am<strong>os</strong>tra -este exemplo só serve <strong>para</strong> ilustrar uma situação)!1.3.1.1 – Númer<strong>os</strong> aleatóri<strong>os</strong>A probabilidade de cada uma das am<strong>os</strong>tras serseleccionada é igual a 1/Nn.Exemplificam<strong>os</strong> a seguir um processo de obteruma am<strong>os</strong>tra aleatória simples.O processo que acabám<strong>os</strong> de descrever não éprático se a população a estudar tiver dimensãoelevada. Neste caso, um d<strong>os</strong> process<strong>os</strong> deseleccionar uma am<strong>os</strong>tra aleatória simplesconsiste em utilizar uma tabela de númer<strong>os</strong>aleatóri<strong>os</strong>.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 88Dígit<strong>os</strong> aleatóri<strong>os</strong><strong>Um</strong>a tabela de dígit<strong>os</strong> aleatóri<strong>os</strong> é uma listagemd<strong>os</strong> dígit<strong>os</strong> 0, 1, 2, 3, 4, 5, 6, 7, 8 ou 9 tal que:- qualquer um d<strong>os</strong> destes dígit<strong>os</strong> tem igual p<strong>os</strong>sibilidadede figurar em qualquer p<strong>os</strong>ição da lista;- a p<strong>os</strong>ição em que figura cada dígito é independentedas p<strong>os</strong>ições d<strong>os</strong> outr<strong>os</strong> dígit<strong>os</strong>.Apresenta-se a seguir um extracto de uma tabelade númer<strong>os</strong> aleatóri<strong>os</strong> (Moore, 1997). O facto de<strong>os</strong> dígit<strong>os</strong> se apresentarem agrupad<strong>os</strong> 5 a 5 é só<strong>para</strong> facilidade de leitura.Linha101 19223 95034 05756 28713 96409 12531 42544102 73676 47150 99400 01927 27754 42648 82425103 45467 71709 77558 00095 32863 29485 82226104 52711 38889 93074 60227 40011 85848 48767105 95592 94007 69971 91481 60779 53791 17297106 68417 35013 15529 72765 85089 57067 50211107 82739 57890 20807 47511 81676 55300 94383Para seleccionar uma am<strong>os</strong>tra de uma populaçãoutilizando a tabela procede-se em duas etapas:• atribui-se um número a cada elemento dapopulação. Esta atribuição terá de ser feitacom as devidas precauções, de forma a quecada número tenha o mesmo número de dígit<strong>os</strong>,<strong>para</strong> ter igual probabilidade de ser seleccionado;• a partir da tabela escolhe-se uma linha aoacaso e começa-se a percorrê-la da esquerda<strong>para</strong> a direita, tomando de cada vez <strong>os</strong> dígit<strong>os</strong>necessári<strong>os</strong>.108 60940 72024 17868 24943 61790 90656 87964109 36009 19365 15412 39638 85453 46816 83485A partir da tabela de dígit<strong>os</strong> aleatóri<strong>os</strong> podem-seobter númer<strong>os</strong> aleatóri<strong>os</strong> de 2 dígit<strong>os</strong> – qualquerpar d<strong>os</strong> 100 pares p<strong>os</strong>síveis 00, 01, …98, 99,tem igual probabilidade de ser seleccionado, de 3dígit<strong>os</strong> - qualquer triplo d<strong>os</strong> 1000 tripl<strong>os</strong> p<strong>os</strong>síveis000, 001, …998, 999, tem igual probabilidadede ser seleccionado, etc., tomando <strong>os</strong> dígit<strong>os</strong> databela 2 a 2, 3 a 3, etc., a partir de uma linhaqualquer e percorrendo-a da esquerda <strong>para</strong> adireita.Exemplo 1.3.1.1 (cont) - Considerando a populaçãodo exemplo anterior, constituída por 18element<strong>os</strong>, vam<strong>os</strong> numerá-l<strong>os</strong> com <strong>os</strong> númer<strong>os</strong> 01,02, 03, …, 17, 18 (podia ser utilizado qualqueroutro conjunto de 18 númer<strong>os</strong> de 2 dígit<strong>os</strong>). Paraseleccionar uma am<strong>os</strong>tra de dimensão 4 fixamo--n<strong>os</strong> numa linha qualquer da tabela, por exemplo alinha 107 e começam<strong>os</strong> a seleccionar <strong>os</strong> númer<strong>os</strong>de dois dígit<strong>os</strong>, tendo-se obtido:82 73 95 78 90 20 80 74 75 11 8167 65 53 00 94 38 31 48 93 60 9407 20 24 17 86 82 49 43 61 79 09Tivem<strong>os</strong> de ler 33 númer<strong>os</strong>, d<strong>os</strong> quais só aproveitám<strong>os</strong>4, pois <strong>os</strong> outr<strong>os</strong> não correspondiam aelement<strong>os</strong> da população.


pág. 89Como obter uma tabela denúmer<strong>os</strong> aleatóri<strong>os</strong>?<strong>Um</strong> processo poderá consistir em meter numa caixa 10 bolas numeradas de 0 a 9 e fazer váriasextracções de uma bola, tantas quantas <strong>os</strong> dígit<strong>os</strong> que se pretendem <strong>para</strong> constituir a tabela. Decada vez que se faz uma extracção, lê-se o número da bola, aponta-se e repõe-se a bola na caixa- extracção com rep<strong>os</strong>ição. Com este processo qualquer dígito tem igual probabilidade de serseleccionado. Além disso a saída de qualquer um d<strong>os</strong> dígit<strong>os</strong> em qualquer momento, é independented<strong>os</strong> dígit<strong>os</strong> que já saíram anteriormente.Além das tabelas de númer<strong>os</strong> aleatóri<strong>os</strong> também existe a p<strong>os</strong>sibilidade de utilizar o computador<strong>para</strong> <strong>os</strong> gerar ou uma simples máquina de calcular. Este é o processo mais utilizado hoje em dia,mas convém ter presente que <strong>os</strong> númer<strong>os</strong> que se obtêm são pseudo-aleatóri<strong>os</strong>, já que é ummecanismo determinista que lhes dá origem, embora se comportem como númer<strong>os</strong> aleatóri<strong>os</strong>(passam numa bateria de testes destinad<strong>os</strong> a confirmar a sua aleatoriedade). No exemplo seguintevam<strong>os</strong> utilizar o computador, mais precisamente o programa Excel, <strong>para</strong> fazer a selecção de umaam<strong>os</strong>tra aleatória simples e de uma am<strong>os</strong>tra aleatória com rep<strong>os</strong>ição.1.3.1.2 - Utilização do Excel <strong>para</strong> recolher uma am<strong>os</strong>tra aleatória simples e uma am<strong>os</strong>tra aleatóriacom rep<strong>os</strong>içãoNo exemplo seguinte, apresentam<strong>os</strong> uma forma simples de utilizar o Excel <strong>para</strong> seleccionar umaam<strong>os</strong>tra aleatória simples e uma am<strong>os</strong>tra aleatória, com rep<strong>os</strong>ição, de uma População finita, deque se tenha uma listagem d<strong>os</strong> element<strong>os</strong>.Exemplo 1.3.1.2 – Considere a população constituída pel<strong>os</strong> 230 deputad<strong>os</strong> da actual (X) legislaturae que se encontra em Anexo. Para obter esta tabela fom<strong>os</strong> ao “site” da Assembleia da Republica,onde está uma lista ordenada com o nome de tod<strong>os</strong> <strong>os</strong> deputad<strong>os</strong> (coluna B), o respectivo grupoparlamentar (coluna C) e o círculo eleitoral (coluna D). Este exemplo vai-n<strong>os</strong> servir <strong>para</strong> introduziralguns conceit<strong>os</strong> importantes, pelo que fom<strong>os</strong> completar esta lista com a idade d<strong>os</strong> deputad<strong>os</strong>,acedendo à página de cada um e recolhendo a informação sobre a data de nascimento (coluna F). Nassituações de interesse, que surgem na vida real, não se vai recolher a informação sobre determinadacaracterística, <strong>para</strong> a população toda, mas unicamente <strong>para</strong> <strong>os</strong> element<strong>os</strong> seleccionad<strong>os</strong> <strong>para</strong> aam<strong>os</strong>tra. Inserim<strong>os</strong> ainda uma coluna com identificação do sexo (coluna E). Apresentam<strong>os</strong> a seguir umapequena parcela desse ficheiro, a que chamám<strong>os</strong> Deputad<strong>os</strong>.xls. Este ficheiro tem uma primeira coluna(coluna A), onde é indicado o número do deputado, quando estes estão ordenad<strong>os</strong> por ordem alfabética:


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 90Como dissem<strong>os</strong> anteriormente, vam<strong>os</strong> utilizá-lo<strong>para</strong> trabalhar alguns conceit<strong>os</strong> importantes, taiscomo:1 Obtenção de uma am<strong>os</strong>tra aleatória simplese de uma am<strong>os</strong>tra aleatória, com rep<strong>os</strong>ição,utilizando o Excel2 Estatística e parâmetro3 Variabilidade am<strong>os</strong>tral4 Precisão1. Obtenção de uma am<strong>os</strong>tra aleatória simples ede uma am<strong>os</strong>tra aleatória, com rep<strong>os</strong>ição,utilizando o ExcelColám<strong>os</strong> <strong>os</strong> valores na coluna K e fizem<strong>os</strong> oSave. Repare-se que <strong>os</strong> valores que estavaminicialmente na coluna J foram alterad<strong>os</strong>,dando origem a nov<strong>os</strong> valores (devido ao factoda função RAND() ser volátil, como referim<strong>os</strong>anteriormente);2º passo – Ordenar o ficheiro, utilizando comocritério a coluna K;3º passo – Como pretendem<strong>os</strong> uma am<strong>os</strong>trade dimensão 10, seleccionar <strong>os</strong> primeir<strong>os</strong> 10deputad<strong>os</strong> do ficheiro ordenado:Os deputad<strong>os</strong> seleccionad<strong>os</strong> foram <strong>os</strong> númer<strong>os</strong>110, 198, 225, 145, 128, 180, 222, 26 e 133.Am<strong>os</strong>tra aleatória simples1º passo - Utilizando a função RAND(), atribuir umnúmero aleatório, entre 0 e 1, a cada deputado.Para isso basta inserir a função na célula J2 ereplicá-la tantas vezes, quant<strong>os</strong> <strong>os</strong> deputad<strong>os</strong> (ouseja, 230 vezes):Para visualizar as fórmulas na folha de Excel,bastou seleccionar:Tools - Options - View - FormulasOk: <strong>Um</strong>a vez que a função RAND() é uma funçãovolátil, isto é, muda quando se recalcula a folha,no caso de pretenderm<strong>os</strong> ficar com <strong>os</strong> valoresgerad<strong>os</strong> convém ir ao Edit e fazer um PasteSpecial - Values, como se indica a seguir:Nota: Embora <strong>os</strong> númer<strong>os</strong> anteriores sejamreferid<strong>os</strong> como aleatóri<strong>os</strong>, convém ter presenteque <strong>os</strong> númer<strong>os</strong> que se obtêm são pseudoaleatóri<strong>os</strong>,já que é um mecanismo deterministaque lhes dá origem. No entanto comportam-secomo númer<strong>os</strong> aleatóri<strong>os</strong> (passam uma bateria detestes destinad<strong>os</strong> a confirmar a sua aleatoriedade)e daí a sua utilização como tal.


pág. 91Am<strong>os</strong>tra aleatória com rep<strong>os</strong>içãoa) Utilize a função RANDBETWEEN(), <strong>para</strong> obter númer<strong>os</strong> pseudo-aleatóri<strong>os</strong> entre 1 e 230, <strong>para</strong>simular a extracção de uma am<strong>os</strong>tra aleatória, da população d<strong>os</strong> deputad<strong>os</strong>.Esta função devolve um número pseudo-aleatório entre <strong>os</strong> limites especificad<strong>os</strong> n<strong>os</strong> argument<strong>os</strong>.Como pretendem<strong>os</strong> seleccionar uma am<strong>os</strong>tra de dimensão 10, replicam<strong>os</strong> a fórmula anterior por 10células, na coluna L, como se apresenta a seguir:A am<strong>os</strong>tra obtida é constituídapel<strong>os</strong> deputad<strong>os</strong> com <strong>os</strong> 10númer<strong>os</strong> nas células L2, ..., L11:<strong>Um</strong>a vez que a função RANDBETWEEN é umafunção volátil, isto é, muda quando se recalcula afolha, <strong>para</strong> ficar com <strong>os</strong> valores gerad<strong>os</strong> fom<strong>os</strong> aoEdit - Paste Special - Values, como se indicaa seguir:


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 92Colám<strong>os</strong> <strong>os</strong> valores na coluna M e fizem<strong>os</strong> o Save. Repare-se que <strong>os</strong> valores que estavam inicialmente nacoluna L foram alterad<strong>os</strong>, dando origem a uma nova am<strong>os</strong>tra (devido ao facto da função RANDBETWEENser volátil, como referim<strong>os</strong> anteriormente):b) Da tabela d<strong>os</strong> deputad<strong>os</strong>, seleccione o nome e o grupo parlamentar d<strong>os</strong> deputad<strong>os</strong> cujo número seja umd<strong>os</strong> element<strong>os</strong> da am<strong>os</strong>tra obtida anteriormente.Para seleccionar o nome e o grupo parlamentar d<strong>os</strong> deputad<strong>os</strong> correspondentes a<strong>os</strong> 10 númer<strong>os</strong> obtid<strong>os</strong>,vam<strong>os</strong> utilizar uma função do Excel, a função VLOOKUP, do seguinte modo:Esta função vai à tabela d<strong>os</strong> deputad<strong>os</strong>, constituída pelas células (A2:C231) seleccionar o nome (2ª colunada tabela seleccionada) e o Grupo Parlamentar (3ª coluna da tabela seleccionada) correspondente aonúmero que está na coluna M, obtendo-se a seguinte am<strong>os</strong>tra:2. Parâmetro e Estatística.c) Calcule a percentagem de deputad<strong>os</strong> do grupo parlamentar PSD, na am<strong>os</strong>tra obtida.Vam<strong>os</strong> começar por utilizar a função COUNTIF, que inserim<strong>os</strong> na célula O12, e que conta o nº de células,de entre um conjunto especificado de células, que satisfazem determinado critério, sendo este critério, nocaso presente, o de serem iguais a “PSD”:


pág. 93# Estatística Descritiva com EXCELObtivem<strong>os</strong> o valor 4 <strong>para</strong> a frequência absoluta dedeputad<strong>os</strong> do PSD. Como o nº de deputad<strong>os</strong> daam<strong>os</strong>tra era 10, a percentagem de deputad<strong>os</strong> dogrupo parlamentar do PSD, na am<strong>os</strong>tra é de 40%.Este valor é uma estatística – característicanumérica da am<strong>os</strong>tra. Utiliza-se como estimativado parâmetro “percentagem de deputad<strong>os</strong> doPSD na população em estudo” – característicanumérica da população.Repare-se na variabilidade apresentada n<strong>os</strong>resultad<strong>os</strong> obtid<strong>os</strong> <strong>para</strong> as diferentes am<strong>os</strong>tras.Os 10 valores obtid<strong>os</strong> <strong>para</strong> a percentagem dedeputad<strong>os</strong> do PSD existentes em cada uma delas,representam outras tantas estimativas <strong>para</strong> averdadeira proporção de deputad<strong>os</strong> existentesna População. Irem<strong>os</strong> ilustrar esta variabilidade,representando <strong>os</strong> valores num diagrama depont<strong>os</strong>, utilizando uma opção gráfica do Excel,o Scatter. Para obter a representação gráficapretendida, é necessário começar por construiruma tabela adequada:3. Variabilidade am<strong>os</strong>trald) Repita 10 vezes o processo descrito nasalíneas anteriores e registe numa tabela <strong>os</strong>resultad<strong>os</strong> obtid<strong>os</strong>.Gerám<strong>os</strong> 10 am<strong>os</strong>tras e obtivem<strong>os</strong> <strong>os</strong> seguintesresultad<strong>os</strong> <strong>para</strong> a estatística - percentagem dedeputad<strong>os</strong> PSD, em cada uma das am<strong>os</strong>tras:Am<strong>os</strong>tra12345678910% PSD40%20%30%50%20%30%40%50%0%30%Para construir esta tabela, pode-se utilizara seguinte metodologia: consideram-se duascolunas, onde na primeira coluna se representamtod<strong>os</strong> <strong>os</strong> element<strong>os</strong> do conjunto de dad<strong>os</strong>, pelaordem em que aparecem, e na segunda colunaindica-se a frequência absoluta com que cadaelemento surge no conjunto de dad<strong>os</strong>, à medidaque se vai percorrendo a coluna, de cima <strong>para</strong>baixo. Por exemplo, ao lado do primeiro elementoque é o 60%, indicam<strong>os</strong> um 1, mas a segundavez que aparece o 60%, indicam<strong>os</strong> um 2, etc.Se, à partida, dispuséssem<strong>os</strong> de uma tabela defrequências, <strong>para</strong> construir esta nova tabela,bastaria repetir cada elemento da am<strong>os</strong>tra,tantas vezes quantas a sua frequência absoluta.Na folha do Excel, seleccionam-se as duas colunase no menu Chart selecciona-se Scatter e oprimeiro subtipo desta representação. Obtém-seo diagrama de pont<strong>os</strong> com o seguinte aspecto:


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 94Trabalhám<strong>os</strong> “esteticamente” estarepresentação, seguindo <strong>os</strong> seguintes pass<strong>os</strong>:Seleccionar:• Legenda e carregar no botão Delete;• As linhas e carregar no botão Delete;• O fundo cinzento e carregar no botão Delete;• O eixo d<strong>os</strong> YY e carregar no botão Delete;Tem<strong>os</strong> finalmente a seguinte representação:Da representação gráfica anterior começam<strong>os</strong>a adivinhar que a distribuição das estimativasapresenta um padrão com uma certa simetriarelativamente ao valor de 30%.Esta representação é mais elucidativa e reforça aideia avançada anteriormente, de que o valor doparâmetro em estudo – percentagem de deputad<strong>os</strong>do PSD, se deve situar entre <strong>os</strong> valores30% e 40%. Tendo em conta que a verdadeirapercentagem de deputad<strong>os</strong> do PSD na populaçãoé 32,6%, apesar de o valor apresentado pelaestatística variar de am<strong>os</strong>tra <strong>para</strong> am<strong>os</strong>tra –variabilidade am<strong>os</strong>tral, estes valores apresentamuma distribuição que n<strong>os</strong> dá informação sobre oparâmetro, já que essa distribuição se localiza ouestá centrada em torno do parâmetro.4. Precisãoe) Considere agora 20 am<strong>os</strong>tras de dimensão10, calcule <strong>para</strong> cada uma o valor da estatísticaem estudo, e construa o diagrama de pont<strong>os</strong> d<strong>os</strong>valores obtid<strong>os</strong>.Seleccionám<strong>os</strong> 20 am<strong>os</strong>tras de dimensão 10,calculám<strong>os</strong> a percentagem de deputad<strong>os</strong> do PSDem cada uma delas e com <strong>os</strong> resultad<strong>os</strong> obtid<strong>os</strong>construím<strong>os</strong> a seguinte representação:f) Considere agora 20 am<strong>os</strong>tras de dimensão 30,calcule <strong>para</strong> cada uma o valor da estatística emestudo, e construa o diagrama de pont<strong>os</strong> d<strong>os</strong>valores obtid<strong>os</strong>. Compare a representação obtida,com a que obteve na alínea e).Seguim<strong>os</strong> um processo idêntico ao da alíneae), com a particularidade de as dimensões dasam<strong>os</strong>tras terem dimensão 30, em vez de 10. Comas percentagens de deputad<strong>os</strong> do PSD existentesem cada uma delas construím<strong>os</strong> a seguinterepresentação gráfica:


pág. 95# Estatística Descritiva com EXCELCom<strong>para</strong>ndo as duas representações obtidasquando se consideram am<strong>os</strong>tras de dimensão 10ou de dimensão 30, verificam<strong>os</strong> que a variabilidadeapresentada pel<strong>os</strong> valores da estatística -percentagem de deputad<strong>os</strong> do PSD, no casodas am<strong>os</strong>tras de maior dimensão, é inferiorà apresentada pela estatística no caso dasam<strong>os</strong>tras de menor dimensão, como se vê nafigura seguinte:Percentagem de deputad<strong>os</strong> do PSD emam<strong>os</strong>tras de dimensão 100 10 20 30 40 50 60 70 80 90 100 %Percentagem de deputad<strong>os</strong> do PSD emam<strong>os</strong>tras de dimensão 30Observação: Este exemplo que acabám<strong>os</strong> deapresentar tem como objectivo apresentar algunsconceit<strong>os</strong> importantes, como o da variabilidade edas propriedades de um estimador. Efectivamente,neste caso, já que tem<strong>os</strong> informação sobre ogrupo parlamentar de cada deputado, não teriamuito sentido ir recolher uma am<strong>os</strong>tra <strong>para</strong> obtera percentagem de deputad<strong>os</strong> em cada grupoparlamentar. Repare-se, no entanto, que se o queestivesse em estudo f<strong>os</strong>se “ter uma ideia” sobre onúmero médio de filh<strong>os</strong> d<strong>os</strong> deputad<strong>os</strong> portuguesese suas idades, já faria sentido recolher umaam<strong>os</strong>tra, pois <strong>para</strong> obter a informação desejadanão seria necessário interrogar tod<strong>os</strong> <strong>os</strong> deputad<strong>os</strong>e só se interrogariam <strong>os</strong> seleccionad<strong>os</strong> <strong>para</strong> aam<strong>os</strong>tra.1.3.2 - Am<strong>os</strong>tragem aleatória sistemática%0 10 20 30 40 50 60 70 80 90 100A precisão de um estimador é caracterizadapela variabilidade apresentada pelas diferentesestimativas, obtidas quando se consideramdiferentes am<strong>os</strong>tras. Quanto menor for avariabilidade apresentada pelas diferentesestimativas, maior é a precisão apresentada peloestimador.Na prática o processo de seleccionar umaam<strong>os</strong>tra aleatória simples de uma populaçãocom grande dimensão, não é tão simples comoo descrito anteriormente. Se a dimensão dapopulação for grande o processo torna-se muitotrabalh<strong>os</strong>o. Então uma alternativa é consideraruma am<strong>os</strong>tra aleatória sistemática – <strong>os</strong>element<strong>os</strong> são escolhid<strong>os</strong> de uma maneira regularpercorrendo a lista.De um modo geral, diz-se que uma estatísticaé um “bom” estimador de um certo parâmetro,se a distribuição d<strong>os</strong> valores dessa estatística,calculad<strong>os</strong> <strong>para</strong> diversas am<strong>os</strong>tras, revelar umalocalização em torno do parâmetro e apresentarpequena variabilidade. Em alguns cas<strong>os</strong> essaanálise pode fazer-se do ponto de vista teórico.No entanto, hoje em dia, cada vez se recorremais à simulação <strong>para</strong> decidir se um estimadoré ou não, um “bom” estimador do parâmetro deinteresse.Am<strong>os</strong>tra aleatória sistemáticaDada uma população de dimensão N, ordenada poralgum critério, se se pretende uma am<strong>os</strong>tra dedimensão n, escolhe-se aleatoriamente um elementode entre <strong>os</strong> k primeir<strong>os</strong>, onde k é a parte inteira doquociente N/n. A partir desse elemento escolhido,escolhem-se tod<strong>os</strong> <strong>os</strong> k-ésim<strong>os</strong> element<strong>os</strong> dapopulação <strong>para</strong> pertencerem à am<strong>os</strong>tra.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 96A am<strong>os</strong>tra aleatória sistemática não é umaam<strong>os</strong>tra aleatória simples, já que nem todas asam<strong>os</strong>tras p<strong>os</strong>síveis de dimensão n, têm a mesmaprobabilidade de serem seleccionadas.1.3.2.1 - Utilização do Excel <strong>para</strong> recolher umaam<strong>os</strong>tra aleatória sistemáticaNo exemplo seguinte, apresentam<strong>os</strong> uma formasimples de utilizar o Excel <strong>para</strong> seleccionar umaam<strong>os</strong>tra aleatória sistemática de uma Populaçãofinita, de que se tenha uma listagem d<strong>os</strong>element<strong>os</strong>.Exemplo 1.3.2.1 – Considere novamente o ficheiroDeputad<strong>os</strong>.xls, que contém o nome, filiaçãopartidária, sexo e data de nascimento d<strong>os</strong> 230deputad<strong>os</strong> da actual legislatura e que se encontraem Anexo. Utilizando o processo de am<strong>os</strong>tragemsistemática, obtenha uma am<strong>os</strong>tra de 12deputad<strong>os</strong>, registando <strong>para</strong> cada um deles o sexo.Tem<strong>os</strong> uma população de dimensão 230 epretendem<strong>os</strong> obter uma am<strong>os</strong>tra de dimensão 12.Vam<strong>os</strong> utilizar a seguinte metodologia:Passo 4 -Utilizando a função VLOOKUP(K3;$A$3:$E$232;5), replicada pelas 12 células L3:L14,obteve-se finalmente a informação solicitada,constituída pelo sexo d<strong>os</strong> 12 deputad<strong>os</strong>seleccionad<strong>os</strong> <strong>para</strong> a am<strong>os</strong>tra:Passo 1 – Dividindo 230 por 12 e retendo a parteinteira, obtem<strong>os</strong> o valor 19.Passo 2 – D<strong>os</strong> primeir<strong>os</strong> 19 element<strong>os</strong> da listaordenada d<strong>os</strong> deputad<strong>os</strong>, vam<strong>os</strong> seleccionar umelemento ao acaso. Vim<strong>os</strong> na secção anterior quebasta utilizar a função Randbetween(1;19), queinserim<strong>os</strong> na célula K3. A utilização desta funçãodevolveu-n<strong>os</strong> o deputado número 14.Passo 3 – A am<strong>os</strong>tra será constituída pel<strong>os</strong>deputad<strong>os</strong> númer<strong>os</strong> 14, 33, 52, 71, 90, 109,128, 147, 166, 185, 204, 223, que obtivem<strong>os</strong>adicionando sucessivamente 19, até obterm<strong>os</strong> 12element<strong>os</strong> (células K3:K14).1.3.3 – Am<strong>os</strong>tragem estratificadaPode acontecer que a população p<strong>os</strong>sa serdividida em várias subpopulações ou estrat<strong>os</strong>,mais ou men<strong>os</strong> homogéne<strong>os</strong>, relativamente àcaracterística a estudar. Nesta situação existeuma técnica importante e apropriada, que é aam<strong>os</strong>tragem por estratificação. Apresentam<strong>os</strong>de seguida um exemplo em que privilegiarem<strong>os</strong>a exemplificação da técnica, em detrimentoda apresentação em Excel, uma vez que o tipode am<strong>os</strong>tragem utilizado, se resume a umaam<strong>os</strong>tragem aleatória simples, já exemplificadaanteriormente.


pág. 97# Estatística Descritiva com EXCELExemplo 1.3.3.1 (Ted Hodgson and John Borkowskiin Getting the Best from Teaching Statistics)– Considerem<strong>os</strong> uma população constituída por 40cartões numerad<strong>os</strong> (20 vermelh<strong>os</strong> e 20 pret<strong>os</strong>) deacordo com a seguinte tabela:01 2 3 4 5 6 7 8NºFreq.Cor[12,13[64Ver[13,14[7844VerVer[14,15[91044VerVer[15,16[264Preto[16,17[274Preto284Preto[17,18[293044PretoPreto[18,19[[19,20[A média d<strong>os</strong> númer<strong>os</strong> inscrit<strong>os</strong> nesta populaçãode 40 cartões é de 18 – valor médio dacaracterística populacional em estudo.[20,21[[21,22[Pretende-se, através de uma am<strong>os</strong>tra, obteralguma indicação sobre a média d<strong>os</strong> númer<strong>os</strong>inscrit<strong>os</strong> n<strong>os</strong> cartões (a qual neste exemplofictício é conhecida). Colocam-se <strong>os</strong> cartões numsaco e pede-se a cada aluno da turma que retireuma am<strong>os</strong>tra de 4 cartões – am<strong>os</strong>tra aleatóriasimples, e que calcule a média d<strong>os</strong> númer<strong>os</strong> d<strong>os</strong>cartões seleccionad<strong>os</strong>. Numa turma de 34 alun<strong>os</strong>,obtiveram-se <strong>os</strong> seguintes resultad<strong>os</strong>:Am<strong>os</strong>tra nºMédia1 26 7 10 6 12,252 10 26 9 6 12,753 29 6 7 10 134 6 8 9 29 135 6 9 8 30 13,256 9 8 7 29 13,257 7 7 30 9 13,258 9 9 10 26 13,59 9 8 8 30 13,7510 9 10 8 29 1411 10 9 29 9 14,2512 6 27 6 26 16,2513 7 7 26 27 16,7514 28 8 6 26 1715 7 6 29 26 1716 6 29 26 8 17,2517 9 6 26 29 17,518 26 9 8 28 17,7519 7 10 26 29 1820 27 6 30 9 1821 6 29 28 10 18,2522 8 29 26 10 18,2523 6 8 30 30 18,524 26 9 30 10 18,7525 8 11 28 30 19,2526 26 27 6 27 21,527 30 26 27 6 22,2528 8 26 29 28 22,7529 10 26 26 30 2330 29 6 30 27 2331 28 9 30 26 23,2532 27 26 30 10 23,2533 30 10 29 26 23,7534 29 30 7 30 24[22,23[[23,24[[24,25[Esta distribuição não n<strong>os</strong> ajuda muito a dizerqual a estimativa <strong>para</strong> o valor médio da população(média d<strong>os</strong> númer<strong>os</strong> inscrit<strong>os</strong>). G<strong>os</strong>taríam<strong>os</strong> deter obtido <strong>para</strong> a am<strong>os</strong>tra, cuj<strong>os</strong> element<strong>os</strong> sãoas diferentes médias, uma distribuição com poucavariabilidade, <strong>para</strong> poderm<strong>os</strong> argumentar que amédia destes element<strong>os</strong> era uma “boa” estimativa<strong>para</strong> o parâmetro em estudo, ou seja, o valormédio d<strong>os</strong> númer<strong>os</strong> inscrit<strong>os</strong> n<strong>os</strong> cartões (Versecção seguinte).Diz-se então a<strong>os</strong> alun<strong>os</strong> que estam<strong>os</strong> peranteduas subpopulações, a de cartões vermelh<strong>os</strong> ea de cartões pret<strong>os</strong>, embora não seja esta acaracterística em estudo e sobre a qual seriaimportante haver diferença entre <strong>os</strong> estrat<strong>os</strong>ou subpopulações. De qualquer modo aquelessão informad<strong>os</strong> que poderá haver diferençasrelativamente à característica de interesse e queum processo de am<strong>os</strong>tragem adequado levaria emconta essas diferenças.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 98Am<strong>os</strong>tra nºMédia1 6 7 27 28 172 8 9 26 27 17,53 8 6 28 28 17,54 7 8 29 26 17,55 9 9 26 26 17,56 6 9 29 27 17,757 8 10 26 27 17,758 10 6 27 28 17,759 9 9 28 26 1810 6 8 28 30 1811 10 8 27 28 18,2512 10 7 28 29 18,513 9 9 27 29 18,514 8 9 29 29 18,7515 9 10 28 29 19Estes resultad<strong>os</strong> m<strong>os</strong>tram que as médias dasam<strong>os</strong>tras estratificadas estão consistentementepróximas do valor médio da população (o qual sódeve ser dito a<strong>os</strong> alun<strong>os</strong> depois das simulaçõesserem feitas), podendo-se assim observar quea estratificação conduziu a um aumento daprecisão.1.3.4 – Estimador centrado e não centrado.Precisão0[12,13[[13,14[[14,15[[15,16[[16,17[[17,18[1 2 3 4 5 6 7 8<strong>Um</strong>a vez escolhido um plano de am<strong>os</strong>tragemaleatório, ao pretenderm<strong>os</strong> estimar um parâmetro,pode ser p<strong>os</strong>sível utilizar várias estatísticas(estimadores) diferentes. Por exemplo, quandopretendem<strong>os</strong> estudar a variabilidade presentenuma População, que pode ser medida pelavariância populacional 2, sabem<strong>os</strong> que podem<strong>os</strong>a partir de uma am<strong>os</strong>tra, obter duas estimativasdiferentes <strong>para</strong> essa variância, a partir dasexpressões[18,19[[19,20[s 2 =n(x ix) 2i 1ou s’ 2 =n 1n(x ix) 2i1n[20,21[[21,22[[22,23[[23,24[[24,25[Quais as razões que n<strong>os</strong> podem levar a preferir s 2em vez de s’ 2 ?<strong>Um</strong> critério que c<strong>os</strong>tuma ser aplicado é o deescolher um “bom” estimador como sendo aqueleque é centrado e que tem uma boa precisão.Escolhido um plano de am<strong>os</strong>tragem, define-se:Procede-se então a uma selecção da am<strong>os</strong>tra, deforma a obter 2 cartões vermelh<strong>os</strong> e 2 cartõespret<strong>os</strong> – estes valores devem reflectir a dimensãod<strong>os</strong> estrat<strong>os</strong> (que no n<strong>os</strong>so exemplo são iguais).Os resultad<strong>os</strong> obtid<strong>os</strong> foram <strong>os</strong> seguintes:A partir d<strong>os</strong> dad<strong>os</strong> obtid<strong>os</strong> <strong>para</strong> as am<strong>os</strong>tras,confirma-se que efectivamente tem<strong>os</strong> doisestrat<strong>os</strong> distint<strong>os</strong>, relativamente à característicade interesse – um estrato com cartões comnúmer<strong>os</strong> mais pequen<strong>os</strong> e outro estrato comcartões com númer<strong>os</strong> maiores.Estimador centrado<strong>Um</strong> estimador diz-se centrado quando a médiadas estimativas obtidas <strong>para</strong> todas as am<strong>os</strong>trasp<strong>os</strong>síveis que se podem extrair da População,segundo o esquema considerado, coincide como parâmetro a estimar. Quando se tem umestimador centrado, também se diz que é nãoenviesado.


pág. 99# Estatística Descritiva com EXCELA média das estimativas calculadas a partir daexpressão s 2 acima considerada, coincide com avariância.Para se evitar o enviesamento, é necessárioestarm<strong>os</strong> atent<strong>os</strong>, primeiro na escolha do planode am<strong>os</strong>tragem e depois na escolha do estimadorutilizado <strong>para</strong> estimar o parâmetro desconhecido.O facto de utilizarm<strong>os</strong> um estimador centrado,não n<strong>os</strong> previne contra a obtenção de másestimativas, se o plano de am<strong>os</strong>tragem utilizad<strong>os</strong>istematicamente favorecer uma parte daPopulação (isto é, fornecer am<strong>os</strong>tras enviesadas).PrecisãoAo utilizar o valor de uma estatística <strong>para</strong> estimarum parâmetro, vim<strong>os</strong> que cada am<strong>os</strong>tra forneceum valor <strong>para</strong> a estatística que se utiliza comoestimativa desse parâmetro. Estas estimativasnão são iguais devido à variabilidade presente naam<strong>os</strong>tra. Se, no entanto, <strong>os</strong> diferentes valoresobtid<strong>os</strong> <strong>para</strong> a estatística forem próxim<strong>os</strong>, e oestimador for centrado, podem<strong>os</strong> ter confiança deque o valor calculado a partir da am<strong>os</strong>tra recolhida(na prática recolhe-se uma única am<strong>os</strong>tra) estápróximo do valor do parâmetro (desconhecido).Exemplo 1.3.4.1 - Suponham<strong>os</strong> que ao pretenderestudar a percentagem de eleitores que votariamfavoravelmente num candidato à Câmara dedeterminada cidade, se recolhia uma am<strong>os</strong>tra de300 eleitores, d<strong>os</strong> quais 175 responderam quesim. Considerando como estimador, a proporçãode element<strong>os</strong> na am<strong>os</strong>tra apoiantes do candidato,então uma estimativa <strong>para</strong> a proporção pretendidaseria 0.58. Se considerássem<strong>os</strong> outra am<strong>os</strong>trade 300 eleitores, suponham<strong>os</strong> que o valor obtido<strong>para</strong> o número de sim’s tinha sido 183. Então aestimativa obtida seria 0.61. A repetição desteprocesso 15 vezes permitiria obter 15 valores<strong>para</strong> o estimador, que seriam outras tantasestimativas do parâmetro a estimar -percentagemde eleitores da cidade, potenciais apoiantes dotal candidato. Representando num eixo <strong>os</strong> valoresobtid<strong>os</strong> e admitindo que o verdadeiro valor doparâmetro era 0.60, poderíam<strong>os</strong> de<strong>para</strong>r-n<strong>os</strong> comvárias situações:A falta de precisão juntamente com o problemado enviesamento da am<strong>os</strong>tra são dois tip<strong>os</strong> deerro com que n<strong>os</strong> defrontam<strong>os</strong> num processo deam<strong>os</strong>tragem (mesmo que tenham<strong>os</strong> escolhidoum “bom” estimador). Não se devem, contudo,confundir. Enquanto o enviesamento se manifestapor um desvio n<strong>os</strong> valores da estatística,relativamente ao valor do parâmetro a estimar,sempre no mesmo sentido, a falta de precisãomanifesta-se por uma grande variabilidade n<strong>os</strong>valores da estatística, uns relativamente a<strong>os</strong>outr<strong>os</strong>. Por outro lado, enquanto o enviesament<strong>os</strong>e reduz com o recurso a am<strong>os</strong>tras aleatórias, aprecisão aumenta-se aumentando a dimensão daam<strong>os</strong>tra.1) reflecte um pequeno ou ausência deenviesamento, pois <strong>os</strong> valores <strong>para</strong> aestatística (proporções obtidas a partir dasam<strong>os</strong>tras) situam-se <strong>para</strong> um e outro ladodo valor do parâmetro, e verifica-se ainda aexistência de uma pequena variabilidade entre<strong>os</strong> resultad<strong>os</strong> obtid<strong>os</strong> <strong>para</strong> as várias am<strong>os</strong>tras,que se traduz em grande precisão.2) embora se mantenha a precisão, existeum grande enviesamento, pois <strong>os</strong> valores daestatística situam-se sistematicamente <strong>para</strong> adireita do valor do parâmetro. Presume-se queo esquema de am<strong>os</strong>tragem não seja aleatório,pelo que as am<strong>os</strong>tras só reflectem parte daPopulação.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 100Distribuição de am<strong>os</strong>tragemDistribuição de am<strong>os</strong>tragem de uma estatísticaé a distribuição d<strong>os</strong> valores que a estatísticaassume <strong>para</strong> todas as p<strong>os</strong>síveis am<strong>os</strong>tras, damesma dimensão, da população.3) voltam<strong>os</strong> a ter uma situação de pequenoenviesamento, mas de pequena precisão devidoà grande variabilidade apresentada pel<strong>os</strong>valores da estatística. Presumim<strong>os</strong> que asam<strong>os</strong>tras não têm a dimensão suficiente, deforma a garantir uma melhor precisão.4) a falta de precisão da situação 3) éacompanhada de um grande enviesamento.Como sugere Moore (1996), fazendo analogiacom o que se passa com um atirador que apontavárias setas a um alvo, em que procurava atingir ocentro do alvo, teríam<strong>os</strong>A forma da distribuição de am<strong>os</strong>tragem, permiten<strong>os</strong>verificar se esses valores se distribuemde forma tal, que a sua média coincide com oparâmetro a estimar – caso em que o estimadoré centrado, e além disso se apresenta grandeou pequena variabilidade – o que faz com que oestimador apresente, respectivamente, menor oumaior precisão.A maior parte das vezes não se consegue obtera distribuição de am<strong>os</strong>tragem exacta, mas temseuma distribuição aproximada, considerandoum número suficientemente grande de am<strong>os</strong>trasda mesma dimensão e calculando <strong>para</strong> cada umadelas uma estimativa do parâmetro em estudo.1.3.5 - Qual a dimensão que se deveconsiderar <strong>para</strong> a am<strong>os</strong>tra?O estudo de um estimador é feito através dasua distribuição de am<strong>os</strong>tragem, ou seja, dadistribuição d<strong>os</strong> valores obtid<strong>os</strong> pelo estimador,quando se consideram todas as am<strong>os</strong>trasp<strong>os</strong>síveis.Outro problema que se levanta com a recolha daam<strong>os</strong>tra é o de saber qual a dimensão desejada <strong>para</strong>a am<strong>os</strong>tra a recolher. Este é um problema <strong>para</strong> oqual, nesta fase, não é p<strong>os</strong>sível avançar nenhumateoria, mas sobre o qual se podem tecer algumasconsiderações gerais. Pode¬se começar por dizerque, <strong>para</strong> se obter uma am<strong>os</strong>tra que permitacalcular estimativas suficientemente precisas d<strong>os</strong>parâmetr<strong>os</strong> a estudar, a sua dimensão dependemuito da variabilidade da população subjacente. Porexemplo, se relativamente à população constituídapel<strong>os</strong> alun<strong>os</strong> do 10º ano de uma escola secundária,estiverm<strong>os</strong> interessad<strong>os</strong> em estudar a sua idademédia, a dimensão da am<strong>os</strong>tra a recolher nãonecessita de ser muito grande já que a variávelidade apresenta valores muito semelhantes, numaclasse etária muito restrita. No entanto se a


pág. 101# Estatística Descritiva com EXCELcaracterística a estudar for o tempo médio que <strong>os</strong>alun<strong>os</strong> levam a chegar de casa à escola, de forma aobter a mesma precisão que no caso anterior, já aam<strong>os</strong>tra terá de ter uma dimensão maior, uma vezque a variabilidade da população é muito maior. Cadaaluno pode apresentar um valor diferente <strong>para</strong> essetempo. Num caso extremo, se numa população avariável a estudar tiver o mesmo valor <strong>para</strong> tod<strong>os</strong> <strong>os</strong>element<strong>os</strong>, então bastaria recolher uma am<strong>os</strong>tra dedimensão 1 <strong>para</strong> se ter informação completa sobrea população; se, no entanto, a variável assumirvalores diferentes <strong>para</strong> tod<strong>os</strong> <strong>os</strong> element<strong>os</strong>, <strong>para</strong>se ter o mesmo tipo de informação seria necessárioinvestigar tod<strong>os</strong> <strong>os</strong> element<strong>os</strong>.Chama-se a atenção <strong>para</strong> a existência detécnicas que permitem obter valores mínim<strong>os</strong><strong>para</strong> as dimensões das am<strong>os</strong>tras a recolher eque garantem estimativas com uma determinadaprecisão exigida à partida. <strong>Um</strong>a vez garantida essaprecisão, a opção por escolher uma am<strong>os</strong>tra demaior dimensão, é uma questão a ponderar entre<strong>os</strong> cust<strong>os</strong> envolvid<strong>os</strong> e o ganho com o acréscimode precisão. Vem a propósito a seguinte frase(Statistics: a Tool for the Social Sciences,Mendenhall et al., pag. 226):“Se a dimensão da am<strong>os</strong>tra é demasiado grande,desperdiça-se tempo e talento; se a dimensãoda am<strong>os</strong>tra é demasiado pequena, desperdiça-setempo e talento”.Convém ainda observar que a dimensão daam<strong>os</strong>tra a recolher não é directamenteproporcional à dimensão da população a estudar,isto é, se por exemplo <strong>para</strong> uma população dedimensão 1000 uma am<strong>os</strong>tra de dimensão 100for suficiente <strong>para</strong> o estudo de determinadacaracterística, não se exige necessariamenteuma am<strong>os</strong>tra de dimensão 200 <strong>para</strong> estudar amesma característica de uma população análoga,mas de dimensão 2000, quando se pretendeobter a mesma precisão. Como explicava GeorgeGallup, um d<strong>os</strong> pais da consulta da opinião pública(Tannenbaum, 1998),: Whether you poll theUnited States or New York State or Baton Rouge(Louisiana) … you need … the same number ofinterviews or samples. It´s no mystery really – ifa cook has two pots of soup on the stove, one farlarger than the other, and thoroughly stirs themboth, he doesn´t have to take more spoonfulsfrom one than the other to sample the tasteaccurately”.Finalmente chama-se a atenção <strong>para</strong> o facto deque se o processo de am<strong>os</strong>tragem originar umaam<strong>os</strong>tra enviesada, aumentar a dimensão nãoresolve nada, antes pelo contrário!1.3.6 – Outr<strong>os</strong> tip<strong>os</strong> de err<strong>os</strong> num processode aquisição de dad<strong>os</strong>Além d<strong>os</strong> problemas relacionad<strong>os</strong> com aam<strong>os</strong>tragem e apontad<strong>os</strong> anteriormenteexistem ainda outras fontes de err<strong>os</strong> que nãoestão relacionadas com o método da recolha daam<strong>os</strong>tra nem com a dimensão da am<strong>os</strong>tra, quesão <strong>os</strong> chamad<strong>os</strong> err<strong>os</strong> de não am<strong>os</strong>tragem.Se, por exemplo, seleccionarm<strong>os</strong> uma am<strong>os</strong>traaleatória simples a partir de uma listagem deelement<strong>os</strong> que não contenha tod<strong>os</strong> <strong>os</strong> element<strong>os</strong>da população, poderem<strong>os</strong> obter uma am<strong>os</strong>traenviesada. Efectivamente, e como já foi referidoanteriormente, muitas vezes a recolha da am<strong>os</strong>trafaz-se de uma população que não é a populaçãoque se pretende estudar – população alvo oupopulação objectivo, mas sim de outra populaçãoque se pensa representar a primeira – populaçãoinquirida. Por exemplo, se se pretende estudaruma determinada característica d<strong>os</strong> residentesem Lisboa, é comum recolher uma am<strong>os</strong>traseleccionando aleatoriamente alguns númer<strong>os</strong>de telefones da lista telefónica de Lisboa, <strong>para</strong>representar a população lisboeta. Este processointroduz algum enviesamento, pois existem zonasde Lisboa onde a percentagem de pessoas comtelefone é pequena. Além disso, pode acontecercom alguma frequência telefonarem <strong>para</strong> casa daspessoas quando elas estão ausentes, no trabalho,pelo que a am<strong>os</strong>tra subestimará a percentagemd<strong>os</strong> lisboetas que trabalham fora de casa.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 102O exemplo que acabám<strong>os</strong> de descrever refere-se aum erro de selecção.Na recolha da informação também se podeainda verificar que a informação dada nã<strong>os</strong>eja verdadeira. Ao responder a um inquéritoo inquirido pode sentir-se condicionado peloinquiridor, face a determinadas perguntas.Isso poderá levá-lo a mentir. Por exemplo aoperguntarem a um indivíduo se ele é racista, elepode dizer que não, quando na verdade o é.1.4 - Estatística Descritiva eInferência EstatísticaFinalmente, pode-se ter feito um planeamentoadequado da am<strong>os</strong>tra a recolher, mas ao recolhera informação de entre <strong>os</strong> element<strong>os</strong> da am<strong>os</strong>tra,a pessoa encarregada dessa recolha podever¬se defrontada com a não resp<strong>os</strong>ta. Esteproblema acontece com frequência quando aam<strong>os</strong>tra é constituída por pessoas, das quaisalgumas das seleccionadas não são encontradas<strong>para</strong> darem a informação sobre a variável emestudo, ou então se recusam a responder. Outroproblema que pode surgir é devido a err<strong>os</strong> deprocessamento que não têm nada a ver como processo de recolha da am<strong>os</strong>tra, mas quepodem influenciar o resultado da estatística, jáque esta é calculada com base na informaçãorecolhida. Estes err<strong>os</strong> surgem com algumafrequência, sendo muitas vezes detectad<strong>os</strong> porserem outliers. Efectivamente, se ao digitar umconjunto de valores correspondentes a pes<strong>os</strong> depessoas adultas aparecer 566 quilogramas, aofazer uma representação gráfica aparecerá estevalor como outlier e imediatamente se concluiráque se trata de um problema de processamento:eventualmente ao carregar a tecla do 6 o tempode apoio foi um pouco maior e apareceram dois 6.<strong>Um</strong>a vez recolhida a am<strong>os</strong>tra procede-se ao seuestudo. Este consiste em resumir a informaçãocontida na am<strong>os</strong>tra construindo tabelas, gráfic<strong>os</strong>e calculando algumas características am<strong>os</strong>trais–estatísticas. Este estudo descritivo d<strong>os</strong> dad<strong>os</strong> éo objectivo da Estatística Descritiva. Esta fase éa que depende mais da habilidade ou intuição doestatístico (dissem<strong>os</strong> no início do capítulo que aEstatística além de uma ciência, também é umaarte!). Efectivamente ele vai tentar substituir oconjunto de dad<strong>os</strong>, por um sumário desses dad<strong>os</strong>de forma a realçar a informação que eles contêm.Pense-se o que se passa, por analogia, com umtexto comprido e repetitivo em que a pessoa seperde na leitura. <strong>Um</strong> sumário bem feito do texto,em algumas linhas, dará a informação relevantesobre o texto, que ocupava muito mais linhas. Aoler o sumário a pessoa fica rapidamente informadasobre o assunto que trata. O mesmo se passacom <strong>os</strong> dad<strong>os</strong>, sendo necessário que o sumáriodesses dad<strong>os</strong> seja feito adequadamente de formaa não se perder muita informação, mas tambémde forma a não sumariar tão pouco que a pessoaseja submergida por tanta informação!Por exemplo, suponha que perguntou a um alun<strong>os</strong>e ele foi bom aluno na licenciatura que tirou. Eleresponde-lhe com as notas que teve durante <strong>os</strong> 4an<strong>os</strong> que durou a licenciatura:10 16 11 10 15 17 12 13 17 15 18 1415 16 12 13 16 11 15 16 12 13 14 1411 15 17 16 16 13 14 16Perante estes dad<strong>os</strong> hesitará um pouco, pois nã<strong>os</strong>e vê facilmente qual o tipo de notas que predomina.No entanto se fizer uma representaçãográfica muito simples:


pág. 103# Estatística Descritiva com EXCEL10 * *11 * * *12 * * *13 * * * *14 * * * *15 * * * * *16 * * * * * * *17 * * *18 *Exemplo 1.4.1 -O Senhor X, candidato à Câmarada cidade do Porto, pretende saber, qual apercentagem de eleitores que pensam votarnele nas próximas eleições. Havendo algumaslimitações de tempo e dinheiro, a empresaencarregada de fazer o estudo pretendidodecidiu recolher uma am<strong>os</strong>tra de dimensão1000, perguntando a cada eleitor se sim ou nãopensava votar no Senhor X. Como resultado daam<strong>os</strong>tragem obteve-se um conjunto de sim’s enão’s, cujo aspecto não é muito agradável, pois àprimeira vista não conseguim<strong>os</strong> concluir nada:Imediatamente concluirá que metade das notassão iguais ou superiores a 15, pelo que se podeconsiderar um aluno bom. Organizám<strong>os</strong> <strong>os</strong> dad<strong>os</strong>através de uma representação gráfica sugestiva,que permitiu realçar a informação desejada. Outroprocesso seria resumir a informação sob a formade uma medida que se calculava a partir d<strong>os</strong> dad<strong>os</strong>(estatística) - a média, que viria igual a 14.2.Seguidamente, o objectivo de um estudo estatístico,é, de uma maneira geral, o de estimar umaquantidade ou testar uma hipótese, utilizand<strong>os</strong>etécnicas estatísticas convenientes, as quaisrealçam toda a potencialidade da Estatística, namedida em que vão permitir tirar conclusõesacerca de uma População, baseando-se numapequena am<strong>os</strong>tra, dando-n<strong>os</strong> ainda uma medida doerro cometido. A esta fase chamam<strong>os</strong> InferênciaEstatística.Esta quantificação do erro cometido, aotransportar <strong>para</strong> a população as propriedadesverificadas na am<strong>os</strong>tra, é feita utilizando aProbabilidade. Efectivamente, é nesta fase doprocesso estatístico que tem<strong>os</strong> necessidadede entrar com este conceito, <strong>para</strong> quantificara incerteza associada a<strong>os</strong> procediment<strong>os</strong> aquiconsiderad<strong>os</strong>. Repare-se que ao transportar<strong>para</strong> a população uma propriedade verificada naam<strong>os</strong>tra não podem<strong>os</strong> dizer que essa propriedadeé verdadeira porque não a verificam<strong>os</strong> em tod<strong>os</strong><strong>os</strong> element<strong>os</strong> da população, mas também nãopodem<strong>os</strong> dizer que é falsa, pois a propriedade foiverificada por alguns element<strong>os</strong> da população - am<strong>os</strong>tra. Assim, estam<strong>os</strong> numa situação entre oque é verdadeiro e falso, caracterizada por umaincerteza, a qual é medida com a utilização daprobabilidade.NãoSimSimSimNãoProcede-se à redução d<strong>os</strong> dad<strong>os</strong>, resumindo ainformação sobre quant<strong>os</strong> sim’s se obtiveram,chegando-se à conclusão que nas 1000resp<strong>os</strong>tas, 635 foram afirmativas. Então dizem<strong>os</strong>que a percentagem de eleitores que pensamvotar no candidato, de entre <strong>os</strong> inquirid<strong>os</strong>, é de63.5%. A função da Estatística Descritiva acabouaqui! (Se toda a População tivesse sido inquirida,este estudo descritivo dar-n<strong>os</strong>-ia a informaçãonecessária <strong>para</strong> o fim em vista).Poderem<strong>os</strong> agora inferir que 63.5% d<strong>os</strong> eleitoresda cidade do Porto pensam votar no Senhor X?A resp<strong>os</strong>ta a esta pergunta nem é sim, nemnão, mas talvez. É agora que tem<strong>os</strong> necessidadede utilizar o conceito de Probabilidade, <strong>para</strong>quantificar a incerteza associada à inferência.Assim, existem process<strong>os</strong> de inferênciaestatística que, do resultado obtido a partir daam<strong>os</strong>tra, n<strong>os</strong> permitirão concluir que o intervalo[60.5%, 66.5%] contém o valor exacto <strong>para</strong> apercentagem de eleitores da cidade que pensamvotar no Senhor X, com uma confiança de 95%.Observação - A confiança de 95% deve ser entendidano seguinte sentido: se se recolherem 100am<strong>os</strong>tras, cada uma de dimensão 1000, entãopoderem<strong>os</strong> construir 100 interval<strong>os</strong>; destes100 interval<strong>os</strong> esperam<strong>os</strong> que 95 contenham overdadeiro valor da percentagem (desconhecida) deeleitores da cidade do Porto, que pensam votar no…Sim


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 104candidato. Como ao fazer um estudo só se recolheuma am<strong>os</strong>tra, não sabem<strong>os</strong> se a n<strong>os</strong>sa é uma dasque deu origem a um d<strong>os</strong> interval<strong>os</strong> que continha oparâmetro. Estam<strong>os</strong> confiantes que sim!Recorde-se a forma como as previsões são dadas,em noite de eleições, sob a forma de interval<strong>os</strong>.Por vezes a guerra de audiências faz com queestas previsões tenham pouco sentido, porapresentarem interval<strong>os</strong> com uma tão grandeamplitude que a sua precisão, como estimativasdas percentagens pretendidas, é muito pequena.Esta situação prende-se com o facto de asam<strong>os</strong>tras utilizadas <strong>para</strong> a construção d<strong>os</strong>interval<strong>os</strong> terem uma dimensão muito reduzida,havendo assim muito pouca informação disponível(recorde-se o que dissem<strong>os</strong> anteriormentesobre o processo <strong>para</strong> aumentar a precisão). Noentanto, à medida que a noite vai avançando, <strong>os</strong>interval<strong>os</strong> vão diminuindo de amplitude, estandoesta diminuição da amplitude relacionada coma dimensão da am<strong>os</strong>tra que entretanto vaiaumentando, até finalmente estarem tod<strong>os</strong> <strong>os</strong>vot<strong>os</strong> contad<strong>os</strong>. Nesta altura, <strong>os</strong> interval<strong>os</strong>reduzem-se a pont<strong>os</strong>, que são as percentagenspretendidas - a am<strong>os</strong>tra é constituída por toda apopulação.O seguinte esquema pretende resumir asdiferentes etapas que normalmente são seguidasnum procedimento estatístico:No esquema anterior a necessidade de utilizaro conceito de probabilidade faz-se sentir aopassarm<strong>os</strong> das propriedades estudadas naam<strong>os</strong>tra <strong>para</strong> as propriedades na população,sendo aqui precisamente que vai ser necessárioinvocar o princípio da aleatoriedade.Chama-se a atenção <strong>para</strong> que a compreensão doprocesso estatístico permitir-n<strong>os</strong>-á interpretarmelhor as notícias que, frequentemente, se lêemn<strong>os</strong> jornais ou ouvem na televisão. Por vezesalguns estud<strong>os</strong> sobre <strong>os</strong> mesm<strong>os</strong> assunt<strong>os</strong>,apresentam resultad<strong>os</strong> contraditóri<strong>os</strong>! Istoacontece nomeadamente no estudo de cert<strong>os</strong>aspect<strong>os</strong> do comportamento humano, utilizandotestes psicológic<strong>os</strong>, ou no estudo de certasdoenças utilizando cobaias. Muitas das inferênciasfeitas são imperfeitas, a maior parte das vezespor terem como base dad<strong>os</strong> imperfeit<strong>os</strong>.Produção de dad<strong>os</strong>PopulaçãoCaracterísticaspopulacionaisparâmetr<strong>os</strong>EstatísticaIndutivaAm<strong>os</strong>traCaracterísticasam<strong>os</strong>traisestatísticasEstatísticaDescritivaEstudo da am<strong>os</strong>tra:- tabelas- gráfic<strong>os</strong>- medidas- …2. Representação eredução de dad<strong>os</strong>.Tabelas e gráfic<strong>os</strong>2.1- IntroduçãoNum módulo anterior de Estatística, já foramapresentad<strong>os</strong> vári<strong>os</strong> process<strong>os</strong> de organizar <strong>os</strong>dad<strong>os</strong>, de forma a realçar as característicasprincipais e a estrutura subjacente da populaçãode onde esses dad<strong>os</strong> foram retirad<strong>os</strong>.


pág. 105# Estatística Descritiva com EXCELQuer estejam<strong>os</strong> perante uma variável de tipodiscreto ou contínuo, o processo de organizara informação consiste em, de um modo geral,começar por construir tabelas de frequência eproceder a representações gráficas adequadas.Vam<strong>os</strong> seguidamente utilizar o Excel naconstrução dessas tabelas de frequência.ou2.2 – Utilização do Excel na obtenção de tabelas defrequênciaVam<strong>os</strong> exemplificar a utilização do Excel naconstrução de tabelas de frequência a partir doficheiro Deputad<strong>os</strong>.xls, apresentado no capítuloanterior.As fórmulas apresentadas anteriormente, deramorigem à seguinte tabela:2.2.1 – Tabela de dad<strong>os</strong> qualitativ<strong>os</strong>ou quantitativ<strong>os</strong> discret<strong>os</strong>O procedimento <strong>para</strong> a construção das tabelasde frequência é idêntico, quer tenham<strong>os</strong> umconjunto de dad<strong>os</strong> qualitativ<strong>os</strong> ou quantitativ<strong>os</strong>discret<strong>os</strong>, já que as classes que se consideramsão as diferentes categorias ou valores quesurgem, respectivamente, no conjunto de dad<strong>os</strong>.A seguir apresentam<strong>os</strong> a construção destastabelas utilizando a função COUNTIF. Numa secçãop<strong>os</strong>terior verem<strong>os</strong> a sua construção utilizando ametodologia das PivotTables.Exemplo 2.2.1 – Considere o ficheiroDeputad<strong>os</strong>.xls. Obtenha uma tabela de frequência<strong>para</strong> a variável Grupo Parlamentar.Começám<strong>os</strong> por copiar a coluna correspondenteao Grupo parlamentar <strong>para</strong> um novo ficheiro.Ordenám<strong>os</strong> <strong>os</strong> element<strong>os</strong> por ordem crescentee inserim<strong>os</strong> na coluna Classes <strong>os</strong> diferenteselement<strong>os</strong> do conjunto de dad<strong>os</strong>. Utilizám<strong>os</strong> deseguida a função COUNTIF (CONTAR.SE) <strong>para</strong>obter as frequências absolutas de deputad<strong>os</strong> decada um d<strong>os</strong> grup<strong>os</strong> parlamentares:2.2.2 – Tabela de dad<strong>os</strong> quantitativ<strong>os</strong>contínu<strong>os</strong>Como se viu no módulo anterior de Estatística,no caso de dad<strong>os</strong> contínu<strong>os</strong> o processo deconstrução das tabelas é um pouco maiselaborado, já que a definição das classes não étão imediata. De um modo geral as classes sãointerval<strong>os</strong> com a mesma amplitude, fechad<strong>os</strong>à esquerda e abert<strong>os</strong> à direita ou abert<strong>os</strong> àesquerda e fechad<strong>os</strong> à direita. Em cert<strong>os</strong> cas<strong>os</strong>não é conveniente que as classes tenham amesma amplitude, o que em si não é um problema<strong>para</strong> a construção da tabela de frequências, masque implica alguma complicação na construçãodo histograma associado, quando pretendem<strong>os</strong>utilizar Excel.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 106Definição das classes:a) Determinar a amplitude da am<strong>os</strong>tra, subtraindoo mínimo do máximo;Vam<strong>os</strong> utilizar ainda o ficheiro Deputad<strong>os</strong>.xls<strong>para</strong> estudar a variável Idade, que é uma variávelquantitativa contínua.Exemplo 2.2.2 – Utilizando a informação contidano ficheiro Deputad<strong>os</strong>.xls, construa uma tabela defrequências <strong>para</strong> a variável Idade.Vam<strong>os</strong> dividir esta tarefa em duas partes: umaprimeira parte consistirá na definição das classese uma segunda parte no cálculo das frequências.Copie a coluna “Data de nascimento” <strong>para</strong> umficheiro novo com 230 element<strong>os</strong> que ocupam ascélulas A2:A231. Para obter a idade em 31/12/2007, podem<strong>os</strong> utilizar a seguinte metodologia:• Passo 1 – Inserir na célula B1 a data31/12/2007;• Passo 2 – Colocar o cursor na célulaB2 e introduzir a expressão: =$B$1-A2;• Passo 3 – Replicar esta função atravésdas células B3 a B231;b) Dividir essa amplitude pelo número K de classespretendido. Existe uma regra empírica que n<strong>os</strong> dáum valor aproximado <strong>para</strong> o número K de classese que consiste no seguinte: <strong>para</strong> uma am<strong>os</strong>tra dedimensão n, considerar <strong>para</strong> K o menor inteiro talque 2K≥n. <strong>Um</strong>a expressão equivalente <strong>para</strong> obterK, consiste em considerar K=INT(LOG(n;2))+1ou K=ROUNDUP(LOG(n;2);0), em que a fun-çãoROUNDUP(x;m), devolve um valor de x, arredondadopor excesso, com m casas decimais;c) Calcular a amplitude de classe h, dividindo aamplitude da am<strong>os</strong>tra por K e tomando <strong>para</strong> hum valor aproximado por excesso do quocienteanteriormente obtido;d) Construir as classes C1, C2, ..., Ck. Vam<strong>os</strong>considerar como classes <strong>os</strong> interval<strong>os</strong> [mínimo,mínimo + h[,[mínimo + h, mínimo + 2h[, ...,[mínimo + (k-1)h, mínimo + kh[. <strong>Um</strong>a alternativaa este procedimento seria considerar as classesabertas à esquerda e fechadas à direita, daseguinte forma: ]max – Kh, max – (K-1)h], ]max– (K-1)h, max – (K¬2)h], ]max – h, max].Estes pass<strong>os</strong> são representad<strong>os</strong> na figuraseguinte:• Passo 4 – Se no passo anterior seobteve uma coluna de datas, formataressa coluna com o Format General, porexemplo. Obtém-se a idade em dias;• Passo 5 – Para obter a idade em an<strong>os</strong>,colocar o cursor na célula C2 e introduzira seguinte função: = INT(B2/365), aqual devolve o maior inteiro contido noquociente (n.º de dias do deputado)/(n.ºde dias do ano).• Replicar esta função através dascélulas C3 a C231.com <strong>os</strong> seguintes resultad<strong>os</strong>:


pág. 107# Estatística Descritiva com EXCELCálculo das frequências:Para obter as frequências absolutas, vam<strong>os</strong> utilizar a função COUNTIF do seguinte modo:As frequências das classes c1, c3..., c8, são obtidas de forma idêntica à de c2, mudando <strong>os</strong> limites dasclasses.2.2.3 - Construção de uma tabela de frequências utilizando a função Frequency do ExcelO Excel tem uma função, que é a função Frequency(Data_array;Bins_array), que calcula o número deelement<strong>os</strong> da variável - cuj<strong>os</strong> valores se encontram na Data_array, existentes nas classes - cuj<strong>os</strong> limitesse encontram em Bins_array. Este vector Bins_array é constituído por um conjunto de k valores b1, b2,..., bk, formando (k+1) classes, tais que:• A 1ª classe é dada por (-∞, b1], isto é, conterá tod<strong>os</strong> <strong>os</strong> element<strong>os</strong> ≤b1;• A 2ª classe é dada por ]b1, b2];• A 3ª classe é dada por ]b2, b3];• A késima classe é dada por ]bk-1, bk];• A (k+1)ésima classe é dada por ]bk, +∞);Vam<strong>os</strong> exemplificar construindo uma tabela de frequências <strong>para</strong> a variável idade.Definição das classes:Considerando as classes definidas em 2.2 e tendo em atenção o que dissem<strong>os</strong> anteriormente sobreas classes <strong>para</strong> a utilização da função Frequency, o n<strong>os</strong>so conjunto de valores <strong>para</strong> o Bins_array, seráconstituído por {33,7; 39,4; 45,1; 50,8; 56,5; 62,2; 67,9}; Para utilizar a função Frequency(Data_array;Bin_array), procede-se do seguinte modo:


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 108• Definir a coluna de se<strong>para</strong>dores ou limites dasclasses, que constituirá o Bins_array;• Seleccionar tantas células em coluna,quantas as classes consideradas <strong>para</strong> a tabelade frequências (não esquecer que o número declasses é superior em uma unidade ao númerode se<strong>para</strong>dores, pelo que o número de célulasseleccionadas deverá ser, neste caso, de 8);• Introduzir a função Frequency, considerandocomo primeiro argumento o conjunto decélulas onde se encontram <strong>os</strong> dad<strong>os</strong> a agrupar,chamado de Data_array, e como segundoargumento as células que constituem o Bins_array;• Carregar CTRL+SHIFT+ENTER.Na figura seguinte apresentam<strong>os</strong> o resultadodeste procedimento:2.3 – Utilização do Excel narepresentação gráfica de dad<strong>os</strong>De forma idêntica à que fizem<strong>os</strong> <strong>para</strong> aconstrução das tabelas de frequências, vam<strong>os</strong>também considerar se<strong>para</strong>damente o caso davariável em estudo ser de natureza qualitativa ouquantitativa discreta, ou de natureza quantitativacontínua.2.3.1 – Variáveis qualitativas ouquantitativas discretas.Diagrama de barrasVerifique que <strong>os</strong> valores devolvid<strong>os</strong> pela funçãoFrequency, nas células L17: L24, são iguais àsfrequências obtidas anteriormente e apresentadasna tabela de frequências já construída. Estasituação nem sempre se verifica, nomeadamentese <strong>os</strong> limites das classes f<strong>os</strong>sem númer<strong>os</strong>inteir<strong>os</strong>, já que agora as classes são consideradasfechadas à direita e abertas à esquerda. Assim,alguns valores da am<strong>os</strong>tra que anteriormente nãopertenciam a determinadas classes, poderiamagora pertencer.Neste caso vim<strong>os</strong> que a construção da tabelade frequências se resume, de um modo geral,a considerar como classes as diferentescategorias ou valores que surgem na am<strong>os</strong>tra.<strong>Um</strong>a representação gráfica adequada <strong>para</strong>estes dad<strong>os</strong>, é o diagrama de barras, que já foiintroduzido no módulo de Estatística.Diagrama de barras – Representação gráficaque consiste em marcar num sistema deeix<strong>os</strong> coordenad<strong>os</strong>, no eixo d<strong>os</strong> xx, pont<strong>os</strong>representando as categorias ou <strong>os</strong> valoresconsiderad<strong>os</strong> <strong>para</strong> as classes na tabela defrequências, e nesses pont<strong>os</strong> barras verticais dealtura igual à frequência absoluta ou à frequênciarelativa.2.3.1.1 - Variável de tipo qualitativoExemplo 2.3.1 - Vam<strong>os</strong> exemplificar a construçãode um diagrama de barras de uma variávelqualitativa, considerando a tabela de frequênciasconstruída em 2.2.1, <strong>para</strong> estudar a variávelGrupo Parlamentar, do ficheiro Deputad<strong>os</strong>.xls:


pág. 109# Estatística Descritiva com EXCEL2.3.1.2 - Variável de tipo quantitativo discreto2.3.1.2.1 – Diagrama de barrasTabela defrequênciasClasses Freq. Abs. Freq. Rel.BE 8 0,035CDS-PP 12 0,052PCP 12 0,052PEV 2 0,009PS 121 0,526PSD 75 0,326230 1No caso de dad<strong>os</strong> discret<strong>os</strong>, <strong>para</strong> construir atabela de frequência consideram-se como classes<strong>os</strong> diferentes valores que surgem na am<strong>os</strong>tra.Estes valores devem ser apresentad<strong>os</strong>, na tabelade frequência, ordenad<strong>os</strong>.Exemplo 2.3.2 – Suponham<strong>os</strong> que <strong>para</strong> umaam<strong>os</strong>tra de 30 deputad<strong>os</strong> da actual legislatura,se tinha recolhido a informação sobre o número defilh<strong>os</strong>, tendo-se obtido <strong>os</strong> seguintes valores:2, 1, 2, 3, 0, 0, 1, 1, 4, 1, 2, 1, 0, 0, 0, 2, 3,1, 1, 6, 3, 1, 3, 2, 0, 1, 2, 0, 2, 3Resuma <strong>os</strong> dad<strong>os</strong> numa tabela de frequências econstrua o diagrama de barras associado.A metodologia seguida <strong>para</strong> construir o diagramade barras, consiste em, na folha Excel, quecontém a tabela:• Seleccionar as células que contêm asclasses e as frequências absolutas (porexemplo);• Seleccionar, no menu, o ícone Chart ;• Na caixa de diálogo que aparece, seleccionara opção Column;• Clicar no botão Next, duas vezes, <strong>para</strong>passar dois pass<strong>os</strong>, até aparecer uma caixade diálogo, que apresenta várias opções: EmLegend, desactivar a legenda e em Titles,acrescentar o título no eixo d<strong>os</strong> Y’s e noeixo d<strong>os</strong> X’s, como se apresenta a segui, ecarregar em Finish:Introduzim<strong>os</strong> <strong>os</strong> dad<strong>os</strong> numa folha de Excel, a quechamám<strong>os</strong> Filh<strong>os</strong>.xls e a seguir procedem<strong>os</strong> d<strong>os</strong>eguinte modo:1ª parte – Procedimento <strong>para</strong> a construção databela de frequências:• Seleccionar as células que contêm <strong>os</strong> dad<strong>os</strong>e ordená-l<strong>os</strong> utilizando o botão da barra deExcel;• Considerar <strong>para</strong> classes <strong>os</strong> diferentesvalores que surgem na am<strong>os</strong>tra. Se faltaralgum valor entre o máximo e o mínimo,considerá-lo também na tabela de frequências,se a seguir se pretende construir umdiagrama de barras;• Utilizando a função COUNTIF, determinaras frequências absolutas das classesconsideradas no ponto anterior; calcular apartir destas, as frequências relativas:Tabela defrequênciasClasses Freq. Abs. Freq. Rel.0 7 0,2331 9 0,3002 7 0,2333 5 0,1674 1 0,0335 0 0,0006 1 0,03330


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 1102ª parte – Procedimento <strong>para</strong> a construção dodiagrama de barras:• Seleccionar as células que contêm asclasses e as que contêm as frequênciasrelativas (<strong>para</strong> seleccionar as células quecontêm as frequências relativas, comonão são adjacentes às que contêm asclasses, depois de seleccionar estas, temque se pressionar a tecla CTRL e com elapressionada, seleccionar aquelas);• Seleccionar Next. Nas Chart Optionsseleccionar Legend e retirar a selecção deShow Legend. Seleccionar Titles e colocartítul<strong>os</strong> adequad<strong>os</strong>. Carregar em Finish:• Seleccionar na barra de ferramentas a opçãoChart e a seguir a opção Column, tal como sefez <strong>para</strong> <strong>os</strong> dad<strong>os</strong> de tipo qualitativo;• Seleccionar Next e de seguida Series, com<strong>os</strong>e apresenta a seguir:Nota (Esta nota foi sugerida pela leitura do artigode Neville Hunt – Charts in Excel, in TeachingStatistics, Volume 26, Number 2, pags 49-53):Como vim<strong>os</strong> na descrição que acabám<strong>os</strong> de fazer<strong>para</strong> a construção de um diagrama de barras emExcel, o procedimento está longe de ser natural,já que o que seria de esperar era que, uma vezseleccionada a opção Column, n<strong>os</strong> surgisse arepresentação gráfica anterior, aparte pequenasalterações de “c<strong>os</strong>mética”.• Copiar a Series1, dada pel<strong>os</strong> valores=Sheet1!$D$3:$D$9, que constituem asclasses, <strong>para</strong> Category (X) axis labels eremover Series1 de Series:Suponham<strong>os</strong>, no entanto, que na última classetínham<strong>os</strong> considerado 6+, <strong>para</strong> significar 6 oumais filh<strong>os</strong>. Então, ao fim d<strong>os</strong> dois primeir<strong>os</strong>pass<strong>os</strong> da descrição anterior tem<strong>os</strong> arepresentação gráfica pretendida. O facto éque agora o Excel interpretou as classes comocategorias e fez a representação esperada.Suponham<strong>os</strong> ainda, que em vez de modificarm<strong>os</strong> o6 <strong>para</strong> 6+, apagam<strong>os</strong> o conteúdo de D2:


pág. 111# Estatística Descritiva com EXCELSeleccionando agora as células D2 a D9 e F2 a F9e novamente no Chart a opção Column, então arepresentação que se obtém é, imediatamente, aseguinte:Tabela defrequênciasClasses Freq. Abs. Freq. Rel. Freq.rel.acum.0 7 0,233 0,2331 9 0,300 0,5332 7 0,233 0,7673 5 0,167 0,9334 1 0,033 0,9675 0 0,000 0,9676 1 0,033 1,00030A função cumulativa há-de ser tal que:• Para valores de x< o, será nula;• Para valores de o ≤ x < 1, será igual a0,233;• Para valores de 1 ≤ x < 2, será igual a0,533;• Para valores de 2 ≤ x < 3, será igual a0,767;Depois de apagar a legenda e inserir <strong>os</strong> títul<strong>os</strong> deforma conveniente, tem<strong>os</strong> a representação finaldo exemplo anterior, sem grandes complicações.• Para valores de 3 ≤ x < 4, será igual a0,933;• Para valores de 4 ≤ x < 6, será igual a0,967;• Para valores de x ≥ 6, será igual a 1;2.3.1.2.2 – Função cumulativaA função cumulativa é uma função definida <strong>para</strong>todo o valor real x, e que <strong>para</strong> cada x dá a somadas frequências d<strong>os</strong> valores da am<strong>os</strong>tra menoresou iguais a x. Quando tem<strong>os</strong> uma variável detipo discreto, a função cumulativa é uma funçãoem escada, isto é, é uma função que cresce pordegraus, mudando de degrau n<strong>os</strong> pont<strong>os</strong> emque a frequência é diferente de 0, e em que aaltura do degrau é igual à frequência respectiva.Vam<strong>os</strong> exemplificar a sua construção com oexemplo apresentado na secção anterior <strong>para</strong> aconstrução do diagrama de barras.Exemplo 2.3.2 (cont) – Construa a funçãocumulativa <strong>para</strong> <strong>os</strong> dad<strong>os</strong> do número de filh<strong>os</strong> daam<strong>os</strong>tra d<strong>os</strong> 30 deputad<strong>os</strong>.Retomando a tabela de frequências do exemplo2.3.2, vam<strong>os</strong> acrescentar uma coluna com asfrequências relativas acumuladas:O Excel não dispõe de uma representaçãoimediata <strong>para</strong> a função anterior, pelo que tem<strong>os</strong>de utilizar um pequeno artifício. Suponham<strong>os</strong>, <strong>para</strong>já, que por algum processo tínham<strong>os</strong> conseguidoconstruir o gráfico da função cumulativa, que temo seguinte aspecto:Esta função é constituída por 6 degraus, emque a altura do degrau é, em cada ponto, igualà frequência relativa respectiva e a dimensãodo patamar é igual à diferença entre <strong>os</strong> pont<strong>os</strong>consecutiv<strong>os</strong>, com frequência relativa diferente dezero:


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 112O Excel dispõe de uma representação gráfica,o Scatter (Diagrama de dispersão), em que noúltimo subtipo apresentado <strong>para</strong> as opções, une<strong>os</strong> pont<strong>os</strong>, por ordem crescente das abcissas,simultaneamente de tantas séries (conjunt<strong>os</strong> depont<strong>os</strong>) quantas as desejadas. Exemplifiquem<strong>os</strong>com <strong>os</strong> pont<strong>os</strong> da seguinte tabela, em quepretendem<strong>os</strong> representar 3 conjunt<strong>os</strong> de dad<strong>os</strong> aque chamám<strong>os</strong> Série1, Série2 e Série3:Agora basta seleccionar as células I2 a O13 efazer o diagrama de dispersão, como indicadoanteriormente. Proceda como na construçãodo diagrama de barras, <strong>para</strong> retirar a legenda eacrescentar títul<strong>os</strong>:2.3.2 – Variáveis quantitativas contínuas2.3.2.1 – HistogramaVam<strong>os</strong> utilizar esta função Scatter <strong>para</strong> construir<strong>os</strong> sucessiv<strong>os</strong> degraus da função cumulativa,em que cada degrau corresponde a uma série- união de dois pont<strong>os</strong>, e em que tem<strong>os</strong> tantasséries a representar, quant<strong>os</strong> <strong>os</strong> degraus. Assim,o artifício está em representar, numa tabelado Excel, <strong>os</strong> degraus pretendid<strong>os</strong> através dascoordenadas d<strong>os</strong> pont<strong>os</strong>, como exemplificam<strong>os</strong> aseguir:2.3.2.1.1 – Tabela de frequênciascom as classes com a mesmaamplitudeNo caso de um conjunto de dad<strong>os</strong> contínu<strong>os</strong>, jávim<strong>os</strong> anteriormente a forma de obter a tabelade frequências. Como se viu, as classes sãointerval<strong>os</strong> e a representação gráfica adequadaé o histograma, já apresentado no módulo deEstatística:


pág. 113# Estatística Descritiva com EXCELHistogramaÉ um diagrama de áreas, formado por umasucessão de rectângul<strong>os</strong> adjacentes, tendo cadaum por base um intervalo de classe e por área afrequência relativa (ou frequência absoluta). Porconseguinte, a área total coberta pelo histogramaé igual a 1 (ou igual a n, a dimensão do conjunto dedad<strong>os</strong> a representar).não é necessário ter esta preocupação, jáque se se pretender seleccionar células nãoadjacentes, basta seleccionar as células daprimeira coluna e se a coluna seguinte não foradjacente, começar por carregar a tecla CTRLe com ela pressionada seleccionar, então, ascélulas pretendidas;• Seleccionar as células de K4 a L11 (quecontêm as classes e as frequências relativas adividir pela amplitude de classe);• Proceder como em 3.1 <strong>para</strong> construir umdiagrama de barras, <strong>para</strong> obter a figura que seapresenta a seguir;Para construir o histograma de forma correcta,isto é, de modo a que as áreas d<strong>os</strong> rectângul<strong>os</strong>sejam iguais às frequências, a altura dorectângulo correspondente a determinada classe,deverá ser igual à frequência da classe a dividirpela respectiva amplitude. Contudo, se as classestiverem todas a mesma amplitude, é usualconstruir <strong>os</strong> rectângul<strong>os</strong> com alturas iguais àsfrequências relativas (absolutas) das respectivasclasses, vindo as áreas d<strong>os</strong> rectângul<strong>os</strong>proporcionais e não iguais às frequências. Aconstante de proporcionalidade é a amplitude declasse. No entanto, se se pretender com<strong>para</strong>ram<strong>os</strong>tras através de histogramas, emborao histograma não seja a representação maisadequada <strong>para</strong> a com<strong>para</strong>ção de am<strong>os</strong>tras, deveseter o cuidado de <strong>os</strong> construir da forma indicadainicialmente, e utilizando as frequências relativas,de modo que a área total ocupada por cada umd<strong>os</strong> histogramas seja igual a 1.Exemplificam<strong>os</strong>, de seguida, a construção de umhistograma utilizando o Excel.Para obter o histograma, já que o que se n<strong>os</strong>apresenta na figura anterior não é um histogramapois não tem as barras adjacentes, terá de:Clicar duas vezes sobre as barras, de forma a queapareça o menu Format Data Series ou Formatdata Points.; Seleccionar Options e em Gap Widthseleccionar 0;OK:Exemplo 2.3.3 – Considerando a tabela defrequências construída em 2.3 <strong>para</strong> a variávelidade, construa o histograma adequado. Processoutilizado <strong>para</strong> obter o histograma:• Acrescentar, à tabela considerada, umaoutra coluna com a frequência relativa a dividirpela amplitude de classe (igual a 5,7). No casopresente, inserim<strong>os</strong> estas células adjacentesàs células que contêm as classes. No entanto,


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 114Finalmente pode-se melhorar esteticamenteo histograma, diminuindo o número de casasdecimais n<strong>os</strong> valores apresentad<strong>os</strong> no eixo d<strong>os</strong> YY,retirando as linhas, etc.• Em Input Range, indicám<strong>os</strong> o local d<strong>os</strong> dad<strong>os</strong>e seleccionám<strong>os</strong> ainda a opção Chart Outpute clicám<strong>os</strong> OK. Como resultado obtivem<strong>os</strong> <strong>os</strong>eguinte:2.3.2.1.2 – Função HistogramNo Excel existe uma função, idêntica à funçãoFrequency, a função Histogram, a que se acedeseleccionando Tools-Data-Analysis-Histogram-Ok. Vam<strong>os</strong> exemplificar a sua utilização <strong>para</strong> oconjunto de dad<strong>os</strong> da variável Idade, anteriormenteconsiderado:• Substituím<strong>os</strong> <strong>os</strong> limites das classespel<strong>os</strong> interval<strong>os</strong> das classes e arranjám<strong>os</strong>convenientemente o gráfico, já que arepresentação que se obtém, ao contrário doque é indicado no título, não é um histograma:• Definir a coluna de se<strong>para</strong>dores ou limitesde classes, que constituirá o Bin Range: Non<strong>os</strong>so caso contruím<strong>os</strong> as classes subtraindoa amplitude de classe sucessivamente aomáximo, obtendo <strong>os</strong> valores {33,1, 38,8, 44,5,50,2, 55,9, 61,6, 67,3} (tal como <strong>para</strong> afunção Frequency, as classes são fechadas àdireita e abertas à esquerda), que colocám<strong>os</strong>nas células P4:P10;• Seleccionar Tools-Data-Analysis-Histogram-Ok:Nota: Ao considerar a função Histogram, tema p<strong>os</strong>sibilidade de não indicar <strong>os</strong> se<strong>para</strong>doresde classe, deixando vazio o espaço denominadoBin Range, uma vez que serão considerad<strong>os</strong>, pordefeito, classes. Contudo, não aconselham<strong>os</strong> quese deixe esta escolha ao Excel, uma vez que, porexemplo, a primeira classe que é considerada, éconstituída pel<strong>os</strong> valores menores ou iguais aomínimo, o que não tem qualquer sentido.


pág. 115# Estatística Descritiva com EXCEL2.3.3.1.3 - Tabela de frequências com as classescom amplitudes diferentesA construção da tabela de frequências pode serfeita utilizando a função Frequency, como vim<strong>os</strong> nasecção anterior. No entanto, vai ser necessárioacrescentar uma nova coluna onde, <strong>para</strong> cadaclasse, se considera a frequência relativa (ouabsoluta) a dividir pela amplitude de classe. Seráesta coluna que irá fornecer as alturas d<strong>os</strong>rectângul<strong>os</strong> que constituirão o histograma. Comesta precaução, garantim<strong>os</strong> que as áreas destesrectângul<strong>os</strong> são iguais às frequências relativas(ou absolutas). Apresenta-se a seguir a tabela defrequências obtida, segundo a descrição anterior:Por vezes a organização e redução de um conjuntode dad<strong>os</strong> contínu<strong>os</strong>, através de uma tabela defrequências, pressupõe que <strong>os</strong> interval<strong>os</strong>, queconstituem as classes, tenham limites escolhid<strong>os</strong>pelo utilizador, sem obedecerem a um critérioestritamente resultante da aplicação de umaregra matemática. É o caso, por exemplo, davariável idade, em que poderá ser interessanteescolher determinadas classes etárias.O histograma correspondente a esta tabela defrequências, com cuja construção não n<strong>os</strong> vam<strong>os</strong>preocupar <strong>para</strong> já, terá o seguinte aspecto:Tendo em conta a definição de histograma, com<strong>os</strong>endo um diagrama de áreas, constituído poruma série de rectângul<strong>os</strong> adjacentes, em que aárea de cada rectângulo é igual ou proporcionalà frequência de classe, no caso de a tabela defrequências não apresentar as classes todascom a mesma amplitude, já o histograma não sepode reduzir a um diagrama de barras, em que asbarras tenham a mesma amplitude e as alturassejam iguais às frequências.Não sendo o Excel um software de Estatística,não apresenta uma solução imediata <strong>para</strong> aconstrução do histograma nestas condições,sendo necessário recorrer a um artifício.Exemplificarem<strong>os</strong> a seguir a aplicação de umatécnica p<strong>os</strong>sível <strong>para</strong> a resolução do problema,recorrendo à representação gráfica Scatter.Tem<strong>os</strong> um histograma correctamente construído,em que as áreas d<strong>os</strong> rectângul<strong>os</strong> são iguais àsfrequências relativas, ocupando o histograma umaárea total igual a 1.Na figura anterior, vam<strong>os</strong> marcar alguns pont<strong>os</strong>com letras:Exemplo 2.3.4 – Considerem<strong>os</strong> ainda a variávelidade d<strong>os</strong> deputad<strong>os</strong>. Organize <strong>os</strong> dad<strong>os</strong> segundouma tabela de frequências, considerando asseguintes classes [28, 35[, [35, 40[, [40, 45[,[45, 50[, [50, 55[, [55, 65[, [65, 75[, [75, 78].


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 116Repare que se unir o ponto a com b, de seguidacom c, até esgotar tod<strong>os</strong> <strong>os</strong> pont<strong>os</strong>, obtém ohistograma. Então, <strong>para</strong> obter a representaçãográfica desejada, basta construir uma tabela,numa folha de Excel, com as coordenadasd<strong>os</strong> pont<strong>os</strong> que pretendem<strong>os</strong> unir e utilizar arepresentação Scatter, tal como foi feito <strong>para</strong>representar a função cumulativa em 3.1.2.2:• No limite inferior da 3ª classe, l3, afrequência acumulada é a soma das frequênciasdas duas classes anteriores, (f1+f2). Entãounim<strong>os</strong> <strong>os</strong> pont<strong>os</strong> de coordenadas (l2, f1) e (l3,(f1+f2));• Quando chegarm<strong>os</strong> à última classe, tem<strong>os</strong>a garantia que a frequência acumulada,correspondente ao seu limite superior, éigual a 1, pelo que nesse ponto marcam<strong>os</strong> 1e continuam<strong>os</strong> com um segmento de recta<strong>para</strong>lelo ao eixo d<strong>os</strong> xx.Exemplo 2.3.4 (continuação) – Construa a funçãocumulativa, a partir da tabela de frequênciasapresentada no exemplo 2.3.4. Para obter afunção cumulativa, basta acrescentar à tabela defrequências uma nova coluna com as frequênciasrelativas acumuladas. De seguida utiliza-se arepresentação Scatter, <strong>para</strong> unir <strong>os</strong> pont<strong>os</strong>,tais como foram definid<strong>os</strong> nas indicações dadas,anteriormente, <strong>para</strong> a construção da funçãocumulativa:2.3.2.2 – Função cumulativaPara representar graficamente as frequênciasacumuladas, considera-se a função cumulativa,que se obtém utilizando a seguinte metodologia:• Antes do limite inferior da 1ª classe, l1, afrequência acumulada é nula, pelo que se traçaum segmento sobre o eixo d<strong>os</strong> xx, até esseponto;• No limite inferior da 2ª classe, l2, afrequência acumulada é a frequência da classeanterior, f1. Admitindo que a frequência sedistribui uniformemente no intervalo de classe,unim<strong>os</strong> <strong>os</strong> pont<strong>os</strong> de coordenadas (l1,0) e (l2,f1);Da maneira como foi construída, a funçãocumulativa tem algumas propriedadesimportantes, nomeadamente:• Está definida <strong>para</strong> todo o x real ( narepresentação gráfica anterior escolhem<strong>os</strong>arbitrariamente o valor da abcissa igual a 25<strong>para</strong> começar a construir a função cumulativa);• É sempre não decrescente;


pág. 117# Estatística Descritiva com EXCEL• Só assume valores no intervalo [0, 1];• Permite obter informação sobre qual o valorda abcissa a que corresponde determinadafrequência acumulada.Vam<strong>os</strong> explorar um pouco mais esta últimapropriedade.Suponham<strong>os</strong> que se pretendia saber, a partir darepresentação gráfica da função cumulativa, obtida<strong>para</strong> o exemplo anterior, qual o valor aproximado<strong>para</strong> a idade a que corresponde uma frequênciarelativa acumulada de 50%. De acordo com afigura, este valor deve estar na classe [50, 55[.Recordam<strong>os</strong> que a técnica utilizada permitiu¬n<strong>os</strong>obter um valor aproximado <strong>para</strong> a mediana, cujovalor exacto só poderia ter sido determinado apartir d<strong>os</strong> dad<strong>os</strong> originais, antes de procederao agrupamento. Aliás, verem<strong>os</strong> mais à frentea determinação desta e de outras medidas,utilizando o Excel.Se em vez de pretenderm<strong>os</strong> determinar o valora que corresponde a percentagem de 50%,procurássem<strong>os</strong> <strong>os</strong> valores a que correspondemas percentagens de 25% ou 75%, obteríam<strong>os</strong><strong>os</strong> chamad<strong>os</strong> quartis, respectivamente 1.º e3.º quartil, e a metodologia utilizada <strong>para</strong> <strong>os</strong>determinar a partir da função cumulativa seriaidêntica à utilizada <strong>para</strong> determinar a mediana.2.3.3 – Outras representações gráficas<strong>Um</strong>a vez que se admite que a frequência sedistribui uniformemente sobre a amplitude declasse, isto é a frequência 0,196 (=0,687-0,491)distribui-se uniformemente sobre o intervalo deamplitude 5, através da resolução de uma equaçãode proporcionalidade, obtém-se o valor queandávam<strong>os</strong> à procura:0196 , 5=0,009 x0009 , x5x = = 0,220196 ,Além das representações gráficas consideradasanteriormente, em que destacam<strong>os</strong> o diagramade barras <strong>para</strong> dad<strong>os</strong> discret<strong>os</strong> e o histograma<strong>para</strong> dad<strong>os</strong> contínu<strong>os</strong>, existem ainda outrasrepresentações que podem ser utilizadas <strong>para</strong>dad<strong>os</strong> qualitativ<strong>os</strong> ou quantitativ<strong>os</strong> – diagramacircular, ou dad<strong>os</strong> quantitativ<strong>os</strong> – caule-e-folhase diagrama de extrem<strong>os</strong> e quartis. Todas estasrepresentações já foram objecto de estudo nomódulo de Estatística, pelo que privilegiarem<strong>os</strong>aqui a forma de <strong>os</strong> construir utilizando o Excel.onde 0,009=0,5-0,491. Então o valor pretendidoé 50 + 0,22 = 50,22 an<strong>os</strong>, ou seja 50 an<strong>os</strong>.Ao valor obtido anteriormente, a que correspondeuma frequência acumulada de 50%, chamam<strong>os</strong>mediana. A mediana, que já foi objecto de estudono módulo de Estatística, divide a distribuição dasfrequências em duas partes iguais.2.3.3.1 – Diagrama circularEsta representação, utilizada essencialmente <strong>para</strong>dad<strong>os</strong> qualitativ<strong>os</strong>, é constituída por um círculo,em que se apresentam vári<strong>os</strong> sectores circulares,tant<strong>os</strong> quantas as classes consideradas na tabelade frequências da am<strong>os</strong>tra em estudo. Os ângul<strong>os</strong>d<strong>os</strong> sectores são proporcionais às frequências dasclasses. A representação deste diagrama, em Excel,é imediata, apresentando várias modalidades.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 118Exemplo 2.3.5 – Apresente sob a forma de umdiagrama circular a distribuição d<strong>os</strong> deputad<strong>os</strong>do ficheiro Deputad<strong>os</strong>.xls segundo o grupoparlamentar. Esta variável já foi objecto de estudonum exemplo anterior, de forma que recorrem<strong>os</strong>à tabela de frequências já calculada, <strong>para</strong> obter arepresentação gráfica pretendida. Seleccionamseas células com as classes e as respectivasfrequências absolutas ou relativas e no menuChart seleccionassem Pie, a modalidade desejada:Nesta representação considerám<strong>os</strong> 4 caulese o intervalo entre caules sucessiv<strong>os</strong> é de 10unidades. No caule 3 pendurám<strong>os</strong> todas as folhasdeste caule e o mesmo foi feito com tod<strong>os</strong> <strong>os</strong>outr<strong>os</strong> caules. É como se tivéssem<strong>os</strong> consideradoas classes [30, 40[, [40, 50[, [50, 60[ e [60, 70[<strong>para</strong> agrupar <strong>os</strong> dad<strong>os</strong>. Suponham<strong>os</strong> que em vezde considerar estas classes, de amplitude 10,estávam<strong>os</strong> interessad<strong>os</strong> em considerar classes deamplitude 5, a saber [30, 35[, [35, 40[, [40, 45[,[45, 50[, [50, 55[, [55, 60[, [60, 65[ e [65, 70[.Então a representação anterior teria o seguinteaspecto:2.3.3.2 – Caule-e-folha3 1 3 43 84 2 2 3 44 6 7 85 1 1 1 2 2 2 45 6 7 7 96 0 1 1 3 3 36 5 6Esta representação, como se sabe, é umarepresentação que se pode considerar entre atabela e o gráfico, uma vez que são apresentad<strong>os</strong><strong>os</strong> verdadeir<strong>os</strong> valores da am<strong>os</strong>tra, mas de formasugestiva, que faz lembrar um histograma. Antesde abordarm<strong>os</strong> a forma de construir um caule¬efolhasutilizando o Excel, vam<strong>os</strong> apresentar umexemplo, que n<strong>os</strong> poderá ajudar a compreender <strong>os</strong>pass<strong>os</strong> necessári<strong>os</strong> <strong>para</strong> essa construção.Exemplo 2.3.6 – Considerem<strong>os</strong> a seguinteam<strong>os</strong>tra constituída pela idade de 30deputad<strong>os</strong>,escolhid<strong>os</strong> aleatoriamente da tabela dedeputad<strong>os</strong> do ficheiro Deputad<strong>os</strong>.xls:63 59 31 51 51 61 4265 48 63 57 43 54 425251 57 34 38 44 61 6056 66 63 52 47 33 4652Qualquer que seja a representação considerada,qualquer caule tem sempre a p<strong>os</strong>sibilidade deter penduradas o mesmo número de folhas. Noexemplo anterior , no primeiro sub caule 3 (ou 4,ou 5, ou 6) aparecem penduradas as folhas 0,1, 2, 3 e 4, enquanto que no segundo sub caule3 (ou 4, ou 5, ou 6) aparecem penduradas asfolhas 5, 6, 7, 8 e 9). <strong>Um</strong>a outra p<strong>os</strong>sibilidadeseria considerar classes de amplitude 2, fazendocada caule dividido em 5 sub caules e cabendoa cada sub caule 2 folhas (repare-se com aanalogia com a construção do histograma, em queconsiderám<strong>os</strong> as classes com igual amplitude).A esta amplitude de classe é usual chamarcomprimento de linha.Não existe no Excel uma representação imediata<strong>para</strong> a construção de um caule-e-folhas, peloque vam<strong>os</strong> utilizar um processo desenvolvido porNeville Hunt (Hunt, 2001), <strong>para</strong> o Excel:


pág. 119• 1º passo – Insira <strong>os</strong> dad<strong>os</strong> na coluna C, começando na célula C2; se não estiverem ordenad<strong>os</strong>,ordene-<strong>os</strong> por ordem crescente;• 2º passo – Insira na célula E1 o valor que deseja <strong>para</strong> o comprimento de linha: 10, 5 ou 2 ou umapotência de 10, destes valores;• 3º passo – Na célula A2 escreva a seguinte fórmula = INT(C2/E$1)*E$1 e replique-a tantas vezesquant<strong>os</strong> <strong>os</strong> dad<strong>os</strong> inserid<strong>os</strong> no 1º passo, na coluna C;• 4º passo – Na célula B2 escreva o valor 1. Na célula B3 escreva a fórmula = IF (A3=A2; B2+1; 1)e replique a fórmula, tantas vezes quant<strong>os</strong> <strong>os</strong> dad<strong>os</strong> inserid<strong>os</strong> no 1º passo, na coluna C;• 5º passo – Seleccione as células das colunas A, B e C com <strong>os</strong> resultad<strong>os</strong> obtid<strong>os</strong> n<strong>os</strong> pass<strong>os</strong>anteriores e no módulo Chart Wizard (Assistente de Gráfic<strong>os</strong>) escolha Bubble;• 6º passo – Faça um duplo clique numa das bolas representadas e na janela Format data Series (ouclique com o botão direito do rato e seleccione Format data Series) - seleccione Patterns: - Border:None - Area: None - Data Labels: Show bubbles sizes - OK;• 7º passo – Faça um duplo clique numa das “Data labels” (ou clique com o botão direito do rato eseleccione Format Data Labels), e na janela Format Data Labels, em Alignment: - Label P<strong>os</strong>ition:Centre - OK;• 8º passo – Clique numa das linhas horizontais que atravessam o gráfico e apague-as com a teclaDelete. Faça o mesmo ao fundo cinzento, seleccionando-o e carregando na tecla Delete. Apaguetambém a legenda.• 9º passo – Formate convenientemente <strong>os</strong> eix<strong>os</strong>.Na folha de Excel, se mudarm<strong>os</strong> o valor docomprimento de linha <strong>para</strong> 5, aparece deimediato a seguinte representação (aparte umaformatação adequada do eixo d<strong>os</strong> xx):Repare-se que, embora as notações usadas<strong>para</strong> <strong>os</strong> caules e as folhas não sejam idêntic<strong>os</strong>a<strong>os</strong> da representação inicialmente considerada,feita sem o recurso ao Excel, o aspecto gráficoé o mesmo. Para uma maior semelhança,seleccionám<strong>os</strong> o eixo d<strong>os</strong> yy e fizem<strong>os</strong> Delete:


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 1202.3.3.3 – Diagrama de extrem<strong>os</strong> e quartisEsta representação, muito simples, mas bastanteelucidativa ao realçar a informação contidan<strong>os</strong> dad<strong>os</strong>, no que diz respeito à simetria evariabilidade, pressupõe que se calculem algumasestatísticas necessárias <strong>para</strong> a sua construção.Mais uma vez estam<strong>os</strong> perante uma representaçãográfica cuja construção, por meio do Excel,necessita de alguns “truques”. Assim, o primeiropasso <strong>para</strong> uma dessas construções, consiste emrepresentar, adequadamente, numa folha de Excel,as estatísticas Mínimo, Máximo. 1.º e 3.º quartise mediana.Exemplo 2.3.7 – Construa um diagrama deextrem<strong>os</strong> e quartis <strong>para</strong> a variável idade d<strong>os</strong>deputad<strong>os</strong> do ficheiro Deputad<strong>os</strong>.xls.Construção do diagrama de extrem<strong>os</strong> e quartis,em Excel:1. Utilizando o Excel, começam por secalcular as estatísticas necessárias1, que seapresentam da seguinte forma:2. Seleccionar as células que contêm asEsta representação de um conjunto de dad<strong>os</strong>,num diagrama de extrem<strong>os</strong> e quartis, éespecialmente indicada <strong>para</strong> com<strong>para</strong>ção de váriasam<strong>os</strong>tras, como se exemplifica a seguir:Exemplo 2.3.8 – Registou-se o comprimento, emcentímetr<strong>os</strong>, das asas de 32 melr<strong>os</strong>-fêmeas e25 melr<strong>os</strong>-macho, tendo-se obtido <strong>os</strong> seguintesresultad<strong>os</strong>:Melro-fêmea -11,2 11,7 12,0 12,1 12,2 12,2 12,312,3 12,4 12,4 12,4 12,4 12,5 12,512,5 12,5 12,6 12,6 12,7 12,7 12,712,8 12,8 12,8 12,8 13,0 13,1 13,113,2 13,5 13,6 13,8Melro-macho -13,0 13,4 13,5 13,5 13,5 13,6 13,613,7 13,8 13,8 13,8 13,9 14,0 14,014,1 14,1 14,1 14,2 14,3 14,3 14,414,4 14,4 14,4 14,8estatísticas, assim como as suas etiquetas:E2 a F6;3. No módulo Chart Wizard (Assistente deGráfic<strong>os</strong>) seleccionar:Line -Seleccionar Line with markers displayedat each data value- Clicar Next -SeleccionarSeries in Rows Clicar -FinishUtilizando uma representação adequada, compare<strong>os</strong> dois conjunt<strong>os</strong> de dad<strong>os</strong>.Começám<strong>os</strong> por introduzir <strong>os</strong> dad<strong>os</strong> numa folhade Excel, calculando de seguida as característicasam<strong>os</strong>trais relevantes <strong>para</strong> a construção de umdiagrama de extrem<strong>os</strong> e quartis:4. Clicar com o botão direito do rato num d<strong>os</strong>pont<strong>os</strong>. Seleccionar:Format Data Series -Seleccionar OptionsEscolher -High-low lines e Up-down bars;Ajuste à sua escolha Gap width; OK5. Arranjar “esteticamente” o gráfico:


pág. 121# Estatística Descritiva com EXCELPara proceder à construção do diagrama deextrem<strong>os</strong> e quartis comece por seleccionar ascélulas que contêm <strong>os</strong> valores das característicasam<strong>os</strong>trais, assim como as etiquetas (células D1a F6), e proceda de acordo com as instruçõesdadas no exemplo anterior. Depois de formatarconvenientemente o eixo d<strong>os</strong> yy, obterá a seguinterepresentação:2.4 – Alguns exempl<strong>os</strong>As linhas a unir as caixas podem ser removidas,seleccionando cada uma, com o botão direito dorato e seleccionando sucessivamente:Format-Data Series- Patterns-Line: None - OkA seguir apresentam<strong>os</strong> alguns exempl<strong>os</strong>, sobre aforma de project<strong>os</strong>, <strong>para</strong> <strong>os</strong> quais podem<strong>os</strong> utilizarvári<strong>os</strong> tip<strong>os</strong> de representações gráficas, algumasjá referidas anteriormente, outras introduzidaspela primeira vez, mas que apresentam realizaçãoimediata com o Excel.Projecto 1Neste projecto são apresentad<strong>os</strong> alguns dad<strong>os</strong>relativamente à Modificação da Estrutura dasCategorias de Pensões entre 1993 e 2001 (empont<strong>os</strong> percentuais) (Eur<strong>os</strong>tat – Statistiques enbref – Population et conditions sociales, 8/2004):O gráfico anterior é bastante elucidativo namedida em que m<strong>os</strong>tra que o tamanho das asasdo melro-macho é, de um modo geral superior aodo melro-fêmea, apresentando ainda uma maiorvariabilidade.Velhice Sobrevivência Invalidez Pre-reformaEu-15 2,8 -0,8 -1,7 -0,4Bélgica 3,2 -2,1 -0,4 -0,7Alemanha 1,1 -0,5 -0,7 0,1Grécia 1,9 1,5 -1,5 -1,7Espanha 3,3 -3 -1 0,7França 2,6 -1,1 -0,8 -0,7Irlanda -7,1 0 3,1 4Itália 4,1 -0,7 -2,2 -1,3Luxemburgo 2 -1,1 0 -0,9Holanda 6,2 0,2 -5,9 -0,4Áustria 0,2 -2,4 -2,9 5,1Portugal 6,6 -0,4 -5,2 - 1Finlândia 4,1 -0,5 -2,7 -0,8Dinamarca 0,3 0 -0,8 0,5Suécia 1,4 -0,3 -1,4 0,3Reino-Unido 3,3 0,3 -3,6 0


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 122<strong>Um</strong>a forma adequada <strong>para</strong> representar estesdad<strong>os</strong>, é através de um diagrama de barras,nomeadamente barras horizontais, seleccionandona opção Chart o 2º tipo da opção Bar:Podem<strong>os</strong> ainda acrescentar sobre o gráfico<strong>os</strong> valores quando houver conveniência emdisponibilizar esta informação. Para isso bastaseleccionar Chart Options - Data labels - ShowValue:Vam<strong>os</strong> fazer alguma “c<strong>os</strong>mética” na representaçãográfica anterior, nomeadamente mudando aescala <strong>para</strong> –8 a 8 e fazendo com que as legendasnão se sobreponham ao gráfico:Projecto 2Entre <strong>os</strong> dois últim<strong>os</strong> recenseament<strong>os</strong> da populaçãoportuguesa, <strong>os</strong> Cens<strong>os</strong> 91 e <strong>os</strong> Cens<strong>os</strong> 2001, realizad<strong>os</strong>,respectivamente, em 15 de Abril de 1991e 12 de Março de 2001, verificou-se que a populaçãoresidente no território nacional passou de9.867.147 <strong>para</strong> 10.356.117 habitantes, a quecorresponde um acréscimo de 4.8%. Na generalidadedas regiões verificou-se um aumento dapopulação, com excepção das regiões do Alentejoe Madeira. Partindo d<strong>os</strong> resultad<strong>os</strong> censitári<strong>os</strong>definitiv<strong>os</strong>, estimou-se a população residente em31 de Dezembro de 2002 em 10.407.500 indivídu<strong>os</strong>,d<strong>os</strong> quais 5.030.200 do sexo masculino.


pág. 123# Estatística Descritiva com EXCELApresentam-se a seguir algumas tabelas egráfic<strong>os</strong> com alguns indicadores (www.ine.pt):1.Nad<strong>os</strong>-viv<strong>os</strong> segundo a filiação – 2002<strong>Um</strong>a representação adequada <strong>para</strong> a tabelaanterior é o diagrama circular. Assim, vam<strong>os</strong>seleccionar Chart - Pie - 1ºsubtipo - Next - Next- Data labels - Show label and percent - Finish:Nad<strong>os</strong>-viv<strong>os</strong> segundo a filiação, por regiões:Observação: Foi p<strong>os</strong>sível optarm<strong>os</strong> pela representaçãográfica anterior, uma vez que <strong>os</strong> dad<strong>os</strong>das duas características em estudo somavam100%.Acrescentám<strong>os</strong> à tabela anterior uma outracoluna – células C6 a C13, com <strong>os</strong> filh<strong>os</strong> forado casamento e decidim<strong>os</strong> aqui optar por umarepresentação em barras verticais. Assim, depoisde seleccionar as células A5 a C13, fizem<strong>os</strong>Chart - Column - 3ºsubtipo- Next - Next - Datalabels - Show value - Titles - Chart title - % defilh<strong>os</strong> - Finish:Outra representação p<strong>os</strong>sível obtém-se seleccionandoChart - Column - 1ºsubtipo - Next- Data labels - Show value - Titles - Chart title - %de filh<strong>os</strong> - Finish:


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 1242. Taxa de mortalidade fetal tardia (Taxa mft)(28 ou mais semanas de gestação):1960 26.5‰1965 23.2‰1970 21.7‰1975 15.2‰1980 11.8‰1985 9.6‰1990 6.9‰995 5.5‰2000 3.7‰2002 3.4‰Repare-se, no entanto, que a representaçãoanterior não está correcta, pois a variável tempodo eixo d<strong>os</strong> xx está a ser interpretada como umavariável qualitativa e não quantitativa como deveriaser. Assim, o intervalo entre 1995 e 2000 é igualao intervalo entre 2000 e 2002, o que obviamentenão está correcto.3. Taxa de mortalidade infantilIntroduzim<strong>os</strong> a tabela anterior numa folha de Excele antes de procederm<strong>os</strong> a uma representaçãográfica passám<strong>os</strong> <strong>os</strong> pont<strong>os</strong> <strong>para</strong> vírgulas eretirám<strong>os</strong> a permilagem, não reconhecida noExcel.Seguidamente depois de seleccionar as célulasA15 a B25, seleccionám<strong>os</strong> Chart - XY(Scatter)- 2ºsubtipo - Next - Next - Legend:Retirar aselecção de Show Legend - Titles - ‰ em Value(Y)- Finish:1960 77.5‰1965 64.9‰1970 58.0‰1975 38.9‰1980 24.3‰1985 17.8‰1990 10.9‰1995 7.5‰2000 5.5‰2002 5.0‰A representação gráfica d<strong>os</strong> dad<strong>os</strong> desta tabelapode ser idêntica à do ponto anterior.4. Casament<strong>os</strong> segundo a forma de celebraçãoPara esta tabela pode-se usar uma representaçãográfica idêntica à usada no ponto 1, <strong>para</strong>m<strong>os</strong>trar a percentagem de filh<strong>os</strong> dentro e fora docasamento.Chamam<strong>os</strong> a atenção <strong>para</strong> o facto de ser p<strong>os</strong>sívelobter uma representação aparentemente semelhanteà anterior utilizando a opção Chart - Line- 4ºsubtipo - Next - Next - Legend - Retirar aselecção de Show Legend - Titles - ‰ em Value(Y)- Finish:


pág. 125# Estatística Descritiva com EXCELUnidade % Civil Católico1960 9.2 90.81965 11.8 88.21970 13.4 86.61975 20.0 80.01980 25.3 74.71985 25.9 74.11990 27.5 72.51995 31.2 68.82000 35.2 64.82002 37.5 62.55. População estrangeira com estatuto legal deresidente segundo a nacionalidadeAmérica 17,1%Europa 30,2%África 47,8%Outr<strong>os</strong> 4,9%ÁfricaAngola 10,3%Cabo Verde 21,9%Guiné Bissau 8,0%Outr<strong>os</strong> 7,6%Para representar <strong>os</strong> dad<strong>os</strong> da tabela seguinte:Africana(1) EuropeiaOutraPara fazer uma representação destes dad<strong>os</strong>recorrem<strong>os</strong> a um diagrama em Pie (circular),mas num subtipo especial que permite visualizara forma como África está repartida. Assimconsidere-se a seguinte tabela em Excel,ocupando as células A47 a B53 e seleccione-seChart - Pie - 6ºsubtipo - Next - Next - Data labels- Show label and percent - Legend - Retirar aselecção de Show Legend - Finish:1990 45 31 311991 48 33 331992 52 35 371993 58 35 441994 73 42 431995 79 45 441996 81 47 441997 82 50 441998 83 52 431999 90 57 452000 99 57 522001 107 67 502002 114 72 52(1)Unidade 10 3Podem<strong>os</strong> considerar o 2.º subtipo de Column(chama-se a atenção <strong>para</strong> que neste caso nã<strong>os</strong>eria correcto utilizar o 3.º subtipo de Column,uma vez que estam<strong>os</strong> <strong>os</strong> dad<strong>os</strong> estão em númeroabsoluto e não em percentagem):Para incluir Cabo Verde na parte direita do gráficocarregar com o botão direito do rato em qualquerparte do gráfico e seleccionar Format DataSeries - Second plot contais the last: 4 - Finish.Finalmente substituir Other (com 48%) por África:


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 1263. Característicasam<strong>os</strong>trais. Medidasde localizaçãoe dispersão3.1 - IntroduçãoNo módulo de Estatística foram apresentadasas medidas ou estatísticas que se utilizam <strong>para</strong>resumir a informação contida n<strong>os</strong> dad<strong>os</strong>. Destasmedidas, destacam-se as medidas de localização,nomeadamente as que localizam o centro daam<strong>os</strong>tra, e as medidas de dispersão, que medema variabilidade d<strong>os</strong> dad<strong>os</strong>.ou o 2.º subtipo de XY(Scatter):Neste capítulo não n<strong>os</strong> debruçarem<strong>os</strong> sobre aspropriedades destas medidas, já apresentadasno módulo referido anteriormente, abordand<strong>os</strong>obretudo a forma de as calcular, utilizandoo Excel. Convém desde já adiantar que este éum trabalho grandemente facilitado pelo factode existirem funções no Excel que n<strong>os</strong> dãodirectamente estas medidas.Para facilidade de exp<strong>os</strong>ição vam<strong>os</strong> representara am<strong>os</strong>tra de dimensão n por x1, x2, ..., xn ondex1, x2, ..., xn representam, respectivamente, <strong>os</strong>resultad<strong>os</strong> da 1ª observação, da 2ª observação,da n-ésima observação, a serem recolhidas, nãopressupondo qualquer ordenação.Como vim<strong>os</strong> há várias representações gráficas<strong>para</strong> <strong>os</strong> dad<strong>os</strong> de uma mesma tabela, umasmais sugestivas do que outras. Desde que arepresentação escolhida esteja correcta, deixasea liberdade da escolha ao “artista” que está aorganizar e a reduzir <strong>os</strong> dad<strong>os</strong>.


pág. 127# Estatística Descritiva com EXCEL3.2 – Medidas de localizaçãoComo medidas de localização, vam<strong>os</strong> apresentar amédia, mediana e quartis.3.2.1 – MédiaA média é uma medida de localização do centroda distribuição d<strong>os</strong> dad<strong>os</strong>. Dada a am<strong>os</strong>tra x1,x2, ..., xn, a média representa-se por x e obtémseadicionando tod<strong>os</strong> <strong>os</strong> element<strong>os</strong> e dividindo oresultado por n. Em Excel, determina-se a médiaatravés da função AVERAGE (), que retorna amédia aritmética d<strong>os</strong> seus argument<strong>os</strong>, quepodem ser númer<strong>os</strong> ou endereç<strong>os</strong> de células.2- Cálculo da média, a partir d<strong>os</strong> dad<strong>os</strong>agrupad<strong>os</strong>: Adicionar à tabela de frequênciasuma nova coluna com o produto d<strong>os</strong> valoresque constituem as classes, pelas respectivasfrequências relativas (Células H3 a H9) e somar<strong>os</strong> valores obtid<strong>os</strong> (Célula H10):Exemplo 3.2.1 – Retomem<strong>os</strong> a am<strong>os</strong>tra doexemplo 2.3.2, constituída pelo número de filh<strong>os</strong>de 30 deputad<strong>os</strong>:2, 1, 2, 3, 0, 0, 1, 1, 4, 1, 2, 1, 0, 0, 0, 2, 3,1, 1, 6, 3, 1, 3, 2, 0, 1, 2, 0, 2, 3Calcule a média da am<strong>os</strong>tra. Considerám<strong>os</strong> oficheiro Filh<strong>os</strong>.xls, constituído no exemplo 2.3.2,em que <strong>os</strong> element<strong>os</strong> de que pretende calcular amédia ocupam as células A2 a A31:No caso de dad<strong>os</strong> discret<strong>os</strong>, como é o casoanterior, o valor da média é o mesmo, quer sejacalculada utilizando <strong>os</strong> dad<strong>os</strong> originais, quer<strong>os</strong> dad<strong>os</strong> agrupad<strong>os</strong> (utilizando as frequênciasrelativas), em que as classes do agrupamento são<strong>os</strong> diferentes valores que surgem na am<strong>os</strong>tra. Omesmo não acontece no caso de dad<strong>os</strong> contínu<strong>os</strong>,como exemplificam<strong>os</strong> a seguir.Exemplo 3.2.2 – Calcule a média das idades d<strong>os</strong>deputad<strong>os</strong> do ficheiro Deputad<strong>os</strong>.xls.Para calcular a média pretendida, assim como<strong>para</strong> qualquer outro conjunto de dad<strong>os</strong> de tipodiscreto, podem<strong>os</strong> proceder de dois mod<strong>os</strong>, querconsiderando <strong>os</strong> dad<strong>os</strong> originais, quer agrupad<strong>os</strong>.1- Cálculo da média, a partir d<strong>os</strong> dad<strong>os</strong> originais,utilizando a função AVERAGE(): Colocar o cursorna célula onde se pretende colocar a média,por exemplo a célula E11, e inserir a funçãoAVERAGE(A2:A31) – <strong>os</strong> argument<strong>os</strong> desta funçã<strong>os</strong>ão <strong>os</strong> endereç<strong>os</strong> onde estão <strong>os</strong> element<strong>os</strong> daam<strong>os</strong>tra. Como resultado obtém-se o valor 1,6,que se apresenta na figura seguinte.Para obter a média das idades procede-se comono primeiro caso do exemplo anterior, a partir d<strong>os</strong>dad<strong>os</strong> originais. Estes dad<strong>os</strong> encontram-se nascélulas C2 a C231 do ficheiro Idade.xls, Inserindoa função AVERAGE(C2:C231) na célula L13,obtem<strong>os</strong> o valor de 48,66 an<strong>os</strong>.Admitindo que não dispúnham<strong>os</strong> d<strong>os</strong> dad<strong>os</strong> originais,mas apenas de uma tabela de frequênciascom <strong>os</strong> dad<strong>os</strong> agrupad<strong>os</strong>, vejam<strong>os</strong> como obter umvalor aproximado <strong>para</strong> a média.Reportando-n<strong>os</strong> ainda ao ficheiro Idade.xls, considerem<strong>os</strong>a tabela de frequências que serviu <strong>para</strong>agrupar <strong>os</strong> dad<strong>os</strong>. Para obter um valor aproximado<strong>para</strong> a média, procedem<strong>os</strong> da seguinte forma:


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 128• Adicionar à tabela de frequências uma novacoluna com <strong>os</strong> pont<strong>os</strong> médi<strong>os</strong> d<strong>os</strong> interval<strong>os</strong> declasse, que se obtêm fazendo a semi-soma d<strong>os</strong>limites d<strong>os</strong> interval<strong>os</strong> (células S4 a S11);• Adicionar à tabela uma nova coluna com <strong>os</strong>produt<strong>os</strong> d<strong>os</strong> pont<strong>os</strong> médi<strong>os</strong> d<strong>os</strong> interval<strong>os</strong> declasse, pelas frequências relativas respectivas(células T4 a T11);• Somar <strong>os</strong> resultad<strong>os</strong> das células T4 a T11(célula T12):Repare-se que o valor obtido de 48,69 <strong>para</strong> amédia, é muito próximo do verdadeiro valor obtidocom <strong>os</strong> dad<strong>os</strong> originais.Se <strong>os</strong> dad<strong>os</strong> se apresentarem agrupad<strong>os</strong>, já vim<strong>os</strong>na secção 3.2.2 do capítulo 2, um processo deobter a mediana através da função cumulativa. Noentanto, não é necessário construir esta função<strong>para</strong> obter um valor aproximado <strong>para</strong> a mediana,pois este pode ser obtido a partir da tabelade frequências, utilizando ainda o processo deinterpolação.Exemplo 3.2.4 – A partir do agrupamentoconsiderado, no exemplo 2.3.3, <strong>para</strong> a variávelidade, calcule um valor aproximado <strong>para</strong> a mediana.Adicionando à tabela de frequências uma novacoluna com as frequências relativas acumuladas,verificam<strong>os</strong> que a mediana se encontra na classe[45,1; 50,8[, pois a frequência acumulada de 50%é atingida nesta classe:3.2.2 – MedianaOutra medida de localização do centro d<strong>os</strong> dad<strong>os</strong> éa mediana. Ordenad<strong>os</strong> <strong>os</strong> element<strong>os</strong> da am<strong>os</strong>tra, amediana, m, é o valor (pertencente ou não à am<strong>os</strong>tra)que a divide ao meio, isto é, 50% d<strong>os</strong> element<strong>os</strong> daam<strong>os</strong>tra são menores ou iguais a m e <strong>os</strong> restantes50% são maiores ou iguais a m. Em Excel, determinasea mediana através da função MEDIAN(), queretorna a mediana d<strong>os</strong> seus argument<strong>os</strong>, que podemser númer<strong>os</strong> ou endereç<strong>os</strong> de células.Exemplo 3.2.3 – Calcule a mediana das idades d<strong>os</strong>deputad<strong>os</strong>. Compare com o valor obtido <strong>para</strong> amédia e diga o que poderia concluir da forma como<strong>os</strong> dad<strong>os</strong> se distribuem.Voltando ao ficheiro Idade.xls, utilizado no exemploanterior, insira na célula R15 a função Median(C2:C231) e obterá como retorno, o valor 50, com<strong>os</strong>e verifica na figura seguinte. O valor obtido <strong>para</strong>a mediana é ligeiramente superior ao da média,pelo que podem<strong>os</strong> admitir que a distribuiuçãoé aproximadamente simétrica, com um ligeiroenviesamento <strong>para</strong> a esquerda.Admitindo que a frequência se distribui uniformementesobre a amplitude de classe, isto é,a frequência 0,165 se distribui uniformementesobre o intervalo de amplitude 5,7, resolvendo aequação de proporcionalidade0165 , 57 ,=0122 , x0122 , x57,x 4,20165 ,onde 0,122=0,5-0,378, obtem<strong>os</strong> <strong>para</strong> a medianao valor aproximado 45,1 + 4,2 = 49,3.


pág. 129# Estatística Descritiva com EXCELChamam<strong>os</strong> a atenção <strong>para</strong> o seguinte facto: ovalor (aproximado) que se obtém <strong>para</strong> a mediana,depende do agrupamento que se fizer <strong>para</strong> <strong>os</strong>dad<strong>os</strong>, pelo que agrupament<strong>os</strong> diferentes darãoorigem a valores diferentes, embora não difirammuito uns d<strong>os</strong> outr<strong>os</strong> (Lembram<strong>os</strong> que o valor damediana apresentado na figura anterior foi obtidoa partir d<strong>os</strong> dad<strong>os</strong> não agrupad<strong>os</strong>). .0 – mínimo1 – 1º quartil2 – mediana3.2.3 – Quartis3 – 3º quartil4 – máximoOs quartis, 1.º e 3.º, definem-se de formaidêntica à mediana, mas considerando em vez dapercentagem de 50%, respectivamente 25% <strong>para</strong>o 1º quartil, Q1, e 75% <strong>para</strong> o 3.º quartil, Q3.Há vári<strong>os</strong> process<strong>os</strong> <strong>para</strong> a determinação d<strong>os</strong>quartis, nem sempre conduzindo a<strong>os</strong> mesm<strong>os</strong>resultad<strong>os</strong>. Este facto não é preocupante,pois de um modo geral nas situações que têminteresse em estatística, as am<strong>os</strong>tras têmdimensão suficientemente elevada de forma que<strong>os</strong> diferentes process<strong>os</strong> conduzem a valorespróxim<strong>os</strong>.Em Excel a determinação d<strong>os</strong> quartis faz-seutilizando a função QUARTILE(array;quart):Repare que a função Quartile(array;quart) temdois argument<strong>os</strong>, em que o primeiro argumento éo endereço das células de que querem<strong>os</strong> calcular oquartil e o segundo argumento pode tomar vári<strong>os</strong>valores, conforme a medida de localização, deentre as seguintes, que n<strong>os</strong> interesse calcular:Assim, esta função, além do 1.º e 3.º quartis, a queestão associadas as percentagens 25% e 75%,respectivamente, ainda calcula a mediana, a queestá associada a percentagem de 50% e o mínimo emáximo com percentagens associadas de 0% e 100%.Exemplo 3.2.5 – Escolha <strong>os</strong> primeir<strong>os</strong> 15element<strong>os</strong> da variável Idade, do ficheiro Idade.xls.Obtenha o 1º e 3º quartis. Os primeir<strong>os</strong> 15element<strong>os</strong> são <strong>os</strong> seguintes:53 32 61 51 48 56 50 53 44 3937 37 41 40 40Utilizando a função QUARTILE(C2:C16;1) eQUARTILE(C2:C16;3), obtem<strong>os</strong> Q1=39,5 e Q3=52.Se utilizar o processo que aprendeu no módulode Estatística, nomeadamente considerando o1.º quartil como a mediana da primeira parte daam<strong>os</strong>tra, quando esta é dividida pela mediana,depois de ordenar a am<strong>os</strong>tra e tendo em contaque a mediana é 44, tem<strong>os</strong> <strong>para</strong> 1.º quartil o44 48 50 51 53 53 56 61 valor 39,se não considerarm<strong>os</strong> a mediana como pertencentea nenhuma das partes, ou 39,5 seconsiderarm<strong>os</strong> a mediana pertencente àsduas partes. Para o 3º quartil obterem<strong>os</strong>,respectivamente o valor 53 ou 52, utilizando amesma metodologia.Exemplo 3.2.5 (cont) – Repita o exemplo anterior,considerando am<strong>os</strong>tras de dimensão 12 e 13.


pág. 130Considere agora só <strong>os</strong> primeir<strong>os</strong> 12 element<strong>os</strong>. Como a mediana é 49, o 1º quartil – mediana da 1ªparte da am<strong>os</strong>tra, será (37+39)/2=38, enquanto que o 3º quartil será (53+53)/2=53.50 51 53 53 56 61Utilizando o Excel, <strong>os</strong> valores que se obtêm são Q1=38,5 e Q3=53.Considere agora <strong>os</strong> primeir<strong>os</strong> 13 element<strong>os</strong>. Como a mediana é 48, o 1º quartil – mediana da1ª parte da am<strong>os</strong>tra, será (37+39)/2=38, enquanto que o 3º quartil será (53+53)/2=53, nãoconsiderando a mediana como pertencente a nenhuma das partes. Caso contrário, terem<strong>os</strong> Q1=39e Q3=53.48 50 51 53 53 56 61Utilizando o Excel, <strong>os</strong> valores que se obtêm são Q1=39 e Q3=53.Obervação: Repare que <strong>os</strong> valores que se obtêm <strong>para</strong> <strong>os</strong> quartis, recorrendo ao excel não sãoiguais a<strong>os</strong> que se obtiveram sem utilizar o Excel. Efectivamente não existe uniformidade na formade calcular <strong>os</strong> quartis, como já havíam<strong>os</strong> referido anteriormente, embora <strong>os</strong> resultad<strong>os</strong> obtid<strong>os</strong>satisfaçam a definição de quartis. Exemplificando com a mediana, repare que pela definição demediana, quando o número de element<strong>os</strong> da am<strong>os</strong>tra é par, podem<strong>os</strong> considerar <strong>para</strong> medianaqualquer valor compreendido entre <strong>os</strong> dois element<strong>os</strong> médi<strong>os</strong> da am<strong>os</strong>tra ordenada! Não é c<strong>os</strong>tumedeixar esta opção ao critério de cada um e considera-se a semi-soma desses element<strong>os</strong> médi<strong>os</strong>.Voltando a<strong>os</strong> quartis, pode verificar que, no Excel, o 1.º quartil corresponde à observação de ordem(n+3)/4, procedendo-se a uma interpolação, quando necessário (Sugestão – Tente descobrir como écalculado o 3º quartil no Excel).3.3 – Medidas de dispersãoContinuando na mesma linha de apresentação das medidas de localização, também agora não n<strong>os</strong>vam<strong>os</strong> preocupar com as propriedades das medidas de dispersão, pois admitim<strong>os</strong> que estas já foramestudadas no módulo de Estatística. Debruçar-n<strong>os</strong>-em<strong>os</strong> sobre o seu cálculo, utilizando o Excel.A seguir apresentarem<strong>os</strong> o cálculo da variância, desvio padrão e amplitude inter-quartil.3.3.1 – Variância e desvio-padrãoA variância de um conjunto de dad<strong>os</strong>obtém-se fazendo a média d<strong>os</strong> quadrad<strong>os</strong>d<strong>os</strong> desvi<strong>os</strong> d<strong>os</strong> dad<strong>os</strong>, relativamente àmédia.O Excel, tal como as máquinas de calcular,dispõe de duas funções <strong>para</strong> calcular avariância, conforme estejam<strong>os</strong> a calculara variância populacional (parâmetro)ou a variância am<strong>os</strong>tral (estatística).Resumim<strong>os</strong> no quadro seguinte a situaçãode estarm<strong>os</strong> a calcular parâmetr<strong>os</strong> ouestatísticas.População de N element<strong>os</strong>Am<strong>os</strong>tra de n element<strong>os</strong>x 1, x 2, ..., x Nx 1, x 2, ..., x nx1 ... x2 xValor médio =Nx x xMédia x 1 2 ... nNnVariância populacionalVariância am<strong>os</strong>tral2 2) 2 2 ( x ) ( x2) ... ( xN= 1 Ns 2 222( x 2= 1 x)( x x)... ( xn x)n 1Desvio padrão populacional Desvio padrão am<strong>os</strong>tral s


pág. 131# Estatística Descritiva com EXCELEm Excel as funções utilizadas <strong>para</strong> calcular avariância populacional e am<strong>os</strong>tral, são respectivamenteVARP() e VAR(). Como argumento utiliza-se asequência de númer<strong>os</strong> de que se quer calcular avariância, ou o endereço das células que <strong>os</strong> contêm.Por exemplo, no caso da população d<strong>os</strong> deputad<strong>os</strong>,que tem<strong>os</strong> vindo a estudar, tem<strong>os</strong> informaçãocompleta sobre a variável Idade, pelo que a fórmulaque deve ser utilizada <strong>para</strong> obter a variância é a VARP,isto é, esta fórmula dá-n<strong>os</strong> a variância populacional.Se só dispuséssem<strong>os</strong> da idade de alguns deputad<strong>os</strong>,isto é, uma am<strong>os</strong>tra da população em estudo, entãoa fórmula a utilizar seria a VAR, que dá a variânciaam<strong>os</strong>tral. A maneira de calcular as duas variânciasé idêntica, diferindo unicamente no seguinte ponto:enquanto que no caso da variância populacional sedivide a soma d<strong>os</strong> quadrad<strong>os</strong> d<strong>os</strong> desvi<strong>os</strong> pelo númerode parcelas, no caso da variância am<strong>os</strong>tral divide-sea soma d<strong>os</strong> quadrad<strong>os</strong> d<strong>os</strong> desvi<strong>os</strong> pelo número deparcelas men<strong>os</strong> uma.O desvio padrão obtém-se fazendo a raiz quadradada variância ou utilizando uma função própria. Comoé evidente, existem também duas fórmulas <strong>para</strong> ocalcular, obtendo-se o desvio padrão populacionalou am<strong>os</strong>tral, conforme a fórmula utilizada:Repare-se que quando se selecciona a função quese quer utilizar, aparece a descrição do que é quea função faz.Exemplo 3.3.1 – A partir do ficheiro Idade.xls,seleccione uma am<strong>os</strong>tra aleatória simples dedimensão 40. Calcule a variância e o desvio padrãoda am<strong>os</strong>tra obtida. Calcule de seguida a variânciada população constituída pelas idades d<strong>os</strong> 230deputad<strong>os</strong> e compare com a variância da am<strong>os</strong>traobtida anteriormente.Utilizando o processo descrito em 1.3.1.2,seleccionám<strong>os</strong> uma am<strong>os</strong>tra de 40 element<strong>os</strong> quep<strong>os</strong>teriormente colocám<strong>os</strong> nas células A2 a D11,de uma nova folha de Excel. Colocando agorao cursor na célula onde pretendem<strong>os</strong> colocar avariância, por exemplo na célula F4, inserim<strong>os</strong> afunção VAR (A2:D11) e a função retorna um valoraproximadamente igual a 112, <strong>para</strong> a variância daam<strong>os</strong>tra.Para calcular a variância da população das idades,inserim<strong>os</strong> na célula F5 a função VARP(Sheet1!C2:C231), obtendo-se um valor aproximadamenteigual a 101:Com<strong>para</strong>ndo as variâncias, vem<strong>os</strong> que não sãoiguais, o que já seria de esperar, uma vez quea variância am<strong>os</strong>tral foi obtida a partir de 40d<strong>os</strong> 230 dad<strong>os</strong> e é uma estimativa da variânciapopulacional. Se recolherm<strong>os</strong> outra am<strong>os</strong>tra,também de 40 element<strong>os</strong>, não esperam<strong>os</strong> obtero mesmo valor <strong>para</strong> a estimativa. Esperam<strong>os</strong> sim,obter valores aproximad<strong>os</strong>.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 1323.4 – Função Descriptive StatisticsO Excel dispõe de uma função a que se acedeseleccionando Tools - Data Aalysis - DescriptiveStatistics - OKPara calcular o desvio padrão, ou se calcula araiz quadrada (p<strong>os</strong>itiva) do valor da variância,ou se utilizam as funções STDEV() ou STDEVP(),conforme se pretenda o desvio padrão am<strong>os</strong>tralou populacional. No n<strong>os</strong>so caso <strong>os</strong> desvi<strong>os</strong> padrõesam<strong>os</strong>tral e populacional vêm, respectivamente,aproximadamente iguais a 10,6 e 10,0.3.3.2 – Amplitude e amplitude interquartisA amplitude da am<strong>os</strong>tra (não confundir comdimensão da am<strong>os</strong>tra), R, é a medida mais simples<strong>para</strong> medir a variabilidade, mas tem a grandedesvantagem de ser muito sensível à existênciana am<strong>os</strong>tra, de uma observação muito pequenaou muito grande. Não existe, no Excel, umafunção específica <strong>para</strong> a calcular, recorrend<strong>os</strong>eàs funções MAX() e MIN(). Já tivém<strong>os</strong>, aliás,oportunidade de utilizar estas funções quandonecessitám<strong>os</strong> de calcular a amplitude de umconjunto de dad<strong>os</strong>, <strong>para</strong> iniciar a construção deum histograma, com classes de igual amplitude.<strong>Um</strong>a medida mais resistente do que a anterior, éa amplitude interquartis que, como o nome indica,se define como a diferença entre <strong>os</strong> 1.º e 3.ºquartis.Exemplo 3.3.2 – Calcule a amplitude e a amplitudeinterquartis da am<strong>os</strong>tra obtida no exemploanterior. Como <strong>os</strong> element<strong>os</strong> da am<strong>os</strong>tra seencontram nas células A2 a D11, tem<strong>os</strong>:R = MAX(A2:D11) – MIN(A2:D11) = 69-28 = 41Recorrendo à terminologia usada quando definim<strong>os</strong><strong>os</strong> quartis, tem<strong>os</strong>: Amplitude interquartis=QUARTILE(A2:D11;3) – QUARTILE(A2:D11;1) =56,25-39,75=16,5.e cujo resultado é o que se apresenta a seguir:Algumas das funções já são conhecidas das secçõesanteriores. Chamam<strong>os</strong> a atenção <strong>para</strong> o facto dea variância das 230 idades não coincidir com ovalor obtido na secção 3.3.1, uma vez que quand<strong>os</strong>e considera um conjunto de dad<strong>os</strong> e se pedem asEstatísticas descritivas, subentende-se que se estáperante uma am<strong>os</strong>tra e não da população toda! Poresta razão, a fórmula utilizada <strong>para</strong> o cálculo davariância é a da variância am<strong>os</strong>tral.As funções Standard Error, Kurt<strong>os</strong>is e Skewnesssaem fora do âmbito estas folhas, pelo que nãoentrarem<strong>os</strong> em detalhe.


pág. 133# Estatística Descritiva com EXCELQuando se trata de dad<strong>os</strong> qualitativ<strong>os</strong>, não temsentido proceder à representação gráfica d<strong>os</strong>dad<strong>os</strong> através de um diagrama de dispersão. Noentanto, é p<strong>os</strong>sível organizar essa informaçãona forma de tabelas de contingência (quealiás também podem ser usadas <strong>para</strong> dad<strong>os</strong>quantitativ<strong>os</strong>, quer discret<strong>os</strong>, quer contínu<strong>os</strong>,depois de proceder à sua discretização).4. Dad<strong>os</strong> bivariad<strong>os</strong>Vam<strong>os</strong>, neste capítulo, introduzir uma metodologiaque utiliza uma ferramenta do Excel, a PivoTable,que além de permitir construir tabelas decontingência, também pode ser utilizada <strong>para</strong>proceder a agrupament<strong>os</strong> de dad<strong>os</strong> quantitativ<strong>os</strong>.4.1- Introdução4.2 – Tabelas de contingênciaNo módulo de Estatística foi feita referência adad<strong>os</strong> bidimensionais, de tipo quantitativo. Quandodispom<strong>os</strong> de uma am<strong>os</strong>tra de dad<strong>os</strong> bivariad<strong>os</strong>, aqual pode ser representada na forma (x1, y1), (x2,y2),..., (xn, yn), apresentam<strong>os</strong> esta informaçãoatravés de uma representação gráfica a que se dáo nome de Diagrama de dispersão:Diagrama de dispersão – É uma representaçãográfica <strong>para</strong> <strong>os</strong> dad<strong>os</strong> bivariad<strong>os</strong>, em que cadapar de dad<strong>os</strong> (xi, yi), é representado por um pontode coordenadas (xi, yi), num sistema de eix<strong>os</strong>coordenad<strong>os</strong>.Já vim<strong>os</strong> no capítulo 2, a forma de representar,em Excel, dad<strong>os</strong> bivariad<strong>os</strong>, utilizando a opçãoXY(Scatter). Não apresenta qualquer dificuldade aconstrução desta representação gráfica, uma vezque basta proceder da seguinte forma:• Seleccionar as células que contêm <strong>os</strong> dad<strong>os</strong>,organizad<strong>os</strong> em 2 colunas;• Carregar no ícone• seleccionar a opção XY(Scatter) e o subtipopretendido; Formatar convenientemente arepresentação obtida (retirar a legenda, retiraras linhas de grelha, etc).Suponham<strong>os</strong> que estam<strong>os</strong> interessad<strong>os</strong> emestudar a associação entre variáveis de tipoqualitativo como, por exemplo, sexo e religião.<strong>Um</strong>a forma de apresentar <strong>os</strong> dad<strong>os</strong>, é utilizandotabelas de contingência.Exemplo 4.2.1 – <strong>Um</strong>a empresa decidiu estudaro seu pessoal quanto ao estado civil e sexo.Representando por M e F as categorias davariável Sexo, e por C (casado(a)), S (solteiro(a)),D (divorciado(a)) e V (viúvo(a)), obteve a seguintelista: (M,C), (M,S), (F,C), (F,C), (F,S), (M,D), (F,S),(F,V), (F,C), (F,S), (M,C), (F,S), (F,C), (F,V), (M,S),(M,C), (F,S) (Este exemplo é fictício e serveunicamente <strong>para</strong> introduzir o estudo das tabelasde contingência, pois <strong>os</strong> cas<strong>os</strong> interessantes emEstatística envolvem am<strong>os</strong>tras de maior dimensão).Começám<strong>os</strong> porintroduzir estes dad<strong>os</strong>numa folha de Excel,colocando nas célulasA1 e B1 <strong>os</strong> títul<strong>os</strong>,respectivamente Sexo eEstado Civil, e nas célulasA2 a A18 a informaçã<strong>os</strong>obre o sexo d<strong>os</strong> 17element<strong>os</strong> e nas célulasB2 a B18, o respectivoestado civil:


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 134Introduzim<strong>os</strong> uma coluna auxiliar, a que chamám<strong>os</strong>Nº, com o número do par, a qual vai ser utilizada<strong>para</strong> exemplificar a construção de uma tabela decontingência, utilizando as PivotTable.obtendo como resultado:Para criar uma tabela, proceder do seguintemodo:• No menu Data, clicar em PivotTable andPivotChart Report:• No passo 1 da PivotTable and PivotTableWizard, seguir as instruções, e clicar PivotTableà pergunta What kind of report do you want tocreate?• Arrastar o botão Sexo da barra PivotTable,e colocá-lo (drop it) no campo Row; Arrastar obotão Estado civil da barra PivotTable, e colocálo(drop it) no campo Column; Arrastar o botãoNº da barra PivotTable, e colocá-lo (drop it) nocampo Data:• No passo 2 seguir as instruções,seleccionando <strong>os</strong> dad<strong>os</strong> que se pretende usar(não esquecer de seleccionar <strong>os</strong> títul<strong>os</strong>):• Esta tabela, que resulta das operaçõesanteriores, não é a que n<strong>os</strong> interessa, sendoagora necessário clicar 2 vezes no campo Sumof N.º e seleccionar a opção Count:• No passo 3 seleccionar o lugar onde sepretende criar a tabela. Nós optám<strong>os</strong> porseleccionar a célula E1,


pág. 135Finalmente tem<strong>os</strong> a tabela de contingência desejada, que n<strong>os</strong> dá a distribuição conjunta (em valoresabsolut<strong>os</strong>) do par (Sexo, Estado civil), permitindo obter o número de indivídu<strong>os</strong> que satisfazemsimultaneamente cada uma das modalidades (feminino(a),casado(a)), (feminino(a),divorciado(a)), ...(masculino(a),viúvo(a)):O facto da célula correspondente ao F e D estar vazia, significa que não havia indivídu<strong>os</strong> do sexofeminino e divorciad<strong>os</strong>. Esta tabela apresenta ainda as distribuições marginais (em valores absolut<strong>os</strong>)da variável Sexo e Estado civil, respectivamente nas células J3 a J4 e F5 a I5. Efectivamente,através da tabela, pode-se concluir que o número de indivídu<strong>os</strong> do sexo feminino era 11, enquantoque do sexo masculino eram 6. Analogamente, também podem<strong>os</strong> tirar conclusões sobre o número deindivídu<strong>os</strong> em cada modalidade da variável Estado civil.Exemplo 4.2.1 (cont) - Suponham<strong>os</strong> que ao recolher a informação, junto de cada indivíduo, sobre <strong>os</strong>eu estado civil, também se tinha investigado sobre o número de filh<strong>os</strong> (esta informação é relevante<strong>para</strong> o serviço de processamento de salári<strong>os</strong> proceder à retenção do IRS). Construa uma tabela decontingência <strong>para</strong> o par (Sexo, Estado civil).Inserim<strong>os</strong> a informação sobre a variável Nº de filh<strong>os</strong>, e procedem<strong>os</strong> à construção da tabela decontingência da mesma forma que anteriormente, com as alterações convenientes, nomeadamente:• No passo 2 seleccionám<strong>os</strong> as células de A1 a D18;• No passo 3 seleccionám<strong>os</strong> a célula E10, <strong>para</strong> inserir a tabela;• No passo seguinte arrastám<strong>os</strong> o botão Sexo da barra PivotTable, e colocámo-lo no campo Row;Arrastám<strong>os</strong> o botão Nº de filh<strong>os</strong> da barra PivotTable, e colocámo-lo no campo Column; Arrastám<strong>os</strong>o botão Nº de filh<strong>os</strong> da barra PivotTable, e colocámo-lo no campo Data;• Clicám<strong>os</strong> 2 vezes no campo Sum of Nº e seleccionám<strong>os</strong> a opção Count:Nesta 2ª tabela tem<strong>os</strong> a distribuição conjunta do par (Sexo, Nº de filh<strong>os</strong>).


pág. 136Exemplo 4.2.1 (cont) – Proceda como no exemplo anterior, excepto no passo seguinte ao passo 3,em que o botão da variável que arrasta <strong>para</strong> o campo Data é o botão da variável Estado civil. Comeste procedimento o resultado é o seguinte:Quando colocám<strong>os</strong> o botão Estado civil no campo Data, imediatamente obtivem<strong>os</strong> uma tabela igual àanterior, com as contagens, em vez das somas, já que Count é a opção que está seleccionada, pordefeito, quando colocam<strong>os</strong> no campo Data uma variável não numérica.4.3 – Utilização das PivotTables <strong>para</strong> agrupar dad<strong>os</strong>Quando tem<strong>os</strong> um conjunto de dad<strong>os</strong>, já vim<strong>os</strong> no Capítulo 2 a forma de proceder ao seuagrupamento. Vam<strong>os</strong> agora ver, como essa tarefa pode ser feita através da utilização da PivotTable.4.3.1 – Dad<strong>os</strong> de tipo qualitativoVam<strong>os</strong> voltar ao ficheiro Deputad<strong>os</strong>.xls (de que apresentam<strong>os</strong> a seguir uma pequena parte)<strong>para</strong> exemplificar a construção de uma tabela de frequências de uma variável qualitativa, utilizando aPivotTable.


pág. 137# Estatística Descritiva com EXCELExemplo 4.3.1 – Utilizando a PivotTable, procedaao agrupamento de dad<strong>os</strong> da variável Grupoparlamentar, do ficheiro Deputad<strong>os</strong>.xls.• No menu Data, clicar em PivotTable andPivotChart Report;• No passo 1 da PivotTable and PivotTableWizard, seguir as instruções, e clicarPivotTable à pergunta What kind of report doyou want to create?;• No passo 2 seguir as instruções,seleccionando <strong>os</strong> dad<strong>os</strong> que se pretende usar(não esquecer de seleccionar <strong>os</strong> títul<strong>os</strong>). Nestecaso seleccionar as células C1:C231;• No passo 3 seleccionar o lugar onde pretendecriar a tabela. Nós optám<strong>os</strong> por seleccionar acélula AI2;• Arrastar o botão Grupo parlamentar da barraPivotTable, e colocá-lo (drop it) no campo Row;Arrastar o botão Grupo parlamentar e colocá-lo(drop it) no campo Data:Exemplo 4.3.2 - Utilizando a PivotTable, procedaao agrupamento de dad<strong>os</strong> da variável Nº de filh<strong>os</strong>,do ficheiro Filh<strong>os</strong>.xls• No menu Data, clicar em PivotTable andPivotChart Report;• No passo 1 da PivotTable and PivotTableWizard, seguir as instruções, e clicarPivotTable à pergunta What kind of report doyou want to create?;• No passo 2 seguir as instruções,seleccionando <strong>os</strong> dad<strong>os</strong> que se pretende usar(não esquecer de seleccionar <strong>os</strong> títul<strong>os</strong>). Nestecaso seleccionar as células A2 a A31 (quecontêm o n.º de filh<strong>os</strong> de uma am<strong>os</strong>tra de 30deputad<strong>os</strong>);• No passo 3 seleccionar o lugar onde pretendecriar a tabela. Nós optám<strong>os</strong> por seleccionar acélula C3;O procedimento anterior conduziu-n<strong>os</strong> à tabela dolado esquerdo da figura anterior, cujo conteúdofoi copiado <strong>para</strong> construir a tabela do lado direito,com uma apresentação mais sugestiva.• Arrastar o botão N.º de filh<strong>os</strong> da barraPivotTable, e colocá-lo (drop it) no campo Row;Arrastar o mesmo botão e colocá-lo (drop it) nocampo Data;• Clicar duas vezes no botão Sum of N.º filh<strong>os</strong>,da tabela, e seleccionar Count:4.3.2 – Dad<strong>os</strong> de tipo discretoA organização de dad<strong>os</strong> discret<strong>os</strong> numa tabelade frequências, utilizando a PivotTable, fazsedo mesmo modo que <strong>para</strong> <strong>os</strong> dad<strong>os</strong> de tipoqualitativo. Vam<strong>os</strong> exemplificar procedendo aoagrupamento da variável N.º de filh<strong>os</strong> d<strong>os</strong> dad<strong>os</strong>do ficheiro Filh<strong>os</strong>.xls.Obtivem<strong>os</strong> a tabela do lado esquerdo, a qual foicopiada <strong>para</strong> o lado direito, com um aspecto maisusual.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 1384.3.3 – Dad<strong>os</strong> de tipo contínuoVam<strong>os</strong> exemplificar o agrupamento de uma variávelde tipo contínuo, utilizando a PivotTable, masavisam<strong>os</strong> desde já, que se <strong>os</strong> dad<strong>os</strong> não foreminteir<strong>os</strong>, o processo não é correcto e tem deser utilizado com as devidas precauções, comoverem<strong>os</strong> oportunamente. O processo que vam<strong>os</strong>utilizar foi sugerido por um artigo de NevilleHunt, na revista Teaching Statistics (Volume 25,Number 2, Summer 2003).Começarem<strong>os</strong> por abordar a situação de term<strong>os</strong>uma variável contínua, mas em que <strong>os</strong> dad<strong>os</strong> sãointeir<strong>os</strong>.1ª Parte – Dad<strong>os</strong> em formato de inteiroExemplo 4.3.3 – Considere o ficheiro Idade.xls,que contém a idade de 230 deputad<strong>os</strong>. Procedaao agrupamento em classes, utilizando asPivotTables.A tabela que aparece depois destas operações,m<strong>os</strong>tra a frequência de cada valor individual(como estam<strong>os</strong> com dad<strong>os</strong> contínu<strong>os</strong>, emborainteir<strong>os</strong>, correm<strong>os</strong> o risco de term<strong>os</strong> uma tabelacom tantas classes, quant<strong>os</strong> <strong>os</strong> dad<strong>os</strong>, tod<strong>os</strong>com frequência igual a 1!). Assim, é necessárioproceder a mais algumas operações, <strong>para</strong> agrupar<strong>os</strong> dad<strong>os</strong>:• Clique em algum d<strong>os</strong> dad<strong>os</strong> da variável Idadee seleccione Data - Group and Outline - Group,que faz surgir o seguinte diálogo:Considere o ficheiro Idade.xls, em que <strong>os</strong> dad<strong>os</strong>da variável se encontram nas células C2 a C231 eproceda da seguinte forma:• No menu Data, clique em PivotTable andPivotChart Report;• No passo 1 da PivotTable and PivotTableWizard, siga as instruções, e clique PivotTableà pergunta What kind of report do you want tocreate?;• No passo 2 siga as instruções, seleccionando<strong>os</strong> dad<strong>os</strong> que pretende usar. Neste cas<strong>os</strong>eleccione as células C1 a C31 (embora <strong>os</strong>dad<strong>os</strong> estejam nas células C2 a C231, o títuloestá na C1);Por defeito, no diálogo anterior é considerado como“Starting at” e “Ending at” respectivamente, omínimo e o máximo do conjunto de dad<strong>os</strong> a agrupar.Para “By” é considerado, também por defeito,um valor que dependerá do número de dad<strong>os</strong> e dagrandeza desses dad<strong>os</strong>.• No passo 3 seleccione o lugar onde pretendecriar a tabela. Nós optám<strong>os</strong> por seleccionar acélula AO4;• Arraste o botão Idade da barra PivotTable, ecoloque-o (drop it) no campo Row; Arraste omesmo botão e coloque-o (drop it) no campoData;• Clique duas vezes no botão Sum of Idade, databela, e seleccione Count;• Clicando em OK, é produzida a seguintetabela de frequências:


pág. 139# Estatística Descritiva com EXCEL• Finalmente podem<strong>os</strong> esconder <strong>os</strong> botõesclicando com o lado direito do rato num deles eseleccionando Hide PivotChart Field Buttons eacrescentando de seguida títul<strong>os</strong> a<strong>os</strong> eix<strong>os</strong>:Observação: Repare-se que na construção destatabela, ao dizer que pretendem<strong>os</strong> que o agrupament<strong>os</strong>eja feito By:10, não significa que seadicione 10 ao mínimo <strong>para</strong> formar a 1ª classe eassim por diante. Neste caso 10 é o número deinteir<strong>os</strong> que vai do limite inferior de cada classe,até ao limite superior e não significa propriamenteamplitude de classe, da forma como é definida,isto é, como sendo a diferença entre <strong>os</strong> limites dointervalo de classe. Se pretendêssem<strong>os</strong> classesde amplitude 10, teríam<strong>os</strong> de ter seleccionado,antes de efectuar o agrupamento, By:11 e obteríam<strong>os</strong>as classes 28-38, 39-49, 50-60, 61-71 e72-82.Para construir o histograma associado a estatabela, basta carregar em alguma parte da tabelae na barra da PivotTable clicar no ícone .Por defeito aparece a construção de um gráficode barras, com interval<strong>os</strong> entre as barras, quepodem ser removidas por um processo idênticoao já utilizado, aquando da construção dohistograma. Assim:• Clique com o lado direito do rato numa dascolunas e seleccione Format data Series -Options - Gap width:0:Observação: Para obter o gráfico anteriorcopiám<strong>os</strong> a figura obtida numa folha Chart doExcel <strong>para</strong> uma folha normal (Sheet).2ª Parte – Dad<strong>os</strong> em formato decimalComo vim<strong>os</strong> na construção das classes da tabelaanterior, estas são construídas sem ambiguidade,na medida em que qualquer elemento do conjuntode dad<strong>os</strong> só pode pertencer a uma única classe.O mesmo não acontece se estiverm<strong>os</strong> a trabalharcom dad<strong>os</strong> com casas decimais, como verem<strong>os</strong> noexemplo seguinte.Exemplo 4.3.4 – Considere novamente <strong>os</strong>dad<strong>os</strong> do exemplo 2.3.8, em que se estudouo comprimento, em centímetr<strong>os</strong>, das asas demelr<strong>os</strong>. Proceda ao agrupamento d<strong>os</strong> dad<strong>os</strong>correspondentes a<strong>os</strong> melr<strong>os</strong>-fêmea.Considerem<strong>os</strong> a am<strong>os</strong>tra constituída pelas 32medidas das asas de outr<strong>os</strong> tant<strong>os</strong> melr<strong>os</strong>¬fêmeas que inserim<strong>os</strong> numa folha de Excel,ocupando as células A2 a A33, reservando a A1<strong>para</strong> o título Fêmea. Construím<strong>os</strong> uma tabelade frequências, utilizando o processo seguidoanteriormente, mas escolhendo <strong>para</strong> amplitudede classe o valor 0,6. O resultado obtido foi aseguinte tabela:


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 140Como se verifica, ao contrário do que acontecia com avariável Idade, o limite superior de um intervalo é igualao limite inferior do intervalo seguinte, ficando a dúvidade saber em que classe inserir um elemento igual a umdesses limites. Na verdade estes interval<strong>os</strong> funcionamcomo se f<strong>os</strong>sem fechad<strong>os</strong> á esquerda e abert<strong>os</strong> àdireita (excepto a última classe que também é fechadaà direita), pelo que um valor igual, por exemplo, a11,8, será contabilizado na classe 11,8-12,4. Esteproblema pode ser resolvido, considerando <strong>para</strong>amplitude de classe um valor decimal, com uma casadecimal a mais d<strong>os</strong> que <strong>os</strong> dad<strong>os</strong>. No exemplo anterior,se escolhêssem<strong>os</strong> como amplitude de classe 0,53, jáo problema deixaria de existir, pois não teríam<strong>os</strong> dúvidaem que classe contabilizar qualquer um d<strong>os</strong> valores doconjunto de dad<strong>os</strong>:5. Introdução à simulação5.1- IntroduçãoComo diz Neville Hunt no artigo referidoanteriormente, página 45, e passam<strong>os</strong> a citar:...After reading this article, some teachers will (notunreasonably) decide that Excel is not fit to be usedfor this type of analysis. However, the universalpopularity and availability of Excel are such thatstudents will inevitably try to use it for this purp<strong>os</strong>eat some stage, so it is important that they should bemade aware of its limitations and need for vigilance.Esta citação vem ao encontro daquilo que pensam<strong>os</strong>e já referim<strong>os</strong> neste texto, de que o Excel não é umsoftware de Estatística, mas ao nível elementarresolve muitas situações, desde que ao utilizá-lo sesaiba o que se pretende. Por exemplo, quando sepretende um histograma, e ao obter um diagramade barras, é necessário ter presente que, emborao histograma seja construído à custa de barras,estas têm que estar unidas.Pretende-se com este Capítulo, dar a <strong>conhecer</strong>um instrumento poder<strong>os</strong>o – a simulação, quesobretudo nas duas últimas décadas, com odesenvolvimento e aperfeiçoamento d<strong>os</strong> mei<strong>os</strong>computacionais, contribuiu de forma decisiva <strong>para</strong>o estudo das leis de probabilidade e a obtençãoda probabilidade associada a determinad<strong>os</strong>aconteciment<strong>os</strong>. Verem<strong>os</strong> assim uma forma deimitar o comportamento aleatório, característicod<strong>os</strong> fenómen<strong>os</strong> que têm interesse estudar emProbabilidade, isto é, <strong>os</strong> fenómen<strong>os</strong> chamad<strong>os</strong>de aleatóri<strong>os</strong>, por op<strong>os</strong>ição a<strong>os</strong> determinístic<strong>os</strong>.Na verdade, essa p<strong>os</strong>sibilidade de imitação(simulação), baseia-se no facto de ao realizaruma experiência aleatória, repetidamente e emcondições semelhantes, <strong>os</strong> resultad<strong>os</strong> obtid<strong>os</strong>m<strong>os</strong>trarem uma regularidade estatística, que éutilizada <strong>para</strong> obter estimativas das probabilidadesd<strong>os</strong> aconteciment<strong>os</strong> associad<strong>os</strong> à experiência emcausa. Esta regularidade a longo termo, é a baseda interpretação frequencista de Probabilidade.Simulando várias realizações de uma experiênciaaleatória, é então p<strong>os</strong>sível obter as estimativasconsideradas anteriormente.


pág. 141Por exemplo, ao lançar um dado equilibrado repetidas vezes, registando numa tabela de frequências,a frequência relativa da saída de cada face, verifica-se que à medida que o número de lançament<strong>os</strong>aumenta, a frequência relativa da saída de cada face tende a estabilizar à volta do valor 0,167(aproximadamente 1/6).Embora não tenham<strong>os</strong> chamado explicitamente a atenção <strong>para</strong> o facto, na verdade já utilizám<strong>os</strong> oconceito de simulação, quando no capítulo 1, utilizám<strong>os</strong> a função Randbetween do Excel, <strong>para</strong> “imitar”o comportamento aleatório da extracção de uma am<strong>os</strong>tra, de uma certa população.Vam<strong>os</strong> ver de seguida, como por simulação sepodem obter boas aproximações das probabi-lidades de aconteciment<strong>os</strong>, que teoricamente seriamdifíceis, ou mesmo imp<strong>os</strong>síveis de obter.5.2- Obtenção de probabilidades por simulaçãoVam<strong>os</strong> apresentar exempl<strong>os</strong> simples, que n<strong>os</strong> servirão <strong>para</strong> dar uma ideia da utilização e da potencialidadedo método da simulação. Vam<strong>os</strong> utilizar as funções RAND ou RANDBETWEEN, já utilizadasno capítulo 1, que têm por base o conceito de número aleatório, ou mais propriamente pseudoaleatório.Os algoritm<strong>os</strong> de geração de númer<strong>os</strong> pseudo-aleatóri<strong>os</strong> estão concebid<strong>os</strong> de modo a que ao consideraruma qualquer sequência de númer<strong>os</strong> gerad<strong>os</strong> se obtenha aproximadamente a mesma proporçãode observações em subinterval<strong>os</strong> de igual amplitude do intervalo [0,1]. Assim, por exemplo, se sefizer correr o algoritmo 100 vezes, é de esperar que caiam 25 d<strong>os</strong> númer<strong>os</strong> gerad<strong>os</strong> em cada quartodo intervalo [0,1]. Na tabela seguinte está listada uma sequência de 100 NPA’s obtida através dogerador RAND do software Excel (Graça Martins, M. E e Loura, L., 2001):0,842050 0,406320 0,848744 0,810469 0,7895830,965131 0,676239 0,722927 0,825587 0,7029710,761648 0,552387 0,079614 0,298300 0,0874550,359825 0,208420 0,098150 0,818893 0,1035320,054705 0,102768 0,147229 0,557920 0,9966670,466613 0,493374 0,150888 0,540352 0,4802870,814300 0,638416 0,086141 0,007840 0,1099180,449515 0,090759 0,197460 0,209145 0,7132300,901502 0,552418 0,466389 0,221584 0,6237570,862762 0,507097 0,613583 0,389183 0,1296290,395195 0,415666 0,210044 0,379011 0,3025390,420519 0,469764 0,053714 0,478208 0,4448220,124664 0,765629 0,737348 0,696311 0,8061470,537707 0,451921 0,702749 0,683382 0,3778230,033277 0,523063 0,908485 0,708764 0,1962900,024371 0,213326 0,442821 0,983754 0,9705510,558313 0,283191 0,153907 0,655705 0,9957600,087859 0,429387 0,735276 0,890680 0,5692850,069915 0,221549 0,358037 0,578713 0,1618510,774156 0,039495 0,490216 0,755072 0,753139


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 142Como se pode verificar por contagem, esta listainclui 30 númer<strong>os</strong> no intervalo [0,0.25], 24númer<strong>os</strong> n<strong>os</strong> interval<strong>os</strong> ]0.25,0.5] e ]0.5,0.75] e22 númer<strong>os</strong> no intervalo ]0.75,1]. Embora hajamétod<strong>os</strong> estatístic<strong>os</strong> <strong>para</strong> avaliar se são ounão significativas as diferenças entre estasfrequências observadas e as frequências esperadas(25 – 25 – 25 – 25), facilmente a n<strong>os</strong>sasensibilidade aceita que estes resultad<strong>os</strong> nãocontradizem o que se esperaria de uma escolhaao acaso de 100 númer<strong>os</strong> do intervalo [0,1].De um modo geral quando falam<strong>os</strong> em númer<strong>os</strong>aleatóri<strong>os</strong>, estam<strong>os</strong> a referir-n<strong>os</strong> à obtençãode qualquer real do intervalo [0, 1], de tal formaque a probabilidade de obter um valor de umsubintervalo [a, b] de [0, 1], é igual à amplitudedesse subintervalo, ou seja (b-a).Exemplo 5.1.1 (Adaptado do exemplo 6.2.1de Graça Martins et al, 1999) – Suponha umcasal que pretende ter um “casal” de filh<strong>os</strong>, nãodesejando mais do que 3 filh<strong>os</strong> e só tentando o 3.ºfilho se anteriormente tiver tido ou dois rapazesou duas raparigas. Qual a probabilidade de terefectivamente o casalinho?Admitindo que a probabilidade de nascer rapazé igual à de nascer rapariga, vam<strong>os</strong> utilizar afunção RAND, <strong>para</strong> simular um qualquer destesnasciment<strong>os</strong>, da seguinte forma: Se o resultadoda função RAND for inferior a 0,5, simulam<strong>os</strong>o nascimento de um rapaz – M. Caso contrári<strong>os</strong>imulam<strong>os</strong> o nascimento de uma rapariga. Numafolha de Excel vam<strong>os</strong> simular várias repetições daexperiência “nascimento de 3 filh<strong>os</strong>”. Poderíam<strong>os</strong>ter optado por começar por simular o nascimentode dois filh<strong>os</strong> e só simular o 3.º filho se nãohouvesse <strong>os</strong> dois sex<strong>os</strong> n<strong>os</strong> dois primeir<strong>os</strong>filh<strong>os</strong>. No entanto, este condicionamento dasimulação do 3.º filho faz com que cada repetiçãoda experiência dependa do que se obtémanteriormente, o que torna mais demoradoo processo da simulação. Assim, simulám<strong>os</strong>sempre 3 filh<strong>os</strong> e basta n<strong>os</strong> dois primeir<strong>os</strong> haver<strong>os</strong> dois sex<strong>os</strong>, <strong>para</strong> term<strong>os</strong> como resultado daexperiência um sucesso. Assinalam<strong>os</strong> o sucesso(dois sex<strong>os</strong> diferentes logo n<strong>os</strong> dois primeir<strong>os</strong>filh<strong>os</strong> ou sex<strong>os</strong> diferentes n<strong>os</strong> três filh<strong>os</strong>) comum 1 – esta notação facilita-n<strong>os</strong> o cálculo dafrequência relativa do nº de sucess<strong>os</strong>, à medidaque repetim<strong>os</strong> a experiência.<strong>Um</strong> procedimento p<strong>os</strong>sível <strong>para</strong> a simulação emcausa, pode ser o seguinte:• Inserir a função RAND() nas células A2, B2e C2 e nas células D2, E2 e F2 a função IF(),como se exemplifica na figura seguinte:• Replicar (Fill down) as células A2:F2, tantasvezes quantas as vezes que se pretendesimular a realização da experiência. Nósreplicám<strong>os</strong> 400 vezes, colocando <strong>os</strong> resultad<strong>os</strong>nas células A2:F401;• Copiar (Paste special) <strong>os</strong> valores das célulasD2:F401, <strong>para</strong> as células H2:J401 (Este passotem como objectivo guardar <strong>os</strong> valores gerad<strong>os</strong>anteriormente, pois a função RAND() é volátil,como já referim<strong>os</strong> n<strong>os</strong> capítul<strong>os</strong> anteriores);• Em cada uma das células da coluna K inserir1 se o resultado da experiência tiver sid<strong>os</strong>ucesso;• Na coluna L contabilizar o n.º de sucess<strong>os</strong>acumulad<strong>os</strong>;


pág. 143# Estatística Descritiva com EXCEL• Na coluna M contabilizar o n.º da experiência;• Na coluna N calcular a frequência relativade sucesso, à medida que se vão realizandoexperiências.O processo anterior é apresentado na figuraseguinte. Por uma questão de espaço sóapresentam<strong>os</strong> a parte inicial e a parte final databela:Exemplo 5.1.2 (Ageel, M. I. - Teaching Statistics,Volume 24, Number 2, Summer 2002, pag.51¬54) – <strong>Um</strong> segmento de linha de comprimento1 é partido, aleatoriamente, em três pedaç<strong>os</strong>.Qual a probabilidade de as peças resultantespoderem formar um triângulo?A resolução deste problema prende-se comuma regra que estabelece que a soma d<strong>os</strong>compriment<strong>os</strong> de dois lad<strong>os</strong> de um triângulo, ésuperior ao comprimento do outro lado. Vam<strong>os</strong>resolver este problema fazendo uma série desimulações e calculando a frequência relativa dassituações que dão origem a triângul<strong>os</strong>. Consideraseentão uma folha de cálculo e procede-se daseguinte forma:Como se verifica, a frequência relativa estabilizaà volta do valor 0,75, pelo que dizem<strong>os</strong> que0,75 é uma estimativa <strong>para</strong> a probabilidadepretendida (O valor calculado, teoricamente,<strong>para</strong> esta probabilidade é de 0,75). A título decuri<strong>os</strong>idade acrescentam<strong>os</strong> que o resultado dasimulação ao fim de 100, 200 e 300 repetições,foi respectivamente 0,790, 0,775 e 0,753.Apresentam<strong>os</strong> a evolução da frequência relativa naseguinte representação gráfica:• Nas células A2 e B2 introduz-se a funçãoRAND(), que devolve um número pseudoaleatórioentre 0 e 1 (equivalente à funçãoRANDBETWEEN(0;1)). Estes númer<strong>os</strong> irãorepresentar <strong>os</strong> pont<strong>os</strong> P e Q em que uma linhaMN de comprimento 1 fica dividida:M P Q N• Considera-se <strong>para</strong> P o menor d<strong>os</strong>valores obtid<strong>os</strong> anteriormente, que será ocomprimento de MP – célula C2;• Calcula-se o compriment<strong>os</strong> d<strong>os</strong> segment<strong>os</strong>PQ e QN – células D2 e E2, respectivamente:


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 144• Testa-se se 2 quaisquer d<strong>os</strong> compriment<strong>os</strong>obtid<strong>os</strong> anteriormente é superior ao terceirocomprimento – célula F2;• Replica-se as células de A2 a F2 até à linha1001 (1000 réplicas);• Calcula-se o número de vezes que o testeanterior deu verdadeiro, ou seja TRUE – célulaG2, e divide-se por 1000:O resultado da simulação anterior deu uma frequênciarelativa de 0,249, que se pode considerarum valor aproximado <strong>para</strong> a probabilidadepretendida:Exemplo 5.1.3 -Suponha que em cada minutoa probabilidade de alguém chegar à fila de umacaixa de supermercado é de 75%, enquanto quea probabilidade de abandonar a fila, depois de serservido é de 30%. Ao fim de 20 minut<strong>os</strong> qual otamanho que espera <strong>para</strong> a fila?Vam<strong>os</strong> simular a experiência anterior, simulandoa chegada de um cliente à fila sempre que oresultado da função RAND for ≤ 0,75 e a saídade um cliente da fila sempre que a função RANDdevolver um resultado ≤ 0,30:Para não correrm<strong>os</strong> o risco de term<strong>os</strong> umafila com um número negativo de pessoas,considerám<strong>os</strong> a função máximo:Do mesmo modo que a função RANDBETWEEN,também a função RAND é volátil, pelo que qualqueroperação na folha de cálculo modifica <strong>os</strong> númer<strong>os</strong>pseudo-aleatóri<strong>os</strong> considerad<strong>os</strong> <strong>para</strong> coordenadasd<strong>os</strong> pont<strong>os</strong> e consequentemente a estimativada probabilidade pretendida. Assim, quantasoperações forçar na folha anterior, nomeadamentedigitar um valor numa das células em brancoconsiste numa operação, quantas estimativasobterá <strong>para</strong> a probabilidade pretendida, ou seja,<strong>para</strong> a probabilidade de conseguir construir umtriângulo com as partes de um segmento de rectade comprimento unitário, dividido aleatoriamenteem 3 partes.Ao fim de 20 minut<strong>os</strong> a fila já tem 13 clientes ecom tendência <strong>para</strong> crescer!


pág. 145Exemplo 5.1.4 – Suponha uma espécie animal em que as fêmeas têm o seguinte comportamentoreprodutor:• 40% morrem antes de deixar descendência • 40% têm uma fêmea descendente• 20% têm duas fêmeas descendentes.Estude o comportamento desta população, nomeadamente se se prevê um crescimento rápidode indivídu<strong>os</strong> da espécie, a extinção ou uma situação de equilíbrio. Vam<strong>os</strong> estudar a evolução dapopulação simulando a descendência de 10 fêmeas, ao longo de algumas gerações. Para cadafêmea, geram<strong>os</strong> um número pseudo-aleatório, cujo resultado será interpretado da seguinteforma: Se o número for inferior a 0,20, a fêmea deixa 2 descendentes fêmeas; Se o númeroestiver compreendido entre 0,2 e 0,6, a fêmea deixa 1 descendente fêmea; Se o número estivercompreendido entre 0,6 e 1, a fêmea morre sem descendência. Apresentam<strong>os</strong> a seguir umasimulação da experiência com as 10 fêmeas:Na tabela anterior considerám<strong>os</strong>:• Nas células O2:X2, 10 númer<strong>os</strong> pseudo-aleatóri<strong>os</strong> <strong>para</strong> simular a descendência das 10 fêmeascom que iniciám<strong>os</strong> a n<strong>os</strong>sa experiência;• Na célula Y3, o número de fêmeas obtidas ao fim da primeira geração – neste caso 7;• Nas células O4:U4, 7 númer<strong>os</strong> pseudo-aleatóri<strong>os</strong> <strong>para</strong> simular a descendência das 7 fêmeasobtidas na geração anterior;• Na célula Y5, o número de fêmeas obtidas ao fim da segunda geração – neste caso 8;• Repetim<strong>os</strong> o processo anterior, até não haver descendência de fêmeas.Como se verifica, a população tem tendência a extinguir-se, pois ao fim da 11.ª geração já não hádescendentes das 10 fêmeas com que iniciám<strong>os</strong> o estudo.Repita a experiência admitindo que• 20% morrem antes de deixar descendência• 40% Têm uma fêmea descendente• 40% têm duas fêmeas descendentes.<strong>Um</strong> outro exemplo interessante e que tem levantado bastante polémica é o seguinte exemplo dedecisão estratégica.


pág. 146Exemplo 5.1.5 (Graça Martins, M. E. e Loura, L., 2001) - Num concurso é dada a escolher aoconcorrente uma de 3 portas. Atrás de uma delas está um carro e atrás de cada uma das outrasduas está uma ovelha. O concorrente escolhe uma das portas (sem a abrir) e o apresentador, quesabe exactamente qual é a porta que esconde o carro, abre, de entre as duas portas que restam,uma onde está uma ovelha. Nesse momento pergunta ao concorrente se deseja ou não trocar a portaque escolheu pela outra porta que ainda está fechada. O primeiro pensamento que ocorre é que nãohá qualquer vantagem em trocar, pois tem<strong>os</strong> agora apenas duas portas e o carro tanto pode estaratrás de uma como da outra. No entanto, se se calcular teoricamente a probabilidade do concorrenteganhar o carro, trocando de porta, verifica-se que esta é igual a 2/3. Para <strong>os</strong> mais reticentes umasimulação talvez <strong>os</strong> faça reconsiderar a sua p<strong>os</strong>ição inicial. Não há qualquer dúvida de que ao escolheruma porta ao acaso a probabilidade de ela esconder o carro é igual a 1/3.Para simular o decorrer de 100 destes concurs<strong>os</strong> vam<strong>os</strong> então considerar que o concorrenteescolheu a boa porta sempre que o valor do número pseudo-aleatório (NPA) estiver entre 0 e 1/3.Nestes cas<strong>os</strong>, quando ele trocar de porta, ficará com a “ovelha” mas, em compensação, ficará com ocarro em tod<strong>os</strong> <strong>os</strong> outr<strong>os</strong> cas<strong>os</strong> (se ele tiver escolhido inicialmente a “ovelha”, a porta que resta teráobrigatoriamente o carro pois o apresentador encarregou-se de eliminar a outra porta que tambémtinha “ovelha”!...)Eis o resultado da simulação obtida a partir de 100 númer<strong>os</strong> pseudo-aleatóri<strong>os</strong> gerad<strong>os</strong> numa folha deExcel:NPAO queganhanãotrocandoO queganhatrocandoNPAO queganhanãotrocandoO queganhatrocandoNPAO queganhanãotrocandoO queganhatrocando0,842 Ovelha Carro 0,406 Ovelha Carro 0,849 Ovelha Carro0,965 Ovelha Carro 0,676 Ovelha Carro 0,723 Ovelha Carro0,762 Ovelha Carro 0,552 Ovelha Carro 0,080 Carro Ovelha0,360 Ovelha Carro 0,208 Carro Ovelha 0,098 Carro Ovelha0,055 Carro Ovelha 0,103 Carro Ovelha 0,147 Carro Ovelha0,467 Ovelha Carro 0,493 Ovelha Carro 0,151 Carro Ovelha0,814 Ovelha Carro 0,638 Ovelha Carro 0,086 Carro Ovelha0,450 Ovelha Carro 0,091 Carro Ovelha 0,197 Carro Ovelha0,902 Ovelha Carro 0,552 Ovelha Carro 0,466 Ovelha Carro0,863 Ovelha Carro 0,507 Ovelha Carro 0,614 Ovelha Carro0,395 Ovelha Carro 0,416 Ovelha Carro 0,210 Carro Ovelha0,421 Ovelha Carro 0,470 Ovel ha Carro 0,054 Carro Ovelha0,125 Carro Ovelha 0,766 Ovelha Carro 0,737 Ovelha Carro0,538 Ovelha Carro 0,452 Ovelha Carro 0,703 Ovelha Carro0,033 Carro Ovelha 0,523 Ovelha Carro 0,908 Ovelha Carro0,024 Carro Ovelha 0,213 Carro Ovelha 0,443 Ovelha rro Ca0,558 Ovelha Carro 0,283 Carro Ovelha 0,154 Carro Ovelha0,088 Carro Ovelha 0,429 Ovelha Carro 0,735 Ovelha Carro0,070 Carro Ovelha 0,222 Carro Ovelha 0,358 Ovelha Carro0,774 Ovelha Carro 0,039 Carro Ovelha 0,490 Ovelha Carro0,810 Ovelha Carro 0,709 Ovelha Carro 0,713 Ovelha Carro0,826 Ovelha Carro 0,984 Ovelha Carro 0,624 Ovelha Carro0,298 Carro Ovelha 0,656 Ovelha Carro 0,130 Carro Ovelha0,819 Ovelha Carro 0,891 Ovelha Carro 0,303 Carro Ovelha0,558 Ovelha Carro 0,579 Ovelha Carro 0,445 Ovelha Carro0,540 Ovelha Carro 0,755 Ovelha Carro 0,806 Ovelha Carro0,008 Carro Ovelha 0,790 Ovelha Carro 0,378 Ovelha Carro0,209 Carro Ovelha 0,703 Ovelha Carro 0,196 Carro Ovelha0,222 Carro Ovelha 0,087 Carro Ovelha 0,971 Ovelha Carro0,389 Ove lha Carro 0,104 Carro Ovelha 0,996 Ovelha Carro0,379 Ovelha Carro 0,997 Ovelha Carro 0,569 Ovelha Carro0,478 Ovelha Carro 0,480 Ovelha Carro 0,162 Carro Ovelha0,696 Ovelha Carro 0,110 Carro Ovelha 0,753 Ovelha Carro0,683 Ovelha CarroComo se verifica, nas 100 realizações simuladas deste concurso o concorrente ganharia o carro em67 dessas realizações, se se decidisse por trocar de porta!...


pág. 147Lista de algumas funções usadas no Excel:InglêsAnd()PortuguêsE()Devolve verdadeiro se tod<strong>os</strong> <strong>os</strong> argument<strong>os</strong> forem verdadeir<strong>os</strong> e devolve falso se algum d<strong>os</strong>argument<strong>os</strong> for falsoAverage()Media()Calcula a média d<strong>os</strong> valores existentes num conjunto de célulasCount()Contar()Conta as células com valores numéric<strong>os</strong>, incluindo datas e fórmulas cuj<strong>os</strong> resultad<strong>os</strong> são numer<strong>os</strong>Counta()Contar.val()Conta todas as células não vaziasCountblank()Contar.vazio()Conta as células vaziasCountif()Contar.se()Conta as ocorrências verificadas num conjunto de célula, que obedecem a um critérioFrequency()If()FrequênciaSe()Executa uma de duas acções p<strong>os</strong>síveis, em função do resultado da condiçãoInt()Int()Devolve a parte inteira de um númeroMax()Maximo()Devolve o maior valor de um conjunto de célulasMin()Minimo()Devolve o menor valor de um conjunto de célulasMod()Resto()Devolve o resto de uma divisãoOr()Ou()Devolve verdadeiro se um d<strong>os</strong> argument<strong>os</strong> for verdadeir<strong>os</strong> e devolve falso se tod<strong>os</strong> <strong>os</strong> argument<strong>os</strong>forem fals<strong>os</strong>


pág. 148PieProduct()Produto()Multiplica <strong>os</strong> valores de um conjunto de células, ignorando as células vazias e/ou com textoRand()Aleatório()Devolve um número pseudo-aleatório (no intervalo (0,1))Randbetween()Aleatórioentre()Devolve um número pseudo-aleatório no intervalo especificadoRound()Arred()Devolve um número arredondado, na p<strong>os</strong>ição indicadaRounddown()Arred.<strong>para</strong>.baixo()Devolve um número arredondado, por defeito, na p<strong>os</strong>ição indicadaRoundup()Arred.<strong>para</strong>.cima()Devolve um número arredondado, por excesso, na p<strong>os</strong>ição indicadaScatterStdevStdevpSum()Soma()Soma <strong>os</strong> valores de um conjunto de célulasSumif()Soma.se()Soma as ocorrências verificadas num conjunto de células que obedecem a um critério


pág. 149Anexo -Estatística Descritiva com Excel – Complement<strong>os</strong>. 117Ficheiro de Deputad<strong>os</strong> da XLegislaturaAnexo – Ficheiro de Deputad<strong>os</strong> da X LegislaturaNomeGrupoParl.CírculoEleitoral Sexo Data nas.1 Abel Lima Baptista CDS-PP Viana do C M 13-10-19632 Adão J<strong>os</strong>é Fonseca Silva PSD Bragança M 01-10-19573 Ag<strong>os</strong>tinho Correia Branquinho PSD Porto M 10-08-19564 Ag<strong>os</strong>tinho Moreira Gonçalves PS Porto M 15-07-19525 Ag<strong>os</strong>tinho Nuno de Azevedo Ferreira Lopes PCP Braga M 16-11-19446 Alberto Arons Braga de Carvalho PS Setúbal M 20-09-19497 Alberto de Sousa Martins PS Porto M 25-04-19458 Alberto Marques Antunes PS Setúbal M 03-04-19499 Alcídia Maria Cruz Sousa de Oliveira Lopes PS Porto F 09-01-197410 Alda Maria Gonçalves Pereira Macedo BE Porto F 07-09-195411 Aldemira Maria Cabanita do Nascimento Bispo Pinho PS Faro F 04-04-195212 Ana Catarina Veiga Sant<strong>os</strong> Mendonça Mendes PS Setúbal F 14-01-197313 Ana Isabel Drago Lobato BE Lisboa F 28-08-197514 Ana Maria Card<strong>os</strong>o Duarte da Rocha Almeida Pereira PS Porto F 16-08-196715 Ana Maria Ribeiro Gomes do Couto PS Lisboa F 19-04-196116 Ana Maria Sequeira Mendes Pires Manso PSD Guarda F 30-03-195617 António Alfredo Delgado da Silva Preto PSD Lisboa M 18-11-195818 António Alves Marques Júnior PS Porto M 03-07-194619 António Bento da Silva Galamba PS Lisboa M 11-11-196820 António Carl<strong>os</strong> Bivar Branco de Penha Monteiro CDS-PP Lisboa M 31-05-196821 António Ed<strong>mundo</strong> Barb<strong>os</strong>a Montalvão Machado PSD Porto M 09-12-195222 António Filipe Gaião Rodrigues PCP Lisboa M 28-01-196323 António Joaquim Almeida Henriques PSD Viseu M 05-05-196124 António J<strong>os</strong>é Ceia da Silva PS Portalegre M 11-04-196325 António J<strong>os</strong>é Martins Seguro PS Braga M 11-03-196226 António Paulo Martins Pereira Coelho PSD Coimbra M 27-04-195827 António Ram<strong>os</strong> Preto PS Lisboa M 19-01-195628 António Ribeiro Cristóvão PSD Castelo Br M 07-07-193929 António Ribeiro Gameiro PS Santarém M 14-08-197030 Armando França Rodrigues Alves PS Aveiro M 22-10-194931 Arménio d<strong>os</strong> Sant<strong>os</strong> PSD Lisboa M 22-11-194532 Artur Jorge da Silva Machado PCP Porto M 20-05-197633 Artur Miguel Claro da Fonseca Mora Coelho PS Lisboa M 04-07-195234 Bernardino J<strong>os</strong>é Torrão Soares PCP Lisboa M 15-09-197135 Bruno Ram<strong>os</strong> Dias PCP Setúbal M 19-10-197636 Carl<strong>os</strong> Alberto David d<strong>os</strong> Sant<strong>os</strong> Lopes PS Leiria M 06-06-196537 Carl<strong>os</strong> Alberto Garcia Poço PSD Leiria M 12-02-195738 Carl<strong>os</strong> Alberto Silva Gonçalves PSD Europa M 20-10-196139 Carl<strong>os</strong> António Páscoa Gonçalves PSD Fora da Eu M 09-02-195240 Carl<strong>os</strong> Jorge Martins Pereira PSD Braga M 15-02-197341 Carl<strong>os</strong> Manuel de Andrade Miranda PSD Viseu M 03-09-195342 Cláudia Isabel Patrício do Couto Vieira PS Viseu F 16-10-196743 David Martins PS Faro M 05-01-197644 Diogo Nuno de Gouveia Torres Feio CDS-PP Porto M 06-10-197045 Doming<strong>os</strong> Duarte Lima PSD Bragança M 20-11-195546 Duarte Rogério Mat<strong>os</strong> Ventura Pacheco PSD Lisboa M 25-11-196547 Elísio da C<strong>os</strong>ta Amorim PS Aveiro M 14-05-195348 Emídio Guerreiro PSD Braga M 23-05-196549 Esmeralda Fátima Quitério Salero Ramires PS Faro F 23-10-195550 Feliciano J<strong>os</strong>é Barreiras Duarte PSD Leiria M 19-04-196651 Fernanda Maria Pereira Asseiceira PS Santarém F 18-04-196152 <strong>Fernando</strong> d<strong>os</strong> Sant<strong>os</strong> Antunes PSD Coimbra M 19-09-194953 <strong>Fernando</strong> d<strong>os</strong> Sant<strong>os</strong> Cabral PS Guarda M 10-05-195654 <strong>Fernando</strong> J<strong>os</strong>é Mendes R<strong>os</strong>as BE Setúbal M 18-04-194655 <strong>Fernando</strong> Manuel de Jesus PS Porto M 04-06-1950A L E A • D o s s i ê s D i d á c t i c o s


pág. 150Estatística Descritiva com Excel – Complement<strong>os</strong>. 11856 <strong>Fernando</strong> Mim<strong>os</strong>o Negrão PSD Setúbal M 29-11-195557 <strong>Fernando</strong> Sant<strong>os</strong> Pereira PSD Braga M 27-05-196058 Francisco Anacleto Louçã BE Lisboa M 12-11-195659 Francisco J<strong>os</strong>é de Almeida Lopes PCP Setúbal M 29-08-195560 Francisco Miguel Baudoin Madeira Lopes PEV Lisboa M 12-01-197561 Glória Maria da Silva Araújo PS Porto F 04-01-197662 Guilherme Henrique Valente Rodrigues da Silva PSD Madeira M 16-07-194363 Helena Maria Moura Pinto BE Lisboa F 05-09-195964 Heloísa Augusta Baião de Brito Apolónia PEV Setúbal F 26-06-196965 Henrique J<strong>os</strong>é Praia da Rocha de Freitas PSD Lisboa M 13-03-196166 Hermínio J<strong>os</strong>é Sobral Loureiro Gonçalves PSD Aveiro M 30-12-196567 Horácio André Antunes PS Coimbra M 05-03-194668 Hugo J<strong>os</strong>é Teixeira Vel<strong>os</strong>a PSD Madeira M 18-04-194869 Hugo Miguel Guerreiro Nunes PS Faro M 12-06-196370 Isabel Maria Batalha Vigia Polaco de Almeida PS Leiria F 22-10-195371 Isabel Maria Pinto Nunes Jorge PS Braga F 10-02-195372 Jacinto Serrão de Freitas PS Madeira M 16-02-196973 Jaime J<strong>os</strong>é Mat<strong>os</strong> da Gama PS Lisboa M 08-06-194774 Jerónimo Carvalho de Sousa PCP Lisboa M 13-04-194775 Joana Fernanda Ferreira Lima PS Porto F 18-11-196376 João Barr<strong>os</strong>o Soares PS Lisboa M 29-08-194977 João B<strong>os</strong>co Soares Mota Amaral PSD Açores M 15-04-194378 João Cândido da Rocha Bernardo PS Aveiro M 24-09-195579 João Carl<strong>os</strong> Vieira Gaspar PS Lisboa M 22-05-193780 João Guilherme Nobre Prata Frag<strong>os</strong>o Rebelo CDS-PP Lisboa M 02-02-197081 João Guilherme Ram<strong>os</strong> R<strong>os</strong>a de Oliveira PCP Évora M 09-07-197982 João Miguel de Melo Sant<strong>os</strong> Taborda Serrano PS Lisboa M 15-04-196483 João Nuno Lacerda Teixeira de Melo CDS-PP Braga M 18-03-196684 João Pedro Furtado da Cunha Semedo BE Porto M 20-06-195185 João Raul Henriques Sousa Moura Portugal PS Coimbra M 01-10-197786 Joaquim Barb<strong>os</strong>a Ferreira Couto PS Porto M 01-05-195187 Joaquim Carl<strong>os</strong> Vasconcel<strong>os</strong> da Ponte PSD Açores M 06-06-195688 Joaquim Ventura Leite PS Setúbal M 15-08-195089 Joaquim Virgílio Leite Almeida C<strong>os</strong>ta PSD Braga M 13-10-194390 Jorge <strong>Fernando</strong> Magalhães da C<strong>os</strong>ta PSD Porto M 12-01-195991 Jorge Filipe Teixeira Seguro Sanches PS Castelo Br M 30-07-196592 Jorge J<strong>os</strong>é Varanda Pereira PSD Braga M 28-10-196693 Jorge Manuel Capela Gonçalves Fão PS Viana do C M 04-11-195794 Jorge Manuel Ferraz de Freitas Neto PSD Porto M 03-01-195795 Jorge Manuel Gouveia Strecht Ribeiro PS Porto M 07-09-194396 Jorge Manuel Monteiro de Almeida PS Vila Real M 20-09-195497 Jorge Tadeu Correia Franco Morgado PSD Aveiro M 02-07-197198 J<strong>os</strong>é Adelmo Gouveia Bordalo Junqueiro PS Viseu M 28-06-195399 J<strong>os</strong>é Alberto Rebelo d<strong>os</strong> Reis Lamego PS Lisboa M 05-01-1953100 J<strong>os</strong>é António Freire Antunes PSD Porto M 25-01-1954101 J<strong>os</strong>é Augusto Clemente de Carvalho PS Lisboa M 18-12-1948102 J<strong>os</strong>é Batista Mestre Soeiro PCP Beja M 17-01-1948103 J<strong>os</strong>é Carl<strong>os</strong> Bravo Nico PS Évora M 11-09-1964104 J<strong>os</strong>é Carl<strong>os</strong> Correia Mota de Andrade PS Bragança M 25-11-1955105 J<strong>os</strong>é de Almeida Cesário PSD Fora da Eu M 20-07-1958106 J<strong>os</strong>é Eduardo Rego Mendes Martins PSD Viana do C M 09-02-1969107 J<strong>os</strong>é Eduardo Vera Cruz Jardim PS Lisboa M 02-01-1939108 J<strong>os</strong>é Helder do Amaral CDS-PP Viseu M 08-06-1967109 J<strong>os</strong>é Honório Faria Gonçalves Novo PCP Porto M 24-10-1950110 J<strong>os</strong>é Luís Fazenda Arnaut Duarte PSD Viseu M 04-03-1963111 J<strong>os</strong>é Manuel de Mat<strong>os</strong> Correia PSD Lisboa M 08-05-1963112 J<strong>os</strong>é Manuel Ferreira Nunes Ribeiro PSD Aveiro M 18-04-1969113 J<strong>os</strong>é Manuel Lello Ribeiro de Almeida PS Porto M 18-05-1944114 J<strong>os</strong>é Manuel Pereira da C<strong>os</strong>ta PSD Faro M 12-05-1959A L E A • D o s s i ê s D i d á c t i c o s


pág. 151Estatística Descritiva com Excel – Complement<strong>os</strong>. 119115 J<strong>os</strong>é Mendes Bota PSD Faro M 04-08-1955116 J<strong>os</strong>é Paulo Ferreira Areia de Carvalho CDS-PP Porto M 29-05-1967117 J<strong>os</strong>é Pedro Correia de Aguiar Branco PSD Porto M 18-07-1957118 J<strong>os</strong>é Raúl Guerreiro Mendes d<strong>os</strong> Sant<strong>os</strong> PSD Porto M 11-07-1959119 Jovita de Fátima Romano Ladeira PS Faro F 16-02-1957120 Júlio Francisco Miranda Calha PS Portalegre M 17-11-1947121 Leonor Coutinho Pereira d<strong>os</strong> Sant<strong>os</strong> PS Lisboa F 02-03-1947122 Lúcio Maia Ferreira PS Porto M 26-03-1950123 Luís Afonso Cerqueira Natividade Candal PS Aveiro M 02-03-1971124 Luís Álvaro Barb<strong>os</strong>a de Camp<strong>os</strong> Ferreira PSD Viana do C M 26-11-1961125 Luís António Pita Ameixa PS Beja M 13-10-1960126 Luís Emídio Lopes Mateus Fazenda BE Lisboa M 08-10-1957127 Luís Filipe Alexandre Rodrigues PSD Setúbal M 05-02-1966128 Luís Filipe Carloto Marques PSD Setúbal M 17-07-1963129 Luís Filipe Montenegro Card<strong>os</strong>o de Morais Esteves PSD Aveiro M 16-02-1973130 Luís Manuel Gonçalves Marques Mendes PSD Aveiro M 05-09-1957131 Luís Maria de Barr<strong>os</strong> Serra Marques Guedes PSD Lisboa M 25-08-1957132 Luís Miguel Morgado Laranjeiro PS Braga M 13-08-1965133 Luís Miguel Pais Antunes PSD Leiria M 20-08-1957134 Luís Miguel Pereira de Almeida PSD Coimbra M 07-08-1970135 Luís Pedro Russo da Mota Soares CDS-PP Lisboa M 29-05-1974136 Luísa Maria Neves Salgueiro PS Porto F 02-01-1968137 Luiz Manuel Fagundes Duarte PS Açores M 06-10-1954138 Manuel Alegre de Melo Duarte PS Lisboa M 12-05-1936139 Manuel António Gonçalves Mota da Silva PS Braga M 01-05-1972140 Manuel Filipe Correia de Jesus PSD Madeira M 16-12-1941141 Manuel Francisco Pizarro de Sampaio e Castro PS Porto M 02-02-1964142 Manuel J<strong>os</strong>é Mártires Rodrigues PS Faro M 22-08-1949143 Manuel Luís Gomes Vaz PS Bragança M 05-10-1951144 Manuel Maria Ferreira Carrilho PS Viseu M 09-07-1951145 Marc<strong>os</strong> da Cunha e Lorena Perestrello de Vasconcel PS Beja M 23-08-1971146 Marc<strong>os</strong> Sá Rodrigues PS Lisboa M 05-04-1976147 Maria Antónia Moreno Areias de Almeida Sant<strong>os</strong> PS Coimbra F 14-02-1962148 Maria Celeste Lopes da Silva Correia PS Lisboa F 08-10-1948149 Maria Cidália Bast<strong>os</strong> Faustino PS Castelo Br F 11-04-1947150 Maria Custódia Barb<strong>os</strong>a Fernandes C<strong>os</strong>ta PS Lisboa F 20-06-1939151 Maria de Belém R<strong>os</strong>eira Martins Coelho Henriques d PS Lisboa F 28-07-1949152 Maria de Fátima Oliveira Pimenta PS Viana do C F 09-02-1963153 Maria de Lurdes Ruivo PS Porto F 05-11-1958154 Maria do R<strong>os</strong>ário da Silva Card<strong>os</strong>o Águas PSD Vila Real F 21-02-1961155 Maria do R<strong>os</strong>ário Lopes Amaro da C<strong>os</strong>ta da Luz Carn PS Aveiro F 14-10-1948156 Maria Helena da Silva Ferreira Rodrigues PS Vila Real F 07-05-1955157 Maria Helena Pass<strong>os</strong> R<strong>os</strong>a Lopes da C<strong>os</strong>ta PSD Lisboa F 06-04-1953158 Maria Helena Terra de Oliveira Ferreira Dinis PS Aveiro F 22-06-1965159 Maria Hortense Nunes Martins PS Castelo Br F 21-09-1966160 Maria Irene Marques Vel<strong>os</strong>o PS Lisboa F 07-12-1945161 Maria Isabel Coelho Sant<strong>os</strong> PS Porto F 12-02-1968162 Maria Jesuína Carrilho Bernardo PS Europa F 25-11-1943163 Maria J<strong>os</strong>é Guerra Gamboa Camp<strong>os</strong> PS Porto F 06-07-1948164 Maria Júlia Gomes Henriques Caré PS Madeira F 25-10-1954165 Maria Luísa Rai<strong>mundo</strong> Mesquita PCP Santarém F 10-04-1949166 Maria Manuel Fernandes Francisco Oliveira PS Setúbal F 17-09-1960167 Maria Manuela de Macedo Pinho e Melo PS Porto F 26-03-1945168 Maria Matilde Pessoa de Magalhães Figueiredo de S PS Coimbra F 08-07-1943169 Maria Odete da Conceição João PS Leiria F 03-01-1958170 Maria Ofélia Fernandes d<strong>os</strong> Sant<strong>os</strong> Moleiro PSD Leiria F 21-06-1949171 Maria Teresa Alegre de Melo Duarte Portugal PS Coimbra F 23-08-1939172 Maria Teresa Filipe de Moraes Sarmento Diniz PS Setúbal F 18-10-1957173 Mariana R<strong>os</strong>a Aiveca Ferreira BE Setúbal F 03-02-1954A L E A • D o s s i ê s D i d á c t i c o s


pág. 152Estatística Descritiva com Excel – Complement<strong>os</strong>. 120174 Mário da Silva Coutinho Albuquerque PSD Santarém M 19-11-1940175 Mário Henrique de Almeida Sant<strong>os</strong> David PSD Leiria M 20-08-1953176 Mário Patinha Antão PSD Braga M 26-06-1945177 Maximiano Alberto Rodrigues Martins PS Madeira M 30-10-1949178 Melchior Ribeiro Pereira Moreira PSD Viseu M 23-01-1964179 Miguel Bento Martins da C<strong>os</strong>ta de Macedo e Silva PSD Braga M 06-05-1959180 Miguel Bernardo Ginestal Machado Monteiro Albuqu PS Viseu M 01-09-1965181 Miguel <strong>Fernando</strong> Cassola de Miranda Relvas PSD Santarém M 05-09-1961182 Miguel Jorge Pignatelli de Ataíde Queiroz PSD Porto M 21-04-1934183 Miguel Jorge Reis Antunes Frasquilho PSD Guarda M 12-11-1965184 Miguel Tiago Crispim R<strong>os</strong>ado PCP Lisboa M 27-08-1979185 Nelson Madeira Baltazar PS Santarém M 15-06-1951186 Nuno André Araújo d<strong>os</strong> Sant<strong>os</strong> Reis e Sá PS Braga M 02-04-1976187 Nuno Maria de Figueiredo Cabral da Câmara Pereira PSD Lisboa M 19-06-1951188 Nuno Mário da Fonseca Oliveira Antão PS Santarém M 31-03-1975189 Nuno Miguel Miranda de Magalhães CDS-PP Setúbal M 04-03-1972190 Osvaldo Alberto R<strong>os</strong>ário Sarmento e Castro PS Leiria M 10-08-1946191 Paula Cristina Barr<strong>os</strong> Teixeira Sant<strong>os</strong> PS Vila Real F 16-08-1966192 Paula Cristina Ferreira Guimarães Duarte PS Porto F 11-11-1965193 Paula Cristina Nobre de Deus PS Évora F 05-03-1970194 Paulo Artur d<strong>os</strong> Sant<strong>os</strong> Castro de Camp<strong>os</strong> Rangel PSD Porto M 18-02-1968195 Paulo Miguel da Silva Sant<strong>os</strong> PSD Porto M 24-03-1971196 Paulo Sacadura Cabral Portas CDS-PP Aveiro M 12-09-1962197 Pedro Augusto Cunha Pinto PSD Lisboa M 24-10-1956198 Pedro Manuel Farmhouse Simões Alberto PS Lisboa M 27-06-1961199 Pedro Miguel de Azeredo Duarte PSD Porto M 12-07-1973200 Pedro Miguel de Santana Lopes PSD Lisboa M 29-06-1956201 Pedro Nuno de Oliveira Sant<strong>os</strong> PS Aveiro M 13-04-1977202 Pedro Quartin Graça Simão J<strong>os</strong>é PSD Lisboa M 18-05-1952203 Regina Maria Pinto da Fonseca Ram<strong>os</strong> Bast<strong>os</strong> PSD Aveiro F 04-11-1960204 Renato Luís de Araújo Forte Sampaio PS Porto M 03-05-1952205 Renato Luís Pereira Leal PS Açores M 17-06-1953206 Ricardo Jorge Olímpio Martins PSD Vila Real M 11-09-1972207 Ricardo Manuel de Amaral Rodrigues PS Açores M 01-06-1958208 Ricardo Manuel Ferreira Gonçalves PS Braga M 13-09-1957209 Rita Manuela Mascarenhas Falcão d<strong>os</strong> Sant<strong>os</strong> Miguel PS Guarda F 28-07-1974210 Rita Susana da Silva Guimarães Neves PS Lisboa F 10-05-1976211 R<strong>os</strong>a Maria da Silva Bast<strong>os</strong> da Horta Albernaz PS Aveiro F 04-09-1947212 R<strong>os</strong>alina Maria Barb<strong>os</strong>a Martins PS Viana do C F 22-12-1955213 Rui do Nascimento Rabaça Vieira PS Lisboa M 14-04-1948214 Rui Manuel Lobo Gomes da Silva PSD Lisboa M 23-08-1958215 Sandra Marisa d<strong>os</strong> Sant<strong>os</strong> Martins Catarino da C<strong>os</strong>ta PS Setúbal F 05-03-1977216 Sérgio André da C<strong>os</strong>ta Vieira PSD Porto M 22-08-1970217 Sónia Ermelinda Mat<strong>os</strong> da Silva Fertuzinh<strong>os</strong> PS Braga F 12-01-1973218 Sónia Isabel Fernandes Sanfona Cruz Mendes PS Santarém F 10-12-1971219 Telmo Augusto Gomes de Noronha Correia CDS-PP Lisboa M 04-02-1960220 Teresa Margarida Figueiredo de Vasconcel<strong>os</strong> Caeiro CDS-PP Leiria F 14-02-1969221 Teresa Maria Neto Venda PS Braga F 30-08-1953222 <strong>Um</strong>berto Pereira Pacheco PS Lisboa M 27-11-1952223 Vasco Manuel Henriques Cunha PSD Santarém M 23-03-1965224 Vasco Seixas Duarte Franco PS Lisboa M 27-04-1952225 Vitalino J<strong>os</strong>é Ferreira Prova Canas PS Santarém M 14-07-1959226 Vítor Hugo Machado da C<strong>os</strong>ta Salgado de Abreu PS Braga M 24-01-1977227 Vítor Manuel Bento Baptista PS Coimbra M 27-05-1952228 Vítor Manuel Pinheiro Pereira PS Castelo Br M 16-08-1962229 Vitor Manuel Sampaio Caetano Ramalho PS Setúbal M 21-07-1948230 Zita Maria de Seabra R<strong>os</strong>eiro PSD Coimbra F 25-05-1949A L E A • D o s s i ê s D i d á c t i c o s


pág. 153# o inquérito estatísticoBibliografia / Outr<strong>os</strong> Recurs<strong>os</strong>• BARNETT, V. (1997) – Sample Survey: Principles& Methods, Arnold, London.GRAÇA MARTINS, M.E. et al (1999) – Introduçãoàs Probabilidades e à Estatística, Edição da<strong>Universidade</strong> Aberta.GRAÇA MARTINS, M.E. (2005) – Introdução àProbabilidade e à Estatística – Com complement<strong>os</strong>de Excel. Edição da Sociedade Portuguesa deEstatística.GRAÇA MARTINS, M.E. et al (2001) – Estatística– 10º ano de escolaridade, Edição do Ministério daEducação – Departamento do Ensino Secundário.GRAÇA MARTINS, M.E. e Loura, L. (2001) –Matemática <strong>para</strong> as Ciências Sociais – Anexo <strong>para</strong>apoio à interpretação do programa.MOORE, D. (1992) – What is Statistics inPerspectives on Contemporary Statistics, Ediçãode David Hoaglin e David Moore, The MathematicalAssociation of America.Artig<strong>os</strong> da revista /TEACHING STATISTICSAGEEL, M.I. – Spreadsheets as a Simulation Toolfor Solving Probability Problems, Vol 24, 2, 51Hodgson, T., and Borkowski, J. - Why Stratify? Vol20, 1, 68-71. NEVILLE, H. – Handling ContinuousData in Excel, Vol 25, 2, 42-45.NEVILLE, H. – Charts in Excel, Vol 26, 2, 49-53.Páginas na InternetMOORE, D. ET AL (1996) – Introduction to thePractice of Statistics, Freeman, New York.MOORE, D. (1996) – The Basic Practice ofStatistics, Freeman, New York.MOORE, D. (1997) – Statistics – Concepts andControversies, Freeman, New York.MURTEIRA, B. (1993) – Análise Exploratória deDad<strong>os</strong>. Estatística Descritiva, McGraw-Hill.COMAP, (2000) – For all Practical Purp<strong>os</strong>es:Mathematical Literacy in Todays World, Freemanand Company, New York.ROSSMAN, A. et al (2001) –Workshop Statistics– Discovery with data, Key College Publishing.TANNENBAUM. P. et al (1998) – Excursions inmodern Mathematics, Prentice Hall. VICENTE, P.,REIS, E., FERRÃO, F. (1996) – Sondagens, EdiçõesSílabo.ESCOLA SECUNDÁRIA TOMAZ PELAYO EINSTITUTO NACIONAL DE ESTATÍSTICA PROJECTOALEA – http://www.alea.ptINSTITUTO NACIONAL DE ESTATÍSTICA –www.ine.pt/ Tem informação sobre Portugal, aonível da freguesia.EUROSTAT – europa.eu.int/comm/eur<strong>os</strong>tat/ Teminformação relativa a<strong>os</strong> divers<strong>os</strong> países da Europa.WORLD HEALTH ORGANIZATION – http://www.who.int/research/en/ Tem informação sobretemas ligad<strong>os</strong> à saúde, <strong>para</strong> tod<strong>os</strong> <strong>os</strong> países do<strong>mundo</strong>.WORLD IN FIGURES – http://www.stat.fi/tup/maanum/index_en.html Tem informação dasmais diversas áreas, tais como população eestatísticas vitais, cultura, religiões, emprego,consumo, etc., relativa a tod<strong>os</strong> <strong>os</strong> países do<strong>mundo</strong>.


Representações GráficasAna Alexandrino da Silva


pág. 157# Representações GráficasRepresentaçõesGráficasNotas sobre a criação e apresentaçãode alguns tip<strong>os</strong> de gráfic<strong>os</strong>Ana ALexandrino da SilvaSumário:1.1. IntroduçãoHistória d<strong>os</strong> gráfic<strong>os</strong>Reflexões sobre a construção de gráfic<strong>os</strong>Formatação do gráficoEstud<strong>os</strong> perceptiv<strong>os</strong>Element<strong>os</strong> do gráfico1.2. Gráfic<strong>os</strong> de barrasGráfic<strong>os</strong> de barras simples (verticaisou horizontais)Algumas regras relacionadas com aconstrução d<strong>os</strong> gráfic<strong>os</strong> de barrasGráfic<strong>os</strong> de barras agrupadasGráfic<strong>os</strong> de barras empilhadasHistogramaPirâmide EtáriaSéries temporais em Gráfic<strong>os</strong>de barras1.3. Gráfic<strong>os</strong> de linhasGráfic<strong>os</strong> de área1.4. Gráfic<strong>os</strong> circulares1.5. Pictogramas1.6. Ver também...


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 158Enquanto no século XIX, se assistiu à criação edisseminação alargada d<strong>os</strong> gráfic<strong>os</strong> estatístic<strong>os</strong>na comunidade científica, no século XX houveum aumento exponencial da sua utilização emdocument<strong>os</strong> de divulgação alargada e acessíveisao grande público.1.1. IntroduçãoOs gráfic<strong>os</strong> encontram-se presentes em quasetod<strong>os</strong> <strong>os</strong> mei<strong>os</strong> de divulgação de informação,designadamente n<strong>os</strong> jornais e revistas, n<strong>os</strong>manuais escolares, nas apresentações públicas eaté <strong>os</strong> n<strong>os</strong>s<strong>os</strong> relatóri<strong>os</strong> individuais já não passamsem eles.Contudo, fazer um gráfico ou um mapa que defacto informe e seja, simultaneamente, apelativo,legível e coerente com <strong>os</strong> dad<strong>os</strong> não é tarefafácil…A grande vantagem d<strong>os</strong> gráfic<strong>os</strong> reside na suacapacidade de contar uma história de formainteressante e atractiva permitindo compreenderrapidamente fenómen<strong>os</strong> que dificilmente seriampercebid<strong>os</strong> de outra forma. Contudo, tal nãoimplica que este processo seja feito de formasimples, sendo necessário muito trabalho ecuidado.Existem inúmeras formas de apresentarfigurativamente a informação estatística e no casoparticular d<strong>os</strong> gráfic<strong>os</strong> são tantas as p<strong>os</strong>sibilidadesque houve necessidade de restringir o objectodeste d<strong>os</strong>siê a<strong>os</strong> gráfic<strong>os</strong> mais correntes e nãoproceder a uma abordagem exaustiva.História d<strong>os</strong> gráfic<strong>os</strong>A história d<strong>os</strong> gráfic<strong>os</strong> estatístic<strong>os</strong> érelativamente recente. O maior avanço deu-seapenas há cerca de 200 an<strong>os</strong>, em 1786, graçasa William Playfair que inventou a maioria dasformas gráficas que conhecem<strong>os</strong> hoje: o gráficode barras, o gráfico de linhas baseado em dad<strong>os</strong>económic<strong>os</strong> e o gráfico circular.Desde Playfair muito se avançou na divulgação d<strong>os</strong>gráfic<strong>os</strong> estatístic<strong>os</strong>, usad<strong>os</strong> agora um pouco portodo o lado - nas escolas, n<strong>os</strong> média, etc. mas amaioria d<strong>os</strong> gráfic<strong>os</strong> actualmente em uso datamdesse tempo (século XVIII/XIX).Com o aparecimento d<strong>os</strong> computadoresretomaram-se <strong>os</strong> estud<strong>os</strong> desenvolvid<strong>os</strong> na áread<strong>os</strong> gráfic<strong>os</strong> sendo imperativo fazer referência aEdward TUKEY (1977) responsável pela invençãode gráfic<strong>os</strong> indispensáveis na análise exploratóriade dad<strong>os</strong>, como sejam a caixa de bigodes e odiagrama de caule e folhas, entre outr<strong>os</strong>.Reflexões sobre a construção de gráfic<strong>os</strong>Com a tecnologia existente, a produção degráfic<strong>os</strong> está ao alcance de tod<strong>os</strong>. Mas éimportante ter alguns cuidad<strong>os</strong>.Neste d<strong>os</strong>siê serão compilad<strong>os</strong> um conjunto decritéri<strong>os</strong> subjacentes à criação de um gráfico.Este processo inicia-se no momento em que sedecide optar por um gráfico e só termina quando oresultado se considera satisfatório.Com a enchente de gráfic<strong>os</strong> que se vive n<strong>os</strong> diasde hoje, o leitor tornou-se exigente. A reacção aum gráfico demasiado ‘carregado’ de informação,pode ser o afastamento, e mesmo que lhe sejadedicado alguma atenção, poucas recordaçõessubsistem. Este distanciamento também pode sercausado por um excesso de element<strong>os</strong> gráfic<strong>os</strong>não informativ<strong>os</strong>, originando gráfic<strong>os</strong> apelidad<strong>os</strong>por TUFTE (1983) de lixo gráfico (chart junk).Antes de mais, deve questionar-se a necessidadede m<strong>os</strong>trar <strong>os</strong> dad<strong>os</strong> graficamente. De facto,em cert<strong>os</strong> cas<strong>os</strong>, não fará sentido recorrer aum gráfico quando o objectivo não é dar umaimagem, mas sim fornecer dad<strong>os</strong> concret<strong>os</strong>, quer


pág. 159# Representações GráficasPor conseguinte, a adopção do gráfico apenasse pode consumar após serem formuladas, econvenientemente respondidas, as seguintesperguntas:em situações em que apenas se detêm pouc<strong>os</strong>valores como <strong>para</strong> <strong>os</strong> cas<strong>os</strong> em que se pretendemdivulgar muit<strong>os</strong> dad<strong>os</strong>.Outro d<strong>os</strong> problemas com que se debate quemproduz gráfic<strong>os</strong> é a restrição de espaço, obrigandoà acumulação de informação num único gráfico oua um dimensionamento reduzido das imagens, comconsequências na sua leitura.WALLGREN (1996) sintetiza esta fasepre<strong>para</strong>tória em oito perguntas que não podemser respondidas se<strong>para</strong>damente:• <strong>Um</strong> gráfico é realmente a melhor opção?• O gráfico é fácil de ler?• O gráfico pode ser mal interpretado?• O gráfico tem o tamanho e a forma certa?• O gráfico está localizado no sítio certo?• O gráfico beneficia por ser a cores?• A compreensão do gráfico foi testada comalguém?Formatação do gráfico• Qual é o público-alvo?• Qual é o objectivo do gráfico?• Que tipo de gráfico se deve usar?• Como deve ser apresentado o gráfico?• Qual deve ser o tamanho do gráfico?• Deverá ser usado apenas um gráfico?• A que mei<strong>os</strong> técnic<strong>os</strong> se deve recorrer?Após ter sido seleccionado o modelo de gráficomais adequado ao contexto respectivo, inicia-se aconstrução do gráfico propriamente dita.Quando finalmente se pensa ter obtido o gráficopretendido, torna-se fundamental proceder auma análise crítica, no sentido de compreenderse esta é a forma mais eficaz de transmitir amensagem inicial. <strong>Um</strong> gráfico mal compreendidopode provocar uma interpretação errada. Poroutro lado, um gráfico visualmente desagradávelpode afastar o leitor, em vez de o informar:“<strong>Um</strong> mau gráfico é pior do que nenhum gráfico”(WALLGREN, 1996, p. 89).A representação gráfica é um tema complexo ondese cruzam áreas tão diversas como a estatística,o desenho e a psicologia. <strong>Um</strong> gráfico poderepresentar correctamente as variáveis, contertod<strong>os</strong> <strong>os</strong> element<strong>os</strong> necessári<strong>os</strong> e não ser, nematractivo, nem de fácil leitura.É p<strong>os</strong>sível redesenhar um gráfico, atravésda modificação ou supressão de algunselement<strong>os</strong> gráfic<strong>os</strong>, sem que haja perda deinformação (TUFTE, 1983). No entanto, muit<strong>os</strong>d<strong>os</strong> gráfic<strong>os</strong> divulgad<strong>os</strong> necessitam de umacerta sofisticação a este nível, sendo comumencontrar imagens visualmente semelhantesprovenientes do assistente de gráfic<strong>os</strong> d<strong>os</strong>oftware Excel, que por serem imagens muitovistas, e portanto cansativas, não atraem oleitor.O Excel permite alguma manipulação visual noleque de gráfic<strong>os</strong> que apresenta. Seguidamente,é apresentado um exemplo de como se podemelhorar a leitura, modificando o aspecto dográfico.Na tentativa de encontrar a melhor imagem quesatisfaça tod<strong>os</strong> <strong>os</strong> requisit<strong>os</strong> iniciais, entra-senum processo iterativo que só termina quand<strong>os</strong>e garante uma elevada legibilidade e pertinência.


pág. 160A primeira coisa a ter em conta quando se pretende elaborar um gráfico é a organização d<strong>os</strong> dad<strong>os</strong>.O tipo de gráfico selecionado é influenciado pela forma como estão disp<strong>os</strong>t<strong>os</strong> <strong>os</strong> dad<strong>os</strong>. A melhorforma é dispor <strong>os</strong> dad<strong>os</strong> numa tabela, com as respectivas identificações, <strong>para</strong> que estes p<strong>os</strong>sam serutilizad<strong>os</strong> como títul<strong>os</strong> e legendas do gráfico.A tabela d<strong>os</strong> dad<strong>os</strong>:Qualificação académica da populaçãod<strong>os</strong> 15-64 an<strong>os</strong>SexoQualificação académicaMasculinoFemininoNenhum 7,5% 11,3%Obrigatório 69,3% 61,5%Secundário 15,7% 16,7%Superior 7,5% 10,5%P<strong>os</strong>sibilidades de formatação de gráfic<strong>os</strong> com o Excel1. Área do gráfico (chart area)2. Legenda (legend)3. Eixo das categorias (category axis)5. Eixo de valores (value axis),6. Linhas de grelha (gridlines)7. Série de dad<strong>os</strong> (series)4. Área do desenho (plot area),Descrição do processo de formataçãoPartindo do critério de que pelo men<strong>os</strong> dois terç<strong>os</strong> da área do gráfico devem ser afectad<strong>os</strong> às barrasou, genericamente, à área do desenho, (SCHMID, 1992), ampliou-se o espaço preenchido por estas.No eixo d<strong>os</strong> valores foram retiradas as casas decimais e suprimid<strong>os</strong> alguns valores, apesar de seterem mantido as respectivas linhas de grelha. Poder-se-ia ter deixado apenas o sinal de % juntoao último valor, retirando <strong>os</strong> sinais de % n<strong>os</strong> valores 0 e 40. Foi também retirada a linha do eixo eas marcas d<strong>os</strong> eix<strong>os</strong>, <strong>para</strong> além de se ter encurtado a amplitude do intervalo de valores dado que amaior das barras não ultrapassava <strong>os</strong> 80%.A linha do eixo das categorias apresenta um maior peso visual do que as restantes linhas auxiliares,estando as designações orientadas horizontalmente <strong>para</strong> facilitar a leitura.


pág. 161# Representações GráficasForam retiradas as molduras do gráfico, dalegenda e das barras por se considerar não existirqualquer vantagem em mantê-las, sobrecarregandodesnecessariamente a construção gráfica, ep<strong>os</strong>icionou-se a legenda no interior do gráfico <strong>para</strong>diminuir a distância percorrida pel<strong>os</strong> olh<strong>os</strong> entre ascomponentes e as suas designações. Mudaram-seas cores das barras, aumentou-se a sua gr<strong>os</strong>surae simultaneamente diminuiu-se o espaço entregrup<strong>os</strong> de barras.(Re)desenho do gráficoatravés do Excel1 – Área do gráfico• Gráfico sem moldura e com área a branco…A figura “Depois” não é mais do que a figura“Antes” depois de transformada recorrendo àspotencialidades do software.Figura 1 – Gráfico de barrasantes e depois de ser modificadoatravés do ExcelAntes…80,0%70,0%60,0%50,0%40,0%30,0%20,0%10,0%0,0%Qualificação académica dapopulação d<strong>os</strong> 15 a<strong>os</strong> 65 an<strong>os</strong> porsexo, 2001MasculinoFemininoQualificação académicada população d<strong>os</strong> 15 a<strong>os</strong> 65 an<strong>os</strong>por sexo, 200180,0%70,0%60,0%50,0%40,0%30,0%20,0%10,0%0,0%NenhumObrigatórioSecundárioSuperiorMasculinoFeminino• Gráfico com tipo de letra Arial narrow,tamanho 8…Ne nh umObrigató rioSecu nd árioSu pe rior…Depois80%40%Qualificação académica d<strong>os</strong> activ<strong>os</strong>portugueses por sexo, 2001Masculino FemininoQualificação académicada população d<strong>os</strong> 15 a<strong>os</strong> 65 an<strong>os</strong>por sexo, 20010%Nenhum Obrigatório Secundário Superior80,0%70,0%60,0%50,0%40,0%30,0%20,0%10,0%0,0%Ne nh umObr igató rioS ecu nd ár ioSu pe riorMasculinoFeminino


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 1622 – Legenda• Gráfico com legenda no canto superior direito…3 - Eixo das categorias• Gráfico com identificações das categorias nahorizontal…80,0%70,0%60,0%50,0%40,0%30,0%20,0%10,0%0,0%Qualificação académica da populaçãod<strong>os</strong> 15 a<strong>os</strong> 65 an<strong>os</strong> por sexo, 2001Ne nh umObr igató rioS ecu nd ár ioSu pe riorMasculinoFeminino80,0%70,0%60,0%50,0%40,0%30,0%20,0%10,0%0,0%Qualificação académica da populaçãod<strong>os</strong> 15 a<strong>os</strong> 65 an<strong>os</strong> por sexo, 2001NenhumMasculinoSecundárioFeminino• Gráfico com legenda sem moldura, fundo esímbol<strong>os</strong> na horizontal…4 - Eixo d<strong>os</strong> valores• Gráfico sem linha e tick marks no eixo d<strong>os</strong>valores…80,0%70,0%60,0%50,0%40,0%30,0%20,0%10,0%0,0%Qualificação académica da populaçãod<strong>os</strong> 15 a<strong>os</strong> 65 an<strong>os</strong> por sexo, 2001Ne nh umObr igató rioS ecu nd ár ioMasculinoSu pe riorFeminino80,0%70,0%60,0%50,0%40,0%30,0%20,0%10,0%0,0%Qualificação académica da populaçãod<strong>os</strong> 15 a<strong>os</strong> 65 an<strong>os</strong> por sexo, 2001NenhumMasculinoSecundárioFeminino


pág. 163# Representações Gráficas6 - Linhas de grelha• Gráfico com linhas de grelha a cinzento…• Gráfico com eixo de valores sem casasdecimais…Qualificação académica da populaçãod<strong>os</strong> 15 a<strong>os</strong> 65 an<strong>os</strong> por sexo, 2001Qualificação académica da populaçãod<strong>os</strong> 15 a<strong>os</strong> 65 an<strong>os</strong> por sexo, 200180%70%60%50%40%30%20%10%0%NenhumMasculinoSecundárioFeminino80%70%60%50%40%30%20%10%0%NenhumObrigatórioMasculinoSecundárioSuperiorFeminino• Gráfico com escala de valores <strong>para</strong> <strong>os</strong> dois tip<strong>os</strong>de linhas de grelha…5 - Área do desenho• Gráfico com área de desenho a branco e semmoldura…Qualificação académica da populaçãod<strong>os</strong> 15 a<strong>os</strong> 65 an<strong>os</strong> por sexo, 2001MasculinoFemininoQualificação académica da populaçãod<strong>os</strong> 15 a<strong>os</strong> 65 an<strong>os</strong> por sexo, 2001Qualificação académica da populaçãod<strong>os</strong> 15 a<strong>os</strong> 65 an<strong>os</strong> por sexo, 200180%70%60%50%40%30%20%10%0%NenhumObrigatórioSecundárioSuperior80%40%0%NenhumObrigatórioMasculinoSecundárioSuperiorFeminino80%40%0%NenhumObrigatórioMasculinoSecundárioSuperiorFeminino


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 164Estud<strong>os</strong> perceptiv<strong>os</strong>7 - Série de dad<strong>os</strong>• Gráfico com barras de cor diferente e semmoldura…A percepção gráfica é um d<strong>os</strong> element<strong>os</strong>mais importantes a ter em conta quando seelabora um gráfico, porque permite dar umafundamentação científica à construção gráficae sustentar a escolha de uma forma gráfica emdetrimento de outra. A leitura das imagens podeser condicionada pela dificuldade em estimarcorrectamente <strong>os</strong> dad<strong>os</strong> representad<strong>os</strong>.Na fase da construção, a informação é codificadano gráfico através de símbol<strong>os</strong>, compriment<strong>os</strong>,declives d<strong>os</strong> segment<strong>os</strong> de recta, áreas,textura ou cor. Quando um gráfico é analisado, ainformação codificada é visualmente descodificada,sendo o processo de descodificação, denominadode percepção gráfica, um factor de controlo nacapacidade de um gráfico transmitir informação(CLEVELAND, MCGILL, 1987).80%40%0%Qualificação académica da populaçãod<strong>os</strong> 15 a<strong>os</strong> 65 an<strong>os</strong> por sexo, 2001NenhumObrigatórioMasculinoSecundárioSuperiorFemininoA extracção de informação a partir d<strong>os</strong> gráfic<strong>os</strong>envolve tarefas perceptivas realizadas pel<strong>os</strong>istema visual olho-cérebro. No quadro seguinte,estas tarefas estão ordenadas segundo a suaprecisão na extracção de informação quantitativa.Quanto men<strong>os</strong> precisa for a tarefa preceptivamaior o erro de leitura, ou seja, maior a diferençaentre o valor percebido e o valor correcto.• Gráfico com espaço entre as barras alterado…Figura 2 – Avaliação detarefas perceptivasordenadas segundo asua precisãoMais precisoP<strong>os</strong>ição numa escalacomumP<strong>os</strong>ição em escalasnão alinhadasABQualificação académica da populaçãod<strong>os</strong> 15 a<strong>os</strong> 65 an<strong>os</strong> por sexo, 2001TamanhoÂnguloCD80%MasculinoFemininoDecliveE40%0%NenhumObrigatório Secundário SuperiorÁreaVolumeMen<strong>os</strong> preciso(adaptado de CLEVELAND, MCGILL, 1984, 1987)FG


pág. 165# Representações GráficasFigura 4 – Exempl<strong>os</strong>das tarefas C e DPor exemplo, n<strong>os</strong> gráfic<strong>os</strong> de barras agrupadas,o leitor estima <strong>os</strong> valores através da p<strong>os</strong>içãodas barras na mesma escala ou em escalasse<strong>para</strong>das, consoante a forma de apresentaçãod<strong>os</strong> dad<strong>os</strong>.População residente por regiões, 2001NorteMadeiraAçoresCentroA com<strong>para</strong>ção entre barras próximas (Figura 3- A) é melhor do que a com<strong>para</strong>ção entre barrasmais afastadas (Figura 3 - B), ou seja, nestaúltima forma o leitor tem mais dificuldade emestimar <strong>os</strong> valores.CAlgarveAlentejoLisboa eVale doTejoNorteCentroLisboa e Vale do TejoFigura 3 – Exempl<strong>os</strong>das tarefas A e BDAlentejoAlgarveAçoresMadeira0 10 20 30 40 %AElement<strong>os</strong> do gráficoBOs gráfic<strong>os</strong> incorporam o seguinte conjunto deelement<strong>os</strong>: o título, <strong>os</strong> eix<strong>os</strong> de valores e decategorias (basead<strong>os</strong> no sistema de coordenadas),a legenda, as identificações d<strong>os</strong> dad<strong>os</strong> e as linhasauxiliares (Figura 5).Na com<strong>para</strong>ção entre gráfic<strong>os</strong> de barras egráfic<strong>os</strong> circulares, <strong>os</strong> primeir<strong>os</strong> revelaram-seperceptivamente mais adequad<strong>os</strong>, dado quea estimação d<strong>os</strong> compriment<strong>os</strong> demonstrouser duas vezes mais precisa que a estimaçãode ângul<strong>os</strong>. Veja-se o caso da região Norte eda região de Lisboa e Vale do Tejo. No gráficocircular não se tem a percepção de qual é omaior. Pelo contrário, o gráfico de barras m<strong>os</strong>traclaramente a diferença.É comum encontrar gráfic<strong>os</strong> a três dimensões emque a profundidade não descreve qualquer variável.Como o volume é o que maiores problemas trazem term<strong>os</strong> de percepção, não deve ser utilizado.Figura 5 – Element<strong>os</strong>de um gráficoeixo de valoresunidade543210identificaçãoTítuloa b c deixo de categoriasLegendalinhasauxiliares


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 166Estes element<strong>os</strong> são constituíd<strong>os</strong> por símbol<strong>os</strong>gráfic<strong>os</strong> (pont<strong>os</strong>, linhas, númer<strong>os</strong>, letras, etc.) esua variação (cor, valor, etc.).A área do gráfico pode conter tod<strong>os</strong> esteselement<strong>os</strong>, ou apenas alguns, sistematizad<strong>os</strong> emduas áreas complementares: a ‘área do desenho’(plot area) onde está contida a representaçãográfica propriamente dita e a ‘área exterior’(chart area) onde normalmente estão p<strong>os</strong>icionadasas componentes de auxílio à leitura (título, legendae identificações).Área exterior:TítuloO título deve estar presente em qualquer tipode representação gráfica e ser escrito comvista a orientar o leitor na sua interpretação.Para tal, deve ser redigido por forma aresponder às perguntas: O Quê, Onde e Quando.Simultaneamente, deve ser conciso, relevantee claro, ou seja, conter apenas informaçãoessencial <strong>para</strong> uma interpretação correcta dográfico. Por exemplo, um gráfico integrado numapublicação temática, relativa a uma dada regiãoou a um certo período temporal não necessitade incluir sistematicamente a mesma referênciaregional ou temporal. Sugere-se, igualmente,o p<strong>os</strong>icionamento do título antes do gráficofuncionando como um cabeçalho, centradohorizontalmente (SCHMID, 1992) ou alinhado àesquerda (WALLGREN, 1996).Identificações (ou rótul<strong>os</strong>)Neste conceito genérico enquadra-se toda ainformação escrita p<strong>os</strong>icionada na área exterior:as designações d<strong>os</strong> eix<strong>os</strong> de valores e categorias,a referência às respectivas unidades e eventuaisnotas (fontes da informação, esclareciment<strong>os</strong>, etc.).A orientação de todas as palavras deve ser,preferencialmente, horizontal e estar de acordocom o sentido da leitura das palavras escritas nalíngua, no n<strong>os</strong>so caso, da esquerda <strong>para</strong> a direita.Na maior parte d<strong>os</strong> gráfic<strong>os</strong> ou tabelas nã<strong>os</strong>e justifica uma grande precisão n<strong>os</strong> dad<strong>os</strong>apresentad<strong>os</strong>.<strong>Um</strong> número excessivo de casas decimais(se<strong>para</strong>das das unidades por uma vírgula), oumesmo uma casa decimal em valores elevad<strong>os</strong>,envolve um rigor desnecessário e prejudicial àleitura. Para ser mais legível, a formatação devalores acima d<strong>os</strong> milhares pode ser feita com umespaço em vez de com um ponto ou uma vírgula.Os valores da escala devem ser express<strong>os</strong> emvalores arredondad<strong>os</strong> múltipl<strong>os</strong> de 1, 2 e 5 (ex. 5,10, 25, 50, 100, etc.). Aconselha-se a que nã<strong>os</strong>e apresentem númer<strong>os</strong> com mais de 5 dígit<strong>os</strong>,adaptando, caso seja preciso, a unidade <strong>para</strong>milhares ou milhões.Legenda<strong>Um</strong>a boa legenda deve fazer mais do quesimplesmente etiquetar as componentes dográfico. Deve dizer-n<strong>os</strong> o que é importante e qualé o objectivo do gráfico: informar o leitor e obrigarquem faz o gráfico a estruturar a informação(CLEVELAND, MCGILL, 1984a).A legenda é constituída por símbol<strong>os</strong> e respectivasdesignações. O preenchimento d<strong>os</strong> símbol<strong>os</strong> (corou outr<strong>os</strong>) deve ser realizado de modo a que nãohaja lugar <strong>para</strong> qualquer confusão visual entreeles e, consequentemente, <strong>para</strong> que exista umaligação clara entre <strong>os</strong> símbol<strong>os</strong> e a componenterepresentada. As designações, por seu lado,devem ser claras e concisas, deixando <strong>para</strong> notasadjacentes eventuais esclareciment<strong>os</strong>.Os símbol<strong>os</strong> devem aparecer na mesma ordemque as respectivas componentes: horizontalmentequando estão lado a lado (Figura 6) e verticalmentequando estão umas sobre as outras(WALLGREN, 1996).Aconselha-se a manutenção da legenda <strong>para</strong>gráfic<strong>os</strong> em que as componentes surjam mais doque uma vez (Figura 6).


pág. 167# Representações GráficasFigura 6 – Gráfico comuma legenda comumPopulação residente por região, 2001Norte Centro Lisboa e VT Alentejo Algarve Açores Madeira0 a 14 an<strong>os</strong>Portugal =16%0%Portugal =68%17%15% 15%13%15%21% 19%68% 66%68%63%67% 66% 67%ao longo do tempo, a este eixo estão associad<strong>os</strong><strong>os</strong> períod<strong>os</strong> temporais, em que a cada mês,trimestre, ano ou outro, corresponderá apenasum ponto ou uma barra no gráfico. Esta relaçãoé obviamente unívoca, ou seja, não faz sentidorepresentar numa mesma barra valores anuaise semestrais, ou no eixo an<strong>os</strong> e décadas, ouno mesmo espaço valores anuais e trimestrais(TUFTE, 1983).O eixo das categorias deve ser visualmente mais‘pesado’ do que as restantes linhas auxiliares(Figura 5) (SCHMID, 1992).15 a 64 an<strong>os</strong>65 ou + an<strong>os</strong>0%Portugal =17%0%14%20%17%24%19%12% 14%Note-se que a localização da legenda na áreaexterior obriga o sistema visual a alternar aprocura de informação entre a legenda e o gráfico,dificultando a sua interpretação imediata. Poreste facto, é aconselhada sempre que p<strong>os</strong>sívela omissão da legenda e o p<strong>os</strong>icionamento dasdesignações junto das respectivas componentes,nomeadamente em gráfic<strong>os</strong> de linhas (ver Figura8) e circulares.As designações da legenda podem ser deslocadasda ‘área externa’ <strong>para</strong> a ‘área do desenho’,permitindo não só que o próprio gráfico ocupemen<strong>os</strong> espaço, mas também diminuir a distânciapercorrida pelo sistema visual (ver Figura 10, ondeessas designações surgem junto às linhas d<strong>os</strong>dad<strong>os</strong>).Linhas auxiliares (ou linhas de grelha)<strong>Um</strong> d<strong>os</strong> element<strong>os</strong> gráfic<strong>os</strong> visualmente maismonótono são as linhas auxiliares. Devem, porisso ser suprimidas ou abafadas de tal formaque a sua presença se torne implícita. Ainda quep<strong>os</strong>sam auxiliar a leitura d<strong>os</strong> dad<strong>os</strong>, a maioriadas linhas auxiliares escuras tem um grandepeso visual, encobrindo muitas vezes, o maisimportante do gráfico: a informação. Quandoforem realmente necessárias deve-se optar porusar uma cor neutra e, no caso particular de umfundo branco, a cor cinzenta (Figura 7).Figura 7 – Linhasauxiliares em fundobranco e de corÁrea do desenho:Eixo de categorias ou variáveisNeste eixo estão p<strong>os</strong>icionadas as variáveis oucategorias que se pretendem retratar. No casode gráfic<strong>os</strong> que representam séries que evoluem


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 168Em cert<strong>os</strong> cas<strong>os</strong>, em particular nas sériestemporais, pode ser considerado importanteincluir linhas auxiliares verticais como auxilio àleitura de valores, por forma a complementar aleitura evolutiva da série com a leitura de valoresem particular (Figura 8).Evolução da taxa de desemprego em Portugal:total e d<strong>os</strong> jovensFigura 8 - Linhasauxiliares verticaisnum gráfico delinhasEvolução da taxa de desemprego em Portugal:total e d<strong>os</strong> jovensFigura 9 – Eixo devalores comidentificaçõesà esquerda%765432102º T-98Evolução da taxa de desemprego4º T-982º T-994º T-992º T-00Lisboa e Vale do Tejo4º T-00PortugalEsta imprecisão na leitura pode ser atenuadap<strong>os</strong>icionando o eixo à direita junto d<strong>os</strong> dad<strong>os</strong>mais recentes (ver Figura 8), duplicando o eixo(Figura 10), ou p<strong>os</strong>icionando <strong>os</strong> valores junto dascoordenadas respectivas (TUFTE, 1983).2º T-014º T-0115 a 24 an<strong>os</strong>16,5 %20%10Figura 10 – Gráficocom duplicaçãodo eixoTotal01992 94 96 98 2000 200120Evolução da taxa de desempregoem Portugal: total e d<strong>os</strong> jovens20%1515 a 24 an<strong>os</strong>151010Eixo de valores5Total5Na maioria d<strong>os</strong> gráfic<strong>os</strong> de séries temporais, <strong>os</strong>dad<strong>os</strong> mais recentes estão situad<strong>os</strong> à direitae longe das identificações do eixo d<strong>os</strong> valores,normalmente localizad<strong>os</strong> à esquerda (Figura 9),fazendo com que o olho humano tenha que semovimentar alternadamente entre <strong>os</strong> dad<strong>os</strong> e <strong>os</strong>valores ao longo das margens do gráfico.001992 93 94 95 96 97 98 99 2000 2001Os gráfic<strong>os</strong> com dois eix<strong>os</strong> distint<strong>os</strong> são normalmenteutilizad<strong>os</strong> quando se têm diferentes unidadesde medida (Figura 11) ou existem diferençasconsideráveis de valores nas categorias de umavariável. Este tipo de gráfic<strong>os</strong> deve ser evitadodado que é normalmente de difícil interpretaçãoe, em muit<strong>os</strong> cas<strong>os</strong>, bastante confuso (SCHMID,1992).


pág. 169# Representações GráficasFigura 12 – Gráfic<strong>os</strong>sem e com quebrade escalaFigura 11 – Gráfico comdois eix<strong>os</strong> distint<strong>os</strong>mil350300250200150100500Evolução do número de desempregad<strong>os</strong>e da taxa de desemprego em Portugalnº de desempregad<strong>os</strong>taxa de desemprego1992 1993 1994 1995 1996 1997 1998 1999 2000Quebra de escala%8Por princípio, deve privilegiar-se a escala completa(com início em zero ou noutro valor de referência)em nome da honestidade na apresentação (Figura12 - A). Contudo, essa quebra é admissível n<strong>os</strong>cas<strong>os</strong> em que a informação apresenta pequenasvariações, desde que acompanhada por umasimbologia perceptível ao leitor (Figura 12 - B).Para melhor compreender <strong>os</strong> dad<strong>os</strong> na fase daanálise exploratória não existe qualquer problemaem manipular as escalas e extrapolar eventuaisvariações, mas na fase da divulgação, deve existiralgum cuidado <strong>para</strong> não evidenciar graficamentealterações n<strong>os</strong> dad<strong>os</strong> que na verdade nãoocorreram.A quebra de escala é um exemplo de como se podedistorcer a mensagem transmitida. Quando oefeito n<strong>os</strong> dad<strong>os</strong> é significativamente diferente doefeito no gráfico, <strong>os</strong> valores aparecem visualmentesub ou sobre-avaliad<strong>os</strong> (TUFTE, 1983).76543210ABLisboa e Vale do TejoPortugal2º T-98Lisboa e Vale do Tejo2º T-984º T-98Portugal4º T-98Evolução da taxa de desemprego2º T-992º T-994º T-994º T-992º T-002º T-004º T-004º T-002º T-012º T-014º T-014º T-017 %65432107 %Existem dois tip<strong>os</strong> de leitura p<strong>os</strong>síveis num gráficocom mais de uma série temporal: a com<strong>para</strong>çãovertical em que se confronta a dimensão relativade uma série face a outra (ex: Portugal tem umataxa de desemprego cerca de 3/4 da de Lisboa eVale do Tejo) e a com<strong>para</strong>ção de declives em que éfeita uma análise da evolução de ambas as séries.No caso de se terem duas séries aparentementeconstantes, a com<strong>para</strong>ção entre elas apenaspode ser feita na vertical, dado que dificilmente sedetectam, visualmente, variações na sua evolução.Neste caso, a utilização da quebra de escalapermite detectar melhor as diferenças n<strong>os</strong> declivesmas a com<strong>para</strong>ção vertical entre as linhas deixade fazer qualquer sentido (WALLGREN, 1996). Éesta a razão pela qual não se devem fazer quebrasde escala em gráfic<strong>os</strong> de barras verticais, acom<strong>para</strong>ção vertical entre as barras, após umaquebra de escala, não pode ser feita.6543


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 170Variáveis visuaisJacques BERTIN, em Sémiologie graphique(1973, 2ª ed.), foi o primeiro a sistematizar<strong>os</strong> conheciment<strong>os</strong> sobre a aparência visual d<strong>os</strong>símbol<strong>os</strong> gráfic<strong>os</strong>, criando uma tipologia com asseguintes variáveis visuais.Localização – dada através das duas dimensõesx,y do plano;Tamanho – variação em comprimento, largura ouárea, estando naturalmente ligado à importâncianumérica d<strong>os</strong> dad<strong>os</strong>;Valor – refere-se à variação (percebida) claroescuroda cor ou à variação preto-branco;Textura – tamanho e espaçamento d<strong>os</strong> element<strong>os</strong>gráfic<strong>os</strong> que constituem o símbolo (pont<strong>os</strong>,linhas ou outr<strong>os</strong>), expresso pelo número desseselement<strong>os</strong> que se repetem por unidade decomprimento;Cor – sensação pela qual se diferencia entreporções particulares do espectro electromagnético,isto é, azul, verde, vermelho, etc.;Orientação – também designada por direcção,corresponde ao ângulo com a linha de leitura;Forma – pode ser geométrica (como quadrad<strong>os</strong>ou círcul<strong>os</strong>) ou então irregular.1.2. Gráfic<strong>os</strong> de barrasOs gráfic<strong>os</strong> de barras são uma das formas maispopulares de representar informação, em partepela facilidade quer de execução, quer de leitura.São <strong>para</strong> apresentar um conjunto de dad<strong>os</strong> etambém <strong>para</strong> com<strong>para</strong>r vári<strong>os</strong> conjunt<strong>os</strong> de dad<strong>os</strong>.Devem ser utilizad<strong>os</strong> <strong>para</strong> representar variáveisdiscretas ou qualitativas, em term<strong>os</strong> absolut<strong>os</strong>ou relativ<strong>os</strong>, ou <strong>para</strong> com<strong>para</strong>r categorias devariáveis quantitativas.Podem, igualmente, representar a evolução deuma variável ao longo do tempo.Neste tipo de gráfic<strong>os</strong>, o leitor extrai <strong>os</strong> valoresd<strong>os</strong> dad<strong>os</strong> através da visualização da p<strong>os</strong>içãodas barras relativamente a uma escala comum(CLEVELAND, MCGILL, 1984).Normalmente, as barras começam no eixo dascategorias, o que facilita a com<strong>para</strong>ção dasp<strong>os</strong>ições relativas.Figura 13 – As variáveisvisuais segundo BertinGráfic<strong>os</strong> de barras simples (verticais ouhorizontais)Num gráfico de barras, as frequências podemser indistintamente representadas no eixo dasabcissas ou das ordenadas, ou seja, as barraspodem ser horizontais ou verticais (Figura 14).Apesar do gráfico de barras verticais ser o maiscomum, existem situações em que é preferíveloptar pela outra disp<strong>os</strong>ição. O gráfico de barrashorizontais é considerado de leitura mais fácil,quando é expressiva a diferença entre o valormínimo e o valor máximo da variável.


pág. 171# Representações GráficasNum contexto de limitação do espaço disponível<strong>para</strong> p<strong>os</strong>icionar o gráfico, é igualmente preferíveloptar pelo gráfico de barras horizontal, uma vezque permite a inclusão de variadas categorias semaumentar significativamente o espaço ocupado.Figura 15 – Designações numgráfico de barras vertical ehorizontalFigura 14 – Gráficode barras horizontale verticalEmpregad<strong>os</strong> portugueses por profissão, 200225%20151050Quadr<strong>os</strong> superioresEspecialistasTécnic<strong>os</strong>Administrativ<strong>os</strong>Serviç<strong>os</strong>AgricultoresOperári<strong>os</strong>Operadores máquinasNão qualificad<strong>os</strong>MilitaresQuadr<strong>os</strong> superioresEspecialistasTécnic<strong>os</strong>Administrativ<strong>os</strong>Serviç<strong>os</strong>AgricultoresOperári<strong>os</strong>Operadores máquinasNão qualificad<strong>os</strong>MilitaresAconselha-se o gráfico de barras horizontais<strong>para</strong> variáveis cujas categorias têm designaçõesextensas, dado que n<strong>os</strong> gráfic<strong>os</strong> de barrasverticais o espaço <strong>para</strong> as designações é curto(Figura 15). Relembre-se que as designaçõesnão devem ser abreviadas, nem p<strong>os</strong>icionar-sede forma a dificultar a leitura (verticalmente ouobliquamente) acabando, muitas vezes, por ocuparmais espaço do que o próprio gráfico.Refira-se também que <strong>os</strong> gráfic<strong>os</strong> de barrashorizontais m<strong>os</strong>tram, de forma mais clara, asdiferenças entre <strong>os</strong> dad<strong>os</strong> uma vez que p<strong>os</strong>suemum eixo d<strong>os</strong> valores mais amplo. A Figura 15é exemplo disso: apesar de amb<strong>os</strong> <strong>os</strong> gráfic<strong>os</strong>ocuparem a mesma área, provocam efeit<strong>os</strong> visuaisdistint<strong>os</strong> quando se observam as categorias commaior frequência.0 5 10 15 20 25%Representação de valores negativ<strong>os</strong>A representação de valores negativ<strong>os</strong> é desaconselhadaem gráfic<strong>os</strong> de barras horizontais, dadoque, convencionalmente, a<strong>os</strong> valores negativ<strong>os</strong>está associada uma barra numa p<strong>os</strong>ição descendente(Fig. 16).De facto, a associação visual entre esquerdae direita e valores negativ<strong>os</strong> e p<strong>os</strong>itiv<strong>os</strong>,respectivamente, pode não ser directa <strong>para</strong> umleitor men<strong>os</strong> experiente. Por essa razão, devemser utilizad<strong>os</strong> gráfic<strong>os</strong> de barras verticais quandoexistem valores negativ<strong>os</strong>.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 172Figura 16 – Representaçãode valores negativ<strong>os</strong>Taxa de crescimento da população, 1991-200115%Algarve10%NortePortugal5%LisboaCentroAçores0%-5%AlentejoMadeiraFigura 17 – Gráfico sem quebrade escala e erradamente comquebra de escalaPopulação residente em portugal, 1991-2001Algumas regras relacionadascom a construção d<strong>os</strong> gráfic<strong>os</strong>de barrasA12 000 mil pessoas10 0008 0006 0004 0002 00001991 93 95 97 99 2001Escala no eixo d<strong>os</strong> valoresB10 400mil pessoasN<strong>os</strong> gráfic<strong>os</strong> de barras não é admissível a quebrade escala por deixar de ser p<strong>os</strong>sível efectuarcom<strong>para</strong>ções verticais entre categorias.10 20010 000<strong>Um</strong>a quebra de escala é enganadora, porquem<strong>os</strong>tra visualmente a existência de grandesvariações n<strong>os</strong> dad<strong>os</strong> que, de facto, não existem(Figura 17 A e B).Olhando <strong>para</strong> a Figura 17 B, um leitor men<strong>os</strong>atento poderia dizer que em 1991 existiam cercade um terço das pessoas de 2001, o que é falso.População residente em Portugal, 1991-20019 8001991 93 95 97 99 2001No entanto, quando uma das barras assume umvalor anormal e ocupa muito espaço na imagem,é admissível truncá-la. Tal terá que ser feitode forma clara e compreensível <strong>para</strong> o leitor,apresentando, por exemplo, o valor respectivo etambém uma simbologia que permita compreenderque a barra foi interrompida (Figura 18).


pág. 173# Representações GráficasEquilíbrio visual: espaç<strong>os</strong> entre as barrase linhas auxiliaresFigura 18 – Gráfico com barratruncadaNível de instrução da populaçãoactiva portuguesa, 2002Os espaç<strong>os</strong> entre as barras devem estar construíd<strong>os</strong>de forma a que não se dificulte a com<strong>para</strong>ção(Figura 20 - B) nem se assemelhe a umhistograma (C), sugerindo uma continuidadequando, afinal, a variável representada é discreta.É aconselhado um espaço entre as barrasaproximadamente igual ao tamanho das mesmas (A).SuperiorSecundárioBásico-3º cicloBásico-2º cicloBásico-1º cicloNenhum17900 1 000 mil activ<strong>os</strong>As linhas auxiliares existem <strong>para</strong> ajudar <strong>os</strong>istema visual a fazer com<strong>para</strong>ções e ler valoresaproximad<strong>os</strong>. <strong>Um</strong> gráfico com demasiadas linhasauxiliares (B) dá mais peso visual do que devea estes element<strong>os</strong> secundári<strong>os</strong>, sem que daíadvenham vantagens significativas ao nível daleitura de valores aproximad<strong>os</strong>. Por outro lado,um gráfico com poucas linhas auxiliares nãotraz grande valor acrescentado à leitura (C)(WALLGREN, 1996).Pode ser indicado, em cert<strong>os</strong> cas<strong>os</strong>, fazer variara escala entre 0 e 100 % (Figura 19) <strong>para</strong> que oleitor p<strong>os</strong>sa perceber quanto é que falta em cadabarra <strong>para</strong> atingir <strong>os</strong> 100%.Sempre que for p<strong>os</strong>sível, é aconselhável com<strong>para</strong>ras categorias com o total - neste caso Portugal– enriquecendo, desta forma, a leitura do gráfico(Figura 19).Figura 20 – Espaçamentode barras elinhas auxiliaresAFigura 19 - Gráfico comescala entre 0 e 100%BNível de instrução da populaçãoactiva portuguesa, 2002100%75%Portugal = 62%50%C25%0%Norte Centro Lisboae Valedo TejoAlentejo Algarve Açores Madeira


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 174OrdenaçãoNa representação da informação, por vezes, éimportante organizar as categorias por ordemcrescente ou decrescente (Figura 21) <strong>para</strong> melhorcompreender cert<strong>os</strong> fenómen<strong>os</strong> implícit<strong>os</strong>.É igualmente comum ordenar alfabeticamente (ougeograficamente) as designações das categorias,nomeadamente n<strong>os</strong> cas<strong>os</strong> em que se representampaíses ou outro tipo de unidades administrativas,mas tal nem sempre é a melhor opção.Se o mesmo conjunto de categorias é apresentadoem mais do que um gráfico, então a p<strong>os</strong>içãorelativa de cada categoria deve manter-se, ouseja, as categorias devem aparecer na mesmaordem em tod<strong>os</strong> <strong>os</strong> gráfic<strong>os</strong>. Da mesma forma, otamanho e a escala d<strong>os</strong> gráfic<strong>os</strong> deve ser o mesmo,se o objectivo for a com<strong>para</strong>ção entre eles.Figura 22 – Ordenação dascategoriasEmpregad<strong>os</strong> portugueses por sector de actividade, 2002IndústriaComércioAgricultura, Silviculturae PescaConstruçãoAdministração públicaEducaçãoSaúde e acção socialOutr<strong>os</strong>0 5 10 15 20 25%Figura 21 – Gráfico debarras por ordemcrescente ou decrescenteGráfic<strong>os</strong> de barras agrupadasOs gráfic<strong>os</strong> de barras agrupadas são utilizad<strong>os</strong><strong>para</strong> descrever, simultaneamente, duas ou maiscategorias, <strong>para</strong> uma dada variável discreta, ouquando se pretende realçar o valor das categoriasem detrimento do valor total das variáveis(WALLGREN, 1996).As diferentes categorias são representadaspor barras sendo a distinção entre elas feitarecorrendo às variáveis visuais (cor ou valor).Os grup<strong>os</strong> de entidades devem estar se<strong>para</strong>d<strong>os</strong>por um espaço em branco, mas não deve existirqualquer espaço entre as categorias de cadagrupo.Quando as categorias não são todas discriminadas,existindo, por exemplo, uma que reúne asrestantes categorias sob a designação de‘Outr<strong>os</strong>’, é aconselhável não a incluir na ordenaçãoe reservar-lhe o último lugar (WALLGREN, 1996;SCHMID, 1992) (Figura 22). Caso se utilizemcores <strong>para</strong> diferenciar as categorias, a categoria‘Outr<strong>os</strong>’, por ser a men<strong>os</strong> importante, deve teruma cor que não se destaque (ex: cinzento).Dado que a com<strong>para</strong>ção entre barras adjacentesao nível da estimação de valores é mais eficaz,em term<strong>os</strong> perceptiv<strong>os</strong>, do que entre barras maisafastadas, o agrupamento escolhido deve estar deacordo com as categorias a que se pretende darênfase. Assim, em term<strong>os</strong> visuais são com<strong>para</strong>dasprimeiro as categorias que constam da legenda esó depois são relacionadas as desagregações davariável (Figura 23 - A e B).


pág. 175# o inquérito estatísticoFigura 23 – Gráfico debarras agrupadas em quatroe duas categorias, em valoresrelativ<strong>os</strong> e absolut<strong>os</strong>Alun<strong>os</strong> matriculad<strong>os</strong> em 2001/2002Natureza institucional por nível de ensinoEste processo é tanto men<strong>os</strong> legível quanto maiorfor o número de categorias representadas, sendoaconselhável não incluir mais do que três/quatrocategorias, por variável, num gráfico.N<strong>os</strong> cas<strong>os</strong> em que existem divers<strong>os</strong> grup<strong>os</strong>comp<strong>os</strong>t<strong>os</strong> por variadas categorias, é preferívelconstruírem-se diferentes gráfic<strong>os</strong> em vez deacumular a informação num só.%8060Pré-Escolar Básico Secundário SuperiorSobrep<strong>os</strong>ição em gráfic<strong>os</strong> debarras agrupadasA40200%80PúblicoPrivadoNível de ensino por natureza institucionalPúblico PrivadoN<strong>os</strong> gráfic<strong>os</strong> agrupad<strong>os</strong>, as barras, que representamas categorias de cada grupo, podem tocar-seou mesmo sobrepor-se (SCHMID, 1992). Asobrep<strong>os</strong>ição permite ordenar as categorias <strong>para</strong> alémde poupar espaço e incluir mais informação, Note-seque as barras que se localizam num plano maisdistante (e com uma cor men<strong>os</strong> forte) são percebidascomo sendo men<strong>os</strong> importantes (Figura 24).60B4020Figura 24 - Gráfico de barrasagrupadas parcialmentesobrep<strong>os</strong>tas0Pré-Escolar Básico Secundário SuperiorTaxa de actividade da população portuguesaentre <strong>os</strong> 15 e <strong>os</strong> 24 an<strong>os</strong>milhares1 000800PúblicoPrivado60%2001 2002C60040020040%20%0Pré-Escolar Básico Secundário SuperiorAs barras podem apresentar indiferentementevalores relativ<strong>os</strong> ou absolut<strong>os</strong>, consoante o tipode análise, sendo por vezes de extremo interesseprojectar amb<strong>os</strong> quando existem diferençassignificativas (Figura 23 – B e C).0%Portugal Norte Centro Lisboae Valedo TejoAlentejo AlgarveAçores MadeiraÉ, igualmente, prop<strong>os</strong>ta a sobrep<strong>os</strong>ição debarras n<strong>os</strong> cas<strong>os</strong> em que <strong>os</strong> valores sã<strong>os</strong>istematicamente menores numa categoriado que na outra (Figura 25). Realçar valoresou aconteciment<strong>os</strong> é também uma forma deanálise d<strong>os</strong> dad<strong>os</strong>. Por vezes, é importante darênfase visual a um determinado valor ou a umadeterminada categoria.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 176Neste caso, e a título de exemplo, tornou-semais gr<strong>os</strong>sa a linha auxiliar referente a 50% d<strong>os</strong>empregad<strong>os</strong> - a única que tem um valor numéricoassociado - e deixou-se a leitura d<strong>os</strong> restantesvalores <strong>para</strong> as linhas auxiliares não numeradas(Figura 25).Para realçar a categoria referente a Portugal,pode-se utilizar uma moldura (A) ou uma cor maisescura (B). Apenas se apresentam <strong>os</strong> valores dascategorias que se considerem dignas de análise (A- <strong>os</strong> Açores apresentam a maior diferença entresex<strong>os</strong>) em vez de carregar demasiado o gráfico (B).Figura 25 – Gráfic<strong>os</strong> debarras agrupadas totalmentesobrep<strong>os</strong>tas50%HomensMulheresPopulação empregada por sexo - peso relativo, 200265%Gráfic<strong>os</strong> de barras empilhadasRecorre-se a<strong>os</strong> gráfic<strong>os</strong> de barras empilhadas(Figura 26) em situações análogas a<strong>os</strong> gráfic<strong>os</strong> debarras agrupadas, ou seja, quando o conjunto dedad<strong>os</strong> contém duas ou mais categorias.Neste tipo de gráfic<strong>os</strong>, cada barra subdivide-seem pelo men<strong>os</strong> duas categorias, com distintascores ou padrões, permitindo m<strong>os</strong>trar a relaçãoentre cada categoria (Homens/Mulheres) e orespectivo subtotal (ex: Comércio e Administração).As categorias surgem assim p<strong>os</strong>icionadasumas sobre as outras, se for um gráfico debarras vertical (ou lado a lado, se o gráfico forhorizontal), sendo que a altura (ou a largura) decada componente corresponde ao valor absolutoou relativo da categoria.AB0%50%0%Portugal Norte Centro Lisboae Valedo TejoHomensMulheres55% 55% 53% 54%45% 45%47% 46%Portugal Norte Centro Lisboae Valedo TejoAlentejo Algarve58% 57%42% 43%Alentejo Algarve35%Açores Madeira65%35%55%45%Açores MadeiraO gráfico em valor absoluto (A) adequa-se a<strong>os</strong>cas<strong>os</strong> em que se pretende evidenciar mais ovalor total das variáveis do que das respectivascategorias (WALLGREN, 1996), dado que otodo é apreendido com maior precisão do queas partes. Tal precisão advém de, <strong>para</strong> o total,ser com<strong>para</strong>da a p<strong>os</strong>ição relativa numa mesmaescala, enquanto que na estimação d<strong>os</strong> valoresdas categorias são confrontad<strong>os</strong> e ordenad<strong>os</strong> <strong>os</strong>tamanh<strong>os</strong> respectiv<strong>os</strong>.Se o maior objectivo destes gráfic<strong>os</strong> é indicargraficamente a soma total, mais do que estimarvisualmente as respectivas categorias, valeráentão a pena questionar porque não se opta porrepresentar apenas o total ou então substituiresta por outra forma de representação.No gráfico em valor relativo (B) apenas se podeestimar o valor das categorias observando otamanho das barras que lhes correspondem.Alun<strong>os</strong> matriculad<strong>os</strong> no ensino superior por áreade estudo segundo o sexo, 2001/02


pág. 177# Representações GráficasDesvantagem d<strong>os</strong> gráfic<strong>os</strong> de barras empilhadasDe facto, as primeiras componentes sãofacilmente comparáveis por começarem juntoao eixo, mas nas seguintes apenas se consegueinferir aproximadamente <strong>os</strong> valores, sendo tantomais difícil quanto maior for a variação da primeiracategoria (Figura 27).Figura 26 – Gráfico de barrasempilhadas horizontalmente emvalores absolut<strong>os</strong> e relativ<strong>os</strong>AAlun<strong>os</strong> matriculad<strong>os</strong> no ensino superior porárea de estudo, segundo o sexo, 2001/02Comércio e AdministraçãoCiências da EducaçãoEngenharia e Técnicas AfinsCiências SociaisSaúdeArquitectura e ConstruçãoLetrasDireitoArtesServiç<strong>os</strong> PessoaisCiências InformáticasCiências FísicasHomensMulheresPor conseguinte, as flutuações e o peso excessivoda primeira categoria podem comprometer aleitura das restantes variáveis representadas.Se a com<strong>para</strong>ção entre categorias com base notamanho pode envolver err<strong>os</strong>, não negligenciáveis,entre <strong>os</strong> verdadeir<strong>os</strong> valores e <strong>os</strong> estimad<strong>os</strong>visualmente, a ordenação entre as categorias deuma mesma barra pode até ser incorrectamenterealizada, pondo em causa a validade desta formade apresentação de informação (CLEVELAND,MCGILL, 1984a).É por esta razão que <strong>os</strong> gráfic<strong>os</strong> de barrasempilhadas devem ser limitad<strong>os</strong> a um conjuntorestrito de variáveis e categorias. Em cert<strong>os</strong>cas<strong>os</strong> é preferível substituir por um gráfico debarras agrupadas, porque melhora a estimaçãod<strong>os</strong> valores individuais, apesar de não facilitar acom<strong>para</strong>ção entre categorias.Jornalismo e InformaçãoOutras0 20 000 40 000 60 000EstudantesComércio e AdministraçãoCiências da EducaçãoEngenharia e Técnicas AfinsCiências SociaisSaúdeArquitectura e ConstruçãoLetrasBDireitoArtesServiç<strong>os</strong> PessoaisCiências InformáticasCiências FísicasJornalismo e InformaçãoOutrasHomensMulheres0% 50% 100%Com duas categorias torna-se mais fácil estimar <strong>os</strong>valores, dado que a base e o topo da escala servemde ponto de referência, mas com mais de duascategorias a leitura é consideravelmente mais difícil.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 178HistogramaFigura 27 – Gráfico de barrasempilhadas verticalmente egráfico de barras agrupadas100%50%0%20%Alun<strong>os</strong> matriculad<strong>os</strong> no ensino superior porregião, segundo a área de estudo, 2001/02NorteCentro Lisboae ValedoTejoAlentejo Algarve Açores MadeiraOutrasSaúdeLetrasCiências daEducaçãoEngenharia eTécnicas AfinsComércio eAdministraçãoCiênciasSociaisCiênciasFísicas32%<strong>Um</strong> histograma m<strong>os</strong>tra a distribuição de valoresde uma variável contínua através de um gráfico debarras unidas. Contudo, se uma variável discretaapresentar muit<strong>os</strong> valores distint<strong>os</strong>, tambémpode ser representada por um histograma.Normalmente, <strong>os</strong> histogramas são representad<strong>os</strong>por barras com bases iguais em que a altura (ouo comprimento) varia em função da frequênciarelativa ou absoluta. De facto, no caso em que<strong>os</strong> interval<strong>os</strong> têm a mesma amplitude, a áreadepende apenas da altura. Mas, quando asclasses têm diferentes dimensões, a área de cadabarra já não é proporcional à altura, devendo sercalculada a altura por forma que a área de cadarectângulo seja proporcional à frequência relativade cada classe. Enquanto no primeiro caso oeixo d<strong>os</strong> valores transmite a informação alusivaà frequência relativa de cada classe, no segundocaso este eixo não tem qualquer significad<strong>os</strong>endo o leitor obrigado a com<strong>para</strong>r áreas <strong>para</strong>interpretar a informação, o que se revela bastantemais difícil.Esta forma gráfica permite indicar valoresextrem<strong>os</strong> e enviesament<strong>os</strong>, demonstrandovisualmente se a variável segue uma distribuiçãonormal.A representação das percentagens permitetambém com<strong>para</strong>r conjunt<strong>os</strong> de dad<strong>os</strong> dediferentes dimensões.10%Figura 28 – Histograma0%Norte Centro Lisboa eVale doTejoCiências FísicasComércio e AdministraçãoCiências da EducaçãoSaúdeAlentejo Algarve Açores MadeiraCiências SociaisEngenharia e Técnicas AfinsLetrasnº de concelh<strong>os</strong>140120100806040Proporção da população feminina no totalda população portuguesa, 200120047 48 49 50 51 52 53 54 55 56 %


pág. 179# Representações GráficasSéries temporais em Gráfic<strong>os</strong> de barrasPirâmide EtáriaA pirâmide etária é também um histogramae é muito utilizada em análises demográficaspor permitir visualizar numa única imagema distribuição da população por idades esimultaneamente compará-la entre <strong>os</strong> doissex<strong>os</strong>. A sua representação é feita em dois eix<strong>os</strong>horizontais (um <strong>para</strong> <strong>os</strong> efectiv<strong>os</strong> masculin<strong>os</strong> eoutro <strong>para</strong> <strong>os</strong> feminin<strong>os</strong>) podendo esta ser emvalores absolut<strong>os</strong> ou relativ<strong>os</strong>.As idades encontram-se representadas no eixovertical, servindo de legenda a amb<strong>os</strong> <strong>os</strong> gráfic<strong>os</strong>e são normalmente apresentadas em grup<strong>os</strong>etári<strong>os</strong> de cinco an<strong>os</strong>, mas também podem serrepresentadas ano a ano.A representação em valores absolut<strong>os</strong> fornece adimensão d<strong>os</strong> dad<strong>os</strong> mas impede qualquer tipo decom<strong>para</strong>ção no espaço ou no tempo, que apenas ép<strong>os</strong>sível se <strong>os</strong> dad<strong>os</strong> forem apresentad<strong>os</strong> em term<strong>os</strong>relativ<strong>os</strong> (NAZARETH, 1996; INE, DRLVT, 2001).No entanto, esta forma de apresentação pode seraplicada a outro tipo de informação demográfica(como, por exemplo, o nível de instrução) ou até <strong>para</strong>representar variáveis contínuas com uma legendacomum (WALLGREN, 1996).<strong>Um</strong> gráfico de barras verticais pode terdatas no eixo das categorias, p<strong>os</strong>sibilitando arepresentação de evoluções ao longo do tempo.Os gráfic<strong>os</strong> de barras podem substituir <strong>os</strong> gráfic<strong>os</strong>de séries temporais n<strong>os</strong> cas<strong>os</strong> em que a série dedad<strong>os</strong> é muito curta. São igualmente indicad<strong>os</strong>quando se pretendem fazer com<strong>para</strong>ções verticaisde determinadas variáveis num período específico,ou seja, quando se dá importância ao valor davariável em cada período e se pretende sobretudorelacionar quantidades individuais.Para uma única série de dad<strong>os</strong>, ambas asp<strong>os</strong>sibilidades (barras e linhas) são adequadas<strong>para</strong> m<strong>os</strong>trar tendências, mas <strong>para</strong> mais deuma série de dad<strong>os</strong>, <strong>os</strong> gráfic<strong>os</strong> de linhas sãoclaramente preferíveis (JACOBS, 1997). Por isso,não é aconselhável utilizar <strong>os</strong> gráfic<strong>os</strong> de barras<strong>para</strong> representar várias séries de dad<strong>os</strong>. Quandoas variáveis assumem valores sistematicamenteinferiores ainda é p<strong>os</strong>sível acompanhar a suaevolução (Figura 30) mas quando as variáveis seentrecruzam o gráfico torna-se ilegível (Figura 31).N<strong>os</strong> cas<strong>os</strong> em que a informação contida no gráficoé tal que impede uma correcta visualização, deveser considerada a sua substituição por uma tabelade dad<strong>os</strong>, ou então, a partição em vári<strong>os</strong> gráfic<strong>os</strong>.Figura 29 – Pirâmide etáriaPopulação portuguesa por sexo e grupo etário, 200180 a 8470 a 7460 a 6450 a 5440 a 4430 a 3420 a 24Figura 30 – Gráfico debarras com duasséries temporaisAlun<strong>os</strong> matriculad<strong>os</strong> no ensino superior porárea de estudo, segundo o sexo, 2001/02Universitári<strong>os</strong>não Universitári<strong>os</strong>mil estudantes250200150100400 300 200 100 0J10 a 140 a 4an<strong>os</strong>0 100 200 300 400mil pessoas1986/8788/891990/9192/9394/9596/9798/992000/01500


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 1801.3. Gráfic<strong>os</strong> de linhasO gráfico de linhas é indicado <strong>para</strong> m<strong>os</strong>trartendências e evoluções de uma variável contínuapor outra variável contínua.Figura 31 – Gráfico deséries temporais:barras e linhasA5 0004 0003 0002 0001 0000mil pessoasEvolução da população portuguesapor grup<strong>os</strong> etári<strong>os</strong>, 1991-20011991 1992 19931994 1995 1996 1997 19981999 2000 2001O mais comum é aquele que representa sériestemporais (ou cronológicas), em que umadeterminada variável contínua é analisada aolongo do tempo. O eixo do y mede a(s) variável(eis)em estudo, enquanto o eixo do x apresenta asunidades temporais disp<strong>os</strong>tas cronologicamenteem interval<strong>os</strong> iguais de tempo, começando àesquerda com a data mais antiga (Figura 32).Num gráfico de linhas, ao contrário d<strong>os</strong> gráfic<strong>os</strong>de barras, as séries podem ser longas.O objectivo nestes gráfic<strong>os</strong> é com<strong>para</strong>r <strong>os</strong>declives das curvas por forma a responder aperguntas do tipo: Em que períod<strong>os</strong> a variação foisignificativa? Quando foram <strong>os</strong> pont<strong>os</strong> de inflexão?(WALLGREN, 1996).Visualmente, <strong>para</strong> um determinado conjunto de dad<strong>os</strong>,a união d<strong>os</strong> pont<strong>os</strong> (pares de coordenadas: x,y), é feitaatravés de uma linha que sugere a continuidade.Não devem ser incluídas mais do que três linhas porgráfico, caso contrário tornam o gráfico de difícilleitura (SCHMID, 1992; TUFTE, 1983). Quandomuitas linhas se sobrepõem (Figura 33), é preferívelsubstituir o gráfico de linhas por vári<strong>os</strong> gráfic<strong>os</strong>.0-14 an<strong>os</strong> 15-44 an<strong>os</strong> 45-64 an<strong>os</strong> 65 e + an<strong>os</strong>5 000mil pessoas4 0003 000Figura 32 – Gráfico deséries temporaisB2 000Evolução d<strong>os</strong> alun<strong>os</strong> matriculad<strong>os</strong> em portugal,por tipo de ensino1 000mil estudantes25001991 1992 1993 1994 1995 1996 19971998 1999 200020012000-14 an<strong>os</strong> 15-44 an<strong>os</strong> 45-64 an<strong>os</strong> 65 e + an<strong>os</strong>150Mulheres10050Homens01985 1986 87/86 /87 /8888/8989/901990 91/91 /9292/9393/9494/951995 96/96 /9797/9898/9999/002000/01


pág. 181# Represrntações GráficasFigura 34 – Gráfico de linhasincorrectoEvolução da taxa de desemprego em Portugal:total e d<strong>os</strong> jovensDeve ser usado um estilo de linha diferente <strong>para</strong>cada gráfico, recorrendo à cor, forma, tamanhoou valor. Mesmo se as linhas se diferenciarempela cor, pode ser necessário distinguir as linhasde outra forma, <strong>para</strong> facilitar a interpretaçãon<strong>os</strong> cas<strong>os</strong> de impressão a preto e branco oude reprodução através de fotocópias. Porém,tal opção pode dar uma ordem visual às linhas,não coincidente com a realidade, dado que, porexemplo, uma linha a tracejado é visualmentemen<strong>os</strong> importante que uma linha a cheio.Figura 33 – Gráfico comdemasiadas linhas15 a 24 an<strong>os</strong>Total16,5 %1992 94 96 98 200020%2001Os períod<strong>os</strong> devem estar igualmente espaçad<strong>os</strong>se forem consecutiv<strong>os</strong> e proporcionalmenteespaçad<strong>os</strong> se forem descontínu<strong>os</strong>, ou seja,quando ocorrem interval<strong>os</strong> irregulares de tempoé indicado um ajustamento no espaçamento dascolunas. Por exemplo, o espaço entre dad<strong>os</strong> de1998 e 2000 deve ser o dobro do que entre 2000e 2001 (Figura 35).100Evolução d<strong>os</strong> alun<strong>os</strong> matriculad<strong>os</strong> em portugal,por tipo de ensino1º ciclomil estudantes9008007006005002º ciclo4003º ciclo300SecundárioPré-escolarSuperior1985 86 87 88/86 /87 /88 /8989/901990/9191/9292/9393/9494/951995/9696/9797/9898/99200100099/00Figura 35 – Espaço entre<strong>os</strong> valores no eixodas categoriasA variável medida no eixo das categorias n<strong>os</strong>gráfic<strong>os</strong> de linhas não pode ser qualitativa (Figura34). De facto, neste caso, a evolução da sérienão têm qualquer significado, ou seja, entre oAlgarve e a Madeira não se pode afirmar queexiste uma quebra na série de dad<strong>os</strong>, mas apenasque <strong>os</strong> Açores têm um valor inferior. Também nãoé p<strong>os</strong>sível estimar <strong>os</strong> valores intermédi<strong>os</strong> entreas categorias da variável, neste caso, não sepode dizer que existem x% de desempregad<strong>os</strong> noOceano Atlântico (gráfico correcto: Figura 19).15 a 24 an<strong>os</strong>TotalEvolução da taxa de desemprego em Portugal:total e d<strong>os</strong> jovens16,5 %1992 94 96 98 200020%1002001


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 182Gráfic<strong>os</strong> de áreaQuando se pretendem com<strong>para</strong>r duas curvas queapresentam comportament<strong>os</strong> muito semelhantes(Figura 36 - A), é preferível projectar a diferençaentre elas, neste caso entre homens e mulheres(Figura 36 - B) em vez das curvas propriamenteditas.<strong>Um</strong>a modificação repentina n<strong>os</strong> dad<strong>os</strong> podeser encoberta se o gráfico começar depoisdessa modificação, m<strong>os</strong>trando uma estabilidadeincorrecta (WAINER, 1984). Pelo contrário, umaalteração pode tornar-se brusca se o gráficoapenas representar aquele período e não ocontextualizar, como, por exemplo, em séries comuma sazonalidade forte.Figura 36 – Com<strong>para</strong>ção deséries <strong>para</strong>lelasTotalPopulação portuguesa empregada por sexomilhares5 0004 000Recorre-se a<strong>os</strong> gráfic<strong>os</strong> de área quando sepretende visualizar simultaneamente a evoluçãodo total e das respectivas componentes. Tal comon<strong>os</strong> gráfic<strong>os</strong> de barras empilhad<strong>os</strong>, existem poucasvantagens nesta forma de apresentação dadonão ser p<strong>os</strong>sível responder de forma imediata aperguntas sobre o crescimento ou decréscimo aolongo do tempo, sobretudo quando a primeira dascomponentes apresenta <strong>os</strong>cilações significativas.Figura 37 – Gráfico de áreaempilhadaHomensMulheresPopulação portuguesa empregada por sexomilhares3501992 1993 1994 1995 1996 1997 1998 1999 2000300250200150100Os gráfic<strong>os</strong> de área são utilizad<strong>os</strong> comoalternativa a<strong>os</strong> gráfic<strong>os</strong> de linhas. No entanto,trazem dificuldades acrescidas quando as áreasse intersectam porque deixa de ser p<strong>os</strong>sívelseguir a evolução das componentes.500AHomensMulheres3 0002 0001 00001992 1993 1994 1995 1996 1997 1998 1999 2000Diferença entre o emprego por sex<strong>os</strong>milhares600(Homens - Mulheres)400B20001992 1993 1994 1995 1996 1997 1998 1999 20001.4. Gráfic<strong>os</strong> circularesO gráfico circular tornou-se muito comum empublicações direccionadas <strong>para</strong> um públicoalargado, mas tem vindo a ser amplamentecontestada pela sua falta de capacidadeinformativa (WAINER, 1990; TUFTE, 1983;BERTIN, 1977, etc.).


pág. 183# Representações GráficasOs gráfic<strong>os</strong> circulares exibem as partes do todocomo se fatias de um bolo se tratassem; aisso se deve a denominação inglesa ‘pie chart’traduzida em português <strong>para</strong> queijo ou tarte. Paraum determinado período temporal, a variável emanálise é projectada num círculo correspondendoa cada componente um ângulo, por forma a que ascomponentes no seu conjunto perfaçam <strong>os</strong> 360º(Figura 38).Figura 39 – Gráfico circularsubdivididoFigura 38 – Gráfico circularNível de instrução d<strong>os</strong> portugueses, 2001Superior12%1º ciclo34%Estado civil d<strong>os</strong> portugueses, 2001Casado(com e semregisto)61%Viúvo8%Divorciado+Se<strong>para</strong>do3%Secundário16%Nenhum14%Outr<strong>os</strong>58%3º ciclo11%2º ciclo13%Solteiro28%A sua utilização é desaconselhada quando sepretende com<strong>para</strong>r mais do que um períodotemporal, <strong>para</strong> variáveis que contenham mais decinco componentes ou quando as componentestêm aproximadamente o mesmo peso, sendoneste caso, preferível substituir o gráfico circularpor um gráfico de barras (SCHMID, 1992).Muitas fatias ou fatias demasiadamente estreitassão dificilmente interpretáveis, sendo por issonecessário complementar o gráfico com <strong>os</strong>valores respectiv<strong>os</strong> (Figura 38) ou associar umsubconjunto de valores a outro gráfico circularde tamanho proporcional à quantidade querepresenta (Figura 39).Assim, a utilização d<strong>os</strong> gráfic<strong>os</strong> circulares é apenasreferida p<strong>os</strong>itivamente n<strong>os</strong> cas<strong>os</strong> em que uma ouduas componentes dominam o total <strong>para</strong> dar umaideia genérica d<strong>os</strong> dad<strong>os</strong>, mas poder-se-á questionarse não será melhor recorrer a uma tabela.É comum encontrar gráfic<strong>os</strong> circularesdistorcid<strong>os</strong>, ou seja, assumindo formas nãocirculares, <strong>para</strong> poupar espaço ou então porrazões que a razão desconhece. Tornar uma figuracircular numa elipse é altamente enganador,particularmente <strong>para</strong> <strong>os</strong> segment<strong>os</strong> maisestreit<strong>os</strong> e deve ser evitado por desvirtuarcompletamente o gráfico original.Figura 40 – Gráfico circulardistorcidoPopulação residente por região, 2001AlentejoAlgarveAçoresMadeiraLisboa eVale do TejoCentroNorte


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 184Outra prática corrente é a se<strong>para</strong>ção das fatiasmovendo-as radialmente <strong>para</strong> fora, provocandoafastament<strong>os</strong> desiguais entre fatias díspares.Como <strong>para</strong> manter as se<strong>para</strong>ções iguais énecessário p<strong>os</strong>icionar as fatias de formanão circular, pelo que nenhuma das opções éformalmente correcta (BOUNFORD, 2000).Figura 41 – Gráfico circularcom fatias se<strong>para</strong>dasPopulação Residente por região, 2001MadeiraAçoresAlgarveAlentejoNorteCentroNo entanto, é vulgar encontrar imagens,particularmente n<strong>os</strong> média em que foi aumentadaa altura e a largura simultaneamente, e não aárea, tornando o desenho desproporcionado etransmitindo uma ideia completamente errada.Senão veja-se: na Figura 42 – B, Portugal tem3 vezes mais estudantes do que Lisboa e Valedo Tejo, <strong>para</strong> amb<strong>os</strong> <strong>os</strong> sex<strong>os</strong>. Assim, a área doboneco referente a Portugal deve ser 3 vezesmaior. Por isso, este tipo de apresentação éconsiderado como um d<strong>os</strong> mais enganadores(SCHMID, 1992; TUFTE, 1983).Lisboa e Valedo TejoFigura 42 – Pictogramabaseado no critériodo tamanhoInactiv<strong>os</strong> estudantes em 2001A1.5. PictogramasRapazesRaparigasOs pictogramas são gráfic<strong>os</strong> comuns, mas comcaracterísticas decorativas. A sua utilização éindicada numa apresentação superficial em que ocontacto com a imagem é breve, nomeadamente,em jornais ou revistas de âmbito alargado ouquando o público-alvo tem um nível educacionalmédio ou baixo.Os pictogramas mais usuais são <strong>os</strong> basead<strong>os</strong> nocritério do tamanho: em que a variação em áreado tamanho das formas utilizadas é proporcional àvariação da variável representada (Figura 42 - A).BLisboa eVale doTejo=691,4Portugal=2010,6unidade: milharesPortugal=2838,6Lisboa eVale doTejo=962,9


pág. 185# Representações GráficasOs pictogramas constituíd<strong>os</strong> por formas unitáriassão também bastante utilizad<strong>os</strong>. Neste caso,a cada elemento é atribuído um valor existindo,assim, tant<strong>os</strong> element<strong>os</strong> quanto a dimensão davariável.A pirâmide etária cujas barras são formadas porelement<strong>os</strong> que representam pessoas, é um d<strong>os</strong>mais difundid<strong>os</strong>. <strong>Um</strong> d<strong>os</strong> problemas surge como tratamento dado às casas decimais. Modley(1952, in SCHMID, 1992) diz que as fracçõesde símbol<strong>os</strong> devem ser minimizadas, devendo-se,preferencialmente, arredondar <strong>os</strong> valores. Defacto, é comum encontrar nas pirâmides etáriasacima referidas, barras em que o último símboloé fraccionado, ou seja, que terminam em braç<strong>os</strong>,pernas ou cabeças (Figura 43).1.6. Ver também ...Figura 43 – Pictograma:pirâmide etáriaPopulação portuguesa por sexo e grupo etário, 2001800 600 400 200 080 ou +70 a 7960 a 6950 a 5940 a 4930 a 3920 a 2910 a 190 a 9an<strong>os</strong>0200 400 600 800Neste d<strong>os</strong>siê são referidas, sucintamente,algumas das questões mais importantesassociadas à representação gráfica,nomeadamente, as que se relacionam com aconstrução d<strong>os</strong> gráfic<strong>os</strong> mais conhecid<strong>os</strong> eutilizad<strong>os</strong>.A informação utilizada <strong>para</strong> <strong>os</strong> gráfic<strong>os</strong> aquiincluíd<strong>os</strong> é bastante actual e pode ser encontradaem www.ine.pt. Todas as figuras, à excepção daúltima, foram construídas através do softwareExcel.Este texto baseia-se na minha dissertação demestrado intitulada: Representação gráficae cartográfica da informação estatísticae defendida, em Junho de 2003, no ISEGI/<strong>Universidade</strong> Nova de Lisboa.Sobre <strong>os</strong> gráfic<strong>os</strong> e a estatística existem divers<strong>os</strong>livr<strong>os</strong>, artig<strong>os</strong>, web sites, d<strong>os</strong> quais se destacam<strong>os</strong> seguintes:Publicações, livr<strong>os</strong> e artig<strong>os</strong> em revistas• BENIGER, James R.; ROBYN, Dorothy L. (1978),“Quantitative graphics in statistics: A brief history”,The American Statistician, 32 (1), p. 1-11.• BERTIN, Jacques (1973) 2.ª ed. (1ª ed. 1967)- Sémiologie graphique. Paris: Gauthier-Villars.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 186• CHAMBERS, John C.; CLEVELAND, William. S.;KLEINER, Beat; TUKEY, Paul A. (1998) 2ª ed. (1ªed. 1983) - Graphical methods for data analysis.USA: Chapman & Hall.• CLEVELAND, William S.; MCGILL, Robert(1987a), “Graphical perception: The visualdecoding of quantitative information on graphicaldisplays of data”, Journal of the Royal StatisticalSociety, 150, p. 192-229.• CLEVELAND, William S.; MCGILL, Robert(1984a), “Graphical perception: Theory, Experimentation,and application to the developmentof graphical methods”, Journal of the AmericanStatistical Association, 82, p. 419-423.• GRAPHICS GUIDELINES: The theory and practiceof presenting statistical data graphically, togetherwith prop<strong>os</strong>als for education of statisticians inappropriate use of graphics for presentation(1994). COMISSION OF THE EUROPEANCOMMUNITIES - EUROSTAT. Kent: White WaghornLimited.• HUFF, Darrell (1991) 3ª ed. (1ª ed. 1954) - Howto lie with statistics. England: Pinguin Books.• INE, DRLVT (2001), “As pirâmides de idades”,Revista de Estud<strong>os</strong> Regionais nº 2 (Conceit<strong>os</strong> emetodologias), Instituto Nacional de Estatística,p. 75-78.• JACOBS, Bernhard (1997), “Experimentalanalysis of the graphical presentation of data inline graphs and bar charts in superp<strong>os</strong>ition andjuxtap<strong>os</strong>ition”, http://www.uni-saarland.de/philfak/MZ/graph/gesamtue.html.• NAZARETH, J. Manuel (1996) - Introdução àdemografia - Teoria e prática. Lisboa: EditorialPresença.• SCHMID, Calvin F. (1992) 2ª ed.; (1983, 1ªed.) - Statistical graphics - Design principles andpractices. Krieger.• SILVA, Ana A. (2003) - Representação gráficae cartográfica da informação estatística.Dissertação de mestrado defendida no InstitutoSuperior de Estatística e Gestão de Informaçãoda <strong>Universidade</strong> Nova de Lisboa.• TUFTE, Edward R. (1983) - The visual display ofquantitative information. Cheshire-Connecticut:Graphic Press.• TUKEY John W. (1977) - Exploratory dataanalysis. USA: Addison-Wesley.• WAINER, Howard (1990), “Graphical Visionsfrom William PLAYFAIR to John TUKEY”, StatisticalScience, 5 (3), p. 340-346.• WAINER, Howard (1984), “How to display databadly”, The American Statistician, 38 (2), p. 137-147.• WALLGREN, Anders; WALLGREN, Britt;PERSSON, Rolf; JORNER, Ulf; HAALAND, Jan-Aage (1996) (English translation from Swedish“Statistikens Bilder - Att Skapa Diagram”Statistics Sweden 1995) - Graphing statistics& data: Creating better charts. California: SAGEPublications.Páginas na Internet @American statistical association - Section onStatistical Graphics:• http://www.amstat-online.org/sections/graphics/Journal of computational and graphical statistics:• http://www.amstat.org/publications/jcgs/Outr<strong>os</strong>:• http://www.edwardtufte.com/tufte/(um d<strong>os</strong> melhores autores sobre esta temática– ver livr<strong>os</strong>)• http://www.mhhe.com/business/opsci/bstat/vistat.mhtml( visual statistics )• http://www.nas.nasa.gov/Groups/VisTech/visWeblets.html(links sobre visualização científica)• http://www.bell-labs.com/topic/societies/asagraphics/resources.html(software, livr<strong>os</strong>, revistas, etc.)


Estatística com RPedro Camp<strong>os</strong># Rita Sousacom a colaboração de Emília Oliveira


pág. 189# Estatística com REstatística com R<strong>Um</strong>a iniciação <strong>para</strong> o ENSINO BÁSICOe SECUNDÁRIOPedro Camp<strong>os</strong># Rita SousaSumário:1. Introdução2. A utilização de software no Ensino daEstatística3. O que é o R e <strong>para</strong> que serve?4. Primeir<strong>os</strong> pass<strong>os</strong>4.1. Instalar o R4.2. Abrir e Encerrar o R, Ajuda e <strong>os</strong>Packages4.3. Menus e comand<strong>os</strong> principais4.4. Regras de sintaxe e Object<strong>os</strong>4.5. Introdução de dad<strong>os</strong> com c()4.6. Importação e exportação de dad<strong>os</strong>4.7. Primeir<strong>os</strong> pass<strong>os</strong> na EstatísticaDescritiva1. Introdução5. O “R Commander”: um ambiente gráfico6. Análise de Dad<strong>os</strong>7. Gráfic<strong>os</strong>8. Exempl<strong>os</strong> de Aplicação9. Para saber mais: recurs<strong>os</strong> prátic<strong>os</strong> <strong>para</strong>aprendizagem do RO R é uma linguagem (e ambiente de computaçãoestatística e construção de gráfic<strong>os</strong>) aberta egratuita cujo número de utilizadores tem vindo aaumentar consideravelmente. O d<strong>os</strong>siê começapor apresentar o R, referindo <strong>os</strong> seus aspect<strong>os</strong>fundamentais e descrevendo, de seguida, <strong>os</strong>principais comand<strong>os</strong>. No capítulo 4 apresentaseo R-Commander, uma ferramenta importanteque permite tornar a interface gráfica do R maisapelativa. No final há um conjunto de exercíci<strong>os</strong>resolvid<strong>os</strong> utilizando o código R.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 1902. A utilização de software noEnsino da EstatísticaO software estatístico que foi sendo introduzidonas últimas décadas trouxe novas formas deexplorar a Estatística, proporcionando maiorrapidez na resolução de problemas e permitindoa com<strong>para</strong>ção expedita de soluções. Além disso,abriu caminho a um conjunto de utilizadores n<strong>os</strong>mei<strong>os</strong> académico, empresarial e administrativoque desta forma puderam passar a utilizar aEstatística como uma ferramenta eficaz naresp<strong>os</strong>ta a<strong>os</strong> seus problemas.numa abordagem preliminar d<strong>os</strong> dad<strong>os</strong>, aonível da estatística descritiva. Neste d<strong>os</strong>siê,concentram<strong>os</strong> as atenções no R, um importantee poder<strong>os</strong>o veículo de análise interactiva de dad<strong>os</strong>que, devido à sua crescente utilização n<strong>os</strong> mei<strong>os</strong>académico e empresarial, não poderia passardespercebido no contexto do ALEA.3. O que é o R e<strong>para</strong> que serve?No ensino em geral a utilização do computadorpermitiu introduzir diversas melhorias, pois nocontexto escolar usual, “<strong>os</strong> alun<strong>os</strong> têm grandedificuldade em aprender nov<strong>os</strong> assunt<strong>os</strong> cuj<strong>os</strong>ignificado não vislumbram e que não lhesdespertam qualquer interesse” (ver João Pedroda Ponte na Introdução de “A Família em Rede”,de Seymour Papert, 1997). O computador e, emparticular, o software estatístico permitiramincentivar a participação voluntária do aprendizno processo educativo, fazendo com que o alunopasse a explorar <strong>os</strong> dad<strong>os</strong> e a ser cada vez maiso centro desse desafio do ensino/aprendizagem daestatística.No entanto, apesar de serem reconhecidas asvantagens da utilização do software estatístico,nomeadamente no que respeita ao ensino daestatística, a sua utilização deve ser sempresuportada por um adequado conhecimento dastécnicas estatísticas envolvidas ou orientadapor quem detenha esses conheciment<strong>os</strong> (ALEA,D<strong>os</strong>siê Didáctico X – Software Estatístico, LuísCunha e Helder Alves).O R é uma linguagem e ambiente de computaçãoestatística e construção de gráfic<strong>os</strong>; éconsiderada uma variante da linguagem S(laboratóri<strong>os</strong> Bell, desenvolvida por JohnChambers e seus colegas). Surge pela criaçãoda R Foundation for Statistical Computing, como objectivo de criar uma ferramenta gratuitae de utilização livre, <strong>para</strong> análise de dad<strong>os</strong> econstrução de gráfic<strong>os</strong>.O R é compatível com diversas plataformas:UNIX, Windows e MaCOS e permite a ligaçãoa interfaces de diferentes format<strong>os</strong>: Excel,Access, SPSS, SAS, SQL Server. Sendo OpenSource, permite ao utilizador aceder ou alterarfuncionalidades existentes, bem como criarnovas funcionalidades <strong>para</strong> responder a<strong>os</strong> seusproblemas específic<strong>os</strong> de forma mais eficaz. Tal ép<strong>os</strong>sível graças à p<strong>os</strong>sibilidade de o R se estendera partir de um crescente conjunto de livrarias(packages) que podem ser acedidas pelo utilizador.No D<strong>os</strong>sier Didáctico X (Software Estatístico- <strong>Um</strong>a introdução a alguns aplicativ<strong>os</strong>, numaabordagem inicial d<strong>os</strong> dad<strong>os</strong>, Helder Alves,Luís Cunha) foram apresentadas algumasaplicações informáticas (Minitab, SAS, SPSS,Statistica) <strong>para</strong> a análise estatística de dad<strong>os</strong>,A interacção com o utilizador é baseadanuma janela de comand<strong>os</strong> e exige o recurso aprogramação, embora existam packages gráfic<strong>os</strong>que permitem a interacção através de menus.<strong>Um</strong> desses packages é o R Commander que seráabordado no contexto deste d<strong>os</strong>siê.


pág. 191# Estatística com RApesar de existirem muitas facilidades deentreajuda na comunidade de utilizadores doR, esta linguagem não tem suporte técnicoassegurado.Para a importação do R é necessário escolher: umpaís a partir do qual o ficheiro será transferido, <strong>os</strong>istema operativo (MacOS X, Linux, ou Windows),o link base e, finalmente, o programa executável.A última versão à data deste d<strong>os</strong>siê é: R-2.9.1-win32.exe .Após importação deste ficheiro, a instalação érápida e intuitiva.4.2. Abrir e Encerrar o R, Ajuda e <strong>os</strong> Packages4. Primeir<strong>os</strong> pass<strong>os</strong>4.1. Instalar o RA instalação do R é gratuita e pode ser feitadirectamente a partir da página principal do RProject for Statistical Computing emhttp://www.r-project.org/. A figura seguinte indicao local onde se pode efectuar a importação do R.O “prompt”Ao iniciar o R m<strong>os</strong>tra-se imediatamente a janelade comand<strong>os</strong> (V. Fig. 2). Esta janela exibe umcursor vermelho em forma de sinal “maior” (>)designado por prompt onde são escrit<strong>os</strong> <strong>os</strong>comand<strong>os</strong>. Por exemplo, <strong>para</strong> se obter o númeroda versão do R em causa deve-se escrever:> R.versionPara sair do R, pode-se utilizar o menu (File/Exit)ou então escrever:> q()Fig. 1 - O download doR é feito a partir da páginaprincipal do Projecto Rna área CRAN(Comprehensive R ArchiveNetwork)Fig. 2 - Janela decomand<strong>os</strong> do Rda versão 2.9.1


pág. 192um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #Entrar e Sair<strong>Um</strong>a das perguntas que surge habitualmente aoabandonar o R é se pretende guardar o espaço detrabalho (workspace). De facto, o R pode guardarno seu workspace o nome e o valor d<strong>os</strong> object<strong>os</strong>criad<strong>os</strong>. Verem<strong>os</strong> nas secções seguintes comocriar esses object<strong>os</strong>.Para qualquer tipo de ajuda (que é muito útilquando se tem uma linguagem como o R)existem muitas opções, sendo a mais intuitiva aque está acessível pelo menu Help da barra demenus. Outra forma muito prática <strong>para</strong> obterajuda <strong>para</strong> qualquer função consiste em digitarhelp.search(“text”) em que text representa o quepretendem<strong>os</strong> pesquisar. Em alternativa, caso seconheça o comando (por exemplo, sum) e hajadúvidas quanto a sua utilização, pode-se digitarhelp(“sum”) ou simplesmente ?sum.>help.search(”text”)Procura as funçõescujo nome, detalhes oudescrição contenha otexto indicadoOs PackagesTod<strong>os</strong> <strong>os</strong> recurs<strong>os</strong> do R (dad<strong>os</strong> ou funções) estãoarmazenad<strong>os</strong> em packages. O conteúdo de umdeterminado package só fica disponível quandoeste é carregado. O package base (standard) éconsiderado parte integrante d<strong>os</strong> recurs<strong>os</strong> do R,sendo carregado automaticamente aquando dainstalação do programa. As funções básicas quepermitem ao R trabalhar <strong>os</strong> principais object<strong>os</strong> dedad<strong>os</strong>, funções estatísticas e gráficas, já estãodisponíveis no package base.Existem funções específicas <strong>para</strong> extrairinformação sobre <strong>os</strong> packages: por exemplo,<strong>para</strong> ver <strong>os</strong> packages que estão instalad<strong>os</strong> noPC deverá escrever o comando library(). Paracarregar um determinado package deve usarlibrary (“package”).A instalação d<strong>os</strong> packages e o seu carregamento(Install package(s) from zip files…) e (load package)devem ser feit<strong>os</strong> por esta ordem e podem serexecutad<strong>os</strong> directamente a partir d<strong>os</strong> menusdo R. Os packages pretendid<strong>os</strong> podem serpreviamente importad<strong>os</strong> em formato zip atravésdo site do R (http://www.cran.r-project.org/) ecarregad<strong>os</strong> p<strong>os</strong>teriormente.>help(”function”)Apresenta a ajudarelativa à funçãoespecificada>livrary(”package”)>require(”package”)M<strong>os</strong>tra tod<strong>os</strong> <strong>os</strong> packagesdisponíveis <strong>para</strong> carregamentoInstalação ou actualização depackages por ligação directaà InternetInstalação de um packageatravés de um ficheiro ZIPpreviamente importado d<strong>os</strong>recurs<strong>os</strong> do R na Internet


pág. 193# Estatística com R4.3. Menus e comand<strong>os</strong> principaisO R exibe uma barra de ferramentas e umsistema de menus que permite executar algumasoperações. Basicamente o menu File permiteGravar e abrir sequências de comand<strong>os</strong> (scripts),abrir ou gravar espaço de trabalho (workspace),sair do R, etc. Permite ainda, carregar livrarias(packages), que serão descritas mais adianteneste d<strong>os</strong>siê.>help(”function”)>help.start()>help.search(”text”)>aprop<strong>os</strong>(”text”)Funcões que permitem obtera ajuda do R4.4. Regras de sintaxe e Object<strong>os</strong>Aceder a ficheir<strong>os</strong> deprogramação R ou guardara informação actual emmemória<strong>Um</strong>a das opções disponíveis neste menu principalé a ajuda (help). O R dispõe de um complet<strong>os</strong>istema de ajuda, comp<strong>os</strong>to pelas seguintesopções:• Opções de ajuda sobre a aplicação;•Opções de ajuda com acess<strong>os</strong> a partirdo browser;•Opções de ajuda na janela de comand<strong>os</strong>do R.Algumas dessas opções podem ser efectuadasdirectamente no prompt da seguinte forma:> help(“function”) ou>?functionApresenta a ajuda relativa à função especificada;> help.start()Dá acesso a informação auxiliar a partir dobrowser;> help.search(“text”)Procura as funções cujo nome, detalhes oudescrição contenha o texto indicado;> aprop<strong>os</strong>(“text”)Procura as funções cujo nome contenha o textoindicado.Primeiras Regras<strong>Um</strong>a das regras importantes do R é o facto de sercase sensitive. Por esta razão as letras ‘a’ e ‘A’podem corresponder a diferentes variáveis. Alémdisso, o R ignora espaç<strong>os</strong>, ou seja, <strong>os</strong> resultad<strong>os</strong>‘8+3’ e ‘8+ 3’ dão origem exactamente aomesmo resultado. Outras regras importantes:• Podem<strong>os</strong> agrupar comand<strong>os</strong>, <strong>para</strong>serem executad<strong>os</strong> em simultâneo, seestiverem entre chavetas ‘{ }’ ese<strong>para</strong>d<strong>os</strong> por ‘;’;• O ‘#’ é utilizado <strong>para</strong> comentári<strong>os</strong>;• Quando um comando não estácompleto, o R coloca o sinal de ‘+’na linha seguinte, permitindo que esteseja terminado.Object<strong>os</strong>No R tod<strong>os</strong> <strong>os</strong> diferentes conteúd<strong>os</strong> tais comonúmer<strong>os</strong>, text<strong>os</strong>, vectores, matrizes, expressões,chamadas funções, etc. são guardad<strong>os</strong> namemória do computador sob a forma de object<strong>os</strong>.Tod<strong>os</strong> <strong>os</strong> object<strong>os</strong> têm um nome associado e <strong>para</strong>armazenamento num objecto usa-se o operador deatribuição, ‘textotexto[1]”teste”Forma p<strong>os</strong>sível de criação deum objecto designado portexto, contendo “teste”


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 1944.5 Introdução de dad<strong>os</strong> com c()O vector coluna c()<strong>Um</strong>a das formas práticas de armazenar valoresem R é feita através de object<strong>os</strong> denominad<strong>os</strong>vectores. O vector é considerado a estrutura dedad<strong>os</strong> mais simples e consiste numa colecçãoorganizada de element<strong>os</strong>. A atribuição é feitaa partir da função c( ), cuj<strong>os</strong> argument<strong>os</strong>correspondem a<strong>os</strong> própri<strong>os</strong> element<strong>os</strong> do vector.sendo, se pretenderm<strong>os</strong> guardar num outrovector z apenas <strong>os</strong> valores de y superiores a 3,devem<strong>os</strong> escrever:> z 3]> z[1] 5 7 9 114.6. Importação e exportação de dad<strong>os</strong>A atribuição pode ser feita também por intermédioda função assign( ) que é particularmente útil nasatribuições automáticas, em que desconhecem<strong>os</strong><strong>os</strong> nomes d<strong>os</strong> object<strong>os</strong>.O R dispõe de um conjunto de funções quepermitem a importação ou exportação de dad<strong>os</strong>.Para importar ou exportar ficheir<strong>os</strong> extern<strong>os</strong>, oR dispõe de conjunto de funções que variam deacordo com o formato do ficheiro.>xx[1] 3.5.1.4.5.0.2.6.7.0.4.8Atribuição de valoresao vector x>assign(”x ”,c(3.5,1.4,5,2.6,7,4.8)>x[1] 3.5 1.4 5.0 2.6 7.0 4.8Atribuição de valoresao vector x (alternativa)Para ler ficheir<strong>os</strong> de dad<strong>os</strong> em formato de tabelaexistem funções mais específicas (dependendo dotipo de ficheiro) e a função read.table que é maisabrangente:> read.table(file,…)> read.csv(file,…)> read.csv2(file,…)> read.delim(file,…)> read.delim2(file,…)Operações com vectores<strong>Um</strong>a das vantagens do R é a facilidade naoperação com vectores. O vector exemplo, x(comp<strong>os</strong>to pel<strong>os</strong> númer<strong>os</strong> 1, 2, 3, 4, 5), pode sertransformado num vector y (que seja igual a 2x+1)desta forma simplificada:> x y y[1] 3 5 7 9 11De uma forma simples podem<strong>os</strong> também listartod<strong>os</strong> <strong>os</strong> númer<strong>os</strong> que sejam superiores a umcerto limite, utilizando operadores lógic<strong>os</strong>. AssimPara saber como se deveusar cada um destes comand<strong>os</strong>,basta escrever, no R,o nome do comando antecedidode ?, por exemplo:>?read.csvNa importação de ficheir<strong>os</strong> há alguns parâmetr<strong>os</strong>que é importante definir <strong>para</strong> garantir a correctaleitura d<strong>os</strong> dad<strong>os</strong>, tais como:• sep=”\t”, <strong>para</strong> indicação do caractertabulação como se<strong>para</strong>dor entrevariáveis;• dec=”,”, <strong>para</strong> indicação do se<strong>para</strong>dordecimal;• header = TRUE, <strong>para</strong> indicação daexistência d<strong>os</strong> nomes das variáveis naprimeira linha.


pág. 195# Estatística com RAo importar um ficheiro <strong>para</strong> o R, este deve ficarassociado a um objecto. Para tal, o resultado docomando de importação deve ser atribuído aonome do objecto a que se quer associar. Paraimportar, através da função read.csv, um ficheirode texto designado por “ex.csv” e o associar a umobjecto Dataset, dever-se-á fazer:> Datasetamean(a)[1] 3A função mean() calcula amédia de uma lista de valores• Mediana: median() calcula a mediana ou valorcentral de uma distribuição após ordenaçãoda am<strong>os</strong>tra (é definida pela sua p<strong>os</strong>ição nasucessão das observações ou na distribuição defrequências); é também conhecida por percentil50 ou segundo quartil.>amedian(a)[1] 3A função median() calcula amediana de uma lista devalores• Quantis: quantile() a função calcula <strong>os</strong>quantis que são estatísticas de ordem quese<strong>para</strong>m a distribuição de acordo com um limitepercentual de observações. No caso d<strong>os</strong>quartis, a distribuição é dividida em quatropartes iguais; estando ordenadas asobservações, por ordem crescente, o 1º e o3º quartis acumulam (até si) 25% e 75% dasobservações, respectivamente.>aquantile(a)0% 25% 50% 75% 100%1 2 3 4 5A função quantile() calcula <strong>os</strong>quartis de uma lista devalores


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 196Medidas de Dispersão• Variância: var() - calcula a variância <strong>para</strong> umavariável quantitativa.>avar(a)[1]2,5A função var() calcula avariância de uma lista devalores5. “R Commander”:um ambiente gráfico• Desvio padrão: sd() - calcula o desvio padrão deuma variável quantitativa.>asd(a)[1]1.581139A função sd() calcula o desviopadrão de uma lista de umavariável quantitativaO R dispõe de algumas funções que permitem fazeruma sumarização de dad<strong>os</strong>, essencialmente <strong>para</strong>variáveis quantitativas (discretas e contínuas). <strong>Um</strong>adessas funções é o summary(), que calcula <strong>para</strong>as variáveis quantitativas as seguintes medidas:Mínimo (Min), 1º quartil (1st Qu), Mediana (Median),Média (Mean), 3º quartil (3rd Qu) e Máximo (Max).O que é?Devido ao seu tipo de interface o R torna-semuitas vezes uma ferramenta de utilização poucoamigável. Por essa razão, têm surgido algunsambientes gráfic<strong>os</strong> que permitem uma utilizaçãodo R de uma forma mais intuitiva. O R-Commanderé uma dessas interfaces gráficas que abre umajanela inicial contendo vári<strong>os</strong> menus e botõesde acesso a diferentes procediment<strong>os</strong>. Alémdisso, este ambiente contém uma janela quegera <strong>os</strong> comand<strong>os</strong> R que são utilizad<strong>os</strong> em cadaprocedimento, permitindo assim repetir ou alteraresses comand<strong>os</strong>. O aspecto geral da janela doR-Commander é apresentado de seguida.Os menus do R-Commandersão facilmente configuráveisatravés de um ficheiro textoou através d<strong>os</strong> packages.>asummary(a)Min. 1st Qu. Median Mean3rd Qu. Max.A função summary() calculaalgumas estatísticas básicasde uma lista de variáveis.Em resumo, sintetizam<strong>os</strong> no quadro seguinte <strong>os</strong>nomes das funções apresentadas, bem como deoutras mais específicas, que permitem calcular asrespectivas medidas estatísticas no R:Apenas as linhas da janelascript window (que contém<strong>os</strong> comand<strong>os</strong> gerad<strong>os</strong> pelo R)podem ser editadas esubmetidas novamente <strong>para</strong>execução. Para seremsubmetidas basta carregarem submit.Funçãotable()mean()median()sum()summary()var()sd()quantile()fivenum()IQR()cor()DescriçãoCruzamento de variáveisMédia aritméticaMedianaSomaSumarização de dad<strong>os</strong>VariânciaDesvio padrãoQuartis com descriçãoQuartis sem descriçãoAmplitude inter-quartilCoeficiente de correlaçãoAs acções executadas via menus dão origema comand<strong>os</strong> do R que são m<strong>os</strong>trad<strong>os</strong> najanela de output (output window),juntamente com a informação de output,como consequência do comando executado.As mensagens de erro e <strong>os</strong> avis<strong>os</strong> sãom<strong>os</strong>trad<strong>os</strong> na messages window.


pág. 197Como se instala?O R-Commander é um package standard (designado por Rcmdr) e<strong>os</strong> process<strong>os</strong> de instalação e carregamento fazem-se da mesmaforma do que n<strong>os</strong> outr<strong>os</strong> packages (seguir o procedimento installpackages – escolhendo o package Rcmdr e, depois, load package).Existem, por vezes, alguns aspect<strong>os</strong> a ter em conta durante ainstalação: um d<strong>os</strong> pont<strong>os</strong> a ter em conta é que o R-Commanderutiliza alguns “contributed” packages que devem estar instalad<strong>os</strong><strong>para</strong> que o R-Commander funcione adequadamente 2 .Como funciona?<strong>Um</strong> d<strong>os</strong> primeir<strong>os</strong> pass<strong>os</strong> a dar depois de entrar no R-Commander consiste em activar um conjuntode dad<strong>os</strong>. A partir desse momento, todas as acções serão executadas nesse conjunto de dad<strong>os</strong>.Ao abrir-se um novo conjunto de dad<strong>os</strong>, este passará a ser o conjunto de dad<strong>os</strong> activo. O utilizadorpode, em qualquer momento, seleccionar o conjunto que pretende, entre tod<strong>os</strong> <strong>os</strong> conjunt<strong>os</strong> dedad<strong>os</strong> que já estiveram activ<strong>os</strong> anteriormente.Para activar um conjunto dedad<strong>os</strong> pode-se importar umficheiro de texto através domenu: (Data/Import Data/from text file or clipboard2 No caso da versão 1.4-2 do R-Commander esses packages são: abind, car, effects, lmtest, multcomp, mvtnorm, relimp,sandwich, strucchange, e zoo. Além destes packages, deve-se instalar também o package rgl no caso de se pretenderconstruir gráfic<strong>os</strong> 3D.


pág. 198O ficheiro em causa contém dad<strong>os</strong> sobre as peças produzidas numa determinada fábrica de peças<strong>para</strong> automóveis. Para cada peça produzida dispõe-se de informação sobre:• seccao: secção onde a peça foi produzida (var. qualitativa: valores de 1 a 6);• cod: código da peça (var. qualitativa: valores p<strong>os</strong>síveis: 12, 45, 78, 96);• peso: peso da peça (var. quantitativa);• diametro: diâmetro da peça (var. quantitativa);• empregado: empregado que executou/verificou a peça (var. qualitativa: valores de 1 a 3);• tipo: tipo de aplicação da peça: (var. qualitativa: (c) coluna ou (d) dentro);• qualidade: resultado da verificação: (var. qualitativa: (0) rejeitada ou (1) aprovada).De seguida, no menu ‘Statistics/Summary/Active Data Set’ pode solicitar as estatísticas básicas(mínimo, máximo, mediana, quartis) que correspondem à execução do comando summary.No menu Statistics seleccionea opção Summary/Active DataSet que permite calcular asestatísticas básicas (mínimo,máximo, mediana, quartis),que correspondem à execuçãodo comando summary().Os resultad<strong>os</strong> encontram-se na figura aolado (output window). Para cada variávelforam calculadas as estatísticas: mínimo,máximo, 1º, 2º e 3º quartis, a média e amediana. Estes resultad<strong>os</strong> poderiam tersido obtid<strong>os</strong> directamente através docomando:>summary(dataset)Como neste conjunto de dad<strong>os</strong> existem variáveis de vári<strong>os</strong> tip<strong>os</strong>, podem<strong>os</strong> utilizar algumasfuncionalidades disponíveis do R-Commander, tais como distribuições de frequências, cálcul<strong>os</strong> deestatísticas variadas, representação gráfica, etc. Desenvolverem<strong>os</strong> esta análise n<strong>os</strong> próxim<strong>os</strong>capítul<strong>os</strong> do d<strong>os</strong>siê.


pág. 199# Estatística com R> 100*.Table/sum(.Table) # percentagesfor tipocd47.05882 52.941186. Análise de Dad<strong>os</strong>Tabelas de contingênciaFrequências absolutas e relativasPr<strong>os</strong>seguindo com o exemplo anterior, em quedispom<strong>os</strong> de variáveis de vári<strong>os</strong> tip<strong>os</strong> (qualitativase quantitativas), interessa analisar agora aspotencialidades do R-Commander. Após a primeirasumarização, onde se calcularam as medidas delocalização, podem<strong>os</strong> agora, por exemplo, calcularas frequências absolutas das variáveis qualitativasPara tal, deve-se escolher no menu Statistics aopção ‘Summatize/Frequency Distributions’.Podem<strong>os</strong> também combinar variáveis e calculartabelas de contingência que resultam dasfrequências cruzadas entre variáveis qualitativas.Embora não exista um comando directamenteacessível, através d<strong>os</strong> menus do R-Commander,pode-se escrever o comando na janela ScriptWindow e carregar no botão Submit <strong>para</strong> executaro comando. Assim sendo, <strong>para</strong> poderm<strong>os</strong>, porexemplo, identificar quantas (e quais) as peçasque foram feitas por cada empregado, devem<strong>os</strong>escrever:>table (Dataset$cod,Dataset$empregado)O resultado é o seguinte:1 2 312 3 1 045 7 7 478 7 2 0O resultado é m<strong>os</strong>trado na janela output windowcomo sendo a aplicação da função table() daseguinte forma:96 2 0 1> .Table .Table # counts for tipoc d16 18É de notar que a expressão Dataset$tipo é aforma como correctamente n<strong>os</strong> referim<strong>os</strong> àvariável tipo do conjunto de dad<strong>os</strong> denominadoDataset e que é equivalente a utilizar a expressãoDataset[, “tipo”].No R-Commander m<strong>os</strong>tram-se ainda as frequênciasrelativas associadas a estas frequênciasabsolutas.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 200Medidas de localização e de dispersão:De seguida podem<strong>os</strong> também calcular as medidasde localização e de dispersão <strong>para</strong> uma variávelquantitativa, por grup<strong>os</strong> definid<strong>os</strong> segundo as modalidadesde uma variável qualitativa. Por exemplo,podem<strong>os</strong> calcular estatísticas sobre o peso daspeças produzidas, tendo em conta o tipo de peça.Para tal devem<strong>os</strong> escolher a opção ‘Statistics/Summaries/Table of Statistics’ e, de seguida, escolhercomo Factor a variável tipo. Neste caso, o tipo éaqui considerada uma variável independente.CorrelaçãoSeleccione Statistics/Summaries/Table ofStatisticsQuando numa base de dad<strong>os</strong> se dispõe de maisdo que uma variável, pode fazer sentido calcular onível ou grau de associação existente entre essasvariáveis. Em geral, estes coeficientes medema força e a direcção (no mesmo sentido ou emsentid<strong>os</strong> op<strong>os</strong>t<strong>os</strong>) da relação entre as variáveis.Existem vári<strong>os</strong> tip<strong>os</strong> de coeficientes de correlaçãoconforme o tipo de variáveis em estudo:qualitativas nominais, qualitativas ordinais,quantitativas, etc. O coeficiente de correlaçãolinear de Pearson é um d<strong>os</strong> mais conhecid<strong>os</strong> eaplica-se quando as variáveis são quantitativas 3 .Para se perceber que tipo de relação existeentre um par de variáveis, é habitual começarsepor desenhar um diagrama de pont<strong>os</strong>. Estetipo de representação é muito útil, pois permiterealçar algumas propriedades entre <strong>os</strong> dad<strong>os</strong>,nomeadamente no que diz respeito ao tipo deassociação entre as variáveis.O resultado é a execução do comando tapply queaplica um procedimento à variável quantitativa<strong>para</strong> grup<strong>os</strong> distint<strong>os</strong> (identificad<strong>os</strong> pela variávelqualitativa).> tapply(Dataset$peso,list(tipo=Dataset$tipo), mean,na.rm=TRUE)tipocd26.02323 29.12170No caso do conjunto de dad<strong>os</strong> em estudo, vam<strong>os</strong>verificar a relação existente entre as variáveis pesoe diâmetro das peças. Para tal escolhem<strong>os</strong> no R-Commander a opção ‘Graphs/XY Conditioning plot’. 43 Embora este coeficiente se aplique especialmente no casoem que as variáveis seguem distribuição Normal, esta restriçãoé muitas vezes ignorada. Para saber mais sobre o coeficientede correlação, consulte o curso de Noções de Estatística noALEA, Capítulo VI – Distribuições Bidimensionais, em http://www.alea.pt/html/nocoes/html/cap6_3_1.html e/ou ActivALEAn.º 4 “Associação entre variáveis quantitativas: O coeficiente deCorrelação.”4 No capítulo 6 deste d<strong>os</strong>siê pretende-se aprofundar um poucomais a questão da representação gráfica em R.


pág. 201# Estatística com RDe facto, podem<strong>os</strong> notar que a correlaçãoexistente entre o diâmetro das peças (x) e o pesodas peças (y) é de, aproximadamente, 0.92.Este gráfico sugere a existência de uma relaçãodirecta entre as variáveis diâmetro e peso, ouseja, a valores grandes de diâmetro correspondem,de um modo geral, valores grandes de peso evice-versa. Esta informação pode ser confirmadapelo cálculo do coeficiente de correlação linearde Pearson (ou r de Pearson). Este procedimentopode ser desencadeado através do menu (ver figuraseguinte) e corresponde à execução do comandocor(x,y), em que x e y representam as variáveisem estudo <strong>para</strong> as quais se pretende calcular ocoeficiente de correlação.O R-Commander dispõe também de outras opçõesde análise de dad<strong>os</strong>: análise factorial, testes<strong>para</strong>métric<strong>os</strong> e não <strong>para</strong>métric<strong>os</strong>, etc. Estastécnicas não são abordadas no contexto dested<strong>os</strong>siê.Gestão das variáveisNo R-Commander existe a p<strong>os</strong>sibilidade de sefazer a gestão do conjunto de dad<strong>os</strong>: acrescentarnovas variáveis, novas observações, agregarvalores em classes, etc. Esta opção encontra-sedisponível através de ‘Data/Manage variables inactive data set’.Na janela Output Window podem<strong>os</strong> observar oresultado:> cor(Dataset[,c(“diâmetro”,”peso”)],use=”complete.obs”)diâmetropesoPara fazer a gestão d<strong>os</strong> dad<strong>os</strong>recorra à opção 'Data/Managevariables in active data set'.diâmetro 1.0000000 0.9166048peso 0.9166048 1.0000000


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 2027. Gráfic<strong>os</strong>Neste capítulo pretende-se fazer uma visitageral a alguns tip<strong>os</strong> de gráfic<strong>os</strong> mais conhecid<strong>os</strong>(gráfic<strong>os</strong> de barras, diagramas circulares,histogramas e gráfic<strong>os</strong> de pont<strong>os</strong>) e à forma comse podem construir através do R-Commander.A apresentação específica de cada gráfico e asua formatação não são objectivo principal destaabordagem, pelo que deverá consultar as ajudasdo R <strong>para</strong> comand<strong>os</strong> adicionais.As facilidades gráficas são uma componenteimportante e muito versátil no ambiente R, sendop<strong>os</strong>sível utilizar essas facilidades numa largavariedade de gráfic<strong>os</strong> estatístic<strong>os</strong> predefinid<strong>os</strong>,bem como construir gráfic<strong>os</strong> nov<strong>os</strong> que podem serformatad<strong>os</strong> e apresentad<strong>os</strong> com grande qualidade.Apresenta-se, de seguida, a forma como podefazer alguns destes gráfic<strong>os</strong> tomando por baseo mesmo conjunto de dad<strong>os</strong> d<strong>os</strong> exempl<strong>os</strong>anteriores.Gráfico de barras e diagramas circularesO gráfico de barras é uma forma de representaçãoadequada a variáveis qualitativas e quantitativasdiscretas. No gráfico de barras cada valorassociado a uma modalidade da variável érepresentado através de uma barra cuja altura éproporcional à sua frequência.Os gráfic<strong>os</strong> constituem uma forma de sumariara informação, sendo que a sua representaçãográfica deve ser feita de forma a dar relevoàs propriedades importantes d<strong>os</strong> dad<strong>os</strong>. Aconstrução d<strong>os</strong> gráfic<strong>os</strong> deve ter em conta o tipode variáveis que se pretende representar. Natabela seguinte apresenta-se um resumo do tipode gráfic<strong>os</strong>, mais comuns, que deve ser feito <strong>para</strong>cada tipo de variável:De seguida apresentam-se <strong>os</strong> pass<strong>os</strong> necessári<strong>os</strong><strong>para</strong> fazer um gráfico de barras no R-Commander<strong>para</strong> a variável tipo (variável qualitativa relacionadacom o tipo de aplicação da peça: (c) coluna ou (d)dentro).Tipo de variávelQualitativa(ordinal,nominal)Quantitativa discretaQuantitativa contínuaRepresentação gráficaGráfic<strong>os</strong> de barras,diagramas circulares.Gráfic<strong>os</strong> de barras,diagramas circulares,diagramas de dispersão,diagramas de caixas ebigodes, etc.Histogramas, diagramasde dispersão, diagramasde caixa e bigodes, etc.Para fazer um gráfico de barrasrecorra à opção 'Graphs/BarGraph' e escolha, depois, avariável qualitativa quepretende representar


pág. 203# Estatística com Rdad<strong>os</strong> são agrupad<strong>os</strong> são contíguas, as barrassão apresentadas sem se<strong>para</strong>ção. Para fazerum histograma no R-Commander considerando avariável diâmetro proceda como se indica na figura:O comando gerado pelo R-Commander que permitefazer este gráfico directamente no R é o seguinte:>barplot(table(Dataset$tipo), xlab=”tipo”,ylab=”Frequency”)Para construir um diagrama circular, igualmenteadequado a este tipo de dad<strong>os</strong>, o procedimentoé idêntico, excepto na opção de gráfic<strong>os</strong>, onde sedeve escolher pie chart em vez de bar graph. Ocomando gerado no R é o seguinte:>pie(table(Dataset$tipo),labels=levels(Dataset$tipo),main=”tipo”,col=rainbow(length(levels(Dataset$tipo))))O comando gerado pelo R-Commander que permitefazer este gráfico directamente no R é o seguinte:>hist(Dataset$diâmetro,scale=”frequency”, breaks=”Sturges”,col=”darkgray”)HistogramaO histograma é uma das formas mais importantesde representar dad<strong>os</strong> quantitativ<strong>os</strong>. Para sefazer um histograma é necessário começar poragrupar as observações em classes e depoisrepresentar, <strong>para</strong> cada classe, uma barra cujaaltura seja proporcional ao número de observações.<strong>Um</strong>a vez que as classes ou interval<strong>os</strong> em que <strong>os</strong>Diagrama de pont<strong>os</strong>Também conhecido por diagrama de dispersão,o gráfico de pont<strong>os</strong> é muito adequado n<strong>os</strong>cas<strong>os</strong> em que pretendem<strong>os</strong> representar duasvariáveis quantitativas (discretas ou contínuas),particularmente quando pretendem<strong>os</strong> analisar asua correlação.


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 2048. Exempl<strong>os</strong> de AplicaçãoEste capítulo contém alguns exercíci<strong>os</strong> deaplicação imediata e problemas resolvid<strong>os</strong> atravésdo R tais como: “Número de irmã<strong>os</strong> d<strong>os</strong> alun<strong>os</strong>da turma H do 9º ano”, “Alturas d<strong>os</strong> Alun<strong>os</strong>”,“Construir um Triângulo”, “<strong>Um</strong>a Corrida ComDad<strong>os</strong>” e “Resultad<strong>os</strong> de um teste” (este últimoassociado ao programa PISA).Pensam<strong>os</strong> que estes exercíci<strong>os</strong> e problemasajudam a aprofundar <strong>os</strong> conheciment<strong>os</strong> de Rapresentad<strong>os</strong> neste d<strong>os</strong>siê, sendo que, <strong>para</strong>a sua resolução, se utilizaram conceit<strong>os</strong> quesão usualmente trabalhad<strong>os</strong> no ensino básico esecundário.Número de irmã<strong>os</strong> d<strong>os</strong> alun<strong>os</strong> daturma H do 9º ano1 0 1 2 1 1 1 3 0 4 0 1 14 2 3 2 1 3 1 2 1 2 1 2 3Construa:a) a tabela de frequências.O comando gerado pelo R-Commander que permitefazer este gráfico directamente no R é:> xyplot(peso~diâmetro,auto.key=TRUE,scales=list(x=list(relation=’same’), y=list(relation=’same’)), data=Dataset)b) o diagrama de barrasResolução com R:a) Para construir a tabela de frequências:> cbind(fa=table(dad<strong>os</strong>), fr=prop.table(table(dad<strong>os</strong>)))


pág. 205# Estatística com Rb) Para construir o diagrama de barras:> barplot(table(dad<strong>os</strong>), main=”Númerode Irmã<strong>os</strong> no 9º H”, xlab=”Número deIrmã<strong>os</strong>”, ylab=”Frequência”,col=rep(“pink”,5), ylim=c(0,12))• De seguida aplicam<strong>os</strong> o comando hist.> hist(dad<strong>os</strong>[,1])Para formatar melhor o gráfico, podem<strong>os</strong> recorrera<strong>os</strong> parâmetr<strong>os</strong> do comando hist:> hist(A[,1],breaks=”Sturges”, col=”lightblue”, xlab=”Altura”, ylab=”Frequência”,main=”Alturas de Alun<strong>os</strong>”)Alturas d<strong>os</strong> Alun<strong>os</strong>Para este exercício, foram registadas as alturas, emcentímetr<strong>os</strong>, d<strong>os</strong> alun<strong>os</strong> de uma turma do 10º ano:Altura d<strong>os</strong> alun<strong>os</strong>150 169 174 155 165 170 172152 158 163 158 166 158 166170 171 162 171 161 154 168161 164 166 164 162 156 167Construa uma tabela de frequências, agrupando<strong>os</strong> dad<strong>os</strong> em classes e represente graficamente<strong>os</strong> dad<strong>os</strong>, utilizando o tipo de gráfico que acharmais conveniente. Faça ainda um diagrama decaule-e-folhas.E o resultado é…A partir do comando do histograma, poderem<strong>os</strong>construir uma tabela de frequências. Para tal,basta guardar o resultado do comando hist.> s s$breaks[1] 150 155 160 165 170 175$counts[1] 4 4 8 8 4$intensities[1] 0.02857142 0.02857143 0.057142860.05714286 0.02857143(…)Resolução com R:• O primeiro passo consiste em transmitir <strong>os</strong>dad<strong>os</strong> ao R. Para tal, podem<strong>os</strong> criar um ficheirocom estes dad<strong>os</strong> (exercício1.csv) ou lê-l<strong>os</strong> atravésde um vector.ou> dad<strong>os</strong>dad<strong>os</strong>


pág. 206Para fazer um diagrama de caule-e-folhas 5 deverem<strong>os</strong> aplicar o comando stem:Construir um triângulo…<strong>Um</strong> segmento de comprimento unitário é dividido em 3 partes, aleatoriamente. Qual a probabilidadede as partes resultantes poderem formar um triângulo?A resolução deste problema prende-se com uma regra que estabelece que a soma d<strong>os</strong> compriment<strong>os</strong>de dois lad<strong>os</strong> de um triângulo é superior ao comprimento do outro lado.Nota – Quando se fala em númer<strong>os</strong> aleatóri<strong>os</strong>, estam<strong>os</strong> intuitivamente a pensar em númer<strong>os</strong> comuma distribuição uniforme, no intervalo [0,1].Resolução do problema por simulação no R:Vam<strong>os</strong> fazer um determinado número de simulações e calcular a frequência relativa das situaçõesque dão origem a triângul<strong>os</strong>. Para tal, vam<strong>os</strong> gerar dois númer<strong>os</strong> aleatóri<strong>os</strong> entre 0 e 1 e estesnúmer<strong>os</strong> irão representar <strong>os</strong> pont<strong>os</strong> P e Q em que um segmento [MN] de comprimento 1 ficadividido:M P Q NVam<strong>os</strong> considerar <strong>para</strong> P o menor d<strong>os</strong> valores obtid<strong>os</strong>, que será o comprimento de MP. Calcula-se ocomprimento d<strong>os</strong> segment<strong>os</strong> PQ e QN e depois testa-se se dois quaisquer d<strong>os</strong> compriment<strong>os</strong> obtid<strong>os</strong>são superiores ao terceiro comprimento. Terminado o número de simulações, calcula-se o número dassituações que dão origem a triângul<strong>os</strong> e divide-se pelo número de simulações.5 Para saber mais sobre este tipo de gráfico consulte o AELA em: http://www.alea.pt/html/nocoes/html/cap3_2_20.html


pág. 207# Estatística com RFizem<strong>os</strong> nova simulação e obtivem<strong>os</strong>:Comprimento médio do segmento MP:0.3432921Segmento MPScript 1 “Problema do triângulo”cont=0NumSim=1000segment<strong>os</strong>=array(0,dim=c(NumSim,3))for (i in 1:NumSim) {M=0N=1A=runif(1,0,1)B=runif(1,0,1)MP=min(A,B)PQ=abs(A-B)QN=1-max(A,B)if (MP+PQ > QN & MP+QN>PQ & PQ+QN>MP) cont=cont+1segment<strong>os</strong>[i,1]=MPsegment<strong>os</strong>[i,2]=PQsegment<strong>os</strong>[i,3]=QN}cat("frequência relativa",cont/NumSim)frequência0 10 20 30 40 500 0.1 0.2 0.3 0.4 0.5comprimentoComprimento médio do segmento PQ:0.3286406Segmento PQ50Por exemplo, pedindo 1000 simulações, obteve-se:Frequência relativa de triângul<strong>os</strong>: 0.256frequência0 10 20 30 4000.10.20.30.40.5Acrescentando ao script anterior, o cálculo docomprimento médio de cada segmento n<strong>os</strong> cas<strong>os</strong>em que é p<strong>os</strong>sível construir um triângulo:comprimentoComprimento médio do segmento QN:0.3280673Script 2 “Problema do triângulo“cont=0NumSim=1000segment<strong>os</strong>=array(0,dim=c(NumSim,3))for (i in 1:NumSim) {M=0N=1A=runif(1,0,1)B=runif(1,0,1)MP=min(A,B)PQ=abs(A - B)QN=1- max(A,B)if (MP+PQ > QN & MP+QN>PQ & PQ+QN>MP) {cont=cont+1segment<strong>os</strong>[cont,1]=MPsegment<strong>os</strong>[cont,2]=PQsegment<strong>os</strong>[cont,3]=QNpar(mfrow=c(2,2))cor1=c("blue")cor2=c("pink")cor3=c("yellow")}}segment<strong>os</strong>=segment<strong>os</strong>[1:cont,]hist(segment<strong>os</strong>[,1],col=cor1,xlab="comprimento",ylab=“frequência",main="Segmento MP")hist(segment<strong>os</strong>[,2],col=cor2,xlab="comprimento",ylab=“frequência",main="Segmento PQ")hist(segment<strong>os</strong>[,3],col=cor3,xlab="comprimento",ylab="frequência",main="Segmento QN")cat("frequência relativa de triângul<strong>os</strong>",cont/NumSim)cat("comprimento médio do segmento MP",mean(segment<strong>os</strong>[,1]))cat("comprimento médio do segmento PQ",mean(segment<strong>os</strong>[,2]))cat("comprimento médio do segmento QN",mean(segment<strong>os</strong>[,3]))frequência50403020100Segmento QN00.10.20.3comprimento“Curi<strong>os</strong>amente” o comprimento médio d<strong>os</strong>segment<strong>os</strong> aproxima-se de 1/3.Efectuando maior número de simulações, afrequência relativa d<strong>os</strong> cas<strong>os</strong> em que é p<strong>os</strong>sívelconstruir um triângulo aproxima-se de 0,25 eo comprimento médio d<strong>os</strong> segment<strong>os</strong> dessestriângul<strong>os</strong> é um valor próximo de 0,33.0.40.5


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 208Voltando à simulação no R…O script elaborado inicialmente pareceu-n<strong>os</strong>o processo mais indicado <strong>para</strong> ser explicadoa<strong>os</strong> alun<strong>os</strong>, mas explorando um pouco mais aspotencialidades do R, fizem<strong>os</strong> um novo scripttendo por base o seguinte raciocínio: considere-seduas variáveis aleatórias X e Y (com distribuiçãouniforme no intervalo [0,1]) e independentes:• X tem distribuição uniforme nointervalo [0,1]• Y tem distribuição uniforme nointervalo [0,1]Quando se seleccionam 2 númer<strong>os</strong>, um comdistribuição X e outro com distribuição Y, podem<strong>os</strong>ter uma de duas situações: XY.X1/2 & (x-y)


pág. 209# Estatística com R0.00 0.10 0.20freq. relativa 0.2540 200 400 600 800 1000nºde simulações 1000Aumentando o número de simulações, a frequênciarelativa tende a estabilizar à volta do valor 0,25,o que vem comprovar a definição frequencista doconceito de probabilidade: a probabilidade de umdeterminado acontecimento é o valor obtido <strong>para</strong>a frequência relativa com que se observou esseacontecimento, num grande número de realizaçõesda experiência aleatória.Para 1 000 000 simulações:<strong>Um</strong>a Corrida com Dad<strong>os</strong>0.00 0.10 0.200.00 0.10 0.20 0.30freq. relativa 0.2490 50000 150000 250000nºde simulações 250001freq. relativa 0.2490e+00 2e+05 4e+05nºde simulações 5e+05> O Bruno arranjou um dado especial com a formade um dodecaedro. Tem 12 faces, numeradas de1 a 12.> A Tânia tem dois dad<strong>os</strong> normais. São cub<strong>os</strong>,cada um deles com as faces numeradas de 1a 6.Resolveram fazer um jogo. Cada jogada consisteno lançamento d<strong>os</strong> três dad<strong>os</strong>.Vão somando <strong>os</strong> pont<strong>os</strong> que cada um obtém:o Bruno com o seu dado de 12 faces e a Tâniacom <strong>os</strong> seus dois dad<strong>os</strong> de 6 faces. Ganha quemprimeiro chegar a<strong>os</strong> 100 pont<strong>os</strong>.Se por acaso <strong>os</strong> dois chegarem a<strong>os</strong> 100 pont<strong>os</strong>na mesma jogada, ganha quem tiver o total maior.Se esse total for igual <strong>para</strong> <strong>os</strong> dois, há empate.0.00 0.10 0.20 0.30freq. relativa 0.25937124110.00 0.10 0.20 0.300e+00 2e+05 4e+05 6e+05nºde simulações 750000freq. relativa 0.250e+00 4e+05 8e+05nºde simulações 1e+06Algum d<strong>os</strong> jogadores está em vantagem? Ou é ojogo equilibrado?(Desafi<strong>os</strong> do Público)Antes da realização das experiências cadaelemento do grupo conjecturou sobre quem teriamaior probabilidade de vencer, se o Bruno lançandoo dodecaedro, se a Tânia lançando dois dad<strong>os</strong>cúbic<strong>os</strong>. Surgiram opiniões diversas:


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 210Script 2 “Corrida de Dad<strong>os</strong>“ em R• A Tânia obtém, no mínimo, por jogada, doispont<strong>os</strong> enquanto que o Bruno pode obter um;• No dodecaedro a probabilidade de sair dozeé 1 2 que é maior que 136 , correspondente àprobabilidade do mesmo resultado no caso d<strong>os</strong>dad<strong>os</strong> cúbic<strong>os</strong>;• A probabilidade de obter seis é maior no lançamentod<strong>os</strong> dois dad<strong>os</strong> cúbic<strong>os</strong>,536 , contra 1 12no dodecaedro; essa vantagem acentua-semais no caso da obtenção do valor sete ao qualcorresponde as probabilidades 1 , n<strong>os</strong> dad<strong>os</strong>6cúbic<strong>os</strong>, e 1 no outro dado.12Script 1 “Corrida de Dad<strong>os</strong>“ em R#Simular um jogo da corrida de dad<strong>os</strong>L=1AcumCubico=0AcumDode=0while (AcumCubicoAcumCubico) print ("Foi o dodecaedro") elseif (AcumCubico==AcumDode) print ("Empate")print (paste("Total de jogadas", L))print (paste("Total de pont<strong>os</strong> d<strong>os</strong> dad<strong>os</strong> cúbic<strong>os</strong>", AcumCubico))print (paste("Total de pont<strong>os</strong> do dodecaedro", AcumDode))Começam<strong>os</strong> por elaborar um script <strong>para</strong> asimulação de um jogo:Na simulação que realizám<strong>os</strong> o resultado foio seguinte: venceu “o par de dad<strong>os</strong> cúbic<strong>os</strong>”,realizaram-se “16 jogadas”, sendo o total d<strong>os</strong>pont<strong>os</strong> d<strong>os</strong> dad<strong>os</strong> cúbic<strong>os</strong> “107” e o total depont<strong>os</strong> do dodecaedro “105”.Elaborám<strong>os</strong> um outro script <strong>para</strong> simular vári<strong>os</strong>jog<strong>os</strong>:#Simular vári<strong>os</strong> jog<strong>os</strong> da corrida de dad<strong>os</strong>dad<strong>os</strong>=function(n) {CUBICO=0DODE=0EMPATE=0for (i in 1:n) {L=1AcumCubico=0AcumDode=0while (AcumCubicoAcumCubico) DODE=DODE+1 else if (AcumCubico==AcumDode) EMPATE=EMPATE+1}print (paste("Freq.relativa do n.ºde vezes em que <strong>os</strong> dad<strong>os</strong>cubic<strong>os</strong> ganharam", CUBICO/n))print (paste("Freq.relativa do n.ºde vezes em que o dodecaedroganhou", DODE/n))print (paste("Freq.relativa do n.ºde empates", EMPATE/n))}Executado o script <strong>para</strong> simular 100 jog<strong>os</strong>,digitam<strong>os</strong> na consola do R “dad<strong>os</strong> (100)” eobtivem<strong>os</strong>:• “Freq. relativa do n.º de vezes em que<strong>os</strong> dad<strong>os</strong> cúbic<strong>os</strong> ganharam 0.67”• “Freq. relativa do n.º de vezes em queo dodecaedro ganhou 0.32”• “Freq. relativa do n.º de empates 0.01”Se o número de experiências for suficientementegrande, a percentagem de cada resultado estarápróxima do valor real da probabilidade (Lei d<strong>os</strong>Grandes Númer<strong>os</strong>).Simulám<strong>os</strong> no R, um milhão de jog<strong>os</strong> e ao fim dealguns minut<strong>os</strong>… obtivem<strong>os</strong>:• “Freq. relativa do n.º de vezes emque <strong>os</strong> dad<strong>os</strong> cúbic<strong>os</strong> ganharam0.676556”;• “Freq. relativa do n.º de vezes emque o dodecaedro ganhou 0.304982”;• “Freq. relativa do n.º de empates0.018462”.Assim, a probabilidade de a Tânia ganhar seráaproximadamente 67,7% e a do Bruno 30,5%.A probabilidade de empate é de 1,8%. Claro queestes não são valores exact<strong>os</strong>… mas estarãopróxim<strong>os</strong> d<strong>os</strong> valores reais.


pág. 211Resultad<strong>os</strong> de um TesteO gráfico seguinte m<strong>os</strong>tra <strong>os</strong> resultad<strong>os</strong> de um teste de Matemática obtid<strong>os</strong> por dois grup<strong>os</strong> dealun<strong>os</strong>, designad<strong>os</strong> por “Grupo A” e “Grupo B”. A nota média no grupo A é de 62,0 e no grupo B de64,5. Os alun<strong>os</strong> passam neste teste se tiverem uma nota igual ou superior a 50.6Resultad<strong>os</strong> no teste de MatemáticaNúmero de Alun<strong>os</strong>5432100-910-1920-2930-3940-4950-5960-6970-7980-8990-100Grupo AGrupo BNotasCom base nesta informação, o professor concluiu que o grupo B teve melhores resultad<strong>os</strong> nesteteste que o grupo A.Os alun<strong>os</strong> do grupo A não estão de acordo com o professor. Tentam convencer o professor de que ogrupo B não teve necessariamente melhores resultad<strong>os</strong>.Utilizando a informação dada, apresente pelo men<strong>os</strong> um argumento matemático que p<strong>os</strong>sa serutilizado pel<strong>os</strong> alun<strong>os</strong> do grupo A.adaptado do Programa <strong>para</strong> a Avaliação Internacional de Alun<strong>os</strong> 2003, PISA – Programmefor Internacional Student AssessmentArgument<strong>os</strong> que podem ser utilizad<strong>os</strong>:• Há mais alun<strong>os</strong> que passaram no teste no Grupo A do que no Grupo B(há mais “p<strong>os</strong>itivas” no Grupo A do que no Grupo B);• O Grupo A tem mais alun<strong>os</strong> com nota igual ou superior a 80 que o grupo B;• Se ignorarm<strong>os</strong> o aluno mais fraco do Grupo A, <strong>os</strong> alun<strong>os</strong> do Grupo A têm melhoresresultad<strong>os</strong> que <strong>os</strong> do grupo B.Respeitando a informação dada no problema, considerem<strong>os</strong> que <strong>os</strong> resultad<strong>os</strong> obtid<strong>os</strong> pel<strong>os</strong> doisgrup<strong>os</strong> foram <strong>os</strong> seguintes:Grupo A: 8, 51, 52, 56, 61, 63, 65, 67, 74, 76, 82, 89Grupo B: 41, 43, 55, 61, 62, 63, 67, 68, 74, 79, 79, 82Utilizando o programa R 9 , calculem<strong>os</strong> as principais estatísticas descritivas destes dois grup<strong>os</strong>, bemcomo <strong>os</strong> respectiv<strong>os</strong> boxplots (caixas de bigodes):9 Ver script elaborado no final deste problema.


pág. 212Note-se que a nota mais baixa do Grupo A, que se afasta significativamente das restantes (outlier),está assinalada com um (ponto). Este valor interfere bastante na média d<strong>os</strong> resultad<strong>os</strong> do GrupoA. Efectivamente, se retirarm<strong>os</strong> a nota mais baixa a cada um d<strong>os</strong> grup<strong>os</strong>, respectivamente 8 e 41,obtem<strong>os</strong>:GrupoAMin. : 8.01st Qu.:55.0Median :64.0Mean :62.03rd Qu.:74.5Max. :89.020 40 60 80GrupoBMin . :41.001st Qu.:59.50Median :65.00Mean :64.503rd Qu.:75.25Max. :82.00GrupoAGrupoBCom esta alteração obtem<strong>os</strong> uma melhor leitura do gráfico, dada a redução na dispersão d<strong>os</strong> dad<strong>os</strong>.Confirma-se assim uma subida das estatísticas descritivas, em particular no Grupo A, em que amédia das notas do Grupo A supera a média das notas do Grupo B.Retomando as doze notas iniciais de cada grupo, alterem<strong>os</strong> agora apenas o menor valor do Grupo A, anota 8 <strong>para</strong> 39 (nota mínima, de qualquer modo inferior à nota mínima do Grupo B).GrupoAMin. :51.001st Qu.:58.50Median :65.00Mean :66.913rd Qu.:75.000Max. :89.050 60 70 80 90GrupoBMin. :43.001st Qu.:61.50Median :67.00Mean :66.643rd Qu.:76.50Max. :82.00GrupoAGrupoBA alteração do valor extremo teve como consequência uma subida significativa da média, mantend<strong>os</strong>e,o valor da mediana. Esta situação ilustra bem a maior resistência da mediana a valores extrem<strong>os</strong>relativamente à média.Apesar da importância destas duas medidas de tendência central, poderem<strong>os</strong> ter um conjuntode dad<strong>os</strong> diferentes com igual média e mediana, sendo necessário recorrer a outras medidasestatísticas <strong>para</strong> analisar melhor <strong>os</strong> dad<strong>os</strong>.GrupoAMin. :39.001st Qu.:55.00Median :64.00Mean :64.583rd Qu.:74.50Max. :89.0040 50 60 70 80 90GrupoBMin. :41.001st Qu.:59.50Median :65.00Mean :64.503rd Qu.:75.25Max. :82.00GrupoAGrupoB


pág. 213# Estatística com RAinda na situação apresentada, se alterarm<strong>os</strong> no Grupo A, por exemplo, duas notas: 8 <strong>para</strong> 36 e 63 <strong>para</strong>65, obtem<strong>os</strong>:GrupoAMin. : 36.01st Qu.:55.0Median :65.0Mean :64.503rd Qu.:74.5Max. :89.040 50 60 70 80 90GrupoBMin. :41.001st Qu.:59.50Median :65.00Mean :64.503rd Qu.:75.25Max. :82.00GrupoAGrupoBA média e a mediana são iguais, sendo por isso necessário recorrer as outras medidas, por exemplo, dedispersão <strong>para</strong> analisarm<strong>os</strong> melhor <strong>os</strong> dad<strong>os</strong> e concluir, eventualmente qual d<strong>os</strong> grup<strong>os</strong> tem melhoresresultad<strong>os</strong>.No Grupo A a amplitude interquartil é superior, bem como o desvio padrão o que significa que neste grupoexiste uma maior variabilidade das notas em relação à média.Os histogramas destes conjunt<strong>os</strong> de dad<strong>os</strong> apresentam-se a seguir:GrupoAGrupoBFrequência0 1 2 3 4Frequência0 1 2 3 4 5Script “Resultad<strong>os</strong> de um teste“notas=data.frame(GrupoA=c(8,51,52,56,61,63,65,67,74,76,82,89),GrupoB=c(41,43,55,61,62,63,67,68,74,79,79,82))summary(notas)par(mfrow=c(2,2))color=c("red","blue")boxplot(notas,col=color)30 50 70 90notas40 50 60 70 80 90notasnotas2=data.frame(GrupoA=c(51,52,56,61,63,65,67,74,76,82,89),GrupoB=c(43,55,61,62,63,67,68,74,79,79,82))summary(notas2)boxplot(notas2,col=color)notas3=data.frame(GrupoA=c(39,51,52,56,61,63,65,67,74,76,82,89),GrupoB=c(41,43,55,61,62,63,67,68,74,79,79,82))summary(notas3)boxplot(notas3,col=color)notas4=data.frame(GrupoA=c(36,51,52,56,61,65,65,67,74,76,82,89),GrupoB=c(41,43,55,61,62,63,67,68,74,79,79,82))summary(notas4)boxplot(notas4,col=color)sd(notas4$GrupoA)sd(notas4$GrupoB)# histogramas do problema Resultad<strong>os</strong> de um testepar(mfrow=c(1,2))color=c("red")hist(notas4$GrupoA,main="GrupoA",xlab="notas",ylab="frequência",col.main=color)color=c("blue")hist(notas4$GrupoB,main="GrupoB",xlab="notas",ylab=“frequência",col.main=color)


um <strong>mundo</strong> <strong>para</strong> <strong>conhecer</strong> <strong>os</strong> númer<strong>os</strong> #pág. 2149. Para saber mais:recurs<strong>os</strong> prátic<strong>os</strong> <strong>para</strong>aprendizagem do RPublicações• ALEA, D<strong>os</strong>siê X – “Software Estatístico - <strong>Um</strong>aintrodução a alguns aplicativ<strong>os</strong>, numa abordageminicial d<strong>os</strong> dad<strong>os</strong>”, Helder Alves, Luís Cunha.• Figueiredo, F., Figueiredo, A., Ram<strong>os</strong>, A., eTeles, P., Estatística Descritiva e Probabilidades:Problemas Resolvid<strong>os</strong> e Prop<strong>os</strong>t<strong>os</strong> com Aplicaçõesem R, Escola Editora, 2007.• Ponte, João Pedro da, Introdução, in SeymourPapert, “A Família em rede”, Relógio d’Água,1997.• ALEA, D<strong>os</strong>siê X – “Software Estatístico - <strong>Um</strong>aintrodução a alguns aplicativ<strong>os</strong>, numa abordageminicial d<strong>os</strong> dad<strong>os</strong>”, Helder Alves, Luís Cunha.• L. Torgo (2009), A Linguagem R– Programação <strong>para</strong> a Análise de Dad<strong>os</strong>,Escola Editora.• Paul Murrell (2006), R Graphics, Chapman &Hall/CRC, London.• Peter Dalgard (2002), Introductory Statisticswith R, Springer, New York.WebSites:• The R Project for Statistical Computing:http://www.r-project.org/index.html• R Site Search:http://finzi.psych.upenn.edu/search.html• R mailing lists archive:http://tolstoy.newcastle.edu.au/R/• The R Commander – A Basic-StatisticsGUI for R:http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/• Tinn-R:http://www.sciviews.org/Tinn-R/

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!