12.07.2015 Views

Um mundo para conhecer os números - Universidade Fernando ...

Um mundo para conhecer os números - Universidade Fernando ...

Um mundo para conhecer os números - Universidade Fernando ...

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Notas sobre a História da Estatística | Maria João Ferreira # Isabel TavaresO Inquérito Estatístico | Maria João Ferreira # Pedro CamposEstatística Descritiva com Excel | Luísa Canto e Castro Loura # Maria Eugénia Graça MartinsRepresentações gráficas | Ana Alexandrino da SilvaEstatística com R | Pedro Campos # Rita Sousadossiês122655987569484641Um mundopara conheceros númerosDIRECÇÃOREGIONALDEEDUCAÇÃODONORTEEscola Secundáriade Tomaz Pelayo


Um mundopara conheceros números


um mundo para conhecer os números #pág. 2Ficha TécnicaTítuloUm mundo para conhecer os númerosEditoresInstituto Nacional de Estatística, I.P.Av. António José de Almeida1000-043 LisboaPortugalEscola Secundária Tomaz PelayoRua Prof. Doutor Fernando Pires de Lima4780-430 Santo TirsoPortugalDirecção Regional de Educação do NorteRua António Carneiro, 984349-003 PortoPortugalDesign, Composição e ImpressãoInstituto Nacional de Estatística, I.P.Tiragem300 exemplaresISBN978-98925-0043-0Depósito Legal300079/09PeriodicidadeIrregular© INE, I.P., Lisboa | Portugal, 2009*A reprodução de quaisquer páginas desta obra é autorizada, excepto para fins comerciais, desde que mencionando oINE, I.P., como autor, o título da obra, o ano de edição e a referência Lisboa-Portugal.


pág. 5PrefácioO ALEA faz 10 anos. E 10 anos notáveis.Estão de parabéns os seus responsáveis ecolaboradores. Estão de parabéns a EscolaSecundária Tomaz Pelayo, o Instituto Nacional deEstatística e a Direcção Regional de Educação doNorte, instituições que são o sustentáculo desteprojecto. Está também de parabéns a supervisoracientífica, Profª Doutora Maria Eugénia GraçaMartins. Mas estão principalmente de parabénstodos os seus utilizadores, quer sejam alunos ouprofessores dos Ensinos Básico e Secundário, aosquais o projecto principalmente se dirige, quersejam cidadãos interessados em melhorar a sualiteracia estatística.O ALEA assume-se efectivamente como umprojecto ao serviço da literacia estatística,indispensável nos nossos dias ao exercício plenoda cidadania. De facto, não basta ao cidadãodispor de informação, não lhe basta disportambém de informação estatística, é necessárioainda que ele saiba compreender e interpretaressa informação e a saiba utilizar na tomada dedecisões úteis, quer na sua vida pessoal querna sua intervenção na sociedade. A literaciaestatística é assim um instrumento poderoso aoserviço da qualidade da democracia.O ALEA é um exemplo vivo do que podem fazera vontade e a determinação de alguns quandopostas ao serviço da comunidade. Quem visita apágina web www.alea.pt do ALEA fica encantadocom o que lá vê e seguro de que este projecto


um mundo para conhecer os números #pág. 6é um instrumento muito útil para a melhoria daqualidade do ensino da Estatística em Portugal(e noutros países, quer de língua portuguesa,quer outros, já que a página tem uma versãoem língua inglesa). A qualidade do projecto énotável e isso mesmo foi reconhecido a nívelinternacional, tendo o ALEA sido galardoado em2007 com o Prémio “Best Cooperative ProjectAward” que, pela primeira vez, o InternationalStatistical Literacy Program (ISLP) atribuiu.Note-se que o ISLP é um projecto da InternationalAssociation for Statistical Education, a secção deeducação estatística do centenário InternationalStatistical Institute. Curiosamente, a 56ªSessão do International Statistical Institute(reunião científica internacional que decorrede dois em dois anos) teve lugar em 2007em Lisboa. Portugal está assim a afirmar-seinternacionalmente na área da Estatística, quernos aspectos científicos, quer também, atravésdo ALEA, nos aspectos educativos. E obviamente,o progresso científico na área da Estatística sóé sustentável se estiver assente numa educaçãoestatística de qualidade. Daí a SociedadePortuguesa de Estatística (SPE), a que tenho ahonra de presidir, se preocupar não apenas como desenvolvimento científico, mas também como progresso educativo, com iniciativas várias, deque destacamos os Prémios Estatístico Júnior.É, pois, com grande satisfação que registamos ovalioso trabalho desenvolvido pelo ALEA.Mas não contente com tão valiosos contributos,o ALEA oferece-nos agora esta publicaçãocomemorativa do seu 10º aniversário. Ela contém5 dossiers dos muitos mais produzidos pelo ALEA.Os temas versados são: O Inquérito Estatístico(com importantes considerações metodológicase práticas de como organizar e interpretarinquéritos estatísticos), Estatística com R (quenos ensina a utilizar este software livre para oscálculos e gráficos estatísticos), Notas sobre aHistória da Estatística (desde os primórdios àactualidade, não esquecendo a Estatística emPortugal), Representações Gráficas (atraentese facilmente compreensíveis e bem sabemos queuma boa imagem vale mais do que 1000 palavras)e Estatística Descritiva com EXCEL (que põe aoalcance de todos os cálculos básicos e os gráficosestatísticos). Foram temas muito bem escolhidose muito bem desenvolvidos, agora postos emforma de livro, já que não só de internet vive ohomem e é muito mais agradável ler e estudarnum livro do que num ecrã. Parabéns por maisesta utilíssima iniciativa, que, além do tudo omais, tem um grafismo muito atraente.E é aqui uma boa oportunidade para registar oimportante apoio que o INE tem prestado a muitasiniciativas que visam o desenvolvimento científicoe educacional da Estatística em Portugal e de quea SPE tem frequentemente beneficiado. Mais umavez o País conta com o apoio do INE, agora nestapublicação. O seu lançamento vai decorrer nacerimónia de abertura do XVII Congresso Anual daSPE. Que excelente ocasião para sentar à mesmamesa três aliados ao serviço da Estatística emPortugal: a SPE, o INE e o ALEA.Para o leitor apenas um voto que certamente secumprirá, o de que desfrute este livro com prazere proveito.Carlos Braumann(Presidente da Sociedade Portuguesa de Estatística)


pág. 7Notas sobre aHistória daEstatísticaMaria João Ferreira# Isabel Tavarescom a colaboração da Prof.ª Doutora Maria Antónia Amaral Turkman


pág. 9# Notas sobre a história da estatísticaNotas sobre aHistória daEstatísticaMaria João Ferreira# Isabel TavaresSumário:1. Introdução2. As Civilizações Antigas2.1. Introdução2.2. As Civilizações Antigas e os Censos2.2.1. A Grécia Antiga2.2.2. A Antiga Civilização Egípcia2.2.2.1. Os recenseamentos e aEstatística de “massa”2.2.3. Israel e os Números2.2.4. A Máquina de Recensear Chinesa2.2.5. O Japão até a Tokugawa2.2.6. Um Tratado de Recenseamento naÍndia Antiga2.2.7. O Recenseamento em Roma2.2.8. As Estatísticas na Era de Cristo…3. …Até à Idade Moderna3.1. As Estatísticas e os Jogos de Azar3.2. O Início das Probabilidades3.2.1. A curiosidade do “passe-dix”3.3. O Desenvolvimento da Estatística4. A Estatística nos Dias de Hoje4.1. Introdução4.2. A Estatística no Estudo daHereditariedade Humana4.2.1 - Lei da Regressão para amediocridade4.3. De Karl Pearson a Ronald Fisher4.4. Andrei Nicolaevitch Kolmogorov4.5. O Século XX4.5.1. Berço das Aplicações daEstatística4.5.2. Análise Exploratória de Dados4.6. Tendências para o Futuro5. A Estatística em Portugal5.1. Portugal e a Estatística: os Númerose a História5.2. Os Recenseamentos em Portugal5.3. O Ensino da Estatística em Portugal5.3.1. Estatística no Secundário5.4. O INE e o Sistema Estatístico Nacional6. Ver Também


um mundo para conhecer os números #pág. 101. IntroduçãoEste dossiê inclui os factos considerados maisimportantes da história da Estatística e dasEstatísticas, desde as Antigas Civilizações atéaos nossos dias. Alguns cientistas tambémsão aqui mencionados, não todos, mas simaqueles que deram um maior contributo parao desenvolvimento da Estatística. No últimocapítulo é apresentado um pouco da evolução daEstatística no nosso país. No final, a rubrica “VerTambém” contém ligações para outros estudosde interesse relacionados com as temáticas emcausa (publicações e páginas na internet).2. As CivilizaçõesAntigas2.1 IntroduçãoDesde o começo da civilização que a Estatísticatem estado sempre presente: nos primórdiosmais oculta e na actualidade mais visível.Contar, enumerar e recensear sempre foiuma preocupação permanente em todas asculturas. Em civilizações como a antiga Grécia,Roma, Egipto, Israel, Índia, Japão, China, etc,o Estado tinha necessidade de conhecer a suapopulação, tanto a nível económico como a nívelsocial. Os Imperadores da altura ordenavamos recenseamentos da população com vistaà cobrança de impostos e ao recrutamentomilitar, pois as guerras eram constantes e havianecessidade de conseguir jovens rapazes paraserem treinados fisicamente para a guerra.Nas civilizações antigas quem não respondesseaos Censos era punido com a morte.


pág. 11# Notas sobre a história da estatísticaEstes recenseamentos não podem ser comparadoscom os da actualidade, pois não assentavamem princípios estatísticos credíveis ou não eramfeitos exaustivamente. Pode dizer-se contudo queo princípio da Estatística começou com estassociedades, não como hoje é conhecida entre nósmas de uma maneira mais simples e rudimentar.2.2 As Civilizações Antigas e os Censos2.2.1 A Grécia Antiga (2100 a.C. a 146 a.C.)cada nascimento se oferecia à sacerdotisa deAtenas uma medida de frumento (uma espécie detrigo candial), e em cada falecimento uma medidade cevada. Além disso, todos os jovens quandoatingiam a idade de 18 anos eram inscritos naqualidade de cidadãos e eram colocados na listade homens em estado de apresentar armas.Até esta idade, somente estudavam aritmética,literatura, música, escrita e educação física.As jovens não recebiam qualquer educaçãoformal, mas aprendiam os ofícios domésticos eos trabalhos manuais com as mães. É atravésdestas descrições feitas por historiadoresque conseguimos aperceber-nos dos primeirosrecenseamentos efectuados nas antigascivilizações. Também é sabido que os estrangeiroseram recenseados, através do seu tributoparticular que era cobrado por cabeça.É curioso constatar que no quadro descritivo deAtenas, já Aristóteles descrevia não só a situaçãode uma cidade ou de um país por si só, do pontode vista do governo, da justiça, das ciências e dasartes, dos museus e dos costumes, mas tambémpor comparação com outros Estados. Destemodo, podemos observar nesta parte da obra deAristóteles, o princípio da Estatística Descritiva.Estatística Descritiva:A Grécia Antiga abrangia um vasto território.Era formada por um conjunto de cidades-estado,politicamente autónomas, possuindo em comumos costumes e a língua. No século V a.C. entreestas cidades sobressaía Atenas. A sua culturaera a mais brilhante de todas as cidades gregas,em particular nas artes, no teatro, na históriae na filosofia. Também possuía o governo maisdemocrático de todas as cidades gregas. Além deAtenas destacavam-se as cidades de Esparta eCorinto.Como se refere em Bedarida et al, 1987, Atenasera a cidade grega que melhor conhecia a suapopulação. Aristóteles dá-nos a conhecer que emEstudo descritivo de dados de uma amostra(ou de uma população) em que se resume todaa informação recolhida em gráficos e tabelas,calculando algumas das suas características, porexemplo a moda, a média, frequências, etc.2.2.2. A Antiga Civilização Egípcia (5000 a 30 a.C.)A cultura egípcia é uma das mais antigas e maisduradouras, com uma duração de quase cincomilénios. Beneficiou de uma abundância de boasterras, de recursos minerais próximos e de umaboa posição estratégica.


um mundo para conhecer os números #pág. 12a indicação do nome do pai e da mãe de cadaocupante. No tempo de Amasis II (Século VI a.C.)todos os indivíduos tinham de declarar todos osanos ao governo da sua província (incorrendona pena de morte, caso não o fizessem) a suaprofissão e suas fontes de rendimento.Recenseamento:Estudo de um universo de pessoas, instituiçõesou objectos físicos com o objectivo de obterconhecimentos quantitativos acerca dascaracterísticas importantes dessa população.LocalizaçãoO EGIPTO antigo ocupava quase a mesma áreaque o Egipto actual ocupa hoje. A sua civilização,muito perto do Rio Nilo, era cercada quasecompletamente pelo deserto.2.2.2.1 Os recenseamentos e a estatística de“massa”Se o cálculo remonta às mais antigas comunidadeshumanas, a estatística de “massa” teveinício com os grandes Impérios da Antiguidade,preocupados em administrar os seus bens, osseus homens, as suas armas e as suas imensasobras públicas. Esta enumeração presume umaorganização complexa e uma forte estruturaadministrativa. Mas os recenseamentos já erampraticados por uma das mais antigas civilizaçõesconhecidas: o Egipto, provocado em parte porfalta de mão de obra ligada à construção daspirâmides. Um registo de Pierre de Palermedatado de 2900 A.C. fez, de facto, alusão aorecenseamento de pessoas. No período de2700 a 2500 A.C., já existiam recenseamentosbianuais, depois anuais, sobre os diferentesbens que tinham como destino a fiscalização. Porvolta de 1900 A. C., são estabelecidas as listasdos familiares dos soldados; estas informaçõesdestinavam-se ao uso fiscal e militar. Em meadosde 1200 A.C. apareceram as listas das casas,dos chefes de família e seus parentes , comOs antigos egípcios acreditavam que poderiamcomunicar com os deuses através do rei. O reitinha poder absoluto, dirigia o governo, o comércioe a política externa, aplicava as leis e conduzia oexército.Todos os trabalhadores pagavam impostos,calculados a partir de uma percentagem desua produção. Além disso, cada casa tinha quedisponibilizar um trabalhador por várias semanasem cada ano para a realização de obras públicas.As pirâmides provavelmente foram construídaspor trabalhadores que contribuíam com osseus serviços anuais. De facto, o rigor da suaconstrução e as suas dimensões implicavam umaorganização de trabalho humano nunca antesdemonstrada em nenhuma outra civilização.Ora, a administração deste Estado, constituídaessencialmente pelos numerosos «escribas»,só era possível graças a um grande número defuncionários muito eficazes e . Estes usavamcaracteres hieroglíficos que apareceram na Feníciano ano 3000 a.C., escritos a partir de imagens eque vigoraram até ao fim do Império Egípcio.


pág. 13# Notas sobre a história da estatística2.2.3. Israel e os Números (1700 a.C. a 70 d.C)As pessoas confundem os termos “Hebreu”,“Judeu” e “Israelita”. Os Hebreus são os primeirosjudeus, os primeiros habitantes da Terra de Israel,aqueles que usaram pela primeira vez a línguahebraica. O termo tem um sentido mais étnicoe tribal do que religioso. Quanto a israelitas ejudeus, fazia-se uma distinção no período entreos séculos X e VIII a.C., quando dez tribos seestabeleceram no norte da Terra Santa (Reino deIsrael) e duas no sul (Reino de Judá). Hoje, porém,os dois termos são sinónimos.Em “Pour une Histoire de la Statistique” (Bedaridaet al, 1987), refere-se que a atitude dos Hebreusrelativamente aos censos contribuiu, largamente, paramodelar a opinião ocidental durante quase 2000 anos.O legado cultural hebreu foi importante para aformação de vários traços da cultura ocidental,pois a produção cultural hebraica está ligada coma sua vida religiosa.Dos hebreus guardamos também sua cultura ea crença em um Deus único, Criador de todo oUniverso e de todas as coisas. Boa parte da Bíbliafoi escrita por eles.Deste modo, a história do povo hebreu nãopode ser dissociada da história da sua religião,pois o que sabemos sobre o povo Hebreudeve-se sobretudo às informações da Bíblia,principalmente do Antigo testamento. Assimsendo, a referida obra chama a atenção para umfacto curioso a observar, que é a atitude ambígua,hesitante e contraditória que reporta a Bíblia.Na maior parte das vezes , os recenseamentoseram tidos como sacrílegos porque se declaravamcontra o segredo da vida e da criação, do qualDeus era o único detentor. É claro que aqui comonoutros lugares, a população receava ver-serecenseada para fins fiscais e militares, e parecialhes,por outro lado, que fazer inventários da suariqueza, tanto de homens como de bens, podiatrazer desgraça.Por todas estas razões, os recenseamentos nãoparecem ser admissíveis senão quando ordenadospelo próprio Deus. E além disso, são por vezesatribuídos a Satanás, o que parece ser o únicomeio para explicar os males que lhes aconteciam,como se as vidas recenseadas não pudessem serresgatadas e para sempre ficassem condenadas.Segundo os hebreus antigos, os recenseamentosnão parecem ser admissíveis senão quandoordenados pelo próprio Deus. E além disso, sãopor vezes atribuídos a Satanás, o que pareceser o único meio para explicar os males quelhes aconteciam, como se as vidas recenseadasnão pudessem ser resgatadas e para sempreficassem condenadas.


um mundo para conhecer os números #pág. 14O recenseamento ordenado por Deus em Sinaié relatado em duas passagens, no livro deMoisés ao qual foi dado o nome de «Números».Iavé impôs a Moisés no deserto de Sinai: «fazeio recenseamento geral de toda a comunidadedos filhos de Israel, clã por clã, família porfamília» (Números, 1, 2). No livro do Êxodo(30, 12-15), está escrito que, quando Moisésfez o recenseamento daqueles que deviamser numerados, «cada um deveria pagar aIavé para redenção da sua vida, para que esserecenseamento não lhe trouxesse calamidades».Iavé exigia homenagens e oferendas exclusivas emsua honra, e, em troca, seria o Todo-Poderosoprotector do povo hebreu.2.2.4. A máquina de recensear ChinesaLocalizaçãoA CHINA localiza-se no extremo sul do continenteasiático. O País é cortado por grandes rios: rioAmarelo e Azul, que com outros rios, Branco eVermelho, formam longos vales que fertilizam oscampos do coração da China.No Extremo Oriente também se desenvolveramcivilizações antigas perfeitamente acostumadascom a prática dos recenseamentos.Os registos históricos mais antigos dizem-nosque o primeiro recenseamento foi realizado no ano2238 a.C., pelo primeiro imperador da China, Yuou Yao. O regime chinês desejava conhecer comexactidão o número de habitantes, a fim de poderrepartir o território, de distribuir as terras,estabelecer os rolos de pergaminho de impostos ede proceder ao recrutamento militar.Foram vários os recenseamentos efectuados naChina:• Os recenseamentos ligados a umsistema de recrutamento (época dadinastia dos Han, 200 a.C. – 200 d. C.).O Estado, como meio de centralização,procura avaliar o número de soldadosdisponíveis para as guerras e para otrabalho público.• Os recenseamentos ligados aosistema de distribuição das terras(do terceiro reino à quinta dinastia:221-959 d.C.). Para encorajar a produçãoagrícola e restringir os grandesdomínios o soberano redistribui,com efeito, as terras em troca deserviços e de pagamentos em prazosfixos e surge a necessidade de conhecera dimensão e a composição das famílias.• De 960 a 1368 d.C. os recenseamentostêm como objectivo principal a fiscalização.A noção de família ainda prevalece.• Na época de Ming (1368-1844 d.C.),funciona o que M. Cartier chamou de uma«admirável máquina» de recenseamento.Até ao fim da dinastia, procede-se àredacção dos «registos de cartas» dapopulação. Estes registos continham onome, a profissão, o sexo e a idade.


pág. 15# Notas sobre a história da estatística• A partir do 1644 d.C.(Ching) houveum período de registos para a policia,destinados a vigiar a deslocação doshabitantes e a despistar os indivíduospouco recomendáveis. Em 1741 sãomodificados os métodos de estimação.Em 1975, vigorou o sistema pao-chia,que exigia a aposição em todas as casasde um cartaz indicando o número deocupantes, o sexo, a idade, a profissãoe o montante dos seus tributos. Estesistema permitiu obter sériesdemográficas desde 1750 a 1850.Em suma, durante um longo período, o imensoimpério Chinês esforçou-se por se recensearapesar das dificuldades com uma “paciência”comparável ao rigor científico dos Estadosmodernos.2.2.5. O Japão até a TokugawaLocalizaçãoO JAPÃO localiza-se no extremo leste da Ásiasendo formado por quatro ilhas principais e 3mil ilhas mais pequenas. O país está exposto aterramotos e erupções vulcânicas. É a segundapotência económica mundial.O Japão parece ter conhecido os recenseamentosnuma época bem remota da história, mas osresultados desses recenseamentos não foramdivulgados. O primeiro surgiu no ano de 86 a.C.,no tempo do imperador Soujin. As actividadesda população, nesse tempo, eram registadasde modo a permitir examinar a sua evolução. Ameio do século VII a.C a reforma de Taika quevisava submeter toda a população a um tributocoincide com a redistribuição das terras, o quenecessitava do estabelecimento de um cadastroe de registos de direitos civis revistos todosos 6 anos. As famílias eram recenseadas pelacasa da câmara e arquivadas em função dosseus recursos, com distinção do sexo e do grupoetário. Este recenseamento não tinha somentecomo objectivo a tributação de impostos, mastambém facilitar o recrutamento militar e otrabalho forçado.


um mundo para conhecer os números #pág. 16Segundo este livro, no tempo dos Tokugawa(séculos XVII-XIX), no fim do século XVII (1665),efectuaram-se recenseamentos locais. Em 1721,procedeu-se ao primeiro recenseamento geral,operação que deveria ser repetida de 6 em 6anos. Neste recenseamento eram excluídascertas categorias da população, assim como osnobres, os habitantes mais pobres ou as criançascom menos de 15 anos. Como é evidente, esteregisto comportava um certo número de lacunas.Daí se compreende a grande ansiedade queos Japoneses tinham pelo desenvolvimento dademografia.2.2.6. Um tratado de recenseamento na ÍndiaAntigaLocalizaçãoA INDIA é um país situado a sul da Ásia, comforma de losango. É limitado a Norte pela China,Nepal e Butão; a Este por Myanmar; a Noroestepelo Paquistão; e a Sudeste, Sul e Sudoeste pelooceano Índico.Um outro exemplo, muito conhecido, de interessedemonstrado pelos impérios asiáticos na enumeraçãoda sua população é o tratado redigidopelo hindu Kautilya, ministro do rei Candragupta(313-289 a.C.), fundador da dinastia e do primeiroimpério indiano os Maurya (313-226 a.C.), noséculo IV antes da nossa era. Este tratado eraextremamente original e avançado para a época.Sendo de ciência política é também um tratado deeconomia: o seu nome correcto era Arthasástra,ou seja tratado ou ciência (sástra) do progresso(artha).Nesta obra, que descreve o estado centralizadore expansionista que era o império Maurya, Kautilya,(mais tarde Machiaval), reflecte sobre a arte degovernar e indica ao soberano como aumentarincessantemente o seu reino. Exactamente comoKautilya, o Estado deverá dirigir e controlar tudo.Mestre absoluto da economia, ele governa como auxílio de um aparelho administrativo muitoextenso, desempenhado pelo exército e pela políciasecreta. Para se realizar um “rol planificador”, oEstado, segundo Kautilya, terá de recorrer aosrecenseamentos, à estatística e ao cadastro. “Tudoo que for feito terá que ser conhecido: do efectivoda população até o número de elefantes, passandopelas matérias-primas, os produtos fabricados, ospreços e os salários”.Arthasástra: O Tratado do ProgressoEm Arthasástra, Kautilya descreve com muitaprecisão as tarefas dos revisores nos diferentesescalões territoriais. Em cada estado o revisordeve dividir o país em quatro províncias, recenseare transferir para a escrita o número de aldeias eordená-las conforme a sua riqueza (ricas, médias epobres), de modo a melhor contabilizar o trabalho eos produtos que, em grande parte, eram entreguessob a forma de impostos. Por outro lado, com estaorientação pretendia-se, também, fazer um melhorrecrutamento de soldados.


pág. 17# Notas sobre a história da estatísticaO revisor provincial assegurava a escrituração dosregistos, nomeadamente das casas e das pessoasque não pagavam os impostos. Por outro lado,estavam também registados o nome das pessoaspertencentes a cada uma das quatro classes(varsa), o número de feitores, de pastores, decomerciantes, de artesãos, de trabalhadoreslivres ou escravos, o número de animais, e ainda aquantidade de dinheiro, de trabalho, de direitos ecoimas. O revisor registava igualmente, em cadafamília, o número de mulheres e de homens, decrianças, de pessoas idosas, e os seus ofícios,os seus modos de vida, o montante dos seusrecursos e das suas despesas.Por sua vez, o governador geral do país mantinhao registo do número de habitantes, o sexo, acasta, o nome de família e o ofício, e também odomicílio, os recursos e as despesas.Assim informado e apetrechado, o Estado, segundoKautilya, poderia, mais eficazmente executar o seurol de previsões e de racionalizações.2.2.7. O recenseamento em Roma(750 a.C. a 476 d.C.)LocalizaçãoA ITÁLIA estende-se no centro do mar Mediterrâneo,tendo a Sul e a Oeste duas grandes ilhas:Sicília e Sardehna. Cerca de 80% do território émontanhoso ou colinoso, sendo a maior extensãode terra plana a da planície Padana, atravessadapelo Rio Pó.A cidade de Roma foi fortemente influenciada,em matéria de recenseamentos, no que respeitaa conceitos e práticas, pelo pensamentoOriental. No fim do século VI antes de Cristo, osrecenseamentos eram feitos de 5 em 5 anos,até ao ano 68 a.C. e, depois de uma interrupçãode uma vintena de anos, foram retomados porAugusto sob uma forma decenal.Segundo a tradição, o primeiro recenseamentoautorizava a repartição entre as tarefas civis e asmilitares não por cabeça, mas segundo a fortuna.Os cidadãos romanos eram obrigados a declararas suas fortunas, o seu nome, o dos seus pais,a idade, o nome da sua esposa assim como o dosseus filhos, a tribo onde residiam e o número deescravos. Caso não fornecessem algumas destasinformações poderiam ficar sem os seus bens ousem os direitos de cidadão.Os censos permitiam não só classificar oscidadãos segundo os seus rendimentos, mastambém cobrar impostos sobre os seusrendimentos e determinar a condição social quelhes permitisse ter funções a nível político emilitar na cidade.


pág. 18um mundo para conhecer os números #2.2.8. As Estatísticas na Era de Cristo…A data do nascimento de Cristo é hoje bastantecontroversa, pois o governador romano da Síriaque incluía a Judeia e a Galileia, por ordem doSenado, teve de fazer um recenseamento para oqual utilizou uma técnica, talvez a mais absurdade todas (Collected Works: obras de J.Tiago deOliveira, Volume II,1995). A Bíblia conta que SãoJosé e a virgem Maria saíram de Nazareth, naGalileia, para Belém, na Judeia, para responder aoCenso ordenado por César Augusto (as pessoastinham que ser entrevistadas no local de suaorigem). Foi enquanto estavam na cidade queJesus nasceu.Em Portugal está escrito em Diário da Repúblicae portanto constitui lei, que os jogos de azar são,pura e simplesmente, jogos de Acaso. O que nãosignifica, portanto, jogos de má sorte.3.2. O início das Probabilidades3. …Até à Idade Moderna3.1. As Estatísticas e os Jogos de AzarOs jogos sempre tiveram grande interessee foram largamente praticados em todas asCivilizações. Eram de tal maneira importantes que,no Olimpo grego, havia uma Deusa “encarregada”das artes do Acaso, que era a Deusa Thykhe,parente da Deusa da fortuna do Panteão romano,de todos conhecida pela chamada roda da fortuna,que era o seu símbolo (Oliveira, 1995). O termoAcaso, ou mais propriamente o termo Azar nãosignifica aqui má sorte ou má fortuna; a palavraazar vem do árabe e significa exactamente Acaso.O termo “azar”, usado na expressão “jogos deazar” não significa má sorte ou má fortuna massimplesmente Acaso.Como refere J. Tiago de Oliveira, em Jerusalémainda existe um traçado no chão da prisão emque esteve Cristo, formando um quadrado divididoem nove partes iguais, relativo ao velho jogo dogalo. Do mesmo modo os jogos estiveram semprepresentes em quase todas as civilizações, como omostram vários documentos do tipo arqueológicosou históricos. Curiosamente, os jogos nuncaforam objecto de estudo até à Idade Média.A abordagem matemática do acaso, do azar e dorisco só se iniciou há pouco mais de 500 anos.A disciplina que assim foi constituída, a Teoriadas Probabilidades, nasceu das tentativas dequantificação dos riscos dos seguros e de avaliaras possibilidades de se ganhar em jogos de azar.Com o término da Idade Média, o crescimentodos centros urbanos levou ao aparecimento doseguro de vida. Foi em torno desses assuntosque surgiram os primeiros estudos matemáticossobre seguros. Mas, só passados quase 250anos, com Daniel Bernoulli, é que a matemáticados seguros atingiu um estado suficientementemaduro. Ele retomou um problema clássico


pág. 19# Notas sobre a história da estatísticade, a partir de um número determinado derecém nascidos, calcular o número esperado desobreviventes após n anos. Bernoulli deu tambémos primeiros passos em direcção a novos tiposde seguros calculando a mortalidade causada pelavaríola em pessoas com uma dada idade.Girolano Cardano (1501/1576) foium matemático notável, vigaristanotável, médico notável, probabilistanotável, algebrista notável e escreveuum pequeno manual de jogos de azar“Liber de Ludo Aleae”, que é, talvezo primeiro sobre probabilidades,que analisa jogos e possibilidades.Cardano foi o primeiro a introduzirtécnicas combinatórias para calcular aquantidade de possibilidades favoráveisnum evento aleatório. Limitou-se aresolver alguns problemas concretos,isto é, problemas com dados estritamentenuméricos, mas nuncachegou a produzir nenhum teorema.Podemos considerar Pascal (1623/1662) e Fermat (1601/1665) comosendo os fundadores do Cálculo dasProbabilidades.Blaise Pascal nasceu em 1623 emClermont. Filósofo, matemático, físico,teólogo e escritor deu uma grandecontribuição para o desenvolvimentodo estudodas probabilidades, descobrindo novaspropriedades do triângulo aritmético,conhecido entre nós como o Triângulode Pascal.Técnicas Combinatórias:Técnicas de contagem que nos permitem saberquantos são os resultados possíveis de umaexperiência. Não interessa saber quais são osresultados (enumeração directa), mas sim qual onúmero de resultados.O primeiro grande problema das Probabilidades,que foi proposto pelo Cavaleiro de Méré a Pascal,surgiu na corte dos reis de França onde anobreza se divertia, entre outras actividades,a jogar. Tratava-se da procura da compreensãode um determinado jogo com três dados de queMéré não conseguia entender os resultadosempiricamente observados. Pascal e Fermat,separadamente, encontraram a solução doproblema, mas a solução de Pascal era muitoespecífica enquanto que a de Fermat constituiutalvez o primeiro método geral das probabilidades.Naquele problema surgiam duas situações quese punham com a mesma probabilidade mas quediferiam na verificação empírica da análise defrequência. Começa aqui a surgir a ideia da Lei dosGrandes Números e a identificação “automática”entre probabilidade e frequência num elevadonúmero de provas.Pierre de Fermat, nasceu em1601 em Beaumont. Conhecidocomo o “Príncipe dos Amadores emMatemática”, estudou matemáticapor vocação, tendo sido, comoadvogado, conselheiro do Parlamentode Toulouse desde 1631. Éconsiderado o criador da teoria dosnúmeros e precursor da geometriaanalítica, cálculo das probabilidades ecálculo diferencial. O seu contributopara o cálculo das probabilidadesderivou da correspondênciaestabelecida com o seu colegaPascal para tentarem resolver osproblemas expostos pelo Cavaleirode Méré.


pág. 20um mundo para conhecer os números #Inicia-se então um período, que termina noprincípio do século xx, em que a Estatística émarginalizada e em que o que se desenvolve é oCálculo das Probabilidades.A LEI DOS GRANDES NÚMEROS, em linguagemsimplista diz-nos que a frequência de umacontecimento, numa longa série de experiências,se aproxima, cada vez mais, da probabilidadedesse acontecimento, probabilidade que assimsurge como uma frequência –limite. Ou seja, aLei dos Grandes Números exprime-se pela ideiade que se a probabilidade de uma face de umdado é 1/6, em 100 experiências sucessivasindependentes cerca de 100/6 vezes essa faceaparecerá, em 1000 experiências sucessivasindependentes cerca de 1000/6 vezes essa faceaparecerá, etc.3.2.1 A curiosidade do “passe-dix”“A incerteza tem sido, desde há longos tempos,uma preocupação do homem. E foi a arte lúdicados jogos que, através das probabilidades,construiu os instrumentos e as regras quepermitem à Estatística medir a intensidade deincerteza (ou de realização) dos fenómenos.”(Oliveira, 1995)Quadro 1Soma 11 Soma 126+4+1 6+5+16+3+2 6+4+25+5+1 6+3+35+4+2 5+5+25+3+3 5+4+3e portanto em número igual (6) o que devia darfrequência igual ou muito aproximada. Todavia éfácil ver que enquanto a forma (6,4,1) se podedar de 6 modos (pense-se, por exemplo, que osdados são de cores diferentes e que 6,4,1 podesair com 6 no dado branco, 4 no azul, 1 no verdeou com 6 no azul, 4 no verde e 1 no branco, etc.,ao todo de 6 maneiras), já o mesmo não sucedepara a forma (4,4,3) que só pode acontecer dos 3modos em que o “3” sai com um dos três dadose os “4” nos outros dois. Feitas agora as contascom cuidado (o número total de modos está entreparêntesis, a seguir a cada forma) vê-se que 12só pode acontecer de 25 modos enquanto que 11pode ser observado de 27 maneiras diferentes.Méré tinha, pois, verificado correctamente que nojogo de “passe–dix” a soma 11 era mais frequente(provável) do que a soma 12, em contradição como que à primeira vista parecia dever acontecer.O “Passe - Dix”Na corte de França era comum o jogo do “passe–dix”em que o jogador atira 3 dados simultaneamente eganha se a soma dos pontos passa de 10, perdendose a soma for 9 ou inferior. Um inteligente e cultojogador inveterado, o Cavaleiro de Méré, ao tempo deLuís XIV, tinha observado que saía mais vezes a soma11 do que a soma 12, facto que lhe parecia estranhopois as formas que lhe levavam às somas 11 e 12são as seguintes:Quadro 2Soma 11 Soma 126+4+1(6)6+3+2(6)5+5+1(3)5+4+2(6)5+3+3(3)4+4+3(3)6+5+1(6)6+4+2(6)6+3+3(3)5+5+2(3)5+4+3(6)4+4+4(1)(27) (25)


pág. 21# Notas sobre a história da estatística3.3 O desenvolvimento da EstatísticaÉ a partir do século XVIII que a Estatística começaa caminhar para a ciência que conhecemos hojeem dia.Nessa altura apareceram duas Escolas, umana Alemanha e outra em Inglaterra. A EscolaDescritiva Alemã, assim como ficou conhecida,afastou-se das ideias que fundamentaram aEstatística Moderna. O representante maisconhecido da Escola Alemã foi Gottfried Achenwall(1719-1772), o qual é considerado por algunsautores o “pai” da palavra Estatística. Mas, naopinião de Sir Maurice Kendall (Pearson e Kendall,1820), esta palavra já tinha sido utilizada emItália, num trabalho do historiador Girolamo Ghilini,em 1589 que se refere a um registo da “civile,politica, statistica e militare scienza”. SegundoKendall, a palavra utilizada na Escola Alemãdenotava apenas o método utilizado nos estudosdedicados à descrição dos estados políticos e,se alguma informação numérica aparecia nessesregistos era somente por acaso ou conveniência.A Escola Inglesa, “Escola de AritméticosPolíticos”, preocupava-se com o estudo numéricodos fenómenos sociais e políticos.A Escola de Aritméticos Políticos preocupava-secom o estudo numérico dos fenómenos sociais epolíticos, enquanto que a Escola Alemã somentefazia a descrição dos estados.Da Escola Inglesa surgiram dois Estatísticosimportantes para o desenvolvimento daEstatística Moderna, sendo eles, John Graunt(1620-1674) e William Petty (1623-1687).O trabalho desenvolvido por John Graunt (Senetae Heyde, 2001) constituiu a base da EstatísticaModerna. Graunt estudou a mortalidade da cidadede Londres e as incidências das causas naturais,sociais e políticas nesse fenómeno. Através dasTábuas de Mortalidade realizadas na altura dapeste na cidade de Londres, Graunt fez uma análiseexaustiva do número de pessoas que morriam devárias doenças e estimou o número de nascimentosde homens e mulheres. Foi a primeira pessoa afazer observações entre sexos e mostrou quenasciam mais homens que mulheres e que por cada100 pessoas nascidas, 36 morriam aos 6 anos e 7sobreviviam até aos 70 anos.John Graunt nasceu em 1620 emLondres. Homem bem conceituadoe muito estudioso, ocupou cargosmuito importantes na cidade deLondres. Herdou a loja do seu pai econseguiu por o negócio em grandeevolução. Foi Capitão da banda militare, nos últimos anos, Major. Um dosfundadores da Royal Society, viveunuma época marcada pelo nascimentoda ciência moderna. Em 1662, Grauntpublicou a sua grande obra Naturaland Political Observations on theLondon Bills of Mortality o qual foi oseu primeiro tratamento estatísticode dados demográficos e a tentativade aplicar a teoria a problemas reais.


um mundo para conhecer os números #pág. 22Graunt publicou a sua obra Natural and PoliticalObservation Made Upon The Bills of Mortalityem 1662, a qual deu um grande impulso àanálise quantitativa dos fenómenos sociais e aodesenvolvimento das Estatísticas Demográficas.O trabalho realizado por John Graunt chamoua atenção de Carlos III (Rei de Inglaterra), quepropôs a Graunt ser sócio fundador da RoyalSociety.William Petty trabalhou em conjunto com JohnGraunt durante três anos e, também ele pode serconsiderado como um impulsionador da EstatísticaModerna.John Graunt nasceu em 1620 em Londres.Homem bem conceituado e muito estudioso,ocupou cargos muito importantes na cidade deLondres. Herdou a loja do seu pai e conseguiupor o negócio em grande evolução. Foi Capitão dabanda militar e nos últimos anos Major. Um dosfundadores da Royal Society, viveu numa épocamarcada pelo nascimento da ciência moderna. Em1662, Graunt publicou a sua grande obra Naturaland Political Observations on the London Bills ofMortality o qual foi o seu primeiro tratamentoestatístico de dados demográficos e a tentativade aplicar a teoria a problemas reais.Outro dos estudiosos foi Abraham DeMoivre (1667-1754) que abriu caminho aodesenvolvimento da geometria analítica e da teoriadas probabilidades; publicou em 1718 o célebreDoctrine of Chances sobre a teoria do acaso, ondeexpôs a definição de independência estatísticajunto com muitos problemas relacionados comdados e outros jogos, por exemplo a probabilidadede tirar bolas de cores diferentes de uma urna. Éatribuído a De Moivre o princípio segundo o quala probabilidade de um acontecimento composto éo produto das probabilidades das componentes,embora essa ideia já tivesse aparecido emtrabalhos anteriores. Também ele se interessoupelas estatísticas demográficas e fundou a teoriadas pensões.Inferência EstatísticaFase fundamental da análise estatística, durantea qual, conhecidas certas propriedades (obtidasa partir de uma análise descritiva da amostra),expressas por meio de proposições, se imaginamproposições mais gerais, que exprimam aexistência de leis (na população).Mas as três grandes figuras da Teoria dasProbabilidades foram, na verdade, Jacob Bernoulli,Thomas Bayes e Pierre Simon Laplace.Antes de aparecer a Empresa Geral de Registosem Inglaterra, Petty já tinha proposto umaempresa de Estatística Central. Esta empresanão tinha só como objectivo o registo dosbaptismos, casamentos e mortes, mas tambémas características das casas, o tamanho dasfamílias, o sexo, a idade, a forma de ocupaçãoe nível de estudos de cada membro da família.Propôs a elaboração de Tábuas de Sobrevivênciabaseadas em taxas de mortalidade por gruposetários. A ligação das probabilidades com osconhecimentos estatísticos veio dar uma novadimensão à Estatística. Considera-se umanova fase, em que se começa a fazer InferênciaEstatística. Neste período alguns estudiososevidenciam-se. É o caso de Christian Huygens(1629-1695) que introduz a noção de valor médioou esperança matemática, em 1654.Jacob Bernoulli (1654-1705) em 1713, de quemé editada “posmortem”, a “Ars Conjectandi”,mostra, ao mesmo tempo que Leibniz, umaconsciência do que vai ser ou deve ser a ciênciaEstatística. Uma das grandes contribuições paraa Estatística, foi a distribuição de Bernoulli, queconsiste em dizer que cada tentativa tem duaspossibilidades de ocorrência chamadas: sucessoe insucesso (ex.: no lançamento de uma moeda ousai cara ou coroa). Esta distribuição foi a base dadistribuição binomial.


pág. 23# Notas sobre a história da estatísticaTodos estes contributos foram extremamenteimportantes para a Estatística porquecomeçaram a levantar os grandes problemasda Teoria das Probabilidades. Problemas que sóforam resolvidos de maneira completa, metódica esistemática em 1933 por Kolmogorov.Prova de Bernoulli:1. Considera-se à partida um número fixo,n, de observações, a que é usual chamarprovas;2. As observações são independentesumas das outras;3. Em cada observação pode-se obter umde dois resultados possíveis a quechamamos sucesso ou insucesso;4. A probabilidade de sucesso, p, éconstante de observação para observação.Posteriormente surge Bayes (1701-1761)que, segundo Tiago de Oliveira, foi o primeiroa lançar claramente o problema fundamentalda Estatística: de que maneira, a partir dasobservações, é possível saber alguma coisarelativamente a um certo universo. Em 1762Bayes demonstrou o método que ficou conhecidopela Regra de Bayes, a qual consiste na partiçãodo espaço amostral em diversos subconjuntoscujas probabilidades são conhecidas e érepresentada pela seguinte fórmula:As ideias de Thomas Bayes não foram muitobem aceites pelos cientistas daquela épocapois as equações resultantes da EstatísticaBayesiana eram por vezes bastante difíceis deresolver. Já no século XX, a partir da décadade 90, com o crescente desenvolvimento doscomputadores, essas ideias foram recuperadase são frequentemente aplicadas em estudosestatísticos.Entretanto, surge uma outra figura de granderelevo, Pierre Simon de Laplace (1749-1827),que publicou em 1812 o tratado “Teoria Analíticadas Probabilidades” (Théorie Analytique desProbabilités), constituindo um grande marco daTeoria das Probabilidades. Neste tratado Laplacedefiniu probabilidade como o número de vezesem que um dado acontecimento pode ocorrer,dividido pelo número total dos casos que podemacontecer, considerando-se que estes têmpossibilidades iguais de acontecer.Pierre Simon de Laplace, nasceuem 1749 na Normandia (França).Astrónomo e matemático francês,estudou em Beumont-en-Auge, ondecomeçou a despertar o seu interessepela matemática. O seu grandecontributo para o desenvolvimentoda Estatística deve-se à publicaçãodo tratado “Teoria Analítica dasProbabilidades” onde descreveuum cálculo útil para assegurar um“grau de credibilidade racional” aproposições sobre acontecimentosaleatórios.PP B / A P Ai iA / B iPB / A P Aj j“…É notável que tal ciência, que começou nosestudos sobre jogos de azar, tenha alcançado osmais altos níveis do conhecimento humano.”Laplace


um mundo para conhecer os números #pág. 24Outro matemático que deu um grande contributopara o desenvolvimento da Estatística foi o“Príncipe dos Matemáticos”, Carl Friedrich Gauss(1777-1855). Forneceu o ponto de partida paraalgumas das principais áreas de pesquisa damatemática moderna; formulou a chamada leide Gauss, que trata da distribuição de certosvalores ao longo de uma curva em forma de sino(contribuição extremamente valiosa no campo daEstatística).Tiago de Oliveira (1995), refere que a Estatísticaestá por vezes reduzida, como sucede nos paísesmenos desenvolvidos, a uma contabilidade dosfactos, a uma listagem de acontecimentos, comopor exemplo, sobre o número de indivíduos quemorreram com a doença A ou B, sem a análise dascausas desses factos.O primeiro a abordar o problema com bastanteclareza e a defender a criação de um serviçoautónomo de Estatística, foi o belga AdolphQuételet (1796-1874) que em 1846 propôs aorganização de censos e preparou a organizaçãodo grande serviço belga de Estatística. Quételetgeneralizou o uso da distribuição normal alémda sua aplicação para a análise de erros e, emparticular, a aplicação da distribuição normalpara o estudo das características humanas,tais como altura e peso. Quételet melhorou osmétodos para a recolha de dados e trabalhou naanálise estatística de dados que envolvem crime,mortalidade, geofísica e astronomia, organizoua primeira conferência de estatística em 1853e escreveu “Sur l’homme et le développementde ses facultés, essai d’une physique sociale”,publicado nesse ano.“…todas as ciências de observação, no princípio,passaram pelas mesmas fases; foram artes,porque elas se limitavam a agrupar dumamaneira mais ou menos feliz colecções de factospertencendo a uma mesma ordem de coisas; efoi pela comparação e estudo destes factos queforam elevadas de seguida, à posição em que asvemos hoje. Porquê mostrar-se mais exigentepara com a Estatística?”Adolph QuételetExemplo de umaCurva de Gauss0.40.30.20.1f( )122-( - )220 1 2 3 4 5 6- +A distribuição normal é uma aproximação àdistribuição de valores de uma característica. Aforma exacta da distribuição depende da média edo desvio padrão da distribuição.Duas figuras igualmente importantes para odesenvolvimento da estatística foram: SiméonDenis Poisson (1781-1840), que em 1810descobriu a forma limitada da distribuiçãobinomial que posteriormente recebeu o seu nome;e Marquês de Condorcet (1743-1794), que éo primeiro a fazer a aplicação destas « artesmágicas do Acaso» aos problemas de caráctersocial e a analisar metodicamente o problema dasvotações.e ((


pág. 25# Notas sobre a história da estatística4.2. A Estatística no Estudo da HereditariedadeHumanaEstes dois homens foram os primeiros apreocuparem-se com as aplicações sociais daestatística.A partir da segunda década do século XIX, dá-seuma explosão no desenvolvimento da estatísticamoderna, tendo como principal responsável,Ronald A. Fisher, conhecido entre nós como o paida estatística moderna. Quanto a este célebrematemático, vamos conhecê-lo no capítuloseguinte.Na área da hereditariedade pode afirmar-seque os “pais” da Inferência Estatística, foramJ. Neyman e Karl Pearson. Embora os estudosestivessem associados a questões relacionadascom a Biologia e a Genética, os métodos quecriaram, tais como a “hipótese nula” e “nível designificância”, fazem hoje parte da rotina diáriade todo o estatístico e cientista que precisa daEstatística.Francis Galton4. A Estatística nosdias de hoje4.1. IntroduçãoFrancis Galton, um dos grandesfundadores da ciência moderna eda ciência humana, em particularno século XIX, foi o fundador daantropologia, do estudo da naturezahumana e de suas origens, autor demuito do estudo da meteorologia(descobriu e introduziu o termoanticiclone) e instituiu o começo doestudo da genética.É na segunda metade do século XIX, que se dá aviragem da Estatística Descritiva ou Gráfica parao estudo metodológico, a qual se iniciou a partirdo Primeiro Congresso de Estatística que tevelugar em Bruxelas, em 1853 (Oliveira, 1995).Até aqui, a Estatística era vista somente comouma mera compilação de dados, a sua disposiçãoem tabelas, uns tantos cálculos de médias eoutras estatísticas simples…e pouco mais. Adecisão Estatística era, tantas vezes, feita deum modo intuitivo, vendo se o valor calculado apartir da amostra estava próximo ou distantedaquele que teoricamente se esperava. É nestaaltura que surgem novos nomes importantespara o desenvolvimento da Estatística, sendoeles Galton, Karl Pearson, “Student”, Lexis eVon Bortkiewicz. Estes matemáticos, “abrem”caminho para Fisher, Neyman e Wald, lançaremos fundamentos da Estatística Moderna, aprocura dos métodos óptimos da inferência, oestudo do comportamento indutivo, rigorizando acomparação indutiva e vaga.Fundador do termo Eugenia e activamenteenvolvido na sua prática, a qual propunha omelhoramento genético da espécie humana,Francis Galton, acreditava que as característicasfísicas e mentais dos seres humanos seriamdevidas à hereditariedade. Idealizou instrumentospara medir a capacidade sensitiva, a memóriae a imaginação. Publicou, em 1865, um livro“Hereditary Talent and Genius” onde defende aideia de que a inteligência é predominantementeherdada e não fruto de acção ambiental.A ambição principal de Galton era provar como éque o carácter e os talentos foram transmitidospela reprodução através de sucessivas gerações.Instalou o seu laboratório em Londres, onde osvisitantes podiam fazer-se examinar desfilandoperante os seus instrumentos. A altura, o peso, aenvergadura do palmo, a capacidade respiratória,a força, etc., eram medidos no laboratório


um mundo para conhecer os números #pág. 26de Galton. Com os dados recolhidos elaborougráficos, curvas de probabilidade, valores médios,entre outros cálculos. Galton criou um esquemaexplicativo que mais tarde viria a dar lugar àmedida da correlação entre duas variáveis. SeriaPearson a formular, mais tarde, o coeficiente decorrelação. Por volta de 1870, Galton teve a ideiade modificar um dispositivo que tinha criado eusado em lições para ilustrar as bases da lei doerro. A este dispositivo chamou-o de quincunx.(ver caixa explicativa)EUGENIA:Termo definido por Francis Galton como sendoo estudo dos agentes sob o controlo social quepodem melhorar ou empobrecer as qualidadesraciais das futuras gerações seja física oumentalmente.Galton modificou o quincunx para demonstrarque as distribuições normais eram habitualmenteuma mistura de distribuições normais. Por outraspalavras, com a força da experimentação e odispositivo que ele inventou, chamado quincunx,concluiu que possuía uma clara prova experimentalde que as causas significativas dos fenómenospoderiam, de facto, ser isoladas em conformidadecom a lei do erro.Numa primeira fase Galton inspirou-se no mundonatural, inicialmente reflectindo em pomares defruta, e como é que factores específicos, taiscomo o aspecto, podem afectar o tamanho dafruta.Galton QuincunxFrancis Galton nasceu a 16de Fevereiro de 1822 perto deBirminghan, Inglaterra. Afirma-seque, antes de completar 3 anos,foi capaz de ler um livro simples,e desde muito jovem deu provasde engenho para a mecânica epara as matemáticas. Fundadorda escola biométrica, interessousepelos métodos estatísticose pela sua aplicação a todasas espécies de domínios. Ostrabalhos de Galton são baseadosna medição quantitativa feita apartir da lei normal de Gauss.A sua contribuição essencialna Estatística é o conceito decorrelação e a sua medição pelocoeficiente de correlação.Este aparelho consiste numconjunto de bolas de chumbo quedescem por um rampa com grandeinclinação. Estas, durante o seupercurso, colidem com pregoscolocados ao longo da rampa.Não é difícil imaginar condições nas quais as bolastêm igual probabilidade de ressaltar à esquerdaou à direita do prego. Se por baixo de cada pregoestão colocados dois pregos numa linha horizontale o declive da rampa estiver correctamenteajustado, a bola baterá num ou noutro depois deressaltar do primeiro prego. Novamente a boladeve ter igual probabilidade de queda à esquerdaou à direita desses pregos.As probabilidades de queda à esquerda de ambosou entre eles ou à direita de ambos, deveriamestar na proporção 1:2:1. O processo pode sercontinuado e está claro que as probabilidades deum bola passar entre os pregos diferentes de umafila são proporcionais aos números no Triângulo dePascal:11 11 2 11 3 3 11 4 6 4 1... ... ... ... ... ...


pág. 27# Notas sobre a história da estatísticaLei da regressão para a mediocridade de Galton:valornosfilhosA distribuição de probabilidades ao longo da n-ésima fila é assim proporcional aos coeficientes den( 1+t). Uma tal distribuição é chamadadistribuição binomial.Uma rampa deste tipo é chamada GaltonQuincunx, depois do nome do seu inventor, Galton;Quincunx é o nome latino para a face 5 de umdado, ou qualquer padrão semelhante.Na base da rampa foram feitas partições paraas bolas e foi colocado um vidro para que asbolas não passem de uma para outra. Na partesuperior da rampa foi construído um reservatóriopara colocar as bolas, que se encontra fechadopor uma pequena porta que pode ser removida.Quando a porta é removida as bolas descem pelarampa abaixo e são desviadas pelos pregos que seencontram distribuídos de forma conveniente. Seo ângulo for ajustado adequadamente, o númerode bolas nos compartimentos pode aproximar-semuito da distribuição binomial.Para um grande número de bolas e de filas depregos esta distribuição aproxima-se da curva2erro padrão y=Ke - 22S, com k e s constantes.A curva formada pelas colunas de bolas noscompartimentos deveria dar uma ideia grosseirada sua forma.4.2.1 Lei da regressão para a mediocridadeO investigador britânico, Francis Galton, a partirde um estudo com pares pais-filhos, propôs a “leida regressão para a mediocridade”.valor nos paisNo gráfico acima está representada a relaçãode uma variável métrica entre pais e filhos(por exemplo, altura). A linha azul representao esperado se os filhos tiverem exactamente ovalor da média dos pais. Note-se que pais queapresentam valores maiores da característicatêm descendência com um valor médio dacaracterística menor que a média observadamedida entre os pais. Por outro lado, os paisque têm o valor menor da característica têm osfilhos com valores maiores que o resultante damédia entre os pais. Por isso a lei foi chamadade “regressão para a média”. Como curiosidade,o método estatístico de ajuste de linhas pelométodo dos mínimos quadrados é até hojechamado de “regressão linear” devido a Pearson,um dos seguidores de Galton. O índice r, quemostra quão bem os pontos experimentais seajustam a uma recta, é o coeficiente de regressãolinear de Pearson.Os resultados e suas interpretaçõesaparentemente antagónicas originaram umadisputa de natureza científica que durou asprimeiras décadas do século XX. Essa disputateve importância na discussão a respeito doprocesso de evolução biológica, pois CharlesDarwin, um dos criadores da teoria da evoluçãopor selecção natural junto com Alfred RussellWallace, também inglês, acreditava que a evoluçãopor selecção natural era um processo que ocorriasobre a variação genética de natureza contínua,sendo portanto um processo gradual.


um mundo para conhecer os números #pág. 284.3 De Karl Pearson a Ronald A. FisherÉ a meados do século XIX que se dá oaparecimento da Estatística Moderna. Pode-sedizer que esta nova etapa da Estatística nasceunos laboratórios de pesquisas biométricas.Comecemos por falar de Karl Pearson;Matemático britânico, foi o fundador da“Biometrika” (revista sobre Biometria muitoconhecida a nível internacional) e seguidor deFrancis Galton. É conhecido entre nós como o“criador da Estatística Aplicada”. Formou-sena Universidade de Cambridge e inicialmentededicou-se ao estudo da hereditariedade aplicandométodos estatísticos e desenvolvendo a teoria deGalton. O trabalho de Karl Pearson é constituídopor uma enorme quantidade de trabalhospublicados principalmente na revista “Biometrika”,a qual foi fundada em conjunto com Walter Weldone Francis Galton.Desenvolveu a teoria da regressão e da correlaçãoaplicada aos problemas da hereditariedade, criouo teste do “qui quadrado” e foi um dos defensoresdo reconhecimento da Estatística como umadisciplina autónoma e introduzida no ensinosecundário. (Galeria dos Matemáticos 1991).Karl Pearson nasceu emLondres a 27 de Marçode 1857 é consideradoo “criador da EstatísticaAplicada”. Seguidor de FrancisGalton no seu trabalho dehereditariedade. Apesarde todo o seu trabalho serligado à biologia, o seu grandecontributo para a Estatísticadeve-se a descobertas feitaspara explicar os problemasbiológicos relacionadoscom a evolução e com ahereditariedade.Criou o “método dos momentos” e o sistemade “curvas de frequência”, que ainda hoje sãousados para a descrição matemática dosfenómenos naturais. A distribuição de Pearson,mais conhecida entre nós como a distribuição do“qui quadrado” ( ), constitui a base da Estatísticadas pequenas amostras de populações normais,servindo para medir a confiança de resultadosestatísticos, testar hipóteses, etc.Outro matemático importante para a evoluçãoda estatística moderna é o inglês William SealeyGosset, mais conhecido como Student. Studenttrabalhou como químico na Cervejaria Guiness,onde começou a fazer várias experiênciasrelacionadas com o controlo de qualidade dacerveja. Student no início das suas experiênciasaplicou a distribuição Normal, começando asentir dificuldades na utilização da “Lei do Erro”em amostras pequenas. Para resolver esseproblema entrou em contacto com o grandeestatístico da altura, Karl Pearson, o qual já tinhadesenvolvido as ideias que o levaram à distribuiçãodo mas, tal como todos os estatísticos daaltura, estava mais interessado em grandesamostras. Contudo, Student desenvolveu o testet de Student e os resultados forma publicados narevista “Biometrika”.William Sealey Gossetnasceu a 13 de junho de 1876em Canterbury Inglaterra.Estudou química e matemáticae contribuiu para a Estatísticacom a descoberta dadistribuição t student. Devidoà fábrica onde trabalhava nãodeixar publicar o seu nomeverdadeiro, pois tinha medo deque as fábricas concorrentessoubessem das descobertasfeitas sobre a qualidade doproduto, Gosset é conhecidoentre nós como Student,pseudónimo modesto utilizadopor este grande estatístico.


pág. 29# Notas sobre a história da estatísticaUtilizou o pseudónimo de Student, devidoà Cervejaria Guiness não desejar que osseus concorrentes soubessem dos métodosestatísticos utilizados para melhorar a qualidadeda sua cerveja. Apesar da grande importânciadesta descoberta, o seu trabalho foi ignorado e sóredescoberto por Fisher. A distribuição t é umadistribuição de probabilidade teórica e semelhanteà curva normal reduzida, diferenciando-se destacom a introdução de um parâmetro chamado graude liberdade. Estes graus de liberdade podem serqualquer número real maior que zero.Falemos agora do grande Estatístico RonaldA. Fisher, um dos fundadores da EstatísticaModerna.Interessou-se pela teoria da evolução e selecção,sobretudo em genética, tal como Francis Galtone foi com este tema que se interessou pelaEstatística e que desenvolveu grande parte dosseus trabalhos. Mantendo correspondência como seu grande amigo Student, Fisher acabou porfazer a distinção entre a média amostral e amédia da população. Interessou-se pelas amostrasrelativamente pequenas e não pelas infinitivamentegrandes. Era uma pessoa que não gostava decometer erros e sofria bastante quando os tinhade admitir. Por isso, pensou em várias teorias quemais tarde ele e outros tentaram desenvolver.Foi rejeitado para o serviço nacional na 1ª GrandeGuerra devido à fraca visão que possuía e entãocomeçou a leccionar numa escola secundária comoforma de serviço comunitário.… apesar de haver sempre incerteza naestatística isto não implica que haja falta deprecisão. - a incerteza pode ser alvo de precisãoquantitativa. Fisher fez muito para dar forma erealidade a esta ideia.G.A.BarnardProfessor Universitário em ESSEXNessa altura, o seu trabalho na área de Estatísticachamou a atenção de Karl Pearson, famosoestatístico da altura. Pearson, criticou o trabalhode Fisher, talvez por inveja, ferindo o seu orgulho,o que acabou por gerar um grande conflito entreestes dois estatísticos pois ambos começarama reparar nos erros que cada um cometia.2 Em1919 teve duas propostas de emprego: ou iriatrabalhar para Inglaterra com Pearson ou para aEstação Agrícola Experimental de Rothamsted.Como não tinha grande amizade por Pearson,optou pela segunda proposta, a qual também oentusiasmou bastante, pois na Estação Agrícolaexistiam observações adquiridas há mais de cemanos. Procedeu à análise desses dados e introduziuum novo conjunto de métodos, como por exemplo oda máxima verosimilhança, (procedendo ao estudode todas as suas propriedades), a análise devariância, os testes de hipóteses, e o planeamentode experiências.Ronald Aylmer Fisher, nasceua 17 de Fevereiro de 1890em East Finchley Londres eé considerado um dos paise fundadores da EstatísticaModerna. Licenciou-se emastronomia na Universidadede Cambridge, tendo-seinteressado desde muitonovo pela matemática. O seucontributo para a evoluçãoda Estatística é baseado, namaior parte, em experiênciasrealizadas na EstaçãoAgrícola Experimental deRothamsted. Aí desenvolveualguns métodos estatísticostal como o método da máximaverosimilhança, a análisede variância, os testes dehipótese, e o planeamento deexperiências.


um mundo para conhecer os números #pág. 30Na escola, Kolgomorov era uma criança queinventava vários problemas de matemática, sendomuitos deles publicados no jornal da escola.Estas ideias deram aos investigadores muitosinstrumentos para lidar com variáveis, amostraspequenas e estimativas mais precisas.Fisher recebeu três medalhas da Royal StatisticalSociety: a Medalha Real (1938), a Medalha deDarwin (1948) e a Medalha de Copley (1955),tendo sido nomeado Cavaleiro pela Rainha Isabelem 1952.Nunca deixou de parte os seus estudos realizadosem genética, tendo mesmo previsto dois novosanticorpos ao avaliar os tipos de sangue. Todaesta estatística é estudada hoje em quase todosos cursos universitários e faz parte do nosso diaa-dia.Tal como foi referido no capítulo 3, Kolmogorovlançou as bases axiomáticas das probabilidadese desenvolveu toda uma teoria que constituiuum enorme avanço na área, estabelecendo ummarco histórico. Essencialmente, os axiomas deKolmogorov estabelecem que:Os Axiomas das Probabilidades• Associados aos possíveis resultados de umaexperiência aleatória, existe sempre um espaçoamostral e uma álgebra de acontecimentos;• Para todos os acontecimentos da álgebra,existe um número não-negativo (maior ou igual azero), chamado probabilidade, que se atribui a talacontecimento;• A probabilidade do espaço amostral é igual a 1;• Para quaisquer dois acontecimentos disjuntos(que não compartilham nenhum resultado) aprobabilidade da reunião é igual à soma das suasprobabilidades;4.4 Andrei Nicolaevitch Kolmogorov• O Axioma anterior é verdadeiro parainfinitas uniões, desde que todos os pares deacontecimentos sejam disjuntos.Nasceu no dia 25 de Abril de1903 em Tambov, Rússia edesde muito cedo, Kolmogorovinteressou-se pela matemática.Com cinco ou seis anos,descobriu que a sucessão desomas de números ímpares éigual à sucessão de quadrados denúmeros inteiros.1=1 21+3=2 21+3+5=3 21+3+5+7=4 2…1+3+…+(2n-1)=n 2A aplicação da lógica matemática aos princípiosacima leva às seguintes propriedadesfundamentais da probabilidade:Propriedades Fundamentais das Probabilidades:• A probabilidade de qualquer acontecimento ésempre um número maior ou igual a zero e menorou igual a um;• A probabilidade de um acontecimento impossívelé zero;• Se a ocorrência de um acontecimento implicaa ocorrência de um outro, então a probabilidade


pág. 31# Notas sobre a história da estatísticado primeiro é menor do que a probabilidade dosegundo;• A probabilidade da união de dois acontecimentosé igual à probabilidade do primeiro mais aprobabilidade do segundo menos a probabilidade daocorrência simultânea dos dois.4.5 O Século XX4.5.1 Berço das Aplicações da EstatísticaA Estatística encontra aplicações em quase todosos campos da actividade humana. No sectoragrícola Fisher deu um grande contributo devidoao emprego na Estação Agrária Experimental deRothamsteed. Os métodos de análise estatísticapermitiram a melhoria da produtividade, o aumentoda eficácia, o estudo cuidado e metódicodas condições de produção, etc. “As aplicaçõesindustriais surgem por volta da década de 30: ascartas de controle, o controle dos lotes (estes tãoligados ao desenvolvimento dos testes de hipóteses)são talvez os primeiros contributos da Estatísticaao aperfeiçoamento tecnológico da sociedadeindustrial; no domínio das aplicações médicas, oestudo da eficácia dos fármacos, da qualidade dostratamentos, a detecção de causas possíveis dedoença, são algumas das aplicações da estatística”(Oliveira,1995). O Estado tem necessidadede conhecer a população; para isso recorre àEstatística, nomeadamente aos recenseamentos,para tomar decisões a nível governamental, porexemplo, para saber quantos indivíduos dos 15 aos18 anos existem numa certa localidade: a partirdaí vai saber se há necessidade de construir umaescola secundária nessa localidade ou não. Osserviços de Meteorologia, tão importantes para anavegação aérea e marítima, são essencialmenteestatísticos. A Informática também encontraaplicações estatísticas , por exemplo, na InteligênciaArtificial, na avaliação de desempenho de redes decomputadores, etc. A Medicina recorre à Estatísticapara prever determinadas doenças e quais os efeitosque determinado medicamento pode ter em certosdoentes. Na Engenharia, a Estatística é aplicadamais a nível do controlo de qualidade, por exemplo, naobtenção da percentagem de peças defeituosas queuma máquina pode produzir.4.5.2 Análise Exploratória da DadosAs técnicas clássicas de estatística foramconcebidas para serem as melhores possíveis,assumindo um conjunto de pressupostos rígidos.Experiência e investigação posterior levaramnosa reconhecer que as técnicas clássicas secomportam deficientemente quando a situaçãoreal se afasta do ideal descrito por esse conjuntode pressupostos. Desenvolvimentos recentes,tais como métodos robustos e de análiseexploratória de dados, contribuem para aumentara eficácia da análise estatística.O principal objectivo de uma análise exploratóriaé extrair informações dos dados, estabelecendorelações entre objectos e variáveis. A análiseexploratória não estabelece modelos à priori, maspermite que, a partir das relações observadas nosdados, sejam levantadas hipóteses e propostosmodelos.Existem duas fases na prática de análise dedados: exploratória e confirmatória. A análiseexploratória de dados realça a procura flexívelde pistas e da evidência, enquanto a análiseconfirmatória de dados realça a avaliação daevidência disponível.34.6 - Tendências para o FuturoActualmente as informações estatísticas sãoobtidas, classificadas e armazenadas em meiomagnético e disponibilizadas em diversos sistemasde informações abrangentes que fornecem aospesquisadores/cidadãos e às organizações dasociedade informações estatísticas inteligentese necessárias ao desenvolvimento de suasactividades. A expansão no processo de obtenção,armazenamento e disseminação de informaçõesestatísticas, extensivamente facilitadas pelouso dos recursos computacionais, tem sidoacompanhada pelo rápido desenvolvimento de


pág. 32um mundo para conhecer os números #Tratava-se de contar a riqueza em temposmercantilistas, fosse em homens, fosseem géneros, estimando a grandeza daspotencialidades militares, avaliando os recursostributários, esboçando orçamentos estatais”(Sousa, 1995).Territórionovas técnicas e metodologias estatísticas deanálise estatística de dados.Uma nova área em que a informática deu um forteimpulso foi a da “Engenharia de dados”.Com a descoberta do cálculo computacional,desenvolveram-se famílias de algoritmos paratratamento de dados, que se podem agrupar naárea do Data Mining.Portugal está situado a sudoeste da PenínsulaIbérica. Este país de configuração rectangular,é limitado a oriente e ao norte pela Espanha.A fronteira terrestre de Portugal segueocasionalmente o curso dos rios, mas na suamaior extensão não existem barreiras naturais.Esta fronteira, que remonta ao ano 1297, é amais antiga da Europa.5. A Estatística em Portugal5.1 Portugal e a Estatística: os números e a história“A aplicação da Estatística em Portugal começou,tal como nos outros países da Europa, com anecessidade de o Estado conhecer melhor ascaracterísticas da sua população. A partir doséculo XVI, factores como a afirmação do EstadoAbsolutista, o desenvolvimento da administração,de um mercado cada vez mais amplo e dinâmico,implicaram o recurso ao quantitativo comoelemento que começou a ser decisivo naadministração.Segundo a obra “História da Estatística emPortugal” (Fernando Sousa, 1995), o registode acontecimentos, especialmente a contagemde forças militares, a enumeração de bens,rendimentos e despesas, constituem os objectosde notação que mais se destacam na Idade Médiaportuguesa, marcada pela grande escassez dedados de natureza quantitativa estatística.


pág. 33# Notas sobre a história da estatísticaO rei tinha necessidade de conhecer o seuexército e a sua população a defender, e por issologo havia necessidade de quantificar a sociedade.Os primeiros registos encontrados são relativosaos besteiros (soldados cuja arma principal erauma Besta), os quais eram objecto de listagens decontrolo e mais tarde estabeleceu-se uma relaçãoquantitativa entre o número de besteiros de cadaconcelho (“conto”) e a respectiva população. Combase no papel da Igreja, também na Idade Média,produziram-se numerosos documentos (censuaise tombos de propriedades) relativamente aoconhecimento da realidade económico-socialde áreas por si controladas. A crise instaladanos séculos XIV e XV, exigiu dos senhoreseclesiásticos e laicos um melhor aproveitamentodos seus patrimónios fundiários, levando-os àelaboração de inventários sistemáticos de bens erendimentos, aos tombos, que permitiam não sóconhecer e dominar melhor a situação económicade cada senhorio, mas também prever osrendimentos de cada ano.Com a aproximação do Estado Liberal e aafirmação do conceito de Nação como baseda administração, a cobertura estatísticageneralizada para o país começa a ser reclamada,pois o governo não se pode exercer eficazmentesobre o incerto, o desconhecido. Surgemplanos para o cadastro do Reino, levantam-senumeramentos de carácter sistemático, iniciasea primeira grande série estatística sobre ocomércio externo – Balança Geral do Comérciodo Reino de Portugal, 1776-1831, que podemosadoptar como o símbolo do início de um novoperíodo.Numeramentos:Contagem do número de fogos (casas) feita com oobjectivo de recolher dados para lançar impostosou recrutar militares.Eram feitas Inquirições, isto é, inquéritos feitospelos monarcas portugueses, nos quais eraminvestigados os estados dos direitos reais e alegitimidade das possessões dos nobres. Destasinquirições também se podia tirar conclusõesacerca da organização profissional e económica,bem como detectar alguns níveis de estratificaçãosocial. Com base no resultados destas Inquirições,D. Dinis mandou fazer um cadastro geral, ou seja,um registo escrito, para evitar que os ambiciososse apoderassem de terrenos e direitos quenão lhes pertenciam. Naturalmente surgiramprotestos, reclamações, algumas tentativasde revolta, mas a vontade e as ordens do reiprevaleceram.Multiplicam-se os quadros estatísticos emdiversas áreas da realidade social, apontam-senúmeros globais, mas a informação é ainda, emgrande parte, dispersa, recolhida em segundamão, produzida por terceiros e nem sempre deacordo com os requisitos de qualidade e exigênciaque a estatística requer – por exemplo, os dadosda população são solicitados aos párocos – nocomércio externo (1842), nas contribuiçõesmunicipais (1845), no movimento da alfândegas deLisboa e Porto (1856-1857), na área demográfica,com a realização do primeiro censo digno dessenome (1864), noutras áreas, com a publicaçãodo Annuario Estatistico (1875), a que seseguirão séries autónomas para outros sectores,(contribuições, movimento bancário, transportes,etc.).


pág. 34um mundo para conhecer os números #5.2 Os Recenseamentos em PortugalA entrada na era estatística faz-se, portanto,gradualmente, ao longo do século XIX, com acriação de organismos que se fazem representarnos respectivos Congressos Internacionais.Mas só no século XX surge uma eficaz utilizaçãodos dados recolhidos, com o desenvolvimento daestatística como ramo aplicado da matemática,ligando ao cálculo das probabilidades, que vaipermitir o fornecimento regular de indicadoresde síntese, a perspectiva sequencial dastendências de desenvolvimento, a possibilidadede prospectiva. Situação apenas possível com acriação do Instituto Nacional de Estatística (INE),em 1935.” (Fernando Sousa,1995)Trabalhos estatísticos importantes e conhecidosdepois da fundação da nacionalidade portuguesae antes da criação do INE• Rol de Besteiros do Conto, de D. Afonso III(1260-1279);• Rol de Besteiros do Conto, de D. João I(1421-1422);• Numeramento ou Cadastro Geral do Reino,de D. João III (1527);• Resenha de Gente de Guerra, de D. Filipe III(1639);• Lista dos Fogos e Almas que há nas Terras dePortugal, de D. João V (1732), tambémconhecida por Censo do Marquês de Abrantes;Os primeiros censos portugueses foramrealizados de 31 de Dezembro de 1863 para 1 deJaneiro de 1864, tendo por base as orientaçõesdo Congresso Internacional de Estatísticarealizado em Bruxelas, em 1853. Antes destadata, tal como foi referido anteriormente, já serealizavam em Portugal recenseamentos, mas pornão serem exaustivos e/ou não se apoiarem emprincípios estatísticos credíveis, não podem serconsiderados equivalentes aos iniciados em 1864.A palavra Censo deriva da palavra Censere que emlatim significa Taxar.Nestes censos foi optado o método de recolhadirecta sendo todas as pessoas recenseadasno mesmo dia e nos lugares onde passarama noite. Os recenseamentos a partir daquideveriam ser realizados de 10 em 10 anos, maso recenseamento seguinte foi em 1878 ao qualse seguiria o Censo de 1890. A partir de então,os recenseamentos populacionais têm vindo arealizar-se, com algumas excepções, regularmentecom intervalos de 10 anos.Desde 1940 (inclusive), os recenseamentospassaram a ser realizados pelo Instituto Nacionalde Estatística e a partir de 1970 realizou-se emsimultâneo o I Recenseamento Geral da Habitação.Até aos dias de hoje, já foram realizados catorzerecenseamentos da população e quatro dahabitação.Apresentam-se de seguida todos osrecenseamentos efectuados em Portugal, e osseus antecedentes históricos resumidos:• Numeramento de Pina Manique, de D. Maria I(1798);• Recenseamento Geral do Reino, de D. João VI,também conhecido por Censo do Conde deLinhares (1801);• Recenseamentos Gerais de 1835 e 1851.


pág. 35# Notas sobre a história da estatística1864 - 1 de Janeiro (I RecenseamentoGeral da População):Realizou-se o I Recenseamento Geral daPopulação, tendo por base as orientaçõesdo Congresso Internacional de Estatística,que teve lugar em Bruxelas, em 1853.1878 - 1 de Janeiro (II RecenseamentoGeral da População):Efectuou-se o II Recenseamento Geralda População; embora mais completo queo anterior, quanto às variáveis observadase aos apuramentos efectuados, ainda temum conteúdo bastante reduzido.1890 - 1 de Dezembro (III RecenseamentoGeral da População):Realizou-se já com novas orientaçõesmetodológicas, de acordo com oCongresso Internacional de Estatísticade S. Petersburgo, realizado em 1872;a caracterização da população e dasfamílias foi bastante mais completa.1900 - 1 de Dezembro (IV RecenseamentoGeral da População):A metodologia da recolha de dados, do seutratamento e apresentação foi semelhanteà do censo anterior, tendo-se, no entanto,registado algumas inovações.1911 - 1 de Dezembro (V RecenseamentoGeral da População)Manteve-se a metodologia e as variáveisobservadas.1920 - 1 de Dezembro (VI RecenseamentoGeral da População):Manteve-se a metodologia e as variáveisobservadas.1930 - 1 de Dezembro (VII RecenseamentoGeral da População):Não houve grandes alterações nascaracterísticas observadas, continuandomal coberta a parte referente àscaracterísticas económicas.1940 - 12 de Dezembro (VIII RecenseamentoGeral da População):Este foi o primeiro censo efectuado peloInstituto Nacional de Estatística e é aceitecomo um marco na história dos recenseamentosportugueses. Adoptou-seuma nova metodologia de execução. Ascaracterísticas económicas são definidascom maior rigor e consideradas como umelemento importante de observação.1950 - 15 de Dezembro (IX RecenseamentoGeral da População):Seguiu a metodologia do censo anteriormas com algumas inovações como, porexemplo, a melhoria da técnica dasperguntas fechadas.1960 - 15 de Dezembro (X RecenseamentoGeral da População):Publicaram-se pela primeira vez dadosretrospectivos. Os recenseamentos de1950 e 1960 seguem, de perto, oconteúdo do de 1940.1970 - 15 de Dezembro (XI RecenseamentoGeral da População) (I Recenseamento Geral daHabitação):Realizou-se o I Recenseamento Geralda Habitação, juntamente com o daPopulação; contudo, o programa audaciosoque procurava dar resposta às inúmerassolicitações governamentais não tevesucesso no plano executivo, em especial natotalidade dos resultados a divulgar.1981 - 16 de Março (XII Recenseamento Geralda População) (II Recenseamento Geral daHabitação):Realizaram-se os recenseamentosda População e Habitação que seguiram,de perto, as recomendações internacionais(CEE/ ONU) e fazem, em quase todas asáreas, uma aplicação rigorosa dosconceitos e uma grande desagregaçãogeográfica dos respectivos dados.


um mundo para conhecer os números #pág. 361991 - 15 de Abril (XIII Recenseamento Geralda População) (III Recenseamento Geral daHabitação):Seguiu-se a metodologia do censoanterior, desenvolvendo-se no entantoalgumas das vertentes de preparação daoperação e do tratamento dos dadosjá iniciados em 1981. Construiu-se umaBase Geográfica de ReferenciaçãoEspacial, constituída por um conjunto desuportes cartográficos contendo ainformação que permite a divisão dasfreguesias em secções e subsecçõesestatísticas.2001 - 12 de Março (XIV Recenseamento Geralda População) (IV Recenseamento Geral daHabitação):A grande diferença prende-se essencialmentecom a inovação das tecnologiasutilizadas (digitalização cartográfica,utilização de sistemas de informaçãogeográfica, leitura óptica dos questionários,codificação assistida porcomputador e o reforço da correcçãoautomática das respostas incoerentes).Também é introduzida uma nova questãono questionário individual que diz respeito àdeficiência.5.3 O Ensino da Estatística em PortugalNão só em Portugal, mas em muitos outrospaíses a Estatística é um ramo da MatemáticaAplicada. O seu estudo e desenvolvimento comociência tem vindo a crescer com o progressosocial e hoje a Estatística está presente emquase todas as áreas do saber.Como refere João Branco (JME-190), no finaldo século XIX assistiu-se a uma generalizadaemergência e reconhecimento de problemasde natureza estatística nos vários ramoscientíficos, na indústria e em actividadesgovernamentais o que fez crescer o interesse pelaactividade estatística. A rapidez com que estesdesenvolvimentos ocorreram gerou uma crisede falta de pessoal técnico com conhecimentosde estatística que foi intensamente procuradopelas instituições que desejavam usufruir danova metodologia para fazer avançar as suasactividades. É neste contexto que surgiua necessidade de ensinar estatística a umnúmero de pessoas cada vez maior. Inicialmentea prioridade foi dada ao ensino avançado comvista a aperfeiçoar os conhecimentos daquelescom interesse na profissão de estatístico oudos que se encontravam a apoiar actividadesde investigação nos vários ramos da ciência.Só depois se passou a pensar no ensino daEstatística elementar destinado a fornecerconhecimentos básicos a estudantes dasciências naturais e sociais e ainda a estudantesinteressados em seguir uma actividade deestatístico profissional. Apesar de elementaresestes conhecimentos começaram a serintroduzidos nos cursos de pós-graduação ounos últimos anos da graduação. Porém depressase concluiu que estes cursos de estatísticaelementar deviam ser introduzidos mais cedo,numa fase mais inicial do ensino universitário.5.3.1. Estatística no SecundárioSegundo João Branco (JME-190), o ensino daEstatística no Secundário, surgiu como umanecessidade de proporcionar à população emgeral um sistema coerente de ideias estatísticase de capacidades para usar essas ideias, comnaturalidade, numa sociedade cada vez maisbaseada em dados e informação numérica.Uma reunião de grande importância para odesenvolvimento do ensino desta disciplina, tevelugar em Royaumont, em 1959 sob os auspíciosdos directores da Organização Europeia daCooperação Económica (OECE), organização aque sucedeu a Organização para a Cooperação eDesenvolvimento Económico (OCDE), em 1961.


pág. 37# Notas sobre a história da estatísticaA este acontecimento compareceram matemáticosde todo o mundo com o fim de estudaruma reforma profunda do ensino da Matemáticaao nível do ensino pré-universitário, tendo-seconcluído que se deveria introduzir no plano deestudos secundários o ensino do Cálculo dasProbabilidades e da Estatística.O movimento que começa a registar-se em algunspaíses com o objectivo de modificar os programase métodos de ensino da Matemática nas escolassecundárias chega também a Portugal, sobretudoatravés de publicações e reuniões promovidas pelaOCDE. E é José Sebastião e Silva, um dos maisimportantes matemáticos portugueses de todosos tempos, que fica com a responsabilidade doprojecto de modernização do ensino da Matemáticano 3º ciclo.A modificação dos programas com vista aadaptá-los às exigências da revolução científicae tecnológica que caracteriza a época levamà introdução, pela primeira vez, nos liceusportugueses, de vários temas entre os quaiselementos de Cálculo das Probabilidades e deEstatística. Em 1963/64 são criadas as trêsprimeiras turmas para funcionarem a títuloexperimental. Foi esta experiência, repetidasucessivamente ao longo de vários anos eestendida a várias dezenas de turmas espalhadaspelos liceus do País, que preparou o terrenopara a introdução definitiva destas matérias nocurrículo do ensino secundário.É curioso saber que o movimento que leva àintrodução da Estatística no secundário ocorresensivelmente no mesmo período em que se dãopassos definitivos para implantar o ensino daEstatística nas licenciaturas de matemática nasuniversidades. O movimento para o ensino daEstatística na universidade foi particularmenteactivo na Faculdade de Ciências de Lisboa tendolevado à criação da Primeira licenciatura emProbabilidades e Estatística em 1982. Nestemovimento destaca-se José Tiago de Oliveira,grande cientista que se apaixona pela Estatísticae seus problemas a todos os níveis incluindotambém o ensino no secundário. (JME-190)Segundo Adrião Ferreira da Cunha (2001),verificou-se em 1841 o início do ensino daEstatística em Portugal na Faculdade de Direitoda Universidade de Coimbra. Foi introdutordeste ensino o Professor Adrião Sampaio coma sua obra Primeiros Elementos da CiênciaEstatística que utilizou para auxílio das suasaulas suplementares ao Curso de EconomiaPolítica de que era encarregado na referidaFaculdade.


um mundo para conhecer os números #pág. 385.4 O INE e o Sistema Estatístico NacionalEm Portugal o INE é o organismo operacionalresponsável pela recolha, apuramento e difusãodas estatísticas oficiais nacionais. No entanto,existem organismos que gerem a atribuição decompetências em todo o processo estatístico.CSESENINEBanco de PortugalComposição do Sistema Estatístico NacionalNos termos da Lei nº 22/2008, de 13 de Maio,o SEN é constituído pelo Conselho Superior deEstatística (CSE), pelo Instituto Nacional deEstatística (INE), pelo Banco de Portugal e pelosServiços Regionais de Estatística das RegiõesAutónomas dos Açores e da Madeira.• O CSE é o órgão do estado quesuperiormente orienta e coordena oSistema Estatístico Nacional.• O INE é o orgão central de produção edifusão de estatísticas oficiais queassegura a supervisão tecnico-cientificado SEN.• O Banco de Portugal no âmbito dassuas atribuições de recolha e elaboraçãode estatísticas monetárias, financeiras,cambiais e da balança de pagamentos.Serviços Regionais de Estatísticados Açores e da MadeiraEntidades produtoras de estatísticasoficiais por delegação do INE, IP.O Instituto Nacional de Estatística (INE) foi criadoem 1935 numa tentativa de dar resposta àprocura cada vez maior da informação estatística.Tem como objectivo o exercício de funções taiscomo efectuar inquéritos, recenseamentos eoutras operações estatísticas; criar gerir ecentralizar ficheiros de unidades estatísticas;aceder aos dados individuais (excepto dados depessoas singulares) disponíveis nas entidadesencarregadas da gestão de serviços públicos;realizar estudos de estatística pura e aplicadae proceder à análise económico-social de dadosestatísticos disponíveis; promover a formaçãode quadros do SEN e cooperar com organizaçõesestatísticas estrangeiras.• Os Serviços Regionais de Estatística dosAçores e da Madeira, que funcionam emrelação às estatísticas oficiais de âmbitonacional, como delegações do INE, IP.• As entidades produtoras de estatísticasoficiais por delegação do INE, IP.Em 1989 o INE passou a ser um instituto público,ao qual foi concedida personalidade jurídica,autonomia administrativa, financeira e patrimóniopróprio.Nos dias de hoje, o INE tem dezenas de publicaçõesoficiais, não só em estudos demográficosmas em diversos campos de aplicação, tal comoindústria, comércio, educação, etc.


pág. 39# Notas sobre a história da estatísticaAssociação de Professores de Matemática,Departamento de Educação e de Estatística eInvestigação Operacional da Faculdade de Ciênciasda Universidade de Lisboa, 2000.•OLIVEIRA, J. Tiago (1981), O Ensino Iniciário daEstatística. Actas do II Colóquio de Estatística eInvestigação Operacional, Fundão.•OLIVEIRA, J. Tiago (1995), Collected works(Volume II), Évora.Ver também…Publicações• BÉDARIDA et al (1987), Pour Une Histoire DeLa Statistique, Economica.• CUNHA, Adrião Simões Ferreira (2001),Nótulas Históricas em Torno do SistemaEstatístico Nacional, Lisboa, Instituto Nacional deEstatística.• DAVID, F.N.(1998), Games, Gods and Gambling,A History of Probability and Statistical Ideas,Dover Publications, Inc. Mineola, New York.•Galeria dos Matemáticos do Jornal deMatemática Elementar (2º Volume), (1994),Lisboa.•Galeria de Matemáticos do Jornal de MatemáticaElementar, (1991), Lisboa.•HEYDE, C.C., SENETA, E. (2001), Statisticiansof the Centuries, Springer, New York.•HOAGLIN, David C., MOSTELLER, Frederick,TUKEY, John W. (1983), Novas Tecnologias/Estatística: Análise Exploratória de Dados.Técnicas Robustas, Edições Salamandra.•INE, Programa Global dos Censos 2001,Instituto Nacional de Estatística, Lisboa,disponível em: http://www.ine.pt/censos2001/Organizacao/programaglobal.asp•Jornal de Matemática Elementar nº190, Lisboa.•LOUREIRO, Cristina; OLIVEIRA, Fernanda;BRUNHEIRA, Lina, Ensino e Aprendizagem daEstatística, Sociedade Portuguesa de Estatística,•PERSON, E. S., KENDALL, Sir Maurice(1820), Studies in the History of Statistics andProbability, volume I, Charles Griffin & Co Ltd,London.• SOUSA, Fernando (1995), História daEstatística em Portugal, Instituto Nacional deEstatística, Lisboa.• STIGLER, Stephen M. (1986), The History ofStatistics, The Measurement of Uncertaintybefore 1900, Belknap Harvard.Web sites:http://www.sobiografias.hpg.com.br (algumasbiografias de personalidades históricas);http://users.hotlink.com.br/marielli/ (neste sitede matemática, encontra várias biografias dematemáticos famosos, bem como histórias sobreos números, aritmética, etc);http://www.educ.fc.ul.pt/semtem/semtem99/sem21/framegeral.htm (história do triângulo dePascal);http://www.mala.bc.ca/~johnstoi/darwin/sect4.htmhttp://www.mat.uc.pt/~bebiano/Atractor/esta.htm(alguns modelos matemáticos, entre os quais oQuincunx);http://www.geocities.com/g10ap/matematicos/os_grandes_genios.htm (biografias de grandes géniosmatemáticos);http://www.ib.usp.br/evolucao/QTL/historiaqtl.html(inclui a explicação da lei da regressão para amediocridade de Galton)


pág. 41O Inquérito EstatísticoMaria João Ferreira# Pedro Campos


pág. 43# o inquérito estatísticoO InquéritoEstatísticoUma introdução à elaboração de questionários,amostragem, organização e apresentação dosresultadosMaria João Ferreira# Pedro CamposSumário:1. Introdução2. Porque fazemos Inquéritos?3. Inquérito, observação e experimentação4. Como perguntar? - Regras gerais para aconstrução de um questionário5. Escolha da população a inquirir e métodos derecolha de informação: amostragem6. Recolha da informação necessária sobre oselementos da amostra7. Organização e apresentação dos dados8. Ver Também1. IntroduçãoNeste Dossiê, que teve a colaboração esupervisão da Profª Doutora Maria Eugénia GraçaMartins, Professora da Faculdade de Ciências daUniversidade de Lisboa e consultora científica doALEA, poderá encontrar uma pequena introduçãoàs fases de um inquérito por questionário,as regras de construção de um questionário,noções sobre como seleccionar os elementosda amostra e ainda a preparação do relatóriopara apresentação final dos resultados. No final,a rubrica Ver Também contém ligações paraoutros estudos de interesse relacionados comas temáticas em causa (publicações e páginas nainternet).


um mundo para conhecer os números #pág. 44O recurso ao inquérito é necessário de cada vezque temos necessidade de informação sobre umagrande variedade de comportamentos de ummesmo indivíduo, ou quanto pretendemos conhecero mesmo tipo de variável para muitos indivíduos.População:2. Porque Fazemos InquéritosEstatísticos?O Inquérito é um dos instrumentos maisutilizados no domínio da investigação aplicada,nomeadamente na área social. Desde os estudosde mercado às pesquisas puramente teóricas,passando pelas sondagens de opinião, poucossão os estudos que não se apoiam, parcial outotalmente, em informações recolhidas combase em inquéritos.Colecção de unidades individuais, que podemser pessoas, empresas ou resultadosexperimentais, com uma ou mais característicascomuns, que se pretendem estudar.Inquérito:Um inquérito pode ser considerado como umainterrogação particular acerca de uma situaçãoenglobando indivíduos, com o objectivo degeneralizar.Sondagem:Estudo científico de uma parte de umapopulação com o objectivo de estudaratitudes, hábitos e preferências da populaçãorelativamente a acontecimentos, circunstânciase assuntos de interesse comum.2.1. O que é um Inquérito Estatístico?É a necessidade de conhecer uma população noque se refere a uma ou várias características, quenos leva a recorrer à realização de inquéritos.A alternativa da observação directa, mesmoque viável, em certos casos, levaria demasiadotempo, ou seria impossível quando os fenómenosem estudo se reportam ao passado (Ghiglione eMatalon, 1992).Um inquérito pode ser considerado como umainterrogação particular acerca de uma situaçãoenglobando indivíduos, com o objectivo degeneralizar.Exemplo de um dos Inquéritos realizado pelo INE:O Inquérito aos Orçamentos Familiares, actualmentedenominado IDF, realizado pelo INE, temcomo objectivo conhecer a origem e o valor dosrendimentos dos agregados e a forma como setransformam em despesas de consumo. É atravésdeste inquérito que se pode actualizar o Índice dePreços no Consumidor, desenvolver e construirum sistema de Indicadores de Pobreza, a análiseda concentração da despesa e do rendimento dosagregados familiares, bem como a realização deoutros estudos sócio-económicos.A figura 1 contém uma das partes do questionárioque tinha de ser preenchida todos os dias poruma pessoa do agregado familiar, de preferênciaa pessoa que efectuava as compras. Neste caso,o método de recolha de informação (ou dados)utilizado neste inquérito, conciliou a recolhaatravés do auto-preenchimento (preenchimentofeito pelo próprio inquirido) com a recolha porentrevista. Mais à frente abordamos todas estastécnicas de recolha de informação.


Fig. 1 - Questionárioutilizado noInquéritoàs Despesas dasFamílias(Fonte: INE)pág. 45


pág. 46um mundo para conhecer os números #Na figura 2, podemos observar um esquema dastécnicas de recolha de informação.Uma das técnicas mais utilizada na realizaçãode Inquéritos é o Questionário. Trata-se de umatécnica não documental, de observação indirecta,que pode ser feita através de uma entrevista. Oinquérito muitas vezes é visto como um processocompleto (desde a recolha, à análise, utilizandovárias técnicas). O questionário é o instrumentode notação.3. O Questionário e as Fases deum InquéritoFig. 2(adapt. Lima, 1981)Técnicas derecolha deinformação3.1 Inquérito e QuestionárioNão documentaisDocumentaisNeste ponto, faremos uma aproximação às noçõesde Inquérito e Questionário, enquadrando os váriosmétodos de recolha de informação.Observação indirecta einquérito em relaçõesindividuais (utiliza ainformação verbalproporcionada porinformadores individuaisObservação directa,em sentido lato degrupos oucolectividadesClássicasAnálise de conteúdoObservação nãoparticipantePode-se considerar que existem dois tipos detécnicas de recolha de informação: as documentaise não documentais. Nas técnicas documentaiso objectivo é a recolha de informação a partir desuportes bibliográficos já existentes. É o caso dapesquisa bibliográfica e da análise de textos. Nastécnicas não documentais o investigador realizaobservação directa (como por exemplo, a mediçãoda altura do salto de um atleta ou o número deflexões por minuto) ou indirecta - podendo serfeita, neste caso, através da administração de umquestionário.Questionário:É um dos suportes de registo de informação nosInquéritos, feito ou não através de uma entrevistaEntrevistaTestesEscalas de atitudesQuestionárioObservaçãoparticipanteTécnicas deExperimentaçãoTal como foi referido anteriormente, recorremosao inquérito para compreender fenómenos comoas atitudes, as opiniões ou as preferências, quesó são acessíveis de uma forma prática pelalinguagem, e que só raramente se exprimem deforma espontânea. É através do inquérito, e porvezes através da observação, que podemos obterinformações do que se passa num determinadomomento. Colocando um maior número dequestões podem-se fazer análises mais profundas,descrever de forma mais perspicaz as opiniõese os comportamentos que procuramos estudar,verificar hipóteses mais complexas, etc.


pág. 47# o inquérito estatístico4. Como perguntar? - Regrasgerais para a construção de umquestionárioIndependentemente de todas as vantagens queum questionário tem, existem sempre algumasdesvantagens, das quais se destacam o facto deo questionário depender totalmente da linguagem- tudo o que dispomos é do que o inquirido pôde ouquis dizer.Portanto, as perguntas de um questionáriodevem recorrer a palavras simples e a umalinguagem acessível, clara e precisa (eliminandoa possibilidade de interpretações subjectivas porparte do inquirido). As questões devem ser curtase directas (evitando as negações e sobretudo asduplas-negações).No próximo capítulo exploraremos melhor asregras para a construção de questionários.O questionário é um dos instrumentos de notaçãomais utilizado para obter informação acerca de umadada população. A construção do questionário ea formulação das questões constituem uma fasefundamental do desenvolvimento de um inquérito.Para construir um questionário é necessário sabercom exactidão o que procuramos, garantir que asquestões tenham a mesma interpretação em todosos inquiridos e que todos os aspectos das questõestenham sido bem abordados, etc. Estas condiçõesresultam da realização das entrevistas e do teste àsprimeiras versões do questionário (pré-teste).Pré-teste:Consiste em testar o questionário juntode uma parte da amostra, antes desteser utilizado em definitivo.3.2. Etapas do desenvolvimento de um inquéritoAs etapas de desenvolvimento de um inquéritonão se descrevem segundo uma ordem linearconstante. Segundo Giglione e Matalon (1992),antes de realizarmos um inquérito devemossaber quem queremos inquirir e o que devemosperguntar. Podemos dizer que ao elaborarmosum inquérito, devemos ter em consideraçãoalgumas preocupações: ao planear o inquérito jádeve estar definida a população que se pretendeinquirir e o que se quer saber acerca dela, quaisos objectivos do inquérito e como vai ser aplicado;depois, deve-se preparar o instrumento de notação(questionário), para o qual é necessário ter-se ematenção o tipo de perguntas, a ordem pela qualocorrem, a linguagem aplicada e a apresentaçãofinal; por último, surge o trabalho no terreno(recolha de dados), onde se recolhe toda ainformação necessária para concretizar o objectivodo inquérito. A recolha dos dados pode ser feita devárias formas, que veremos mais adiante.4.1 Os diferentes tipos de questõesAs primeiras questões de um questionário sãomuito importantes. São elas que indicam às pessoasinquiridas o estilo geral do questionário, o génerode resposta que delas se espera e o tema quevai ser abordado. É também a partir delas que seestabelece a relação entrevistador-entrevistado, poisdeterminam a forma de reacção do entrevistado,nomeadamente se este sente que a sua vida privadaestá a ser incomodada. Normalmente é preferívelcomeçar por questões que despertem interesse noentrevistado e não o assustem.As questões de um questionário podem serfechadas, abertas e semi-abertas.Questões fechadas:São questões onde existe uma lista pré-estabelecidade respostas, a qual é apresentadaao inquirido, para ele indicar a que melhorcorresponde à resposta que deseja dar.


pág. 484.1.1 Questões fechadasDiz-se que uma questão é fechada se as modalidades de resposta são impostas (Grangé e Lebart, 1994).Por exemplo:Qual é a sua situação de estado civil ?[1] Solteiro[2] Casado ou a viver maritalmente[3] Divorciado ou separado[4] ViúvoEste tipo de questões autoriza uma pré-codificação, ou seja, uma tradução imediata da respostasob a forma de um código alfanumérico. Estas questões limitam as pessoas inquiridas a respondersomente àquilo que lhes é apresentado como modalidades de resposta.Podemos distinguir vários tipos de questões fechadas:• Questões de resposta única (o inquirido escolhe apenas uma modalidade de resposta).• Questões de resposta múltipla (o inquirido escolhe de várias modalidades de respostas emnúmero limitado ou não), por exemplo:Quais são, na sua opinião, os pontos fortes do produto X? (indique no máximo 3 escolhas)[1] apresentação geral[2] forma[3] comodidade de emprego[4] variedade de utilizações[5] eficácia[6] robustez[7] preço[8] duração da garantia[9] serviço pós-venda• Classificação (o inquirido ordena as várias modalidades de respostas por ordem de importância),por exemplo:Para o produto Y, classifique as seguintes características, partindo daquilo queconsidera como os seus pontos mais fortes até aos pontos mais fracos,utilizando a numeração de 1 a 9, sendo o 1 o ponto mais forte e o 9 o mais fraco.[ ] apresentação geral[ ] forma[ ] comodidade de emprego[ ] variedade de utilizações[ ] eficácia[ ] robustez[ ] preço[ ] duração da garantia[ ] serviço pós-vendaAs questões em escala também são um tipo de questões fechadas. Este tipo de questões permiteatenuar as respostas quando estamos na presença de questões do tipo concordo/não concordo.Para uma situação deste tipo, poderíamos estabelecer uma escala completa de respostas do tipo:Concordo plenamente / concordo um pouco / indiferente / não concordo muito /em desacordo totalUm questionário composto, na sua maioria, por questões fechadas, não deve ultrapassar os 45minutos quando a sua aplicação é feita em boas condições, ou seja, em casa do inquirido ou numlugar tranquilo (Ghiglione e Matalon, 1992). Ultrapassando esse limite, o interesse perde-se, o quese nota através de sinais como a rapidez das respostas indicando pouca reflexão sobre as mesmas.


pág. 49# o inquérito estatísticoDo ponto de vista da análise de resultados, asquestões fechadas são, em principio, as maiscómodas. Quando se trata de um inquéritode aplicação e exploração rápida, como umasondagem de opinião, esforçamo-nos por aplicarapenas este tipo de questões.4.1.2 Questões abertasPara estas questões não existe qualquer tipo derestrição à resposta, devendo esta ser transcritaliteralmente, através do modo mais fiável.O espaço reservado para esta restrição deveráser medido previamente para facilitar a exploraçãodas respostas (Grangé, 1994).(Ghiglione e Matalon, 1992). Por último, há umarazão forte para nos levar a preferir deixar umaquestão aberta: é que um questionário totalmentefechado torna-se rapidamente fastidioso. Apoiandosenas listas de respostas que lhes apresentamos,as pessoas podem reflectir cada vez menos e tomarcada vez menos cuidado com o que dizem. Outromotivo para se escolher a forma aberta é que estapermite várias codificações. Depois de analisarmostodas as respostas, estas vão ser codificadasmediante a construção de um livro de códigos(também designado por tabela de classificação).4.1.3 Questões semi-abertasQuestões abertas:São questões às quais o inquirido responde comoquer, utilizando o seu próprio vocabulário.Exemplo de uma questão aberta:Qual o tipo de detergente que usa paraa máquina da louça?Num questionário podem ocorrer simultaneamentemodalidades de resposta fechada e aberta namesma questão:Qual é o nome da companhia de segurosdo seu veículo?[1] companhia A[2] companhia B[…] …[10] outra:Esta forma mista tende a resolver os problemasde pertinência e de exaustividade das questõesfechadas, reduzindo fortemente os custos decodificação pós-inquérito de uma resposta “literal”.Há várias razões para se formularem questõesabertas. Muitas vezes não se tem tempo paraelaborar uma lista de respostas-tipo a apresentaràs pessoas e, por essa razão, deixa-se um espaçoaberto para registar a resposta do inquirido.Por outro lado, podemos ter que recorrer aquestões abertas quando os pré-testes (ver4.5) do questionário forem insuficientes, ouainda quando as respostas a esses pré-testespareçam demasiado complexas para poderemser resumidas numa lista de tamanho aceitável4.2 Ordem das questõesNa elaboração de um questionário deve ter-se emconsideração um princípio, meio e fim. Não existeuma regra para a ordem das perguntas, massim alguns conselhos que podem ser seguidos.No princípio deve existir uma pequena introduçãosobre a entidade que promove o estudo, qual oobjectivo do questionário e as vantagens que esseestudo pode trazer para a sociedade.


um mundo para conhecer os números #pág. 50As primeiras questões devem ser simples poiselas vão determinar a condução do questionário.As primeiras questões devem ser simples poisvão determinar a condução do questionário. Seas primeiras questões forem complicadas, oinquirido pode perder o interesse de responder,o que dificulta o trabalho do entrevistador. Como decorrer do questionário as perguntas devemser mais específicas, por exemplo, abordar temasembaraçantes ou íntimos, por exemplo “Lava osdentes todos os dias?”, temas que podem levar aum esforço mental, como por exemplo, pedir paraordenar por ordem de preferência os produtosque gosta mais, etc. Os dados pessoais podemtanto vir no princípio como no fim, dependendodo critério do investigador. Todas as questõesdevem ser claras, nunca devem sugerir nenhumaresposta particular e não devem exprimirnenhuma expectativa (Ghiglione e Matalon, 1992).Um questionário deve parecer uma trocade palavras tão natural quanto possível. Sepossível deve elaborar-se como um guião.É certo que não é possível perguntarmos tudonum questionário, pois os vários temas de estudopodem originar muitas questões; logo deve-se tersensibilidade suficiente para escolher as questõesmais importantes para o estudo.Questões de filtro:Servem para filtrar as pessoas para as quaiscertas questões não fazem qualquer sentido ounão são aplicáveis.As questões devem ser curtas e sequenciais, semrepetições nem descontextualizadas. Por exemplo,antes de perguntarmos a uma pessoa se gostou dofilme X deve-se perguntar se alguma vez viu o filmeX, pois assim poderemos ter uma questão de filtroque vai avaliar a informação que o entrevistadotem acerca do filme. Caso a sua informação sejanula isto é, que nunca tenha visto o filme X, asquestões seguintes que poderiam ser acerca dofilme já não fazem sentido para este entrevistado,logo esta questão tem de ser um filtro, passandoassim a outra questão acerca de outro tema.Exemplo dequestão de filtro:1. Alguma vez viu o filme X?Sim1.1 Gostou do filme?SimNão1.1 Era capaz de voltar a ver o filme X?Sim Não2. Alguma vez viu a série Y?Não (passe à questão 2)Questãode filtro4.3. Outras sugestões na elaboração de questõesUm questionário não deve conter só perguntasabertas ou ou só perguntas fechadas. Deve-sealternar as questões para não tornar o questionáriomaçador. Como já foi referido, um questionário sócom questões fechadas pode por vezes levar aque o entrevistado fique um pouco “irritado”, poistem a sensação que as respostas lhe estão a serimpostas. Não se devem utilizar questões duplas,isto é, não devemos introduzir mais do que umaideia em cada pergunta. Antes de elaborarmosalgumas questões que podem provocar o embaraçodo entrevistado, tais como por exemplo, questõessobre religião ou consumo de determinadosprodutos, devemos fazer uma pequena introduçãoao inquirido, pois muitas pessoas podem ter receiode fornecer respostas erradas ou confessar a suaignorância. Por isso, uma regra consiste em abordaressas questões da seguinte forma:“…no seu caso pessoal poderia dizer-me…”;“Gostaria de saber a sua opinião…”.


pág. 514.4 Os diferentes tipos de escalasSe um questionário contiver perguntas fechadas, é necessário escolher sempre um conjunto dealternativas para cada questão (conforme Hill e Hill, 2000). Por exemplo, na questão Sexo, asalternativas são homem e mulher. Convém codificar as respostas (associar números a cada resposta)para que estas possam ser analisadas posteriormente por meio de técnicas estatísticas. Os dois tiposde escala frequentemente usados em questionários são as escalas nominais e as escalas ordinais. Mashá, no entanto, outros tipos de escalas igualmente utilizadas: as escalas de intervalo e de rácio.4.4.1 Escala nominalEste tipo de escala é utilizado em questões como a deste exemplo:Na empresa onde trabalha qual é o cargoque ocupa?Gerente Técnico Administrador Operário1 2 3 4A estas questões é possível atribuir um número a cada categoria para codificar a resposta. Estesnúmeros só servem para identificar as categorias. Aliás, as diferentes modalidades ou categoriaspoderiam ser codificadas por outros símbolos, não necessariamente numéricos – por exemploas categorias da variável sexo, masculino e feminino, poderiam ser representadas por M e F,respectivamente. Numa escala nominal não faz sentido calcular a média das variáveis, mas simcalcular as frequências das suas modalidades . Para se saber mais sobre o cálculo de frequênciasnuma escala nominal, consulte o curso de Noções de Estatística existente na página do ALEA(página 2 do capítulo III, Dados, Tabelas e Gráficos - 1. Tipos de Dados, em:www.alea.ine.pt/html/nocoes/html/cap3_1_1.html).4.4.2 Escala ordinalEste tipo de escala é utilizado em questões como a que se segue:Indique o seu grau de concordância ou discordância das seguintes afirmações relativasao produto XO produto X tem umaembalagem atractiva.O produto X tem umpreço muito caro.DiscordototalmenteDiscordoNão concordonem discordoConcordo1 2 3 4Concordototalmente1 2 3 4 55


pág. 52um mundo para conhecer os números #Para as variáveis ordinais, do mesmo modoque para as nominais, também se utilizam ascategorias mas, no entanto, existe uma relaçãode ordem entre elas. Se um júri ordenar 5candidatos de 1 – mais fraco, a 5 – mais forte,podemos dizer que o candidato que ficou em 4ºlugar é melhor do que o que ficou em 3º lugar. Noentanto, não poderemos dizer que o candidatoclassificado com o número 4, é duas vezes melhorque o classificado com o número 2, isto é, não épossível medir a magnitude das diferenças entreas categorias (Hill e Hill, 2000). Do mesmo modoque para as variáveis nominais, continua a não tersentido o cálculo da média mas, já que existe umaordenação, pode-se calcular a mediana.quais quase todas as pessoas respondem damesma forma, o que as torna muito pouco úteispara análises mais finas, realizadas através docruzamento com outras questões. Neste caso énecessário rectificar a forma como as questõesestão colocadas. Pode também recorrer-se atécnicas como a análise factorial, para identificarquestões redundantes. Depois da análise dopré-teste, caso existam muitas alterações, énecessário voltar a testar o questionário quantasvezes for preciso.5. Como Seleccionaros Elementos paraa Amostra4.5 O Pré-testeNo início do capítulo falamos sobre o pré-teste.Mas afinal para que serve o pré-teste?Quando uma primeira versão do questionáriofica redigida, ou seja, quando a formulaçãode todas as questões e a sua ordem sãoprovisoriamente fixadas, é necessário garantirque o questionário seja de facto aplicável e queresponda efectivamente aos problemas colocadospelo investigador (Ghiglione e Matalon, 1992).Então, o questionário deve ser aplicado a umpequeno grupo de pessoas, com o objectivode saber se elas entenderam o significado doquestionário e das perguntas. Esta situaçãopermite-nos saber como as questões e respostassão compreendidas, permite-nos evitar erros devocabulário e de formulação e salientar recusas,incompreensões e equívocos (Ghiglione e Matalon,1992). Com a elaboração do pré-teste podemosavaliar a taxa de recusas, conhecer a formacomo as pessoas reagem ao questionário e se aordem das questões não coloca nenhum problema.Podemos também constatar se há questões àsDe cada vez que se faz uma sondagem, énecessário seleccionar uma amostra da populaçãoque se pretende estudar, à qual se aplica depoisum inquérito, para eventualmente se extrapolaremos resultados para toda a população (Vicente,Reis e Ferrão, 1996).A necessidade de conhecer uma população noque respeita a uma ou várias características,impulsiona um processo de recolha e análisede informação. A dificuldade e mesmo nalgunscasos, a impossibilidade de estudar a totalidadeda população ditou a importância do estudo dorecurso a amostras. É impossível assegurar aqualidade de uma sondagem, se não houver umconhecimento dos problemas e do impacto queeles podem ter nos resultados do estudo.Amostra:É uma parte da população que é observada como objectivo de obter informação para estudar acaracterística pretendida.


pág. 53# o inquérito estatístico5.1 Sondagens versus RecenseamentosQuando precisamos de fazer um estudo sobreuma população, nem sempre é possível fazerum recenseamento, isto é, inquirir todos oselementos e, mesmo que fosse possível, esteprocesso demoraria muito tempo, o que tornaria oestudo muito caro e possivelmente já sem nenhumsentido, pois tornar-se-ia desactualizado. Assondagens são mais baratas, menos demoradas,sendo muito mais fácil aceder a todos oselementos de uma amostra do que aos de umapopulação inteira.Recenseamento:Estudo de um universo de pessoas, instituiçõesou objectos físicos com o propósito deadquirir conhecimentos, observando todosos seus elementos e fazer juízos acerca decaracterísticas importantes desse universo.É certo que os recenseamentos são importantespois são úteis na actualização de bases de dadospara a realização de sondagens. Em Portugal, osCensos ou recenseamentos são realizados dedez em dez anos o que faz com que consigamoster uma actualização exaustiva, tanto do parquehabitacional como das características dapopulação residente. Com o decorrer do tempo,essa base de dados vai ficando desactualizada,pois num curto espaço de tempo existemmudanças, tanto a nível habitacional comopopulacional. Por isso, conforme vão decorrendoos inquéritos por amostragem, a actualização dabase de dados vai sendo feita.5.2 Fases de realização de uma sondagemComo é habitual numa sondagem, o inquéritoé aplicado a uma amostra retirada de umapopulação (Vicente, Reis e Ferrão, 1996).Conceber e levar à prática um estudo porsondagem é um processo complexo envolvendodiversas fases interdependentes.A vantagem deste esquema é a ilustração clara dafase de amostragem (nível “escolha da amostra”),dentro do processo de sondagem.É sobre os métodos de amostragem que a seguirnos vamos debruçar.Fig. 4 - Orecenseamentoé uma fotografiainstantânea dapopulação numdeterminadomomento.


um mundo para conhecer os números #pág. 54Fig. 5 -(adapt. Vicente, Reis eFerrão, 1996)CondiçõesdadasCondições dadasTipo deamostrae suadimensãoMétodos deRecolha deinformaçãoEscolha da amostraElaborar oquestionárioTestar oquestionárioRecolher asrespostasPrepararosdadosObtenção da informaçãoMedida deumacaracterísticaTeste deumahipóteseAnálise dos dadosRelatórioFinalRelatório Final5.3 Etapas do Plano AmostralSegundo Vicente Reis e Ferrão (1996), “o planoamostral é o momento da sondagem onde seseleccionam os elementos a partir dos quais sevão recolher os dados necessários”.Assim sendo, os passos requeridos para recolhera amostra podem ser descritos através daseguinte sequência:• Definir a População Alvo• Identificar a base de Sondagem• Escolher uma técnica amostral• Determinar a dimensão da amostra• Seleccionar os elementos da amostra• Recolher a informação necessária doselementos da amostra5.3.1 Definir a População AlvoA definição da população alvo é uma das fasesmais importantes na realização de uma sondagem.É sobre essa população que o nosso estudovai incidir. A maior parte dos autores (Cochran(1963), Stuart (1984) e Barnett (1991)) definemcomo população alvo a totalidade dos elementossobre os quais incide a nossa análise e dosquais se pretende obter informação. Para definircorrectamente a população alvo, primeiro temosde ter a certeza qual é o objectivo do nossoinquérito, e depois, podemo-nos perguntar: sobrequem incide o inquérito? quem são os elementosde referência acerca dos quais se pretende obtera informação? Por exemplo, vamos supor que oobjectivo do nosso inquérito era caracterizaro emprego e o desemprego em Portugal. Esteestudo tem de ser feito junto das famílias mas,como através dos alojamentos é mais fácildetectar as famílias, devido à existência dasmoradas de residência, então a nossa populaçãoalvo é a dos alojamentos.População Alvo:Totalidade dos elementos sobre os quais incidea nossa análise e dos quais se pretende obterinformação.


pág. 55# o inquérito estatísticoAlojamento:Local distinto e independente construído,reconstruído, ampliado ou transformadopara habitação humana e que, no período deobservação, não está a ser utilizado, totalmente,para outro fim.Base de Sondagem:Diz respeito a listas, mapas ou qualquer outroregisto da população de onde será retirada aamostra.5.3.2 Identificação da Base de SondagemA base de sondagem é uma listagem doselementos da qual se vai seleccionar a amostra(Vicente et al, 1996). Para utilizar a base desondagem como a fonte para a recolha daamostra é necessário que se possam identificaras unidades amostrais, sendo estas, elementosou grupo de elementos da população.Pela dificuldade em construir essas listagens,é em muitos casos impossível fazer coincidir apopulação alvo com a população a inquirir. Tratasedos casos em que a população é muito grande,tornando-se incomportável fazer selecçõessucessivas de amostras. Nestes casos optasepor considerar uma grande amostra, bemrepresentativa da população, a que se chama basede sondagem. A partir desta população, que reúnecaracterísticas da população-alvo inicial, extraemse,de seguida, várias amostras. No InstitutoNacional de Estatística, por exemplo, a Amostra-Mãe (utilizada em diversos inquéritos como porexemplo o Inquérito ao Emprego) é uma grandeamostra extraída da população-alvo, a partir daqual se extraem outras amostras, relacionadascom os inquéritos às famílias. Posteriormente,quando esta base de sondagem começa aficar saturada, pois certos indivíduos já foraminquiridos um determinado número de vezes,a base de sondagem é actualizada, através dasubstituição por novos indivíduos. Gomes (1998)explica claramente esta estratégia que consisteem actualizar uma parte “representativa” dapopulação alvo, que assume o papel de base desondagem. Tal como se referiu, em Portugal oINE actualiza a Amostra-Mãe de 5 em 5 anos ea partir de 1998 recorre-se a uma actualizaçãoparcial em cada ano.5.3.3 Escolha de uma técnica amostralDepois de definida a população-alvo, o problemaque se levanta é o da selecção dos elementosda amostra. Nesta fase da sondagem importadistinguir os métodos probabilísticos oualeatórios (em que aos elementos da populaçãoestá associada uma probabilidade de inclusãona amostra) dos não probabilísticos (onde essaprobabilidade não é determinada).Os métodos probabilísticos estão associados àselecção de amostras aleatórias. No momentoda selecção de uma amostra aleatória tem de seconsiderar toda a população, (ou, quando tal sejustifica, uma base de sondagem).Uma amostra é considerada não aleatória quandodeterminados elementos da população não têmpossibilidade de serem escolhidos. Por exemplo,nas entrevistas de rua, apesar das pessoasserem escolhidas aleatoriamente, a amostraque se obtém é uma amostra não aleatória,visto que nem todos os indivíduos da populaçãotêm a mesma possibilidade de passar no localno momento em que se estão a realizar asentrevistas.Amostragem Aleatória:Procedimento de selecção dos elementos ougrupo de elementos de um modo tal que dá acada elemento da população uma probabilidadede inclusão na amostra calculável e diferente dezero, ou seja, cada elemento da população temuma probabilidade conhecida de ser escolhido.


um mundo para conhecer os números #pág. 56A - Métodos Probabilísticos5.3.3.1 Amostragem Aleatória SimplesAmostragem não Aleatória:Procedimento de selecção de elementos dapopulação que permite a escolha dos indivíduos aincluir na amostra segundo determinado critériomais ou menos subjectivo. Nesta forma deamostragem não se conhece a probabilidade dedeterminado elemento ser seleccionado.Importa salientar que só com a utilização deamostras aleatórias é possível conhecer o grau deconfiança (grau de certeza que se tem a respeitoda precisão da estimativa) dos resultados, mas emcontrapartida são as amostras não aleatórias quepossibilitam a conclusão mais rápida do estudo ecom menor custo (Vicente, Reis e Ferrão, 1996).Quer se escolha uma amostra aleatória ou não,o importante é obter estimativas próximas dosparâmetros a estimar e isto só se consegue setivermos uma amostra o mais representativapossível do universo.O tipo de amostragem probabilística maisconhecido é o da amostragem aleatória simples.Segundo Stuart (1984), uma amostra aleatóriasimples (a.a.s.) de dimensão n é uma amostraseleccionada por um processo que confere acada conjunto possível de n elementos a mesmaprobabilidade de ser seleccionado.Pode-se mostrar que neste plano de amostragem,todos os elementos da população têm a mesmaprobabilidade de serem escolhidos para fazerparte da amostra.Plano de Amostragem:Metodologia adoptada para obter a amostra dapopulação.A obtenção de uma amostra aleatória simplespode ser feita mediante os seguintes passos(Vicente, Reis e Ferrão, 1996):Depois de feita uma pequena introdução acercados tipos de amostras veremos a seguir, commais pormenor, as várias técnicas amostrais. Osprincipais tipos de Amostragem Aleatória são:simples, sistemática, estratificada, por Clusters,multi-etapas e multi-fases.Fig. 6 -Entrevista de ruarealizada porta a portaPassos para obtenção de uma amostraaleatória simples:1. Numerar consecutivamente os elementos dapopulação de 1 a N;2. Escolher n elementos mediante o uso de umprocedimento aleatório como seja o métododa lotaria ou utilizando tabelas de númerosaleatórios, que podem ser geradas porcomputador. Os números têm que serdiferentes e não superiores a N;3. Uma vez escolhidos os números, os elementosda população que lhes correspondemconstituirão a amostra.


pág. 57# o inquérito estatísticoA escolha das a.a.s. nem sempre é a melhoropção. Devido a todos os indivíduos da populaçãoterem a mesma possibilidade de pertenceremà amostra, pode resultar em amostras muitodispersas geograficamente e, se forem exigidasentrevistas pessoais, a amostra obtida torna-sedispendiosa e morosa. Estas amostras podem seruma óptima escolha se a população for reduzida;existirem listas com os elementos da população,sendo portanto possível a definição da basede sondagem e se a dispersão geográfica doselementos não for um problema.5.3.3.2 Amostragem SistemáticaExemplo de utilização da amostragem aleatória simples:Considere-se uma população constituída por20 nomes, de onde se pretende seleccionaraleatoriamente 10 nomes. O investigador associacada nome da lista inicial a um número de 1 a20, por exemplo, por ordem alfabética, sendoos números representados por dois dígitos- como por exemplo o 1, que será escrito 01.Depois, com o auxílio de uma tabela de númerosaleatórios (que se encontra praticamente emtodos os livros de Estatística), o investigadorvai seleccionando números de dois dígitos, atécompletar a dimensão da amostra necessária.Repare-se que haverá necessidade de seleccionarmais de 10 números, pois alguns não terãocontrapartida na população considerada – porexemplo, se seleccionar o 56, terá de o deitarfora e seleccionar um outro número. Um outroprocesso consiste em gerar aleatoriamente, pelocomputador (folha de cálculo, etc.) 10 númerosaleatórios entre 1 e 20.Numa população com N elementos, o númerototal de amostras possíveis de n elementos,retirados sem reposição é dado por:NC N !n , pelo que a probabilidade de cadan!( N n)!uma ser seleccionada é N!1( )n!(N n )!Dada uma população de dimensão N, ordenadapor algum critério, uma amostra sistemática, dedimensão n, é obtida seleccionando aleatoriamenteum elemento de entre os primeiros K da base desondagem, onde K é a parte inteira do quocienteN/n, e adicionando todos os K-ésimos elementosseguintes (Vicente, Reis e Ferrão, 1996).Passos para obtenção de uma amostrasistemática de dimensão n:1. Calcular o intervalo k da amostra (obtido peloquociente N/n, em que k representa a parteinteira desse quociente).2. Escolher aleatoriamente um número j entre 1e k.Partindo desse número, adicionar sucessivamenteo valor k, ficando assim seleccionados oselementos j, j+k, j+2k, j+3k, …, j+(n-1)k,perfazendo um total de n observaçõesseleccionadas para a amostra.A selecção de um elemento, na amostrasistemática, depende do que foi anteriormenteseleccionado. De facto só o primeiro elementoé que é seleccionado aleatoriamente, sendo osrestantes dependentes dessa primeira escolha.Neste tipo de amostra a probabilidade de selecçãonão é igual para todos os elementos.(ver “combinatória” no curso de Noções Probabilidades doALEA em: www.alea.pt/html/probabil/html/cal_combinatorio/html/calcomb.html)


pág. 58um mundo para conhecer os números #Exemplo de utilização da amostragem sistemática(população conhecida)- retirado de Vicente, Reis e Ferrão, (1996)Consideremos uma população com 5135 indivíduose pretende-se uma amostra aleatória sistemáticade dimensão 100. Então o intervalo da amostraserá 5135/100 ou seja 51,35, originando k=51;seguidamente, escolhe-se aleatoriamente umnúmero entre 1 e 51 (por exemplo o 2) e porfim, todos os 51-ésimos da lista. Neste caso aamostra seria composta pelos elementos 2, 53,104, 155, … ,5051.Por vezes a amostragem sistemática (a.s.)é preferível à amostragem aleatória simples(a.a.s.), por ser mais fácil de realizar devidoao facto de precisar de menos tempo do que ométodo de a.a.s. que utiliza o método da lotaria.Por outro lado, tem como desvantagens adificuldade de atribuir números ao acaso, quandoa população é desconhecida. Nestes casos, ovalor j é escolhido ao acaso, mas os restanteselementos (j+k, j+2k, etc) são escolhidos poraplicação de um intervalo fixo, e portanto, não sãoescolhidos aleatoriamente (Hill, Hill, 2000).Outra desvantagem é que se deve ter em contaos padrões de repetição que podem enviesar aamostra. Imaginemos, por exemplo, que existea necessidade de controlar a pontualidade ea assiduidade de um determinado funcionário.A população em estudo é composta pelosregistos diários de entrada e saída do livro deponto. Suponhamos que este funcionário estáautorizado a chegar mais tarde às quartasfeiraspor imperativos familiares. Se optarmospela amostragem sistemática para a recolhada amostra e se k=7, sendo o primeiro dia umaquarta-feira, teremos de seleccionar apenas asquartas-feiras, o que enviesará a amostra. Estetipo de problemas surge sempre que a populaçãoestá associada a padrões de repetição, comoacontece neste caso com os dias da semana.Exemplo de utilização da amostragem sistemática(população desconhecida):Suponhamos que queremos extrair uma amostrade 20 pessoas compradoras de um determinadoestabelecimento comercial.Como não sabemos qual a dimensão da nossapopulação, não podemos aplicar a a.a.s., logovamos ter de aplicar a amostragem sistemática.Como fazemos para obter a nossa amostra?Podemos optar pelo critério de escolher umcomprador de 5 em 5 pelo que, o 5º, 10º, 15º,20º, etc. são os elementos pertencentes à nossaamostra.5.3.3.3 Amostragem Aleatória EstratificadaEnquanto as duas formas de amostragemanteriores consideram a população como umtodo, existem situações em que conseguemidentificar-se subdomínios ou subgrupos, queresultam da divisão da população em grupos ouestratos (Vicente, Reis e Ferrão, 1996). É ocaso da amostragem estratificada. Nesta, cadaestrato é tomado como uma população separadae a selecção dos elementos dentro de cada umdos estratos é feita à parte.A amostragem estratificada tem, assim, porprincípio, dividir a população em subconjuntoschamados estratos, de forma a realizar umasondagem em cada um deles.Estrato:Subgrupo de elementos da população, que sepretende que sejam o mais homogéneos possívelentre si no que respeita à característica emestudo.


pág. 59# o inquérito estatísticoPassos para obtenção de uma amostraestratificada:1. Definir os estratos. Os estratos têm de serbastante diferentes uns dos outros, mas oselementos dentro de cada estrato têm de tercaracterísticas comuns (ex. sexo, grupoetário).2. Seleccionar os elementos dentro de cadaestrato, independentes uns dos outros.3. Conjugar os elementos seleccionados em cadaestrato, que na sua totalidade constituem aamostra.Este tipo de amostragem é muito usado, vistoque a maioria das populações podem ser divididasem estratos (por exemplo, homens/mulheres,alunos do ensino superior/não superior, etc)e conduz-nos a análises de subgrupos comvariabilidades inferiores do que na a.a.s. Este tipode amostragem tem como desvantagem ser muitocaro e moroso quando existem muitos estratos.A população com N unidades é, assim, divididaem subpopulações ou estratos com N1, N2,…, Nk elementos, onde N1+N2+…+Nk = N.Os estratos assim formados são mutuamenteexclusivos e exaustivos.Como já foi referido, a lógica que assisteà estratificação de uma população é a daidentificação de grupos que variam muito entresi, ou seja, no que diz respeito ao parâmetro emestudo, mas muito pouco dentro de si, ou seja,cada grupo é homogéneo e com pouca variabilidade(Vicente, Reis e Ferrão, 1996). Cada estrato étomado como uma população separada, de onde seretira uma amostra, que fornece uma estimativa.As estimativas obtidas a partir dos k estratosservem de base à construção de estimativas doparâmetro populacional em estudo.Parâmetro:Indicador quantitativo referente a um atributo oucaracterística da população (ex. média de idadesdas mulheres, total de pequenas empresas,etc.).Fig. 7 -Esquema daamostragem aleatóriaestratificadaPopulação...AmostrasExemplo de utilização da amostragem aleatóriaestratificada:Suponhamos que se pretendia estudar o volumedas vendas de prestação de serviços dasempresas de construção civil. Podemos à partidaconsiderar a População das empresas dividas em 3estratos quanto ao número de trabalhadores queemprega: pequenas – 10 ou menos trabalhadores,médias – entre 11 e 40 e grandes – mais de 41trabalhadores. Uma vez identificados os estratos,procede-se numa segunda etapa à recolha deuma a.a.s. dentro de cada estrato. Admitindoque a população em estudo é constituída por 500empresas, das quais 55% são pequenas, 35% sãomédias e 10% são grandes e que a dimensão daamostra pretendida é de 85, seleccionaríamos,amostras de dimensão 47, 30 e 8, respectivamentedo conjunto das pequenas, das médias e dasgrandes empresas. Esta selecção teve em contaa manutenção da igualdade da proporção dotamanho da amostra em cada estrato. Existemoutros métodos de estratificação que podem serconsultados em Cochran


pág. 60um mundo para conhecer os números #5.3.3.4 Amostragem Aleatória por CachosUm cacho, grupo ou “cluster”, é uma entidadeque ocorre naturalmente associada a umarealidade. Uma escola, por exemplo (compostapor várias salas, alunos e professores) podeser considerada um “cluster” ou cacho. Podemser considerados “clusters” universidades,hospitais, cidades, países, etc, onde existamréplicas da população a estudar. Estes grupossão seleccionados aleatoriamente e todos oselementos desse grupo são incluídos na amostra.Como nem sempre é fácil obtermos bases desondagens, a utilização da amostragem porcachos torna-se mais económica e é muitoutilizada quando queremos fazer uma sondagemque cobre uma grande área geográfica.Para exemplificarmos melhor este tipo deamostragem, consideremos um cacho de uvas.Se nós retirarmos uma uva do cacho, ficamos asaber se o resto das uvas desse mesmo cacho éde boa qualidade ou não, não precisando de comero cacho todo, pelo que a selecção de todos oselementos do cacho para pertencerem à amostraresulta numa certa redundância.Verifica-se que o princípio que torna eficiente aamostra estratificada torna ineficiente a amostrapor cachos (Vicente, Reis e Ferrão, 1996). Quantomais semelhantes forem os elementos dentro deum cacho, melhores serão os resultados se essecacho for usado como um estrato na amostraestratificada e piores se forem usados comounidades amostrais na amostragem por cachos.Cacho ou Cluster:Grupo de unidades elementares da população,idealmente com a mesma variabilidade dapopulação.A preferência por este tipo de amostragem emmuitos casos deve-se muitas vezes ao factode esta ter um custo reduzido relativamente aoutros tipos de amostragem.Passos para obtenção de uma amostra porcachos:Exemplo: diferenças entre a amostragem estratificada eamostragem por cachosCaso 1: amostragem estratificadaOs empregados da firma XYZ são agrupados deacordo com os departamentos onde trabalham(vendas, marketing, investigação e produção).Seleccionam-se, em seguida, 10 empregados,aleatoriamente, de cada grupo.Caso 2: amostragem por cachosCinco hotéis da cadeia Lírios (que é composta por10 hotéis) foram seleccionados aleatoriamente.Todos os empregados desses 5 hotéis foramconsiderados na amostra.1. Especificar os cachos, isto é, geralmente oselementos dos cachos estão fisicamente muitopróximos e por isso apresentam característicasmuito similares. Assim, pode não terinteresse definirmos cachos muito grandes.2. Seleccionar uma amostra de cachosaleatoriamente e incluir na amostra todosos elementos que pertencem aos cachosseleccionados.


pág. 61# o inquérito estatísticoFig. 8 -Esquema daamostragem aleatória porcachos. Podemos imaginar que oscahos (aqui representados pelascélulas) são os hotéis do exemploacima referido . Neste caso, apenasdois dos hotéis foram seleccionados,num total dos 5 que existem napopulação.A amostra do Inquérito ao Emprego realizadopelo INE, por exemplo, é recolhida com basenum processo de amostragem multi-etápica.De acordo com a sua metodologia (INE, 1998)a população é repartida num certo número deunidades primárias (freguesias). Cada unidadeprimária é, por sua vez repartida por secçõesestatísticas (áreas geográficas contíguas e umaúnica freguesia com cerca de 300 alojamentos).Cada secção estatística constitui uma unidadesecundária. Em cada secção são listadas todasas unidades de alojamento que a constituem.Unidade Amostral::Elemento ou grupo de elementos da população.Uma amostra é constituída por unidadesamostrais baseada em métodos probabilísticos.PopulaçãoAmostrasB - Métodos Não Probabilísticos5.3.3.5 Amostragem Aleatória Multi-EtapasA amostragem multi-etapas pode ser consideradacomo uma extensão da amostragem por cachosem que só alguns dos cachos são seleccionadose dos grupos ou cachos só se retiram algunsatravés de amostragem aleatória simples.Depois de termos abordado algumas técnicasde amostragem aleatória, vamos ver algunstipos de amostragem não aleatória. SegundoBacelar (1999), ao contrário das técnicasaleatórias, estas técnicas não têm “garantiaestatística” de que a amostra seleccionada sejarepresentativa. Não existe, nestes casos, umateoria estatística de suporte à obtenção deamostras representativas, mas pode existir umaprobabilidade significativamente elevada de quea amostra obtida seja representativa, emboraesta probabilidade não seja muitas vezes fácilde determinar. Estas técnicas de amostragemnão aleatória são muito utilizadas e muitoúteis quando não é possível usar amostrasaleatórias, no âmbito de estudos preliminares ouexploratórios.Exemplos de cachos numa amostragem multi-etapas(Vicente, Reis e Ferrão, 1996):Clusters ou unidadeamostral primáriaUnidade amostralsecundáriaUnidade amostralterciáriaUnidade amostralquaternáriaFreguesia Quarteirão Prédio HabitaçãoPáginaLinha de TextoPaís Centro urbano Estab. comercial


um mundo para conhecer os números #pág. 625.3.3.6 Amostragem por ConveniênciaUma amostra por conveniência consiste numgrupo de indivíduos que se encontram disponíveisno momento da investigação. Estas amostrasnão são representativas da população (Vicenteet al, 1996). Apesar da sua fragilidade científica,este tipo de amostragem pode ser usada comêxito em situações nas quais captar ideias geraise identificar aspectos críticos pode ser maisimportante do que a objectividade científica,como é o caso da realização de pré-testes de umquestionário. Devido ao caracter “oportunista”da amostra, os seus elementos podem não serrepresentativos da população.Exemplo de utilização da amostragem por conveniência:Consideremos um estudo sobre a associaçãoentre o rendimento das famílias e o acesso aserviços de saúde mental (psicanálise, psicologiamédica, etc.). Para um estudo deste tipo, uminvestigador colocou 5 entrevistadores, em frentea 5 supermercados e 5 igrejas de um bairrodegradado nos subúrbios de Nova Iorque.5.3.3.7 Amostragem “Bola de Neve”Este tipo de amostragem recai nos indivíduosque foram previamente identificados comopertencentes à amostra. É uma técnica utilizadanos casos em que não existe informação disponívelsobre a população, ou torna-se impossíveldisponibilizá-la. Este tipo de amostragem é utilizadoquando se pretende analisar populações pequenasou com características muito específicas.Para construir uma amostra baseada nestatécnica, o entrevistador pede ajuda ao inquirido,após ser entrevistado, para que este forneçanomes de outros indivíduos que possam serigualmente inquiridos (Vicente et al, 1996). Uminconveniente deste processo é que as pessoasque são entrevistadas, têm tendência a indicaremamigos o que leva por vezes a termos uma amostrade pessoas que pensam e agem de forma idêntica.Exemplo de utilização da amostragem “Bola de Neve”:Vamos supor que queremos uma amostra detoxicodependentes que residem no Porto. Como nãotemos nenhuma listagem, o que fazemos é tentarencontrar uma pessoa com essa característicae, depois de a entrevistarmos, pedirmospara nos indicar o nome de outras pessoastoxicodependentes residentes no Porto e garantirque não referimos qual a fonte dessa informação


pág. 63# o inquérito estatístico5.3.3.8 Amostragem por quotasEste é o método não aleatório de amostragemmais utilizado. É muito semelhante à amostragemaleatória estratificada, mas a selecção doselementos da amostra não é aleatória. Aexistência deste método de amostragem justificasefundamentalmente pela inexistência delistagens da população (Vicente et al, 1996). Aamostragem por quotas conduz a uma amostraonde a proporção de elementos que possuem umadeterminada característica é aproximadamenteigual à proporção de indivíduos na populaçãoque possuem essa mesma característica. Porexemplo, se a população tem tantos homens comomulheres, o mesmo vai acontecer na amostra.Neste método o tempo de realização do trabalhode campo é inferior ao dos métodos aleatórios,pois não há necessidade de contactar mais do queuma vez o entrevistado (Vicente et al, 1996). Seno primeiro contacto o indivíduo não se encontraé automaticamente substituído por outro. Estapode ser uma vantagem expressiva se existir umagrande urgência na obtenção da informação.Passos para obtenção de uma amostrapor quotas:1. Definir as quotas, isto é, dividir a população emcategorias. A escolha das variáveis é feita namaioria dos casos com base no recenseamentoda população, quando se trata de variáveissócio-demográficas.2. Seleccionar os elementos, cabendo aoentrevistador tomar a decisão de quem éescolhido. A única obrigatoriedade é querespeite as quotas estabelecidas no plano deamostragem. Muitas vezes definem-se planospara seleccionar os elementos, tais comocircuitos urbanos ou fórmulas para encontraro andar e o alojamento a inquirir num prédio.A qualidade de uma amostra por quotas dependeda forma como os entrevistadores procuramos indivíduos e entram em contacto com eles(Ghiglione e Matalon, 1992). Para assegurar umamelhor representatividade, os entrevistadoresdevem ser enviados para zonas tiradas à sorte. Aí,eles poderão, ou abordar quem passa, ou utilizaro método porta-a-porta, ou eventualmente,combinar os dois. A reprodução das distribuiçõesda população deve ser considerada como umacondição necessária, mas não suficiente, daqualidade de uma amostra.Exemplo de utilização da amostragem por quotas:Suponhamos que queremos fazer uma pesquisasobre “quem pratica exercício físico”. É certo quetemos de ter em conta a idade, o sexo, tempolivre, etc. O primeiro passo que tem de ser dadoé saber a proporção existente na populaçãodessas características. Vamos supor que existemna população 40% de homens e 60% mulheres.Então, o entrevistador terá de inquirir 40% dehomens e 60% de mulheres, o que será a sua“quota”.De seguida, apresentamos um quadro comparativode alguns métodos probabilísticos e nãoprobabilísticos, mais utilizados.


pág. 64Fig. 9 - Métodos de amostragemprobabilísticos e nãoprobabilísticos mais utilizados– quadro resumoMétodo/descrição Vantagens DesvantagensMétodos ProbabilísticosAmostragem Simples(Qualquer conjunto de n elementostem a mesma probabilidade de serseleccionado, de onde resulta queos elementos têm igual probabilidadede serem seleccionados)Utilização fácil.Os membros de alguns gruposde interesse menos representativospodem não ocorrer nas proporçõesdesejadas.Amostragem Estratificada(a população estudada é agrupadade acordo com características deinteresse ou estratos)Conduz a análises porsubgrupos com variânciasinferiores do que na amostragem simples.Caro e moroso quando existemmuitos estratosAmostragem Sistemática(todo o x-ésimo elemento da populaçãoé seleccionado até perfazer o tamanhoda amostra, de acordo com um passofixo. Esse passo é determinadodividindo o tamanho da população pelotamanho da amostra desejado).Conveniente quando existeuma listagem de nomes comosuporte da amostra.Dever-se-á ter em conta ospadrões de repetiçãoque podem enviesar a amostra.Amostragem por Cachos eMulti-etápica(Dos grupos formados naturalmente eque fazem parte da amostra serãoinquiridos todos os seus elementos).Utilização conveniente quandoexistem unidades estatísticasque correspondem aos gruposdesejados (escolas, hospitais,etc.)Métodos não ProbabilísticosAmostragem por Conveniência(utilização de indivíduos que seencontram disponíveis).Amostragem "Bola de neve"(Elementos previamenteidentificados identificam outrosmembros da população)Amostragem por quotas(A população é dividida em grupos,com base em características quesó são identificáveis através daentrevista).Método prático pois ainvestigação recai em unidades jádisponíveis (estudantes nas escolas,doentes na sala de espera, etc.).Útil quando não existem referênciassobre a população ou essasreferências são muito difíceis deobter.Torna-se prático quando existeinformação fiável sobre as proporçõesdos atributos que interessam napopulação.Devido ao caracter"oportunista" da amostra,os seus elementos podemnão ser representativosda população.A amostra pode resultarbastante enviesada.Neste processo o entrevistadorpode conferir involutariamenteenviesamentos na selecção dosinquiridos.


pág. 65# o inquérito estatístico5.3.4 Como determinar a dimensão da amostraA questão da dimensão a considerar para amostraé sempre uma decisão importante no processo desondagem. Há dois aspectos muito importantesa ter em conta nesta fase: a precisão requeridapara os resultados (pois existe sempre um erroque se pretende que seja o mais reduzido possível)e as limitações de tempo e de custo envolvidas nasondagem.Também temos de ter em conta que quanto maiorfor a amostra, maior é a precisão, mas tambémmaior é o custo. Por isso, devemos conjugar bemas duas situações.A dimensão da amostra necessária para obteruma determinada precisão nos resultados só podeser calculada matematicamente se as amostrasforem escolhidas por um processo aleatório.Caso contrário, segundo Weiers (1998) temostrês opções: adoptar a dimensão já utilizada, comsucesso, em estudos anteriores das mesmascaracterísticas, ter em conta o orçamentodisponível para o estudo e os custos envolvidose por fim supormos que a amostra é aleatória ever qual a dimensão que seria necessária, sendoo valor encontrado meramente indicativo. Umaamostra deve ser representativa da população,isto é, tem de apresentar os aspectos típicos,pois a amostra é um modelo em miniatura dapopulação. Deve-se ter presente que a dimensãoda amostra a recolher não é directamenteproporcional ao tamanho da população e queessa dimensão depende fundamentalmente davariabilidade existente na população. Por exemplo,se relativamente à população constituída pelosalunos do 10º ano de uma escola secundária,estivermos interessados em estudar a suaidade média, a dimensão da amostra a recolhernão necessita de ser muito grande já que avariável idade apresenta valores semelhantes,numa classe etária restrita. No entanto se acaracterística a estudar for o tempo médio queos alunos levam a chegar de casa à escola, jáamostra terá de ter uma dimensão maior, umavez que a variabilidade da população é muito maior.Cada aluno pode apresentar um valor diferentepara esse tempo. Num caso extremo, se numapopulação a variável a estudar tiver o mesmovalor para todos os elementos, então bastariarecolher uma amostra de dimensão 1 para seter informação completa sobre a população; se,no entanto, a variável assumir valores diferentespara todos os elementos, para se ter o mesmotipo de informação seria necessário investigartodos os elementos (Graça Martins, 2001).Exemplo: Determinação do tamanho da amostra numproblema de estimação de uma proporção pPretende-se determinar a verdadeira proporçãop de indivíduos com rendimento inferior a 1000contos por ano numa região portuguesa. Ointervalo de confiança para uma proporção tema seguinte forma (admitindo uma dimensão daamostra maior que 100):sendo:c = parâmetro determinado pelo nívelde confiança desejadon = tamanho da amostraf = frequência relativa do atributo naamostra (proporção) f (1 f) f (1 f) fc; f c nn Assim, a dimensão da amostra é determinadafixando a amplitude (A) e o nível de confiançadesejados.24cf (1 f)n 2A


pág. 661. Consideremos uma população de dimensão N e seja p a proporção (desconhecida) de elementosda população que verificam determinada característica. Para estimar esta proporção p, recolhe-seuma amostra de dimensão n e calcula-se a proporção p’ de elementos nessa amostra, que verificam acaracterística em estudo. Então o estimador p’ é um bom estimador de p, com algumas propriedadesmuito interessantes, entre as quais sobressai o facto de ter uma variância (medida da variabilidadeentre p e p’) igual ap(1p)N n( )n N 1Repare-se que se a dimensão n da amostra, for muito pequena quandocomparada com a dimensão da população, N-n é aproximadamente igual a N-1,e fica unicamente o 1º factor da expressão que mede a variabilidade. É por estarazão que se diz que “quando a dimensão da população é muito grande quandocomparada com a dimensão da amostra, pode-se considerar infinita”.2. Intervalo de confiança para a proporção pIndependentemente de como se chega lá, a forma do intervalo de confiança para p, com uma confiançade 100(1-α)% (α é um valor normalmente considerado da ordem de 0,05, e daí ser costumeapresentar o intervalo de 95% de confiança!) ép ´( 1 p'), p’ + zn(p’ + z )p ´( 1p')nAmplitude do intervalo =2 zp ´( 1p')nÀ quantidadezp ´( 1p')nchama-se a margem de erro ou precisão da sondagem.3. Qual a dimensão da amostra que é necessário recolher para obter um intervalo com umadeterminada precisão d e com um nível de confiança 100(1-α)%?Teremos de resolver a seguinte equação em ordem a n:zp 1 p')nzn> ( 2) p'(1p')d´( ( )2dApresenta-se a seguir a tabela dos valores de Zα, para alguns valores de α:Confiança 100(1-)% z90% 1.64595% 1.96098% 2.32699% 2.576Exemplo: Pretende-se saber se a população em geraltem confiança nos professores. Pretende-se obter umaestimativa com uma confiança de 95% e uma margem deerro no máximo de 0.05. Qual a dimensão da amostra quese deve recolher?Se para a mesma confiança pretendermos uma margemde erro de 0.02, virá que a dimensão da amostra é muitomaior, pois terá de ser igual a 2401!1.96 2n> ( )20.05n=385


pág. 67# o inquérito estatístico6. Recolha da informaçãonecessária dos elementos daamostra5.3.5 Seleccionar os elementos da amostraTal como vimos nos itens anteriores, existemvárias formas de seleccionarmos os elementosde uma amostra. Nas amostras aleatórias oesquema de selecção designa objectivamentequal o elemento a ser escolhido. Nestes casos,devido à existência de listagens prévias quecontêm as referências sobre os elementosincluídos na amostra, é possível identificarcada um dos inquiridos e estabelecer contactos(pessoais, via telefone, ou por correio) de modoa desencadear o processo de recolha de dados.No caso do Inquérito ao Emprego do INE, porexemplo, os seleccionados são contactadospor correio, seguindo-se um conjunto de váriasvisitas pessoais dos entrevistadores. Se aamostra for não aleatória, o entrevistador temde seleccionar os elementos a incluir e, para tal,devido à inexistência de uma base de sondagem,é necessário recorrer ao julgamento humano(Vicente, Reis e Ferrão, 1996). No caso daamostragem por quotas, por exemplo, existemguiões ou planos que constituem um bom auxílio,pois ajudam o entrevistador a introduzir algumaaleatoriedade no processo de selecção dosentrevistados. Estes guiões ou planos contêmfórmulas para seleccionar as ruas dentro de umafreguesia, ou para seleccionar alojamentos dentrode um edifício.Uma vez seleccionados os elementos da amostrahá que os contactar no sentido de obter os dadosnecessários para a concretização do objectivodo estudo. Num estudo por sondagem existemessencialmente três métodos de recolha deinformação: a entrevista pessoal, entrevistatelefónica e o questionário por correio. Cadaum destes métodos tem as suas vantagens edesvantagens, as quais passam a ser mencionadas.6.1 Entrevista PessoalA entrevista pessoal pode ser considerada comouma conversa entre duas pessoas, face a face,iniciada e conduzida pelo entrevistador com opropósito particular de obter informação relevante,no sentido de concretizar os objectivos do estudo(Mayer, 1974). Este tipo de recolha de informação,foi durante muito tempo o mais utilizado, sendohoje em dia, bastante importante na realizaçãode alguns inquéritos realizados pelo INE. Estemétodo de recolha de informação pode ser umbocado dispendioso, visto haver necessidade deformação prévia do entrevistador e este ter dese deslocar ao local do inquirido para obter aentrevista. Por vezes estas deslocações têm deser feitas várias vezes, porque os entrevistados


pág. 68um mundo para conhecer os números #não se encontram em casa, ou porque naquelemomento não estão disponíveis para responderao questionário. Por vezes pode também ocorreruma recusa, o que torna este método maisdispendioso do que os outros dois métodosseguintes. Segundo Aaker e Day (1990) só 30%a 40% do tempo do entrevistador é gasto coma entrevista propriamente dita, pois o restantetempo é ocupado em deslocações, localização dosinquiridos, etc. É certo, que este método temvantagens em relação ao questionário por correio,pois a entrevista pode ser conseguida em poucosminutos enquanto que o questionário por correiopode demorar semanas. A taxa de respostas émais elevada na entrevista pessoal, devido ao factode haver maior incentivo para a resposta por partedo entrevistador para com o entrevistado.Entrevistador:Pessoa responsável pela recolha de informaçãoque vai de encontro aos objectivos particularesde cada estudo, realizando as entrevistas deacordo com as regras estabelecidas.6.2 A Entrevista TelefónicaA entrevista telefónica é uma alternativa àentrevista pessoal. A recolha desta informaçãoé feita pelo telefone, tal como o nome diz, ondeo entrevistador realiza o questionário aoentrevistado. Este método torna-se por vezesmais barato do que o anterior. Por exemplo,se tivermos em conta que não é necessáriofazer várias deslocações aos alojamentos paraconseguirmos as entrevistas sendo o tempo quese gasta a fazer uma entrevista por telefonemenor do que no caso da entrevista pessoal,este método é muito mais vantajoso. Mas, nemtudo são vantagens, pois se o questionário formuito longo, pode fatigar-se mais depressa e ainteracção com o entrevistador é menor.Entrevista Pessoal:Pode ser considerada como uma conversa entreduas pessoas, face a face, iniciada e dirigidapelo entrevistador com o propósito particularde obter informação relevante, no sentido deconcretizar os objectivos do estudo.6.3 O Questionário por Correio ou deauto-preenchimentoA característica deste método é que aquele quevai responder ao questionário, após ter lido asquestões e explicações que as acompanham,deverá por si só redigir as suas respostassem poder recorrer a um entrevistador. Estemétodo é aconselhável no caso de populaçõesgeograficamente dispersas. Os custos de recolhade informação são reduzidos. Os questionários sãopré-testados várias vezes para se ter a certezaque as questões são entendidas e que todas aspessoas as entendem da mesma maneira. Apesardos custos serem reduzidos, a questão do temponem sempre é muito favorável, portanto quando setem de obter respostas rápidas este método não éaconselhável. Além do mais, deve-se ter em contaa taxa de não respostas que neste tipo de recolhade informação pode ser sempre mais elevado faceaos anteriores.


pág. 69# o inquérito estatísticoHoje em dia, com o desenvolvimento dos CallCenters (locais onde se realizam e recebemchamadas telefónicas), muitos inquéritospassavam a fazer-se no modo CATI-COMPUTERASSISTED TELEPHONE INTERVIEW-. Têmprofilerado, também, os inquéritos via web,realizados no modo CAWI- COMPUTER ASSISTEDWEB INTERVIEW.Numa última fase, é necessário ter em atençãoa apresentação do relatório final. Segundo Hille Hill (2000) existem vários tipos de relatórios:por exemplo o académico e o interno. Ambos têmestruturas semelhantes e contêm os itens que aseguir se apresentam.7. Organização e apresentaçãodos dadosDepois da definição do problema a estudar, daplanificação do inquérito e da recolha dos dadostemos o problema da organização os dados. Aorganização dos dados consiste em “resumir”os resultados obtidos de uma forma simplese clara para melhor serem interpretados. Aapresentação dos dados pode ser feita de váriasmaneiras. Por exemplo, numa abordagem inicial,os dados podem ser apresentados em tabelasde frequências, diagramas de barras, diagramascirculares, histogramas, etc. Para obter maisinformações sobre a organização dos dados aonível da estatística descritiva introdutória, podeconsultar os Dossiês sobre Estatísticas comExcel e Gráficos, disponíveis na página do ALEA(www.alea.pt/html/statofic/html/dossier/html/dossier.html) e neste livro.Pode também consultar os resultados dos Mini-Censos realizados a várias escolas do nosso país,disponíveis na página:www.alea.pt/html/statofic/html/dossier/doc/Dossier5_2.PDF, onde encontraráum exemplo de formas de organização dos dados.Pode ainda consultar a Galeria Virtual (www.alea.pt/html/galvirt/html/galeriavirt.html) que contémexemplos de gráficos e quadros que sintetizam ainformação principal dos inquéritos realizados.7.1 Algumas recomendaçõesQualquer relatório deve conter um título que identifiquequal o conteúdo apresentado no relatório. Oíndice deve conter todos os capítulos existentes norelatório. Devem ser enumerados e conter o númeroda página onde começam.Embora o resumo seja a primeira parte do relatório,é normal não o escrever até que todas as outrascomponentes estejam escritas, revistas, “polidas” eexistam nas suas versões finais. (Hill e Hill, 2000). Oresumo deve conter a informação sobre qual a razãoque levou a fazer a investigação, como foi feita, quaisos resultados mais importantes e as conclusõestiradas acerca da sua investigação e comopodem ajudar a resolver o problema. A introduçãotem como objectivo explicar qual a natureza dainvestigação e as razões que a justificaram edeve apresentar uma breve panorâmica sobre osrestantes capítulos do relatório.7.2 Os resultadosExistem várias maneiras de apresentar resultadosnuméricos. Devemos sempre apresentar uma análiseexploratória inicial dos dados, com particular incidêncianum resumo das principais variáveis analisadas.


um mundo para conhecer os números #pág. 70Por exemplo, nos “Mini-Censos”, uma das variáveisanalisadas foi a altura dos indivíduos 1 . Norelatório que apresenta os resultados destetrabalho, um dos quadros contém uma síntesedescritiva desta variável:NMinimoMáximoMédiaDesvio padrãoALTURA917192170133.219.917Para os mesmos dados optou-se por fazerigualmente uma representação gráfica, soba forma de um histograma (ver regras deconstrução de histogramas nas Noções deEstatística do ALEA).número de crianças200018001600140012001000800600AlturaPara a variável “Número de irmaõs”, apresentousea tabela de frequências e o gráfico circularcorrespondente.Neste quadro podemos ver o número de irmãosque cada criança tem. Podemos observar quecerca de metade das crianças que responderam aesta questão têm mais um irmão e que 16% sãofilhos únicos. 18% das crianças têm 2 irmãos e asrestantes têm 3 ou mais.número de irmãosNão responderamTotal01234 ou maisTotalFrequênciasAbsolutas1403 16.4 16.44356 50.8 67.11540 18.0 85.1636 7.4 92.5643 7.5 100.08578 100.05939171FrequênciasRelativas (%)FrequênciasRelativasAcumuladas (%)400200Quantos irmãos tens?090.0 100.0 110.0 120.0 130.0 140.0 150.0 160.0 170.095.0 105.0 115.0 125.0 135.0 145.0 155.0 165.0Altura em cm7.4%7.5%16.4%18.0%50.8%0 irmãos1 irmão2 irmãos3 irmãos4 ou mais irmãos1 Uma das principais iniciativas realizadas pelo ALEA em 2001 foia do “Mini-Censos” destinado às escola básicas. Remeteram-se osinquéritos a escolas do 1º ciclo e toda a informação recolhida foiorganizada e tratada por uma equipa conjunta envolvendo tambémtécnicos do INE e da Sociedade Portuguesa de Estatística. os “Mini-Censos” tiveram com principal propósito dar a conhecer aos alunoso que são, para que servem e como se fazem os Censos. O relatóriocom os resultados deste encontra-se disponível em: www.alea.pt/Html/statofic/html/censos2001/html/censos2001.html


pág. 71# o inquérito estatísticoSegundo Hill e Hill (2000) quando apresentamosos resultados, devemos ter em atenção qual onosso público alvo, para assim escolhermos ométodo mais adequado de apresentação. Quandoo público alvo está habituado a ler e interpretarquadros, devemos utilizá-los mas de uma formaa facilitar a sua interpretação. Por outro lado,quando o público alvo não está habituado aler e interpretar quadros, devemos utilizargráficos para apresentar a informação maisimportante. Ambas as escolhas de apresentaçãodos resultados devem ser acompanhadas poruma explicação em forma de texto para melhorcompreensão do leitor. Os quadros e gráficosapresentados devem ser todos numerados econterem um título.Para esta fase do trabalho recomendamos uma consulta aosdossiês didácticos “Estatística com Excel” e “Representaçõesgráficas”.• CAMPOS, P. (1997), Relatório de aula teórica -práticasobre Teoria da Amostragem, PAPCC, FEP, Universidadedo Porto.• CAMPOS, P. (2000), Módulo 2 - da Concepçãoao Tratamento Estatístico de Questionários -Apontamentos do curso de Análise Estatística deDados com SPSS. Escola Superior de Biotecnologia daUniversidade Católica, Porto.• GHIGLIONE, R. e MATALON, B. (1992), O Inquérito,Teoria e Prática, Oeiras, Celta Editora;• GOMES, P. (1998), Tópicos de Sondagens, (Cursoapresentado no âmbito do VI Congresso da SociedadePortuguesa de Estatística - Tomar, 9 a 12 de Junho de1998);• GRANGÉ, D., LEBART, L. (1994), TraitementsStatistiques des Ênquetes, Paris, Edições Dunod;• HILL, M. M., Hill, A. (2000), Investigação porQuestionário, Lisboa, Edições Sílabo;• INE (1998), Inquérito ao Emprego - Série - 1998;também disponível na Internet na publicação referente1º Trimestre de 1998 das Estatísticas do Emprego.• LIMA, M. P. (1981), O Inquérito Sociológico -Problemas de Metodologia, 2ª Ed., Editorial Presença;• MARTINS, E. G., (2001), Noções Básicas sobreAmostragem - Introdução à Inferência Estatística,Departamento de Estatística e InvestigaçãoOperacional, Faculdade de Ciências da Universidade deLisboa;8. Ver também…Publicações• ALEA, “Estatística com Excel”, Dossiê Didáctico nºIV, disponível em: http://alea.ine.pt/html/statofic/html/dossier/html/meio_dossier4.html• ALEA, “Representações Gráficas - notas sobre acriação e apresentação de alguns tipos de gráficos”,Dossiê Didáctico nº IX, disponível em: http://alea.ine.pt/html/statofic/html/dossier/html/meio_dossier9.html• BACELAR, S. (1999), Relatório de Aula Teórico-Prática sobre Amostragem nas Ciências Sociais,PAPCC, FEP, Porto, Universidade do Porto;• STUART, A., (1984), The Ideas of Sampling,Monograph no. 4, Charles Griffin and Company Ltd,London;• VICENTE, P., REIS, E. e FERRÃO, F. (1996),Sondagens - A amostragem como factor decisivo daqualidade, Lisboa, Edições Sílabo;• WEIERS, R.M. (1998), Marketing Research, 2nd Ed.,Prentice-Hall, London.Web sites:http://www.socio-estatistica.com.br/http://www.fecap.br/portal/index.aspNestes dois sites pode encontrar algumas sugestõessobre a construção de questionários e algumas referênciasbibliográficas.


pág. 73Luísa Canto E Castro Loura# Maria Eugénia Graça MartinsEstatísticaDescritivacom EXCEL


pág. 75# Estatística Descritiva com EXCELSumário1 – Noções básicas sobreamostragem1.1 Introdução1.2 Aquisição de dados: sondagens eexperimentações. População e amostra.Parâmetro e Estatística.1.3 Técnicas de amostragem aleatória1.4 Estatística Descritiva e InferênciaEstatística.2 – Representação e redução de dados.Tabelas e gráficos2.1 Introdução.2.2 Utilização do Excel na obtenção de tabelasde frequência2.3 Utilização do Excel na representaçãográfica de dados2.4 Alguns exemplos3 – Características amostrais.Medidas de localização e dispersãoEstatística Descritivacom EXCELComplementosLuísa Canto E Castro Loura# Maria Eugénia Graça Martins3.1 Introdução.3.2 Medidas de localização3.3 Medidas de dispersão3.4 Função Descriptive Statistics4 – Dados bivariados4.1 Introdução4.2 Tabelas de contingência4.3 Utilização das PivotTables paraagrupar dados5 – Introdução à simulação5.1 Introdução5.2 Obtenção de probabilidades por simulação.Lista de algumas funções usadas no ExcelBibliografia/ Outros recursos.Anexo – Ficheiro Deputados


um mundo para conhecer os números #pág. 76Este dossiê começou por ter como objectivoservir de apoio à interpretação do programado módulo B2 dos cursos profissionais. Nestescursos era pressuposto que os alunos tivessemum módulo de Estatística onde aprenderiam osprincipais conceitos e técnicas subjacentes aotratamento e redução de colecções de dados.Nota IntrodutóriaEste dossiê é constituído por 5 capítulos, cadaum autónomo dos restantes. Assim, um leitorinteressado em saber como construir uma tabelade frequências ou um histograma vai directamentepara o Capítulo 2, “Representação e reduçãode dados. Tabelas e gráficos”, sem necessitarde passar pelo Capítulo 1. Do mesmo modo,se estiver interessado em utilizar o Excel, porexemplo, no cálculo da média ou da mediana,vai directamente para o Capítulo 3. Assim, éfundamental a consulta do índice, para situar osseus interesses imediatos.Entretanto fizemos uma revisão do texto iniciale pensamos que a sua utilização poderá serútil a todos os que pretenderem implementaras referidas técnicas. O software escolhido é oExcel (versão em Inglês) que, embora não seja umsoftware estatístico, inclui funções para cálculodas principais estatísticas descritivas, permiterealizar as principais representações gráficas e,mediante recurso a outras funções predefinidas,permite ainda efectuar procedimentos nãoimediatos como seleccionar aleatoriamente umaamostra, construir histogramas com classesde diferente amplitude, organizar os dados emtabelas de contingência ou, até mesmo, procederà simulação de pequenas experiências aleatórias.A abordagem foi feita de uma forma que sepretendeu simples, pois o nosso objectivo foifazer uma introdução à utilização do Excel. Paraa resolução de alguns dos exemplos tratados,haverá outros tipos de abordagem, aindautilizando o Excel e incentivamos fortementeos leitores a enveredarem e ensaiarem outrasalternativas, que possam eventualmente serutilizadas.Não é demais repetir a ideia de que a Estatísticaé uma ciência e também é uma arte. Assim, cadautilizador da Estatística pode dar um pouco desi ao fazer um tratamento de dados, mesmoque esse tratamento seja só exploratório oudescritivo.


pág. 77# Estatística Descritiva com EXCELPorém, na última década, em grande partedevido às facilidades computacionais postas àsua disposição, os Estatísticos têm-se vindo apreocupar cada vez mais, com a necessidadede desenvolver métodos de análise e exploraçãodos dados, que dêem uma maior importânciaaos dados e que se traduz na seguinte frase“Devemos deixar os dados falar por si”.1. Noções básicas sobreamostragem1.1 - Introdução 1Não é uma tarefa simples definir o que é aEstatística. Por vezes define-se como sendo umconjunto de técnicas de tratamento de dados,mas é muito mais do que isso! A Estatística é uma“arte” e uma ciência que permite tirar conclusõese de uma maneira geral fazer inferências a partirde conjuntos de dados.Até 1900, a Estatística resumia-se ao que hojeem dia se chama Estatística Descritiva ou Análisede Dados. Apesar de tudo, deu contribuiçõesmuito positivas em várias áreas científicas.A necessidade de uma maior formalização nosmétodos utilizados, fez com que, nos anosseguintes, a Estatística se desenvolvesse numaoutra direcção, nomeadamente no que diz respeitoao desenvolvimento de métodos e técnicasde Inferência Estatística. Assim, por volta de1960 os textos de Estatística debruçam-seespecialmente sobre métodos de estimação e detestes de hipóteses, assumindo determinadasfamílias de modelos, descurando os aspectospráticos da análise dos dados.Do que dissemos anteriormente, podemo-nosaperceber que a Estatística é uma ciênciaque trata de dados e que num procedimentoestatístico estão envolvidas duas fasesimportantes, nomeadamente a fase que dizrespeito à organização de dados – Análise deDados, e a fase em que se procura retirarconclusões a partir dos dados, dando aindainformação de qual a confiança que devemosatribuir a essas conclusões – InferênciaEstatística. Existe, no entanto, uma fase pioneira,que diz respeito à Produção ou Aquisição deDados. Para realçar a importância desta faseconsideremos, por analogia, o que se passaquando se pretende realizar um determinadocozinhado. Começa-se por seleccionar osingredientes, que serão depois manipulados deacordo com determinada receita. O resultadodo cozinhado pode ser desastroso, emborade aspecto agradável. Efectivamente se osingredientes não estiverem em condições,resulta um prato de aspecto semelhante aoque se obteria com ingredientes bons, masde sabor intragável. O mesmo se passa com oprocedimento estatístico. Se os dados não forembons, embora se aplique a técnica correcta, oresultado pode ser desastroso, na medida em quese pode ser levado e retirar conclusões erradas.Hoje em dia com a utilização cada vez maiorde dados nas mais variadas profissões e nasmais diversas situações do dia a dia, torna-senecessário acompanhar este processo de umacultura estatística que cada vez mais abarqueum maior número de pessoas, para que maisfacilmente se consiga compreender o mundo quenos rodeia.1 Este capítulo segue de perto o texto Introdução àProbabilidade e à Estatística – Com complementos de Excel, deMaria Eugénia Graça Martins, edição da Sociedade Portuguesade Estatística, 2005.


um mundo para conhecer os números #pág. 78Sendo a Estatística a ciência que trata dosdados, gostaríamos desde já de chamar a atençãopara que fazer estatística é muito mais do quefazer cálculos e manipular fórmulas. Tambémnão é matemática, embora utilize a matemática.Efectivamente, ao fazer estatística trabalhamoscom dados, que são mais do que números! Comodiz David Moore (1997) “ Data are numbers, butthey are not “just numbers”. Data are numberswith a context. The number 10.5, for example,carries no information by itself. But if we hearthat a friend’s new baby weighed 10.5 pounds atbirth, we congratulate her on the healthy size ofthe child. The context engages our backgroundknowledge and allows us to make judgements. Weknow that a baby weighing 10.5 pounds is quitelarge, and that it isn’t possible for a human babyto weigh 10.5 ounces or 10.5 kilograms. Thecontext makes the number informative”.Da experiência que temos no dia a dia com osdados já concluímos, com certeza, que estesapresentam variabilidade. Por exemplo é comumque um pacote de açúcar que na embalagem tenhaescrito um quilograma, não pese exactamente umquilograma. Por outro lado ao pesar duas vezeso mesmo pacote possivelmente não obteremoso mesmo valor. Assim, ao dizermos que o pesodo pacote é um determinado valor, não podemoster a certeza que esse valor seja correcto.Esta variabilidade está presente em todas assituações do mundo que nos rodeia, pelo que asconclusões que tiramos a partir dos dados que senos apresentam, têm inerente um certo grau deincerteza.A Estatística trata e estuda esta variabilidadeapresentada pelos dados. Permite-nos a partirdos dados retirar conclusões, mas tambémexprimir o grau de confiança que devemos ternessas conclusões. É precisamente nestaparticularidade que se manifesta toda apotencialidade da Estatística.Podemos então, e tal como refere David Mooreem Perspectives on Contemporary Statistics,considerar três grandes áreas nesta ciência dosdados:1. Aquisição de dados2. Análise dos dados3. Inferência a partir dos dadosNeste capítulo vamos abordar o primeiro temaconsiderado, ou seja o que diz respeito àAquisição de Dados, numa perspectiva de quepretendemos obter dados, a partir dos quais seriapossível responder a determinadas questões,isto é, posteriormente retirar conclusões paraas Populações a partir das quais esses dados sãoadquiridos – contexto em que tem sentido fazerinferência estatística. Vamos assim, preocuparnosem obter amostras representativas dePopulações que se pretendem estudar.1.2 – Aquisição de dados: sondagens eexperimentações. População e amostra.Parâmetro e Estatística.O mundo que nos rodeia será mais facilmentecompreendido se puder ser quantificado. Em todasas áreas do conhecimento é necessário saber“o que medir” e “como medir”. Na Estatísticaensina-se a recolher dados válidos, assim como ainterpretá-los.Perante um conjunto de dados podem-se distinguirduas situações:• Aquela em que o estatístico é confrontadocom conjuntos de dados sem ter qualquer ideiapreconcebida sobre o que é que vai encontrare então procede a uma análise exploratóriade dados, quase sempre utilizando processos


pág. 79# Estatística Descritiva com EXCELprocess of gathering or collecting data. Data arethe raw material of which statistical informationis made, and in order to get good statisticalinformation one needs good data”.gráficos, análise esta que revelará aspectos docomportamento dos dados. Neste caso não sefala em amostras, mas sim conjuntos de dados(Murteira, 1993) e de uma maneira geral a análiseexploratória é suficiente para os fins que se têmem vista;• Uma outra em que procede à análise de dadoscom propósitos bem definidos no sentido deresponder a questões específicas. Neste casoos dados têm que ser produzidos ou adquiridospor meio de técnicas adequadas de forma a queresultem dados válidos (amostras representativas).Estas técnicas, em que é fundamental aintervenção do acaso, revolucionaram e fizeramprogredir a maior parte dos campos da ciênciaaplicada. Pode-se dizer que hoje em dia não existeárea do conhecimento para cujo progresso nãotenha contribuído a Estatística.1.2.1 – Sondagens. População e amostra.Parâmetro e Estatística.Estas noções, que já foram dadas num móduloanterior, são aqui de novo apresentadas,unicamente com o objectivo de enquadrar oestudo seguinte, ou seja, o de introduzir algumasnoções de Amostragem.O objectivo de uma sondagem é o de recolherinformação acerca de uma população,seleccionando e observando um conjunto deelementos dessa população.Abordaremos de seguida algumas das técnicasde aquisição de dados, que se enquadram nestaúltima situação, em que se distinguem asSondagens e Experimentações (aleatoriezadas).Gostaríamos desde já de realçar que o objectivodeste texto é o de explorar, de uma formasimples, algumas das técnicas de amostragem,com vista à realização de sondagens, situaçõesque se encontram de um modo geral nas CiênciasSociais, ao contrário das Ciências experimentais,tais como Física ou Química, em que a recolhade dados se faz fundamentalmente recorrendo aexperiências. Por exemplo, a população constituídapelos eleitores, a população constituída pelacontas sedeadas num banco, etc., que só contêmum número finito de elementos, ao contrário daPopulação conceptual de respostas geradas porum processo químico.Não é demais realçar a importância desta fase,a que chamamos de Produção ou Aquisiçãode Dados. Como é referido em Tannenbaum(1998), página 426: “Behind every statisticalstatement there is a story, and like a story ithas a beginning, a middle, an end, and a moral.In this first statistics chapter we begin with thebeginning, which in statistics typically means theSondagemEstudo estatístico de uma população, feiroatravés de uma amostra, destinado a estudaruma ou mais características tais como elas deapresenta nessa população.Por exemplo, numa fábrica de parafusos odepartamento de controlo de qualidade pretendesaber qual a percentagem de parafusosdefeituosos. Tempo, custos e outros inconvenientesimpedem a inspecção de todos os parafusos.Assim, a informação pretendida será obtidaà custa de uma parte do conjunto – amostra,mas com o objectivo de tirar conclusões parao conjunto todo – população. Se se observaremtodos os elementos da população tem-se umrecenseamento. Por vezes confunde-se sondagemcom amostragem. No entanto a amostragem dizrespeito ao procedimento da recolha da amostraqualquer que seja o estudo estatístico que sepretenda fazer, pelo que a amostragem é uma dasfases das sondagens, já que estas devem incluirainda o estudo dos dados recolhidos, assim como aelaboração do relatório final.


um mundo para conhecer os números #pág. 80População, unidade, amostraPopulação é o conjunto de objectos, indivíduosou resultados experimentais acerca do qual sepretende estudar alguma característica comum.As populações podem ser finitas ou infinitas,existentes ou conceptuais. Aos elementos dapopulação chamamos unidades estatísticas.Amostraque interrogados disseram estar decididos avotar”. Estas quantidades são conceptualmentedistintas, pois enquanto a característicapopulacional (parâmetro) pode ser consideradaum valor exacto, embora desconhecido, acaracterística amostral (estatística) é conhecida,embora difira de amostra para amostra, mas quetodavia pode ser considerada uma estimativa útilda característica populacional respectiva.ParâmetroÉ uma característica numérica da população,enquanto que a estatística é uma característicanumérica da amostra.É uma parte da população que é observada como objectivo de obter informação para estudar acaracterística pretendida.PopulaçãoAmostraGeralmente, há algumas quantidades numéricasacerca da população que se pretendem conhecer.A essas quantidades chamamos parâmetros.ParâmetroEstatísticaPor exemplo, ao estudar a população constituídapor todos os potenciais eleitores para aslegislativas, dois parâmetros que podem terinteresse são:• idade média dos potenciais eleitores que estãodecididos a votar;• percentagem de eleitores que estão decididos avotar.Para conhecer aqueles parâmetros, teria de seperguntar a cada eleitor a sua idade, assim comoa sua intenção no que diz respeito a votar ou não.Esta tarefa seria impraticável, nomeadamente porquestões de tempo e de dinheiro.Os parâmetros são estimados por estatísticas,que são números calculados a partir dosdados que constituem a amostra. No caso doexemplo anterior, se se tivesse recolhido umaamostra de dimensão 1000, à característicapopulacional “percentagem de eleitores que estãodecididos a votar” corresponde a característicaamostral “percentagem dos 1000 eleitores,No entanto, para se poder utilizar as estatísticas,para estimar parâmetros é necessário que asamostras sejam representativas das populaçõesde onde foram retiradas.Observação – Anteriormente dissemos que umaestatística é um número calculado a partir dosdados da amostra, que se utiliza para estimar umparâmetro. Como, de um modo geral, podemosrecolher muitas amostras diferentes, embora damesma dimensão, teremos muitas estatísticasdiferentes, como estimativas do parâmetroem estudo. Tantas as amostras diferentes (2amostras da mesma dimensão serão diferentesse diferirem pelo menos num dos elementos)que se puderem obter da população, tantas asestimativas eventualmente diferentes que sepodem calcular para o parâmetro. Então podemosconsiderar que todas estas estimativas são osvalores observados de uma função dos elementosda amostra, a que se dá o nome de estimador. Aesta função também se dá o nome de estatística,


pág. 81# Estatística Descritiva com EXCELutilizando-se assim, indevidamente, o mesmotermo para a variável e o valor observado davariável.É oportuno chamar a atenção para o seguinte:por vezes a População que se estuda, ou seja aPopulação inquirida, não é a objecto do estudo –População alvo ou População objectivo. Por exemplo,se se pretende estudar a População constituídapelos indivíduos adultos de nacionalidade portuguesa- População alvo, a População inquirida pode, noentanto, ser constituída pelos indivíduos adultos denacionalidade portuguesa e residentes no territórioportuguês, à data do inquérito.1.2.1.1 – Amostra enviesada. Amostra aleatória eamostra não aleatória.Uma amostra que não seja representativa daPopulação diz-se enviesada e a sua utilização podedar origem a interpretações erradas, como sesugere nos seguintes exemplos:• utilizar uma amostra constituída por 10benfiquistas, para prever o vencedor do próximoBenfica - Sporting!• utilizar uma amostra constituída por leitoresde determinada revista especializada, para tirarconclusões sobre a opinião da população em geral.ou seja para a população de onde os dados foramrecolhidos e de modo a que os resultados obtidospossam ser considerados válidos. Vem a propósitoreferir a seguinte frase de Fisher: “Ao pedir a umEstatístico que diagnostique dados já recolhidos,muitas vezes só se obtém uma autópsia”.O planeamento de um estudo estatístico, quecomeça com a forma de seleccionar a amostra,deve ser feito de forma a evitar amostrasenviesadas. Alguns processos que provocamquase sempre amostras enviesadas são, porexemplo, a amostragem por conveniência ea obtenção de uma amostra por respostavoluntária. Este último processo é usado, commuita frequência, pelas estações de televisão oujornais, com resultados por vezes contraditórioscom os que se obtêm quando se utiliza umprocesso correcto (aleatório) de seleccionar aamostra.A utilização de uma amostragem por conveniênciatambém se realiza frequentemente, quando seselecciona a amostra a partir de uma listagem doselementos de determinado clube ou grupo, comopor exemplo a Ordem dos Engenheiros. A seguirapresentamos exemplos de más amostras ouamostras enviesadas e resultado da sua aplicação:Um processo de amostragem diz-se enviesadoquando tende sistematicamente a seleccionarelementos de alguns segmentos da População, ea não seleccionar sistematicamente elementos deoutros segmentos da População.Surge assim, a necessidade de fazer um planeamentoda amostragem, onde se decide quais ecomo devem ser seleccionados os elementosda População, com o fim de serem observados,relativamente à característica de interesse. Deum modo geral, o trabalho do Estatístico devecomeçar antes de os dados serem recolhidos.Deve planear o modo de os recolher, de forma aque, posteriormente, se possa extrair o máximo deinformação relevante para o problema em estudo,Amostra 1 – A SIC pretende saber qual apercentagem de pessoas que é a favor dadespenalização do aborto. Para isso indicoudois números de telefone, um dos quais paraas respostas SIM e o outro para a respostaNÃO. Resultado – A utilização da percentagemde respostas positivas como indicação dapercentagem da população portuguesa queé a favor da despenalização do aborto éenganadora. Efectivamente só uma pequenapercentagem da população responde a estasquestões e de um modo geral tendem a serpessoas com a mesma opinião.Amostra 2 – Uma estação de televisãopreparou um debate sobre o aumento decriminalidade, onde enfatizou o facto de teraumentado o número de crimes violentos. Ao


pág. 82um mundo para conhecer os números #mesmo tempo, e inserida no mesmo programa,decorria uma sondagem de opinião sobre seas pessoas eram a favor da implementação dapena de morte. Esta recolha de opiniões erafeita no molde descrito no exemplo anterior,isto é, por resposta voluntária. Resultado– A utilização da percentagem de SIM´s,que naturalmente se espera elevada, dá umaindicação errada sobre a opinião da populaçãoem geral. As pessoas influenciadas pelo debatee pelo medo da criminalidade serão levadas atelefonar dando indicação de estarem a favorda pena de morte.Amostra 3 – Recolha de opiniões de algunsleitores de determinada revista técnica, pararepresentar as opiniões dos portugueses emgeral.Resultado – Diferentes tipos de pessoaslêem diferentes tipos de revistas, pelo que aamostra não é representativa da população.Basta pensar que, de um modo geral, apopulação feminina ainda não adere às revistastécnicas como a população masculina. Aamostra daria unicamente indicações sobrea população constituída pelos leitores da talrevista.Amostra 4 – Utilização de alguns alunosde uma turma, para tirar conclusões sobreo aproveitamento de todos os alunos daescola. Resultado – Poderíamos concluir que oaproveitamento dos alunos é pior ou melhor doque na realidade é. As turmas de uma escolanão são todas homogéneas, pelo que a amostranão é representativa dos alunos da escola.Poderia servir para tirar conclusões sobre apopulação constituída pelos alunos da turma.Amostra 5 – Utilização dos jogadores de umaequipa de basquete de uma determinada escolapara estudar as alturas dos alunos dessaescola. Resultado – O estudo concluiria que osestudantes são mais altos do que na realidadesão.Os exemplos que apresentámos anteriormentesão exemplos de amostras enviesadas porquetiveram a intervenção do factor humano. Como objectivo de minimizar o enviesamento, noplaneamento da escolha da amostra deve ter-sepresente o princípio da aleatoriedade de forma aobter uma amostra aleatória.Amostra aleatória e amostra não aleatória – Dada umapopulação, uma amostra aleatória é uma amostratal que qualquer elemento da população temalguma probabilidade de ser seleccionado para aamostra. Numa amostra não aleatória, algunselementos da população podem não poder serseleccionados para a amostra.Amostra aleatória e amostra não aleatóriaDada uma população, uma amostra aleatóriaé uma amostra tal que qualquer elemento dapopulação tem alguma probabilidade de serseleccionado para a amostra. Numa amostra nãoaleatória, alguns elementos da população podemnão poder ser seleccionados para a amostra.Quando se pretende recolher uma amostra dedimensão n, de uma População de dimensãoN, podemos recorrer a vários processos deamostragem. Como normalmente o objectivoé, a partir das propriedades estudadas naamostra, inferir propriedades para a População,gostaríamos de obter processos de amostragemque dêem origem a “bons” estimadores. Emboraa classificação de um estimador como “bom”ou não, saia fora do âmbito deste trabalho,podemos adiantar que essa análise só podeser efectuada se conseguirmos estabelecerum plano de amostragem que atribua a cadaamostra seleccionada uma determinadaprobabilidade, e esta atribuição só pode ser feitacom planos de amostragem aleatórios. Assim, éimportante termos sempre presente o princípioda aleatoriedade, quando vamos proceder aum estudo em que procuramos alargar para aPopulação as propriedades estudadas na amostra.Numa secção posterior apresentaremos técnicaspara obter amostras aleatórias.


pág. 83# Estatística Descritiva com EXCELdoença, pelo que se seleccionaram 20 doentespadecendo dessa doença; h) Pretendia-se averiguaro nº de carros vendidos num dia por um stand deautomóveis, pelo que se investigou junto de porcada um dos 5 empregados desse stand, quantoscarros tinha vendido; i) Pretendia-se averiguar onúmero de leitores dos jornais diários, pelo que seinvestigou junto de 6 jornais diários, o número deleitores. j) Pretendia-se averiguar a percentagemde raparigas que frequentam o tronco comumde Matemática Aplicada da FCUL, pelo que seseleccionaram 50 alunos do dito curso.ExercíciosPopulação e AmostraParâmetro e EstatísticaIdentifique, no que se segue, População eAmostra:a) Numa determinada empresa, pretende-sesaber qual o salário médio dos seus empregados,pelo que se recolheu informação sobre os saláriosmensais, auferidos pelos empregados dessaempresa;b) Prendia-se saber a nota média obtida naprova global de Matemática no ano lectivo2000¬2001, dos alunos do 10º ano da EscolaSecundária Prof. Herculano de Carvalho, pelo quese recolheu informação sobre as notas obtidasnessa disciplina por todos os alunos da Escola;c) Pretendia-se averiguar a idade média dosalunos do 10º ano da Escola Secundária Prof.Herculano de Carvalho, pelo que se recolheuinformação sobre a idade de 45 alunos do 10ºano dessa Escola; d) Pretendia-se averiguar aquantidade de vinho produzida no Alentejo, noano de 1999, pelo que se recolheu informaçãosobre as quantidades de vinho produzidas por 10agricultores da região do Alentejo; e) Pretendiaseestudar o salário médio auferido pelostrabalhadores da indústria têxtil, pelo que serecolheu informação sobre os salários mensaisauferidos por 250 desses trabalhadores; f)Pretendia-se averiguar a quantidade mensal debatata consumida nos lares portugueses, pelo quese recolheu informação sobre as quantidades debatata consumidas mensalmente em 100 laresportugueses; g) Pretendia-se estudar a eficáciade um medicamento novo para curar determinada1. Diga se são verdadeiras ou falsas as seguintesafirmações:a) Uma estatística é um número que se calcula apartir da amostra; b) Os parâmetros utilizam-separa estimar estatísticas; c) A média populacionalé um parâmetro; d) Um parâmetro é umacaracterística numérica da variável que se está aestudar na População.2. Identifique cada uma das quantidadesseguintes, a negrito, como parâmetro ouestatística:a) Nas últimas eleições para a Associação deEstudantes da Escola, 67% dos estudantes quevotaram, fizeram-no na lista vencedora; b) Paraobter uma estimativa do número de irmãos dosalunos que frequentam o 4.º ano de uma escolabásica, perguntou-se a 30 alunos, escolhidosao acaso, quantos irmãos tinham. Verificou¬seque em média, tinham 1.5 irmãos. c) Dos 230deputados que compõem a VIII legislatura, 21.3%são mulheres. d) Perguntou-se a 80 deputadosqual o partido que representavam, tendo-seconcluído que 49% representavam o PS. e)Perguntou-se a 10 deputados qual a sua idade,tendo-se concluído que a idade média era de 45anos.


um mundo para conhecer os números #pág. 84Amostras enviesadas eamostras aleatórias1. (Adaptado de Rossman, 2001) Considere aPopulação constituída pelos deputados da VIIIlegislatura, que se encontra em anexo. Seleccione5 deputados de que já tenha ouvido falar.a) Estes deputados constituem uma amostraou uma população? b) Quantos deputados, nos 5seleccionados, pertencem ao círculo eleitoral dasua residência? c) Suponha que está interessadaem estudar o n.º médio de anos de serviço dosdeputados que constituem a VIII legislatura.Considera o conjunto de deputados seleccionadosrepresentativos da população? Porquê? d) Secalculasse a média dos anos de serviço dosdeputados seleccionados esperava obter um valorsuperior ou inferior ao da média populacional? e)Se na sua aula ou outros colegas seleccionassemconjuntos de 5 deputados, pelo mesmo processo,isto é, deputados que lhe sejam familiares,espera que a média dos anos de serviço, tenhaa mesma tendência, de sistematicamente exibirum enviesamento em determinado sentido?Explique. f) Se tivesse seleccionado pelo mesmoprocesso 10 deputados, obteria uma amostramais representativa do que a constituída pelos 5deputados? Explique.1.2.2 - ExperimentaçõesEnquanto que o objectivo de uma sondagemé o de recolher informação acerca de umapopulação seleccionando e observando umaamostra da população tal qual ela se apresenta,pelo contrário, uma experimentação impõe umtratamento às unidades experimentais com ofim de observar a resposta. O princípio base deuma experimentação é o método da comparação,em que se comparam os resultados obtidos navariável resposta de um grupo de tratamento comum grupo de controlo.Exemplo 1.2.2.1 (Moore, 1997) – Será que aaspirina reduz o perigo de um ataque cardíaco? Oestudo conhecido por Physicians’ Health Study, foiuma experimentação médica levada a cabo com oobjectivo de responder a esta questão específica.Metade de um grupo de 22000 médicos (homens)foram escolhidos aleatoriamente para tomaruma aspirina todos os dias. A outra metadedos médicos tomou um placebo, que tinha omesmo aspecto e sabor da aspirina. Depois devários anos 239 médicos do grupo que tomouplacebo, contra 139 do grupo que tomou aspirina,tiveram ataques cardíacos. Esta diferença ésuficientemente grande para evidenciar o efeito daaspirina na prevenção dos ataques cardíacos.Unidades experimentais, tratamento, variávelresposta, variáveis explanatórias.Unidades experimentais são os objectos sobre osquais incide a experimentação e a quem é aplicadouma condição experimental específica, a quechamamos tratamento. Variável resposta é a variávelcujo comportamento pretendemos estudar. Asvariáveis explanatórias são as variáveis que explicamou causam mudanças na variável resposta.No estudo considerado anteriormente temos:• Unidades experimentais – 22000 médicos• Tratamentos – aspirina ou placebo• Variável explanatória – se o indivíduo tomouaspirina ou placebo• Variável resposta – se o indivíduo teve ou nãoataque cardíaco.


pág. 85TratamentoUnidadesexperimentaisAtribuição aleatóriaGrupo 1Grupo 2Respostas aotratamento 1Respostas aotratamento 2ComparaçãoSem a comparação de tratamentos os resultados de experimentações em medicina e em ciênciasdo comportamento, duas áreas onde estes métodos são largamente utilizados, poderiam ser muitoinfluenciados pela selecção dos indivíduos, o efeito do placebo, etc. O resultado poderia vir enviesado.Um estudo não controlado de uma nova terapia médica é quase sempre enviesado no sentido de darao tratamento um maior sucesso do que ele tem na realidade (efeito placebo).Exemplo 1.2.2.2 (Moore, 1997) - Um tratamento utilizado durante vários anos para tratar úlcerasdo estômago consistia em pôr o doente a aspirar, durante uma hora, uma solução refrigerada queera bombeada para dentro de um balão. Segundo o Journal of the American Medical Association,uma experimentação levada a efeito com este tratamento permitiu concluir que o arrefecimentogástrico reduzia a secreção de ácido, diminuindo a propensão para as úlceras. No entanto, veio-sea verificar mais tarde com um planeamento adequado, que a resposta dos doentes ao tratamentofoi influenciada pelo efeito placebo – efeito confounding. O que acontece é que há doentes querespondem favoravelmente a qualquer tratamento, mesmo que seja um placebo, possivelmente pelaconfiança que depositam no médico e pelas expectativas de cura que depositam no tratamento. Numplaneamento adequado feito anos mais tarde, um grupo de doentes com úlcera foi dividido em doisgrupos, tratando-se um com a solução refrigerada e o outro grupo com um placebo, constituído poruma solução à temperatura ambiente. Os resultados desta experimentação permitiram concluir quedos 82 doentes sujeitos à solução refrigerada - grupo de tratamento, 34% apresentaram melhoras,enquanto que dos 78 doentes que receberam o placebo - grupo de controlo, 38% apresentarammelhoras.Num planeamento experimental, uma vez identificadas as variáveis e estabelecido o protocolodos tratamentos, segue-se uma segunda fase que consiste na atribuição de cada unidadeexperimental a um tratamento. Esta segunda fase deve ser regida pelo princípio da aleatoriedade.Este princípio tem como objectivo fazer com que os grupos que vão ser comparados, tenham àpartida constituição semelhante, de forma que as diferenças observadas na variável respostapossam ser atribuídas aos efeitos dos tratamentos. Assim, a atribuição de cada indivíduo aogrupo de tratamento ou de controlo é feita de forma aleatória. Combinando a comparação com aaleatoriedade, podemos esquematizar da seguinte forma o tipo de planeamento mais simples:Ao comparar os resultados temos de ter presente que haverá sempre alguma diferença que setem de atribuir ao facto de os grupos não serem perfeitamente idênticos e algumas diferençasque se atribuem ao acaso. O que se pretende é averiguar se as diferenças encontradas nãoserão “demasiado grandes” para que se possam atribuir a essas causas, ou seja, verificar se nãotendo em linha de conta a diferença entre os tratamentos, a probabilidade de obter as diferençasobservadas não seria extremamente pequena. Se efectivamente esta probabilidade for inferior aum determinado valor (de que falaremos mais tarde) dizemos que a diferença é estatisticamentesignificativa, sendo de admitir que foi provocada pelos diferentes tratamentos.


um mundo para conhecer os números #pág. 861.3 - Técnicas de amostragem aleatóriaConvém ainda observar que numa experimentaçãoos indivíduos seleccionados para cada grupo nãodevem saber qual o tipo de tratamento a queestão a ser sujeitos, nem o investigador queestá a conduzir a experimentação e a medir osresultados deve saber qual o tipo de tratamentoque cada indivíduo seguiu. Temos o que se chamauma experimentação duplamente cega. Estaprecaução é uma forma de evitar o enviesamento,quer nas respostas, quer nas medições (ummédico ao observar o efeito de um tratamentoque provoque, por exemplo, uma mancha vermelhana pele, pode estar condicionado na interpretaçãoda gravidade dessa mancha se souber qual otratamento a que o doente foi sujeito).Seguidamente apresentaremos alguns dosplaneamentos mais utilizados para seleccionaramostras aleatórias. Dos vários tipos deplaneamento utilizados, destacam-se os queconduzem a amostras aleatórias simples,amostras aleatórias com reposição, amostrassistemáticas e amostras estratificadas.1.3.1 - Amostragem aleatória simples(sem reposição) e amostragem aleatóriacom reposiçãoO plano de amostragem aleatória mais básico é oque permite obter a amostra aleatória simples:Em muitas situações os investigadores têm dese cingir aos estudos observáveis, já que não épossível conduzir uma experimentação controlada.Por exemplo, para estudar o efeito do tabacono cancro do pulmão, o investigador limita-sea observar grupos de indivíduos que fumam ounão, não podendo ser ele próprio a seleccionarum conjunto de indivíduos e depois pô-losaleatoriamente a fumar tabaco ou um placebo.No capítulo seguinte abordaremos de formaintrodutória o estudo de alguns planos deamostragem, já que um estudo conveniente doplaneamento das experiências, assim como dadefinição da amostra adequada para o estudoem vista contêm, por si só, matéria suficientepara ser objecto de várias disciplinas num cursode Estatística, nomeadamente as disciplinas dePlaneamento de Experiências e Amostragem.Amostra aleatória simplesDada uma população, uma amostra aleatóriasimples de dimensão n é um conjunto de nunidades da população, tal que qualquer outroNconjunto dos nconjuntos diferentes den unidades teria igual probabilidade de serseleccionado.Se uma população tem dimensão N e sepretende uma amostra aleatória simplesde dimensão n, esta amostra é recolhidaaleatoriamente de entre todas as N = nN!n! (N-n)!N(N= =-1)(N- 2)...(N - nn(n -1)(n - 2)...11)amostras distintas que se podem recolher dapopulação. Isto implica que cada amostra tenha a1mesma probabilidade Nde ser seleccionada. nUma amostra destas pode ser escolhida sequencialmenteda população, escolhendo um elementode cada vez, sem reposição, pelo que em cada


pág. 87# Estatística Descritiva com EXCELselecção cada elemento tem a mesma probabilidadede ser seleccionado. Um esquema de amostragemaleatória simples, conduz a que cada elementoda População tenha a mesma probabilidade deser seleccionado para a amostra. No entantoexistem outros esquemas de amostragem emque cada elemento tem igual probabilidade deser seleccionado, sem que cada conjunto de nelementos tenha a mesma probabilidade de serseleccionado. É o que se passa com a amostragemaleatória sistemática, de que falaremos adiante.Amostragem com reposiçãoNa amostragem com reposição, sempre queum elemento é seleccionado, ele é reposto napopulação, antes de seleccionar o seguinte,ao contrário do que acontece na amostragemsem reposição. Intuitivamente conseguimosapercebermo-nos de que se a dimensão dapopulação for “grande”, quando comparada coma dimensão da amostra, estes dois tipos deamostragem podem ser considerados de certomodo equivalentes, já que a probabilidade deseleccionar o mesmo elemento duas vezes é“muito pequena”.Dada uma população de dimensão N, referir-nosemosa uma amostra aleatória de dimensão n, comreposição, como um conjunto de n unidades dapopulação, tal que qualquer outro conjunto dosN n conjuntos diferentes de n unidades, teria igualprobabilidade de ser seleccionadoExemplo 1.3.1.1 – Consideremos a populaçãoconstituída pelos 18 alunos de uma turma do10.º ano de uma determinada Escola Secundária,em que a característica de interesse a estudaré a altura média desses alunos. Uma maneirapossível de recolher desta população umaamostra aleatória, seria escrever cada um dosindicadores (n.º do aluno, nome, …) dos elementosda população num quadrado de papel, inserirtodos esses bocados de papel numa caixa edepois seleccionar tantos quantos a dimensão daamostra desejada.A recolha tem de ser feita sem reposiçãopois quando se retira um papel (elemento dapopulação), ele não é reposto enquanto a amostranão estiver completa (com a dimensão desejada).Qualquer conjunto de números recolhidos destaforma dará origem a uma amostra aleatóriasimples, constituída pelas alturas dos alunosseleccionados (desde que se tenha o cuidado decortar os bocadinhos de papel todos do mesmotamanho, para ficarem semelhantes, e de osbaralhar convenientemente). A partir de cadaamostra, pode-se calcular o valor da estatísticamédia, que será uma estimativa do parâmetroa estudar – valor médio da altura dos alunos daturma. Obter-se-ão tantas estimativas, quantasas amostras retiradas.Chama-se a atenção para o facto de nestaaltura não se poder dizer qual das estimativasé “melhor”, isto é, qual delas é uma melhoraproximação do parâmetro a estimar, já que esseparâmetro é desconhecido (obviamente que nestapopulação tão pequena seria possível estudarexaustivamente todos os seus elementos, nãosendo necessário recolher nenhuma amostra -este exemplo só serve para ilustrar uma situação)!1.3.1.1 – Números aleatóriosA probabilidade de cada uma das amostras serseleccionada é igual a 1/Nn.Exemplificamos a seguir um processo de obteruma amostra aleatória simples.O processo que acabámos de descrever não éprático se a população a estudar tiver dimensãoelevada. Neste caso, um dos processos deseleccionar uma amostra aleatória simplesconsiste em utilizar uma tabela de númerosaleatórios.


um mundo para conhecer os números #pág. 88Dígitos aleatóriosUma tabela de dígitos aleatórios é uma listagemdos dígitos 0, 1, 2, 3, 4, 5, 6, 7, 8 ou 9 tal que:- qualquer um dos destes dígitos tem igual possibilidadede figurar em qualquer posição da lista;- a posição em que figura cada dígito é independentedas posições dos outros dígitos.Apresenta-se a seguir um extracto de uma tabelade números aleatórios (Moore, 1997). O facto deos dígitos se apresentarem agrupados 5 a 5 é sópara facilidade de leitura.Linha101 19223 95034 05756 28713 96409 12531 42544102 73676 47150 99400 01927 27754 42648 82425103 45467 71709 77558 00095 32863 29485 82226104 52711 38889 93074 60227 40011 85848 48767105 95592 94007 69971 91481 60779 53791 17297106 68417 35013 15529 72765 85089 57067 50211107 82739 57890 20807 47511 81676 55300 94383Para seleccionar uma amostra de uma populaçãoutilizando a tabela procede-se em duas etapas:• atribui-se um número a cada elemento dapopulação. Esta atribuição terá de ser feitacom as devidas precauções, de forma a quecada número tenha o mesmo número de dígitos,para ter igual probabilidade de ser seleccionado;• a partir da tabela escolhe-se uma linha aoacaso e começa-se a percorrê-la da esquerdapara a direita, tomando de cada vez os dígitosnecessários.108 60940 72024 17868 24943 61790 90656 87964109 36009 19365 15412 39638 85453 46816 83485A partir da tabela de dígitos aleatórios podem-seobter números aleatórios de 2 dígitos – qualquerpar dos 100 pares possíveis 00, 01, …98, 99,tem igual probabilidade de ser seleccionado, de 3dígitos - qualquer triplo dos 1000 triplos possíveis000, 001, …998, 999, tem igual probabilidadede ser seleccionado, etc., tomando os dígitos databela 2 a 2, 3 a 3, etc., a partir de uma linhaqualquer e percorrendo-a da esquerda para adireita.Exemplo 1.3.1.1 (cont) - Considerando a populaçãodo exemplo anterior, constituída por 18elementos, vamos numerá-los com os números 01,02, 03, …, 17, 18 (podia ser utilizado qualqueroutro conjunto de 18 números de 2 dígitos). Paraseleccionar uma amostra de dimensão 4 fixamo--nos numa linha qualquer da tabela, por exemplo alinha 107 e começamos a seleccionar os númerosde dois dígitos, tendo-se obtido:82 73 95 78 90 20 80 74 75 11 8167 65 53 00 94 38 31 48 93 60 9407 20 24 17 86 82 49 43 61 79 09Tivemos de ler 33 números, dos quais só aproveitámos4, pois os outros não correspondiam aelementos da população.


pág. 89Como obter uma tabela denúmeros aleatórios?Um processo poderá consistir em meter numa caixa 10 bolas numeradas de 0 a 9 e fazer váriasextracções de uma bola, tantas quantas os dígitos que se pretendem para constituir a tabela. Decada vez que se faz uma extracção, lê-se o número da bola, aponta-se e repõe-se a bola na caixa- extracção com reposição. Com este processo qualquer dígito tem igual probabilidade de serseleccionado. Além disso a saída de qualquer um dos dígitos em qualquer momento, é independentedos dígitos que já saíram anteriormente.Além das tabelas de números aleatórios também existe a possibilidade de utilizar o computadorpara os gerar ou uma simples máquina de calcular. Este é o processo mais utilizado hoje em dia,mas convém ter presente que os números que se obtêm são pseudo-aleatórios, já que é ummecanismo determinista que lhes dá origem, embora se comportem como números aleatórios(passam numa bateria de testes destinados a confirmar a sua aleatoriedade). No exemplo seguintevamos utilizar o computador, mais precisamente o programa Excel, para fazer a selecção de umaamostra aleatória simples e de uma amostra aleatória com reposição.1.3.1.2 - Utilização do Excel para recolher uma amostra aleatória simples e uma amostra aleatóriacom reposiçãoNo exemplo seguinte, apresentamos uma forma simples de utilizar o Excel para seleccionar umaamostra aleatória simples e uma amostra aleatória, com reposição, de uma População finita, deque se tenha uma listagem dos elementos.Exemplo 1.3.1.2 – Considere a população constituída pelos 230 deputados da actual (X) legislaturae que se encontra em Anexo. Para obter esta tabela fomos ao “site” da Assembleia da Republica,onde está uma lista ordenada com o nome de todos os deputados (coluna B), o respectivo grupoparlamentar (coluna C) e o círculo eleitoral (coluna D). Este exemplo vai-nos servir para introduziralguns conceitos importantes, pelo que fomos completar esta lista com a idade dos deputados,acedendo à página de cada um e recolhendo a informação sobre a data de nascimento (coluna F). Nassituações de interesse, que surgem na vida real, não se vai recolher a informação sobre determinadacaracterística, para a população toda, mas unicamente para os elementos seleccionados para aamostra. Inserimos ainda uma coluna com identificação do sexo (coluna E). Apresentamos a seguir umapequena parcela desse ficheiro, a que chamámos Deputados.xls. Este ficheiro tem uma primeira coluna(coluna A), onde é indicado o número do deputado, quando estes estão ordenados por ordem alfabética:


um mundo para conhecer os números #pág. 90Como dissemos anteriormente, vamos utilizá-lopara trabalhar alguns conceitos importantes, taiscomo:1 Obtenção de uma amostra aleatória simplese de uma amostra aleatória, com reposição,utilizando o Excel2 Estatística e parâmetro3 Variabilidade amostral4 Precisão1. Obtenção de uma amostra aleatória simples ede uma amostra aleatória, com reposição,utilizando o ExcelColámos os valores na coluna K e fizemos oSave. Repare-se que os valores que estavaminicialmente na coluna J foram alterados,dando origem a novos valores (devido ao factoda função RAND() ser volátil, como referimosanteriormente);2º passo – Ordenar o ficheiro, utilizando comocritério a coluna K;3º passo – Como pretendemos uma amostrade dimensão 10, seleccionar os primeiros 10deputados do ficheiro ordenado:Os deputados seleccionados foram os números110, 198, 225, 145, 128, 180, 222, 26 e 133.Amostra aleatória simples1º passo - Utilizando a função RAND(), atribuir umnúmero aleatório, entre 0 e 1, a cada deputado.Para isso basta inserir a função na célula J2 ereplicá-la tantas vezes, quantos os deputados (ouseja, 230 vezes):Para visualizar as fórmulas na folha de Excel,bastou seleccionar:Tools - Options - View - FormulasOk: Uma vez que a função RAND() é uma funçãovolátil, isto é, muda quando se recalcula a folha,no caso de pretendermos ficar com os valoresgerados convém ir ao Edit e fazer um PasteSpecial - Values, como se indica a seguir:Nota: Embora os números anteriores sejamreferidos como aleatórios, convém ter presenteque os números que se obtêm são pseudoaleatórios,já que é um mecanismo deterministaque lhes dá origem. No entanto comportam-secomo números aleatórios (passam uma bateria detestes destinados a confirmar a sua aleatoriedade)e daí a sua utilização como tal.


pág. 91Amostra aleatória com reposiçãoa) Utilize a função RANDBETWEEN(), para obter números pseudo-aleatórios entre 1 e 230, parasimular a extracção de uma amostra aleatória, da população dos deputados.Esta função devolve um número pseudo-aleatório entre os limites especificados nos argumentos.Como pretendemos seleccionar uma amostra de dimensão 10, replicamos a fórmula anterior por 10células, na coluna L, como se apresenta a seguir:A amostra obtida é constituídapelos deputados com os 10números nas células L2, ..., L11:Uma vez que a função RANDBETWEEN é umafunção volátil, isto é, muda quando se recalcula afolha, para ficar com os valores gerados fomos aoEdit - Paste Special - Values, como se indicaa seguir:


um mundo para conhecer os números #pág. 92Colámos os valores na coluna M e fizemos o Save. Repare-se que os valores que estavam inicialmente nacoluna L foram alterados, dando origem a uma nova amostra (devido ao facto da função RANDBETWEENser volátil, como referimos anteriormente):b) Da tabela dos deputados, seleccione o nome e o grupo parlamentar dos deputados cujo número seja umdos elementos da amostra obtida anteriormente.Para seleccionar o nome e o grupo parlamentar dos deputados correspondentes aos 10 números obtidos,vamos utilizar uma função do Excel, a função VLOOKUP, do seguinte modo:Esta função vai à tabela dos deputados, constituída pelas células (A2:C231) seleccionar o nome (2ª colunada tabela seleccionada) e o Grupo Parlamentar (3ª coluna da tabela seleccionada) correspondente aonúmero que está na coluna M, obtendo-se a seguinte amostra:2. Parâmetro e Estatística.c) Calcule a percentagem de deputados do grupo parlamentar PSD, na amostra obtida.Vamos começar por utilizar a função COUNTIF, que inserimos na célula O12, e que conta o nº de células,de entre um conjunto especificado de células, que satisfazem determinado critério, sendo este critério, nocaso presente, o de serem iguais a “PSD”:


pág. 93# Estatística Descritiva com EXCELObtivemos o valor 4 para a frequência absoluta dedeputados do PSD. Como o nº de deputados daamostra era 10, a percentagem de deputados dogrupo parlamentar do PSD, na amostra é de 40%.Este valor é uma estatística – característicanumérica da amostra. Utiliza-se como estimativado parâmetro “percentagem de deputados doPSD na população em estudo” – característicanumérica da população.Repare-se na variabilidade apresentada nosresultados obtidos para as diferentes amostras.Os 10 valores obtidos para a percentagem dedeputados do PSD existentes em cada uma delas,representam outras tantas estimativas para averdadeira proporção de deputados existentesna População. Iremos ilustrar esta variabilidade,representando os valores num diagrama depontos, utilizando uma opção gráfica do Excel,o Scatter. Para obter a representação gráficapretendida, é necessário começar por construiruma tabela adequada:3. Variabilidade amostrald) Repita 10 vezes o processo descrito nasalíneas anteriores e registe numa tabela osresultados obtidos.Gerámos 10 amostras e obtivemos os seguintesresultados para a estatística - percentagem dedeputados PSD, em cada uma das amostras:Amostra12345678910% PSD40%20%30%50%20%30%40%50%0%30%Para construir esta tabela, pode-se utilizara seguinte metodologia: consideram-se duascolunas, onde na primeira coluna se representamtodos os elementos do conjunto de dados, pelaordem em que aparecem, e na segunda colunaindica-se a frequência absoluta com que cadaelemento surge no conjunto de dados, à medidaque se vai percorrendo a coluna, de cima parabaixo. Por exemplo, ao lado do primeiro elementoque é o 60%, indicamos um 1, mas a segundavez que aparece o 60%, indicamos um 2, etc.Se, à partida, dispuséssemos de uma tabela defrequências, para construir esta nova tabela,bastaria repetir cada elemento da amostra,tantas vezes quantas a sua frequência absoluta.Na folha do Excel, seleccionam-se as duas colunase no menu Chart selecciona-se Scatter e oprimeiro subtipo desta representação. Obtém-seo diagrama de pontos com o seguinte aspecto:


um mundo para conhecer os números #pág. 94Trabalhámos “esteticamente” estarepresentação, seguindo os seguintes passos:Seleccionar:• Legenda e carregar no botão Delete;• As linhas e carregar no botão Delete;• O fundo cinzento e carregar no botão Delete;• O eixo dos YY e carregar no botão Delete;Temos finalmente a seguinte representação:Da representação gráfica anterior começamosa adivinhar que a distribuição das estimativasapresenta um padrão com uma certa simetriarelativamente ao valor de 30%.Esta representação é mais elucidativa e reforça aideia avançada anteriormente, de que o valor doparâmetro em estudo – percentagem de deputadosdo PSD, se deve situar entre os valores30% e 40%. Tendo em conta que a verdadeirapercentagem de deputados do PSD na populaçãoé 32,6%, apesar de o valor apresentado pelaestatística variar de amostra para amostra –variabilidade amostral, estes valores apresentamuma distribuição que nos dá informação sobre oparâmetro, já que essa distribuição se localiza ouestá centrada em torno do parâmetro.4. Precisãoe) Considere agora 20 amostras de dimensão10, calcule para cada uma o valor da estatísticaem estudo, e construa o diagrama de pontos dosvalores obtidos.Seleccionámos 20 amostras de dimensão 10,calculámos a percentagem de deputados do PSDem cada uma delas e com os resultados obtidosconstruímos a seguinte representação:f) Considere agora 20 amostras de dimensão 30,calcule para cada uma o valor da estatística emestudo, e construa o diagrama de pontos dosvalores obtidos. Compare a representação obtida,com a que obteve na alínea e).Seguimos um processo idêntico ao da alíneae), com a particularidade de as dimensões dasamostras terem dimensão 30, em vez de 10. Comas percentagens de deputados do PSD existentesem cada uma delas construímos a seguinterepresentação gráfica:


pág. 95# Estatística Descritiva com EXCELComparando as duas representações obtidasquando se consideram amostras de dimensão 10ou de dimensão 30, verificamos que a variabilidadeapresentada pelos valores da estatística -percentagem de deputados do PSD, no casodas amostras de maior dimensão, é inferiorà apresentada pela estatística no caso dasamostras de menor dimensão, como se vê nafigura seguinte:Percentagem de deputados do PSD emamostras de dimensão 100 10 20 30 40 50 60 70 80 90 100 %Percentagem de deputados do PSD emamostras de dimensão 30Observação: Este exemplo que acabámos deapresentar tem como objectivo apresentar algunsconceitos importantes, como o da variabilidade edas propriedades de um estimador. Efectivamente,neste caso, já que temos informação sobre ogrupo parlamentar de cada deputado, não teriamuito sentido ir recolher uma amostra para obtera percentagem de deputados em cada grupoparlamentar. Repare-se, no entanto, que se o queestivesse em estudo fosse “ter uma ideia” sobre onúmero médio de filhos dos deputados portuguesese suas idades, já faria sentido recolher umaamostra, pois para obter a informação desejadanão seria necessário interrogar todos os deputadose só se interrogariam os seleccionados para aamostra.1.3.2 - Amostragem aleatória sistemática%0 10 20 30 40 50 60 70 80 90 100A precisão de um estimador é caracterizadapela variabilidade apresentada pelas diferentesestimativas, obtidas quando se consideramdiferentes amostras. Quanto menor for avariabilidade apresentada pelas diferentesestimativas, maior é a precisão apresentada peloestimador.Na prática o processo de seleccionar umaamostra aleatória simples de uma populaçãocom grande dimensão, não é tão simples comoo descrito anteriormente. Se a dimensão dapopulação for grande o processo torna-se muitotrabalhoso. Então uma alternativa é consideraruma amostra aleatória sistemática – oselementos são escolhidos de uma maneira regularpercorrendo a lista.De um modo geral, diz-se que uma estatísticaé um “bom” estimador de um certo parâmetro,se a distribuição dos valores dessa estatística,calculados para diversas amostras, revelar umalocalização em torno do parâmetro e apresentarpequena variabilidade. Em alguns casos essaanálise pode fazer-se do ponto de vista teórico.No entanto, hoje em dia, cada vez se recorremais à simulação para decidir se um estimadoré ou não, um “bom” estimador do parâmetro deinteresse.Amostra aleatória sistemáticaDada uma população de dimensão N, ordenada poralgum critério, se se pretende uma amostra dedimensão n, escolhe-se aleatoriamente um elementode entre os k primeiros, onde k é a parte inteira doquociente N/n. A partir desse elemento escolhido,escolhem-se todos os k-ésimos elementos dapopulação para pertencerem à amostra.


um mundo para conhecer os números #pág. 96A amostra aleatória sistemática não é umaamostra aleatória simples, já que nem todas asamostras possíveis de dimensão n, têm a mesmaprobabilidade de serem seleccionadas.1.3.2.1 - Utilização do Excel para recolher umaamostra aleatória sistemáticaNo exemplo seguinte, apresentamos uma formasimples de utilizar o Excel para seleccionar umaamostra aleatória sistemática de uma Populaçãofinita, de que se tenha uma listagem doselementos.Exemplo 1.3.2.1 – Considere novamente o ficheiroDeputados.xls, que contém o nome, filiaçãopartidária, sexo e data de nascimento dos 230deputados da actual legislatura e que se encontraem Anexo. Utilizando o processo de amostragemsistemática, obtenha uma amostra de 12deputados, registando para cada um deles o sexo.Temos uma população de dimensão 230 epretendemos obter uma amostra de dimensão 12.Vamos utilizar a seguinte metodologia:Passo 4 -Utilizando a função VLOOKUP(K3;$A$3:$E$232;5), replicada pelas 12 células L3:L14,obteve-se finalmente a informação solicitada,constituída pelo sexo dos 12 deputadosseleccionados para a amostra:Passo 1 – Dividindo 230 por 12 e retendo a parteinteira, obtemos o valor 19.Passo 2 – Dos primeiros 19 elementos da listaordenada dos deputados, vamos seleccionar umelemento ao acaso. Vimos na secção anterior quebasta utilizar a função Randbetween(1;19), queinserimos na célula K3. A utilização desta funçãodevolveu-nos o deputado número 14.Passo 3 – A amostra será constituída pelosdeputados números 14, 33, 52, 71, 90, 109,128, 147, 166, 185, 204, 223, que obtivemosadicionando sucessivamente 19, até obtermos 12elementos (células K3:K14).1.3.3 – Amostragem estratificadaPode acontecer que a população possa serdividida em várias subpopulações ou estratos,mais ou menos homogéneos, relativamente àcaracterística a estudar. Nesta situação existeuma técnica importante e apropriada, que é aamostragem por estratificação. Apresentamosde seguida um exemplo em que privilegiaremosa exemplificação da técnica, em detrimentoda apresentação em Excel, uma vez que o tipode amostragem utilizado, se resume a umaamostragem aleatória simples, já exemplificadaanteriormente.


pág. 97# Estatística Descritiva com EXCELExemplo 1.3.3.1 (Ted Hodgson and John Borkowskiin Getting the Best from Teaching Statistics)– Consideremos uma população constituída por 40cartões numerados (20 vermelhos e 20 pretos) deacordo com a seguinte tabela:01 2 3 4 5 6 7 8NºFreq.Cor[12,13[64Ver[13,14[7844VerVer[14,15[91044VerVer[15,16[264Preto[16,17[274Preto284Preto[17,18[293044PretoPreto[18,19[[19,20[A média dos números inscritos nesta populaçãode 40 cartões é de 18 – valor médio dacaracterística populacional em estudo.[20,21[[21,22[Pretende-se, através de uma amostra, obteralguma indicação sobre a média dos númerosinscritos nos cartões (a qual neste exemplofictício é conhecida). Colocam-se os cartões numsaco e pede-se a cada aluno da turma que retireuma amostra de 4 cartões – amostra aleatóriasimples, e que calcule a média dos números doscartões seleccionados. Numa turma de 34 alunos,obtiveram-se os seguintes resultados:Amostra nºMédia1 26 7 10 6 12,252 10 26 9 6 12,753 29 6 7 10 134 6 8 9 29 135 6 9 8 30 13,256 9 8 7 29 13,257 7 7 30 9 13,258 9 9 10 26 13,59 9 8 8 30 13,7510 9 10 8 29 1411 10 9 29 9 14,2512 6 27 6 26 16,2513 7 7 26 27 16,7514 28 8 6 26 1715 7 6 29 26 1716 6 29 26 8 17,2517 9 6 26 29 17,518 26 9 8 28 17,7519 7 10 26 29 1820 27 6 30 9 1821 6 29 28 10 18,2522 8 29 26 10 18,2523 6 8 30 30 18,524 26 9 30 10 18,7525 8 11 28 30 19,2526 26 27 6 27 21,527 30 26 27 6 22,2528 8 26 29 28 22,7529 10 26 26 30 2330 29 6 30 27 2331 28 9 30 26 23,2532 27 26 30 10 23,2533 30 10 29 26 23,7534 29 30 7 30 24[22,23[[23,24[[24,25[Esta distribuição não nos ajuda muito a dizerqual a estimativa para o valor médio da população(média dos números inscritos). Gostaríamos deter obtido para a amostra, cujos elementos sãoas diferentes médias, uma distribuição com poucavariabilidade, para podermos argumentar que amédia destes elementos era uma “boa” estimativapara o parâmetro em estudo, ou seja, o valormédio dos números inscritos nos cartões (Versecção seguinte).Diz-se então aos alunos que estamos peranteduas subpopulações, a de cartões vermelhos ea de cartões pretos, embora não seja esta acaracterística em estudo e sobre a qual seriaimportante haver diferença entre os estratosou subpopulações. De qualquer modo aquelessão informados que poderá haver diferençasrelativamente à característica de interesse e queum processo de amostragem adequado levaria emconta essas diferenças.


um mundo para conhecer os números #pág. 98Amostra nºMédia1 6 7 27 28 172 8 9 26 27 17,53 8 6 28 28 17,54 7 8 29 26 17,55 9 9 26 26 17,56 6 9 29 27 17,757 8 10 26 27 17,758 10 6 27 28 17,759 9 9 28 26 1810 6 8 28 30 1811 10 8 27 28 18,2512 10 7 28 29 18,513 9 9 27 29 18,514 8 9 29 29 18,7515 9 10 28 29 19Estes resultados mostram que as médias dasamostras estratificadas estão consistentementepróximas do valor médio da população (o qual sódeve ser dito aos alunos depois das simulaçõesserem feitas), podendo-se assim observar quea estratificação conduziu a um aumento daprecisão.1.3.4 – Estimador centrado e não centrado.Precisão0[12,13[[13,14[[14,15[[15,16[[16,17[[17,18[1 2 3 4 5 6 7 8Uma vez escolhido um plano de amostragemaleatório, ao pretendermos estimar um parâmetro,pode ser possível utilizar várias estatísticas(estimadores) diferentes. Por exemplo, quandopretendemos estudar a variabilidade presentenuma População, que pode ser medida pelavariância populacional 2, sabemos que podemosa partir de uma amostra, obter duas estimativasdiferentes para essa variância, a partir dasexpressões[18,19[[19,20[s 2 =n(x ix) 2i 1ou s’ 2 =n 1n(x ix) 2i1n[20,21[[21,22[[22,23[[23,24[[24,25[Quais as razões que nos podem levar a preferir s 2em vez de s’ 2 ?Um critério que costuma ser aplicado é o deescolher um “bom” estimador como sendo aqueleque é centrado e que tem uma boa precisão.Escolhido um plano de amostragem, define-se:Procede-se então a uma selecção da amostra, deforma a obter 2 cartões vermelhos e 2 cartõespretos – estes valores devem reflectir a dimensãodos estratos (que no nosso exemplo são iguais).Os resultados obtidos foram os seguintes:A partir dos dados obtidos para as amostras,confirma-se que efectivamente temos doisestratos distintos, relativamente à característicade interesse – um estrato com cartões comnúmeros mais pequenos e outro estrato comcartões com números maiores.Estimador centradoUm estimador diz-se centrado quando a médiadas estimativas obtidas para todas as amostraspossíveis que se podem extrair da População,segundo o esquema considerado, coincide como parâmetro a estimar. Quando se tem umestimador centrado, também se diz que é nãoenviesado.


pág. 99# Estatística Descritiva com EXCELA média das estimativas calculadas a partir daexpressão s 2 acima considerada, coincide com avariância.Para se evitar o enviesamento, é necessárioestarmos atentos, primeiro na escolha do planode amostragem e depois na escolha do estimadorutilizado para estimar o parâmetro desconhecido.O facto de utilizarmos um estimador centrado,não nos previne contra a obtenção de másestimativas, se o plano de amostragem utilizadosistematicamente favorecer uma parte daPopulação (isto é, fornecer amostras enviesadas).PrecisãoAo utilizar o valor de uma estatística para estimarum parâmetro, vimos que cada amostra forneceum valor para a estatística que se utiliza comoestimativa desse parâmetro. Estas estimativasnão são iguais devido à variabilidade presente naamostra. Se, no entanto, os diferentes valoresobtidos para a estatística forem próximos, e oestimador for centrado, podemos ter confiança deque o valor calculado a partir da amostra recolhida(na prática recolhe-se uma única amostra) estápróximo do valor do parâmetro (desconhecido).Exemplo 1.3.4.1 - Suponhamos que ao pretenderestudar a percentagem de eleitores que votariamfavoravelmente num candidato à Câmara dedeterminada cidade, se recolhia uma amostra de300 eleitores, dos quais 175 responderam quesim. Considerando como estimador, a proporçãode elementos na amostra apoiantes do candidato,então uma estimativa para a proporção pretendidaseria 0.58. Se considerássemos outra amostrade 300 eleitores, suponhamos que o valor obtidopara o número de sim’s tinha sido 183. Então aestimativa obtida seria 0.61. A repetição desteprocesso 15 vezes permitiria obter 15 valorespara o estimador, que seriam outras tantasestimativas do parâmetro a estimar -percentagemde eleitores da cidade, potenciais apoiantes dotal candidato. Representando num eixo os valoresobtidos e admitindo que o verdadeiro valor doparâmetro era 0.60, poderíamos deparar-nos comvárias situações:A falta de precisão juntamente com o problemado enviesamento da amostra são dois tipos deerro com que nos defrontamos num processo deamostragem (mesmo que tenhamos escolhidoum “bom” estimador). Não se devem, contudo,confundir. Enquanto o enviesamento se manifestapor um desvio nos valores da estatística,relativamente ao valor do parâmetro a estimar,sempre no mesmo sentido, a falta de precisãomanifesta-se por uma grande variabilidade nosvalores da estatística, uns relativamente aosoutros. Por outro lado, enquanto o enviesamentose reduz com o recurso a amostras aleatórias, aprecisão aumenta-se aumentando a dimensão daamostra.1) reflecte um pequeno ou ausência deenviesamento, pois os valores para aestatística (proporções obtidas a partir dasamostras) situam-se para um e outro ladodo valor do parâmetro, e verifica-se ainda aexistência de uma pequena variabilidade entreos resultados obtidos para as várias amostras,que se traduz em grande precisão.2) embora se mantenha a precisão, existeum grande enviesamento, pois os valores daestatística situam-se sistematicamente para adireita do valor do parâmetro. Presume-se queo esquema de amostragem não seja aleatório,pelo que as amostras só reflectem parte daPopulação.


um mundo para conhecer os números #pág. 100Distribuição de amostragemDistribuição de amostragem de uma estatísticaé a distribuição dos valores que a estatísticaassume para todas as possíveis amostras, damesma dimensão, da população.3) voltamos a ter uma situação de pequenoenviesamento, mas de pequena precisão devidoà grande variabilidade apresentada pelosvalores da estatística. Presumimos que asamostras não têm a dimensão suficiente, deforma a garantir uma melhor precisão.4) a falta de precisão da situação 3) éacompanhada de um grande enviesamento.Como sugere Moore (1996), fazendo analogiacom o que se passa com um atirador que apontavárias setas a um alvo, em que procurava atingir ocentro do alvo, teríamosA forma da distribuição de amostragem, permitenosverificar se esses valores se distribuemde forma tal, que a sua média coincide com oparâmetro a estimar – caso em que o estimadoré centrado, e além disso se apresenta grandeou pequena variabilidade – o que faz com que oestimador apresente, respectivamente, menor oumaior precisão.A maior parte das vezes não se consegue obtera distribuição de amostragem exacta, mas temseuma distribuição aproximada, considerandoum número suficientemente grande de amostrasda mesma dimensão e calculando para cada umadelas uma estimativa do parâmetro em estudo.1.3.5 - Qual a dimensão que se deveconsiderar para a amostra?O estudo de um estimador é feito através dasua distribuição de amostragem, ou seja, dadistribuição dos valores obtidos pelo estimador,quando se consideram todas as amostraspossíveis.Outro problema que se levanta com a recolha daamostra é o de saber qual a dimensão desejada paraa amostra a recolher. Este é um problema para oqual, nesta fase, não é possível avançar nenhumateoria, mas sobre o qual se podem tecer algumasconsiderações gerais. Pode¬se começar por dizerque, para se obter uma amostra que permitacalcular estimativas suficientemente precisas dosparâmetros a estudar, a sua dimensão dependemuito da variabilidade da população subjacente. Porexemplo, se relativamente à população constituídapelos alunos do 10º ano de uma escola secundária,estivermos interessados em estudar a sua idademédia, a dimensão da amostra a recolher nãonecessita de ser muito grande já que a variávelidade apresenta valores muito semelhantes, numaclasse etária muito restrita. No entanto se a


pág. 101# Estatística Descritiva com EXCELcaracterística a estudar for o tempo médio que osalunos levam a chegar de casa à escola, de forma aobter a mesma precisão que no caso anterior, já aamostra terá de ter uma dimensão maior, uma vezque a variabilidade da população é muito maior. Cadaaluno pode apresentar um valor diferente para essetempo. Num caso extremo, se numa população avariável a estudar tiver o mesmo valor para todos oselementos, então bastaria recolher uma amostra dedimensão 1 para se ter informação completa sobrea população; se, no entanto, a variável assumirvalores diferentes para todos os elementos, parase ter o mesmo tipo de informação seria necessárioinvestigar todos os elementos.Chama-se a atenção para a existência detécnicas que permitem obter valores mínimospara as dimensões das amostras a recolher eque garantem estimativas com uma determinadaprecisão exigida à partida. Uma vez garantida essaprecisão, a opção por escolher uma amostra demaior dimensão, é uma questão a ponderar entreos custos envolvidos e o ganho com o acréscimode precisão. Vem a propósito a seguinte frase(Statistics: a Tool for the Social Sciences,Mendenhall et al., pag. 226):“Se a dimensão da amostra é demasiado grande,desperdiça-se tempo e talento; se a dimensãoda amostra é demasiado pequena, desperdiça-setempo e talento”.Convém ainda observar que a dimensão daamostra a recolher não é directamenteproporcional à dimensão da população a estudar,isto é, se por exemplo para uma população dedimensão 1000 uma amostra de dimensão 100for suficiente para o estudo de determinadacaracterística, não se exige necessariamenteuma amostra de dimensão 200 para estudar amesma característica de uma população análoga,mas de dimensão 2000, quando se pretendeobter a mesma precisão. Como explicava GeorgeGallup, um dos pais da consulta da opinião pública(Tannenbaum, 1998),: Whether you poll theUnited States or New York State or Baton Rouge(Louisiana) … you need … the same number ofinterviews or samples. It´s no mystery really – ifa cook has two pots of soup on the stove, one farlarger than the other, and thoroughly stirs themboth, he doesn´t have to take more spoonfulsfrom one than the other to sample the tasteaccurately”.Finalmente chama-se a atenção para o facto deque se o processo de amostragem originar umaamostra enviesada, aumentar a dimensão nãoresolve nada, antes pelo contrário!1.3.6 – Outros tipos de erros num processode aquisição de dadosAlém dos problemas relacionados com aamostragem e apontados anteriormenteexistem ainda outras fontes de erros que nãoestão relacionadas com o método da recolha daamostra nem com a dimensão da amostra, quesão os chamados erros de não amostragem.Se, por exemplo, seleccionarmos uma amostraaleatória simples a partir de uma listagem deelementos que não contenha todos os elementosda população, poderemos obter uma amostraenviesada. Efectivamente, e como já foi referidoanteriormente, muitas vezes a recolha da amostrafaz-se de uma população que não é a populaçãoque se pretende estudar – população alvo oupopulação objectivo, mas sim de outra populaçãoque se pensa representar a primeira – populaçãoinquirida. Por exemplo, se se pretende estudaruma determinada característica dos residentesem Lisboa, é comum recolher uma amostraseleccionando aleatoriamente alguns númerosde telefones da lista telefónica de Lisboa, pararepresentar a população lisboeta. Este processointroduz algum enviesamento, pois existem zonasde Lisboa onde a percentagem de pessoas comtelefone é pequena. Além disso, pode acontecercom alguma frequência telefonarem para casa daspessoas quando elas estão ausentes, no trabalho,pelo que a amostra subestimará a percentagemdos lisboetas que trabalham fora de casa.


um mundo para conhecer os números #pág. 102O exemplo que acabámos de descrever refere-se aum erro de selecção.Na recolha da informação também se podeainda verificar que a informação dada nãoseja verdadeira. Ao responder a um inquéritoo inquirido pode sentir-se condicionado peloinquiridor, face a determinadas perguntas.Isso poderá levá-lo a mentir. Por exemplo aoperguntarem a um indivíduo se ele é racista, elepode dizer que não, quando na verdade o é.1.4 - Estatística Descritiva eInferência EstatísticaFinalmente, pode-se ter feito um planeamentoadequado da amostra a recolher, mas ao recolhera informação de entre os elementos da amostra,a pessoa encarregada dessa recolha podever¬se defrontada com a não resposta. Esteproblema acontece com frequência quando aamostra é constituída por pessoas, das quaisalgumas das seleccionadas não são encontradaspara darem a informação sobre a variável emestudo, ou então se recusam a responder. Outroproblema que pode surgir é devido a erros deprocessamento que não têm nada a ver como processo de recolha da amostra, mas quepodem influenciar o resultado da estatística, jáque esta é calculada com base na informaçãorecolhida. Estes erros surgem com algumafrequência, sendo muitas vezes detectados porserem outliers. Efectivamente, se ao digitar umconjunto de valores correspondentes a pesos depessoas adultas aparecer 566 quilogramas, aofazer uma representação gráfica aparecerá estevalor como outlier e imediatamente se concluiráque se trata de um problema de processamento:eventualmente ao carregar a tecla do 6 o tempode apoio foi um pouco maior e apareceram dois 6.Uma vez recolhida a amostra procede-se ao seuestudo. Este consiste em resumir a informaçãocontida na amostra construindo tabelas, gráficose calculando algumas características amostrais–estatísticas. Este estudo descritivo dos dados éo objectivo da Estatística Descritiva. Esta fase éa que depende mais da habilidade ou intuição doestatístico (dissemos no início do capítulo que aEstatística além de uma ciência, também é umaarte!). Efectivamente ele vai tentar substituir oconjunto de dados, por um sumário desses dadosde forma a realçar a informação que eles contêm.Pense-se o que se passa, por analogia, com umtexto comprido e repetitivo em que a pessoa seperde na leitura. Um sumário bem feito do texto,em algumas linhas, dará a informação relevantesobre o texto, que ocupava muito mais linhas. Aoler o sumário a pessoa fica rapidamente informadasobre o assunto que trata. O mesmo se passacom os dados, sendo necessário que o sumáriodesses dados seja feito adequadamente de formaa não se perder muita informação, mas tambémde forma a não sumariar tão pouco que a pessoaseja submergida por tanta informação!Por exemplo, suponha que perguntou a um alunose ele foi bom aluno na licenciatura que tirou. Eleresponde-lhe com as notas que teve durante os 4anos que durou a licenciatura:10 16 11 10 15 17 12 13 17 15 18 1415 16 12 13 16 11 15 16 12 13 14 1411 15 17 16 16 13 14 16Perante estes dados hesitará um pouco, pois nãose vê facilmente qual o tipo de notas que predomina.No entanto se fizer uma representaçãográfica muito simples:


pág. 103# Estatística Descritiva com EXCEL10 * *11 * * *12 * * *13 * * * *14 * * * *15 * * * * *16 * * * * * * *17 * * *18 *Exemplo 1.4.1 -O Senhor X, candidato à Câmarada cidade do Porto, pretende saber, qual apercentagem de eleitores que pensam votarnele nas próximas eleições. Havendo algumaslimitações de tempo e dinheiro, a empresaencarregada de fazer o estudo pretendidodecidiu recolher uma amostra de dimensão1000, perguntando a cada eleitor se sim ou nãopensava votar no Senhor X. Como resultado daamostragem obteve-se um conjunto de sim’s enão’s, cujo aspecto não é muito agradável, pois àprimeira vista não conseguimos concluir nada:Imediatamente concluirá que metade das notassão iguais ou superiores a 15, pelo que se podeconsiderar um aluno bom. Organizámos os dadosatravés de uma representação gráfica sugestiva,que permitiu realçar a informação desejada. Outroprocesso seria resumir a informação sob a formade uma medida que se calculava a partir dos dados(estatística) - a média, que viria igual a 14.2.Seguidamente, o objectivo de um estudo estatístico,é, de uma maneira geral, o de estimar umaquantidade ou testar uma hipótese, utilizandosetécnicas estatísticas convenientes, as quaisrealçam toda a potencialidade da Estatística, namedida em que vão permitir tirar conclusõesacerca de uma População, baseando-se numapequena amostra, dando-nos ainda uma medida doerro cometido. A esta fase chamamos InferênciaEstatística.Esta quantificação do erro cometido, aotransportar para a população as propriedadesverificadas na amostra, é feita utilizando aProbabilidade. Efectivamente, é nesta fase doprocesso estatístico que temos necessidadede entrar com este conceito, para quantificara incerteza associada aos procedimentos aquiconsiderados. Repare-se que ao transportarpara a população uma propriedade verificada naamostra não podemos dizer que essa propriedadeé verdadeira porque não a verificamos em todosos elementos da população, mas também nãopodemos dizer que é falsa, pois a propriedade foiverificada por alguns elementos da população - amostra. Assim, estamos numa situação entre oque é verdadeiro e falso, caracterizada por umaincerteza, a qual é medida com a utilização daprobabilidade.NãoSimSimSimNãoProcede-se à redução dos dados, resumindo ainformação sobre quantos sim’s se obtiveram,chegando-se à conclusão que nas 1000respostas, 635 foram afirmativas. Então dizemosque a percentagem de eleitores que pensamvotar no candidato, de entre os inquiridos, é de63.5%. A função da Estatística Descritiva acabouaqui! (Se toda a População tivesse sido inquirida,este estudo descritivo dar-nos-ia a informaçãonecessária para o fim em vista).Poderemos agora inferir que 63.5% dos eleitoresda cidade do Porto pensam votar no Senhor X?A resposta a esta pergunta nem é sim, nemnão, mas talvez. É agora que temos necessidadede utilizar o conceito de Probabilidade, paraquantificar a incerteza associada à inferência.Assim, existem processos de inferênciaestatística que, do resultado obtido a partir daamostra, nos permitirão concluir que o intervalo[60.5%, 66.5%] contém o valor exacto para apercentagem de eleitores da cidade que pensamvotar no Senhor X, com uma confiança de 95%.Observação - A confiança de 95% deve ser entendidano seguinte sentido: se se recolherem 100amostras, cada uma de dimensão 1000, entãopoderemos construir 100 intervalos; destes100 intervalos esperamos que 95 contenham overdadeiro valor da percentagem (desconhecida) deeleitores da cidade do Porto, que pensam votar no…Sim


um mundo para conhecer os números #pág. 104candidato. Como ao fazer um estudo só se recolheuma amostra, não sabemos se a nossa é uma dasque deu origem a um dos intervalos que continha oparâmetro. Estamos confiantes que sim!Recorde-se a forma como as previsões são dadas,em noite de eleições, sob a forma de intervalos.Por vezes a guerra de audiências faz com queestas previsões tenham pouco sentido, porapresentarem intervalos com uma tão grandeamplitude que a sua precisão, como estimativasdas percentagens pretendidas, é muito pequena.Esta situação prende-se com o facto de asamostras utilizadas para a construção dosintervalos terem uma dimensão muito reduzida,havendo assim muito pouca informação disponível(recorde-se o que dissemos anteriormentesobre o processo para aumentar a precisão). Noentanto, à medida que a noite vai avançando, osintervalos vão diminuindo de amplitude, estandoesta diminuição da amplitude relacionada coma dimensão da amostra que entretanto vaiaumentando, até finalmente estarem todos osvotos contados. Nesta altura, os intervalosreduzem-se a pontos, que são as percentagenspretendidas - a amostra é constituída por toda apopulação.O seguinte esquema pretende resumir asdiferentes etapas que normalmente são seguidasnum procedimento estatístico:No esquema anterior a necessidade de utilizaro conceito de probabilidade faz-se sentir aopassarmos das propriedades estudadas naamostra para as propriedades na população,sendo aqui precisamente que vai ser necessárioinvocar o princípio da aleatoriedade.Chama-se a atenção para que a compreensão doprocesso estatístico permitir-nos-á interpretarmelhor as notícias que, frequentemente, se lêemnos jornais ou ouvem na televisão. Por vezesalguns estudos sobre os mesmos assuntos,apresentam resultados contraditórios! Istoacontece nomeadamente no estudo de certosaspectos do comportamento humano, utilizandotestes psicológicos, ou no estudo de certasdoenças utilizando cobaias. Muitas das inferênciasfeitas são imperfeitas, a maior parte das vezespor terem como base dados imperfeitos.Produção de dadosPopulaçãoCaracterísticaspopulacionaisparâmetrosEstatísticaIndutivaAmostraCaracterísticasamostraisestatísticasEstatísticaDescritivaEstudo da amostra:- tabelas- gráficos- medidas- …2. Representação eredução de dados.Tabelas e gráficos2.1- IntroduçãoNum módulo anterior de Estatística, já foramapresentados vários processos de organizar osdados, de forma a realçar as característicasprincipais e a estrutura subjacente da populaçãode onde esses dados foram retirados.


pág. 105# Estatística Descritiva com EXCELQuer estejamos perante uma variável de tipodiscreto ou contínuo, o processo de organizara informação consiste em, de um modo geral,começar por construir tabelas de frequência eproceder a representações gráficas adequadas.Vamos seguidamente utilizar o Excel naconstrução dessas tabelas de frequência.ou2.2 – Utilização do Excel na obtenção de tabelas defrequênciaVamos exemplificar a utilização do Excel naconstrução de tabelas de frequência a partir doficheiro Deputados.xls, apresentado no capítuloanterior.As fórmulas apresentadas anteriormente, deramorigem à seguinte tabela:2.2.1 – Tabela de dados qualitativosou quantitativos discretosO procedimento para a construção das tabelasde frequência é idêntico, quer tenhamos umconjunto de dados qualitativos ou quantitativosdiscretos, já que as classes que se consideramsão as diferentes categorias ou valores quesurgem, respectivamente, no conjunto de dados.A seguir apresentamos a construção destastabelas utilizando a função COUNTIF. Numa secçãoposterior veremos a sua construção utilizando ametodologia das PivotTables.Exemplo 2.2.1 – Considere o ficheiroDeputados.xls. Obtenha uma tabela de frequênciapara a variável Grupo Parlamentar.Começámos por copiar a coluna correspondenteao Grupo parlamentar para um novo ficheiro.Ordenámos os elementos por ordem crescentee inserimos na coluna Classes os diferenteselementos do conjunto de dados. Utilizámos deseguida a função COUNTIF (CONTAR.SE) paraobter as frequências absolutas de deputados decada um dos grupos parlamentares:2.2.2 – Tabela de dados quantitativoscontínuosComo se viu no módulo anterior de Estatística,no caso de dados contínuos o processo deconstrução das tabelas é um pouco maiselaborado, já que a definição das classes não étão imediata. De um modo geral as classes sãointervalos com a mesma amplitude, fechadosà esquerda e abertos à direita ou abertos àesquerda e fechados à direita. Em certos casosnão é conveniente que as classes tenham amesma amplitude, o que em si não é um problemapara a construção da tabela de frequências, masque implica alguma complicação na construçãodo histograma associado, quando pretendemosutilizar Excel.


um mundo para conhecer os números #pág. 106Definição das classes:a) Determinar a amplitude da amostra, subtraindoo mínimo do máximo;Vamos utilizar ainda o ficheiro Deputados.xlspara estudar a variável Idade, que é uma variávelquantitativa contínua.Exemplo 2.2.2 – Utilizando a informação contidano ficheiro Deputados.xls, construa uma tabela defrequências para a variável Idade.Vamos dividir esta tarefa em duas partes: umaprimeira parte consistirá na definição das classese uma segunda parte no cálculo das frequências.Copie a coluna “Data de nascimento” para umficheiro novo com 230 elementos que ocupam ascélulas A2:A231. Para obter a idade em 31/12/2007, podemos utilizar a seguinte metodologia:• Passo 1 – Inserir na célula B1 a data31/12/2007;• Passo 2 – Colocar o cursor na célulaB2 e introduzir a expressão: =$B$1-A2;• Passo 3 – Replicar esta função atravésdas células B3 a B231;b) Dividir essa amplitude pelo número K de classespretendido. Existe uma regra empírica que nos dáum valor aproximado para o número K de classese que consiste no seguinte: para uma amostra dedimensão n, considerar para K o menor inteiro talque 2K≥n. Uma expressão equivalente para obterK, consiste em considerar K=INT(LOG(n;2))+1ou K=ROUNDUP(LOG(n;2);0), em que a fun-çãoROUNDUP(x;m), devolve um valor de x, arredondadopor excesso, com m casas decimais;c) Calcular a amplitude de classe h, dividindo aamplitude da amostra por K e tomando para hum valor aproximado por excesso do quocienteanteriormente obtido;d) Construir as classes C1, C2, ..., Ck. Vamosconsiderar como classes os intervalos [mínimo,mínimo + h[,[mínimo + h, mínimo + 2h[, ...,[mínimo + (k-1)h, mínimo + kh[. Uma alternativaa este procedimento seria considerar as classesabertas à esquerda e fechadas à direita, daseguinte forma: ]max – Kh, max – (K-1)h], ]max– (K-1)h, max – (K¬2)h], ]max – h, max].Estes passos são representados na figuraseguinte:• Passo 4 – Se no passo anterior seobteve uma coluna de datas, formataressa coluna com o Format General, porexemplo. Obtém-se a idade em dias;• Passo 5 – Para obter a idade em anos,colocar o cursor na célula C2 e introduzira seguinte função: = INT(B2/365), aqual devolve o maior inteiro contido noquociente (n.º de dias do deputado)/(n.ºde dias do ano).• Replicar esta função através dascélulas C3 a C231.com os seguintes resultados:


pág. 107# Estatística Descritiva com EXCELCálculo das frequências:Para obter as frequências absolutas, vamos utilizar a função COUNTIF do seguinte modo:As frequências das classes c1, c3..., c8, são obtidas de forma idêntica à de c2, mudando os limites dasclasses.2.2.3 - Construção de uma tabela de frequências utilizando a função Frequency do ExcelO Excel tem uma função, que é a função Frequency(Data_array;Bins_array), que calcula o número deelementos da variável - cujos valores se encontram na Data_array, existentes nas classes - cujos limitesse encontram em Bins_array. Este vector Bins_array é constituído por um conjunto de k valores b1, b2,..., bk, formando (k+1) classes, tais que:• A 1ª classe é dada por (-∞, b1], isto é, conterá todos os elementos ≤b1;• A 2ª classe é dada por ]b1, b2];• A 3ª classe é dada por ]b2, b3];• A késima classe é dada por ]bk-1, bk];• A (k+1)ésima classe é dada por ]bk, +∞);Vamos exemplificar construindo uma tabela de frequências para a variável idade.Definição das classes:Considerando as classes definidas em 2.2 e tendo em atenção o que dissemos anteriormente sobreas classes para a utilização da função Frequency, o nosso conjunto de valores para o Bins_array, seráconstituído por {33,7; 39,4; 45,1; 50,8; 56,5; 62,2; 67,9}; Para utilizar a função Frequency(Data_array;Bin_array), procede-se do seguinte modo:


um mundo para conhecer os números #pág. 108• Definir a coluna de separadores ou limites dasclasses, que constituirá o Bins_array;• Seleccionar tantas células em coluna,quantas as classes consideradas para a tabelade frequências (não esquecer que o número declasses é superior em uma unidade ao númerode separadores, pelo que o número de célulasseleccionadas deverá ser, neste caso, de 8);• Introduzir a função Frequency, considerandocomo primeiro argumento o conjunto decélulas onde se encontram os dados a agrupar,chamado de Data_array, e como segundoargumento as células que constituem o Bins_array;• Carregar CTRL+SHIFT+ENTER.Na figura seguinte apresentamos o resultadodeste procedimento:2.3 – Utilização do Excel narepresentação gráfica de dadosDe forma idêntica à que fizemos para aconstrução das tabelas de frequências, vamostambém considerar separadamente o caso davariável em estudo ser de natureza qualitativa ouquantitativa discreta, ou de natureza quantitativacontínua.2.3.1 – Variáveis qualitativas ouquantitativas discretas.Diagrama de barrasVerifique que os valores devolvidos pela funçãoFrequency, nas células L17: L24, são iguais àsfrequências obtidas anteriormente e apresentadasna tabela de frequências já construída. Estasituação nem sempre se verifica, nomeadamentese os limites das classes fossem númerosinteiros, já que agora as classes são consideradasfechadas à direita e abertas à esquerda. Assim,alguns valores da amostra que anteriormente nãopertenciam a determinadas classes, poderiamagora pertencer.Neste caso vimos que a construção da tabelade frequências se resume, de um modo geral,a considerar como classes as diferentescategorias ou valores que surgem na amostra.Uma representação gráfica adequada paraestes dados, é o diagrama de barras, que já foiintroduzido no módulo de Estatística.Diagrama de barras – Representação gráficaque consiste em marcar num sistema deeixos coordenados, no eixo dos xx, pontosrepresentando as categorias ou os valoresconsiderados para as classes na tabela defrequências, e nesses pontos barras verticais dealtura igual à frequência absoluta ou à frequênciarelativa.2.3.1.1 - Variável de tipo qualitativoExemplo 2.3.1 - Vamos exemplificar a construçãode um diagrama de barras de uma variávelqualitativa, considerando a tabela de frequênciasconstruída em 2.2.1, para estudar a variávelGrupo Parlamentar, do ficheiro Deputados.xls:


pág. 109# Estatística Descritiva com EXCEL2.3.1.2 - Variável de tipo quantitativo discreto2.3.1.2.1 – Diagrama de barrasTabela defrequênciasClasses Freq. Abs. Freq. Rel.BE 8 0,035CDS-PP 12 0,052PCP 12 0,052PEV 2 0,009PS 121 0,526PSD 75 0,326230 1No caso de dados discretos, para construir atabela de frequência consideram-se como classesos diferentes valores que surgem na amostra.Estes valores devem ser apresentados, na tabelade frequência, ordenados.Exemplo 2.3.2 – Suponhamos que para umaamostra de 30 deputados da actual legislatura,se tinha recolhido a informação sobre o número defilhos, tendo-se obtido os seguintes valores:2, 1, 2, 3, 0, 0, 1, 1, 4, 1, 2, 1, 0, 0, 0, 2, 3,1, 1, 6, 3, 1, 3, 2, 0, 1, 2, 0, 2, 3Resuma os dados numa tabela de frequências econstrua o diagrama de barras associado.A metodologia seguida para construir o diagramade barras, consiste em, na folha Excel, quecontém a tabela:• Seleccionar as células que contêm asclasses e as frequências absolutas (porexemplo);• Seleccionar, no menu, o ícone Chart ;• Na caixa de diálogo que aparece, seleccionara opção Column;• Clicar no botão Next, duas vezes, parapassar dois passos, até aparecer uma caixade diálogo, que apresenta várias opções: EmLegend, desactivar a legenda e em Titles,acrescentar o título no eixo dos Y’s e noeixo dos X’s, como se apresenta a segui, ecarregar em Finish:Introduzimos os dados numa folha de Excel, a quechamámos Filhos.xls e a seguir procedemos doseguinte modo:1ª parte – Procedimento para a construção databela de frequências:• Seleccionar as células que contêm os dadose ordená-los utilizando o botão da barra deExcel;• Considerar para classes os diferentesvalores que surgem na amostra. Se faltaralgum valor entre o máximo e o mínimo,considerá-lo também na tabela de frequências,se a seguir se pretende construir umdiagrama de barras;• Utilizando a função COUNTIF, determinaras frequências absolutas das classesconsideradas no ponto anterior; calcular apartir destas, as frequências relativas:Tabela defrequênciasClasses Freq. Abs. Freq. Rel.0 7 0,2331 9 0,3002 7 0,2333 5 0,1674 1 0,0335 0 0,0006 1 0,03330


um mundo para conhecer os números #pág. 1102ª parte – Procedimento para a construção dodiagrama de barras:• Seleccionar as células que contêm asclasses e as que contêm as frequênciasrelativas (para seleccionar as células quecontêm as frequências relativas, comonão são adjacentes às que contêm asclasses, depois de seleccionar estas, temque se pressionar a tecla CTRL e com elapressionada, seleccionar aquelas);• Seleccionar Next. Nas Chart Optionsseleccionar Legend e retirar a selecção deShow Legend. Seleccionar Titles e colocartítulos adequados. Carregar em Finish:• Seleccionar na barra de ferramentas a opçãoChart e a seguir a opção Column, tal como sefez para os dados de tipo qualitativo;• Seleccionar Next e de seguida Series, comose apresenta a seguir:Nota (Esta nota foi sugerida pela leitura do artigode Neville Hunt – Charts in Excel, in TeachingStatistics, Volume 26, Number 2, pags 49-53):Como vimos na descrição que acabámos de fazerpara a construção de um diagrama de barras emExcel, o procedimento está longe de ser natural,já que o que seria de esperar era que, uma vezseleccionada a opção Column, nos surgisse arepresentação gráfica anterior, aparte pequenasalterações de “cosmética”.• Copiar a Series1, dada pelos valores=Sheet1!$D$3:$D$9, que constituem asclasses, para Category (X) axis labels eremover Series1 de Series:Suponhamos, no entanto, que na última classetínhamos considerado 6+, para significar 6 oumais filhos. Então, ao fim dos dois primeirospassos da descrição anterior temos arepresentação gráfica pretendida. O facto éque agora o Excel interpretou as classes comocategorias e fez a representação esperada.Suponhamos ainda, que em vez de modificarmos o6 para 6+, apagamos o conteúdo de D2:


pág. 111# Estatística Descritiva com EXCELSeleccionando agora as células D2 a D9 e F2 a F9e novamente no Chart a opção Column, então arepresentação que se obtém é, imediatamente, aseguinte:Tabela defrequênciasClasses Freq. Abs. Freq. Rel. Freq.rel.acum.0 7 0,233 0,2331 9 0,300 0,5332 7 0,233 0,7673 5 0,167 0,9334 1 0,033 0,9675 0 0,000 0,9676 1 0,033 1,00030A função cumulativa há-de ser tal que:• Para valores de x< o, será nula;• Para valores de o ≤ x < 1, será igual a0,233;• Para valores de 1 ≤ x < 2, será igual a0,533;• Para valores de 2 ≤ x < 3, será igual a0,767;Depois de apagar a legenda e inserir os títulos deforma conveniente, temos a representação finaldo exemplo anterior, sem grandes complicações.• Para valores de 3 ≤ x < 4, será igual a0,933;• Para valores de 4 ≤ x < 6, será igual a0,967;• Para valores de x ≥ 6, será igual a 1;2.3.1.2.2 – Função cumulativaA função cumulativa é uma função definida paratodo o valor real x, e que para cada x dá a somadas frequências dos valores da amostra menoresou iguais a x. Quando temos uma variável detipo discreto, a função cumulativa é uma funçãoem escada, isto é, é uma função que cresce pordegraus, mudando de degrau nos pontos emque a frequência é diferente de 0, e em que aaltura do degrau é igual à frequência respectiva.Vamos exemplificar a sua construção com oexemplo apresentado na secção anterior para aconstrução do diagrama de barras.Exemplo 2.3.2 (cont) – Construa a funçãocumulativa para os dados do número de filhos daamostra dos 30 deputados.Retomando a tabela de frequências do exemplo2.3.2, vamos acrescentar uma coluna com asfrequências relativas acumuladas:O Excel não dispõe de uma representaçãoimediata para a função anterior, pelo que temosde utilizar um pequeno artifício. Suponhamos, parajá, que por algum processo tínhamos conseguidoconstruir o gráfico da função cumulativa, que temo seguinte aspecto:Esta função é constituída por 6 degraus, emque a altura do degrau é, em cada ponto, igualà frequência relativa respectiva e a dimensãodo patamar é igual à diferença entre os pontosconsecutivos, com frequência relativa diferente dezero:


um mundo para conhecer os números #pág. 112O Excel dispõe de uma representação gráfica,o Scatter (Diagrama de dispersão), em que noúltimo subtipo apresentado para as opções, uneos pontos, por ordem crescente das abcissas,simultaneamente de tantas séries (conjuntos depontos) quantas as desejadas. Exemplifiquemoscom os pontos da seguinte tabela, em quepretendemos representar 3 conjuntos de dados aque chamámos Série1, Série2 e Série3:Agora basta seleccionar as células I2 a O13 efazer o diagrama de dispersão, como indicadoanteriormente. Proceda como na construçãodo diagrama de barras, para retirar a legenda eacrescentar títulos:2.3.2 – Variáveis quantitativas contínuas2.3.2.1 – HistogramaVamos utilizar esta função Scatter para construiros sucessivos degraus da função cumulativa,em que cada degrau corresponde a uma série- união de dois pontos, e em que temos tantasséries a representar, quantos os degraus. Assim,o artifício está em representar, numa tabelado Excel, os degraus pretendidos através dascoordenadas dos pontos, como exemplificamos aseguir:2.3.2.1.1 – Tabela de frequênciascom as classes com a mesmaamplitudeNo caso de um conjunto de dados contínuos, jávimos anteriormente a forma de obter a tabelade frequências. Como se viu, as classes sãointervalos e a representação gráfica adequadaé o histograma, já apresentado no módulo deEstatística:


pág. 113# Estatística Descritiva com EXCELHistogramaÉ um diagrama de áreas, formado por umasucessão de rectângulos adjacentes, tendo cadaum por base um intervalo de classe e por área afrequência relativa (ou frequência absoluta). Porconseguinte, a área total coberta pelo histogramaé igual a 1 (ou igual a n, a dimensão do conjunto dedados a representar).não é necessário ter esta preocupação, jáque se se pretender seleccionar células nãoadjacentes, basta seleccionar as células daprimeira coluna e se a coluna seguinte não foradjacente, começar por carregar a tecla CTRLe com ela pressionada seleccionar, então, ascélulas pretendidas;• Seleccionar as células de K4 a L11 (quecontêm as classes e as frequências relativas adividir pela amplitude de classe);• Proceder como em 3.1 para construir umdiagrama de barras, para obter a figura que seapresenta a seguir;Para construir o histograma de forma correcta,isto é, de modo a que as áreas dos rectângulossejam iguais às frequências, a altura dorectângulo correspondente a determinada classe,deverá ser igual à frequência da classe a dividirpela respectiva amplitude. Contudo, se as classestiverem todas a mesma amplitude, é usualconstruir os rectângulos com alturas iguais àsfrequências relativas (absolutas) das respectivasclasses, vindo as áreas dos rectângulosproporcionais e não iguais às frequências. Aconstante de proporcionalidade é a amplitude declasse. No entanto, se se pretender compararamostras através de histogramas, emborao histograma não seja a representação maisadequada para a comparação de amostras, deveseter o cuidado de os construir da forma indicadainicialmente, e utilizando as frequências relativas,de modo que a área total ocupada por cada umdos histogramas seja igual a 1.Exemplificamos, de seguida, a construção de umhistograma utilizando o Excel.Para obter o histograma, já que o que se nosapresenta na figura anterior não é um histogramapois não tem as barras adjacentes, terá de:Clicar duas vezes sobre as barras, de forma a queapareça o menu Format Data Series ou Formatdata Points.; Seleccionar Options e em Gap Widthseleccionar 0;OK:Exemplo 2.3.3 – Considerando a tabela defrequências construída em 2.3 para a variávelidade, construa o histograma adequado. Processoutilizado para obter o histograma:• Acrescentar, à tabela considerada, umaoutra coluna com a frequência relativa a dividirpela amplitude de classe (igual a 5,7). No casopresente, inserimos estas células adjacentesàs células que contêm as classes. No entanto,


um mundo para conhecer os números #pág. 114Finalmente pode-se melhorar esteticamenteo histograma, diminuindo o número de casasdecimais nos valores apresentados no eixo dos YY,retirando as linhas, etc.• Em Input Range, indicámos o local dos dadose seleccionámos ainda a opção Chart Outpute clicámos OK. Como resultado obtivemos oseguinte:2.3.2.1.2 – Função HistogramNo Excel existe uma função, idêntica à funçãoFrequency, a função Histogram, a que se acedeseleccionando Tools-Data-Analysis-Histogram-Ok. Vamos exemplificar a sua utilização para oconjunto de dados da variável Idade, anteriormenteconsiderado:• Substituímos os limites das classespelos intervalos das classes e arranjámosconvenientemente o gráfico, já que arepresentação que se obtém, ao contrário doque é indicado no título, não é um histograma:• Definir a coluna de separadores ou limitesde classes, que constituirá o Bin Range: Nonosso caso contruímos as classes subtraindoa amplitude de classe sucessivamente aomáximo, obtendo os valores {33,1, 38,8, 44,5,50,2, 55,9, 61,6, 67,3} (tal como para afunção Frequency, as classes são fechadas àdireita e abertas à esquerda), que colocámosnas células P4:P10;• Seleccionar Tools-Data-Analysis-Histogram-Ok:Nota: Ao considerar a função Histogram, tema possibilidade de não indicar os separadoresde classe, deixando vazio o espaço denominadoBin Range, uma vez que serão considerados, pordefeito, classes. Contudo, não aconselhamos quese deixe esta escolha ao Excel, uma vez que, porexemplo, a primeira classe que é considerada, éconstituída pelos valores menores ou iguais aomínimo, o que não tem qualquer sentido.


pág. 115# Estatística Descritiva com EXCEL2.3.3.1.3 - Tabela de frequências com as classescom amplitudes diferentesA construção da tabela de frequências pode serfeita utilizando a função Frequency, como vimos nasecção anterior. No entanto, vai ser necessárioacrescentar uma nova coluna onde, para cadaclasse, se considera a frequência relativa (ouabsoluta) a dividir pela amplitude de classe. Seráesta coluna que irá fornecer as alturas dosrectângulos que constituirão o histograma. Comesta precaução, garantimos que as áreas destesrectângulos são iguais às frequências relativas(ou absolutas). Apresenta-se a seguir a tabela defrequências obtida, segundo a descrição anterior:Por vezes a organização e redução de um conjuntode dados contínuos, através de uma tabela defrequências, pressupõe que os intervalos, queconstituem as classes, tenham limites escolhidospelo utilizador, sem obedecerem a um critérioestritamente resultante da aplicação de umaregra matemática. É o caso, por exemplo, davariável idade, em que poderá ser interessanteescolher determinadas classes etárias.O histograma correspondente a esta tabela defrequências, com cuja construção não nos vamospreocupar para já, terá o seguinte aspecto:Tendo em conta a definição de histograma, comosendo um diagrama de áreas, constituído poruma série de rectângulos adjacentes, em que aárea de cada rectângulo é igual ou proporcionalà frequência de classe, no caso de a tabela defrequências não apresentar as classes todascom a mesma amplitude, já o histograma não sepode reduzir a um diagrama de barras, em que asbarras tenham a mesma amplitude e as alturassejam iguais às frequências.Não sendo o Excel um software de Estatística,não apresenta uma solução imediata para aconstrução do histograma nestas condições,sendo necessário recorrer a um artifício.Exemplificaremos a seguir a aplicação de umatécnica possível para a resolução do problema,recorrendo à representação gráfica Scatter.Temos um histograma correctamente construído,em que as áreas dos rectângulos são iguais àsfrequências relativas, ocupando o histograma umaárea total igual a 1.Na figura anterior, vamos marcar alguns pontoscom letras:Exemplo 2.3.4 – Consideremos ainda a variávelidade dos deputados. Organize os dados segundouma tabela de frequências, considerando asseguintes classes [28, 35[, [35, 40[, [40, 45[,[45, 50[, [50, 55[, [55, 65[, [65, 75[, [75, 78].


um mundo para conhecer os números #pág. 116Repare que se unir o ponto a com b, de seguidacom c, até esgotar todos os pontos, obtém ohistograma. Então, para obter a representaçãográfica desejada, basta construir uma tabela,numa folha de Excel, com as coordenadasdos pontos que pretendemos unir e utilizar arepresentação Scatter, tal como foi feito pararepresentar a função cumulativa em 3.1.2.2:• No limite inferior da 3ª classe, l3, afrequência acumulada é a soma das frequênciasdas duas classes anteriores, (f1+f2). Entãounimos os pontos de coordenadas (l2, f1) e (l3,(f1+f2));• Quando chegarmos à última classe, temosa garantia que a frequência acumulada,correspondente ao seu limite superior, éigual a 1, pelo que nesse ponto marcamos 1e continuamos com um segmento de rectaparalelo ao eixo dos xx.Exemplo 2.3.4 (continuação) – Construa a funçãocumulativa, a partir da tabela de frequênciasapresentada no exemplo 2.3.4. Para obter afunção cumulativa, basta acrescentar à tabela defrequências uma nova coluna com as frequênciasrelativas acumuladas. De seguida utiliza-se arepresentação Scatter, para unir os pontos,tais como foram definidos nas indicações dadas,anteriormente, para a construção da funçãocumulativa:2.3.2.2 – Função cumulativaPara representar graficamente as frequênciasacumuladas, considera-se a função cumulativa,que se obtém utilizando a seguinte metodologia:• Antes do limite inferior da 1ª classe, l1, afrequência acumulada é nula, pelo que se traçaum segmento sobre o eixo dos xx, até esseponto;• No limite inferior da 2ª classe, l2, afrequência acumulada é a frequência da classeanterior, f1. Admitindo que a frequência sedistribui uniformemente no intervalo de classe,unimos os pontos de coordenadas (l1,0) e (l2,f1);Da maneira como foi construída, a funçãocumulativa tem algumas propriedadesimportantes, nomeadamente:• Está definida para todo o x real ( narepresentação gráfica anterior escolhemosarbitrariamente o valor da abcissa igual a 25para começar a construir a função cumulativa);• É sempre não decrescente;


pág. 117# Estatística Descritiva com EXCEL• Só assume valores no intervalo [0, 1];• Permite obter informação sobre qual o valorda abcissa a que corresponde determinadafrequência acumulada.Vamos explorar um pouco mais esta últimapropriedade.Suponhamos que se pretendia saber, a partir darepresentação gráfica da função cumulativa, obtidapara o exemplo anterior, qual o valor aproximadopara a idade a que corresponde uma frequênciarelativa acumulada de 50%. De acordo com afigura, este valor deve estar na classe [50, 55[.Recordamos que a técnica utilizada permitiu¬nosobter um valor aproximado para a mediana, cujovalor exacto só poderia ter sido determinado apartir dos dados originais, antes de procederao agrupamento. Aliás, veremos mais à frentea determinação desta e de outras medidas,utilizando o Excel.Se em vez de pretendermos determinar o valora que corresponde a percentagem de 50%,procurássemos os valores a que correspondemas percentagens de 25% ou 75%, obteríamosos chamados quartis, respectivamente 1.º e3.º quartil, e a metodologia utilizada para osdeterminar a partir da função cumulativa seriaidêntica à utilizada para determinar a mediana.2.3.3 – Outras representações gráficasUma vez que se admite que a frequência sedistribui uniformemente sobre a amplitude declasse, isto é a frequência 0,196 (=0,687-0,491)distribui-se uniformemente sobre o intervalo deamplitude 5, através da resolução de uma equaçãode proporcionalidade, obtém-se o valor queandávamos à procura:0196 , 5=0,009 x0009 , x5x = = 0,220196 ,Além das representações gráficas consideradasanteriormente, em que destacamos o diagramade barras para dados discretos e o histogramapara dados contínuos, existem ainda outrasrepresentações que podem ser utilizadas paradados qualitativos ou quantitativos – diagramacircular, ou dados quantitativos – caule-e-folhase diagrama de extremos e quartis. Todas estasrepresentações já foram objecto de estudo nomódulo de Estatística, pelo que privilegiaremosaqui a forma de os construir utilizando o Excel.onde 0,009=0,5-0,491. Então o valor pretendidoé 50 + 0,22 = 50,22 anos, ou seja 50 anos.Ao valor obtido anteriormente, a que correspondeuma frequência acumulada de 50%, chamamosmediana. A mediana, que já foi objecto de estudono módulo de Estatística, divide a distribuição dasfrequências em duas partes iguais.2.3.3.1 – Diagrama circularEsta representação, utilizada essencialmente paradados qualitativos, é constituída por um círculo,em que se apresentam vários sectores circulares,tantos quantas as classes consideradas na tabelade frequências da amostra em estudo. Os ângulosdos sectores são proporcionais às frequências dasclasses. A representação deste diagrama, em Excel,é imediata, apresentando várias modalidades.


um mundo para conhecer os números #pág. 118Exemplo 2.3.5 – Apresente sob a forma de umdiagrama circular a distribuição dos deputadosdo ficheiro Deputados.xls segundo o grupoparlamentar. Esta variável já foi objecto de estudonum exemplo anterior, de forma que recorremosà tabela de frequências já calculada, para obter arepresentação gráfica pretendida. Seleccionamseas células com as classes e as respectivasfrequências absolutas ou relativas e no menuChart seleccionassem Pie, a modalidade desejada:Nesta representação considerámos 4 caulese o intervalo entre caules sucessivos é de 10unidades. No caule 3 pendurámos todas as folhasdeste caule e o mesmo foi feito com todos osoutros caules. É como se tivéssemos consideradoas classes [30, 40[, [40, 50[, [50, 60[ e [60, 70[para agrupar os dados. Suponhamos que em vezde considerar estas classes, de amplitude 10,estávamos interessados em considerar classes deamplitude 5, a saber [30, 35[, [35, 40[, [40, 45[,[45, 50[, [50, 55[, [55, 60[, [60, 65[ e [65, 70[.Então a representação anterior teria o seguinteaspecto:2.3.3.2 – Caule-e-folha3 1 3 43 84 2 2 3 44 6 7 85 1 1 1 2 2 2 45 6 7 7 96 0 1 1 3 3 36 5 6Esta representação, como se sabe, é umarepresentação que se pode considerar entre atabela e o gráfico, uma vez que são apresentadosos verdadeiros valores da amostra, mas de formasugestiva, que faz lembrar um histograma. Antesde abordarmos a forma de construir um caule¬efolhasutilizando o Excel, vamos apresentar umexemplo, que nos poderá ajudar a compreender ospassos necessários para essa construção.Exemplo 2.3.6 – Consideremos a seguinteamostra constituída pela idade de 30deputados,escolhidos aleatoriamente da tabela dedeputados do ficheiro Deputados.xls:63 59 31 51 51 61 4265 48 63 57 43 54 425251 57 34 38 44 61 6056 66 63 52 47 33 4652Qualquer que seja a representação considerada,qualquer caule tem sempre a possibilidade deter penduradas o mesmo número de folhas. Noexemplo anterior , no primeiro sub caule 3 (ou 4,ou 5, ou 6) aparecem penduradas as folhas 0,1, 2, 3 e 4, enquanto que no segundo sub caule3 (ou 4, ou 5, ou 6) aparecem penduradas asfolhas 5, 6, 7, 8 e 9). Uma outra possibilidadeseria considerar classes de amplitude 2, fazendocada caule dividido em 5 sub caules e cabendoa cada sub caule 2 folhas (repare-se com aanalogia com a construção do histograma, em queconsiderámos as classes com igual amplitude).A esta amplitude de classe é usual chamarcomprimento de linha.Não existe no Excel uma representação imediatapara a construção de um caule-e-folhas, peloque vamos utilizar um processo desenvolvido porNeville Hunt (Hunt, 2001), para o Excel:


pág. 119• 1º passo – Insira os dados na coluna C, começando na célula C2; se não estiverem ordenados,ordene-os por ordem crescente;• 2º passo – Insira na célula E1 o valor que deseja para o comprimento de linha: 10, 5 ou 2 ou umapotência de 10, destes valores;• 3º passo – Na célula A2 escreva a seguinte fórmula = INT(C2/E$1)*E$1 e replique-a tantas vezesquantos os dados inseridos no 1º passo, na coluna C;• 4º passo – Na célula B2 escreva o valor 1. Na célula B3 escreva a fórmula = IF (A3=A2; B2+1; 1)e replique a fórmula, tantas vezes quantos os dados inseridos no 1º passo, na coluna C;• 5º passo – Seleccione as células das colunas A, B e C com os resultados obtidos nos passosanteriores e no módulo Chart Wizard (Assistente de Gráficos) escolha Bubble;• 6º passo – Faça um duplo clique numa das bolas representadas e na janela Format data Series (ouclique com o botão direito do rato e seleccione Format data Series) - seleccione Patterns: - Border:None - Area: None - Data Labels: Show bubbles sizes - OK;• 7º passo – Faça um duplo clique numa das “Data labels” (ou clique com o botão direito do rato eseleccione Format Data Labels), e na janela Format Data Labels, em Alignment: - Label Position:Centre - OK;• 8º passo – Clique numa das linhas horizontais que atravessam o gráfico e apague-as com a teclaDelete. Faça o mesmo ao fundo cinzento, seleccionando-o e carregando na tecla Delete. Apaguetambém a legenda.• 9º passo – Formate convenientemente os eixos.Na folha de Excel, se mudarmos o valor docomprimento de linha para 5, aparece deimediato a seguinte representação (aparte umaformatação adequada do eixo dos xx):Repare-se que, embora as notações usadaspara os caules e as folhas não sejam idênticosaos da representação inicialmente considerada,feita sem o recurso ao Excel, o aspecto gráficoé o mesmo. Para uma maior semelhança,seleccionámos o eixo dos yy e fizemos Delete:


um mundo para conhecer os números #pág. 1202.3.3.3 – Diagrama de extremos e quartisEsta representação, muito simples, mas bastanteelucidativa ao realçar a informação contidanos dados, no que diz respeito à simetria evariabilidade, pressupõe que se calculem algumasestatísticas necessárias para a sua construção.Mais uma vez estamos perante uma representaçãográfica cuja construção, por meio do Excel,necessita de alguns “truques”. Assim, o primeiropasso para uma dessas construções, consiste emrepresentar, adequadamente, numa folha de Excel,as estatísticas Mínimo, Máximo. 1.º e 3.º quartise mediana.Exemplo 2.3.7 – Construa um diagrama deextremos e quartis para a variável idade dosdeputados do ficheiro Deputados.xls.Construção do diagrama de extremos e quartis,em Excel:1. Utilizando o Excel, começam por secalcular as estatísticas necessárias1, que seapresentam da seguinte forma:2. Seleccionar as células que contêm asEsta representação de um conjunto de dados,num diagrama de extremos e quartis, éespecialmente indicada para comparação de váriasamostras, como se exemplifica a seguir:Exemplo 2.3.8 – Registou-se o comprimento, emcentímetros, das asas de 32 melros-fêmeas e25 melros-macho, tendo-se obtido os seguintesresultados:Melro-fêmea -11,2 11,7 12,0 12,1 12,2 12,2 12,312,3 12,4 12,4 12,4 12,4 12,5 12,512,5 12,5 12,6 12,6 12,7 12,7 12,712,8 12,8 12,8 12,8 13,0 13,1 13,113,2 13,5 13,6 13,8Melro-macho -13,0 13,4 13,5 13,5 13,5 13,6 13,613,7 13,8 13,8 13,8 13,9 14,0 14,014,1 14,1 14,1 14,2 14,3 14,3 14,414,4 14,4 14,4 14,8estatísticas, assim como as suas etiquetas:E2 a F6;3. No módulo Chart Wizard (Assistente deGráficos) seleccionar:Line -Seleccionar Line with markers displayedat each data value- Clicar Next -SeleccionarSeries in Rows Clicar -FinishUtilizando uma representação adequada, compareos dois conjuntos de dados.Começámos por introduzir os dados numa folhade Excel, calculando de seguida as característicasamostrais relevantes para a construção de umdiagrama de extremos e quartis:4. Clicar com o botão direito do rato num dospontos. Seleccionar:Format Data Series -Seleccionar OptionsEscolher -High-low lines e Up-down bars;Ajuste à sua escolha Gap width; OK5. Arranjar “esteticamente” o gráfico:


pág. 121# Estatística Descritiva com EXCELPara proceder à construção do diagrama deextremos e quartis comece por seleccionar ascélulas que contêm os valores das característicasamostrais, assim como as etiquetas (células D1a F6), e proceda de acordo com as instruçõesdadas no exemplo anterior. Depois de formatarconvenientemente o eixo dos yy, obterá a seguinterepresentação:2.4 – Alguns exemplosAs linhas a unir as caixas podem ser removidas,seleccionando cada uma, com o botão direito dorato e seleccionando sucessivamente:Format-Data Series- Patterns-Line: None - OkA seguir apresentamos alguns exemplos, sobre aforma de projectos, para os quais podemos utilizarvários tipos de representações gráficas, algumasjá referidas anteriormente, outras introduzidaspela primeira vez, mas que apresentam realizaçãoimediata com o Excel.Projecto 1Neste projecto são apresentados alguns dadosrelativamente à Modificação da Estrutura dasCategorias de Pensões entre 1993 e 2001 (empontos percentuais) (Eurostat – Statistiques enbref – Population et conditions sociales, 8/2004):O gráfico anterior é bastante elucidativo namedida em que mostra que o tamanho das asasdo melro-macho é, de um modo geral superior aodo melro-fêmea, apresentando ainda uma maiorvariabilidade.Velhice Sobrevivência Invalidez Pre-reformaEu-15 2,8 -0,8 -1,7 -0,4Bélgica 3,2 -2,1 -0,4 -0,7Alemanha 1,1 -0,5 -0,7 0,1Grécia 1,9 1,5 -1,5 -1,7Espanha 3,3 -3 -1 0,7França 2,6 -1,1 -0,8 -0,7Irlanda -7,1 0 3,1 4Itália 4,1 -0,7 -2,2 -1,3Luxemburgo 2 -1,1 0 -0,9Holanda 6,2 0,2 -5,9 -0,4Áustria 0,2 -2,4 -2,9 5,1Portugal 6,6 -0,4 -5,2 - 1Finlândia 4,1 -0,5 -2,7 -0,8Dinamarca 0,3 0 -0,8 0,5Suécia 1,4 -0,3 -1,4 0,3Reino-Unido 3,3 0,3 -3,6 0


um mundo para conhecer os números #pág. 122Uma forma adequada para representar estesdados, é através de um diagrama de barras,nomeadamente barras horizontais, seleccionandona opção Chart o 2º tipo da opção Bar:Podemos ainda acrescentar sobre o gráficoos valores quando houver conveniência emdisponibilizar esta informação. Para isso bastaseleccionar Chart Options - Data labels - ShowValue:Vamos fazer alguma “cosmética” na representaçãográfica anterior, nomeadamente mudando aescala para –8 a 8 e fazendo com que as legendasnão se sobreponham ao gráfico:Projecto 2Entre os dois últimos recenseamentos da populaçãoportuguesa, os Censos 91 e os Censos 2001, realizados,respectivamente, em 15 de Abril de 1991e 12 de Março de 2001, verificou-se que a populaçãoresidente no território nacional passou de9.867.147 para 10.356.117 habitantes, a quecorresponde um acréscimo de 4.8%. Na generalidadedas regiões verificou-se um aumento dapopulação, com excepção das regiões do Alentejoe Madeira. Partindo dos resultados censitáriosdefinitivos, estimou-se a população residente em31 de Dezembro de 2002 em 10.407.500 indivíduos,dos quais 5.030.200 do sexo masculino.


pág. 123# Estatística Descritiva com EXCELApresentam-se a seguir algumas tabelas egráficos com alguns indicadores (www.ine.pt):1.Nados-vivos segundo a filiação – 2002Uma representação adequada para a tabelaanterior é o diagrama circular. Assim, vamosseleccionar Chart - Pie - 1ºsubtipo - Next - Next- Data labels - Show label and percent - Finish:Nados-vivos segundo a filiação, por regiões:Observação: Foi possível optarmos pela representaçãográfica anterior, uma vez que os dadosdas duas características em estudo somavam100%.Acrescentámos à tabela anterior uma outracoluna – células C6 a C13, com os filhos forado casamento e decidimos aqui optar por umarepresentação em barras verticais. Assim, depoisde seleccionar as células A5 a C13, fizemosChart - Column - 3ºsubtipo- Next - Next - Datalabels - Show value - Titles - Chart title - % defilhos - Finish:Outra representação possível obtém-se seleccionandoChart - Column - 1ºsubtipo - Next- Data labels - Show value - Titles - Chart title - %de filhos - Finish:


um mundo para conhecer os números #pág. 1242. Taxa de mortalidade fetal tardia (Taxa mft)(28 ou mais semanas de gestação):1960 26.5‰1965 23.2‰1970 21.7‰1975 15.2‰1980 11.8‰1985 9.6‰1990 6.9‰995 5.5‰2000 3.7‰2002 3.4‰Repare-se, no entanto, que a representaçãoanterior não está correcta, pois a variável tempodo eixo dos xx está a ser interpretada como umavariável qualitativa e não quantitativa como deveriaser. Assim, o intervalo entre 1995 e 2000 é igualao intervalo entre 2000 e 2002, o que obviamentenão está correcto.3. Taxa de mortalidade infantilIntroduzimos a tabela anterior numa folha de Excele antes de procedermos a uma representaçãográfica passámos os pontos para vírgulas eretirámos a permilagem, não reconhecida noExcel.Seguidamente depois de seleccionar as célulasA15 a B25, seleccionámos Chart - XY(Scatter)- 2ºsubtipo - Next - Next - Legend:Retirar aselecção de Show Legend - Titles - ‰ em Value(Y)- Finish:1960 77.5‰1965 64.9‰1970 58.0‰1975 38.9‰1980 24.3‰1985 17.8‰1990 10.9‰1995 7.5‰2000 5.5‰2002 5.0‰A representação gráfica dos dados desta tabelapode ser idêntica à do ponto anterior.4. Casamentos segundo a forma de celebraçãoPara esta tabela pode-se usar uma representaçãográfica idêntica à usada no ponto 1, paramostrar a percentagem de filhos dentro e fora docasamento.Chamamos a atenção para o facto de ser possívelobter uma representação aparentemente semelhanteà anterior utilizando a opção Chart - Line- 4ºsubtipo - Next - Next - Legend - Retirar aselecção de Show Legend - Titles - ‰ em Value(Y)- Finish:


pág. 125# Estatística Descritiva com EXCELUnidade % Civil Católico1960 9.2 90.81965 11.8 88.21970 13.4 86.61975 20.0 80.01980 25.3 74.71985 25.9 74.11990 27.5 72.51995 31.2 68.82000 35.2 64.82002 37.5 62.55. População estrangeira com estatuto legal deresidente segundo a nacionalidadeAmérica 17,1%Europa 30,2%África 47,8%Outros 4,9%ÁfricaAngola 10,3%Cabo Verde 21,9%Guiné Bissau 8,0%Outros 7,6%Para representar os dados da tabela seguinte:Africana(1) EuropeiaOutraPara fazer uma representação destes dadosrecorremos a um diagrama em Pie (circular),mas num subtipo especial que permite visualizara forma como África está repartida. Assimconsidere-se a seguinte tabela em Excel,ocupando as células A47 a B53 e seleccione-seChart - Pie - 6ºsubtipo - Next - Next - Data labels- Show label and percent - Legend - Retirar aselecção de Show Legend - Finish:1990 45 31 311991 48 33 331992 52 35 371993 58 35 441994 73 42 431995 79 45 441996 81 47 441997 82 50 441998 83 52 431999 90 57 452000 99 57 522001 107 67 502002 114 72 52(1)Unidade 10 3Podemos considerar o 2.º subtipo de Column(chama-se a atenção para que neste caso nãoseria correcto utilizar o 3.º subtipo de Column,uma vez que estamos os dados estão em númeroabsoluto e não em percentagem):Para incluir Cabo Verde na parte direita do gráficocarregar com o botão direito do rato em qualquerparte do gráfico e seleccionar Format DataSeries - Second plot contais the last: 4 - Finish.Finalmente substituir Other (com 48%) por África:


um mundo para conhecer os números #pág. 1263. Característicasamostrais. Medidasde localizaçãoe dispersão3.1 - IntroduçãoNo módulo de Estatística foram apresentadasas medidas ou estatísticas que se utilizam pararesumir a informação contida nos dados. Destasmedidas, destacam-se as medidas de localização,nomeadamente as que localizam o centro daamostra, e as medidas de dispersão, que medema variabilidade dos dados.ou o 2.º subtipo de XY(Scatter):Neste capítulo não nos debruçaremos sobre aspropriedades destas medidas, já apresentadasno módulo referido anteriormente, abordandosobretudo a forma de as calcular, utilizandoo Excel. Convém desde já adiantar que este éum trabalho grandemente facilitado pelo factode existirem funções no Excel que nos dãodirectamente estas medidas.Para facilidade de exposição vamos representara amostra de dimensão n por x1, x2, ..., xn ondex1, x2, ..., xn representam, respectivamente, osresultados da 1ª observação, da 2ª observação,da n-ésima observação, a serem recolhidas, nãopressupondo qualquer ordenação.Como vimos há várias representações gráficaspara os dados de uma mesma tabela, umasmais sugestivas do que outras. Desde que arepresentação escolhida esteja correcta, deixasea liberdade da escolha ao “artista” que está aorganizar e a reduzir os dados.


pág. 127# Estatística Descritiva com EXCEL3.2 – Medidas de localizaçãoComo medidas de localização, vamos apresentar amédia, mediana e quartis.3.2.1 – MédiaA média é uma medida de localização do centroda distribuição dos dados. Dada a amostra x1,x2, ..., xn, a média representa-se por x e obtémseadicionando todos os elementos e dividindo oresultado por n. Em Excel, determina-se a médiaatravés da função AVERAGE (), que retorna amédia aritmética dos seus argumentos, quepodem ser números ou endereços de células.2- Cálculo da média, a partir dos dadosagrupados: Adicionar à tabela de frequênciasuma nova coluna com o produto dos valoresque constituem as classes, pelas respectivasfrequências relativas (Células H3 a H9) e somaros valores obtidos (Célula H10):Exemplo 3.2.1 – Retomemos a amostra doexemplo 2.3.2, constituída pelo número de filhosde 30 deputados:2, 1, 2, 3, 0, 0, 1, 1, 4, 1, 2, 1, 0, 0, 0, 2, 3,1, 1, 6, 3, 1, 3, 2, 0, 1, 2, 0, 2, 3Calcule a média da amostra. Considerámos oficheiro Filhos.xls, constituído no exemplo 2.3.2,em que os elementos de que pretende calcular amédia ocupam as células A2 a A31:No caso de dados discretos, como é o casoanterior, o valor da média é o mesmo, quer sejacalculada utilizando os dados originais, queros dados agrupados (utilizando as frequênciasrelativas), em que as classes do agrupamento sãoos diferentes valores que surgem na amostra. Omesmo não acontece no caso de dados contínuos,como exemplificamos a seguir.Exemplo 3.2.2 – Calcule a média das idades dosdeputados do ficheiro Deputados.xls.Para calcular a média pretendida, assim comopara qualquer outro conjunto de dados de tipodiscreto, podemos proceder de dois modos, querconsiderando os dados originais, quer agrupados.1- Cálculo da média, a partir dos dados originais,utilizando a função AVERAGE(): Colocar o cursorna célula onde se pretende colocar a média,por exemplo a célula E11, e inserir a funçãoAVERAGE(A2:A31) – os argumentos desta funçãosão os endereços onde estão os elementos daamostra. Como resultado obtém-se o valor 1,6,que se apresenta na figura seguinte.Para obter a média das idades procede-se comono primeiro caso do exemplo anterior, a partir dosdados originais. Estes dados encontram-se nascélulas C2 a C231 do ficheiro Idade.xls, Inserindoa função AVERAGE(C2:C231) na célula L13,obtemos o valor de 48,66 anos.Admitindo que não dispúnhamos dos dados originais,mas apenas de uma tabela de frequênciascom os dados agrupados, vejamos como obter umvalor aproximado para a média.Reportando-nos ainda ao ficheiro Idade.xls, consideremosa tabela de frequências que serviu paraagrupar os dados. Para obter um valor aproximadopara a média, procedemos da seguinte forma:


um mundo para conhecer os números #pág. 128• Adicionar à tabela de frequências uma novacoluna com os pontos médios dos intervalos declasse, que se obtêm fazendo a semi-soma doslimites dos intervalos (células S4 a S11);• Adicionar à tabela uma nova coluna com osprodutos dos pontos médios dos intervalos declasse, pelas frequências relativas respectivas(células T4 a T11);• Somar os resultados das células T4 a T11(célula T12):Repare-se que o valor obtido de 48,69 para amédia, é muito próximo do verdadeiro valor obtidocom os dados originais.Se os dados se apresentarem agrupados, já vimosna secção 3.2.2 do capítulo 2, um processo deobter a mediana através da função cumulativa. Noentanto, não é necessário construir esta funçãopara obter um valor aproximado para a mediana,pois este pode ser obtido a partir da tabelade frequências, utilizando ainda o processo deinterpolação.Exemplo 3.2.4 – A partir do agrupamentoconsiderado, no exemplo 2.3.3, para a variávelidade, calcule um valor aproximado para a mediana.Adicionando à tabela de frequências uma novacoluna com as frequências relativas acumuladas,verificamos que a mediana se encontra na classe[45,1; 50,8[, pois a frequência acumulada de 50%é atingida nesta classe:3.2.2 – MedianaOutra medida de localização do centro dos dados éa mediana. Ordenados os elementos da amostra, amediana, m, é o valor (pertencente ou não à amostra)que a divide ao meio, isto é, 50% dos elementos daamostra são menores ou iguais a m e os restantes50% são maiores ou iguais a m. Em Excel, determinasea mediana através da função MEDIAN(), queretorna a mediana dos seus argumentos, que podemser números ou endereços de células.Exemplo 3.2.3 – Calcule a mediana das idades dosdeputados. Compare com o valor obtido para amédia e diga o que poderia concluir da forma comoos dados se distribuem.Voltando ao ficheiro Idade.xls, utilizado no exemploanterior, insira na célula R15 a função Median(C2:C231) e obterá como retorno, o valor 50, comose verifica na figura seguinte. O valor obtido paraa mediana é ligeiramente superior ao da média,pelo que podemos admitir que a distribuiuçãoé aproximadamente simétrica, com um ligeiroenviesamento para a esquerda.Admitindo que a frequência se distribui uniformementesobre a amplitude de classe, isto é,a frequência 0,165 se distribui uniformementesobre o intervalo de amplitude 5,7, resolvendo aequação de proporcionalidade0165 , 57 ,=0122 , x0122 , x57,x 4,20165 ,onde 0,122=0,5-0,378, obtemos para a medianao valor aproximado 45,1 + 4,2 = 49,3.


pág. 129# Estatística Descritiva com EXCELChamamos a atenção para o seguinte facto: ovalor (aproximado) que se obtém para a mediana,depende do agrupamento que se fizer para osdados, pelo que agrupamentos diferentes darãoorigem a valores diferentes, embora não difirammuito uns dos outros (Lembramos que o valor damediana apresentado na figura anterior foi obtidoa partir dos dados não agrupados). .0 – mínimo1 – 1º quartil2 – mediana3.2.3 – Quartis3 – 3º quartil4 – máximoOs quartis, 1.º e 3.º, definem-se de formaidêntica à mediana, mas considerando em vez dapercentagem de 50%, respectivamente 25% parao 1º quartil, Q1, e 75% para o 3.º quartil, Q3.Há vários processos para a determinação dosquartis, nem sempre conduzindo aos mesmosresultados. Este facto não é preocupante,pois de um modo geral nas situações que têminteresse em estatística, as amostras têmdimensão suficientemente elevada de forma queos diferentes processos conduzem a valorespróximos.Em Excel a determinação dos quartis faz-seutilizando a função QUARTILE(array;quart):Repare que a função Quartile(array;quart) temdois argumentos, em que o primeiro argumento éo endereço das células de que queremos calcular oquartil e o segundo argumento pode tomar váriosvalores, conforme a medida de localização, deentre as seguintes, que nos interesse calcular:Assim, esta função, além do 1.º e 3.º quartis, a queestão associadas as percentagens 25% e 75%,respectivamente, ainda calcula a mediana, a queestá associada a percentagem de 50% e o mínimo emáximo com percentagens associadas de 0% e 100%.Exemplo 3.2.5 – Escolha os primeiros 15elementos da variável Idade, do ficheiro Idade.xls.Obtenha o 1º e 3º quartis. Os primeiros 15elementos são os seguintes:53 32 61 51 48 56 50 53 44 3937 37 41 40 40Utilizando a função QUARTILE(C2:C16;1) eQUARTILE(C2:C16;3), obtemos Q1=39,5 e Q3=52.Se utilizar o processo que aprendeu no módulode Estatística, nomeadamente considerando o1.º quartil como a mediana da primeira parte daamostra, quando esta é dividida pela mediana,depois de ordenar a amostra e tendo em contaque a mediana é 44, temos para 1.º quartil o44 48 50 51 53 53 56 61 valor 39,se não considerarmos a mediana como pertencentea nenhuma das partes, ou 39,5 seconsiderarmos a mediana pertencente àsduas partes. Para o 3º quartil obteremos,respectivamente o valor 53 ou 52, utilizando amesma metodologia.Exemplo 3.2.5 (cont) – Repita o exemplo anterior,considerando amostras de dimensão 12 e 13.


pág. 130Considere agora só os primeiros 12 elementos. Como a mediana é 49, o 1º quartil – mediana da 1ªparte da amostra, será (37+39)/2=38, enquanto que o 3º quartil será (53+53)/2=53.50 51 53 53 56 61Utilizando o Excel, os valores que se obtêm são Q1=38,5 e Q3=53.Considere agora os primeiros 13 elementos. Como a mediana é 48, o 1º quartil – mediana da1ª parte da amostra, será (37+39)/2=38, enquanto que o 3º quartil será (53+53)/2=53, nãoconsiderando a mediana como pertencente a nenhuma das partes. Caso contrário, teremos Q1=39e Q3=53.48 50 51 53 53 56 61Utilizando o Excel, os valores que se obtêm são Q1=39 e Q3=53.Obervação: Repare que os valores que se obtêm para os quartis, recorrendo ao excel não sãoiguais aos que se obtiveram sem utilizar o Excel. Efectivamente não existe uniformidade na formade calcular os quartis, como já havíamos referido anteriormente, embora os resultados obtidossatisfaçam a definição de quartis. Exemplificando com a mediana, repare que pela definição demediana, quando o número de elementos da amostra é par, podemos considerar para medianaqualquer valor compreendido entre os dois elementos médios da amostra ordenada! Não é costumedeixar esta opção ao critério de cada um e considera-se a semi-soma desses elementos médios.Voltando aos quartis, pode verificar que, no Excel, o 1.º quartil corresponde à observação de ordem(n+3)/4, procedendo-se a uma interpolação, quando necessário (Sugestão – Tente descobrir como écalculado o 3º quartil no Excel).3.3 – Medidas de dispersãoContinuando na mesma linha de apresentação das medidas de localização, também agora não nosvamos preocupar com as propriedades das medidas de dispersão, pois admitimos que estas já foramestudadas no módulo de Estatística. Debruçar-nos-emos sobre o seu cálculo, utilizando o Excel.A seguir apresentaremos o cálculo da variância, desvio padrão e amplitude inter-quartil.3.3.1 – Variância e desvio-padrãoA variância de um conjunto de dadosobtém-se fazendo a média dos quadradosdos desvios dos dados, relativamente àmédia.O Excel, tal como as máquinas de calcular,dispõe de duas funções para calcular avariância, conforme estejamos a calculara variância populacional (parâmetro)ou a variância amostral (estatística).Resumimos no quadro seguinte a situaçãode estarmos a calcular parâmetros ouestatísticas.População de N elementosAmostra de n elementosx 1, x 2, ..., x Nx 1, x 2, ..., x nx1 ... x2 xValor médio =Nx x xMédia x 1 2 ... nNnVariância populacionalVariância amostral2 2) 2 2 ( x ) ( x2) ... ( xN= 1 Ns 2 222( x 2= 1 x)( x x)... ( xn x)n 1Desvio padrão populacional Desvio padrão amostral s


pág. 131# Estatística Descritiva com EXCELEm Excel as funções utilizadas para calcular avariância populacional e amostral, são respectivamenteVARP() e VAR(). Como argumento utiliza-se asequência de números de que se quer calcular avariância, ou o endereço das células que os contêm.Por exemplo, no caso da população dos deputados,que temos vindo a estudar, temos informaçãocompleta sobre a variável Idade, pelo que a fórmulaque deve ser utilizada para obter a variância é a VARP,isto é, esta fórmula dá-nos a variância populacional.Se só dispuséssemos da idade de alguns deputados,isto é, uma amostra da população em estudo, entãoa fórmula a utilizar seria a VAR, que dá a variânciaamostral. A maneira de calcular as duas variânciasé idêntica, diferindo unicamente no seguinte ponto:enquanto que no caso da variância populacional sedivide a soma dos quadrados dos desvios pelo númerode parcelas, no caso da variância amostral divide-sea soma dos quadrados dos desvios pelo número deparcelas menos uma.O desvio padrão obtém-se fazendo a raiz quadradada variância ou utilizando uma função própria. Comoé evidente, existem também duas fórmulas para ocalcular, obtendo-se o desvio padrão populacionalou amostral, conforme a fórmula utilizada:Repare-se que quando se selecciona a função quese quer utilizar, aparece a descrição do que é quea função faz.Exemplo 3.3.1 – A partir do ficheiro Idade.xls,seleccione uma amostra aleatória simples dedimensão 40. Calcule a variância e o desvio padrãoda amostra obtida. Calcule de seguida a variânciada população constituída pelas idades dos 230deputados e compare com a variância da amostraobtida anteriormente.Utilizando o processo descrito em 1.3.1.2,seleccionámos uma amostra de 40 elementos queposteriormente colocámos nas células A2 a D11,de uma nova folha de Excel. Colocando agorao cursor na célula onde pretendemos colocar avariância, por exemplo na célula F4, inserimos afunção VAR (A2:D11) e a função retorna um valoraproximadamente igual a 112, para a variância daamostra.Para calcular a variância da população das idades,inserimos na célula F5 a função VARP(Sheet1!C2:C231), obtendo-se um valor aproximadamenteigual a 101:Comparando as variâncias, vemos que não sãoiguais, o que já seria de esperar, uma vez quea variância amostral foi obtida a partir de 40dos 230 dados e é uma estimativa da variânciapopulacional. Se recolhermos outra amostra,também de 40 elementos, não esperamos obtero mesmo valor para a estimativa. Esperamos sim,obter valores aproximados.


um mundo para conhecer os números #pág. 1323.4 – Função Descriptive StatisticsO Excel dispõe de uma função a que se acedeseleccionando Tools - Data Aalysis - DescriptiveStatistics - OKPara calcular o desvio padrão, ou se calcula araiz quadrada (positiva) do valor da variância,ou se utilizam as funções STDEV() ou STDEVP(),conforme se pretenda o desvio padrão amostralou populacional. No nosso caso os desvios padrõesamostral e populacional vêm, respectivamente,aproximadamente iguais a 10,6 e 10,0.3.3.2 – Amplitude e amplitude interquartisA amplitude da amostra (não confundir comdimensão da amostra), R, é a medida mais simplespara medir a variabilidade, mas tem a grandedesvantagem de ser muito sensível à existênciana amostra, de uma observação muito pequenaou muito grande. Não existe, no Excel, umafunção específica para a calcular, recorrendoseàs funções MAX() e MIN(). Já tivémos, aliás,oportunidade de utilizar estas funções quandonecessitámos de calcular a amplitude de umconjunto de dados, para iniciar a construção deum histograma, com classes de igual amplitude.Uma medida mais resistente do que a anterior, éa amplitude interquartis que, como o nome indica,se define como a diferença entre os 1.º e 3.ºquartis.Exemplo 3.3.2 – Calcule a amplitude e a amplitudeinterquartis da amostra obtida no exemploanterior. Como os elementos da amostra seencontram nas células A2 a D11, temos:R = MAX(A2:D11) – MIN(A2:D11) = 69-28 = 41Recorrendo à terminologia usada quando definimosos quartis, temos: Amplitude interquartis=QUARTILE(A2:D11;3) – QUARTILE(A2:D11;1) =56,25-39,75=16,5.e cujo resultado é o que se apresenta a seguir:Algumas das funções já são conhecidas das secçõesanteriores. Chamamos a atenção para o facto dea variância das 230 idades não coincidir com ovalor obtido na secção 3.3.1, uma vez que quandose considera um conjunto de dados e se pedem asEstatísticas descritivas, subentende-se que se estáperante uma amostra e não da população toda! Poresta razão, a fórmula utilizada para o cálculo davariância é a da variância amostral.As funções Standard Error, Kurtosis e Skewnesssaem fora do âmbito estas folhas, pelo que nãoentraremos em detalhe.


pág. 133# Estatística Descritiva com EXCELQuando se trata de dados qualitativos, não temsentido proceder à representação gráfica dosdados através de um diagrama de dispersão. Noentanto, é possível organizar essa informaçãona forma de tabelas de contingência (quealiás também podem ser usadas para dadosquantitativos, quer discretos, quer contínuos,depois de proceder à sua discretização).4. Dados bivariadosVamos, neste capítulo, introduzir uma metodologiaque utiliza uma ferramenta do Excel, a PivoTable,que além de permitir construir tabelas decontingência, também pode ser utilizada paraproceder a agrupamentos de dados quantitativos.4.1- Introdução4.2 – Tabelas de contingênciaNo módulo de Estatística foi feita referência adados bidimensionais, de tipo quantitativo. Quandodispomos de uma amostra de dados bivariados, aqual pode ser representada na forma (x1, y1), (x2,y2),..., (xn, yn), apresentamos esta informaçãoatravés de uma representação gráfica a que se dáo nome de Diagrama de dispersão:Diagrama de dispersão – É uma representaçãográfica para os dados bivariados, em que cadapar de dados (xi, yi), é representado por um pontode coordenadas (xi, yi), num sistema de eixoscoordenados.Já vimos no capítulo 2, a forma de representar,em Excel, dados bivariados, utilizando a opçãoXY(Scatter). Não apresenta qualquer dificuldade aconstrução desta representação gráfica, uma vezque basta proceder da seguinte forma:• Seleccionar as células que contêm os dados,organizados em 2 colunas;• Carregar no ícone• seleccionar a opção XY(Scatter) e o subtipopretendido; Formatar convenientemente arepresentação obtida (retirar a legenda, retiraras linhas de grelha, etc).Suponhamos que estamos interessados emestudar a associação entre variáveis de tipoqualitativo como, por exemplo, sexo e religião.Uma forma de apresentar os dados, é utilizandotabelas de contingência.Exemplo 4.2.1 – Uma empresa decidiu estudaro seu pessoal quanto ao estado civil e sexo.Representando por M e F as categorias davariável Sexo, e por C (casado(a)), S (solteiro(a)),D (divorciado(a)) e V (viúvo(a)), obteve a seguintelista: (M,C), (M,S), (F,C), (F,C), (F,S), (M,D), (F,S),(F,V), (F,C), (F,S), (M,C), (F,S), (F,C), (F,V), (M,S),(M,C), (F,S) (Este exemplo é fictício e serveunicamente para introduzir o estudo das tabelasde contingência, pois os casos interessantes emEstatística envolvem amostras de maior dimensão).Começámos porintroduzir estes dadosnuma folha de Excel,colocando nas célulasA1 e B1 os títulos,respectivamente Sexo eEstado Civil, e nas célulasA2 a A18 a informaçãosobre o sexo dos 17elementos e nas célulasB2 a B18, o respectivoestado civil:


um mundo para conhecer os números #pág. 134Introduzimos uma coluna auxiliar, a que chamámosNº, com o número do par, a qual vai ser utilizadapara exemplificar a construção de uma tabela decontingência, utilizando as PivotTable.obtendo como resultado:Para criar uma tabela, proceder do seguintemodo:• No menu Data, clicar em PivotTable andPivotChart Report:• No passo 1 da PivotTable and PivotTableWizard, seguir as instruções, e clicar PivotTableà pergunta What kind of report do you want tocreate?• Arrastar o botão Sexo da barra PivotTable,e colocá-lo (drop it) no campo Row; Arrastar obotão Estado civil da barra PivotTable, e colocálo(drop it) no campo Column; Arrastar o botãoNº da barra PivotTable, e colocá-lo (drop it) nocampo Data:• No passo 2 seguir as instruções,seleccionando os dados que se pretende usar(não esquecer de seleccionar os títulos):• Esta tabela, que resulta das operaçõesanteriores, não é a que nos interessa, sendoagora necessário clicar 2 vezes no campo Sumof N.º e seleccionar a opção Count:• No passo 3 seleccionar o lugar onde sepretende criar a tabela. Nós optámos porseleccionar a célula E1,


pág. 135Finalmente temos a tabela de contingência desejada, que nos dá a distribuição conjunta (em valoresabsolutos) do par (Sexo, Estado civil), permitindo obter o número de indivíduos que satisfazemsimultaneamente cada uma das modalidades (feminino(a),casado(a)), (feminino(a),divorciado(a)), ...(masculino(a),viúvo(a)):O facto da célula correspondente ao F e D estar vazia, significa que não havia indivíduos do sexofeminino e divorciados. Esta tabela apresenta ainda as distribuições marginais (em valores absolutos)da variável Sexo e Estado civil, respectivamente nas células J3 a J4 e F5 a I5. Efectivamente,através da tabela, pode-se concluir que o número de indivíduos do sexo feminino era 11, enquantoque do sexo masculino eram 6. Analogamente, também podemos tirar conclusões sobre o número deindivíduos em cada modalidade da variável Estado civil.Exemplo 4.2.1 (cont) - Suponhamos que ao recolher a informação, junto de cada indivíduo, sobre oseu estado civil, também se tinha investigado sobre o número de filhos (esta informação é relevantepara o serviço de processamento de salários proceder à retenção do IRS). Construa uma tabela decontingência para o par (Sexo, Estado civil).Inserimos a informação sobre a variável Nº de filhos, e procedemos à construção da tabela decontingência da mesma forma que anteriormente, com as alterações convenientes, nomeadamente:• No passo 2 seleccionámos as células de A1 a D18;• No passo 3 seleccionámos a célula E10, para inserir a tabela;• No passo seguinte arrastámos o botão Sexo da barra PivotTable, e colocámo-lo no campo Row;Arrastámos o botão Nº de filhos da barra PivotTable, e colocámo-lo no campo Column; Arrastámoso botão Nº de filhos da barra PivotTable, e colocámo-lo no campo Data;• Clicámos 2 vezes no campo Sum of Nº e seleccionámos a opção Count:Nesta 2ª tabela temos a distribuição conjunta do par (Sexo, Nº de filhos).


pág. 136Exemplo 4.2.1 (cont) – Proceda como no exemplo anterior, excepto no passo seguinte ao passo 3,em que o botão da variável que arrasta para o campo Data é o botão da variável Estado civil. Comeste procedimento o resultado é o seguinte:Quando colocámos o botão Estado civil no campo Data, imediatamente obtivemos uma tabela igual àanterior, com as contagens, em vez das somas, já que Count é a opção que está seleccionada, pordefeito, quando colocamos no campo Data uma variável não numérica.4.3 – Utilização das PivotTables para agrupar dadosQuando temos um conjunto de dados, já vimos no Capítulo 2 a forma de proceder ao seuagrupamento. Vamos agora ver, como essa tarefa pode ser feita através da utilização da PivotTable.4.3.1 – Dados de tipo qualitativoVamos voltar ao ficheiro Deputados.xls (de que apresentamos a seguir uma pequena parte)para exemplificar a construção de uma tabela de frequências de uma variável qualitativa, utilizando aPivotTable.


pág. 137# Estatística Descritiva com EXCELExemplo 4.3.1 – Utilizando a PivotTable, procedaao agrupamento de dados da variável Grupoparlamentar, do ficheiro Deputados.xls.• No menu Data, clicar em PivotTable andPivotChart Report;• No passo 1 da PivotTable and PivotTableWizard, seguir as instruções, e clicarPivotTable à pergunta What kind of report doyou want to create?;• No passo 2 seguir as instruções,seleccionando os dados que se pretende usar(não esquecer de seleccionar os títulos). Nestecaso seleccionar as células C1:C231;• No passo 3 seleccionar o lugar onde pretendecriar a tabela. Nós optámos por seleccionar acélula AI2;• Arrastar o botão Grupo parlamentar da barraPivotTable, e colocá-lo (drop it) no campo Row;Arrastar o botão Grupo parlamentar e colocá-lo(drop it) no campo Data:Exemplo 4.3.2 - Utilizando a PivotTable, procedaao agrupamento de dados da variável Nº de filhos,do ficheiro Filhos.xls• No menu Data, clicar em PivotTable andPivotChart Report;• No passo 1 da PivotTable and PivotTableWizard, seguir as instruções, e clicarPivotTable à pergunta What kind of report doyou want to create?;• No passo 2 seguir as instruções,seleccionando os dados que se pretende usar(não esquecer de seleccionar os títulos). Nestecaso seleccionar as células A2 a A31 (quecontêm o n.º de filhos de uma amostra de 30deputados);• No passo 3 seleccionar o lugar onde pretendecriar a tabela. Nós optámos por seleccionar acélula C3;O procedimento anterior conduziu-nos à tabela dolado esquerdo da figura anterior, cujo conteúdofoi copiado para construir a tabela do lado direito,com uma apresentação mais sugestiva.• Arrastar o botão N.º de filhos da barraPivotTable, e colocá-lo (drop it) no campo Row;Arrastar o mesmo botão e colocá-lo (drop it) nocampo Data;• Clicar duas vezes no botão Sum of N.º filhos,da tabela, e seleccionar Count:4.3.2 – Dados de tipo discretoA organização de dados discretos numa tabelade frequências, utilizando a PivotTable, fazsedo mesmo modo que para os dados de tipoqualitativo. Vamos exemplificar procedendo aoagrupamento da variável N.º de filhos dos dadosdo ficheiro Filhos.xls.Obtivemos a tabela do lado esquerdo, a qual foicopiada para o lado direito, com um aspecto maisusual.


um mundo para conhecer os números #pág. 1384.3.3 – Dados de tipo contínuoVamos exemplificar o agrupamento de uma variávelde tipo contínuo, utilizando a PivotTable, masavisamos desde já, que se os dados não foreminteiros, o processo não é correcto e tem deser utilizado com as devidas precauções, comoveremos oportunamente. O processo que vamosutilizar foi sugerido por um artigo de NevilleHunt, na revista Teaching Statistics (Volume 25,Number 2, Summer 2003).Começaremos por abordar a situação de termosuma variável contínua, mas em que os dados sãointeiros.1ª Parte – Dados em formato de inteiroExemplo 4.3.3 – Considere o ficheiro Idade.xls,que contém a idade de 230 deputados. Procedaao agrupamento em classes, utilizando asPivotTables.A tabela que aparece depois destas operações,mostra a frequência de cada valor individual(como estamos com dados contínuos, emborainteiros, corremos o risco de termos uma tabelacom tantas classes, quantos os dados, todoscom frequência igual a 1!). Assim, é necessárioproceder a mais algumas operações, para agruparos dados:• Clique em algum dos dados da variável Idadee seleccione Data - Group and Outline - Group,que faz surgir o seguinte diálogo:Considere o ficheiro Idade.xls, em que os dadosda variável se encontram nas células C2 a C231 eproceda da seguinte forma:• No menu Data, clique em PivotTable andPivotChart Report;• No passo 1 da PivotTable and PivotTableWizard, siga as instruções, e clique PivotTableà pergunta What kind of report do you want tocreate?;• No passo 2 siga as instruções, seleccionandoos dados que pretende usar. Neste casoseleccione as células C1 a C31 (embora osdados estejam nas células C2 a C231, o títuloestá na C1);Por defeito, no diálogo anterior é considerado como“Starting at” e “Ending at” respectivamente, omínimo e o máximo do conjunto de dados a agrupar.Para “By” é considerado, também por defeito,um valor que dependerá do número de dados e dagrandeza desses dados.• No passo 3 seleccione o lugar onde pretendecriar a tabela. Nós optámos por seleccionar acélula AO4;• Arraste o botão Idade da barra PivotTable, ecoloque-o (drop it) no campo Row; Arraste omesmo botão e coloque-o (drop it) no campoData;• Clique duas vezes no botão Sum of Idade, databela, e seleccione Count;• Clicando em OK, é produzida a seguintetabela de frequências:


pág. 139# Estatística Descritiva com EXCEL• Finalmente podemos esconder os botõesclicando com o lado direito do rato num deles eseleccionando Hide PivotChart Field Buttons eacrescentando de seguida títulos aos eixos:Observação: Repare-se que na construção destatabela, ao dizer que pretendemos que o agrupamentoseja feito By:10, não significa que seadicione 10 ao mínimo para formar a 1ª classe eassim por diante. Neste caso 10 é o número deinteiros que vai do limite inferior de cada classe,até ao limite superior e não significa propriamenteamplitude de classe, da forma como é definida,isto é, como sendo a diferença entre os limites dointervalo de classe. Se pretendêssemos classesde amplitude 10, teríamos de ter seleccionado,antes de efectuar o agrupamento, By:11 e obteríamosas classes 28-38, 39-49, 50-60, 61-71 e72-82.Para construir o histograma associado a estatabela, basta carregar em alguma parte da tabelae na barra da PivotTable clicar no ícone .Por defeito aparece a construção de um gráficode barras, com intervalos entre as barras, quepodem ser removidas por um processo idênticoao já utilizado, aquando da construção dohistograma. Assim:• Clique com o lado direito do rato numa dascolunas e seleccione Format data Series -Options - Gap width:0:Observação: Para obter o gráfico anteriorcopiámos a figura obtida numa folha Chart doExcel para uma folha normal (Sheet).2ª Parte – Dados em formato decimalComo vimos na construção das classes da tabelaanterior, estas são construídas sem ambiguidade,na medida em que qualquer elemento do conjuntode dados só pode pertencer a uma única classe.O mesmo não acontece se estivermos a trabalharcom dados com casas decimais, como veremos noexemplo seguinte.Exemplo 4.3.4 – Considere novamente osdados do exemplo 2.3.8, em que se estudouo comprimento, em centímetros, das asas demelros. Proceda ao agrupamento dos dadoscorrespondentes aos melros-fêmea.Consideremos a amostra constituída pelas 32medidas das asas de outros tantos melros¬fêmeas que inserimos numa folha de Excel,ocupando as células A2 a A33, reservando a A1para o título Fêmea. Construímos uma tabelade frequências, utilizando o processo seguidoanteriormente, mas escolhendo para amplitudede classe o valor 0,6. O resultado obtido foi aseguinte tabela:


um mundo para conhecer os números #pág. 140Como se verifica, ao contrário do que acontecia com avariável Idade, o limite superior de um intervalo é igualao limite inferior do intervalo seguinte, ficando a dúvidade saber em que classe inserir um elemento igual a umdesses limites. Na verdade estes intervalos funcionamcomo se fossem fechados á esquerda e abertos àdireita (excepto a última classe que também é fechadaà direita), pelo que um valor igual, por exemplo, a11,8, será contabilizado na classe 11,8-12,4. Esteproblema pode ser resolvido, considerando paraamplitude de classe um valor decimal, com uma casadecimal a mais dos que os dados. No exemplo anterior,se escolhêssemos como amplitude de classe 0,53, jáo problema deixaria de existir, pois não teríamos dúvidaem que classe contabilizar qualquer um dos valores doconjunto de dados:5. Introdução à simulação5.1- IntroduçãoComo diz Neville Hunt no artigo referidoanteriormente, página 45, e passamos a citar:...After reading this article, some teachers will (notunreasonably) decide that Excel is not fit to be usedfor this type of analysis. However, the universalpopularity and availability of Excel are such thatstudents will inevitably try to use it for this purposeat some stage, so it is important that they should bemade aware of its limitations and need for vigilance.Esta citação vem ao encontro daquilo que pensamose já referimos neste texto, de que o Excel não é umsoftware de Estatística, mas ao nível elementarresolve muitas situações, desde que ao utilizá-lo sesaiba o que se pretende. Por exemplo, quando sepretende um histograma, e ao obter um diagramade barras, é necessário ter presente que, emborao histograma seja construído à custa de barras,estas têm que estar unidas.Pretende-se com este Capítulo, dar a conhecerum instrumento poderoso – a simulação, quesobretudo nas duas últimas décadas, com odesenvolvimento e aperfeiçoamento dos meioscomputacionais, contribuiu de forma decisiva parao estudo das leis de probabilidade e a obtençãoda probabilidade associada a determinadosacontecimentos. Veremos assim uma forma deimitar o comportamento aleatório, característicodos fenómenos que têm interesse estudar emProbabilidade, isto é, os fenómenos chamadosde aleatórios, por oposição aos determinísticos.Na verdade, essa possibilidade de imitação(simulação), baseia-se no facto de ao realizaruma experiência aleatória, repetidamente e emcondições semelhantes, os resultados obtidosmostrarem uma regularidade estatística, que éutilizada para obter estimativas das probabilidadesdos acontecimentos associados à experiência emcausa. Esta regularidade a longo termo, é a baseda interpretação frequencista de Probabilidade.Simulando várias realizações de uma experiênciaaleatória, é então possível obter as estimativasconsideradas anteriormente.


pág. 141Por exemplo, ao lançar um dado equilibrado repetidas vezes, registando numa tabela de frequências,a frequência relativa da saída de cada face, verifica-se que à medida que o número de lançamentosaumenta, a frequência relativa da saída de cada face tende a estabilizar à volta do valor 0,167(aproximadamente 1/6).Embora não tenhamos chamado explicitamente a atenção para o facto, na verdade já utilizámos oconceito de simulação, quando no capítulo 1, utilizámos a função Randbetween do Excel, para “imitar”o comportamento aleatório da extracção de uma amostra, de uma certa população.Vamos ver de seguida, como por simulação sepodem obter boas aproximações das probabi-lidades de acontecimentos, que teoricamente seriamdifíceis, ou mesmo impossíveis de obter.5.2- Obtenção de probabilidades por simulaçãoVamos apresentar exemplos simples, que nos servirão para dar uma ideia da utilização e da potencialidadedo método da simulação. Vamos utilizar as funções RAND ou RANDBETWEEN, já utilizadasno capítulo 1, que têm por base o conceito de número aleatório, ou mais propriamente pseudoaleatório.Os algoritmos de geração de números pseudo-aleatórios estão concebidos de modo a que ao consideraruma qualquer sequência de números gerados se obtenha aproximadamente a mesma proporçãode observações em subintervalos de igual amplitude do intervalo [0,1]. Assim, por exemplo, se sefizer correr o algoritmo 100 vezes, é de esperar que caiam 25 dos números gerados em cada quartodo intervalo [0,1]. Na tabela seguinte está listada uma sequência de 100 NPA’s obtida através dogerador RAND do software Excel (Graça Martins, M. E e Loura, L., 2001):0,842050 0,406320 0,848744 0,810469 0,7895830,965131 0,676239 0,722927 0,825587 0,7029710,761648 0,552387 0,079614 0,298300 0,0874550,359825 0,208420 0,098150 0,818893 0,1035320,054705 0,102768 0,147229 0,557920 0,9966670,466613 0,493374 0,150888 0,540352 0,4802870,814300 0,638416 0,086141 0,007840 0,1099180,449515 0,090759 0,197460 0,209145 0,7132300,901502 0,552418 0,466389 0,221584 0,6237570,862762 0,507097 0,613583 0,389183 0,1296290,395195 0,415666 0,210044 0,379011 0,3025390,420519 0,469764 0,053714 0,478208 0,4448220,124664 0,765629 0,737348 0,696311 0,8061470,537707 0,451921 0,702749 0,683382 0,3778230,033277 0,523063 0,908485 0,708764 0,1962900,024371 0,213326 0,442821 0,983754 0,9705510,558313 0,283191 0,153907 0,655705 0,9957600,087859 0,429387 0,735276 0,890680 0,5692850,069915 0,221549 0,358037 0,578713 0,1618510,774156 0,039495 0,490216 0,755072 0,753139


um mundo para conhecer os números #pág. 142Como se pode verificar por contagem, esta listainclui 30 números no intervalo [0,0.25], 24números nos intervalos ]0.25,0.5] e ]0.5,0.75] e22 números no intervalo ]0.75,1]. Embora hajamétodos estatísticos para avaliar se são ounão significativas as diferenças entre estasfrequências observadas e as frequências esperadas(25 – 25 – 25 – 25), facilmente a nossasensibilidade aceita que estes resultados nãocontradizem o que se esperaria de uma escolhaao acaso de 100 números do intervalo [0,1].De um modo geral quando falamos em númerosaleatórios, estamos a referir-nos à obtençãode qualquer real do intervalo [0, 1], de tal formaque a probabilidade de obter um valor de umsubintervalo [a, b] de [0, 1], é igual à amplitudedesse subintervalo, ou seja (b-a).Exemplo 5.1.1 (Adaptado do exemplo 6.2.1de Graça Martins et al, 1999) – Suponha umcasal que pretende ter um “casal” de filhos, nãodesejando mais do que 3 filhos e só tentando o 3.ºfilho se anteriormente tiver tido ou dois rapazesou duas raparigas. Qual a probabilidade de terefectivamente o casalinho?Admitindo que a probabilidade de nascer rapazé igual à de nascer rapariga, vamos utilizar afunção RAND, para simular um qualquer destesnascimentos, da seguinte forma: Se o resultadoda função RAND for inferior a 0,5, simulamoso nascimento de um rapaz – M. Caso contráriosimulamos o nascimento de uma rapariga. Numafolha de Excel vamos simular várias repetições daexperiência “nascimento de 3 filhos”. Poderíamoster optado por começar por simular o nascimentode dois filhos e só simular o 3.º filho se nãohouvesse os dois sexos nos dois primeirosfilhos. No entanto, este condicionamento dasimulação do 3.º filho faz com que cada repetiçãoda experiência dependa do que se obtémanteriormente, o que torna mais demoradoo processo da simulação. Assim, simulámossempre 3 filhos e basta nos dois primeiros haveros dois sexos, para termos como resultado daexperiência um sucesso. Assinalamos o sucesso(dois sexos diferentes logo nos dois primeirosfilhos ou sexos diferentes nos três filhos) comum 1 – esta notação facilita-nos o cálculo dafrequência relativa do nº de sucessos, à medidaque repetimos a experiência.Um procedimento possível para a simulação emcausa, pode ser o seguinte:• Inserir a função RAND() nas células A2, B2e C2 e nas células D2, E2 e F2 a função IF(),como se exemplifica na figura seguinte:• Replicar (Fill down) as células A2:F2, tantasvezes quantas as vezes que se pretendesimular a realização da experiência. Nósreplicámos 400 vezes, colocando os resultadosnas células A2:F401;• Copiar (Paste special) os valores das célulasD2:F401, para as células H2:J401 (Este passotem como objectivo guardar os valores geradosanteriormente, pois a função RAND() é volátil,como já referimos nos capítulos anteriores);• Em cada uma das células da coluna K inserir1 se o resultado da experiência tiver sidosucesso;• Na coluna L contabilizar o n.º de sucessosacumulados;


pág. 143# Estatística Descritiva com EXCEL• Na coluna M contabilizar o n.º da experiência;• Na coluna N calcular a frequência relativade sucesso, à medida que se vão realizandoexperiências.O processo anterior é apresentado na figuraseguinte. Por uma questão de espaço sóapresentamos a parte inicial e a parte final databela:Exemplo 5.1.2 (Ageel, M. I. - Teaching Statistics,Volume 24, Number 2, Summer 2002, pag.51¬54) – Um segmento de linha de comprimento1 é partido, aleatoriamente, em três pedaços.Qual a probabilidade de as peças resultantespoderem formar um triângulo?A resolução deste problema prende-se comuma regra que estabelece que a soma doscomprimentos de dois lados de um triângulo, ésuperior ao comprimento do outro lado. Vamosresolver este problema fazendo uma série desimulações e calculando a frequência relativa dassituações que dão origem a triângulos. Consideraseentão uma folha de cálculo e procede-se daseguinte forma:Como se verifica, a frequência relativa estabilizaà volta do valor 0,75, pelo que dizemos que0,75 é uma estimativa para a probabilidadepretendida (O valor calculado, teoricamente,para esta probabilidade é de 0,75). A título decuriosidade acrescentamos que o resultado dasimulação ao fim de 100, 200 e 300 repetições,foi respectivamente 0,790, 0,775 e 0,753.Apresentamos a evolução da frequência relativa naseguinte representação gráfica:• Nas células A2 e B2 introduz-se a funçãoRAND(), que devolve um número pseudoaleatórioentre 0 e 1 (equivalente à funçãoRANDBETWEEN(0;1)). Estes números irãorepresentar os pontos P e Q em que uma linhaMN de comprimento 1 fica dividida:M P Q N• Considera-se para P o menor dosvalores obtidos anteriormente, que será ocomprimento de MP – célula C2;• Calcula-se o comprimentos dos segmentosPQ e QN – células D2 e E2, respectivamente:


um mundo para conhecer os números #pág. 144• Testa-se se 2 quaisquer dos comprimentosobtidos anteriormente é superior ao terceirocomprimento – célula F2;• Replica-se as células de A2 a F2 até à linha1001 (1000 réplicas);• Calcula-se o número de vezes que o testeanterior deu verdadeiro, ou seja TRUE – célulaG2, e divide-se por 1000:O resultado da simulação anterior deu uma frequênciarelativa de 0,249, que se pode considerarum valor aproximado para a probabilidadepretendida:Exemplo 5.1.3 -Suponha que em cada minutoa probabilidade de alguém chegar à fila de umacaixa de supermercado é de 75%, enquanto quea probabilidade de abandonar a fila, depois de serservido é de 30%. Ao fim de 20 minutos qual otamanho que espera para a fila?Vamos simular a experiência anterior, simulandoa chegada de um cliente à fila sempre que oresultado da função RAND for ≤ 0,75 e a saídade um cliente da fila sempre que a função RANDdevolver um resultado ≤ 0,30:Para não corrermos o risco de termos umafila com um número negativo de pessoas,considerámos a função máximo:Do mesmo modo que a função RANDBETWEEN,também a função RAND é volátil, pelo que qualqueroperação na folha de cálculo modifica os númerospseudo-aleatórios considerados para coordenadasdos pontos e consequentemente a estimativada probabilidade pretendida. Assim, quantasoperações forçar na folha anterior, nomeadamentedigitar um valor numa das células em brancoconsiste numa operação, quantas estimativasobterá para a probabilidade pretendida, ou seja,para a probabilidade de conseguir construir umtriângulo com as partes de um segmento de rectade comprimento unitário, dividido aleatoriamenteem 3 partes.Ao fim de 20 minutos a fila já tem 13 clientes ecom tendência para crescer!


pág. 145Exemplo 5.1.4 – Suponha uma espécie animal em que as fêmeas têm o seguinte comportamentoreprodutor:• 40% morrem antes de deixar descendência • 40% têm uma fêmea descendente• 20% têm duas fêmeas descendentes.Estude o comportamento desta população, nomeadamente se se prevê um crescimento rápidode indivíduos da espécie, a extinção ou uma situação de equilíbrio. Vamos estudar a evolução dapopulação simulando a descendência de 10 fêmeas, ao longo de algumas gerações. Para cadafêmea, geramos um número pseudo-aleatório, cujo resultado será interpretado da seguinteforma: Se o número for inferior a 0,20, a fêmea deixa 2 descendentes fêmeas; Se o númeroestiver compreendido entre 0,2 e 0,6, a fêmea deixa 1 descendente fêmea; Se o número estivercompreendido entre 0,6 e 1, a fêmea morre sem descendência. Apresentamos a seguir umasimulação da experiência com as 10 fêmeas:Na tabela anterior considerámos:• Nas células O2:X2, 10 números pseudo-aleatórios para simular a descendência das 10 fêmeascom que iniciámos a nossa experiência;• Na célula Y3, o número de fêmeas obtidas ao fim da primeira geração – neste caso 7;• Nas células O4:U4, 7 números pseudo-aleatórios para simular a descendência das 7 fêmeasobtidas na geração anterior;• Na célula Y5, o número de fêmeas obtidas ao fim da segunda geração – neste caso 8;• Repetimos o processo anterior, até não haver descendência de fêmeas.Como se verifica, a população tem tendência a extinguir-se, pois ao fim da 11.ª geração já não hádescendentes das 10 fêmeas com que iniciámos o estudo.Repita a experiência admitindo que• 20% morrem antes de deixar descendência• 40% Têm uma fêmea descendente• 40% têm duas fêmeas descendentes.Um outro exemplo interessante e que tem levantado bastante polémica é o seguinte exemplo dedecisão estratégica.


pág. 146Exemplo 5.1.5 (Graça Martins, M. E. e Loura, L., 2001) - Num concurso é dada a escolher aoconcorrente uma de 3 portas. Atrás de uma delas está um carro e atrás de cada uma das outrasduas está uma ovelha. O concorrente escolhe uma das portas (sem a abrir) e o apresentador, quesabe exactamente qual é a porta que esconde o carro, abre, de entre as duas portas que restam,uma onde está uma ovelha. Nesse momento pergunta ao concorrente se deseja ou não trocar a portaque escolheu pela outra porta que ainda está fechada. O primeiro pensamento que ocorre é que nãohá qualquer vantagem em trocar, pois temos agora apenas duas portas e o carro tanto pode estaratrás de uma como da outra. No entanto, se se calcular teoricamente a probabilidade do concorrenteganhar o carro, trocando de porta, verifica-se que esta é igual a 2/3. Para os mais reticentes umasimulação talvez os faça reconsiderar a sua posição inicial. Não há qualquer dúvida de que ao escolheruma porta ao acaso a probabilidade de ela esconder o carro é igual a 1/3.Para simular o decorrer de 100 destes concursos vamos então considerar que o concorrenteescolheu a boa porta sempre que o valor do número pseudo-aleatório (NPA) estiver entre 0 e 1/3.Nestes casos, quando ele trocar de porta, ficará com a “ovelha” mas, em compensação, ficará com ocarro em todos os outros casos (se ele tiver escolhido inicialmente a “ovelha”, a porta que resta teráobrigatoriamente o carro pois o apresentador encarregou-se de eliminar a outra porta que tambémtinha “ovelha”!...)Eis o resultado da simulação obtida a partir de 100 números pseudo-aleatórios gerados numa folha deExcel:NPAO queganhanãotrocandoO queganhatrocandoNPAO queganhanãotrocandoO queganhatrocandoNPAO queganhanãotrocandoO queganhatrocando0,842 Ovelha Carro 0,406 Ovelha Carro 0,849 Ovelha Carro0,965 Ovelha Carro 0,676 Ovelha Carro 0,723 Ovelha Carro0,762 Ovelha Carro 0,552 Ovelha Carro 0,080 Carro Ovelha0,360 Ovelha Carro 0,208 Carro Ovelha 0,098 Carro Ovelha0,055 Carro Ovelha 0,103 Carro Ovelha 0,147 Carro Ovelha0,467 Ovelha Carro 0,493 Ovelha Carro 0,151 Carro Ovelha0,814 Ovelha Carro 0,638 Ovelha Carro 0,086 Carro Ovelha0,450 Ovelha Carro 0,091 Carro Ovelha 0,197 Carro Ovelha0,902 Ovelha Carro 0,552 Ovelha Carro 0,466 Ovelha Carro0,863 Ovelha Carro 0,507 Ovelha Carro 0,614 Ovelha Carro0,395 Ovelha Carro 0,416 Ovelha Carro 0,210 Carro Ovelha0,421 Ovelha Carro 0,470 Ovel ha Carro 0,054 Carro Ovelha0,125 Carro Ovelha 0,766 Ovelha Carro 0,737 Ovelha Carro0,538 Ovelha Carro 0,452 Ovelha Carro 0,703 Ovelha Carro0,033 Carro Ovelha 0,523 Ovelha Carro 0,908 Ovelha Carro0,024 Carro Ovelha 0,213 Carro Ovelha 0,443 Ovelha rro Ca0,558 Ovelha Carro 0,283 Carro Ovelha 0,154 Carro Ovelha0,088 Carro Ovelha 0,429 Ovelha Carro 0,735 Ovelha Carro0,070 Carro Ovelha 0,222 Carro Ovelha 0,358 Ovelha Carro0,774 Ovelha Carro 0,039 Carro Ovelha 0,490 Ovelha Carro0,810 Ovelha Carro 0,709 Ovelha Carro 0,713 Ovelha Carro0,826 Ovelha Carro 0,984 Ovelha Carro 0,624 Ovelha Carro0,298 Carro Ovelha 0,656 Ovelha Carro 0,130 Carro Ovelha0,819 Ovelha Carro 0,891 Ovelha Carro 0,303 Carro Ovelha0,558 Ovelha Carro 0,579 Ovelha Carro 0,445 Ovelha Carro0,540 Ovelha Carro 0,755 Ovelha Carro 0,806 Ovelha Carro0,008 Carro Ovelha 0,790 Ovelha Carro 0,378 Ovelha Carro0,209 Carro Ovelha 0,703 Ovelha Carro 0,196 Carro Ovelha0,222 Carro Ovelha 0,087 Carro Ovelha 0,971 Ovelha Carro0,389 Ove lha Carro 0,104 Carro Ovelha 0,996 Ovelha Carro0,379 Ovelha Carro 0,997 Ovelha Carro 0,569 Ovelha Carro0,478 Ovelha Carro 0,480 Ovelha Carro 0,162 Carro Ovelha0,696 Ovelha Carro 0,110 Carro Ovelha 0,753 Ovelha Carro0,683 Ovelha CarroComo se verifica, nas 100 realizações simuladas deste concurso o concorrente ganharia o carro em67 dessas realizações, se se decidisse por trocar de porta!...


pág. 147Lista de algumas funções usadas no Excel:InglêsAnd()PortuguêsE()Devolve verdadeiro se todos os argumentos forem verdadeiros e devolve falso se algum dosargumentos for falsoAverage()Media()Calcula a média dos valores existentes num conjunto de célulasCount()Contar()Conta as células com valores numéricos, incluindo datas e fórmulas cujos resultados são numerosCounta()Contar.val()Conta todas as células não vaziasCountblank()Contar.vazio()Conta as células vaziasCountif()Contar.se()Conta as ocorrências verificadas num conjunto de célula, que obedecem a um critérioFrequency()If()FrequênciaSe()Executa uma de duas acções possíveis, em função do resultado da condiçãoInt()Int()Devolve a parte inteira de um númeroMax()Maximo()Devolve o maior valor de um conjunto de célulasMin()Minimo()Devolve o menor valor de um conjunto de célulasMod()Resto()Devolve o resto de uma divisãoOr()Ou()Devolve verdadeiro se um dos argumentos for verdadeiros e devolve falso se todos os argumentosforem falsos


pág. 148PieProduct()Produto()Multiplica os valores de um conjunto de células, ignorando as células vazias e/ou com textoRand()Aleatório()Devolve um número pseudo-aleatório (no intervalo (0,1))Randbetween()Aleatórioentre()Devolve um número pseudo-aleatório no intervalo especificadoRound()Arred()Devolve um número arredondado, na posição indicadaRounddown()Arred.para.baixo()Devolve um número arredondado, por defeito, na posição indicadaRoundup()Arred.para.cima()Devolve um número arredondado, por excesso, na posição indicadaScatterStdevStdevpSum()Soma()Soma os valores de um conjunto de célulasSumif()Soma.se()Soma as ocorrências verificadas num conjunto de células que obedecem a um critério


pág. 149Anexo -Estatística Descritiva com Excel – Complementos. 117Ficheiro de Deputados da XLegislaturaAnexo – Ficheiro de Deputados da X LegislaturaNomeGrupoParl.CírculoEleitoral Sexo Data nas.1 Abel Lima Baptista CDS-PP Viana do C M 13-10-19632 Adão José Fonseca Silva PSD Bragança M 01-10-19573 Agostinho Correia Branquinho PSD Porto M 10-08-19564 Agostinho Moreira Gonçalves PS Porto M 15-07-19525 Agostinho Nuno de Azevedo Ferreira Lopes PCP Braga M 16-11-19446 Alberto Arons Braga de Carvalho PS Setúbal M 20-09-19497 Alberto de Sousa Martins PS Porto M 25-04-19458 Alberto Marques Antunes PS Setúbal M 03-04-19499 Alcídia Maria Cruz Sousa de Oliveira Lopes PS Porto F 09-01-197410 Alda Maria Gonçalves Pereira Macedo BE Porto F 07-09-195411 Aldemira Maria Cabanita do Nascimento Bispo Pinho PS Faro F 04-04-195212 Ana Catarina Veiga Santos Mendonça Mendes PS Setúbal F 14-01-197313 Ana Isabel Drago Lobato BE Lisboa F 28-08-197514 Ana Maria Cardoso Duarte da Rocha Almeida Pereira PS Porto F 16-08-196715 Ana Maria Ribeiro Gomes do Couto PS Lisboa F 19-04-196116 Ana Maria Sequeira Mendes Pires Manso PSD Guarda F 30-03-195617 António Alfredo Delgado da Silva Preto PSD Lisboa M 18-11-195818 António Alves Marques Júnior PS Porto M 03-07-194619 António Bento da Silva Galamba PS Lisboa M 11-11-196820 António Carlos Bivar Branco de Penha Monteiro CDS-PP Lisboa M 31-05-196821 António Edmundo Barbosa Montalvão Machado PSD Porto M 09-12-195222 António Filipe Gaião Rodrigues PCP Lisboa M 28-01-196323 António Joaquim Almeida Henriques PSD Viseu M 05-05-196124 António José Ceia da Silva PS Portalegre M 11-04-196325 António José Martins Seguro PS Braga M 11-03-196226 António Paulo Martins Pereira Coelho PSD Coimbra M 27-04-195827 António Ramos Preto PS Lisboa M 19-01-195628 António Ribeiro Cristóvão PSD Castelo Br M 07-07-193929 António Ribeiro Gameiro PS Santarém M 14-08-197030 Armando França Rodrigues Alves PS Aveiro M 22-10-194931 Arménio dos Santos PSD Lisboa M 22-11-194532 Artur Jorge da Silva Machado PCP Porto M 20-05-197633 Artur Miguel Claro da Fonseca Mora Coelho PS Lisboa M 04-07-195234 Bernardino José Torrão Soares PCP Lisboa M 15-09-197135 Bruno Ramos Dias PCP Setúbal M 19-10-197636 Carlos Alberto David dos Santos Lopes PS Leiria M 06-06-196537 Carlos Alberto Garcia Poço PSD Leiria M 12-02-195738 Carlos Alberto Silva Gonçalves PSD Europa M 20-10-196139 Carlos António Páscoa Gonçalves PSD Fora da Eu M 09-02-195240 Carlos Jorge Martins Pereira PSD Braga M 15-02-197341 Carlos Manuel de Andrade Miranda PSD Viseu M 03-09-195342 Cláudia Isabel Patrício do Couto Vieira PS Viseu F 16-10-196743 David Martins PS Faro M 05-01-197644 Diogo Nuno de Gouveia Torres Feio CDS-PP Porto M 06-10-197045 Domingos Duarte Lima PSD Bragança M 20-11-195546 Duarte Rogério Matos Ventura Pacheco PSD Lisboa M 25-11-196547 Elísio da Costa Amorim PS Aveiro M 14-05-195348 Emídio Guerreiro PSD Braga M 23-05-196549 Esmeralda Fátima Quitério Salero Ramires PS Faro F 23-10-195550 Feliciano José Barreiras Duarte PSD Leiria M 19-04-196651 Fernanda Maria Pereira Asseiceira PS Santarém F 18-04-196152 Fernando dos Santos Antunes PSD Coimbra M 19-09-194953 Fernando dos Santos Cabral PS Guarda M 10-05-195654 Fernando José Mendes Rosas BE Setúbal M 18-04-194655 Fernando Manuel de Jesus PS Porto M 04-06-1950A L E A • D o s s i ê s D i d á c t i c o s


pág. 150Estatística Descritiva com Excel – Complementos. 11856 Fernando Mimoso Negrão PSD Setúbal M 29-11-195557 Fernando Santos Pereira PSD Braga M 27-05-196058 Francisco Anacleto Louçã BE Lisboa M 12-11-195659 Francisco José de Almeida Lopes PCP Setúbal M 29-08-195560 Francisco Miguel Baudoin Madeira Lopes PEV Lisboa M 12-01-197561 Glória Maria da Silva Araújo PS Porto F 04-01-197662 Guilherme Henrique Valente Rodrigues da Silva PSD Madeira M 16-07-194363 Helena Maria Moura Pinto BE Lisboa F 05-09-195964 Heloísa Augusta Baião de Brito Apolónia PEV Setúbal F 26-06-196965 Henrique José Praia da Rocha de Freitas PSD Lisboa M 13-03-196166 Hermínio José Sobral Loureiro Gonçalves PSD Aveiro M 30-12-196567 Horácio André Antunes PS Coimbra M 05-03-194668 Hugo José Teixeira Velosa PSD Madeira M 18-04-194869 Hugo Miguel Guerreiro Nunes PS Faro M 12-06-196370 Isabel Maria Batalha Vigia Polaco de Almeida PS Leiria F 22-10-195371 Isabel Maria Pinto Nunes Jorge PS Braga F 10-02-195372 Jacinto Serrão de Freitas PS Madeira M 16-02-196973 Jaime José Matos da Gama PS Lisboa M 08-06-194774 Jerónimo Carvalho de Sousa PCP Lisboa M 13-04-194775 Joana Fernanda Ferreira Lima PS Porto F 18-11-196376 João Barroso Soares PS Lisboa M 29-08-194977 João Bosco Soares Mota Amaral PSD Açores M 15-04-194378 João Cândido da Rocha Bernardo PS Aveiro M 24-09-195579 João Carlos Vieira Gaspar PS Lisboa M 22-05-193780 João Guilherme Nobre Prata Fragoso Rebelo CDS-PP Lisboa M 02-02-197081 João Guilherme Ramos Rosa de Oliveira PCP Évora M 09-07-197982 João Miguel de Melo Santos Taborda Serrano PS Lisboa M 15-04-196483 João Nuno Lacerda Teixeira de Melo CDS-PP Braga M 18-03-196684 João Pedro Furtado da Cunha Semedo BE Porto M 20-06-195185 João Raul Henriques Sousa Moura Portugal PS Coimbra M 01-10-197786 Joaquim Barbosa Ferreira Couto PS Porto M 01-05-195187 Joaquim Carlos Vasconcelos da Ponte PSD Açores M 06-06-195688 Joaquim Ventura Leite PS Setúbal M 15-08-195089 Joaquim Virgílio Leite Almeida Costa PSD Braga M 13-10-194390 Jorge Fernando Magalhães da Costa PSD Porto M 12-01-195991 Jorge Filipe Teixeira Seguro Sanches PS Castelo Br M 30-07-196592 Jorge José Varanda Pereira PSD Braga M 28-10-196693 Jorge Manuel Capela Gonçalves Fão PS Viana do C M 04-11-195794 Jorge Manuel Ferraz de Freitas Neto PSD Porto M 03-01-195795 Jorge Manuel Gouveia Strecht Ribeiro PS Porto M 07-09-194396 Jorge Manuel Monteiro de Almeida PS Vila Real M 20-09-195497 Jorge Tadeu Correia Franco Morgado PSD Aveiro M 02-07-197198 José Adelmo Gouveia Bordalo Junqueiro PS Viseu M 28-06-195399 José Alberto Rebelo dos Reis Lamego PS Lisboa M 05-01-1953100 José António Freire Antunes PSD Porto M 25-01-1954101 José Augusto Clemente de Carvalho PS Lisboa M 18-12-1948102 José Batista Mestre Soeiro PCP Beja M 17-01-1948103 José Carlos Bravo Nico PS Évora M 11-09-1964104 José Carlos Correia Mota de Andrade PS Bragança M 25-11-1955105 José de Almeida Cesário PSD Fora da Eu M 20-07-1958106 José Eduardo Rego Mendes Martins PSD Viana do C M 09-02-1969107 José Eduardo Vera Cruz Jardim PS Lisboa M 02-01-1939108 José Helder do Amaral CDS-PP Viseu M 08-06-1967109 José Honório Faria Gonçalves Novo PCP Porto M 24-10-1950110 José Luís Fazenda Arnaut Duarte PSD Viseu M 04-03-1963111 José Manuel de Matos Correia PSD Lisboa M 08-05-1963112 José Manuel Ferreira Nunes Ribeiro PSD Aveiro M 18-04-1969113 José Manuel Lello Ribeiro de Almeida PS Porto M 18-05-1944114 José Manuel Pereira da Costa PSD Faro M 12-05-1959A L E A • D o s s i ê s D i d á c t i c o s


pág. 151Estatística Descritiva com Excel – Complementos. 119115 José Mendes Bota PSD Faro M 04-08-1955116 José Paulo Ferreira Areia de Carvalho CDS-PP Porto M 29-05-1967117 José Pedro Correia de Aguiar Branco PSD Porto M 18-07-1957118 José Raúl Guerreiro Mendes dos Santos PSD Porto M 11-07-1959119 Jovita de Fátima Romano Ladeira PS Faro F 16-02-1957120 Júlio Francisco Miranda Calha PS Portalegre M 17-11-1947121 Leonor Coutinho Pereira dos Santos PS Lisboa F 02-03-1947122 Lúcio Maia Ferreira PS Porto M 26-03-1950123 Luís Afonso Cerqueira Natividade Candal PS Aveiro M 02-03-1971124 Luís Álvaro Barbosa de Campos Ferreira PSD Viana do C M 26-11-1961125 Luís António Pita Ameixa PS Beja M 13-10-1960126 Luís Emídio Lopes Mateus Fazenda BE Lisboa M 08-10-1957127 Luís Filipe Alexandre Rodrigues PSD Setúbal M 05-02-1966128 Luís Filipe Carloto Marques PSD Setúbal M 17-07-1963129 Luís Filipe Montenegro Cardoso de Morais Esteves PSD Aveiro M 16-02-1973130 Luís Manuel Gonçalves Marques Mendes PSD Aveiro M 05-09-1957131 Luís Maria de Barros Serra Marques Guedes PSD Lisboa M 25-08-1957132 Luís Miguel Morgado Laranjeiro PS Braga M 13-08-1965133 Luís Miguel Pais Antunes PSD Leiria M 20-08-1957134 Luís Miguel Pereira de Almeida PSD Coimbra M 07-08-1970135 Luís Pedro Russo da Mota Soares CDS-PP Lisboa M 29-05-1974136 Luísa Maria Neves Salgueiro PS Porto F 02-01-1968137 Luiz Manuel Fagundes Duarte PS Açores M 06-10-1954138 Manuel Alegre de Melo Duarte PS Lisboa M 12-05-1936139 Manuel António Gonçalves Mota da Silva PS Braga M 01-05-1972140 Manuel Filipe Correia de Jesus PSD Madeira M 16-12-1941141 Manuel Francisco Pizarro de Sampaio e Castro PS Porto M 02-02-1964142 Manuel José Mártires Rodrigues PS Faro M 22-08-1949143 Manuel Luís Gomes Vaz PS Bragança M 05-10-1951144 Manuel Maria Ferreira Carrilho PS Viseu M 09-07-1951145 Marcos da Cunha e Lorena Perestrello de Vasconcel PS Beja M 23-08-1971146 Marcos Sá Rodrigues PS Lisboa M 05-04-1976147 Maria Antónia Moreno Areias de Almeida Santos PS Coimbra F 14-02-1962148 Maria Celeste Lopes da Silva Correia PS Lisboa F 08-10-1948149 Maria Cidália Bastos Faustino PS Castelo Br F 11-04-1947150 Maria Custódia Barbosa Fernandes Costa PS Lisboa F 20-06-1939151 Maria de Belém Roseira Martins Coelho Henriques d PS Lisboa F 28-07-1949152 Maria de Fátima Oliveira Pimenta PS Viana do C F 09-02-1963153 Maria de Lurdes Ruivo PS Porto F 05-11-1958154 Maria do Rosário da Silva Cardoso Águas PSD Vila Real F 21-02-1961155 Maria do Rosário Lopes Amaro da Costa da Luz Carn PS Aveiro F 14-10-1948156 Maria Helena da Silva Ferreira Rodrigues PS Vila Real F 07-05-1955157 Maria Helena Passos Rosa Lopes da Costa PSD Lisboa F 06-04-1953158 Maria Helena Terra de Oliveira Ferreira Dinis PS Aveiro F 22-06-1965159 Maria Hortense Nunes Martins PS Castelo Br F 21-09-1966160 Maria Irene Marques Veloso PS Lisboa F 07-12-1945161 Maria Isabel Coelho Santos PS Porto F 12-02-1968162 Maria Jesuína Carrilho Bernardo PS Europa F 25-11-1943163 Maria José Guerra Gamboa Campos PS Porto F 06-07-1948164 Maria Júlia Gomes Henriques Caré PS Madeira F 25-10-1954165 Maria Luísa Raimundo Mesquita PCP Santarém F 10-04-1949166 Maria Manuel Fernandes Francisco Oliveira PS Setúbal F 17-09-1960167 Maria Manuela de Macedo Pinho e Melo PS Porto F 26-03-1945168 Maria Matilde Pessoa de Magalhães Figueiredo de S PS Coimbra F 08-07-1943169 Maria Odete da Conceição João PS Leiria F 03-01-1958170 Maria Ofélia Fernandes dos Santos Moleiro PSD Leiria F 21-06-1949171 Maria Teresa Alegre de Melo Duarte Portugal PS Coimbra F 23-08-1939172 Maria Teresa Filipe de Moraes Sarmento Diniz PS Setúbal F 18-10-1957173 Mariana Rosa Aiveca Ferreira BE Setúbal F 03-02-1954A L E A • D o s s i ê s D i d á c t i c o s


pág. 152Estatística Descritiva com Excel – Complementos. 120174 Mário da Silva Coutinho Albuquerque PSD Santarém M 19-11-1940175 Mário Henrique de Almeida Santos David PSD Leiria M 20-08-1953176 Mário Patinha Antão PSD Braga M 26-06-1945177 Maximiano Alberto Rodrigues Martins PS Madeira M 30-10-1949178 Melchior Ribeiro Pereira Moreira PSD Viseu M 23-01-1964179 Miguel Bento Martins da Costa de Macedo e Silva PSD Braga M 06-05-1959180 Miguel Bernardo Ginestal Machado Monteiro Albuqu PS Viseu M 01-09-1965181 Miguel Fernando Cassola de Miranda Relvas PSD Santarém M 05-09-1961182 Miguel Jorge Pignatelli de Ataíde Queiroz PSD Porto M 21-04-1934183 Miguel Jorge Reis Antunes Frasquilho PSD Guarda M 12-11-1965184 Miguel Tiago Crispim Rosado PCP Lisboa M 27-08-1979185 Nelson Madeira Baltazar PS Santarém M 15-06-1951186 Nuno André Araújo dos Santos Reis e Sá PS Braga M 02-04-1976187 Nuno Maria de Figueiredo Cabral da Câmara Pereira PSD Lisboa M 19-06-1951188 Nuno Mário da Fonseca Oliveira Antão PS Santarém M 31-03-1975189 Nuno Miguel Miranda de Magalhães CDS-PP Setúbal M 04-03-1972190 Osvaldo Alberto Rosário Sarmento e Castro PS Leiria M 10-08-1946191 Paula Cristina Barros Teixeira Santos PS Vila Real F 16-08-1966192 Paula Cristina Ferreira Guimarães Duarte PS Porto F 11-11-1965193 Paula Cristina Nobre de Deus PS Évora F 05-03-1970194 Paulo Artur dos Santos Castro de Campos Rangel PSD Porto M 18-02-1968195 Paulo Miguel da Silva Santos PSD Porto M 24-03-1971196 Paulo Sacadura Cabral Portas CDS-PP Aveiro M 12-09-1962197 Pedro Augusto Cunha Pinto PSD Lisboa M 24-10-1956198 Pedro Manuel Farmhouse Simões Alberto PS Lisboa M 27-06-1961199 Pedro Miguel de Azeredo Duarte PSD Porto M 12-07-1973200 Pedro Miguel de Santana Lopes PSD Lisboa M 29-06-1956201 Pedro Nuno de Oliveira Santos PS Aveiro M 13-04-1977202 Pedro Quartin Graça Simão José PSD Lisboa M 18-05-1952203 Regina Maria Pinto da Fonseca Ramos Bastos PSD Aveiro F 04-11-1960204 Renato Luís de Araújo Forte Sampaio PS Porto M 03-05-1952205 Renato Luís Pereira Leal PS Açores M 17-06-1953206 Ricardo Jorge Olímpio Martins PSD Vila Real M 11-09-1972207 Ricardo Manuel de Amaral Rodrigues PS Açores M 01-06-1958208 Ricardo Manuel Ferreira Gonçalves PS Braga M 13-09-1957209 Rita Manuela Mascarenhas Falcão dos Santos Miguel PS Guarda F 28-07-1974210 Rita Susana da Silva Guimarães Neves PS Lisboa F 10-05-1976211 Rosa Maria da Silva Bastos da Horta Albernaz PS Aveiro F 04-09-1947212 Rosalina Maria Barbosa Martins PS Viana do C F 22-12-1955213 Rui do Nascimento Rabaça Vieira PS Lisboa M 14-04-1948214 Rui Manuel Lobo Gomes da Silva PSD Lisboa M 23-08-1958215 Sandra Marisa dos Santos Martins Catarino da Costa PS Setúbal F 05-03-1977216 Sérgio André da Costa Vieira PSD Porto M 22-08-1970217 Sónia Ermelinda Matos da Silva Fertuzinhos PS Braga F 12-01-1973218 Sónia Isabel Fernandes Sanfona Cruz Mendes PS Santarém F 10-12-1971219 Telmo Augusto Gomes de Noronha Correia CDS-PP Lisboa M 04-02-1960220 Teresa Margarida Figueiredo de Vasconcelos Caeiro CDS-PP Leiria F 14-02-1969221 Teresa Maria Neto Venda PS Braga F 30-08-1953222 Umberto Pereira Pacheco PS Lisboa M 27-11-1952223 Vasco Manuel Henriques Cunha PSD Santarém M 23-03-1965224 Vasco Seixas Duarte Franco PS Lisboa M 27-04-1952225 Vitalino José Ferreira Prova Canas PS Santarém M 14-07-1959226 Vítor Hugo Machado da Costa Salgado de Abreu PS Braga M 24-01-1977227 Vítor Manuel Bento Baptista PS Coimbra M 27-05-1952228 Vítor Manuel Pinheiro Pereira PS Castelo Br M 16-08-1962229 Vitor Manuel Sampaio Caetano Ramalho PS Setúbal M 21-07-1948230 Zita Maria de Seabra Roseiro PSD Coimbra F 25-05-1949A L E A • D o s s i ê s D i d á c t i c o s


pág. 153# o inquérito estatísticoBibliografia / Outros Recursos• BARNETT, V. (1997) – Sample Survey: Principles& Methods, Arnold, London.GRAÇA MARTINS, M.E. et al (1999) – Introduçãoàs Probabilidades e à Estatística, Edição daUniversidade Aberta.GRAÇA MARTINS, M.E. (2005) – Introdução àProbabilidade e à Estatística – Com complementosde Excel. Edição da Sociedade Portuguesa deEstatística.GRAÇA MARTINS, M.E. et al (2001) – Estatística– 10º ano de escolaridade, Edição do Ministério daEducação – Departamento do Ensino Secundário.GRAÇA MARTINS, M.E. e Loura, L. (2001) –Matemática para as Ciências Sociais – Anexo paraapoio à interpretação do programa.MOORE, D. (1992) – What is Statistics inPerspectives on Contemporary Statistics, Ediçãode David Hoaglin e David Moore, The MathematicalAssociation of America.Artigos da revista /TEACHING STATISTICSAGEEL, M.I. – Spreadsheets as a Simulation Toolfor Solving Probability Problems, Vol 24, 2, 51Hodgson, T., and Borkowski, J. - Why Stratify? Vol20, 1, 68-71. NEVILLE, H. – Handling ContinuousData in Excel, Vol 25, 2, 42-45.NEVILLE, H. – Charts in Excel, Vol 26, 2, 49-53.Páginas na InternetMOORE, D. ET AL (1996) – Introduction to thePractice of Statistics, Freeman, New York.MOORE, D. (1996) – The Basic Practice ofStatistics, Freeman, New York.MOORE, D. (1997) – Statistics – Concepts andControversies, Freeman, New York.MURTEIRA, B. (1993) – Análise Exploratória deDados. Estatística Descritiva, McGraw-Hill.COMAP, (2000) – For all Practical Purposes:Mathematical Literacy in Todays World, Freemanand Company, New York.ROSSMAN, A. et al (2001) –Workshop Statistics– Discovery with data, Key College Publishing.TANNENBAUM. P. et al (1998) – Excursions inmodern Mathematics, Prentice Hall. VICENTE, P.,REIS, E., FERRÃO, F. (1996) – Sondagens, EdiçõesSílabo.ESCOLA SECUNDÁRIA TOMAZ PELAYO EINSTITUTO NACIONAL DE ESTATÍSTICA PROJECTOALEA – http://www.alea.ptINSTITUTO NACIONAL DE ESTATÍSTICA –www.ine.pt/ Tem informação sobre Portugal, aonível da freguesia.EUROSTAT – europa.eu.int/comm/eurostat/ Teminformação relativa aos diversos países da Europa.WORLD HEALTH ORGANIZATION – http://www.who.int/research/en/ Tem informação sobretemas ligados à saúde, para todos os países domundo.WORLD IN FIGURES – http://www.stat.fi/tup/maanum/index_en.html Tem informação dasmais diversas áreas, tais como população eestatísticas vitais, cultura, religiões, emprego,consumo, etc., relativa a todos os países domundo.


Representações GráficasAna Alexandrino da Silva


pág. 157# Representações GráficasRepresentaçõesGráficasNotas sobre a criação e apresentaçãode alguns tipos de gráficosAna ALexandrino da SilvaSumário:1.1. IntroduçãoHistória dos gráficosReflexões sobre a construção de gráficosFormatação do gráficoEstudos perceptivosElementos do gráfico1.2. Gráficos de barrasGráficos de barras simples (verticaisou horizontais)Algumas regras relacionadas com aconstrução dos gráficos de barrasGráficos de barras agrupadasGráficos de barras empilhadasHistogramaPirâmide EtáriaSéries temporais em Gráficosde barras1.3. Gráficos de linhasGráficos de área1.4. Gráficos circulares1.5. Pictogramas1.6. Ver também...


um mundo para conhecer os números #pág. 158Enquanto no século XIX, se assistiu à criação edisseminação alargada dos gráficos estatísticosna comunidade científica, no século XX houveum aumento exponencial da sua utilização emdocumentos de divulgação alargada e acessíveisao grande público.1.1. IntroduçãoOs gráficos encontram-se presentes em quasetodos os meios de divulgação de informação,designadamente nos jornais e revistas, nosmanuais escolares, nas apresentações públicas eaté os nossos relatórios individuais já não passamsem eles.Contudo, fazer um gráfico ou um mapa que defacto informe e seja, simultaneamente, apelativo,legível e coerente com os dados não é tarefafácil…A grande vantagem dos gráficos reside na suacapacidade de contar uma história de formainteressante e atractiva permitindo compreenderrapidamente fenómenos que dificilmente seriampercebidos de outra forma. Contudo, tal nãoimplica que este processo seja feito de formasimples, sendo necessário muito trabalho ecuidado.Existem inúmeras formas de apresentarfigurativamente a informação estatística e no casoparticular dos gráficos são tantas as possibilidadesque houve necessidade de restringir o objectodeste dossiê aos gráficos mais correntes e nãoproceder a uma abordagem exaustiva.História dos gráficosA história dos gráficos estatísticos érelativamente recente. O maior avanço deu-seapenas há cerca de 200 anos, em 1786, graçasa William Playfair que inventou a maioria dasformas gráficas que conhecemos hoje: o gráficode barras, o gráfico de linhas baseado em dadoseconómicos e o gráfico circular.Desde Playfair muito se avançou na divulgação dosgráficos estatísticos, usados agora um pouco portodo o lado - nas escolas, nos média, etc. mas amaioria dos gráficos actualmente em uso datamdesse tempo (século XVIII/XIX).Com o aparecimento dos computadoresretomaram-se os estudos desenvolvidos na áreados gráficos sendo imperativo fazer referência aEdward TUKEY (1977) responsável pela invençãode gráficos indispensáveis na análise exploratóriade dados, como sejam a caixa de bigodes e odiagrama de caule e folhas, entre outros.Reflexões sobre a construção de gráficosCom a tecnologia existente, a produção degráficos está ao alcance de todos. Mas éimportante ter alguns cuidados.Neste dossiê serão compilados um conjunto decritérios subjacentes à criação de um gráfico.Este processo inicia-se no momento em que sedecide optar por um gráfico e só termina quando oresultado se considera satisfatório.Com a enchente de gráficos que se vive nos diasde hoje, o leitor tornou-se exigente. A reacção aum gráfico demasiado ‘carregado’ de informação,pode ser o afastamento, e mesmo que lhe sejadedicado alguma atenção, poucas recordaçõessubsistem. Este distanciamento também pode sercausado por um excesso de elementos gráficosnão informativos, originando gráficos apelidadospor TUFTE (1983) de lixo gráfico (chart junk).Antes de mais, deve questionar-se a necessidadede mostrar os dados graficamente. De facto,em certos casos, não fará sentido recorrer aum gráfico quando o objectivo não é dar umaimagem, mas sim fornecer dados concretos, quer


pág. 159# Representações GráficasPor conseguinte, a adopção do gráfico apenasse pode consumar após serem formuladas, econvenientemente respondidas, as seguintesperguntas:em situações em que apenas se detêm poucosvalores como para os casos em que se pretendemdivulgar muitos dados.Outro dos problemas com que se debate quemproduz gráficos é a restrição de espaço, obrigandoà acumulação de informação num único gráfico oua um dimensionamento reduzido das imagens, comconsequências na sua leitura.WALLGREN (1996) sintetiza esta fasepreparatória em oito perguntas que não podemser respondidas separadamente:• Um gráfico é realmente a melhor opção?• O gráfico é fácil de ler?• O gráfico pode ser mal interpretado?• O gráfico tem o tamanho e a forma certa?• O gráfico está localizado no sítio certo?• O gráfico beneficia por ser a cores?• A compreensão do gráfico foi testada comalguém?Formatação do gráfico• Qual é o público-alvo?• Qual é o objectivo do gráfico?• Que tipo de gráfico se deve usar?• Como deve ser apresentado o gráfico?• Qual deve ser o tamanho do gráfico?• Deverá ser usado apenas um gráfico?• A que meios técnicos se deve recorrer?Após ter sido seleccionado o modelo de gráficomais adequado ao contexto respectivo, inicia-se aconstrução do gráfico propriamente dita.Quando finalmente se pensa ter obtido o gráficopretendido, torna-se fundamental proceder auma análise crítica, no sentido de compreenderse esta é a forma mais eficaz de transmitir amensagem inicial. Um gráfico mal compreendidopode provocar uma interpretação errada. Poroutro lado, um gráfico visualmente desagradávelpode afastar o leitor, em vez de o informar:“Um mau gráfico é pior do que nenhum gráfico”(WALLGREN, 1996, p. 89).A representação gráfica é um tema complexo ondese cruzam áreas tão diversas como a estatística,o desenho e a psicologia. Um gráfico poderepresentar correctamente as variáveis, contertodos os elementos necessários e não ser, nematractivo, nem de fácil leitura.É possível redesenhar um gráfico, atravésda modificação ou supressão de algunselementos gráficos, sem que haja perda deinformação (TUFTE, 1983). No entanto, muitosdos gráficos divulgados necessitam de umacerta sofisticação a este nível, sendo comumencontrar imagens visualmente semelhantesprovenientes do assistente de gráficos dosoftware Excel, que por serem imagens muitovistas, e portanto cansativas, não atraem oleitor.O Excel permite alguma manipulação visual noleque de gráficos que apresenta. Seguidamente,é apresentado um exemplo de como se podemelhorar a leitura, modificando o aspecto dográfico.Na tentativa de encontrar a melhor imagem quesatisfaça todos os requisitos iniciais, entra-senum processo iterativo que só termina quandose garante uma elevada legibilidade e pertinência.


pág. 160A primeira coisa a ter em conta quando se pretende elaborar um gráfico é a organização dos dados.O tipo de gráfico selecionado é influenciado pela forma como estão dispostos os dados. A melhorforma é dispor os dados numa tabela, com as respectivas identificações, para que estes possam serutilizados como títulos e legendas do gráfico.A tabela dos dados:Qualificação académica da populaçãodos 15-64 anosSexoQualificação académicaMasculinoFemininoNenhum 7,5% 11,3%Obrigatório 69,3% 61,5%Secundário 15,7% 16,7%Superior 7,5% 10,5%Possibilidades de formatação de gráficos com o Excel1. Área do gráfico (chart area)2. Legenda (legend)3. Eixo das categorias (category axis)5. Eixo de valores (value axis),6. Linhas de grelha (gridlines)7. Série de dados (series)4. Área do desenho (plot area),Descrição do processo de formataçãoPartindo do critério de que pelo menos dois terços da área do gráfico devem ser afectados às barrasou, genericamente, à área do desenho, (SCHMID, 1992), ampliou-se o espaço preenchido por estas.No eixo dos valores foram retiradas as casas decimais e suprimidos alguns valores, apesar de seterem mantido as respectivas linhas de grelha. Poder-se-ia ter deixado apenas o sinal de % juntoao último valor, retirando os sinais de % nos valores 0 e 40. Foi também retirada a linha do eixo eas marcas dos eixos, para além de se ter encurtado a amplitude do intervalo de valores dado que amaior das barras não ultrapassava os 80%.A linha do eixo das categorias apresenta um maior peso visual do que as restantes linhas auxiliares,estando as designações orientadas horizontalmente para facilitar a leitura.


pág. 161# Representações GráficasForam retiradas as molduras do gráfico, dalegenda e das barras por se considerar não existirqualquer vantagem em mantê-las, sobrecarregandodesnecessariamente a construção gráfica, eposicionou-se a legenda no interior do gráfico paradiminuir a distância percorrida pelos olhos entre ascomponentes e as suas designações. Mudaram-seas cores das barras, aumentou-se a sua grossurae simultaneamente diminuiu-se o espaço entregrupos de barras.(Re)desenho do gráficoatravés do Excel1 – Área do gráfico• Gráfico sem moldura e com área a branco…A figura “Depois” não é mais do que a figura“Antes” depois de transformada recorrendo àspotencialidades do software.Figura 1 – Gráfico de barrasantes e depois de ser modificadoatravés do ExcelAntes…80,0%70,0%60,0%50,0%40,0%30,0%20,0%10,0%0,0%Qualificação académica dapopulação dos 15 aos 65 anos porsexo, 2001MasculinoFemininoQualificação académicada população dos 15 aos 65 anospor sexo, 200180,0%70,0%60,0%50,0%40,0%30,0%20,0%10,0%0,0%NenhumObrigatórioSecundárioSuperiorMasculinoFeminino• Gráfico com tipo de letra Arial narrow,tamanho 8…Ne nh umObrigató rioSecu nd árioSu pe rior…Depois80%40%Qualificação académica dos activosportugueses por sexo, 2001Masculino FemininoQualificação académicada população dos 15 aos 65 anospor sexo, 20010%Nenhum Obrigatório Secundário Superior80,0%70,0%60,0%50,0%40,0%30,0%20,0%10,0%0,0%Ne nh umObr igató rioS ecu nd ár ioSu pe riorMasculinoFeminino


um mundo para conhecer os números #pág. 1622 – Legenda• Gráfico com legenda no canto superior direito…3 - Eixo das categorias• Gráfico com identificações das categorias nahorizontal…80,0%70,0%60,0%50,0%40,0%30,0%20,0%10,0%0,0%Qualificação académica da populaçãodos 15 aos 65 anos por sexo, 2001Ne nh umObr igató rioS ecu nd ár ioSu pe riorMasculinoFeminino80,0%70,0%60,0%50,0%40,0%30,0%20,0%10,0%0,0%Qualificação académica da populaçãodos 15 aos 65 anos por sexo, 2001NenhumMasculinoSecundárioFeminino• Gráfico com legenda sem moldura, fundo esímbolos na horizontal…4 - Eixo dos valores• Gráfico sem linha e tick marks no eixo dosvalores…80,0%70,0%60,0%50,0%40,0%30,0%20,0%10,0%0,0%Qualificação académica da populaçãodos 15 aos 65 anos por sexo, 2001Ne nh umObr igató rioS ecu nd ár ioMasculinoSu pe riorFeminino80,0%70,0%60,0%50,0%40,0%30,0%20,0%10,0%0,0%Qualificação académica da populaçãodos 15 aos 65 anos por sexo, 2001NenhumMasculinoSecundárioFeminino


pág. 163# Representações Gráficas6 - Linhas de grelha• Gráfico com linhas de grelha a cinzento…• Gráfico com eixo de valores sem casasdecimais…Qualificação académica da populaçãodos 15 aos 65 anos por sexo, 2001Qualificação académica da populaçãodos 15 aos 65 anos por sexo, 200180%70%60%50%40%30%20%10%0%NenhumMasculinoSecundárioFeminino80%70%60%50%40%30%20%10%0%NenhumObrigatórioMasculinoSecundárioSuperiorFeminino• Gráfico com escala de valores para os dois tiposde linhas de grelha…5 - Área do desenho• Gráfico com área de desenho a branco e semmoldura…Qualificação académica da populaçãodos 15 aos 65 anos por sexo, 2001MasculinoFemininoQualificação académica da populaçãodos 15 aos 65 anos por sexo, 2001Qualificação académica da populaçãodos 15 aos 65 anos por sexo, 200180%70%60%50%40%30%20%10%0%NenhumObrigatórioSecundárioSuperior80%40%0%NenhumObrigatórioMasculinoSecundárioSuperiorFeminino80%40%0%NenhumObrigatórioMasculinoSecundárioSuperiorFeminino


um mundo para conhecer os números #pág. 164Estudos perceptivos7 - Série de dados• Gráfico com barras de cor diferente e semmoldura…A percepção gráfica é um dos elementosmais importantes a ter em conta quando seelabora um gráfico, porque permite dar umafundamentação científica à construção gráficae sustentar a escolha de uma forma gráfica emdetrimento de outra. A leitura das imagens podeser condicionada pela dificuldade em estimarcorrectamente os dados representados.Na fase da construção, a informação é codificadano gráfico através de símbolos, comprimentos,declives dos segmentos de recta, áreas,textura ou cor. Quando um gráfico é analisado, ainformação codificada é visualmente descodificada,sendo o processo de descodificação, denominadode percepção gráfica, um factor de controlo nacapacidade de um gráfico transmitir informação(CLEVELAND, MCGILL, 1987).80%40%0%Qualificação académica da populaçãodos 15 aos 65 anos por sexo, 2001NenhumObrigatórioMasculinoSecundárioSuperiorFemininoA extracção de informação a partir dos gráficosenvolve tarefas perceptivas realizadas pelosistema visual olho-cérebro. No quadro seguinte,estas tarefas estão ordenadas segundo a suaprecisão na extracção de informação quantitativa.Quanto menos precisa for a tarefa preceptivamaior o erro de leitura, ou seja, maior a diferençaentre o valor percebido e o valor correcto.• Gráfico com espaço entre as barras alterado…Figura 2 – Avaliação detarefas perceptivasordenadas segundo asua precisãoMais precisoPosição numa escalacomumPosição em escalasnão alinhadasABQualificação académica da populaçãodos 15 aos 65 anos por sexo, 2001TamanhoÂnguloCD80%MasculinoFemininoDecliveE40%0%NenhumObrigatório Secundário SuperiorÁreaVolumeMenos preciso(adaptado de CLEVELAND, MCGILL, 1984, 1987)FG


pág. 165# Representações GráficasFigura 4 – Exemplosdas tarefas C e DPor exemplo, nos gráficos de barras agrupadas,o leitor estima os valores através da posiçãodas barras na mesma escala ou em escalasseparadas, consoante a forma de apresentaçãodos dados.População residente por regiões, 2001NorteMadeiraAçoresCentroA comparação entre barras próximas (Figura 3- A) é melhor do que a comparação entre barrasmais afastadas (Figura 3 - B), ou seja, nestaúltima forma o leitor tem mais dificuldade emestimar os valores.CAlgarveAlentejoLisboa eVale doTejoNorteCentroLisboa e Vale do TejoFigura 3 – Exemplosdas tarefas A e BDAlentejoAlgarveAçoresMadeira0 10 20 30 40 %AElementos do gráficoBOs gráficos incorporam o seguinte conjunto deelementos: o título, os eixos de valores e decategorias (baseados no sistema de coordenadas),a legenda, as identificações dos dados e as linhasauxiliares (Figura 5).Na comparação entre gráficos de barras egráficos circulares, os primeiros revelaram-seperceptivamente mais adequados, dado quea estimação dos comprimentos demonstrouser duas vezes mais precisa que a estimaçãode ângulos. Veja-se o caso da região Norte eda região de Lisboa e Vale do Tejo. No gráficocircular não se tem a percepção de qual é omaior. Pelo contrário, o gráfico de barras mostraclaramente a diferença.É comum encontrar gráficos a três dimensões emque a profundidade não descreve qualquer variável.Como o volume é o que maiores problemas trazem termos de percepção, não deve ser utilizado.Figura 5 – Elementosde um gráficoeixo de valoresunidade543210identificaçãoTítuloa b c deixo de categoriasLegendalinhasauxiliares


um mundo para conhecer os números #pág. 166Estes elementos são constituídos por símbolosgráficos (pontos, linhas, números, letras, etc.) esua variação (cor, valor, etc.).A área do gráfico pode conter todos esteselementos, ou apenas alguns, sistematizados emduas áreas complementares: a ‘área do desenho’(plot area) onde está contida a representaçãográfica propriamente dita e a ‘área exterior’(chart area) onde normalmente estão posicionadasas componentes de auxílio à leitura (título, legendae identificações).Área exterior:TítuloO título deve estar presente em qualquer tipode representação gráfica e ser escrito comvista a orientar o leitor na sua interpretação.Para tal, deve ser redigido por forma aresponder às perguntas: O Quê, Onde e Quando.Simultaneamente, deve ser conciso, relevantee claro, ou seja, conter apenas informaçãoessencial para uma interpretação correcta dográfico. Por exemplo, um gráfico integrado numapublicação temática, relativa a uma dada regiãoou a um certo período temporal não necessitade incluir sistematicamente a mesma referênciaregional ou temporal. Sugere-se, igualmente,o posicionamento do título antes do gráficofuncionando como um cabeçalho, centradohorizontalmente (SCHMID, 1992) ou alinhado àesquerda (WALLGREN, 1996).Identificações (ou rótulos)Neste conceito genérico enquadra-se toda ainformação escrita posicionada na área exterior:as designações dos eixos de valores e categorias,a referência às respectivas unidades e eventuaisnotas (fontes da informação, esclarecimentos, etc.).A orientação de todas as palavras deve ser,preferencialmente, horizontal e estar de acordocom o sentido da leitura das palavras escritas nalíngua, no nosso caso, da esquerda para a direita.Na maior parte dos gráficos ou tabelas nãose justifica uma grande precisão nos dadosapresentados.Um número excessivo de casas decimais(separadas das unidades por uma vírgula), oumesmo uma casa decimal em valores elevados,envolve um rigor desnecessário e prejudicial àleitura. Para ser mais legível, a formatação devalores acima dos milhares pode ser feita com umespaço em vez de com um ponto ou uma vírgula.Os valores da escala devem ser expressos emvalores arredondados múltiplos de 1, 2 e 5 (ex. 5,10, 25, 50, 100, etc.). Aconselha-se a que nãose apresentem números com mais de 5 dígitos,adaptando, caso seja preciso, a unidade paramilhares ou milhões.LegendaUma boa legenda deve fazer mais do quesimplesmente etiquetar as componentes dográfico. Deve dizer-nos o que é importante e qualé o objectivo do gráfico: informar o leitor e obrigarquem faz o gráfico a estruturar a informação(CLEVELAND, MCGILL, 1984a).A legenda é constituída por símbolos e respectivasdesignações. O preenchimento dos símbolos (corou outros) deve ser realizado de modo a que nãohaja lugar para qualquer confusão visual entreeles e, consequentemente, para que exista umaligação clara entre os símbolos e a componenterepresentada. As designações, por seu lado,devem ser claras e concisas, deixando para notasadjacentes eventuais esclarecimentos.Os símbolos devem aparecer na mesma ordemque as respectivas componentes: horizontalmentequando estão lado a lado (Figura 6) e verticalmentequando estão umas sobre as outras(WALLGREN, 1996).Aconselha-se a manutenção da legenda paragráficos em que as componentes surjam mais doque uma vez (Figura 6).


pág. 167# Representações GráficasFigura 6 – Gráfico comuma legenda comumPopulação residente por região, 2001Norte Centro Lisboa e VT Alentejo Algarve Açores Madeira0 a 14 anosPortugal =16%0%Portugal =68%17%15% 15%13%15%21% 19%68% 66%68%63%67% 66% 67%ao longo do tempo, a este eixo estão associadosos períodos temporais, em que a cada mês,trimestre, ano ou outro, corresponderá apenasum ponto ou uma barra no gráfico. Esta relaçãoé obviamente unívoca, ou seja, não faz sentidorepresentar numa mesma barra valores anuaise semestrais, ou no eixo anos e décadas, ouno mesmo espaço valores anuais e trimestrais(TUFTE, 1983).O eixo das categorias deve ser visualmente mais‘pesado’ do que as restantes linhas auxiliares(Figura 5) (SCHMID, 1992).15 a 64 anos65 ou + anos0%Portugal =17%0%14%20%17%24%19%12% 14%Note-se que a localização da legenda na áreaexterior obriga o sistema visual a alternar aprocura de informação entre a legenda e o gráfico,dificultando a sua interpretação imediata. Poreste facto, é aconselhada sempre que possívela omissão da legenda e o posicionamento dasdesignações junto das respectivas componentes,nomeadamente em gráficos de linhas (ver Figura8) e circulares.As designações da legenda podem ser deslocadasda ‘área externa’ para a ‘área do desenho’,permitindo não só que o próprio gráfico ocupemenos espaço, mas também diminuir a distânciapercorrida pelo sistema visual (ver Figura 10, ondeessas designações surgem junto às linhas dosdados).Linhas auxiliares (ou linhas de grelha)Um dos elementos gráficos visualmente maismonótono são as linhas auxiliares. Devem, porisso ser suprimidas ou abafadas de tal formaque a sua presença se torne implícita. Ainda quepossam auxiliar a leitura dos dados, a maioriadas linhas auxiliares escuras tem um grandepeso visual, encobrindo muitas vezes, o maisimportante do gráfico: a informação. Quandoforem realmente necessárias deve-se optar porusar uma cor neutra e, no caso particular de umfundo branco, a cor cinzenta (Figura 7).Figura 7 – Linhasauxiliares em fundobranco e de corÁrea do desenho:Eixo de categorias ou variáveisNeste eixo estão posicionadas as variáveis oucategorias que se pretendem retratar. No casode gráficos que representam séries que evoluem


um mundo para conhecer os números #pág. 168Em certos casos, em particular nas sériestemporais, pode ser considerado importanteincluir linhas auxiliares verticais como auxilio àleitura de valores, por forma a complementar aleitura evolutiva da série com a leitura de valoresem particular (Figura 8).Evolução da taxa de desemprego em Portugal:total e dos jovensFigura 8 - Linhasauxiliares verticaisnum gráfico delinhasEvolução da taxa de desemprego em Portugal:total e dos jovensFigura 9 – Eixo devalores comidentificaçõesà esquerda%765432102º T-98Evolução da taxa de desemprego4º T-982º T-994º T-992º T-00Lisboa e Vale do Tejo4º T-00PortugalEsta imprecisão na leitura pode ser atenuadaposicionando o eixo à direita junto dos dadosmais recentes (ver Figura 8), duplicando o eixo(Figura 10), ou posicionando os valores junto dascoordenadas respectivas (TUFTE, 1983).2º T-014º T-0115 a 24 anos16,5 %20%10Figura 10 – Gráficocom duplicaçãodo eixoTotal01992 94 96 98 2000 200120Evolução da taxa de desempregoem Portugal: total e dos jovens20%1515 a 24 anos151010Eixo de valores5Total5Na maioria dos gráficos de séries temporais, osdados mais recentes estão situados à direitae longe das identificações do eixo dos valores,normalmente localizados à esquerda (Figura 9),fazendo com que o olho humano tenha que semovimentar alternadamente entre os dados e osvalores ao longo das margens do gráfico.001992 93 94 95 96 97 98 99 2000 2001Os gráficos com dois eixos distintos são normalmenteutilizados quando se têm diferentes unidadesde medida (Figura 11) ou existem diferençasconsideráveis de valores nas categorias de umavariável. Este tipo de gráficos deve ser evitadodado que é normalmente de difícil interpretaçãoe, em muitos casos, bastante confuso (SCHMID,1992).


pág. 169# Representações GráficasFigura 12 – Gráficossem e com quebrade escalaFigura 11 – Gráfico comdois eixos distintosmil350300250200150100500Evolução do número de desempregadose da taxa de desemprego em Portugalnº de desempregadostaxa de desemprego1992 1993 1994 1995 1996 1997 1998 1999 2000Quebra de escala%8Por princípio, deve privilegiar-se a escala completa(com início em zero ou noutro valor de referência)em nome da honestidade na apresentação (Figura12 - A). Contudo, essa quebra é admissível noscasos em que a informação apresenta pequenasvariações, desde que acompanhada por umasimbologia perceptível ao leitor (Figura 12 - B).Para melhor compreender os dados na fase daanálise exploratória não existe qualquer problemaem manipular as escalas e extrapolar eventuaisvariações, mas na fase da divulgação, deve existiralgum cuidado para não evidenciar graficamentealterações nos dados que na verdade nãoocorreram.A quebra de escala é um exemplo de como se podedistorcer a mensagem transmitida. Quando oefeito nos dados é significativamente diferente doefeito no gráfico, os valores aparecem visualmentesub ou sobre-avaliados (TUFTE, 1983).76543210ABLisboa e Vale do TejoPortugal2º T-98Lisboa e Vale do Tejo2º T-984º T-98Portugal4º T-98Evolução da taxa de desemprego2º T-992º T-994º T-994º T-992º T-002º T-004º T-004º T-002º T-012º T-014º T-014º T-017 %65432107 %Existem dois tipos de leitura possíveis num gráficocom mais de uma série temporal: a comparaçãovertical em que se confronta a dimensão relativade uma série face a outra (ex: Portugal tem umataxa de desemprego cerca de 3/4 da de Lisboa eVale do Tejo) e a comparação de declives em que éfeita uma análise da evolução de ambas as séries.No caso de se terem duas séries aparentementeconstantes, a comparação entre elas apenaspode ser feita na vertical, dado que dificilmente sedetectam, visualmente, variações na sua evolução.Neste caso, a utilização da quebra de escalapermite detectar melhor as diferenças nos declivesmas a comparação vertical entre as linhas deixade fazer qualquer sentido (WALLGREN, 1996). Éesta a razão pela qual não se devem fazer quebrasde escala em gráficos de barras verticais, acomparação vertical entre as barras, após umaquebra de escala, não pode ser feita.6543


um mundo para conhecer os números #pág. 170Variáveis visuaisJacques BERTIN, em Sémiologie graphique(1973, 2ª ed.), foi o primeiro a sistematizaros conhecimentos sobre a aparência visual dossímbolos gráficos, criando uma tipologia com asseguintes variáveis visuais.Localização – dada através das duas dimensõesx,y do plano;Tamanho – variação em comprimento, largura ouárea, estando naturalmente ligado à importâncianumérica dos dados;Valor – refere-se à variação (percebida) claroescuroda cor ou à variação preto-branco;Textura – tamanho e espaçamento dos elementosgráficos que constituem o símbolo (pontos,linhas ou outros), expresso pelo número desseselementos que se repetem por unidade decomprimento;Cor – sensação pela qual se diferencia entreporções particulares do espectro electromagnético,isto é, azul, verde, vermelho, etc.;Orientação – também designada por direcção,corresponde ao ângulo com a linha de leitura;Forma – pode ser geométrica (como quadradosou círculos) ou então irregular.1.2. Gráficos de barrasOs gráficos de barras são uma das formas maispopulares de representar informação, em partepela facilidade quer de execução, quer de leitura.São para apresentar um conjunto de dados etambém para comparar vários conjuntos de dados.Devem ser utilizados para representar variáveisdiscretas ou qualitativas, em termos absolutosou relativos, ou para comparar categorias devariáveis quantitativas.Podem, igualmente, representar a evolução deuma variável ao longo do tempo.Neste tipo de gráficos, o leitor extrai os valoresdos dados através da visualização da posiçãodas barras relativamente a uma escala comum(CLEVELAND, MCGILL, 1984).Normalmente, as barras começam no eixo dascategorias, o que facilita a comparação dasposições relativas.Figura 13 – As variáveisvisuais segundo BertinGráficos de barras simples (verticais ouhorizontais)Num gráfico de barras, as frequências podemser indistintamente representadas no eixo dasabcissas ou das ordenadas, ou seja, as barraspodem ser horizontais ou verticais (Figura 14).Apesar do gráfico de barras verticais ser o maiscomum, existem situações em que é preferíveloptar pela outra disposição. O gráfico de barrashorizontais é considerado de leitura mais fácil,quando é expressiva a diferença entre o valormínimo e o valor máximo da variável.


pág. 171# Representações GráficasNum contexto de limitação do espaço disponívelpara posicionar o gráfico, é igualmente preferíveloptar pelo gráfico de barras horizontal, uma vezque permite a inclusão de variadas categorias semaumentar significativamente o espaço ocupado.Figura 15 – Designações numgráfico de barras vertical ehorizontalFigura 14 – Gráficode barras horizontale verticalEmpregados portugueses por profissão, 200225%20151050Quadros superioresEspecialistasTécnicosAdministrativosServiçosAgricultoresOperáriosOperadores máquinasNão qualificadosMilitaresQuadros superioresEspecialistasTécnicosAdministrativosServiçosAgricultoresOperáriosOperadores máquinasNão qualificadosMilitaresAconselha-se o gráfico de barras horizontaispara variáveis cujas categorias têm designaçõesextensas, dado que nos gráficos de barrasverticais o espaço para as designações é curto(Figura 15). Relembre-se que as designaçõesnão devem ser abreviadas, nem posicionar-sede forma a dificultar a leitura (verticalmente ouobliquamente) acabando, muitas vezes, por ocuparmais espaço do que o próprio gráfico.Refira-se também que os gráficos de barrashorizontais mostram, de forma mais clara, asdiferenças entre os dados uma vez que possuemum eixo dos valores mais amplo. A Figura 15é exemplo disso: apesar de ambos os gráficosocuparem a mesma área, provocam efeitos visuaisdistintos quando se observam as categorias commaior frequência.0 5 10 15 20 25%Representação de valores negativosA representação de valores negativos é desaconselhadaem gráficos de barras horizontais, dadoque, convencionalmente, aos valores negativosestá associada uma barra numa posição descendente(Fig. 16).De facto, a associação visual entre esquerdae direita e valores negativos e positivos,respectivamente, pode não ser directa para umleitor menos experiente. Por essa razão, devemser utilizados gráficos de barras verticais quandoexistem valores negativos.


um mundo para conhecer os números #pág. 172Figura 16 – Representaçãode valores negativosTaxa de crescimento da população, 1991-200115%Algarve10%NortePortugal5%LisboaCentroAçores0%-5%AlentejoMadeiraFigura 17 – Gráfico sem quebrade escala e erradamente comquebra de escalaPopulação residente em portugal, 1991-2001Algumas regras relacionadascom a construção dos gráficosde barrasA12 000 mil pessoas10 0008 0006 0004 0002 00001991 93 95 97 99 2001Escala no eixo dos valoresB10 400mil pessoasNos gráficos de barras não é admissível a quebrade escala por deixar de ser possível efectuarcomparações verticais entre categorias.10 20010 000Uma quebra de escala é enganadora, porquemostra visualmente a existência de grandesvariações nos dados que, de facto, não existem(Figura 17 A e B).Olhando para a Figura 17 B, um leitor menosatento poderia dizer que em 1991 existiam cercade um terço das pessoas de 2001, o que é falso.População residente em Portugal, 1991-20019 8001991 93 95 97 99 2001No entanto, quando uma das barras assume umvalor anormal e ocupa muito espaço na imagem,é admissível truncá-la. Tal terá que ser feitode forma clara e compreensível para o leitor,apresentando, por exemplo, o valor respectivo etambém uma simbologia que permita compreenderque a barra foi interrompida (Figura 18).


pág. 173# Representações GráficasEquilíbrio visual: espaços entre as barrase linhas auxiliaresFigura 18 – Gráfico com barratruncadaNível de instrução da populaçãoactiva portuguesa, 2002Os espaços entre as barras devem estar construídosde forma a que não se dificulte a comparação(Figura 20 - B) nem se assemelhe a umhistograma (C), sugerindo uma continuidadequando, afinal, a variável representada é discreta.É aconselhado um espaço entre as barrasaproximadamente igual ao tamanho das mesmas (A).SuperiorSecundárioBásico-3º cicloBásico-2º cicloBásico-1º cicloNenhum17900 1 000 mil activosAs linhas auxiliares existem para ajudar osistema visual a fazer comparações e ler valoresaproximados. Um gráfico com demasiadas linhasauxiliares (B) dá mais peso visual do que devea estes elementos secundários, sem que daíadvenham vantagens significativas ao nível daleitura de valores aproximados. Por outro lado,um gráfico com poucas linhas auxiliares nãotraz grande valor acrescentado à leitura (C)(WALLGREN, 1996).Pode ser indicado, em certos casos, fazer variara escala entre 0 e 100 % (Figura 19) para que oleitor possa perceber quanto é que falta em cadabarra para atingir os 100%.Sempre que for possível, é aconselhável compararas categorias com o total - neste caso Portugal– enriquecendo, desta forma, a leitura do gráfico(Figura 19).Figura 20 – Espaçamentode barras elinhas auxiliaresAFigura 19 - Gráfico comescala entre 0 e 100%BNível de instrução da populaçãoactiva portuguesa, 2002100%75%Portugal = 62%50%C25%0%Norte Centro Lisboae Valedo TejoAlentejo Algarve Açores Madeira


um mundo para conhecer os números #pág. 174OrdenaçãoNa representação da informação, por vezes, éimportante organizar as categorias por ordemcrescente ou decrescente (Figura 21) para melhorcompreender certos fenómenos implícitos.É igualmente comum ordenar alfabeticamente (ougeograficamente) as designações das categorias,nomeadamente nos casos em que se representampaíses ou outro tipo de unidades administrativas,mas tal nem sempre é a melhor opção.Se o mesmo conjunto de categorias é apresentadoem mais do que um gráfico, então a posiçãorelativa de cada categoria deve manter-se, ouseja, as categorias devem aparecer na mesmaordem em todos os gráficos. Da mesma forma, otamanho e a escala dos gráficos deve ser o mesmo,se o objectivo for a comparação entre eles.Figura 22 – Ordenação dascategoriasEmpregados portugueses por sector de actividade, 2002IndústriaComércioAgricultura, Silviculturae PescaConstruçãoAdministração públicaEducaçãoSaúde e acção socialOutros0 5 10 15 20 25%Figura 21 – Gráfico debarras por ordemcrescente ou decrescenteGráficos de barras agrupadasOs gráficos de barras agrupadas são utilizadospara descrever, simultaneamente, duas ou maiscategorias, para uma dada variável discreta, ouquando se pretende realçar o valor das categoriasem detrimento do valor total das variáveis(WALLGREN, 1996).As diferentes categorias são representadaspor barras sendo a distinção entre elas feitarecorrendo às variáveis visuais (cor ou valor).Os grupos de entidades devem estar separadospor um espaço em branco, mas não deve existirqualquer espaço entre as categorias de cadagrupo.Quando as categorias não são todas discriminadas,existindo, por exemplo, uma que reúne asrestantes categorias sob a designação de‘Outros’, é aconselhável não a incluir na ordenaçãoe reservar-lhe o último lugar (WALLGREN, 1996;SCHMID, 1992) (Figura 22). Caso se utilizemcores para diferenciar as categorias, a categoria‘Outros’, por ser a menos importante, deve teruma cor que não se destaque (ex: cinzento).Dado que a comparação entre barras adjacentesao nível da estimação de valores é mais eficaz,em termos perceptivos, do que entre barras maisafastadas, o agrupamento escolhido deve estar deacordo com as categorias a que se pretende darênfase. Assim, em termos visuais são comparadasprimeiro as categorias que constam da legenda esó depois são relacionadas as desagregações davariável (Figura 23 - A e B).


pág. 175# o inquérito estatísticoFigura 23 – Gráfico debarras agrupadas em quatroe duas categorias, em valoresrelativos e absolutosAlunos matriculados em 2001/2002Natureza institucional por nível de ensinoEste processo é tanto menos legível quanto maiorfor o número de categorias representadas, sendoaconselhável não incluir mais do que três/quatrocategorias, por variável, num gráfico.Nos casos em que existem diversos gruposcompostos por variadas categorias, é preferívelconstruírem-se diferentes gráficos em vez deacumular a informação num só.%8060Pré-Escolar Básico Secundário SuperiorSobreposição em gráficos debarras agrupadasA40200%80PúblicoPrivadoNível de ensino por natureza institucionalPúblico PrivadoNos gráficos agrupados, as barras, que representamas categorias de cada grupo, podem tocar-seou mesmo sobrepor-se (SCHMID, 1992). Asobreposição permite ordenar as categorias para alémde poupar espaço e incluir mais informação, Note-seque as barras que se localizam num plano maisdistante (e com uma cor menos forte) são percebidascomo sendo menos importantes (Figura 24).60B4020Figura 24 - Gráfico de barrasagrupadas parcialmentesobrepostas0Pré-Escolar Básico Secundário SuperiorTaxa de actividade da população portuguesaentre os 15 e os 24 anosmilhares1 000800PúblicoPrivado60%2001 2002C60040020040%20%0Pré-Escolar Básico Secundário SuperiorAs barras podem apresentar indiferentementevalores relativos ou absolutos, consoante o tipode análise, sendo por vezes de extremo interesseprojectar ambos quando existem diferençassignificativas (Figura 23 – B e C).0%Portugal Norte Centro Lisboae Valedo TejoAlentejo AlgarveAçores MadeiraÉ, igualmente, proposta a sobreposição debarras nos casos em que os valores sãosistematicamente menores numa categoriado que na outra (Figura 25). Realçar valoresou acontecimentos é também uma forma deanálise dos dados. Por vezes, é importante darênfase visual a um determinado valor ou a umadeterminada categoria.


um mundo para conhecer os números #pág. 176Neste caso, e a título de exemplo, tornou-semais grossa a linha auxiliar referente a 50% dosempregados - a única que tem um valor numéricoassociado - e deixou-se a leitura dos restantesvalores para as linhas auxiliares não numeradas(Figura 25).Para realçar a categoria referente a Portugal,pode-se utilizar uma moldura (A) ou uma cor maisescura (B). Apenas se apresentam os valores dascategorias que se considerem dignas de análise (A- os Açores apresentam a maior diferença entresexos) em vez de carregar demasiado o gráfico (B).Figura 25 – Gráficos debarras agrupadas totalmentesobrepostas50%HomensMulheresPopulação empregada por sexo - peso relativo, 200265%Gráficos de barras empilhadasRecorre-se aos gráficos de barras empilhadas(Figura 26) em situações análogas aos gráficos debarras agrupadas, ou seja, quando o conjunto dedados contém duas ou mais categorias.Neste tipo de gráficos, cada barra subdivide-seem pelo menos duas categorias, com distintascores ou padrões, permitindo mostrar a relaçãoentre cada categoria (Homens/Mulheres) e orespectivo subtotal (ex: Comércio e Administração).As categorias surgem assim posicionadasumas sobre as outras, se for um gráfico debarras vertical (ou lado a lado, se o gráfico forhorizontal), sendo que a altura (ou a largura) decada componente corresponde ao valor absolutoou relativo da categoria.AB0%50%0%Portugal Norte Centro Lisboae Valedo TejoHomensMulheres55% 55% 53% 54%45% 45%47% 46%Portugal Norte Centro Lisboae Valedo TejoAlentejo Algarve58% 57%42% 43%Alentejo Algarve35%Açores Madeira65%35%55%45%Açores MadeiraO gráfico em valor absoluto (A) adequa-se aoscasos em que se pretende evidenciar mais ovalor total das variáveis do que das respectivascategorias (WALLGREN, 1996), dado que otodo é apreendido com maior precisão do queas partes. Tal precisão advém de, para o total,ser comparada a posição relativa numa mesmaescala, enquanto que na estimação dos valoresdas categorias são confrontados e ordenados ostamanhos respectivos.Se o maior objectivo destes gráficos é indicargraficamente a soma total, mais do que estimarvisualmente as respectivas categorias, valeráentão a pena questionar porque não se opta porrepresentar apenas o total ou então substituiresta por outra forma de representação.No gráfico em valor relativo (B) apenas se podeestimar o valor das categorias observando otamanho das barras que lhes correspondem.Alunos matriculados no ensino superior por áreade estudo segundo o sexo, 2001/02


pág. 177# Representações GráficasDesvantagem dos gráficos de barras empilhadasDe facto, as primeiras componentes sãofacilmente comparáveis por começarem juntoao eixo, mas nas seguintes apenas se consegueinferir aproximadamente os valores, sendo tantomais difícil quanto maior for a variação da primeiracategoria (Figura 27).Figura 26 – Gráfico de barrasempilhadas horizontalmente emvalores absolutos e relativosAAlunos matriculados no ensino superior porárea de estudo, segundo o sexo, 2001/02Comércio e AdministraçãoCiências da EducaçãoEngenharia e Técnicas AfinsCiências SociaisSaúdeArquitectura e ConstruçãoLetrasDireitoArtesServiços PessoaisCiências InformáticasCiências FísicasHomensMulheresPor conseguinte, as flutuações e o peso excessivoda primeira categoria podem comprometer aleitura das restantes variáveis representadas.Se a comparação entre categorias com base notamanho pode envolver erros, não negligenciáveis,entre os verdadeiros valores e os estimadosvisualmente, a ordenação entre as categorias deuma mesma barra pode até ser incorrectamenterealizada, pondo em causa a validade desta formade apresentação de informação (CLEVELAND,MCGILL, 1984a).É por esta razão que os gráficos de barrasempilhadas devem ser limitados a um conjuntorestrito de variáveis e categorias. Em certoscasos é preferível substituir por um gráfico debarras agrupadas, porque melhora a estimaçãodos valores individuais, apesar de não facilitar acomparação entre categorias.Jornalismo e InformaçãoOutras0 20 000 40 000 60 000EstudantesComércio e AdministraçãoCiências da EducaçãoEngenharia e Técnicas AfinsCiências SociaisSaúdeArquitectura e ConstruçãoLetrasBDireitoArtesServiços PessoaisCiências InformáticasCiências FísicasJornalismo e InformaçãoOutrasHomensMulheres0% 50% 100%Com duas categorias torna-se mais fácil estimar osvalores, dado que a base e o topo da escala servemde ponto de referência, mas com mais de duascategorias a leitura é consideravelmente mais difícil.


um mundo para conhecer os números #pág. 178HistogramaFigura 27 – Gráfico de barrasempilhadas verticalmente egráfico de barras agrupadas100%50%0%20%Alunos matriculados no ensino superior porregião, segundo a área de estudo, 2001/02NorteCentro Lisboae ValedoTejoAlentejo Algarve Açores MadeiraOutrasSaúdeLetrasCiências daEducaçãoEngenharia eTécnicas AfinsComércio eAdministraçãoCiênciasSociaisCiênciasFísicas32%Um histograma mostra a distribuição de valoresde uma variável contínua através de um gráfico debarras unidas. Contudo, se uma variável discretaapresentar muitos valores distintos, tambémpode ser representada por um histograma.Normalmente, os histogramas são representadospor barras com bases iguais em que a altura (ouo comprimento) varia em função da frequênciarelativa ou absoluta. De facto, no caso em queos intervalos têm a mesma amplitude, a áreadepende apenas da altura. Mas, quando asclasses têm diferentes dimensões, a área de cadabarra já não é proporcional à altura, devendo sercalculada a altura por forma que a área de cadarectângulo seja proporcional à frequência relativade cada classe. Enquanto no primeiro caso oeixo dos valores transmite a informação alusivaà frequência relativa de cada classe, no segundocaso este eixo não tem qualquer significadosendo o leitor obrigado a comparar áreas parainterpretar a informação, o que se revela bastantemais difícil.Esta forma gráfica permite indicar valoresextremos e enviesamentos, demonstrandovisualmente se a variável segue uma distribuiçãonormal.A representação das percentagens permitetambém comparar conjuntos de dados dediferentes dimensões.10%Figura 28 – Histograma0%Norte Centro Lisboa eVale doTejoCiências FísicasComércio e AdministraçãoCiências da EducaçãoSaúdeAlentejo Algarve Açores MadeiraCiências SociaisEngenharia e Técnicas AfinsLetrasnº de concelhos140120100806040Proporção da população feminina no totalda população portuguesa, 200120047 48 49 50 51 52 53 54 55 56 %


pág. 179# Representações GráficasSéries temporais em Gráficos de barrasPirâmide EtáriaA pirâmide etária é também um histogramae é muito utilizada em análises demográficaspor permitir visualizar numa única imagema distribuição da população por idades esimultaneamente compará-la entre os doissexos. A sua representação é feita em dois eixoshorizontais (um para os efectivos masculinos eoutro para os femininos) podendo esta ser emvalores absolutos ou relativos.As idades encontram-se representadas no eixovertical, servindo de legenda a ambos os gráficose são normalmente apresentadas em gruposetários de cinco anos, mas também podem serrepresentadas ano a ano.A representação em valores absolutos fornece adimensão dos dados mas impede qualquer tipo decomparação no espaço ou no tempo, que apenas épossível se os dados forem apresentados em termosrelativos (NAZARETH, 1996; INE, DRLVT, 2001).No entanto, esta forma de apresentação pode seraplicada a outro tipo de informação demográfica(como, por exemplo, o nível de instrução) ou até pararepresentar variáveis contínuas com uma legendacomum (WALLGREN, 1996).Um gráfico de barras verticais pode terdatas no eixo das categorias, possibilitando arepresentação de evoluções ao longo do tempo.Os gráficos de barras podem substituir os gráficosde séries temporais nos casos em que a série dedados é muito curta. São igualmente indicadosquando se pretendem fazer comparações verticaisde determinadas variáveis num período específico,ou seja, quando se dá importância ao valor davariável em cada período e se pretende sobretudorelacionar quantidades individuais.Para uma única série de dados, ambas aspossibilidades (barras e linhas) são adequadaspara mostrar tendências, mas para mais deuma série de dados, os gráficos de linhas sãoclaramente preferíveis (JACOBS, 1997). Por isso,não é aconselhável utilizar os gráficos de barraspara representar várias séries de dados. Quandoas variáveis assumem valores sistematicamenteinferiores ainda é possível acompanhar a suaevolução (Figura 30) mas quando as variáveis seentrecruzam o gráfico torna-se ilegível (Figura 31).Nos casos em que a informação contida no gráficoé tal que impede uma correcta visualização, deveser considerada a sua substituição por uma tabelade dados, ou então, a partição em vários gráficos.Figura 29 – Pirâmide etáriaPopulação portuguesa por sexo e grupo etário, 200180 a 8470 a 7460 a 6450 a 5440 a 4430 a 3420 a 24Figura 30 – Gráfico debarras com duasséries temporaisAlunos matriculados no ensino superior porárea de estudo, segundo o sexo, 2001/02Universitáriosnão Universitáriosmil estudantes250200150100400 300 200 100 0J10 a 140 a 4anos0 100 200 300 400mil pessoas1986/8788/891990/9192/9394/9596/9798/992000/01500


um mundo para conhecer os números #pág. 1801.3. Gráficos de linhasO gráfico de linhas é indicado para mostrartendências e evoluções de uma variável contínuapor outra variável contínua.Figura 31 – Gráfico deséries temporais:barras e linhasA5 0004 0003 0002 0001 0000mil pessoasEvolução da população portuguesapor grupos etários, 1991-20011991 1992 19931994 1995 1996 1997 19981999 2000 2001O mais comum é aquele que representa sériestemporais (ou cronológicas), em que umadeterminada variável contínua é analisada aolongo do tempo. O eixo do y mede a(s) variável(eis)em estudo, enquanto o eixo do x apresenta asunidades temporais dispostas cronologicamenteem intervalos iguais de tempo, começando àesquerda com a data mais antiga (Figura 32).Num gráfico de linhas, ao contrário dos gráficosde barras, as séries podem ser longas.O objectivo nestes gráficos é comparar osdeclives das curvas por forma a responder aperguntas do tipo: Em que períodos a variação foisignificativa? Quando foram os pontos de inflexão?(WALLGREN, 1996).Visualmente, para um determinado conjunto de dados,a união dos pontos (pares de coordenadas: x,y), é feitaatravés de uma linha que sugere a continuidade.Não devem ser incluídas mais do que três linhas porgráfico, caso contrário tornam o gráfico de difícilleitura (SCHMID, 1992; TUFTE, 1983). Quandomuitas linhas se sobrepõem (Figura 33), é preferívelsubstituir o gráfico de linhas por vários gráficos.0-14 anos 15-44 anos 45-64 anos 65 e + anos5 000mil pessoas4 0003 000Figura 32 – Gráfico deséries temporaisB2 000Evolução dos alunos matriculados em portugal,por tipo de ensino1 000mil estudantes25001991 1992 1993 1994 1995 1996 19971998 1999 200020012000-14 anos 15-44 anos 45-64 anos 65 e + anos150Mulheres10050Homens01985 1986 87/86 /87 /8888/8989/901990 91/91 /9292/9393/9494/951995 96/96 /9797/9898/9999/002000/01


pág. 181# Represrntações GráficasFigura 34 – Gráfico de linhasincorrectoEvolução da taxa de desemprego em Portugal:total e dos jovensDeve ser usado um estilo de linha diferente paracada gráfico, recorrendo à cor, forma, tamanhoou valor. Mesmo se as linhas se diferenciarempela cor, pode ser necessário distinguir as linhasde outra forma, para facilitar a interpretaçãonos casos de impressão a preto e branco oude reprodução através de fotocópias. Porém,tal opção pode dar uma ordem visual às linhas,não coincidente com a realidade, dado que, porexemplo, uma linha a tracejado é visualmentemenos importante que uma linha a cheio.Figura 33 – Gráfico comdemasiadas linhas15 a 24 anosTotal16,5 %1992 94 96 98 200020%2001Os períodos devem estar igualmente espaçadosse forem consecutivos e proporcionalmenteespaçados se forem descontínuos, ou seja,quando ocorrem intervalos irregulares de tempoé indicado um ajustamento no espaçamento dascolunas. Por exemplo, o espaço entre dados de1998 e 2000 deve ser o dobro do que entre 2000e 2001 (Figura 35).100Evolução dos alunos matriculados em portugal,por tipo de ensino1º ciclomil estudantes9008007006005002º ciclo4003º ciclo300SecundárioPré-escolarSuperior1985 86 87 88/86 /87 /88 /8989/901990/9191/9292/9393/9494/951995/9696/9797/9898/99200100099/00Figura 35 – Espaço entreos valores no eixodas categoriasA variável medida no eixo das categorias nosgráficos de linhas não pode ser qualitativa (Figura34). De facto, neste caso, a evolução da sérienão têm qualquer significado, ou seja, entre oAlgarve e a Madeira não se pode afirmar queexiste uma quebra na série de dados, mas apenasque os Açores têm um valor inferior. Também nãoé possível estimar os valores intermédios entreas categorias da variável, neste caso, não sepode dizer que existem x% de desempregados noOceano Atlântico (gráfico correcto: Figura 19).15 a 24 anosTotalEvolução da taxa de desemprego em Portugal:total e dos jovens16,5 %1992 94 96 98 200020%1002001


um mundo para conhecer os números #pág. 182Gráficos de áreaQuando se pretendem comparar duas curvas queapresentam comportamentos muito semelhantes(Figura 36 - A), é preferível projectar a diferençaentre elas, neste caso entre homens e mulheres(Figura 36 - B) em vez das curvas propriamenteditas.Uma modificação repentina nos dados podeser encoberta se o gráfico começar depoisdessa modificação, mostrando uma estabilidadeincorrecta (WAINER, 1984). Pelo contrário, umaalteração pode tornar-se brusca se o gráficoapenas representar aquele período e não ocontextualizar, como, por exemplo, em séries comuma sazonalidade forte.Figura 36 – Comparação deséries paralelasTotalPopulação portuguesa empregada por sexomilhares5 0004 000Recorre-se aos gráficos de área quando sepretende visualizar simultaneamente a evoluçãodo total e das respectivas componentes. Tal comonos gráficos de barras empilhados, existem poucasvantagens nesta forma de apresentação dadonão ser possível responder de forma imediata aperguntas sobre o crescimento ou decréscimo aolongo do tempo, sobretudo quando a primeira dascomponentes apresenta oscilações significativas.Figura 37 – Gráfico de áreaempilhadaHomensMulheresPopulação portuguesa empregada por sexomilhares3501992 1993 1994 1995 1996 1997 1998 1999 2000300250200150100Os gráficos de área são utilizados comoalternativa aos gráficos de linhas. No entanto,trazem dificuldades acrescidas quando as áreasse intersectam porque deixa de ser possívelseguir a evolução das componentes.500AHomensMulheres3 0002 0001 00001992 1993 1994 1995 1996 1997 1998 1999 2000Diferença entre o emprego por sexosmilhares600(Homens - Mulheres)400B20001992 1993 1994 1995 1996 1997 1998 1999 20001.4. Gráficos circularesO gráfico circular tornou-se muito comum empublicações direccionadas para um públicoalargado, mas tem vindo a ser amplamentecontestada pela sua falta de capacidadeinformativa (WAINER, 1990; TUFTE, 1983;BERTIN, 1977, etc.).


pág. 183# Representações GráficasOs gráficos circulares exibem as partes do todocomo se fatias de um bolo se tratassem; aisso se deve a denominação inglesa ‘pie chart’traduzida em português para queijo ou tarte. Paraum determinado período temporal, a variável emanálise é projectada num círculo correspondendoa cada componente um ângulo, por forma a que ascomponentes no seu conjunto perfaçam os 360º(Figura 38).Figura 39 – Gráfico circularsubdivididoFigura 38 – Gráfico circularNível de instrução dos portugueses, 2001Superior12%1º ciclo34%Estado civil dos portugueses, 2001Casado(com e semregisto)61%Viúvo8%Divorciado+Separado3%Secundário16%Nenhum14%Outros58%3º ciclo11%2º ciclo13%Solteiro28%A sua utilização é desaconselhada quando sepretende comparar mais do que um períodotemporal, para variáveis que contenham mais decinco componentes ou quando as componentestêm aproximadamente o mesmo peso, sendoneste caso, preferível substituir o gráfico circularpor um gráfico de barras (SCHMID, 1992).Muitas fatias ou fatias demasiadamente estreitassão dificilmente interpretáveis, sendo por issonecessário complementar o gráfico com osvalores respectivos (Figura 38) ou associar umsubconjunto de valores a outro gráfico circularde tamanho proporcional à quantidade querepresenta (Figura 39).Assim, a utilização dos gráficos circulares é apenasreferida positivamente nos casos em que uma ouduas componentes dominam o total para dar umaideia genérica dos dados, mas poder-se-á questionarse não será melhor recorrer a uma tabela.É comum encontrar gráficos circularesdistorcidos, ou seja, assumindo formas nãocirculares, para poupar espaço ou então porrazões que a razão desconhece. Tornar uma figuracircular numa elipse é altamente enganador,particularmente para os segmentos maisestreitos e deve ser evitado por desvirtuarcompletamente o gráfico original.Figura 40 – Gráfico circulardistorcidoPopulação residente por região, 2001AlentejoAlgarveAçoresMadeiraLisboa eVale do TejoCentroNorte


um mundo para conhecer os números #pág. 184Outra prática corrente é a separação das fatiasmovendo-as radialmente para fora, provocandoafastamentos desiguais entre fatias díspares.Como para manter as separações iguais énecessário posicionar as fatias de formanão circular, pelo que nenhuma das opções éformalmente correcta (BOUNFORD, 2000).Figura 41 – Gráfico circularcom fatias separadasPopulação Residente por região, 2001MadeiraAçoresAlgarveAlentejoNorteCentroNo entanto, é vulgar encontrar imagens,particularmente nos média em que foi aumentadaa altura e a largura simultaneamente, e não aárea, tornando o desenho desproporcionado etransmitindo uma ideia completamente errada.Senão veja-se: na Figura 42 – B, Portugal tem3 vezes mais estudantes do que Lisboa e Valedo Tejo, para ambos os sexos. Assim, a área doboneco referente a Portugal deve ser 3 vezesmaior. Por isso, este tipo de apresentação éconsiderado como um dos mais enganadores(SCHMID, 1992; TUFTE, 1983).Lisboa e Valedo TejoFigura 42 – Pictogramabaseado no critériodo tamanhoInactivos estudantes em 2001A1.5. PictogramasRapazesRaparigasOs pictogramas são gráficos comuns, mas comcaracterísticas decorativas. A sua utilização éindicada numa apresentação superficial em que ocontacto com a imagem é breve, nomeadamente,em jornais ou revistas de âmbito alargado ouquando o público-alvo tem um nível educacionalmédio ou baixo.Os pictogramas mais usuais são os baseados nocritério do tamanho: em que a variação em áreado tamanho das formas utilizadas é proporcional àvariação da variável representada (Figura 42 - A).BLisboa eVale doTejo=691,4Portugal=2010,6unidade: milharesPortugal=2838,6Lisboa eVale doTejo=962,9


pág. 185# Representações GráficasOs pictogramas constituídos por formas unitáriassão também bastante utilizados. Neste caso,a cada elemento é atribuído um valor existindo,assim, tantos elementos quanto a dimensão davariável.A pirâmide etária cujas barras são formadas porelementos que representam pessoas, é um dosmais difundidos. Um dos problemas surge como tratamento dado às casas decimais. Modley(1952, in SCHMID, 1992) diz que as fracçõesde símbolos devem ser minimizadas, devendo-se,preferencialmente, arredondar os valores. Defacto, é comum encontrar nas pirâmides etáriasacima referidas, barras em que o último símboloé fraccionado, ou seja, que terminam em braços,pernas ou cabeças (Figura 43).1.6. Ver também ...Figura 43 – Pictograma:pirâmide etáriaPopulação portuguesa por sexo e grupo etário, 2001800 600 400 200 080 ou +70 a 7960 a 6950 a 5940 a 4930 a 3920 a 2910 a 190 a 9anos0200 400 600 800Neste dossiê são referidas, sucintamente,algumas das questões mais importantesassociadas à representação gráfica,nomeadamente, as que se relacionam com aconstrução dos gráficos mais conhecidos eutilizados.A informação utilizada para os gráficos aquiincluídos é bastante actual e pode ser encontradaem www.ine.pt. Todas as figuras, à excepção daúltima, foram construídas através do softwareExcel.Este texto baseia-se na minha dissertação demestrado intitulada: Representação gráficae cartográfica da informação estatísticae defendida, em Junho de 2003, no ISEGI/Universidade Nova de Lisboa.Sobre os gráficos e a estatística existem diversoslivros, artigos, web sites, dos quais se destacamos seguintes:Publicações, livros e artigos em revistas• BENIGER, James R.; ROBYN, Dorothy L. (1978),“Quantitative graphics in statistics: A brief history”,The American Statistician, 32 (1), p. 1-11.• BERTIN, Jacques (1973) 2.ª ed. (1ª ed. 1967)- Sémiologie graphique. Paris: Gauthier-Villars.


um mundo para conhecer os números #pág. 186• CHAMBERS, John C.; CLEVELAND, William. S.;KLEINER, Beat; TUKEY, Paul A. (1998) 2ª ed. (1ªed. 1983) - Graphical methods for data analysis.USA: Chapman & Hall.• CLEVELAND, William S.; MCGILL, Robert(1987a), “Graphical perception: The visualdecoding of quantitative information on graphicaldisplays of data”, Journal of the Royal StatisticalSociety, 150, p. 192-229.• CLEVELAND, William S.; MCGILL, Robert(1984a), “Graphical perception: Theory, Experimentation,and application to the developmentof graphical methods”, Journal of the AmericanStatistical Association, 82, p. 419-423.• GRAPHICS GUIDELINES: The theory and practiceof presenting statistical data graphically, togetherwith proposals for education of statisticians inappropriate use of graphics for presentation(1994). COMISSION OF THE EUROPEANCOMMUNITIES - EUROSTAT. Kent: White WaghornLimited.• HUFF, Darrell (1991) 3ª ed. (1ª ed. 1954) - Howto lie with statistics. England: Pinguin Books.• INE, DRLVT (2001), “As pirâmides de idades”,Revista de Estudos Regionais nº 2 (Conceitos emetodologias), Instituto Nacional de Estatística,p. 75-78.• JACOBS, Bernhard (1997), “Experimentalanalysis of the graphical presentation of data inline graphs and bar charts in superposition andjuxtaposition”, http://www.uni-saarland.de/philfak/MZ/graph/gesamtue.html.• NAZARETH, J. Manuel (1996) - Introdução àdemografia - Teoria e prática. Lisboa: EditorialPresença.• SCHMID, Calvin F. (1992) 2ª ed.; (1983, 1ªed.) - Statistical graphics - Design principles andpractices. Krieger.• SILVA, Ana A. (2003) - Representação gráficae cartográfica da informação estatística.Dissertação de mestrado defendida no InstitutoSuperior de Estatística e Gestão de Informaçãoda Universidade Nova de Lisboa.• TUFTE, Edward R. (1983) - The visual display ofquantitative information. Cheshire-Connecticut:Graphic Press.• TUKEY John W. (1977) - Exploratory dataanalysis. USA: Addison-Wesley.• WAINER, Howard (1990), “Graphical Visionsfrom William PLAYFAIR to John TUKEY”, StatisticalScience, 5 (3), p. 340-346.• WAINER, Howard (1984), “How to display databadly”, The American Statistician, 38 (2), p. 137-147.• WALLGREN, Anders; WALLGREN, Britt;PERSSON, Rolf; JORNER, Ulf; HAALAND, Jan-Aage (1996) (English translation from Swedish“Statistikens Bilder - Att Skapa Diagram”Statistics Sweden 1995) - Graphing statistics& data: Creating better charts. California: SAGEPublications.Páginas na Internet @American statistical association - Section onStatistical Graphics:• http://www.amstat-online.org/sections/graphics/Journal of computational and graphical statistics:• http://www.amstat.org/publications/jcgs/Outros:• http://www.edwardtufte.com/tufte/(um dos melhores autores sobre esta temática– ver livros)• http://www.mhhe.com/business/opsci/bstat/vistat.mhtml( visual statistics )• http://www.nas.nasa.gov/Groups/VisTech/visWeblets.html(links sobre visualização científica)• http://www.bell-labs.com/topic/societies/asagraphics/resources.html(software, livros, revistas, etc.)


Estatística com RPedro Campos# Rita Sousacom a colaboração de Emília Oliveira


pág. 189# Estatística com REstatística com RUma iniciação para o ENSINO BÁSICOe SECUNDÁRIOPedro Campos# Rita SousaSumário:1. Introdução2. A utilização de software no Ensino daEstatística3. O que é o R e para que serve?4. Primeiros passos4.1. Instalar o R4.2. Abrir e Encerrar o R, Ajuda e osPackages4.3. Menus e comandos principais4.4. Regras de sintaxe e Objectos4.5. Introdução de dados com c()4.6. Importação e exportação de dados4.7. Primeiros passos na EstatísticaDescritiva1. Introdução5. O “R Commander”: um ambiente gráfico6. Análise de Dados7. Gráficos8. Exemplos de Aplicação9. Para saber mais: recursos práticos paraaprendizagem do RO R é uma linguagem (e ambiente de computaçãoestatística e construção de gráficos) aberta egratuita cujo número de utilizadores tem vindo aaumentar consideravelmente. O dossiê começapor apresentar o R, referindo os seus aspectosfundamentais e descrevendo, de seguida, osprincipais comandos. No capítulo 4 apresentaseo R-Commander, uma ferramenta importanteque permite tornar a interface gráfica do R maisapelativa. No final há um conjunto de exercíciosresolvidos utilizando o código R.


um mundo para conhecer os números #pág. 1902. A utilização de software noEnsino da EstatísticaO software estatístico que foi sendo introduzidonas últimas décadas trouxe novas formas deexplorar a Estatística, proporcionando maiorrapidez na resolução de problemas e permitindoa comparação expedita de soluções. Além disso,abriu caminho a um conjunto de utilizadores nosmeios académico, empresarial e administrativoque desta forma puderam passar a utilizar aEstatística como uma ferramenta eficaz naresposta aos seus problemas.numa abordagem preliminar dos dados, aonível da estatística descritiva. Neste dossiê,concentramos as atenções no R, um importantee poderoso veículo de análise interactiva de dadosque, devido à sua crescente utilização nos meiosacadémico e empresarial, não poderia passardespercebido no contexto do ALEA.3. O que é o R epara que serve?No ensino em geral a utilização do computadorpermitiu introduzir diversas melhorias, pois nocontexto escolar usual, “os alunos têm grandedificuldade em aprender novos assuntos cujosignificado não vislumbram e que não lhesdespertam qualquer interesse” (ver João Pedroda Ponte na Introdução de “A Família em Rede”,de Seymour Papert, 1997). O computador e, emparticular, o software estatístico permitiramincentivar a participação voluntária do aprendizno processo educativo, fazendo com que o alunopasse a explorar os dados e a ser cada vez maiso centro desse desafio do ensino/aprendizagem daestatística.No entanto, apesar de serem reconhecidas asvantagens da utilização do software estatístico,nomeadamente no que respeita ao ensino daestatística, a sua utilização deve ser sempresuportada por um adequado conhecimento dastécnicas estatísticas envolvidas ou orientadapor quem detenha esses conhecimentos (ALEA,Dossiê Didáctico X – Software Estatístico, LuísCunha e Helder Alves).O R é uma linguagem e ambiente de computaçãoestatística e construção de gráficos; éconsiderada uma variante da linguagem S(laboratórios Bell, desenvolvida por JohnChambers e seus colegas). Surge pela criaçãoda R Foundation for Statistical Computing, como objectivo de criar uma ferramenta gratuitae de utilização livre, para análise de dados econstrução de gráficos.O R é compatível com diversas plataformas:UNIX, Windows e MaCOS e permite a ligaçãoa interfaces de diferentes formatos: Excel,Access, SPSS, SAS, SQL Server. Sendo OpenSource, permite ao utilizador aceder ou alterarfuncionalidades existentes, bem como criarnovas funcionalidades para responder aos seusproblemas específicos de forma mais eficaz. Tal épossível graças à possibilidade de o R se estendera partir de um crescente conjunto de livrarias(packages) que podem ser acedidas pelo utilizador.No Dossier Didáctico X (Software Estatístico- Uma introdução a alguns aplicativos, numaabordagem inicial dos dados, Helder Alves,Luís Cunha) foram apresentadas algumasaplicações informáticas (Minitab, SAS, SPSS,Statistica) para a análise estatística de dados,A interacção com o utilizador é baseadanuma janela de comandos e exige o recurso aprogramação, embora existam packages gráficosque permitem a interacção através de menus.Um desses packages é o R Commander que seráabordado no contexto deste dossiê.


pág. 191# Estatística com RApesar de existirem muitas facilidades deentreajuda na comunidade de utilizadores doR, esta linguagem não tem suporte técnicoassegurado.Para a importação do R é necessário escolher: umpaís a partir do qual o ficheiro será transferido, osistema operativo (MacOS X, Linux, ou Windows),o link base e, finalmente, o programa executável.A última versão à data deste dossiê é: R-2.9.1-win32.exe .Após importação deste ficheiro, a instalação érápida e intuitiva.4.2. Abrir e Encerrar o R, Ajuda e os Packages4. Primeiros passos4.1. Instalar o RA instalação do R é gratuita e pode ser feitadirectamente a partir da página principal do RProject for Statistical Computing emhttp://www.r-project.org/. A figura seguinte indicao local onde se pode efectuar a importação do R.O “prompt”Ao iniciar o R mostra-se imediatamente a janelade comandos (V. Fig. 2). Esta janela exibe umcursor vermelho em forma de sinal “maior” (>)designado por prompt onde são escritos oscomandos. Por exemplo, para se obter o númeroda versão do R em causa deve-se escrever:> R.versionPara sair do R, pode-se utilizar o menu (File/Exit)ou então escrever:> q()Fig. 1 - O download doR é feito a partir da páginaprincipal do Projecto Rna área CRAN(Comprehensive R ArchiveNetwork)Fig. 2 - Janela decomandos do Rda versão 2.9.1


pág. 192um mundo para conhecer os números #Entrar e SairUma das perguntas que surge habitualmente aoabandonar o R é se pretende guardar o espaço detrabalho (workspace). De facto, o R pode guardarno seu workspace o nome e o valor dos objectoscriados. Veremos nas secções seguintes comocriar esses objectos.Para qualquer tipo de ajuda (que é muito útilquando se tem uma linguagem como o R)existem muitas opções, sendo a mais intuitiva aque está acessível pelo menu Help da barra demenus. Outra forma muito prática para obterajuda para qualquer função consiste em digitarhelp.search(“text”) em que text representa o quepretendemos pesquisar. Em alternativa, caso seconheça o comando (por exemplo, sum) e hajadúvidas quanto a sua utilização, pode-se digitarhelp(“sum”) ou simplesmente ?sum.>help.search(”text”)Procura as funçõescujo nome, detalhes oudescrição contenha otexto indicadoOs PackagesTodos os recursos do R (dados ou funções) estãoarmazenados em packages. O conteúdo de umdeterminado package só fica disponível quandoeste é carregado. O package base (standard) éconsiderado parte integrante dos recursos do R,sendo carregado automaticamente aquando dainstalação do programa. As funções básicas quepermitem ao R trabalhar os principais objectos dedados, funções estatísticas e gráficas, já estãodisponíveis no package base.Existem funções específicas para extrairinformação sobre os packages: por exemplo,para ver os packages que estão instalados noPC deverá escrever o comando library(). Paracarregar um determinado package deve usarlibrary (“package”).A instalação dos packages e o seu carregamento(Install package(s) from zip files…) e (load package)devem ser feitos por esta ordem e podem serexecutados directamente a partir dos menusdo R. Os packages pretendidos podem serpreviamente importados em formato zip atravésdo site do R (http://www.cran.r-project.org/) ecarregados posteriormente.>help(”function”)Apresenta a ajudarelativa à funçãoespecificada>livrary(”package”)>require(”package”)Mostra todos os packagesdisponíveis para carregamentoInstalação ou actualização depackages por ligação directaà InternetInstalação de um packageatravés de um ficheiro ZIPpreviamente importado dosrecursos do R na Internet


pág. 193# Estatística com R4.3. Menus e comandos principaisO R exibe uma barra de ferramentas e umsistema de menus que permite executar algumasoperações. Basicamente o menu File permiteGravar e abrir sequências de comandos (scripts),abrir ou gravar espaço de trabalho (workspace),sair do R, etc. Permite ainda, carregar livrarias(packages), que serão descritas mais adianteneste dossiê.>help(”function”)>help.start()>help.search(”text”)>apropos(”text”)Funcões que permitem obtera ajuda do R4.4. Regras de sintaxe e ObjectosAceder a ficheiros deprogramação R ou guardara informação actual emmemóriaUma das opções disponíveis neste menu principalé a ajuda (help). O R dispõe de um completosistema de ajuda, composto pelas seguintesopções:• Opções de ajuda sobre a aplicação;•Opções de ajuda com acessos a partirdo browser;•Opções de ajuda na janela de comandosdo R.Algumas dessas opções podem ser efectuadasdirectamente no prompt da seguinte forma:> help(“function”) ou>?functionApresenta a ajuda relativa à função especificada;> help.start()Dá acesso a informação auxiliar a partir dobrowser;> help.search(“text”)Procura as funções cujo nome, detalhes oudescrição contenha o texto indicado;> apropos(“text”)Procura as funções cujo nome contenha o textoindicado.Primeiras RegrasUma das regras importantes do R é o facto de sercase sensitive. Por esta razão as letras ‘a’ e ‘A’podem corresponder a diferentes variáveis. Alémdisso, o R ignora espaços, ou seja, os resultados‘8+3’ e ‘8+ 3’ dão origem exactamente aomesmo resultado. Outras regras importantes:• Podemos agrupar comandos, paraserem executados em simultâneo, seestiverem entre chavetas ‘{ }’ eseparados por ‘;’;• O ‘#’ é utilizado para comentários;• Quando um comando não estácompleto, o R coloca o sinal de ‘+’na linha seguinte, permitindo que esteseja terminado.ObjectosNo R todos os diferentes conteúdos tais comonúmeros, textos, vectores, matrizes, expressões,chamadas funções, etc. são guardados namemória do computador sob a forma de objectos.Todos os objectos têm um nome associado e paraarmazenamento num objecto usa-se o operador deatribuição, ‘textotexto[1]”teste”Forma possível de criação deum objecto designado portexto, contendo “teste”


um mundo para conhecer os números #pág. 1944.5 Introdução de dados com c()O vector coluna c()Uma das formas práticas de armazenar valoresem R é feita através de objectos denominadosvectores. O vector é considerado a estrutura dedados mais simples e consiste numa colecçãoorganizada de elementos. A atribuição é feitaa partir da função c( ), cujos argumentoscorrespondem aos próprios elementos do vector.sendo, se pretendermos guardar num outrovector z apenas os valores de y superiores a 3,devemos escrever:> z 3]> z[1] 5 7 9 114.6. Importação e exportação de dadosA atribuição pode ser feita também por intermédioda função assign( ) que é particularmente útil nasatribuições automáticas, em que desconhecemosos nomes dos objectos.O R dispõe de um conjunto de funções quepermitem a importação ou exportação de dados.Para importar ou exportar ficheiros externos, oR dispõe de conjunto de funções que variam deacordo com o formato do ficheiro.>xx[1] 3.5.1.4.5.0.2.6.7.0.4.8Atribuição de valoresao vector x>assign(”x ”,c(3.5,1.4,5,2.6,7,4.8)>x[1] 3.5 1.4 5.0 2.6 7.0 4.8Atribuição de valoresao vector x (alternativa)Para ler ficheiros de dados em formato de tabelaexistem funções mais específicas (dependendo dotipo de ficheiro) e a função read.table que é maisabrangente:> read.table(file,…)> read.csv(file,…)> read.csv2(file,…)> read.delim(file,…)> read.delim2(file,…)Operações com vectoresUma das vantagens do R é a facilidade naoperação com vectores. O vector exemplo, x(composto pelos números 1, 2, 3, 4, 5), pode sertransformado num vector y (que seja igual a 2x+1)desta forma simplificada:> x y y[1] 3 5 7 9 11De uma forma simples podemos também listartodos os números que sejam superiores a umcerto limite, utilizando operadores lógicos. AssimPara saber como se deveusar cada um destes comandos,basta escrever, no R,o nome do comando antecedidode ?, por exemplo:>?read.csvNa importação de ficheiros há alguns parâmetrosque é importante definir para garantir a correctaleitura dos dados, tais como:• sep=”\t”, para indicação do caractertabulação como separador entrevariáveis;• dec=”,”, para indicação do separadordecimal;• header = TRUE, para indicação daexistência dos nomes das variáveis naprimeira linha.


pág. 195# Estatística com RAo importar um ficheiro para o R, este deve ficarassociado a um objecto. Para tal, o resultado docomando de importação deve ser atribuído aonome do objecto a que se quer associar. Paraimportar, através da função read.csv, um ficheirode texto designado por “ex.csv” e o associar a umobjecto Dataset, dever-se-á fazer:> Datasetamean(a)[1] 3A função mean() calcula amédia de uma lista de valores• Mediana: median() calcula a mediana ou valorcentral de uma distribuição após ordenaçãoda amostra (é definida pela sua posição nasucessão das observações ou na distribuição defrequências); é também conhecida por percentil50 ou segundo quartil.>amedian(a)[1] 3A função median() calcula amediana de uma lista devalores• Quantis: quantile() a função calcula osquantis que são estatísticas de ordem queseparam a distribuição de acordo com um limitepercentual de observações. No caso dosquartis, a distribuição é dividida em quatropartes iguais; estando ordenadas asobservações, por ordem crescente, o 1º e o3º quartis acumulam (até si) 25% e 75% dasobservações, respectivamente.>aquantile(a)0% 25% 50% 75% 100%1 2 3 4 5A função quantile() calcula osquartis de uma lista devalores


um mundo para conhecer os números #pág. 196Medidas de Dispersão• Variância: var() - calcula a variância para umavariável quantitativa.>avar(a)[1]2,5A função var() calcula avariância de uma lista devalores5. “R Commander”:um ambiente gráfico• Desvio padrão: sd() - calcula o desvio padrão deuma variável quantitativa.>asd(a)[1]1.581139A função sd() calcula o desviopadrão de uma lista de umavariável quantitativaO R dispõe de algumas funções que permitem fazeruma sumarização de dados, essencialmente paravariáveis quantitativas (discretas e contínuas). Umadessas funções é o summary(), que calcula paraas variáveis quantitativas as seguintes medidas:Mínimo (Min), 1º quartil (1st Qu), Mediana (Median),Média (Mean), 3º quartil (3rd Qu) e Máximo (Max).O que é?Devido ao seu tipo de interface o R torna-semuitas vezes uma ferramenta de utilização poucoamigável. Por essa razão, têm surgido algunsambientes gráficos que permitem uma utilizaçãodo R de uma forma mais intuitiva. O R-Commanderé uma dessas interfaces gráficas que abre umajanela inicial contendo vários menus e botõesde acesso a diferentes procedimentos. Alémdisso, este ambiente contém uma janela quegera os comandos R que são utilizados em cadaprocedimento, permitindo assim repetir ou alteraresses comandos. O aspecto geral da janela doR-Commander é apresentado de seguida.Os menus do R-Commandersão facilmente configuráveisatravés de um ficheiro textoou através dos packages.>asummary(a)Min. 1st Qu. Median Mean3rd Qu. Max.A função summary() calculaalgumas estatísticas básicasde uma lista de variáveis.Em resumo, sintetizamos no quadro seguinte osnomes das funções apresentadas, bem como deoutras mais específicas, que permitem calcular asrespectivas medidas estatísticas no R:Apenas as linhas da janelascript window (que contémos comandos gerados pelo R)podem ser editadas esubmetidas novamente paraexecução. Para seremsubmetidas basta carregarem submit.Funçãotable()mean()median()sum()summary()var()sd()quantile()fivenum()IQR()cor()DescriçãoCruzamento de variáveisMédia aritméticaMedianaSomaSumarização de dadosVariânciaDesvio padrãoQuartis com descriçãoQuartis sem descriçãoAmplitude inter-quartilCoeficiente de correlaçãoAs acções executadas via menus dão origema comandos do R que são mostrados najanela de output (output window),juntamente com a informação de output,como consequência do comando executado.As mensagens de erro e os avisos sãomostrados na messages window.


pág. 197Como se instala?O R-Commander é um package standard (designado por Rcmdr) eos processos de instalação e carregamento fazem-se da mesmaforma do que nos outros packages (seguir o procedimento installpackages – escolhendo o package Rcmdr e, depois, load package).Existem, por vezes, alguns aspectos a ter em conta durante ainstalação: um dos pontos a ter em conta é que o R-Commanderutiliza alguns “contributed” packages que devem estar instaladospara que o R-Commander funcione adequadamente 2 .Como funciona?Um dos primeiros passos a dar depois de entrar no R-Commander consiste em activar um conjuntode dados. A partir desse momento, todas as acções serão executadas nesse conjunto de dados.Ao abrir-se um novo conjunto de dados, este passará a ser o conjunto de dados activo. O utilizadorpode, em qualquer momento, seleccionar o conjunto que pretende, entre todos os conjuntos dedados que já estiveram activos anteriormente.Para activar um conjunto dedados pode-se importar umficheiro de texto através domenu: (Data/Import Data/from text file or clipboard2 No caso da versão 1.4-2 do R-Commander esses packages são: abind, car, effects, lmtest, multcomp, mvtnorm, relimp,sandwich, strucchange, e zoo. Além destes packages, deve-se instalar também o package rgl no caso de se pretenderconstruir gráficos 3D.


pág. 198O ficheiro em causa contém dados sobre as peças produzidas numa determinada fábrica de peçaspara automóveis. Para cada peça produzida dispõe-se de informação sobre:• seccao: secção onde a peça foi produzida (var. qualitativa: valores de 1 a 6);• cod: código da peça (var. qualitativa: valores possíveis: 12, 45, 78, 96);• peso: peso da peça (var. quantitativa);• diametro: diâmetro da peça (var. quantitativa);• empregado: empregado que executou/verificou a peça (var. qualitativa: valores de 1 a 3);• tipo: tipo de aplicação da peça: (var. qualitativa: (c) coluna ou (d) dentro);• qualidade: resultado da verificação: (var. qualitativa: (0) rejeitada ou (1) aprovada).De seguida, no menu ‘Statistics/Summary/Active Data Set’ pode solicitar as estatísticas básicas(mínimo, máximo, mediana, quartis) que correspondem à execução do comando summary.No menu Statistics seleccionea opção Summary/Active DataSet que permite calcular asestatísticas básicas (mínimo,máximo, mediana, quartis),que correspondem à execuçãodo comando summary().Os resultados encontram-se na figura aolado (output window). Para cada variávelforam calculadas as estatísticas: mínimo,máximo, 1º, 2º e 3º quartis, a média e amediana. Estes resultados poderiam tersido obtidos directamente através docomando:>summary(dataset)Como neste conjunto de dados existem variáveis de vários tipos, podemos utilizar algumasfuncionalidades disponíveis do R-Commander, tais como distribuições de frequências, cálculos deestatísticas variadas, representação gráfica, etc. Desenvolveremos esta análise nos próximoscapítulos do dossiê.


pág. 199# Estatística com R> 100*.Table/sum(.Table) # percentagesfor tipocd47.05882 52.941186. Análise de DadosTabelas de contingênciaFrequências absolutas e relativasProsseguindo com o exemplo anterior, em quedispomos de variáveis de vários tipos (qualitativase quantitativas), interessa analisar agora aspotencialidades do R-Commander. Após a primeirasumarização, onde se calcularam as medidas delocalização, podemos agora, por exemplo, calcularas frequências absolutas das variáveis qualitativasPara tal, deve-se escolher no menu Statistics aopção ‘Summatize/Frequency Distributions’.Podemos também combinar variáveis e calculartabelas de contingência que resultam dasfrequências cruzadas entre variáveis qualitativas.Embora não exista um comando directamenteacessível, através dos menus do R-Commander,pode-se escrever o comando na janela ScriptWindow e carregar no botão Submit para executaro comando. Assim sendo, para podermos, porexemplo, identificar quantas (e quais) as peçasque foram feitas por cada empregado, devemosescrever:>table (Dataset$cod,Dataset$empregado)O resultado é o seguinte:1 2 312 3 1 045 7 7 478 7 2 0O resultado é mostrado na janela output windowcomo sendo a aplicação da função table() daseguinte forma:96 2 0 1> .Table .Table # counts for tipoc d16 18É de notar que a expressão Dataset$tipo é aforma como correctamente nos referimos àvariável tipo do conjunto de dados denominadoDataset e que é equivalente a utilizar a expressãoDataset[, “tipo”].No R-Commander mostram-se ainda as frequênciasrelativas associadas a estas frequênciasabsolutas.


um mundo para conhecer os números #pág. 200Medidas de localização e de dispersão:De seguida podemos também calcular as medidasde localização e de dispersão para uma variávelquantitativa, por grupos definidos segundo as modalidadesde uma variável qualitativa. Por exemplo,podemos calcular estatísticas sobre o peso daspeças produzidas, tendo em conta o tipo de peça.Para tal devemos escolher a opção ‘Statistics/Summaries/Table of Statistics’ e, de seguida, escolhercomo Factor a variável tipo. Neste caso, o tipo éaqui considerada uma variável independente.CorrelaçãoSeleccione Statistics/Summaries/Table ofStatisticsQuando numa base de dados se dispõe de maisdo que uma variável, pode fazer sentido calcular onível ou grau de associação existente entre essasvariáveis. Em geral, estes coeficientes medema força e a direcção (no mesmo sentido ou emsentidos opostos) da relação entre as variáveis.Existem vários tipos de coeficientes de correlaçãoconforme o tipo de variáveis em estudo:qualitativas nominais, qualitativas ordinais,quantitativas, etc. O coeficiente de correlaçãolinear de Pearson é um dos mais conhecidos eaplica-se quando as variáveis são quantitativas 3 .Para se perceber que tipo de relação existeentre um par de variáveis, é habitual começarsepor desenhar um diagrama de pontos. Estetipo de representação é muito útil, pois permiterealçar algumas propriedades entre os dados,nomeadamente no que diz respeito ao tipo deassociação entre as variáveis.O resultado é a execução do comando tapply queaplica um procedimento à variável quantitativapara grupos distintos (identificados pela variávelqualitativa).> tapply(Dataset$peso,list(tipo=Dataset$tipo), mean,na.rm=TRUE)tipocd26.02323 29.12170No caso do conjunto de dados em estudo, vamosverificar a relação existente entre as variáveis pesoe diâmetro das peças. Para tal escolhemos no R-Commander a opção ‘Graphs/XY Conditioning plot’. 43 Embora este coeficiente se aplique especialmente no casoem que as variáveis seguem distribuição Normal, esta restriçãoé muitas vezes ignorada. Para saber mais sobre o coeficientede correlação, consulte o curso de Noções de Estatística noALEA, Capítulo VI – Distribuições Bidimensionais, em http://www.alea.pt/html/nocoes/html/cap6_3_1.html e/ou ActivALEAn.º 4 “Associação entre variáveis quantitativas: O coeficiente deCorrelação.”4 No capítulo 6 deste dossiê pretende-se aprofundar um poucomais a questão da representação gráfica em R.


pág. 201# Estatística com RDe facto, podemos notar que a correlaçãoexistente entre o diâmetro das peças (x) e o pesodas peças (y) é de, aproximadamente, 0.92.Este gráfico sugere a existência de uma relaçãodirecta entre as variáveis diâmetro e peso, ouseja, a valores grandes de diâmetro correspondem,de um modo geral, valores grandes de peso evice-versa. Esta informação pode ser confirmadapelo cálculo do coeficiente de correlação linearde Pearson (ou r de Pearson). Este procedimentopode ser desencadeado através do menu (ver figuraseguinte) e corresponde à execução do comandocor(x,y), em que x e y representam as variáveisem estudo para as quais se pretende calcular ocoeficiente de correlação.O R-Commander dispõe também de outras opçõesde análise de dados: análise factorial, testesparamétricos e não paramétricos, etc. Estastécnicas não são abordadas no contexto destedossiê.Gestão das variáveisNo R-Commander existe a possibilidade de sefazer a gestão do conjunto de dados: acrescentarnovas variáveis, novas observações, agregarvalores em classes, etc. Esta opção encontra-sedisponível através de ‘Data/Manage variables inactive data set’.Na janela Output Window podemos observar oresultado:> cor(Dataset[,c(“diâmetro”,”peso”)],use=”complete.obs”)diâmetropesoPara fazer a gestão dos dadosrecorra à opção 'Data/Managevariables in active data set'.diâmetro 1.0000000 0.9166048peso 0.9166048 1.0000000


um mundo para conhecer os números #pág. 2027. GráficosNeste capítulo pretende-se fazer uma visitageral a alguns tipos de gráficos mais conhecidos(gráficos de barras, diagramas circulares,histogramas e gráficos de pontos) e à forma comse podem construir através do R-Commander.A apresentação específica de cada gráfico e asua formatação não são objectivo principal destaabordagem, pelo que deverá consultar as ajudasdo R para comandos adicionais.As facilidades gráficas são uma componenteimportante e muito versátil no ambiente R, sendopossível utilizar essas facilidades numa largavariedade de gráficos estatísticos predefinidos,bem como construir gráficos novos que podem serformatados e apresentados com grande qualidade.Apresenta-se, de seguida, a forma como podefazer alguns destes gráficos tomando por baseo mesmo conjunto de dados dos exemplosanteriores.Gráfico de barras e diagramas circularesO gráfico de barras é uma forma de representaçãoadequada a variáveis qualitativas e quantitativasdiscretas. No gráfico de barras cada valorassociado a uma modalidade da variável érepresentado através de uma barra cuja altura éproporcional à sua frequência.Os gráficos constituem uma forma de sumariara informação, sendo que a sua representaçãográfica deve ser feita de forma a dar relevoàs propriedades importantes dos dados. Aconstrução dos gráficos deve ter em conta o tipode variáveis que se pretende representar. Natabela seguinte apresenta-se um resumo do tipode gráficos, mais comuns, que deve ser feito paracada tipo de variável:De seguida apresentam-se os passos necessáriospara fazer um gráfico de barras no R-Commanderpara a variável tipo (variável qualitativa relacionadacom o tipo de aplicação da peça: (c) coluna ou (d)dentro).Tipo de variávelQualitativa(ordinal,nominal)Quantitativa discretaQuantitativa contínuaRepresentação gráficaGráficos de barras,diagramas circulares.Gráficos de barras,diagramas circulares,diagramas de dispersão,diagramas de caixas ebigodes, etc.Histogramas, diagramasde dispersão, diagramasde caixa e bigodes, etc.Para fazer um gráfico de barrasrecorra à opção 'Graphs/BarGraph' e escolha, depois, avariável qualitativa quepretende representar


pág. 203# Estatística com Rdados são agrupados são contíguas, as barrassão apresentadas sem separação. Para fazerum histograma no R-Commander considerando avariável diâmetro proceda como se indica na figura:O comando gerado pelo R-Commander que permitefazer este gráfico directamente no R é o seguinte:>barplot(table(Dataset$tipo), xlab=”tipo”,ylab=”Frequency”)Para construir um diagrama circular, igualmenteadequado a este tipo de dados, o procedimentoé idêntico, excepto na opção de gráficos, onde sedeve escolher pie chart em vez de bar graph. Ocomando gerado no R é o seguinte:>pie(table(Dataset$tipo),labels=levels(Dataset$tipo),main=”tipo”,col=rainbow(length(levels(Dataset$tipo))))O comando gerado pelo R-Commander que permitefazer este gráfico directamente no R é o seguinte:>hist(Dataset$diâmetro,scale=”frequency”, breaks=”Sturges”,col=”darkgray”)HistogramaO histograma é uma das formas mais importantesde representar dados quantitativos. Para sefazer um histograma é necessário começar poragrupar as observações em classes e depoisrepresentar, para cada classe, uma barra cujaaltura seja proporcional ao número de observações.Uma vez que as classes ou intervalos em que osDiagrama de pontosTambém conhecido por diagrama de dispersão,o gráfico de pontos é muito adequado noscasos em que pretendemos representar duasvariáveis quantitativas (discretas ou contínuas),particularmente quando pretendemos analisar asua correlação.


um mundo para conhecer os números #pág. 2048. Exemplos de AplicaçãoEste capítulo contém alguns exercícios deaplicação imediata e problemas resolvidos atravésdo R tais como: “Número de irmãos dos alunosda turma H do 9º ano”, “Alturas dos Alunos”,“Construir um Triângulo”, “Uma Corrida ComDados” e “Resultados de um teste” (este últimoassociado ao programa PISA).Pensamos que estes exercícios e problemasajudam a aprofundar os conhecimentos de Rapresentados neste dossiê, sendo que, paraa sua resolução, se utilizaram conceitos quesão usualmente trabalhados no ensino básico esecundário.Número de irmãos dos alunos daturma H do 9º ano1 0 1 2 1 1 1 3 0 4 0 1 14 2 3 2 1 3 1 2 1 2 1 2 3Construa:a) a tabela de frequências.O comando gerado pelo R-Commander que permitefazer este gráfico directamente no R é:> xyplot(peso~diâmetro,auto.key=TRUE,scales=list(x=list(relation=’same’), y=list(relation=’same’)), data=Dataset)b) o diagrama de barrasResolução com R:a) Para construir a tabela de frequências:> cbind(fa=table(dados), fr=prop.table(table(dados)))


pág. 205# Estatística com Rb) Para construir o diagrama de barras:> barplot(table(dados), main=”Númerode Irmãos no 9º H”, xlab=”Número deIrmãos”, ylab=”Frequência”,col=rep(“pink”,5), ylim=c(0,12))• De seguida aplicamos o comando hist.> hist(dados[,1])Para formatar melhor o gráfico, podemos recorreraos parâmetros do comando hist:> hist(A[,1],breaks=”Sturges”, col=”lightblue”, xlab=”Altura”, ylab=”Frequência”,main=”Alturas de Alunos”)Alturas dos AlunosPara este exercício, foram registadas as alturas, emcentímetros, dos alunos de uma turma do 10º ano:Altura dos alunos150 169 174 155 165 170 172152 158 163 158 166 158 166170 171 162 171 161 154 168161 164 166 164 162 156 167Construa uma tabela de frequências, agrupandoos dados em classes e represente graficamenteos dados, utilizando o tipo de gráfico que acharmais conveniente. Faça ainda um diagrama decaule-e-folhas.E o resultado é…A partir do comando do histograma, poderemosconstruir uma tabela de frequências. Para tal,basta guardar o resultado do comando hist.> s s$breaks[1] 150 155 160 165 170 175$counts[1] 4 4 8 8 4$intensities[1] 0.02857142 0.02857143 0.057142860.05714286 0.02857143(…)Resolução com R:• O primeiro passo consiste em transmitir osdados ao R. Para tal, podemos criar um ficheirocom estes dados (exercício1.csv) ou lê-los atravésde um vector.ou> dadosdados


pág. 206Para fazer um diagrama de caule-e-folhas 5 deveremos aplicar o comando stem:Construir um triângulo…Um segmento de comprimento unitário é dividido em 3 partes, aleatoriamente. Qual a probabilidadede as partes resultantes poderem formar um triângulo?A resolução deste problema prende-se com uma regra que estabelece que a soma dos comprimentosde dois lados de um triângulo é superior ao comprimento do outro lado.Nota – Quando se fala em números aleatórios, estamos intuitivamente a pensar em números comuma distribuição uniforme, no intervalo [0,1].Resolução do problema por simulação no R:Vamos fazer um determinado número de simulações e calcular a frequência relativa das situaçõesque dão origem a triângulos. Para tal, vamos gerar dois números aleatórios entre 0 e 1 e estesnúmeros irão representar os pontos P e Q em que um segmento [MN] de comprimento 1 ficadividido:M P Q NVamos considerar para P o menor dos valores obtidos, que será o comprimento de MP. Calcula-se ocomprimento dos segmentos PQ e QN e depois testa-se se dois quaisquer dos comprimentos obtidossão superiores ao terceiro comprimento. Terminado o número de simulações, calcula-se o número dassituações que dão origem a triângulos e divide-se pelo número de simulações.5 Para saber mais sobre este tipo de gráfico consulte o AELA em: http://www.alea.pt/html/nocoes/html/cap3_2_20.html


pág. 207# Estatística com RFizemos nova simulação e obtivemos:Comprimento médio do segmento MP:0.3432921Segmento MPScript 1 “Problema do triângulo”cont=0NumSim=1000segmentos=array(0,dim=c(NumSim,3))for (i in 1:NumSim) {M=0N=1A=runif(1,0,1)B=runif(1,0,1)MP=min(A,B)PQ=abs(A-B)QN=1-max(A,B)if (MP+PQ > QN & MP+QN>PQ & PQ+QN>MP) cont=cont+1segmentos[i,1]=MPsegmentos[i,2]=PQsegmentos[i,3]=QN}cat("frequência relativa",cont/NumSim)frequência0 10 20 30 40 500 0.1 0.2 0.3 0.4 0.5comprimentoComprimento médio do segmento PQ:0.3286406Segmento PQ50Por exemplo, pedindo 1000 simulações, obteve-se:Frequência relativa de triângulos: 0.256frequência0 10 20 30 4000.10.20.30.40.5Acrescentando ao script anterior, o cálculo docomprimento médio de cada segmento nos casosem que é possível construir um triângulo:comprimentoComprimento médio do segmento QN:0.3280673Script 2 “Problema do triângulo“cont=0NumSim=1000segmentos=array(0,dim=c(NumSim,3))for (i in 1:NumSim) {M=0N=1A=runif(1,0,1)B=runif(1,0,1)MP=min(A,B)PQ=abs(A - B)QN=1- max(A,B)if (MP+PQ > QN & MP+QN>PQ & PQ+QN>MP) {cont=cont+1segmentos[cont,1]=MPsegmentos[cont,2]=PQsegmentos[cont,3]=QNpar(mfrow=c(2,2))cor1=c("blue")cor2=c("pink")cor3=c("yellow")}}segmentos=segmentos[1:cont,]hist(segmentos[,1],col=cor1,xlab="comprimento",ylab=“frequência",main="Segmento MP")hist(segmentos[,2],col=cor2,xlab="comprimento",ylab=“frequência",main="Segmento PQ")hist(segmentos[,3],col=cor3,xlab="comprimento",ylab="frequência",main="Segmento QN")cat("frequência relativa de triângulos",cont/NumSim)cat("comprimento médio do segmento MP",mean(segmentos[,1]))cat("comprimento médio do segmento PQ",mean(segmentos[,2]))cat("comprimento médio do segmento QN",mean(segmentos[,3]))frequência50403020100Segmento QN00.10.20.3comprimento“Curiosamente” o comprimento médio dossegmentos aproxima-se de 1/3.Efectuando maior número de simulações, afrequência relativa dos casos em que é possívelconstruir um triângulo aproxima-se de 0,25 eo comprimento médio dos segmentos dessestriângulos é um valor próximo de 0,33.0.40.5


um mundo para conhecer os números #pág. 208Voltando à simulação no R…O script elaborado inicialmente pareceu-noso processo mais indicado para ser explicadoaos alunos, mas explorando um pouco mais aspotencialidades do R, fizemos um novo scripttendo por base o seguinte raciocínio: considere-seduas variáveis aleatórias X e Y (com distribuiçãouniforme no intervalo [0,1]) e independentes:• X tem distribuição uniforme nointervalo [0,1]• Y tem distribuição uniforme nointervalo [0,1]Quando se seleccionam 2 números, um comdistribuição X e outro com distribuição Y, podemoster uma de duas situações: XY.X1/2 & (x-y)


pág. 209# Estatística com R0.00 0.10 0.20freq. relativa 0.2540 200 400 600 800 1000nºde simulações 1000Aumentando o número de simulações, a frequênciarelativa tende a estabilizar à volta do valor 0,25,o que vem comprovar a definição frequencista doconceito de probabilidade: a probabilidade de umdeterminado acontecimento é o valor obtido paraa frequência relativa com que se observou esseacontecimento, num grande número de realizaçõesda experiência aleatória.Para 1 000 000 simulações:Uma Corrida com Dados0.00 0.10 0.200.00 0.10 0.20 0.30freq. relativa 0.2490 50000 150000 250000nºde simulações 250001freq. relativa 0.2490e+00 2e+05 4e+05nºde simulações 5e+05> O Bruno arranjou um dado especial com a formade um dodecaedro. Tem 12 faces, numeradas de1 a 12.> A Tânia tem dois dados normais. São cubos,cada um deles com as faces numeradas de 1a 6.Resolveram fazer um jogo. Cada jogada consisteno lançamento dos três dados.Vão somando os pontos que cada um obtém:o Bruno com o seu dado de 12 faces e a Tâniacom os seus dois dados de 6 faces. Ganha quemprimeiro chegar aos 100 pontos.Se por acaso os dois chegarem aos 100 pontosna mesma jogada, ganha quem tiver o total maior.Se esse total for igual para os dois, há empate.0.00 0.10 0.20 0.30freq. relativa 0.25937124110.00 0.10 0.20 0.300e+00 2e+05 4e+05 6e+05nºde simulações 750000freq. relativa 0.250e+00 4e+05 8e+05nºde simulações 1e+06Algum dos jogadores está em vantagem? Ou é ojogo equilibrado?(Desafios do Público)Antes da realização das experiências cadaelemento do grupo conjecturou sobre quem teriamaior probabilidade de vencer, se o Bruno lançandoo dodecaedro, se a Tânia lançando dois dadoscúbicos. Surgiram opiniões diversas:


um mundo para conhecer os números #pág. 210Script 2 “Corrida de Dados“ em R• A Tânia obtém, no mínimo, por jogada, doispontos enquanto que o Bruno pode obter um;• No dodecaedro a probabilidade de sair dozeé 1 2 que é maior que 136 , correspondente àprobabilidade do mesmo resultado no caso dosdados cúbicos;• A probabilidade de obter seis é maior no lançamentodos dois dados cúbicos,536 , contra 1 12no dodecaedro; essa vantagem acentua-semais no caso da obtenção do valor sete ao qualcorresponde as probabilidades 1 , nos dados6cúbicos, e 1 no outro dado.12Script 1 “Corrida de Dados“ em R#Simular um jogo da corrida de dadosL=1AcumCubico=0AcumDode=0while (AcumCubicoAcumCubico) print ("Foi o dodecaedro") elseif (AcumCubico==AcumDode) print ("Empate")print (paste("Total de jogadas", L))print (paste("Total de pontos dos dados cúbicos", AcumCubico))print (paste("Total de pontos do dodecaedro", AcumDode))Começamos por elaborar um script para asimulação de um jogo:Na simulação que realizámos o resultado foio seguinte: venceu “o par de dados cúbicos”,realizaram-se “16 jogadas”, sendo o total dospontos dos dados cúbicos “107” e o total depontos do dodecaedro “105”.Elaborámos um outro script para simular váriosjogos:#Simular vários jogos da corrida de dadosdados=function(n) {CUBICO=0DODE=0EMPATE=0for (i in 1:n) {L=1AcumCubico=0AcumDode=0while (AcumCubicoAcumCubico) DODE=DODE+1 else if (AcumCubico==AcumDode) EMPATE=EMPATE+1}print (paste("Freq.relativa do n.ºde vezes em que os dadoscubicos ganharam", CUBICO/n))print (paste("Freq.relativa do n.ºde vezes em que o dodecaedroganhou", DODE/n))print (paste("Freq.relativa do n.ºde empates", EMPATE/n))}Executado o script para simular 100 jogos,digitamos na consola do R “dados (100)” eobtivemos:• “Freq. relativa do n.º de vezes em queos dados cúbicos ganharam 0.67”• “Freq. relativa do n.º de vezes em queo dodecaedro ganhou 0.32”• “Freq. relativa do n.º de empates 0.01”Se o número de experiências for suficientementegrande, a percentagem de cada resultado estarápróxima do valor real da probabilidade (Lei dosGrandes Números).Simulámos no R, um milhão de jogos e ao fim dealguns minutos… obtivemos:• “Freq. relativa do n.º de vezes emque os dados cúbicos ganharam0.676556”;• “Freq. relativa do n.º de vezes emque o dodecaedro ganhou 0.304982”;• “Freq. relativa do n.º de empates0.018462”.Assim, a probabilidade de a Tânia ganhar seráaproximadamente 67,7% e a do Bruno 30,5%.A probabilidade de empate é de 1,8%. Claro queestes não são valores exactos… mas estarãopróximos dos valores reais.


pág. 211Resultados de um TesteO gráfico seguinte mostra os resultados de um teste de Matemática obtidos por dois grupos dealunos, designados por “Grupo A” e “Grupo B”. A nota média no grupo A é de 62,0 e no grupo B de64,5. Os alunos passam neste teste se tiverem uma nota igual ou superior a 50.6Resultados no teste de MatemáticaNúmero de Alunos5432100-910-1920-2930-3940-4950-5960-6970-7980-8990-100Grupo AGrupo BNotasCom base nesta informação, o professor concluiu que o grupo B teve melhores resultados nesteteste que o grupo A.Os alunos do grupo A não estão de acordo com o professor. Tentam convencer o professor de que ogrupo B não teve necessariamente melhores resultados.Utilizando a informação dada, apresente pelo menos um argumento matemático que possa serutilizado pelos alunos do grupo A.adaptado do Programa para a Avaliação Internacional de Alunos 2003, PISA – Programmefor Internacional Student AssessmentArgumentos que podem ser utilizados:• Há mais alunos que passaram no teste no Grupo A do que no Grupo B(há mais “positivas” no Grupo A do que no Grupo B);• O Grupo A tem mais alunos com nota igual ou superior a 80 que o grupo B;• Se ignorarmos o aluno mais fraco do Grupo A, os alunos do Grupo A têm melhoresresultados que os do grupo B.Respeitando a informação dada no problema, consideremos que os resultados obtidos pelos doisgrupos foram os seguintes:Grupo A: 8, 51, 52, 56, 61, 63, 65, 67, 74, 76, 82, 89Grupo B: 41, 43, 55, 61, 62, 63, 67, 68, 74, 79, 79, 82Utilizando o programa R 9 , calculemos as principais estatísticas descritivas destes dois grupos, bemcomo os respectivos boxplots (caixas de bigodes):9 Ver script elaborado no final deste problema.


pág. 212Note-se que a nota mais baixa do Grupo A, que se afasta significativamente das restantes (outlier),está assinalada com um (ponto). Este valor interfere bastante na média dos resultados do GrupoA. Efectivamente, se retirarmos a nota mais baixa a cada um dos grupos, respectivamente 8 e 41,obtemos:GrupoAMin. : 8.01st Qu.:55.0Median :64.0Mean :62.03rd Qu.:74.5Max. :89.020 40 60 80GrupoBMin . :41.001st Qu.:59.50Median :65.00Mean :64.503rd Qu.:75.25Max. :82.00GrupoAGrupoBCom esta alteração obtemos uma melhor leitura do gráfico, dada a redução na dispersão dos dados.Confirma-se assim uma subida das estatísticas descritivas, em particular no Grupo A, em que amédia das notas do Grupo A supera a média das notas do Grupo B.Retomando as doze notas iniciais de cada grupo, alteremos agora apenas o menor valor do Grupo A, anota 8 para 39 (nota mínima, de qualquer modo inferior à nota mínima do Grupo B).GrupoAMin. :51.001st Qu.:58.50Median :65.00Mean :66.913rd Qu.:75.000Max. :89.050 60 70 80 90GrupoBMin. :43.001st Qu.:61.50Median :67.00Mean :66.643rd Qu.:76.50Max. :82.00GrupoAGrupoBA alteração do valor extremo teve como consequência uma subida significativa da média, mantendose,o valor da mediana. Esta situação ilustra bem a maior resistência da mediana a valores extremosrelativamente à média.Apesar da importância destas duas medidas de tendência central, poderemos ter um conjuntode dados diferentes com igual média e mediana, sendo necessário recorrer a outras medidasestatísticas para analisar melhor os dados.GrupoAMin. :39.001st Qu.:55.00Median :64.00Mean :64.583rd Qu.:74.50Max. :89.0040 50 60 70 80 90GrupoBMin. :41.001st Qu.:59.50Median :65.00Mean :64.503rd Qu.:75.25Max. :82.00GrupoAGrupoB


pág. 213# Estatística com RAinda na situação apresentada, se alterarmos no Grupo A, por exemplo, duas notas: 8 para 36 e 63 para65, obtemos:GrupoAMin. : 36.01st Qu.:55.0Median :65.0Mean :64.503rd Qu.:74.5Max. :89.040 50 60 70 80 90GrupoBMin. :41.001st Qu.:59.50Median :65.00Mean :64.503rd Qu.:75.25Max. :82.00GrupoAGrupoBA média e a mediana são iguais, sendo por isso necessário recorrer as outras medidas, por exemplo, dedispersão para analisarmos melhor os dados e concluir, eventualmente qual dos grupos tem melhoresresultados.No Grupo A a amplitude interquartil é superior, bem como o desvio padrão o que significa que neste grupoexiste uma maior variabilidade das notas em relação à média.Os histogramas destes conjuntos de dados apresentam-se a seguir:GrupoAGrupoBFrequência0 1 2 3 4Frequência0 1 2 3 4 5Script “Resultados de um teste“notas=data.frame(GrupoA=c(8,51,52,56,61,63,65,67,74,76,82,89),GrupoB=c(41,43,55,61,62,63,67,68,74,79,79,82))summary(notas)par(mfrow=c(2,2))color=c("red","blue")boxplot(notas,col=color)30 50 70 90notas40 50 60 70 80 90notasnotas2=data.frame(GrupoA=c(51,52,56,61,63,65,67,74,76,82,89),GrupoB=c(43,55,61,62,63,67,68,74,79,79,82))summary(notas2)boxplot(notas2,col=color)notas3=data.frame(GrupoA=c(39,51,52,56,61,63,65,67,74,76,82,89),GrupoB=c(41,43,55,61,62,63,67,68,74,79,79,82))summary(notas3)boxplot(notas3,col=color)notas4=data.frame(GrupoA=c(36,51,52,56,61,65,65,67,74,76,82,89),GrupoB=c(41,43,55,61,62,63,67,68,74,79,79,82))summary(notas4)boxplot(notas4,col=color)sd(notas4$GrupoA)sd(notas4$GrupoB)# histogramas do problema Resultados de um testepar(mfrow=c(1,2))color=c("red")hist(notas4$GrupoA,main="GrupoA",xlab="notas",ylab="frequência",col.main=color)color=c("blue")hist(notas4$GrupoB,main="GrupoB",xlab="notas",ylab=“frequência",col.main=color)


um mundo para conhecer os números #pág. 2149. Para saber mais:recursos práticos paraaprendizagem do RPublicações• ALEA, Dossiê X – “Software Estatístico - Umaintrodução a alguns aplicativos, numa abordageminicial dos dados”, Helder Alves, Luís Cunha.• Figueiredo, F., Figueiredo, A., Ramos, A., eTeles, P., Estatística Descritiva e Probabilidades:Problemas Resolvidos e Propostos com Aplicaçõesem R, Escola Editora, 2007.• Ponte, João Pedro da, Introdução, in SeymourPapert, “A Família em rede”, Relógio d’Água,1997.• ALEA, Dossiê X – “Software Estatístico - Umaintrodução a alguns aplicativos, numa abordageminicial dos dados”, Helder Alves, Luís Cunha.• L. Torgo (2009), A Linguagem R– Programação para a Análise de Dados,Escola Editora.• Paul Murrell (2006), R Graphics, Chapman &Hall/CRC, London.• Peter Dalgard (2002), Introductory Statisticswith R, Springer, New York.WebSites:• The R Project for Statistical Computing:http://www.r-project.org/index.html• R Site Search:http://finzi.psych.upenn.edu/search.html• R mailing lists archive:http://tolstoy.newcastle.edu.au/R/• The R Commander – A Basic-StatisticsGUI for R:http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/• Tinn-R:http://www.sciviews.org/Tinn-R/

Hooray! Your file is uploaded and ready to be published.

Saved successfully !

Ooh no, something went wrong !