título do trabalho completo: letra maiúscula, negrito ... - X CELSUL

Anais do X Encontro do CELSUL – Círculo de Estudos Linguísticos do Sul 

UNIOESTE - Universidade Estadual do Oeste do Paraná 

Cascavel-PR | 24 a 26 de outubro de 2012 | ISSN 2178-7751 

ANÁLISE ACÚSTICA DA PRODUÇÃO DE CONSOANTES OCLUSIVAS INICIAIS 

POR FALANTES NATIVOS DE PB 

1 

Susana Pinheiro da Cruz PRESTES 1 

RESUMO: O presente estudo versa sobre a produção de consoantes oclusivas surdas e 

sonoras do inglês em posição inicial. É traçada uma comparação entre a produção de 

aprendizes brasileiros de inglês e falantes nativos estadunidenses. Para tanto, lançamos mão 

da análise acústica da duração de VOT (Voice Onset Time). Observamos que as produções 

dos dois grupos diferem tanto em relação às oclusivas surdas quanto às sonoras. Para as 

surdas, os níveis de aspiração são consideravelmente inferiores nos dados dos aprendizes e, 

nos dois grupos, o ponto de articulação tem influência direta sobre esses níveis. Para as 

sonoras, foram observados índices de sonoridade superiores nos dados dos aprendizes, ao 

passo que não fica completamente nítida a influência do ponto de articulação para a 

sonoridade, especialmente nos dados dos aprendizes. A opção por descrever os dados por 

meio dos índices de VOT implica uma perspectiva dinâmica de aquisição de língua 

estrangeira, uma vez que o que está em jogo no presente trabalho não é a oposição entre 

sistemas fonético-fonológicos que apresentem ou não uma dada característica, mas o que 

aproxima a produção do aprendiz da produção do nativo. 

PALAVRAS-CHAVE: Consoantes oclusivas; Produção; Análise acústica. 

ABSTRACT: The present study deals with the production of both voiced and voiceless stops of 

English in word-beginning position. A comparison will be carried out between the production 

of Brazilian EFL speakers and North American native speakers of English. In order to do so, 

we use the acoustic analysis of VOT (Voice Onset Time). It was noted that the productions for 

the two groups differ in relation to both voiceless and voiced stops. Concerning the voiceless 

stops, the levels of aspiration are considerably lower in the learners’ data. Besides, the place 

of articulation has direct influence on these levels. Regarding the voiced stops, we found 

higher levels of sonority in the learners’ data, whereas the influence of place of articulation 

was not completely clear, particularly in the learners’ data. The choice for describing the 

data through VOT levels involves a dynamic perspective of foreign language acquisition, 

since what is at stake here is not the opposition between two phonetic/phonological systems in 

terms of the presence or not of a certain characteristic, but what approximates the 

productions of an EFL speaker and a native speaker. 

KEY WORDS: Stop consonants; Production; Acoustic analysis. 

1 Introdução 

Este estudo visa investigar a produção das consoantes oclusivas surdas e sonoras na 

língua inglesa por falantes nativos de português brasileiro (PB). Mais especificamente, será 

traçada uma comparação entre a produção de aprendizes brasileiros de inglês e falantes 

nativos. Os níveis de aspiração, no que tange às oclusivas surdas, e os índices de sonoridade, 

no caso das sonoras, serão mensurados em dados obtidos de sujeitos brasileiros e 

1 Mestranda do Programa de Pós Graduação em Letras da Universidade Federal do Paraná, e-mail: 

susanaprestes@yahoo.com.br.




estadunidenses por meio da análise acústica da duração de VOT (Voice Onset Time), que 

consiste no intervalo existente entre a soltura dos articuladores na consoante oclusiva e o 

início do vozeamento do segmento seguinte. 

A escolha por analisar o dado fonético por meio da mensuração dos índices de VOT 

pressupõe uma perspectiva dinâmica de aquisição de língua estrangeira. Em outras palavras, 

buscou-se olhar para os fenômenos de aspiração e sonorização das oclusivas em termos de 

gradiência, ao invés de tratá-los relativamente a sua ausência ou presença nos sistemas 

fonético-fonológicos. O que passa a ter centralidade aqui é o que aproxima a produção do 

aprendiz da produção do nativo, ou seja, parte-se da hipótese de que os aprendizes realizam a 

aspiração, porém mais brevemente que os nativos. Não se trata, portanto, de conceber que os 

aprendizes devam aprender a produzir um aspecto sonoro novo, mas de fazê-los produzir tal 

aspecto com maior duração. 

2 Hipótese e objetivos 

Sabe-se que, em início de sílaba tônica, as consoantes oclusivas surdas do inglês, a 

saber: [p], [t] e [k], apresentam um ruído aspirado de duração considerável após a soltura dos 

articuladores, exceto quando precedidas de [s] na mesma sílaba. 

É sabido ainda que tal fenômeno aparentemente não ocorre no PB, ou pelo menos, não 

nos mesmos níveis encontrados na língua inglesa. Dessa forma, é esperado que falantes de PB 

aprendizes de inglês apresentem certa dificuldade na realização de segmentos aspirados e que, 

portanto, através de uma análise acústica, ostentem índices de VOT consideravelmente mais 

baixos na L2 do que aqueles apresentados por falantes nativos. 

Além disso, as consoantes oclusivas sonoras do inglês caracterizam-se por um baixo 

índice de sonoridade quando comparadas àquelas presentes no PB. Espera-se, dessa forma, 

que os aprendizes brasileiros apresentem índices mais altos de sonoridade na produção da L2, 

o que deverá ser comprovado por uma análise acústica que venha a medir os valores de VOT 

exibidos por falantes nativos e aprendizes. 

A partir da análise acústica da produção de aprendizes brasileiros de língua inglesa e 

falantes nativos de inglês americano, será possível traçar uma comparação mais acurada entre 

L2 e língua-alvo, uma vez que os dados terão sido coletados sob as mesmas condições. 

Assim sendo, este trabalho visa verificar como as consoantes oclusivas são realizadas por 

aprendizes brasileiros de inglês e seus falantes nativos, especialmente com relação à duração 

de VOT. Além disso, objetiva-se comparar a produção nos dois grupos e identificar o quanto 

falta para que se equiparem. 

3 Caracterização das consoantes oclusivas 

As consoantes oclusivas, também chamadas plosivas, têm como característica 

primordial um bloqueio momentâneo total do trato vocal, ou seja, uma oclusão articulatória 

em algum ponto do trato. Na língua inglesa, bem como no português, tal oclusão localiza-se 

essencialmente nos pontos bilabial, alveolar e velar. Embora a língua inglesa conte ainda com 

a oclusiva glotal [ʔ], sua realização se dá em contextos muito específicos. Ela aparece, por 

exemplo, na expressão de negação normalmente transcrita ortograficamente como uh-uh e 

foneticamente transcrita como [ʔʌʔʌ]. Surge ainda como alofone do [t] em palavras como 

beaten, kitten e fatten, ou diante de oclusivas surdas em palavras como rap, rat e rack 

(LADEFOGED, 2001). Por essa razão, tomamos a decisão de não contemplar a oclusiva 

glotal nesta pesquisa. 

2




As oclusivas com as quais trabalharemos localizam-se em posição prévocalica e 

podem ser identificadas por meio de três eventos acústicos: a obstrução, a soltura e a 

transição. Durante a fase de obstrução, que dura entre 50ms e 100ms, há pouca ou nenhuma 

energia acústica, uma vez que há bloqueio total dos articuladores. Na fase de soltura, é 

identificado o chamado burst, ou explosão, que dura entre 5ms e 40ms e que pode ou não ser 

seguido de aspiração. Por fim, a transição entre uma oclusiva e a vogal seguinte nos dá pistas 

sobre o ponto de articulação da consoante já que este causa mudanças características nos 

formantes2 da vogal (KENT &READ, 1992). 

A aspiração, por sua vez, é um evento acústico no qual o ar passa pelas pregas vocais e 

através da faringe gerando um som sussurrado semelhante à fricativa glotal [h] presente na 

palavra hat. Não é à toa que se marca foneticamente a aspiração por meio de um h sobrescrito, 

como na transcrição da palavra peak [pʰik]. Na língua inglesa, as oclusivas surdas 

prevocálicas são aspiradas em posição tônica, exceto quando antecedidas de [s] na mesma 

sílaba, ao passo que as oclusivas sonoras são normalmente não-aspiradas. Portanto, além do 

vozeamento em si, a aspiração constitui uma pista para a distinção surda/sonora nas 

consoantes oclusivas prevocálicas. 

É possível ainda caracterizar as oclusivas por meio de um parâmetro acústico chamado 

VOT (Voice Onset Time), que é o intervalo existente entre a soltura dos articuladores e o 

início do vozeamento proveniente do segmento seguinte. Tal conceito foi primeiramente 

utilizado em um trabalho de Lisker e Abramson (1964) no qual os autores buscavam 

identificar um parâmetro único para distinguir oclusivas surdas e sonoras. Assim surgiu o 

foco na relação de tempo entre o início do vozeamento e a soltura dos articuladores da 

consoante oclusiva. Para fins de medição do VOT, o momento da soltura é determinado como 

ponto zero, e todo vozeamento que começar antes da soltura terá, portanto, valor negativo. 

Valores médios para o VOT de oclusivas sonoras em inglês ficam entre -20ms e 

+20ms. Por outro lado, as consoantes oclusivas surdas assumem sempre valores positivos de 

VOT entre 25 e 100ms (KENT &READ, 1992). De acordo com Ladefoged (1999), no inglês 

norte-americano, há pouco ou nenhum vozeamento das consoantes oclusivas sonoras durante 

a oclusão, exceto no caso em que ocorrem entre sons vozeados. Portanto, é de se esperar que 

aprendizes anglófonos de português apresentem desvozeamento das oclusivas vozeadas. 

4 Revisão bibliográfica 

Um experimento conduzido por Stein (2011) confirma a existência do desvozeamento 

entre sujeitos anglofalantes aprendizes de português. Ao estudar tal fenômeno, o pesquisador 

confirma que os dados por ele coletados junto aos aprendizes anglofalantes demonstram que o 

desvozeamento se projetou de forma recorrente quando os sujeitos pronunciaram as oclusivas 

vozeadas do PB, inclusive no nível avançado de aprendizagem. Os dados foram obtidos de 

dois informantes americanos em níveis básico e pré-intermediário e duas informantes inglesas 

em níveis intermediário e avançado. O pesquisador não recorreu a sentenças-veículo, mas a 

textos e frases. A análise acústica foi feita através do programa computacional Praat, o mesmo 

utilizado na presente pesquisa. 

No que diz respeito às oclusivas surdas, os valores de VOT no PB tendem a ser 

consideravelmente mais baixos, o que explica o fato de os brasileiros serem considerados 

falantes de uma língua em que não há aspiração. Logo, aprendizes brasileiros de inglês podem 

vir a transferir essa característica de sua língua materna para a língua estrangeira, o que fará 

2 Formantes são picos de energia em uma região do espectro sonoro. São realçados em função do formato que o 

trato vocal assume na produção de determinado som vocálico. 

3




com que as oclusivas surdas em início de sílaba na L2 acabem por apresentar VOT de duração 

consideravelmente mais curta do que o de um nativo. Zimmer (2004) refere-se a essa 

transferência como desaspiração das oclusivas surdas iniciais e, segundo a pesquisadora, o 

fator que leva falantes de PB à desaspiração envolve a ativação do conhecimento fonéticofonológico 

de sua língua materna. Em sua pesquisa, ela trabalhou com a leitura de palavras e 

não-palavras e analisou dados de 156 estudantes em quatro estágios diferentes de 

aprendizagem: 50 no nível básico, 57 no intermediário, 34 no intermediário-avançado e 15 no 

avançado. Seu trabalho revela que o processo de desaspiração diminui significativamente 

conforme aumenta o nível de proficiência dos sujeitos. Ela conclui que a formação categórica 

de contrastes fonéticos da L2 é dificultada para adultos em razão da experiência linguística do 

falante e não necessariamente na perda da plasticidade resultante da maturação neuronal. 

França (2011) trabalha com a aquisição da aspiração das plosivas surdas do inglês por 

falantes de PB em sua dissertação de mestrado. A pesquisadora analisa os dados de 22 

sujeitos com diferentes níveis de proficiência e faz uso da gravação de sentenças-veículo em 

língua portuguesa e inglesa. França (2011) levanta os seguintes valores de VOT para o PB: 

19,56ms para [p], 21,66ms para [t] e 47,20ms e para [k]. Ela aponta, no entanto, que a 

literatura sobre VOT no Brasil é escassa e as médias encontradas foram consideravelmente 

maiores do que as relatadas por Istre (1983, apud França 2011), que equivalem a 12ms para 

[p], 18ms para [t] e 38ms para [k]. A autora nos remete ainda ao trabalho de Cho & 

Ladefoged (1999), para os quais é preciso que os segmentos apresentem valores de 55ms para 

[p], 70ms para [t] e 80ms para [k] a fim de que possam ser considerados aspirados. 

Por outro lado, quando se trata de dados da língua inglesa obtidos de aprendizes 

falantes de PB, França (2011) encontra índices de VOT que correspondem a 27,43 para [p], 

45,83 para [t] e 58,61 para [k], ou seja, maiores do que aqueles apresentados na L1, o que a 

leva a concluir que os aprendizes encontram-se em uma etapa de desenvolvimento em direção 

à língua-alvo. Tal conclusão corrobora pesquisas anteriores que mostram que, conforme os 

aprendizes adquirem maior proficiência na língua, maiores tendem a ser os índices de VOT na 

realização de oclusivas surdas (ZIMMER, 2004). 

5 Metodologia 

Os dados utilizados nesta pesquisa foram coletados em novembro de 2011 junto a dois 

brasileiros aprendizes de inglês como L2 e dois falantes nativos estadunidenses. Os brasileiros 

são ambos paranaenses, sendo uma informante de Curitiba, com idade de 31 anos e um 

informante de Ibaiti, com 24 anos. Na ocasião da coleta, ambos estudavam inglês no Centro 

de Línguas da Universidade Federal do Paraná, em nível pré-intermediário. Como ambos 

relataram ter estudado inglês nesta instituição desde o nível inicial, é possível precisar que os 

dois informantes contavam com aproximadamente 300 horas de instrução da língua-alvo, o 

que acaba por ser um dado mais confiável do que a flutuante noção de nível préintermediário. 

Os informantes estadunidenses são ambos do sexo masculino, sendo o primeiro um 

estudante de 32 anos, originário de Tallahassee, Flórida e o segundo natural de Bar Harbor, 

Maine. Ambos estavam no Brasil há menos de um ano e, na ocasião da coleta, estudavam 

português no Centro de Línguas da Universidade Federal do Paraná. 

O corpus utilizado contou com monossílabos nos quais as oclusivas surdas [p], [t] e 

[k] e as sonoras [b], [d] e [g] estavam em posição inicial inseridos na sentença-veículo “Say 

______ to me”. Foram feitas 5 repetições da leitura das sentenças e, a cada repetição, a 

ordem de apresentação aleatória das sentenças era modificada. Os dados foram gravados no 

4




Laboratório de Estudos Fônicos da UFPR (LEFON), que dispõe de cabine com tratamento 

acústico. 

Por uma questão de tempo, fez-se necessário selecionar apenas parte dos dados do 

corpus, o que, entretanto, foi feito com o cuidado de incluir os três diferentes pontos de 

articulação das oclusivas em inglês de maneira igualitária: três palavras com oclusivas surdas 

bilabiais: peach, pack e poot; três alveolares: teed, tap e took; e três velares: keek, cap e cook. 

O mesmo se deu com a escolha das sonoras, havendo três exemplares de bilabiais: beach, 

back e boot; três alveolares: deed, dap e dook; e três velares: geek, gap e gook. As vogais 

seguintes também foram selecionadas de modo a sempre incluir uma vogal anterior alta, uma 

central baixa e uma posterior alta. 

A análise dos dados foi feita por intermédio do software Praat (Boersma e Weenink, 

2012). Após recortarmos todas as sentenças através do programa mencionado, foi medida a 

duração absoluta do VOT de cada consoante oclusiva inicial, bem como a duração da 

sentença-veículo. Em seguida, calculou-se a duração relativa do VOT, ou seja, a porcentagem 

de duração do VOT em relação à sentença-veículo. Será essa, inclusive, nossa opção para a 

apresentação dos dados, uma vez que acreditamos ser a duração relativa mais acurada em 

relação à duração absoluta, pois corrige quaisquer desvios que venham a existir por conta da 

taxa de elocução dos informantes. 

6 Resultados 

Primeiramente, o foco são as consoantes oclusivas surdas. O que diferencia a produção 

de nativos daquela encontrada em aprendizes brasileiros são os níveis de aspiração exibidos 

nos dois grupos. Para mensurar tais níveis, foi feita uma análise acústica da duração de VOT 

presente nos dados, que coincide com a duração do evento da aspiração nas oclusivas surdas. 

As Figuras 1 e 2 mostram os dados do nativo N1 e da aprendiz A2, respectivamente. Ambas 

as figuras (1 e 2) exibem a primeira repetição da palavra tap. Destacadas entre linhas 

pontilhadas estão as durações absolutas do VOT produzido por ambos os informantes na 

consoante inicial de tap. O VOT é medido após a ocorrência do burst até o primeiro pulso da 

vogal seguinte. O burst é um evento típico da produção de oclusivas cuja visualização no 

espectrograma se dá por uma barra vertical de cor cinza escura. A duração absoluta de VOT 

para o dado do falante nativo (Fig. 1) é de 82 milissegundos, ao passo que para a aprendiz 

brasileira (Fig. 2) a duração é bem menor, ou seja, 9 ms. Esse é um padrão típico para os dois 

grupos representados pelos informantes aqui selecionados. 

FIGURA 1: Oscilograma e espectrograma da primeira repetição da palavra tap pelo 

informante estadunidense N1. Entre as linhas pontilhadas, destaca-se a duração 

absoluta de VOT da consoante inicial [t]. 

5




FIGURA 2: Oscilograma e espectrograma da primeira repetição da palavra tap pela 

informante brasileira A2. Entre as linhas pontilhadas, destaca-se a duração absoluta de 

VOT da consoante inicial [t]. 

Embora as Figuras 1 e 2 apresentem as durações absolutas de VOT, todos os dados 

neste trabalho serão apresentados em termos de duração relativa, o que quer dizer que 

tomaremos a duração absoluta do VOT com relação à duração da sentença-veículo. 

Quanto à análise dos dados, é possível notar que eles corroboram pesquisas anteriores 

que atestam a influência do ponto de articulação sobre a duração da aspiração. Sabe-se que, 

quanto mais posterior o ponto de articulação, mais longa será a aspiração e, 

consequentemente, a duração de VOT exibida (Cho e Ladefoged, 1999; Yavas, 2007; Alves, 

2011; Stein, 2011; França, 2011). 

É exatamente isso que pode ser observado nos dados aqui analisados. A bilabial [p] 

exibiu os menores índices de VOT, a alveolar [t] exibiu níveis intermediários e a velar [k] 

exibiu os maiores índices de VOT. Esse fato se repetiu para cada um dos informantes, tanto 

nativos (N1 e N2) quanto aprendizes (A1 e A2), embora em graus distintos, como mostra o 

Gráfico 1. 

6




GRÁFICO 1: Percentual de aspiração representado pela duração relativa de VOT por 

informante para os três diferentes pontos de articulação das consoantes oclusivas 

surdas. 

O Gráfico 1 deixa claro que, de forma geral, observa-se o aumento da duração da 

aspiração conforme a consoante se torna mais posterior. Nos dados dos falantes nativos, há 

uma diferença acentuada entre a bilabial e os dois outros pontos de articulação, que contam 

com um nível de aspiração maior. Quanto aos aprendizes, entretanto, a diferença mais 

acentuada se dá para a velar [k], que possui nível de aspiração consideravelmente maior em 

relação aos dois pontos anteriores. 

Se fizermos uma média da produção dos dois nativos e outra da produção dos dois 

aprendizes, confirmaremos esse fato. Para a bilabial [p] os nativos exibem um valor de 

duração relativa de VOT igual a 4,69% contra 0,74% dos aprendizes. Assim sendo, o índice 

de VOT e, consequentemente, a aspiração na produção dos aprendizes precisa aumentar em 

84,23% para se equiparar à dos nativos. Com relação à alveolar [t] essa diferença diminui um 

pouco, já que produção dos nativos exibe um valor de 6,31%, ao passo que os aprendizes 

contam com VOT médio de 1,85%, ou seja, 70,68% menor. Finalmente, a produção da 

oclusiva velar [k] por aprendizes apresenta valores consideravelmente mais robustos que nos 

dois primeiros pontos de articulação. Aqui, observa-se que o valor médio de duração relativa 

de VOT para os nativos é de 6,62%, enquanto que para os aprendizes é de 3,75%. Em outras 

palavras, o VOT na produção dos não-nativos deve aumentar em apenas 43,35% a fim de que 

possa ser percebida como típica de nativos. Os dados seguem expressos na Tabela 1. 

TABELA 1: Média da duração relativa de VOT em consoantes oclusivas surdas para 

nativos e aprendizes, seguida da diferença percentual entre elas. 

Oclusiva Nativos Aprendizes Diferença em % 

[p] 4,69 0,74 84,23 

[t] 6,31 1,85 70,68 

[k] 6,62 3,75 43,35 

Média 5,87 2,11 66,08 

7




Portanto, a despeito da classificação do PB como uma língua desprovida de aspiração, 

é possível observar que os aprendizes brasileiros estão certamente aspirando as consoantes 

oclusivas surdas quando da sua produção em língua inglesa. Isso pode ser interpretado como 

um esforço em direção ao refinamento da pronúncia dos aprendizes brasileiros visando a 

adequá-la às características do sistema fonético-fonológico da L2. 

O passo seguinte é observar como se dá a produção das oclusivas sonoras para os dois 

grupos. Como anteriormente mencionado, a língua inglesa caracteriza-se por possuir um VOT 

entre -20 ms até +20 ms, o que coincide com as taxas de vozeamento. Valores negativos 

ocorrem quando o vozeamento precede o burst em alguns milissegundos (KENT &READ, 

1992). 

Em uma análise acústica, a duração do VOT será calculada, portanto, com base na 

observação da presença da barra de sonoridade no espectrograma. Quanto menores os valores 

absolutos de VOT, maior é a sonoridade da consoante, uma vez que ela é medida 

acusticamente do burst para trás. 

O primeiro dos informantes nativos (N1) causou certa surpresa, pois em boa parte de 

seus dados observaram-se valores negativos bem abaixo dos -20 ms (Figura 3), o que 

aproximaria sua produção daquela apresentada pelos aprendizes brasileiros. Entretanto, é 

preciso notar que, em várias ocasiões, o VOT possuía valor zero, o que não ocorreu no grupo 

dos aprendizes. 

FIGURA 3: Oscilograma e espectrograma da segunda repetição da palavra deed pelo 

informante estadunidense N1. Entre as linhas pontilhadas, destaca-se a presença da 

barra de sonoridade no espaço imediatamente anterior ao burst da consoante inicial [d]. 

A Figura 3 mostra o oscilograma e espectrograma da segunda repetição da palavra 

deed pelo primeiro informante estadunidense. A barra de sonoridade corresponde ao sinal 

cinza escuro na parte inferior da janela espectrográfica entre as linhas pontilhadas. É possível 

notar que o informante N1 apresentou vozeamento durante toda a oclusão, inclusive no 

momento imediatamente anterior à soltura, o que caracteriza um VOT de -108 ms. Esse valor 

não é normalmente descrito pela literatura como típico para falantes nativos, mas pode se 

dever ao fato de que a consoante oclusiva alveolar está entre dois sons vozeados. Ressalta-se, 

porém, que apesar de os aprendizes apresentarem índices de VOT muito semelhantes a este, a 

diferença fica por conta de que o informante N1 também possui certo número de dados cujo 

8




VOT é zero. Logo, notar-se-á que na comparação final dos dados, os níveis de vozeamento do 

informante N1 figurarão como consideravelmente inferiores. 

Por outro lado, o segundo informante nativo manteve sua produção dentro do 

esperado, apresentando VOT de valor zero na maior parte dos dados. (Figura 4) 

FIGURA 4: Oscilograma e espectrograma da segunda repetição da palavra deed pelo 

informante estadunidense N2. Entre as linhas pontilhadas, destaca-se a ausência da 

barra de sonoridade no espaço imediatamente anterior ao burst da consoante inicial [d]. 

A Figura 4 apresenta um dado típico do informante N2. A palavra escolhida também 

foi a segunda repetição de deed e a parte em destaque nos mostra o momento da oclusão. 

Nota-se que barra de sonoridade está presente em boa parte da oclusão, mas se desfaz antes de 

ocorrer o burst. Isso quer dizer que o VOT nesse dado corresponde a zero. É possível ainda 

acompanhar no oscilograma que o sinal se desfaz antes do burst, prova de que o vozeamento 

que observamos na oclusão não faz parte do VOT, mas da vogal precedente. 

Quanto aos aprendizes (A1 e A2), não houve grandes surpresas. Ambos apresentam 

VOT absoluto de valor negativo de maneira consistente através dos dados. Isso garantirá 

maiores níveis de vozeamento quando da comparação com os dados dos nativos, pois apesar 

de termos produções aparentemente atípicas do informante N1 que, por vezes, equiparam-se 

às produções dos aprendizes, estes apresentaram valores absolutos de VOT ainda mais baixos 

em boa parte dos dados e, além disso, não contaram com VOT zero ou próximo de zero. A 

figura 5 mostra a terceira repetição de deed pelo informante A2. 

9




FIGURA 5: Oscilograma e espectrograma da terceira repetição da palavra deed pelo 

aprendiz brasileiro A2. Entre as linhas pontilhadas, destaca-se a barra de sonoridade no 

espaço imediatamente anterior ao burst da consoante inicial [d]. 

A Figura 5 mostra um dado típico do informante A2. A barra de sonoridade aparece 

nitidamente no espectrograma entre as linhas pontilhadas e sinaliza um VOT de -201ms, o 

que demonstra uma tendência ao vozeamento muito mais robusta para os aprendizes, mesmo 

em relação à produção atípica do informante estadunidense N1, cujo valor de VOT foi de - 

102ms no mesmo dado. 

Passemos agora à comparação da produção de cada um dos informantes no Gráfico 2. 

Vale lembrar que os valores aqui não são negativos, pois estamos lidando com a porcentagem 

do valor absoluto com relação à sentença-veículo. 

GRÁFICO 2: Percentual de vozeamento representado pela duração relativa de VOT 

por informante para os três diferentes pontos de articulação das consoantes oclusivas 

sonoras. 

10




Diferentemente do que ocorreu com as oclusivas surdas, não foi possível observar um 

padrão geral de comportamento no que se refere ao ponto de articulação das consoantes. 

Ambos os nativos apresentaram duração relativa de VOT em níveis consideráveis (6,5% e 

3,95%) para a bilabial [b]. Quanto aos demais pontos de articulação, o informante N1 exibiu 

duração relativa de VOT em níveis que seriam considerados altos para um nativo (6,91% para 

[d] e 4,43% para [g]), ao passo que o informante N2 exibiu valores bem mais baixos (1,38% 

para [d] e 0,27% para [g]). No que tange aos aprendizes, os valores não diferiram muito de 

um informante para outro, assim como não diferiram de maneira considerável quanto ao 

ponto de articulação. 

O passo seguinte é, como fizemos com as consoantes surdas, encontrarmos a média 

da produção dos dois nativos e a dos dois aprendizes. Nota-se que para a bilabial [b] os 

nativos exibiram um valor de duração relativa de VOT igual a 5,23% contra 11,38% dos 

aprendizes. Como neste caso a referência são as sonoras, a duração relativa de VOT dos 

aprendizes precisaria diminuir ao invés de aumentar para que se equipare a duração exibida 

pelos nativos. O valor de VOT relativo ou, em outras palavras, o índice de sonoridade na 

produção dos aprendizes, precisaria diminuir em 53,76%. 

Com relação à alveolar [d] e à velar [g], o esforço precisaria ser progressivamente 

maior, já que na produção dos aprendizes a duração relativa de VOT deveria ser 58,2% menor 

para [d] e 74,87% menor para [g]. Temos os dados completos na Tabela 2. 

TABELA 2: Média da duração relativa de VOT em consoantes oclusivas sonoras para 

nativos e aprendizes, seguida da diferença percentual entre elas. 

Oclusiva Nativos Aprendizes Diferença em % 

/b/ 5,23 11,31 53,76 

/d/ 4,10 9,81 58,2 

/g/ 2,35 9,35 74,87 

Média 3,89 10,15 62,27 

Com os dados de nativos e aprendizes agrupados por média, encontramos um padrão 

que faltava ao analisar os dados dos informantes separadamente. Aqui, é possível notar que a 

produção dos nativos exibe valores de duração relativa de VOT progressivamente menores, 

quanto mais posterior é o ponto de articulação. Em outras palavras, a bilabial exibe 

vozeamento maior que a alveolar, que exibe vozeamento maior que a velar. Entretanto, os 

aprendizes apresentam índices bastante próximos de vozeamento para três pontos de 

articulação, algo em torno de 10% em relação à sentença-veículo. 

7 Discussão 

Os dados obtidos nos permitem vislumbrar que aprendizes brasileiros de inglês e falantes 

nativos norte-americanos produzem tanto oclusivas surdas quanto sonoras de maneira distinta. 

No entanto, essa diferença não se dá em termos de presença ou ausência de uma dada 

característica fonológica, como geralmente se assume em abordagens tradicionais de 

aquisição de língua estrangeira. O que o dado fonético nos permite ver é que tanto a aspiração 

quanto à sonoridade ocorrem na fala dos dois grupos, porém em níveis distintos. Tal olhar 

implica assumir uma perspectiva dinâmica de aquisição de LE, na qual o primitivo de análise 

11




passa a ser o gesto articulatório 3 . Sob essa perspectiva, o que está em jogo não é a aquisição 

de um aspecto fonológico absolutamente novo por parte dos aprendizes, mas a tentativa de 

aprimorar algo que eles já produzem, organizando e coordenando os gestos articulatórios de 

maneira distinta. Em última instância, professores e aprendizes podem partir de uma produção 

já existente e concentrar esforços visando seu refinamento. 

8 Conclusões 

A presente pesquisa procurou investigar a produção de oclusivas em posição inicial 

por aprendizes brasileiros, comparando-a com a produção de nativos. Através da análise 

acústica dos índices de VOT presentes nos dados, foi possível vislumbrar os percentuais de 

diferença que separam a produção de aprendizes daquela exibida por nativos. Assim, acreditase 

estar contribuindo para a formulação e execução de futuras estratégias que visem o 

refinamento da produção de nossos aprendizes em relação à língua-alvo. 

Referências 

ALVES, M. A. Production of English and Portuguese Voiceless stops by Brazilian speakers. 

Dissertação – Mestrado em Letras. Florianópolis: UFSC, 2011. 

BOERSMA, P & WEENINK, D. Praat: doing phonetics by computer. (Version 5303). 

Amsterdam: University of Amsterdam, 2012. 

CHO, T. & LADEFOGED, P. Variation and universals in VOT: evidence from 18 languages. 

Journal of Phonetics, 27, p.207-227, 1999. Disponível em: http://tcho.hanyang.ac.kr/papers/ 

Cho_Ladefoged_VOT_JPhon_1999_rf.pdf> Acesso em: 15 mar. 2012 

FRANÇA, K. V. A aquisição da aspiração das plosivas surdas do inglês por falantes de 

português brasileiro: implicações teóricas decorrentes de duas diferentes formas de 

descrição dos dados. Dissertação (Mestrado em Letras). Pelotas: Universidade Católica de 

Pelotas, 2011. 

LADEFOGED, P. American English. In: Handbook of the International Phonetic Association. 

A guide to the use of the International Phonetic Alphabet. Cambridge: Cambridge University 

Press, 1999. 

LISKER, L.; ABRAMSON A. A cross-language study of voicing in initial stops: acoustical 

measurements. Words, 20, p.384-422, 1964. Disponível em: < http://www.haskins.yale.edu/ 

Reprints/HL0053.pdf> Acesso em: 15 mar. 2012. 

KENT, R.D. & READ, C. The Acoustic Analysis of Speech. San Diego: Singular Publishing 

Group, 1992. 

STEIN, C. C. Adequação dos gestos articulatórios típicos das consoantes oclusivas no inglês 

ao português brasileiro. In: VII Congresso Internacional da Abralin, 2011, Curitiba-PR. 

Anais do VII Congresso Internacional da Abralin, v. 1, p. 802-815,Curitiba, 2011. Disponível 

em Acesso em: 15 jan. 

2012. 

YAVAS, M. Factors Influencing the VOT of English Long Lag Stops and Interlanguage 

Phonology. In: New Sounds 2007: Proceedings of the Fifth International Symposium on the 

Acquisition of Second Language Speech. Universidade Federal de Santa Catarina. 

Florianópolis, p. 492-498, 2007 Disponível em: < http://www.nupffale.ufsc.br/newsounds/ 

Papers/45.Yavas_Mehmet.pdf>. Acesso em: 22 dez. 2011. 

3 Gesto articulatório é o primitivo de análise utilizado na Fonologia Gestual. O leitor encontrará mais detalhes 

em Browman & Goldstein, 1992. 

12




ZIMMER, M. C. A desaspiração de plosivas surdas iniciais na transferência do 

conhecimento fonético do português brasileiro (L1) para o inglês (L2). Anais do 6º Encontro 

do Celsul. Florianópolis, 2004. Disponível em: < http://www.celsul.org.br/Encontros 

/06/Individuais/08.pdf>. Acesso em: 15 mar. 2012. 

13

título do trabalho completo: letra maiúscula, negrito ... - X CELSUL

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?