11.04.2013 Views

c - Repositório Aberto da Universidade do Porto

c - Repositório Aberto da Universidade do Porto

c - Repositório Aberto da Universidade do Porto

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

PORLEX: UMA BASE LEXICAL INFORMATIZADA DO PORTUGUÊS EUROPEU ♦ 41<br />

Computacional <strong>do</strong> Português (www.oslo.sintef.no/portug/corpora.html, 22<br />

de Janeiro de 2001). Por isso, sai reforça<strong>da</strong> a nossa convicção na<br />

necessi<strong>da</strong>de de uma base lexical para o Português Europeu nos moldes <strong>do</strong><br />

Brulex e <strong>do</strong> CELEX. Nasce, assim, o Porlex.<br />

Q uadro 3 - Bases lexicais para o Português, respectiva extensão e tipo de<br />

informação disponível (a partir de Nascimento et ai.. 1996)<br />

í Nome (Resp. & Afiliação) Conteú<strong>do</strong> em Palavras' Anotação/Transcrição<br />

NATURA-PÚBLICO (Almei<strong>da</strong>,<br />

UM)*<br />

ca 6 milhões<br />

Ortográfica<br />

NATURA-PÚBLICO-Etiqueta<strong>do</strong> ca 4.000<br />

(Almei<strong>da</strong>, UM)*<br />

COPUSINESC (Santos, 14.873 (em 1.000 frases)<br />

INESC)*<br />

CIPM - Corpus Informatiza<strong>do</strong> de Séc. XIII (154.122), XIV<br />

Português Medieval (Equipa <strong>do</strong> (244.775), XV (223 095)<br />

DEL 2 , FCSH - UNL)*<br />

Mo<strong>da</strong> 60-90 (Carvalho)*<br />

Textos metalinguísticos<br />

portugueses <strong>do</strong> século XVI<br />

(Paiva, FLUP)*<br />

Astro (Neto, CLUL)**<br />

PF-FONE (Viana, d'Andrade,<br />

CLUL)**<br />

9 PROPER-(PE) (Andrade,<br />

CLUL)**<br />

10 RED-I (Andrade, CLUL)**<br />

14 Corpus de Referência <strong>do</strong><br />

Português Contemporâneo<br />

(Casteleiro, Nascimento,<br />

CLUL)***<br />

700.000<br />

65.730<br />

560.000<br />

26.000<br />

Material de fala e <strong>da</strong><strong>do</strong>s<br />

perceptivos<br />

Palavras e frases<br />

Morfossintáctica<br />

Classe gramatical<br />

Morfossintáctica<br />

(etiquetagem)<br />

Linguística e<br />

metalinguística<br />

Ortográfica, fonética<br />

larga (incl. silabific.) e<br />

fonética estreita<br />

11 EUROM. 1 Português (Trancoso, 6.500 números, 2.200<br />

INESC, CLUL, PT)**<br />

frases, 1.260 palavras<br />

Ortográfica e fonética<br />

larga<br />

12 BDFALA (Trancoso, Viana, Logátomos, palavras<br />

INESC, CLUL)**<br />

isola<strong>da</strong>s, frases, textos<br />

recolhi<strong>do</strong>s em 10 falantes<br />

13 ONOMÁSTICA (Trancoso,<br />

INESC, CLUL)**<br />

100.000 (nomes próprios,<br />

siglas e acrónimos)<br />

Ortográfica e fonética<br />

larga (incl. silabifíc.)<br />

45 milhões Morfossintáctica e<br />

sintáctica<br />

Note, Os campos com hífen (-) indicam que a informação não está disponível. O asterisco é<br />

usa<strong>do</strong> para indicar a fonte (oral vs. escrito) <strong>do</strong> corpus. Assim, * é usa<strong>do</strong> para fonte escrita<br />

** para oral, *** para oral e escrito.<br />

'Os valores apresenta<strong>do</strong>s incluem formas de palavras repeti<strong>da</strong>s (wordtokens), à excepção<br />

<strong>do</strong>s corpora 2 e 11. 'DEL = Departamento de Estu<strong>do</strong>s Linguísticos.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!