18.07.2013 Views

Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...

Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...

Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

igennem ELRA. Til sidst skal (mindst) 250.000 af disse 3 mio. løbende tekstord være<br />

morfosyntaktisk taggede ifølge et fælles PAROLE-format <strong>og</strong> -tagsæt (kal<strong>det</strong> 'Linguistically<br />

Annotated Sub-corpus'). Denne vejledning omhandler alene <strong>det</strong> <strong>danske</strong> morfosyntaktisk<br />

taggede del<strong>korpus</strong> på ca. 250.000 løbende tekstord, <strong>og</strong> fremover vil alle henvisninger <strong>til</strong><br />

“PAROLE-<strong>korpus</strong>set” i vejledningen være her<strong>til</strong>.<br />

Figur 1: Opbygning af de forskellige PAROLE-korpora<br />

<strong>det</strong> engelske <strong>det</strong> tyske <strong>det</strong> <strong>danske</strong><br />

PAROLE-<strong>korpus</strong> PAROLE-<strong>korpus</strong> PAROLE-<strong>korpus</strong><br />

...<br />

PAROLE Available Corpus (AC)<br />

(20 mio. løbende ord)<br />

PAROLE Distributable Sub-corpus<br />

(DC) (3 mio. løbende ord)<br />

PAROLE Linguistically Annotated<br />

Sub-corpus (LC) (250.000 løbende ord)<br />

Hvad er et morfosyntaktisk tagget <strong>korpus</strong>?<br />

Hermed forstås et tekst<strong>korpus</strong>, hvori de løbende tekstord systematisk er blevet forsynet med en<br />

række morfol<strong>og</strong>iske <strong>og</strong> syntaktiske oplysninger, som f.eks. deres ordklasse <strong>og</strong> forskellige<br />

morfol<strong>og</strong>iske bøjningsoplysninger. Selvom disse morfosyntaktiske oplysninger udtrykkes vha.<br />

SGML-koder i de omtalte PAROLE-korpora, skelnes der her i vejledningen mellem (i)<br />

'<strong>korpus</strong>tagging', dvs. <strong>til</strong>deling af morfosyntaktiske oplysninger <strong>til</strong> de løbende tekstord i<br />

<strong>korpus</strong>teksterne, <strong>og</strong> (ii) '<strong>korpus</strong>opmarkering' eller 'tekstopmarkering', dvs. <strong>til</strong>føjelsen af (andre)<br />

SGML-koder <strong>til</strong> <strong>korpus</strong>set som helhed samt <strong>til</strong> selve <strong>korpus</strong>teksterne for at angive deres interne<br />

struktur.<br />

2. Morfosyntaktisk <strong>korpus</strong>tagging<br />

<strong>Det</strong>te afsnit omhandler forløbet af <strong>det</strong> samarbejde om <strong>korpus</strong>tagging, der er resulteret i <strong>det</strong><br />

<strong>danske</strong> morfosyntaktisk taggede PAROLE-<strong>korpus</strong>.<br />

2.1 Korpustaggingens forløb<br />

Samarbej<strong>det</strong> mellem Britt Keson (samt Dorte Haltrup Hansen) fra <strong>Det</strong> <strong>Danske</strong> <strong>Spr<strong>og</strong></strong>- <strong>og</strong><br />

Litteraturselskab <strong>og</strong> Thomas Bilgram fra Aarhus Universitet har haft følgende forløb:<br />

Figur 2: Korpussamarbej<strong>det</strong>s forløb<br />

automatisk morfosyntaktisk<br />

konvertering <strong>til</strong><br />

PAROLEs tagsæt<br />

<strong>og</strong> format<br />

manuel udvælgelse af<br />

udvælgelse af analyse af tekstuddragene korrekte morfosyntaktiske<br />

tekstuddrag med DAN-TWOL- DAN-TWOL-analyser<br />

algoritmen udvikling af en<br />

Constraintgrammatik<br />

<strong>til</strong> dansk<br />

5

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!