Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...
Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...
Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
igennem ELRA. Til sidst skal (mindst) 250.000 af disse 3 mio. løbende tekstord være<br />
morfosyntaktisk taggede ifølge et fælles PAROLE-format <strong>og</strong> -tagsæt (kal<strong>det</strong> 'Linguistically<br />
Annotated Sub-corpus'). Denne vejledning omhandler alene <strong>det</strong> <strong>danske</strong> morfosyntaktisk<br />
taggede del<strong>korpus</strong> på ca. 250.000 løbende tekstord, <strong>og</strong> fremover vil alle henvisninger <strong>til</strong><br />
“PAROLE-<strong>korpus</strong>set” i vejledningen være her<strong>til</strong>.<br />
Figur 1: Opbygning af de forskellige PAROLE-korpora<br />
<strong>det</strong> engelske <strong>det</strong> tyske <strong>det</strong> <strong>danske</strong><br />
PAROLE-<strong>korpus</strong> PAROLE-<strong>korpus</strong> PAROLE-<strong>korpus</strong><br />
...<br />
PAROLE Available Corpus (AC)<br />
(20 mio. løbende ord)<br />
PAROLE Distributable Sub-corpus<br />
(DC) (3 mio. løbende ord)<br />
PAROLE Linguistically Annotated<br />
Sub-corpus (LC) (250.000 løbende ord)<br />
Hvad er et morfosyntaktisk tagget <strong>korpus</strong>?<br />
Hermed forstås et tekst<strong>korpus</strong>, hvori de løbende tekstord systematisk er blevet forsynet med en<br />
række morfol<strong>og</strong>iske <strong>og</strong> syntaktiske oplysninger, som f.eks. deres ordklasse <strong>og</strong> forskellige<br />
morfol<strong>og</strong>iske bøjningsoplysninger. Selvom disse morfosyntaktiske oplysninger udtrykkes vha.<br />
SGML-koder i de omtalte PAROLE-korpora, skelnes der her i vejledningen mellem (i)<br />
'<strong>korpus</strong>tagging', dvs. <strong>til</strong>deling af morfosyntaktiske oplysninger <strong>til</strong> de løbende tekstord i<br />
<strong>korpus</strong>teksterne, <strong>og</strong> (ii) '<strong>korpus</strong>opmarkering' eller 'tekstopmarkering', dvs. <strong>til</strong>føjelsen af (andre)<br />
SGML-koder <strong>til</strong> <strong>korpus</strong>set som helhed samt <strong>til</strong> selve <strong>korpus</strong>teksterne for at angive deres interne<br />
struktur.<br />
2. Morfosyntaktisk <strong>korpus</strong>tagging<br />
<strong>Det</strong>te afsnit omhandler forløbet af <strong>det</strong> samarbejde om <strong>korpus</strong>tagging, der er resulteret i <strong>det</strong><br />
<strong>danske</strong> morfosyntaktisk taggede PAROLE-<strong>korpus</strong>.<br />
2.1 Korpustaggingens forløb<br />
Samarbej<strong>det</strong> mellem Britt Keson (samt Dorte Haltrup Hansen) fra <strong>Det</strong> <strong>Danske</strong> <strong>Spr<strong>og</strong></strong>- <strong>og</strong><br />
Litteraturselskab <strong>og</strong> Thomas Bilgram fra Aarhus Universitet har haft følgende forløb:<br />
Figur 2: Korpussamarbej<strong>det</strong>s forløb<br />
automatisk morfosyntaktisk<br />
konvertering <strong>til</strong><br />
PAROLEs tagsæt<br />
<strong>og</strong> format<br />
manuel udvælgelse af<br />
udvælgelse af analyse af tekstuddragene korrekte morfosyntaktiske<br />
tekstuddrag med DAN-TWOL- DAN-TWOL-analyser<br />
algoritmen udvikling af en<br />
Constraintgrammatik<br />
<strong>til</strong> dansk<br />
5