18.07.2013 Views

Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...

Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...

Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

gruppesammensætninger, der optræder som flerordsforbindelser i PAROLE-<strong>korpus</strong>set, er<br />

opført i appendiks 8.5.1.<br />

..mange er opvokset i fast food-generationen med McDonalds <strong>og</strong> grillbarer..<br />

fast_food-generationen<br />

..han [fordrejer] <strong>og</strong>så de klassiske litterære syndromer. Eksempelvis: Øde ø-syndromet..<br />

Øde_ø-syndromet<br />

..den israelske Bar-Lev forsvarslinie ved Suezkanalen i Yom Kippur-krigen i 1973..<br />

Yom_Kippur-krigen<br />

..denne roman er nu blevet den første Helle Stangerup-udgivelse på forfatterens nye forlag..<br />

Helle_Stangerup-udgivelse<br />

..vi har y<strong>det</strong> økonomisk støtte <strong>til</strong> Charta 77-folkene i Tjekkoslovakiet o.s.v...<br />

Charta_77-folkene<br />

..Mario Andretti, endnu en Formel 1-veteran, der kørte en omgang med en fart af 373 kilometer i timen..<br />

Formel_1-veteran<br />

4.2.3 Fossilerede kasusendelser<br />

Til sidst har vi samlet de “fossilerede” eller stivnede faste forbindelser, der består af en<br />

præposition (som f.eks. af, i, med, på eller <strong>til</strong>) <strong>og</strong> en foræl<strong>det</strong> dativ eller genitiv bøjningsform<br />

af et substantiv (som f.eks. i sinde eller <strong>til</strong> gode). Desuden er tidsadverbialer med<br />

præpositionen i (som f.eks. i aftes eller i søndags), der er levn af en ældre tysk<br />

adverbialendelse, blevet samlet som flerordsforbindelser. Disse flerordsforbindelser er opført i<br />

appendiks 8.5.4.<br />

..den 33-årige var meget ilde <strong>til</strong>redt, men stadig i live, da han blev smidt ud af vinduet..<br />

i_live<br />

..ind<strong>til</strong> sent i aftes holdt ægteparret deres første møde med deres nye advokat..<br />

i_aftes<br />

5. Ordklasser<br />

<strong>Det</strong>te afsnit omhandler de vigtigste lingvistiske beslutninger, der blev truffet af <strong>korpus</strong>taggerne<br />

under <strong>korpus</strong>taggingen. <strong>Det</strong> er inddelt efter de forskellige ordklasser, der findes i PAROLEtagsættet<br />

(som vist i Figur 4 i afsnit 2.3 ovenfor). Hvert kapitel om en ordklasse indledes af et<br />

tabeludsnit fra <strong>det</strong>te PAROLE-tagsæt. Tabeludsnittet viser oftest kun b<strong>og</strong>stavværdierne for<br />

ordklassen ('CatGram') på plads 1 <strong>og</strong> underinddelingen af ordklassen ('SsCatGram') på plads 2.<br />

B<strong>og</strong>stavværdier for alle andre pladser findes i oversigten i appendiks 8.1.<br />

Følgende diagrammer i Figur 12 viser fordelingen af tekstord (’tokens’), ordtyper (’types’) <strong>og</strong><br />

lemmaformer på de forskellige PAROLE-ordklasser i <strong>det</strong> taggede <strong>korpus</strong>. Den første tabel<br />

repræsenterer fordelingen af tekstord, sådan som de optræder i <strong>korpus</strong>teksterne. Her ville f.eks.<br />

Husene, huset, hus, Hus, hus <strong>og</strong> husets tælle som 6 forskellige forekomster af substantiviske<br />

tekstord. Af tabellen fremgår <strong>det</strong>, at substantiverne er repræsenteret med 66.906 tekstord i alt,<br />

mens f.eks. præpositioner forekommer i alt 30.927 gange. Den næste tabel viser fordelingen af<br />

grafisk forskellige ordtyper, hvor de grafisk identiske tekstord er slået sammen (<strong>og</strong> er<br />

normaliseret mht. store/små b<strong>og</strong>staver, bindestreger <strong>og</strong> accenttegn osv.). Her ville Husene,<br />

huset, hus, Hus, hus <strong>og</strong> husets blive talt med som 4 forskellige forekomster af substantiviske<br />

ordtyper. Af denne tabel fremgår <strong>det</strong>, at substantiverne er repræsenteret med 23.990 forskellige<br />

ordtyper, mens præpositionerne kun fordeler sig på 71 grafisk forskellige ordtyper. Den sidste<br />

tabel repræsenterer fordelingen af lemmaformer i <strong>korpus</strong>set. Her ville Husene, huset, hus, Hus,<br />

hus <strong>og</strong> husets tælle som ét eneste substantivisk lemma. Af den sidste tabel fremgår <strong>det</strong>, at<br />

substantiverne er repræsenteret med 18.506 forskellige lemmaformer i PAROLE-<strong>korpus</strong>set,<br />

mens præpositionerne er repræsenteret med 60 forskellige lemmaformer.<br />

17

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!