Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...
Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...
Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
gruppesammensætninger, der optræder som flerordsforbindelser i PAROLE-<strong>korpus</strong>set, er<br />
opført i appendiks 8.5.1.<br />
..mange er opvokset i fast food-generationen med McDonalds <strong>og</strong> grillbarer..<br />
fast_food-generationen<br />
..han [fordrejer] <strong>og</strong>så de klassiske litterære syndromer. Eksempelvis: Øde ø-syndromet..<br />
Øde_ø-syndromet<br />
..den israelske Bar-Lev forsvarslinie ved Suezkanalen i Yom Kippur-krigen i 1973..<br />
Yom_Kippur-krigen<br />
..denne roman er nu blevet den første Helle Stangerup-udgivelse på forfatterens nye forlag..<br />
Helle_Stangerup-udgivelse<br />
..vi har y<strong>det</strong> økonomisk støtte <strong>til</strong> Charta 77-folkene i Tjekkoslovakiet o.s.v...<br />
Charta_77-folkene<br />
..Mario Andretti, endnu en Formel 1-veteran, der kørte en omgang med en fart af 373 kilometer i timen..<br />
Formel_1-veteran<br />
4.2.3 Fossilerede kasusendelser<br />
Til sidst har vi samlet de “fossilerede” eller stivnede faste forbindelser, der består af en<br />
præposition (som f.eks. af, i, med, på eller <strong>til</strong>) <strong>og</strong> en foræl<strong>det</strong> dativ eller genitiv bøjningsform<br />
af et substantiv (som f.eks. i sinde eller <strong>til</strong> gode). Desuden er tidsadverbialer med<br />
præpositionen i (som f.eks. i aftes eller i søndags), der er levn af en ældre tysk<br />
adverbialendelse, blevet samlet som flerordsforbindelser. Disse flerordsforbindelser er opført i<br />
appendiks 8.5.4.<br />
..den 33-årige var meget ilde <strong>til</strong>redt, men stadig i live, da han blev smidt ud af vinduet..<br />
i_live<br />
..ind<strong>til</strong> sent i aftes holdt ægteparret deres første møde med deres nye advokat..<br />
i_aftes<br />
5. Ordklasser<br />
<strong>Det</strong>te afsnit omhandler de vigtigste lingvistiske beslutninger, der blev truffet af <strong>korpus</strong>taggerne<br />
under <strong>korpus</strong>taggingen. <strong>Det</strong> er inddelt efter de forskellige ordklasser, der findes i PAROLEtagsættet<br />
(som vist i Figur 4 i afsnit 2.3 ovenfor). Hvert kapitel om en ordklasse indledes af et<br />
tabeludsnit fra <strong>det</strong>te PAROLE-tagsæt. Tabeludsnittet viser oftest kun b<strong>og</strong>stavværdierne for<br />
ordklassen ('CatGram') på plads 1 <strong>og</strong> underinddelingen af ordklassen ('SsCatGram') på plads 2.<br />
B<strong>og</strong>stavværdier for alle andre pladser findes i oversigten i appendiks 8.1.<br />
Følgende diagrammer i Figur 12 viser fordelingen af tekstord (’tokens’), ordtyper (’types’) <strong>og</strong><br />
lemmaformer på de forskellige PAROLE-ordklasser i <strong>det</strong> taggede <strong>korpus</strong>. Den første tabel<br />
repræsenterer fordelingen af tekstord, sådan som de optræder i <strong>korpus</strong>teksterne. Her ville f.eks.<br />
Husene, huset, hus, Hus, hus <strong>og</strong> husets tælle som 6 forskellige forekomster af substantiviske<br />
tekstord. Af tabellen fremgår <strong>det</strong>, at substantiverne er repræsenteret med 66.906 tekstord i alt,<br />
mens f.eks. præpositioner forekommer i alt 30.927 gange. Den næste tabel viser fordelingen af<br />
grafisk forskellige ordtyper, hvor de grafisk identiske tekstord er slået sammen (<strong>og</strong> er<br />
normaliseret mht. store/små b<strong>og</strong>staver, bindestreger <strong>og</strong> accenttegn osv.). Her ville Husene,<br />
huset, hus, Hus, hus <strong>og</strong> husets blive talt med som 4 forskellige forekomster af substantiviske<br />
ordtyper. Af denne tabel fremgår <strong>det</strong>, at substantiverne er repræsenteret med 23.990 forskellige<br />
ordtyper, mens præpositionerne kun fordeler sig på 71 grafisk forskellige ordtyper. Den sidste<br />
tabel repræsenterer fordelingen af lemmaformer i <strong>korpus</strong>set. Her ville Husene, huset, hus, Hus,<br />
hus <strong>og</strong> husets tælle som ét eneste substantivisk lemma. Af den sidste tabel fremgår <strong>det</strong>, at<br />
substantiverne er repræsenteret med 18.506 forskellige lemmaformer i PAROLE-<strong>korpus</strong>set,<br />
mens præpositionerne er repræsenteret med 60 forskellige lemmaformer.<br />
17