Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...
Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...
Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
visse forkortelser (som f.eks. a/s eller t/r). <strong>Det</strong> har d<strong>og</strong> været svært for DAN-TWOLtokeniseren<br />
at adskille skråstregen fra dens omgivelser på korrekt vis, <strong>og</strong> derfor har en stor del<br />
af de ordformer, der indeholder skråstregen, fået <strong>til</strong>delt en analyse som tekstfejl ('XX'). <strong>Det</strong>te<br />
gælder d<strong>og</strong> ikke tal, datoer <strong>og</strong> andre numeriske tidsangivelser (jf. afsnit 5.3.3 om numeralier <strong>og</strong><br />
afsnit 6.1 om ordformer, der ikke kunne <strong>til</strong>deles en analyse).<br />
..Told- <strong>og</strong> Skattestyrelsen på jagt efter fejl i oplysninger fra arbejdsgivere..<br />
Told-<br />
..<strong>det</strong> ville f.eks. være at gennemføre elektrificeringen af Odense-Padborg..<br />
Odense-Padborg<br />
..vandmanden (21. jan.-18. feb.): Der er en n<strong>og</strong>et urolig indflydelse fra stjernerne..<br />
jan.-18.<br />
..<strong>det</strong> kunne - som i Hitchcocks Vertigo – handle om den ufrie, besiddende <strong>og</strong> .. dræbende kærlighed..<br />
- <br />
..en relativ høj forentning af pensionopsparernes depoter i slutningen af 1980'erne/begyndelsen af 1990'erne..<br />
1980'erne/begyndelsen<br />
...Lise Andreasen kom <strong>til</strong> Australien for 4 ½ år siden. Hun var landbrugs-udviklingsstudent i Port Campbell..<br />
1/2<br />
4.2 Flerordsforbindelser<br />
Som nævnt i afsnit 4 ovenfor er hovedreglen i <strong>det</strong> morfosyntaktisk taggede tekst<strong>korpus</strong>, at<br />
ordformer, der omgives af blanktegn <strong>og</strong> interpunktionstegn, behandles hver for sig, selv hvis<br />
de indgår i forskellige former for flerordsforbindelser. <strong>Det</strong>te udspringer af en generel<br />
<strong>til</strong>bageholdenhed med at indføre flerordsforbindelser i DAN-TWOLs leksikon, da <strong>det</strong> kan være<br />
problematisk for tokeniseren at identificere <strong>og</strong> samle flerordsforbindelser på korrekt vis 19 . Der<br />
er d<strong>og</strong> n<strong>og</strong>le få undtagelser i PAROLE-<strong>korpus</strong>set: (i) de flerordsforbindelser, der fra starten var<br />
opført i DAN-TWOLs leksikon som faste forbindelser (<strong>og</strong> derfor anerkendes af DAN-TWOLtokeniseren),<br />
samt (ii) de flerordsforbindelser, der — af forskellige årsager — er blevet samlet<br />
i efterredigeringsfasen. Appendiks 8.5 indeholder en komplet fortegnelse over alle<br />
flerordsforbindelser i PAROLE-<strong>korpus</strong>set.<br />
4.2.1 Faste ordforbindelser<br />
N<strong>og</strong>le få hyppige flerordsforbindelser samles med en understregning ( _ ) af DAN-TWOLtokeniseren<br />
<strong>og</strong> <strong>til</strong>deles en morfosyntaktisk analyse ved opslag i DAN-TWOLs leksikon. Disse<br />
få faste ordforbindelser er i efterrediggeringsfasen desuden blevet suppleret med et par andre<br />
faste vendinger (oftest sammensatte adverbier) på baggrund af en undersøgelse af de hyppigst<br />
forekommende flerordsforbindelser fra RO96 i DSL's avistekstbibliotek.<br />
..Bortset fra <strong>det</strong> kosmiske "lys" dyrkes økol<strong>og</strong>isk vin <strong>og</strong>så uden kunstgødning <strong>og</strong> sprøjtning..<br />
Bortset_fra<br />
..vi s<strong>til</strong>ler simpelt hen større krav <strong>til</strong> idrætsarbej<strong>det</strong> ude i klubberne..<br />
simpelt_hen<br />
4.2.2 Gruppesammensætninger<br />
I gruppesammensætninger <strong>og</strong> -afledninger, hvis første led består af mere end et ord, anvendes<br />
bindestregen normalt mellem næstsidste <strong>og</strong> sidste ord (RO96, §63.7). Da <strong>det</strong> er<br />
uhensigtsmæssigt at behandle disse sammensætningers led hver for sig, er de i PAROLE<strong>korpus</strong>set<br />
blevet samlet vha. en understregning ( _ ) i efterrediggeringsfasen. Alle de<br />
19 DAN-TWOL-tokeniseren samler enten alle eller ingen forekomster af en flerordsforbindelse. Den kan således f.eks. ikke<br />
skelne mellem alt for i alt for mange mennesker <strong>og</strong> alt for i han gjorde alt for hende.<br />
16