18.07.2013 Views

Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...

Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...

Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

visse forkortelser (som f.eks. a/s eller t/r). <strong>Det</strong> har d<strong>og</strong> været svært for DAN-TWOLtokeniseren<br />

at adskille skråstregen fra dens omgivelser på korrekt vis, <strong>og</strong> derfor har en stor del<br />

af de ordformer, der indeholder skråstregen, fået <strong>til</strong>delt en analyse som tekstfejl ('XX'). <strong>Det</strong>te<br />

gælder d<strong>og</strong> ikke tal, datoer <strong>og</strong> andre numeriske tidsangivelser (jf. afsnit 5.3.3 om numeralier <strong>og</strong><br />

afsnit 6.1 om ordformer, der ikke kunne <strong>til</strong>deles en analyse).<br />

..Told- <strong>og</strong> Skattestyrelsen på jagt efter fejl i oplysninger fra arbejdsgivere..<br />

Told-<br />

..<strong>det</strong> ville f.eks. være at gennemføre elektrificeringen af Odense-Padborg..<br />

Odense-Padborg<br />

..vandmanden (21. jan.-18. feb.): Der er en n<strong>og</strong>et urolig indflydelse fra stjernerne..<br />

jan.-18.<br />

..<strong>det</strong> kunne - som i Hitchcocks Vertigo – handle om den ufrie, besiddende <strong>og</strong> .. dræbende kærlighed..<br />

- <br />

..en relativ høj forentning af pensionopsparernes depoter i slutningen af 1980'erne/begyndelsen af 1990'erne..<br />

1980'erne/begyndelsen<br />

...Lise Andreasen kom <strong>til</strong> Australien for 4 ½ år siden. Hun var landbrugs-udviklingsstudent i Port Campbell..<br />

1/2<br />

4.2 Flerordsforbindelser<br />

Som nævnt i afsnit 4 ovenfor er hovedreglen i <strong>det</strong> morfosyntaktisk taggede tekst<strong>korpus</strong>, at<br />

ordformer, der omgives af blanktegn <strong>og</strong> interpunktionstegn, behandles hver for sig, selv hvis<br />

de indgår i forskellige former for flerordsforbindelser. <strong>Det</strong>te udspringer af en generel<br />

<strong>til</strong>bageholdenhed med at indføre flerordsforbindelser i DAN-TWOLs leksikon, da <strong>det</strong> kan være<br />

problematisk for tokeniseren at identificere <strong>og</strong> samle flerordsforbindelser på korrekt vis 19 . Der<br />

er d<strong>og</strong> n<strong>og</strong>le få undtagelser i PAROLE-<strong>korpus</strong>set: (i) de flerordsforbindelser, der fra starten var<br />

opført i DAN-TWOLs leksikon som faste forbindelser (<strong>og</strong> derfor anerkendes af DAN-TWOLtokeniseren),<br />

samt (ii) de flerordsforbindelser, der — af forskellige årsager — er blevet samlet<br />

i efterredigeringsfasen. Appendiks 8.5 indeholder en komplet fortegnelse over alle<br />

flerordsforbindelser i PAROLE-<strong>korpus</strong>set.<br />

4.2.1 Faste ordforbindelser<br />

N<strong>og</strong>le få hyppige flerordsforbindelser samles med en understregning ( _ ) af DAN-TWOLtokeniseren<br />

<strong>og</strong> <strong>til</strong>deles en morfosyntaktisk analyse ved opslag i DAN-TWOLs leksikon. Disse<br />

få faste ordforbindelser er i efterrediggeringsfasen desuden blevet suppleret med et par andre<br />

faste vendinger (oftest sammensatte adverbier) på baggrund af en undersøgelse af de hyppigst<br />

forekommende flerordsforbindelser fra RO96 i DSL's avistekstbibliotek.<br />

..Bortset fra <strong>det</strong> kosmiske "lys" dyrkes økol<strong>og</strong>isk vin <strong>og</strong>så uden kunstgødning <strong>og</strong> sprøjtning..<br />

Bortset_fra<br />

..vi s<strong>til</strong>ler simpelt hen større krav <strong>til</strong> idrætsarbej<strong>det</strong> ude i klubberne..<br />

simpelt_hen<br />

4.2.2 Gruppesammensætninger<br />

I gruppesammensætninger <strong>og</strong> -afledninger, hvis første led består af mere end et ord, anvendes<br />

bindestregen normalt mellem næstsidste <strong>og</strong> sidste ord (RO96, §63.7). Da <strong>det</strong> er<br />

uhensigtsmæssigt at behandle disse sammensætningers led hver for sig, er de i PAROLE<strong>korpus</strong>set<br />

blevet samlet vha. en understregning ( _ ) i efterrediggeringsfasen. Alle de<br />

19 DAN-TWOL-tokeniseren samler enten alle eller ingen forekomster af en flerordsforbindelse. Den kan således f.eks. ikke<br />

skelne mellem alt for i alt for mange mennesker <strong>og</strong> alt for i han gjorde alt for hende.<br />

16

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!