Korpus 2000 ? til hvilken nytte? - Det Danske Sprog- og ...

Korpus 2000 – til hvilken nytte? 

Muligheder og grænser for empiriske 

sprogundersøgelser 

JØRG ASMUSSEN 

Korpus 2000 er et korpus over dansk skriftsprog omkring år 2000 udarbejdet 

med henblik på at give alle sproginteresserede et redskab til at undersøge dansk 

sprogbrug med. Korpus 2000 er gjort tilgængelig på internettet parallelt med det 

10-15 år ældre Korpus 90, en særlig bearbejdet delmængde af Den Danske 

Ordbogs korpus. 

I bidraget skitseres først baggrunden for og opbygningen af Korpus 2000, 

dernæst vises en række sammenlignende sprogundersøgelser mellem Korpus 

2000 og Korpus 90 og mulige konklusioner diskuteres: afspejler observerbare 

forskelle generelle sproglige forandringer – eller bare uensartet sammensatte 

korpusser? 

På baggrund af eksemplerne opridses kort muligheder for at gøre såvel udarbejdelsen 

af korpusser som de undersøgelser, man kan udføre på dem, metodisk 

velfunderede. 1 

1. Baggrund 

Korpus 2000 (K2000) blev udarbejdet af Det Danske Sprog- og Litteraturselskab 

i perioden 2000-2002. Hensigten med dette projekt var at etablere en stor 

samling over eksempler på dansk sprogbrug – et korpus 2 – omkring år 2000. 

1 Dele af denne artikel, først og fremmest undersøgelseseksemplerne, er også indeholdt i 

Asmussen (under udgivelse), der desuden giver en mere grundig beskrivelse af de 

sprogstatistiske elementer i Korpus 2000-systemet, og som ellers fokuserer på 

undersøgelsesmetodologiske og korpuskompositoriske overvejelser og i denne forbindelse 

introducerer ideen om invariante tekstuelle træk (invariant textual features) som en 

forudsætning for korpussers diakrone sammenlignelighed. 

2 

Begrebet korpus bruges i betydningen meget stor digitaliseret samling af (længere 

uddrag af) skrevne eller nedskrevne sammenhængende autentiske, objektsproglige tekster; 

samlingen skal med hensyn til fastlagte teksttypologiske kriterier være struktureret efter et 

STU DIE R I NORDISK 2002-2003 17

K2000 består af tekster eller tekstuddrag fra årene 1998-2002 og er på 28 millioner 

tekstord. Teksterne stammer fra et bredt udsnit af skrevet dansk, hentet 

fra både offentligt tilgængelige kilder som aviser, bøger, blade, radio, tv, brochurer, 

reklamer, tegneserier, og fra private tekster som dagbøger, breve, skolestile 

osv. K2000 er stillet offentligt til rådighed på internettet. 3 

Parallelt med K2000 blev der udarbejdet en særlig version af Den Danske 

Ordbogs korpus, 4 Korpus 90 (K90), der omfatter 28 millioner tekstord skriftsprog 

fra perioden 1983-1992 og dermed indeholder sprogligt materiale, som 

er ca. 10-15 år ældre end det, man finder i K2000. 

Målgruppen for K2000 og K90 er først og fremmest lægfolk uden større 

sprogvidenskabelige forudsætninger, men med interesse for sproget. Derfor er 

der under opbygningen af korpusserne og udviklingen af søgeinterfacet blevet 

lagt særlig vægt på at gøre håndteringen af hele systemet så ligetil som muligt, 

så det bliver lettilgængeligt for alle interesserede. Dette indebærer blandt andet, 

at den morfologiske og syntaktiske opmærkning af korpusserne ikke eksplicit 

vises, og at der i søgninger med det nuværende interface kun kan indgå ordklasseopmærkningen 

som et kriterium. 5 

Adgang til de to korpusser får man via et fælles webbaseret søgeinterface, 

som blev udviklet med særlig henblik på K2000-projektet. 6 Ved hjælp af Korpus 

2000's søgesystem 7 er det bl.a. muligt at søge på samtlige forekomster af et 

ord eller på en sekvens af ord eller ordklasser, og man kan få vist disse forekomster 

i forskellige oversigter. Endvidere muliggør interfacet umiddelbare 

sammenligninger mellem Korpus 2000 og Korpus 90. 

eksplicit princip med henblik på at muliggøre sprogbrugsundersøgelser, jf. Asmussen 

(2001). 

3 http://www.korpus2000.dk 

4 

Jf. Norling-Christensen & Asmussen (1998). 

5 Den morfosyntaktiske opmærkning er udført af VISL-projektet ved Syddansk 

Universitet, jf. Bick (2003a+b). På VISL’s hjemmeside 

http://visl.hum.sdu.dk/visl/corpora.html er en delmængde af K90 og K2000 søgbar med 

både morfologiske og syntaktiske kriterier. 

6 

En udførlig beskrivelse af principperne for dette interface findes i Andersen et al. 

(2002). 

7 Som søgemaskine bruges CQP, som er udviklet ved Institut für Maschinelle 

Sprachverarbeitung ved universitet i Stuttgart, jf. http://www.ims.unistuttgart.de/projekte/CorpusWorkbench/ 

og Christ (1994). Det webbaserede søgeinterface 

er udviklet hos DSL. 

18 STU DIE R I NORDISK 2002-2003

I det følgende afsnit gives eksempler på en række sammenlignende undersøgelser, 

man kan foretage på de to korpusser, og mulige fortolkninger af 

resultaterne drøftes. 

2. Sammenlignende undersøgelser og fortolkningen af resultater 

Søger man på enkeltord i K2000-systemet, vises hyppigheder og kollokater i 

kontrastive oversigter for K2000 og K90, der muliggør en umiddelbar sammenligning 

af ords udbredelse og kollokationelle egenskaber i de to korpusser. Således 

får brugeren straks et indtryk af de forandringer, der måtte være sket inden 

for ordforråd, bøjning og kombinatorik/semantik i løbet af den tid, der ligger 

mellem udarbejdelsen af de to korpusser. Ulempen ved den kontrastive 

præsentation af undersøgelsesresultater er, at brugeren let kan forledes til at 

drage uhensigtsmæssige slutninger, der giver et forvrænget billede af formodede 

sproglige forandringer. 

2.1. Ordforråd 

En sammenligning af alle ords hyppigheder i K2000 og K90 viser ikke overraskende, 

at nogle ord forekommer betydeligt oftere i det ene korpus end i det 

andet. Hvis man antager, at begge korpusser afspejler deres tids danske sprogbrug, 

altså K90 sprogbrugen i perioden 1983-1992 og K2000 sprogbrugen i 

perioden 1998-2002, så kan man med en vis rimelighed fortolke hyppighedsforskelle 

som forskelle i udbredelsen af de pågældende ord i dansk som helhed. 

Figur 1 nedenfor viser, hvordan hyppighederne for formerne af substantivet 

regn oplyses i brugerinterfacet: første søjle oplister samtlige mulige bøjningsformer 

af lemmaet, anden søjle oplister hver forms hyppighed i K2000 og tredje 

søjle de tilsvarende hyppigheder i K90. I nederste række står hyppighederne for 

hele lemmaet regn, dvs. summen af alle dets forskellige former. 8 Hyppighederne 

oplyses ikke i absolutte tal, men som logaritmiske størrelser i form af mellem 

0 og 7 røde (på figuren mørke) prikker. Fordelen ved at udtrykke hyppigheden 

som en af otte mulige hyppighedsklasser er, at måske tilfældigt betingede forskelle 

i et ords hyppighed i de to korpusser udviskes til en vis grad og risikoen 

for at brugeren fejlfortolker hyppighedsoplysningerne følgelig mindskes noget. 

8 Det glade ansigt viser, at lemmaets stavning er i overensstemmelse med 

Retskrivningsordbogens normering. Hyppighedstabellerne kan også indeholde former og 

stavemåder, der afviger fra den officielle norm – de vil da være markeret med et vredt 

ansigt. 


Antallet af prikker synes i øvrigt pænt at følge den intuitive fornemmelse af 

ords udbredelse i sproget generelt: således er ord med 1-2 prikker forholdsvis 

sjældne, fx entomologi, ord med 6-7 prikker er meget hyppige, fx i og og, mens 

ord med 3-5 prikker ligger i den store midtergruppe som fx regn. Som det fremgår 

af oversigten, kan der ikke konstateres de store forskelle i hyppighederne 

af de forskellige former af regn i de to korpusser, med én undtagelse, nemlig 

genitiven regns, som slet ikke forekommer i K2000, men scorer én prik i K90. 

Den løftede tommelfinger indikerer, at denne form forekommer mindst dobbelt 

så hyppigt i K90 som i K2000. Selvom tommelfingeren ikke må fortolkes som 

et tegn på, at der er tale om en signifikant forskel i statistisk forstand, skal den 

rette opmærksomheden på fænomener, som måske kunne være af lingvistisk 

relevans. Er man interesseret i at erfare det absolutte antal forekomster af en 

form på listen, klikker man på et af forstørrelsesglassene ud for formen, hvorefter 

man får vist en KWIC-konkordans over pågældende form sammen med det 

absolutte antal forekomster i det pågældende korpus: regns forekommer tre 

gange i K90 – en forskel der nok på ingen måde berettiger til at konkludere 

noget om et skift i dette ords bøjningsmæssige egenskaber. Tværtimod synes 

regn – at vurdere ud fra de logaritmiske frekvensoplysninger – at være et ret 

stabilt udbredt ord. 

Figur 1. Hyppigheder for regn og former i K2000 og K90 

Anderledes forholder det sig med et ord som mobiltelefon, som scorer fire 

prikker i K2000 mod tre i K90; faktisk er lemmaet ca. 25 gange så hyppigt i 

K2000 (1.586 forekomster) som i K90 (59 forekomster). Hvis man antager, at 

et sprogs ordforråd afspejler generelle samfundsmæssige forandringer og 

sammenholder dette med den teknologiske udvikling, der er sket fra midtfirserne 

til senhalvfemserne, er det nærliggende at fortolke den observerede kvantitative 

forskel som et udtryk for en faktisk ændring af det danske ordforråd: ordet 

mobiltelefon er blevet betydelig mere udbredt i sproget, fordi dets denotat er 

det. Tilsvarende eksempler er biltelefon og benchmarking: biltelefon, som er 


fem gange hyppigere i K90 (51 forekomster, 3 prikker) end i K2000 (9 forekomster, 

2 prikker) betegner et apparat, som stort set er blevet erstattet af mobiltelefoner, 

mens benchmarking slet ikke forekommer i K90 mod 34 gange (3 

prikker) i K2000, hvilket kunne tyde på at ordet er nyt i dansk. Jarvad (1999), 

hvis ordbog over nye ord i dansk ganske vist ikke beror på en dokumenteret 

empirisk, korpusstatistisk fremgangsmåde, og som derfor bør konsulteres med 

en vis forsigtighed, daterer første brug til 1996 – hvilket muligvis støtter antagelsen, 

at der her er tale om et nyt låneord. De nævnte eksempler tyder på, at 

ændringer i udbredelsen af bestemte ord, som man kan konstatere ved at 

sammenligne de to korpusser, afspejler ændrede forhold i samfundet: sprog og 

virkelighed følges altså pænt ad, ser det ud til. 

Et mindre udbredt ord som kambrium forekommer fire gange (2 prikker) i 

K90, men findes ikke i K2000; det er desuden markeret med en løftet tommelfinger 

under K90. En fortolkning, analog til dem ovenfor, kunne være, at ordets 

udbredelse er i aftagende, måske fordi det betegner noget, som ikke længere har 

så stor relevans. En nærmere undersøgelse 9 af, hvilke kilder de fire forekomster 

i K90 stammer fra, viser at de er fra tre tekster om geologi, alle fra samme 

opslagsværk. 10 K2000 indeholder derimod ingen tilsvarende tekster. Noget 

tyder derfor på, at fagområdet geologi er dækket forskelligt i de to korpusser og 

at forskellen i hyppigheden for ordet kambrium siger mere om korpussernes 

sammensætning end om sproget som sådant. 

Eksemplet viser, at rå forekomsttal ikke umiddelbart bør sammenlignes, især 

ikke, hvis de er lave. Selvom den logaritmiske hyppighedsoplysning i K2000systemet 

til en vis grad udjævner hyppighedsforskelle, der kan skyldes tilfældigheder, 

fejler den, når forekomstallene er lave. Målingen af ords hyppighed, 

forstået som indikator for deres udbredelse i sproget som helhed, bør ikke blot 

udtrykkes i antal forekomster eller en logaritmisk funktion heraf, men bør inddrage 

et mål for forekomsternes jævne fordeling over hele korpus (dispersion): 

et ord har givetvis en større udbredelse i sproget, hvis det bruges i flere tekster 

af flere forfattere over hele korpus end blot mange gange i én tekst eller tekster 

af én forfatter eller tekster om ét ganske snævert fagområde. 

9 Denne undersøgelse kan ikke udføres direkte i K2000-systemet, da der her p.t. ikke er 

adgang til tekstoplysninger fra konkordanslinjer i K90. Derimod er det muligt at udføre 

undersøgelsen med korpussøgesystemet Semaskop på hele Den Danske Ordbogs korpus, 

som kan downloades fra http://korpus.dsl.dk/e-resurser/. 

10 Fakta. Gyldendal 1988. 


2.2. Bøjning 

Sammenligner man ikke hele lemmaer (altså summen af alle bøjningsformer), 

men blot bestemte bøjningsformer af en række ord, vil der ofte vise sig markante 

hyppighedsforskelle mellem K2000 og K90. I eksemplet regn ovenfor blev 

det allerede konstateret, at den indefinitte genitivform regns ikke var repræsenteret 

i K2000 – mod tre forekomster i K90. Selvom dette ikke er statistisk signifikant, 

udelukker det ikke, at systemets brugere kan forledes til at drage tvivlsomme 

slutninger, tilskyndet både af en løftet tommelfinger og måske desuden 

af iagttagelsen af, at den definitte genitivform regnens absolut set også 

forekommer lidt sjældnere i K2000 (9 forekomster) end i K90 (12 forekomster). 

Elbro (2002) observerer, at visse hyppigt brugte konkrete susbstantiver udviser 

færre genitivformer i K2000 end i K90 og antager på baggrund heraf en tendens 

i dansk, hvor genitivkonstruktioner tiltagende erstattes af præpositionsforbindelser; 

antagelsen støttes yderligere af, at han kan konstatere forhøjede 

forekomsttal for en række præpositioner i K2000. 

Umiddelbart taler noget for denne antagelse, fx har substantivet bil i alt 393 

genitivformer i K2000 mod 586 i K90 – og ganske tilsvarende er resultaterne 

for fx cykel, hus og mand. Betragter man bil nærmere, viser det sig imidlertid, 

at lemmaet med alle bøjningsformer forekommer 10.360 gange i K90 mod kun 

8.354 gange i K2000 – en observation, der næppe vil få nogen til at antage – i 

analogi med genitiv-konklusionen –, at ordet bil er ved at blive erstattet af andre 

ord eller vendinger, eller – i analogi med eksemplet biltelefon – at denotatet selv 

er ved at forsvinde fra virkeligheden. Derfor bør man nok kun vurdere en forms 

kvantitative udbredelse som den (procentuelle) andel, den udgør af samtlige 

former af et ord. For ordet bil er andelen af genitivformer i K90 5,7% mod 4,7% 

i K2000 – forskellen synes intuitivt for beskeden til at kunne underbygge en 

konklusion om markante ændringer i brugen af genitiver. Desuden underbygges 

en sådan konklusion ikke af en hel række andre substantiver som fx land eller 

Danmark. Det, der forekommer mere suspekt end mindre udsving i genitivandelene, 

er de markante hyppighedsforskelle for lemmaer som bil (K90: 10.360; 

K2000: 8.354), land (K90: 21.478; K2000: 28.222) eller Danmark (K90: 

22.243; K2000: 30.730), som kan konstateres mellem de to korpusser – også 

selvom de logaritmiske hyppighedsangivelser for disse ord er ens for de to 

korpusser. Og det er snarere igen et tegn på to forskelligt sammensatte korpusser 

end sproglige forandringer. 

Eksemplerne tyder på, at man næppe kan konstatere generelle forandringer 

i fleksionssystemet blot ved tilfældigt at udvælge en række hyppige ord og 

undersøge dem, idet de kvantitative resultater, disse undersøgelser medfører, 

virker alt for tilfældige. Vil man undersøge sproglige forandringer, der vedrører 

fleksionssystemet, burde man vel snarere undersøge fænomenet – i dette tilfæl- 


de altså andelen af genitivformer – blandt samtlige substantiviske former i hele 

korpus – et forhold, som Elbro i øvrigt udtrykkeligt anfører. 

2.3. Kollokation 

K2000-systemet kan vise både hyppige og typiske kollokater (“naboer”) til ord. 

Hyppige kollokater giver oplysninger om et ords funktionelle kombinatoriske 

egenskaber, fx hvilke præpositioner de hyppigt optræder sammen med. Hyppige 

kollokater bestemmes ganske enkelt ved at tælle, hvilke ord der hyppigst optræder 

i den umiddelbare omgivelse af det ord, man undersøger. De otte hyppigste 

kollokater til venstre for lemmaet debat i K90 er eksempelvis en, i, den, til, 

offentlige, og, den og under. Typiske kollokater derimod bestemmes vha. en 

statistisk metode, mutual information, 11 og fremhæver ord, der især tiltrækkes 

af det undersøgte ord, men ikke i nær samme grad af det overvejende flertal af 

andre ord i korpus. Resultatet er et indtryk af ordets semantiske kombinatoriske 

egenskaber – de ti mest typiske kollokater til venstre for lemmaet debat i K2000 

er heftig, følelsesladet, offentlig, saglig, folkelig, livlig, konstruktiv og heftige. 

Kollokater vises i K2000-systemet som tabeller med fire kolonner: én for 

hhv. højre- og venstrekollokater for hvert af de to korpusser. Kollokaterne er 

sorteret i faldende orden efter antal samforekomster (hyppighed) eller efter 

deres mutual information score (typiskhed). Både antal samforekomster samt 

scoren udtrykkes ikke som absolutte talværdier, men omregnes til et antal prikker 

(1-5), der synes bedre egnet til at visualisere kollokaters ‘tyngde’. Figur 2 

viser som eksempel de typiske kollokater for lemmaet terrorist. 

Figur 2. Typiske kollokater for terrorist 

Oversigten i figur 2 kan fortolkes på følgende måde: et af de træk ved terrorist, 

11 

Jf. Church&Hanks (1989) eller Church et al. (1991). I K2000-systemet er mutual 

information modificeret med en række filtre, der bl.a. reducerer statistisk støj, jf. 

Asmussen (under udgivelse). 


som åbenbart ikke ændrer sig i løbet af det tidsrum, der ligger imellem de to 

korpusser, er eftersøgte og palæstinensiske, hvorimod vesttyske ikke længere 

synes at være et typisk træk i K2000, men derimod mange andre nationaliteter, 

en religiøs orientering, eller bare international. I K2000 knyttes terrorist enten 

til bestemte personer eller organisationer, mens dræbt (i aktiv eller passiv) er 

et fremherskende træk i K90. Det større antal kollokater i K2000 er et tegn på, 

at ordet terrorist er mere udbredt her, og det viser sig da også, at lemmaet forekommer 

næsten dobbelt så hyppigt i K2000 (477) som i K90 (253) – hvis ikke 

dette bør tolkes som endnu et tegn på, at de to korpusser er sammensat forskelligt. 

Alligevel synes resultaterne at afspejle generelle træk ved den danske 

samfundsdebat om dette emne: ens historiske viden hjælper en til at forstå både 

ændringer og konstanter i dette ords kollokative egenskaber. 

For et ord som jul må man derimod antage en vis kollokativ stabilitet over 

en periode på kun ca. 10 år, da ordet vel overvejende bruges i stærkt traditionsbundne 

sammenhænge – og tilsvarende finder man hovedparten af de fundne 

kollokater i begge korpusser, fx glædelig, fejre eller – til højre for jul – nytår. 

Det, der imidlertid kan undre en, er, at antallet af kollokater er noget større for 

K90 end for K2000, hvilket skyldes at jul er betydeligt hyppigere i K90 (2.196 

forekomster) end i K2000 (1.275 forekomster) – sandsynligvis endnu et tegn på 

en uensartet sammensætning af de to korpusser. Dette afspejler sig så også i, at 

en kollokation som hvid jul ikke dukker op i oversigten for K2000: selvom 

kollokationen faktisk forekommer to gange i K2000 (mod 27 i K90), er den 

statistisk set ikke udpræget nok til at blive udtrukket af kollokationsalgoritmen. 

Eksemplet viser, at tilfældige hyppighedsforskelle i et ellers ret udbredt ord, kan 

have en afgørende indflydelse på statistisk fremfinding af stadig gyldige kollokationer. 

Eksemplet viser også, at en sammenligning af kollokater bestemt på 

baggrund af et ord, hvis hyppighed er markant forskellig i de to korpusser, ikke 

nødvendigvis giver et realistisk indtryk af ændringer i dets kollokative egenskaber: 

selvom et ord faktisk bruges mindre, betyder det jo ikke, at dets kollokative 

egenskaber har ændret sig af den grund, men dets ellers veletablerede kollokater 

kan ikke nødvendigvis længere bestemmes vha. en statistisk kollokabilitetsanalyse. 

Modsat vil den statistiske kollokabilitetsanalyse i visse tilfælde udpege ord, 

som intuitivt ikke kan betragtes som kollokater til et ord. Udfører man en kollokabilitetsanalyse 

på juletræ, får man som ventet bl.a. pynte og danse (rundt om), 

men i K2000 får man som det mest markante venstrekollokat talende! En nærmere 

undersøgelse af konkordansen med de konkrete forekomster af talende 

juletræ viser, at de alle stammer fra en og samme tekst. 12 Eksemplet viser, at de 

12 En julehistorie fra fyldepennen.dk. 


ene forekomsttal, et ord har i hele korpus, heller ikke bør lægges umiddelbart 

til grund for kollokabilitetsberegningen – også her burde man i virkeligheden 

operere med en dispersionsbaseret korrektion, der ville kunne undertrykke ad 

hoc-kollokationer som talende juletræ, som alene skyldes én speciel tekst i 

korpus. 

2.4. Semantik 

Nært beslægtet med kollokation er mange ords tendens til at indgå i helt bestemte 

kontekstuelt betingede semantiske sammenhæng, eksempelvis vil man 

typisk finde sund fornuft, næppe syg fornuft, mens bivirkning sjældent vil blive 

kendetegnet som uskadelig, men ofte som skadelig – et semantisk fænomen, 

som bl.a. Rundell (2002) betegner som “semantisk prosodi”. 13 Mange leksemer 

indgår således i en ganske bestemt semantisk kontekst, der restringerer deres 

semantiske kombinatoriske egenskaber. Ordet sideeffekt, 14 som har 11 forekomster 

i K90 og 22 i K2000, er sandsynligvis et relativt nyt låneord fra engelsk, om 

end ikke registreret i Jarvad (1999). Da betydningen af engelsk side effect kan 

ækvivaleres med den, bivirkning har på dansk, kan man argumentere, at sideeffekt 

vel egentlig er overflødig på dansk. Omtrent halvdelen af forekomsterne af 

sideeffekt i K90 viser ordet i en tydelig negativ kontekst, der afslører, at sideeffekt 

er noget utilsigtet skadeligt, og ordet indgår i semantiske kontekster, der er 

ganske parallelle med dem for bivirkning. I K2000 er billedet derimod et noget 

andet: ordet bruges stadigvæk om noget utilsigtet, men nu positivt, egentlig vel 

svarende til betydningen af sidegevinst – en del af forekomsterne modificeret 

af adjektivet positiv, jf. figur 3. 

13 Rundell (2002) betragter fænomenet som en særlig leksikografisk udfordring, idet det 

ofte kun vanskeligt lader sig beskrive i ordbøger, samtidig med at det kan være af 

afgørende betydning for acceptabel sprogbrug. 

14 Forfatteren blev gjort opmærksom på dette eksempel af Henrik Gottlieb, Engelsk 

Institut, KU. 

Figur 3. “Semantisk prosodi” for sideeffekt 


Spørgsmålet er nu, hvorvidt sideeffekt-eksemplerne fra K90 og K2000 empirisk 

kan støtte konklusionen, at sideeffekt faktisk har ændret dets semantisk-prosodiske 

egenskaber fra de oprindelige engelske til en mere selvstændig dansk ‘positiv 

bivirkning’, og dermed måske har fundet en semantisk niche i dansk. Hvor 

mange eksempler på et ords måske ændrede semantik har man brug for, før man 

med sikkerhed kan udelukke korpuskompositionel støj og kan fremsætte generelle 

udsagn om bestemte semantiske forandringer i et sprog som helhed? 

2.5. Ordtopologi 

Der skal gives ét eksempel på sammenlignende ordtopologiske undersøgelser 

for at illustrere de metodiske problemer, der knytter sig hertil. Almindeligvis 

betragtes hovedsætningsordstilling af ikke i bisætninger som substandard som 

fx i ? Anne serverer kaffe, fordi Peter drikker ikke te. Det skal undersøges, hvor 

udbredt denne konstruktion, der måske især forekommer i talesprog, er i de to 

skriftsproglige korpusser. Intuitivt – eller måske også ud fra en antagelse om, 

at talesproget determinerer skriftsproget – skulle man forvente, at den ikkekanoniske 

placering af ikke i bisætninger er mere udbredt i K2000 end i K90. 

Om end en tilbundsgående undersøgelse med det eksisterende søgesystem ikke 

umiddelbart er mulig, viser undersøgelser af bestemte ordtopologiske mønstre, 

fx en søgning på sekvensen at-pronomen-verbum-ikke, at den ikke-kanoniske 

placering af ikke er mere udbredt i K90 end i K2000 – figur 4 viser en række 

eksempler. 

Figur 4. Eksempler fra K90 på ikke-kanonisk placering af ikke 

3. Korpus 2000 – til hvilken nytte? 

Eksemplerne ovenfor viser, at sammenlignende korpusundersøgelser i en række 

tilfælde kan medføre tvivlsomme fortolkninger og generaliseringer vedrørende 

sproglige forandringer – og man må derfor spørge, hvad man dog skal med et 

korpus, der ganske vist påstås at kunne bruges til empiriske sprogundersøgelser, 


der dog så alligevel er præget af tilfældigheder og unøjagtigheder i en grad, så 

man er henvist til sin egen sproglige intuition, når man skal vurdere undersøgelsesresultaterne. 

Problemet er dog næppe brugen af et korpus som sådan, men 

snarere de metoder, man lægger til grund for korpusbaserede undersøgelser i 

almindelighed og for sammenlignende undersøgelser i særdeleshed. 

En grundlæggende metodisk vanskelighed ved korpusbaserede sprogundersøgelser 

er muligheden for at kvantificere sproglige fænomener, mens traditionelle 

sprogundersøgelser ofte tager udgangspunkt i en kvalitativ beskrivelse af 

et bestemt sprogligt fænomen, som man – måske tilfældigt – er stødt på. Undersøgelsens 

fokus forskydes altså i korpusbaserede undersøgelser let fra en 

beskrivelse af hvad man ser, til en beskrivelse af, hvor meget man ser – hvor 

idealet måske burde være en kombination: både beskrivelsen af et fænomen og 

dets måske skiftende udbredelse. 

Hertil kommer, at de forekomsttal, man umiddelbart ser ved sammenligningen 

af to korpusser, ikke nødvendigvis er sammenlignelige. I den fysiske verden 

er det for de fleste evident, at én kilometer er mere end ti kilometer, men om én 

kilometer er meget eller lidt, afhænger også af den kontekst, hvori mængedeangivelsen 

bliver brugt. Ti kilometer kan således være en ganske betragtelig 

vejlængde, hvis den skal tilbagelægges til fods, mens den samme vejlængde 

tilbagelagt i bil er knapt så imponerende. Ganske tilsvarende gælder for de 

forekomsttal, man finder i et korpus: de giver ingen mening i sig selv, men kun 

i forhold til noget andet, indenfor en kontekst – det er således ganske intetsigende, 

at konstatere at mand har 1.936 genitivformer i K90 mod 1.606 i K2000, når 

man ikke i det mindste sætter disse tal i forhold til, hvor mange forekomster 

lemmaet mand har i de to korpusser: gør man det, finder man, at andelen af 

genitivformer for lemmaet mand er 2,0% i begge korpusser. Med andre ord kan 

forekomsttal aldrig tages for pålydende i korpusundersøgelser, og for hver type 

undersøgelse kræves der en række metodiske overvejelser, inden man giver sig 

til at konkludere. Som K2000's søgesystem er opbygget nu, får brugeren i virkeligheden 

ikke megen metodisk hjælp – det overlades i vid udstrækning til brugeren 

selv at fortolke de kvantitative resultater hensigtsmæssigt. Så selvom sigtet 

med K2000's webbaserede søgesystem var, at gøre det let for enhver sproginteresseret 

af lave sine egene sproglige undersøgelser, bidrager grænsefladen 

ikke til at minimere metodiske fejlgreb – en ulempe, som fremtidige versioner 

af grænsefladen bør råde bod på. 

Hertil kommer så spørgsmålet, hvad sammenlignelighed af korpusser egentlig 

vil sige. K90's og K2000's sammensætning er tilstræbt identiske, men i 

praksis, dvs. i de viste eksempler, er der noget, der tyder på, at sammensætningen 

ikke kan være så identisk endda. Det gælder først og fremmest forskelle i 

udbredelsen af bestemte lemmaer, som man intuitivt skulle mene havde en 


konstant udbredelse i sproget inden for en tidsramme af ca. 10 år, fx bil, jul, 

mand osv. Og ganske rigtigt er det især andelen af avismateriale i de to korpusser, 

som er meget forskelligt, ca. en tredjedel i K90 mod to tredjedele i K2000. 

Dette rejser spørgsmålet, hvordan man sikrer sammenlignelighed af to korpusser 

mht. til en bestemt dimension, i dette tilfælde tidsdimensionen: hvordan 

burde et K90 og et K2000 sammensættes, så man kunne være sikker på, at de 

forskelle, man kan konstatere imellem dem, vitterligt er sikre indicier på tidsbestemte 

sproglige forandringer? 

Løsningen på de skitserede problemstillinger må findes i udviklingen af en 

generel metodologi for korpusdesign og -udnyttelse – et område, som Det Danske 

Sprog- og Litteraturselskab trods beskedne resurser arbejder indenfor med 

henblik på at kunne forbedre kvaliteten både af de eksisterende korpusser og af 

de søgesystemer, der knytter sig til dem. Målet for 2004 er at kunne lancere et 

forbedret webinterface for K2000, hvori der vil være taget højde for en hel 

række af de søgemetodiske problemstillinger, som blev skitseret i dette bidrag. 

Litteratur 

Andersen, M.S., Asmussen, H., Asmussen, J. (2002): The Project of Korpus 

2000 Going Public; in: A. Braasch and C. Povlsen (eds.): Proceedings of the 

Tenth EURALEX International Congress, EURALEX 2002, København. 

Asmussen, J. (2001): Korpus 2000. Et overblik over projektets baggrund, fremgangsmåder 

og perspektiver. NyS 30. Nydanske studier & almen kommunikationsteori, 

København. 

Asmussen, J. (under udgivelse): Towards a methodology for corpus-based 

studies of linguistic change. Contrastive observations and their possible 

diachronic interpretations in the Korpus 2000 and Korpus 90 Corpora of 

Danish; in: Archer, Rayson, Wilson (eds.): Corpus Linguistics Around the 

World. Rodopi, Amsterdam. 

Bick, E. (2003a): Morfosyntaktisk opmærkede corpora for dansk: Korpus 

90/2000 og Arboretum; in: 9. Møde om Udforskningen af Dansk Sprog 10.- 

11. oktober 2002. Proceedings. Aarhus Universitet. 

Bick, E. (2003b): A CG & PSG hybrid approach to automatic corpus annotation; 

in: Simov, K. & Osenova P. (eds.): Proceedings of the Workshop on 

Shallow Processing of Large Corpora (SProLaC 2003) held in conjunction 

with the Corpus Linguistics 2003 Conference. UCREL technical paper no. 

17. UCREL, Lancaster University. 


Christ, O. (1994): A modular and flexible architecture for an integrated corpus 

query system. COMPLEX’94 Proceedings, Budapest. 

Church, K. & P. Hanks (1989): Word association norms, mutual information 

and lexicography. ACL Proceedings, 27 th Annual Meeting, Vancouver. 

Church, K. et al. (1991): Using Statistics in Lexical Analysis; in: Zernik (ed.): 

Lexical Acquisition. Exploiting On-Line Resources to Build a Lexicon. 

Hillsdale, New Jersey 1991. 

Elbro, C. (2002): Ift, ifm, mht, mhp og andre uspecifikke præpositioner. Mål og 

Mæle 3:2002, København, pp. 17-23. 

Jarvad, P. (1999): Nye Ord. Ordbog over nye ord i dansk 1955-1998. København. 

Norling-Christensen, O. & J. Asmussen (1998): The Corpus of The Danish 

Dictionary; in: Lexikos 8, Afrilex Series 8:1998, Stellenbosch, pp. 223-242. 

Rundell, M. (2002): Good Old-fashioned Lexicography: Human Judgment and 

the Limits of Automation; in M-H. Corréard (ed.): Lexicography and Natural 

Language Processing. A Festschrift in Honour of B.T.S. Atkins. 

EURALEX 2002.

Korpus 2000 ? til hvilken nytte? - Det Danske Sprog- og ...

Create successful ePaper yourself

Delete template?

Save as template?