18.07.2013 Views

Korpus 2000 ? til hvilken nytte? - Det Danske Sprog- og ...

Korpus 2000 ? til hvilken nytte? - Det Danske Sprog- og ...

Korpus 2000 ? til hvilken nytte? - Det Danske Sprog- og ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Korpus</strong> <strong>2000</strong> – <strong>til</strong> <strong>hvilken</strong> <strong>nytte</strong>?<br />

Muligheder <strong>og</strong> grænser for empiriske<br />

spr<strong>og</strong>undersøgelser<br />

JØRG ASMUSSEN<br />

<strong>Korpus</strong> <strong>2000</strong> er et korpus over dansk skriftspr<strong>og</strong> omkring år <strong>2000</strong> udarbejdet<br />

med henblik på at give alle spr<strong>og</strong>interesserede et redskab <strong>til</strong> at undersøge dansk<br />

spr<strong>og</strong>brug med. <strong>Korpus</strong> <strong>2000</strong> er gjort <strong>til</strong>gængelig på internettet parallelt med det<br />

10-15 år ældre <strong>Korpus</strong> 90, en særlig bearbejdet delmængde af Den <strong>Danske</strong><br />

Ordb<strong>og</strong>s korpus.<br />

I bidraget skitseres først baggrunden for <strong>og</strong> opbygningen af <strong>Korpus</strong> <strong>2000</strong>,<br />

dernæst vises en række sammenlignende spr<strong>og</strong>undersøgelser mellem <strong>Korpus</strong><br />

<strong>2000</strong> <strong>og</strong> <strong>Korpus</strong> 90 <strong>og</strong> mulige konklusioner diskuteres: afspejler observerbare<br />

forskelle generelle spr<strong>og</strong>lige forandringer – eller bare uensartet sammensatte<br />

korpusser?<br />

På baggrund af eksemplerne opridses kort muligheder for at gøre såvel udarbejdelsen<br />

af korpusser som de undersøgelser, man kan udføre på dem, metodisk<br />

velfunderede. 1<br />

1. Baggrund<br />

<strong>Korpus</strong> <strong>2000</strong> (K<strong>2000</strong>) blev udarbejdet af <strong>Det</strong> <strong>Danske</strong> <strong>Spr<strong>og</strong></strong>- <strong>og</strong> Litteraturselskab<br />

i perioden <strong>2000</strong>-2002. Hensigten med dette projekt var at etablere en stor<br />

samling over eksempler på dansk spr<strong>og</strong>brug – et korpus 2 – omkring år <strong>2000</strong>.<br />

1 Dele af denne artikel, først <strong>og</strong> fremmest undersøgelseseksemplerne, er <strong>og</strong>så indeholdt i<br />

Asmussen (under udgivelse), der desuden giver en mere grundig beskrivelse af de<br />

spr<strong>og</strong>statistiske elementer i <strong>Korpus</strong> <strong>2000</strong>-systemet, <strong>og</strong> som ellers fokuserer på<br />

undersøgelsesmetodol<strong>og</strong>iske <strong>og</strong> korpuskompositoriske overvejelser <strong>og</strong> i denne forbindelse<br />

introducerer ideen om invariante tekstuelle træk (invariant textual features) som en<br />

forudsætning for korpussers diakrone sammenlignelighed.<br />

2<br />

Begrebet korpus bruges i betydningen meget stor digitaliseret samling af (længere<br />

uddrag af) skrevne eller nedskrevne sammenhængende autentiske, objektspr<strong>og</strong>lige tekster;<br />

samlingen skal med hensyn <strong>til</strong> fastlagte teksttypol<strong>og</strong>iske kriterier være struktureret efter et<br />

STU DIE R I NORDISK 2002-2003 17


K<strong>2000</strong> består af tekster eller tekstuddrag fra årene 1998-2002 <strong>og</strong> er på 28 millioner<br />

tekstord. Teksterne stammer fra et bredt udsnit af skrevet dansk, hentet<br />

fra både offentligt <strong>til</strong>gængelige kilder som aviser, bøger, blade, radio, tv, brochurer,<br />

reklamer, tegneserier, <strong>og</strong> fra private tekster som dagbøger, breve, skoles<strong>til</strong>e<br />

osv. K<strong>2000</strong> er s<strong>til</strong>let offentligt <strong>til</strong> rådighed på internettet. 3<br />

Parallelt med K<strong>2000</strong> blev der udarbejdet en særlig version af Den <strong>Danske</strong><br />

Ordb<strong>og</strong>s korpus, 4 <strong>Korpus</strong> 90 (K90), der omfatter 28 millioner tekstord skriftspr<strong>og</strong><br />

fra perioden 1983-1992 <strong>og</strong> dermed indeholder spr<strong>og</strong>ligt materiale, som<br />

er ca. 10-15 år ældre end det, man finder i K<strong>2000</strong>.<br />

Målgruppen for K<strong>2000</strong> <strong>og</strong> K90 er først <strong>og</strong> fremmest lægfolk uden større<br />

spr<strong>og</strong>videnskabelige forudsætninger, men med interesse for spr<strong>og</strong>et. Derfor er<br />

der under opbygningen af korpusserne <strong>og</strong> udviklingen af søgeinterfacet blevet<br />

lagt særlig vægt på at gøre håndteringen af hele systemet så lige<strong>til</strong> som muligt,<br />

så det bliver let<strong>til</strong>gængeligt for alle interesserede. <strong>Det</strong>te indebærer blandt andet,<br />

at den morfol<strong>og</strong>iske <strong>og</strong> syntaktiske opmærkning af korpusserne ikke eksplicit<br />

vises, <strong>og</strong> at der i søgninger med det nuværende interface kun kan indgå ordklasseopmærkningen<br />

som et kriterium. 5<br />

Adgang <strong>til</strong> de to korpusser får man via et fælles webbaseret søgeinterface,<br />

som blev udviklet med særlig henblik på K<strong>2000</strong>-projektet. 6 Ved hjælp af <strong>Korpus</strong><br />

<strong>2000</strong>'s søgesystem 7 er det bl.a. muligt at søge på samtlige forekomster af et<br />

ord eller på en sekvens af ord eller ordklasser, <strong>og</strong> man kan få vist disse forekomster<br />

i forskellige oversigter. Endvidere muliggør interfacet umiddelbare<br />

sammenligninger mellem <strong>Korpus</strong> <strong>2000</strong> <strong>og</strong> <strong>Korpus</strong> 90.<br />

eksplicit princip med henblik på at muliggøre spr<strong>og</strong>brugsundersøgelser, jf. Asmussen<br />

(2001).<br />

3 http://www.korpus<strong>2000</strong>.dk<br />

4<br />

Jf. Norling-Christensen & Asmussen (1998).<br />

5 Den morfosyntaktiske opmærkning er udført af VISL-projektet ved Syddansk<br />

Universitet, jf. Bick (2003a+b). På VISL’s hjemmeside<br />

http://visl.hum.sdu.dk/visl/corpora.html er en delmængde af K90 <strong>og</strong> K<strong>2000</strong> søgbar med<br />

både morfol<strong>og</strong>iske <strong>og</strong> syntaktiske kriterier.<br />

6<br />

En udførlig beskrivelse af principperne for dette interface findes i Andersen et al.<br />

(2002).<br />

7 Som søgemaskine bruges CQP, som er udviklet ved Institut für Maschinelle<br />

Sprachverarbeitung ved universitet i Stuttgart, jf. http://www.ims.unistuttgart.de/projekte/CorpusWorkbench/<br />

<strong>og</strong> Christ (1994). <strong>Det</strong> webbaserede søgeinterface<br />

er udviklet hos DSL.<br />

18 STU DIE R I NORDISK 2002-2003


I det følgende afsnit gives eksempler på en række sammenlignende undersøgelser,<br />

man kan foretage på de to korpusser, <strong>og</strong> mulige fortolkninger af<br />

resultaterne drøftes.<br />

2. Sammenlignende undersøgelser <strong>og</strong> fortolkningen af resultater<br />

Søger man på enkeltord i K<strong>2000</strong>-systemet, vises hyppigheder <strong>og</strong> kollokater i<br />

kontrastive oversigter for K<strong>2000</strong> <strong>og</strong> K90, der muliggør en umiddelbar sammenligning<br />

af ords udbredelse <strong>og</strong> kollokationelle egenskaber i de to korpusser. Således<br />

får brugeren straks et indtryk af de forandringer, der måtte være sket inden<br />

for ordforråd, bøjning <strong>og</strong> kombinatorik/semantik i løbet af den tid, der ligger<br />

mellem udarbejdelsen af de to korpusser. Ulempen ved den kontrastive<br />

præsentation af undersøgelsesresultater er, at brugeren let kan forledes <strong>til</strong> at<br />

drage uhensigtsmæssige slutninger, der giver et forvrænget billede af formodede<br />

spr<strong>og</strong>lige forandringer.<br />

2.1. Ordforråd<br />

En sammenligning af alle ords hyppigheder i K<strong>2000</strong> <strong>og</strong> K90 viser ikke overraskende,<br />

at n<strong>og</strong>le ord forekommer betydeligt oftere i det ene korpus end i det<br />

andet. Hvis man antager, at begge korpusser afspejler deres tids danske spr<strong>og</strong>brug,<br />

altså K90 spr<strong>og</strong>brugen i perioden 1983-1992 <strong>og</strong> K<strong>2000</strong> spr<strong>og</strong>brugen i<br />

perioden 1998-2002, så kan man med en vis rimelighed fortolke hyppighedsforskelle<br />

som forskelle i udbredelsen af de pågældende ord i dansk som helhed.<br />

Figur 1 nedenfor viser, hvordan hyppighederne for formerne af substantivet<br />

regn oplyses i brugerinterfacet: første søjle oplister samtlige mulige bøjningsformer<br />

af lemmaet, anden søjle oplister hver forms hyppighed i K<strong>2000</strong> <strong>og</strong> tredje<br />

søjle de <strong>til</strong>svarende hyppigheder i K90. I nederste række står hyppighederne for<br />

hele lemmaet regn, dvs. summen af alle dets forskellige former. 8 Hyppighederne<br />

oplyses ikke i absolutte tal, men som l<strong>og</strong>aritmiske størrelser i form af mellem<br />

0 <strong>og</strong> 7 røde (på figuren mørke) prikker. Fordelen ved at udtrykke hyppigheden<br />

som en af otte mulige hyppighedsklasser er, at måske <strong>til</strong>fældigt betingede forskelle<br />

i et ords hyppighed i de to korpusser udviskes <strong>til</strong> en vis grad <strong>og</strong> risikoen<br />

for at brugeren fejlfortolker hyppighedsoplysningerne følgelig mindskes n<strong>og</strong>et.<br />

8 <strong>Det</strong> glade ansigt viser, at lemmaets stavning er i overensstemmelse med<br />

Retskrivningsordb<strong>og</strong>ens normering. Hyppighedstabellerne kan <strong>og</strong>så indeholde former <strong>og</strong><br />

stavemåder, der afviger fra den officielle norm – de vil da være markeret med et vredt<br />

ansigt.<br />

STU DIE R I NORDISK 2002-2003 19


Antallet af prikker synes i øvrigt pænt at følge den intuitive fornemmelse af<br />

ords udbredelse i spr<strong>og</strong>et generelt: således er ord med 1-2 prikker forholdsvis<br />

sjældne, fx entomol<strong>og</strong>i, ord med 6-7 prikker er meget hyppige, fx i <strong>og</strong> <strong>og</strong>, mens<br />

ord med 3-5 prikker ligger i den store midtergruppe som fx regn. Som det fremgår<br />

af oversigten, kan der ikke konstateres de store forskelle i hyppighederne<br />

af de forskellige former af regn i de to korpusser, med én undtagelse, nemlig<br />

genitiven regns, som slet ikke forekommer i K<strong>2000</strong>, men scorer én prik i K90.<br />

Den løftede tommelfinger indikerer, at denne form forekommer mindst dobbelt<br />

så hyppigt i K90 som i K<strong>2000</strong>. Selvom tommelfingeren ikke må fortolkes som<br />

et tegn på, at der er tale om en signifikant forskel i statistisk forstand, skal den<br />

rette opmærksomheden på fænomener, som måske kunne være af lingvistisk<br />

relevans. Er man interesseret i at erfare det absolutte antal forekomster af en<br />

form på listen, klikker man på et af forstørrelsesglassene ud for formen, hvorefter<br />

man får vist en KWIC-konkordans over pågældende form sammen med det<br />

absolutte antal forekomster i det pågældende korpus: regns forekommer tre<br />

gange i K90 – en forskel der nok på ingen måde berettiger <strong>til</strong> at konkludere<br />

n<strong>og</strong>et om et skift i dette ords bøjningsmæssige egenskaber. Tværtimod synes<br />

regn – at vurdere ud fra de l<strong>og</strong>aritmiske frekvensoplysninger – at være et ret<br />

stabilt udbredt ord.<br />

Figur 1. Hyppigheder for regn <strong>og</strong> former i K<strong>2000</strong> <strong>og</strong> K90<br />

Anderledes forholder det sig med et ord som mobiltelefon, som scorer fire<br />

prikker i K<strong>2000</strong> mod tre i K90; faktisk er lemmaet ca. 25 gange så hyppigt i<br />

K<strong>2000</strong> (1.586 forekomster) som i K90 (59 forekomster). Hvis man antager, at<br />

et spr<strong>og</strong>s ordforråd afspejler generelle samfundsmæssige forandringer <strong>og</strong><br />

sammenholder dette med den teknol<strong>og</strong>iske udvikling, der er sket fra midtfirserne<br />

<strong>til</strong> senhalvfemserne, er det nærliggende at fortolke den observerede kvantitative<br />

forskel som et udtryk for en faktisk ændring af det danske ordforråd: ordet<br />

mobiltelefon er blevet betydelig mere udbredt i spr<strong>og</strong>et, fordi dets denotat er<br />

det. Tilsvarende eksempler er biltelefon <strong>og</strong> benchmarking: biltelefon, som er<br />

20 STU DIE R I NORDISK 2002-2003


fem gange hyppigere i K90 (51 forekomster, 3 prikker) end i K<strong>2000</strong> (9 forekomster,<br />

2 prikker) betegner et apparat, som stort set er blevet erstattet af mobiltelefoner,<br />

mens benchmarking slet ikke forekommer i K90 mod 34 gange (3<br />

prikker) i K<strong>2000</strong>, hvilket kunne tyde på at ordet er nyt i dansk. Jarvad (1999),<br />

hvis ordb<strong>og</strong> over nye ord i dansk ganske vist ikke beror på en dokumenteret<br />

empirisk, korpusstatistisk fremgangsmåde, <strong>og</strong> som derfor bør konsulteres med<br />

en vis forsigtighed, daterer første brug <strong>til</strong> 1996 – hvilket muligvis støtter antagelsen,<br />

at der her er tale om et nyt låneord. De nævnte eksempler tyder på, at<br />

ændringer i udbredelsen af bestemte ord, som man kan konstatere ved at<br />

sammenligne de to korpusser, afspejler ændrede forhold i samfundet: spr<strong>og</strong> <strong>og</strong><br />

virkelighed følges altså pænt ad, ser det ud <strong>til</strong>.<br />

Et mindre udbredt ord som kambrium forekommer fire gange (2 prikker) i<br />

K90, men findes ikke i K<strong>2000</strong>; det er desuden markeret med en løftet tommelfinger<br />

under K90. En fortolkning, anal<strong>og</strong> <strong>til</strong> dem ovenfor, kunne være, at ordets<br />

udbredelse er i aftagende, måske fordi det betegner n<strong>og</strong>et, som ikke længere har<br />

så stor relevans. En nærmere undersøgelse 9 af, hvilke kilder de fire forekomster<br />

i K90 stammer fra, viser at de er fra tre tekster om geol<strong>og</strong>i, alle fra samme<br />

opslagsværk. 10 K<strong>2000</strong> indeholder derimod ingen <strong>til</strong>svarende tekster. N<strong>og</strong>et<br />

tyder derfor på, at fagområdet geol<strong>og</strong>i er dækket forskelligt i de to korpusser <strong>og</strong><br />

at forskellen i hyppigheden for ordet kambrium siger mere om korpussernes<br />

sammensætning end om spr<strong>og</strong>et som sådant.<br />

Eksemplet viser, at rå forekomsttal ikke umiddelbart bør sammenlignes, især<br />

ikke, hvis de er lave. Selvom den l<strong>og</strong>aritmiske hyppighedsoplysning i K<strong>2000</strong>systemet<br />

<strong>til</strong> en vis grad udjævner hyppighedsforskelle, der kan skyldes <strong>til</strong>fældigheder,<br />

fejler den, når forekomstallene er lave. Målingen af ords hyppighed,<br />

forstået som indikator for deres udbredelse i spr<strong>og</strong>et som helhed, bør ikke blot<br />

udtrykkes i antal forekomster eller en l<strong>og</strong>aritmisk funktion heraf, men bør inddrage<br />

et mål for forekomsternes jævne fordeling over hele korpus (dispersion):<br />

et ord har givetvis en større udbredelse i spr<strong>og</strong>et, hvis det bruges i flere tekster<br />

af flere forfattere over hele korpus end blot mange gange i én tekst eller tekster<br />

af én forfatter eller tekster om ét ganske snævert fagområde.<br />

9 Denne undersøgelse kan ikke udføres direkte i K<strong>2000</strong>-systemet, da der her p.t. ikke er<br />

adgang <strong>til</strong> tekstoplysninger fra konkordanslinjer i K90. Derimod er det muligt at udføre<br />

undersøgelsen med korpussøgesystemet Semaskop på hele Den <strong>Danske</strong> Ordb<strong>og</strong>s korpus,<br />

som kan downloades fra http://korpus.dsl.dk/e-resurser/.<br />

10 Fakta. Gyldendal 1988.<br />

STU DIE R I NORDISK 2002-2003 21


2.2. Bøjning<br />

Sammenligner man ikke hele lemmaer (altså summen af alle bøjningsformer),<br />

men blot bestemte bøjningsformer af en række ord, vil der ofte vise sig markante<br />

hyppighedsforskelle mellem K<strong>2000</strong> <strong>og</strong> K90. I eksemplet regn ovenfor blev<br />

det allerede konstateret, at den indefinitte genitivform regns ikke var repræsenteret<br />

i K<strong>2000</strong> – mod tre forekomster i K90. Selvom dette ikke er statistisk signifikant,<br />

udelukker det ikke, at systemets brugere kan forledes <strong>til</strong> at drage tvivlsomme<br />

slutninger, <strong>til</strong>skyndet både af en løftet tommelfinger <strong>og</strong> måske desuden<br />

af iagttagelsen af, at den definitte genitivform regnens absolut set <strong>og</strong>så<br />

forekommer lidt sjældnere i K<strong>2000</strong> (9 forekomster) end i K90 (12 forekomster).<br />

Elbro (2002) observerer, at visse hyppigt brugte konkrete susbstantiver udviser<br />

færre genitivformer i K<strong>2000</strong> end i K90 <strong>og</strong> antager på baggrund heraf en tendens<br />

i dansk, hvor genitivkonstruktioner <strong>til</strong>tagende erstattes af præpositionsforbindelser;<br />

antagelsen støttes yderligere af, at han kan konstatere forhøjede<br />

forekomsttal for en række præpositioner i K<strong>2000</strong>.<br />

Umiddelbart taler n<strong>og</strong>et for denne antagelse, fx har substantivet bil i alt 393<br />

genitivformer i K<strong>2000</strong> mod 586 i K90 – <strong>og</strong> ganske <strong>til</strong>svarende er resultaterne<br />

for fx cykel, hus <strong>og</strong> mand. Betragter man bil nærmere, viser det sig imidlertid,<br />

at lemmaet med alle bøjningsformer forekommer 10.360 gange i K90 mod kun<br />

8.354 gange i K<strong>2000</strong> – en observation, der næppe vil få n<strong>og</strong>en <strong>til</strong> at antage – i<br />

anal<strong>og</strong>i med genitiv-konklusionen –, at ordet bil er ved at blive erstattet af andre<br />

ord eller vendinger, eller – i anal<strong>og</strong>i med eksemplet biltelefon – at denotatet selv<br />

er ved at forsvinde fra virkeligheden. Derfor bør man nok kun vurdere en forms<br />

kvantitative udbredelse som den (procentuelle) andel, den udgør af samtlige<br />

former af et ord. For ordet bil er andelen af genitivformer i K90 5,7% mod 4,7%<br />

i K<strong>2000</strong> – forskellen synes intuitivt for beskeden <strong>til</strong> at kunne underbygge en<br />

konklusion om markante ændringer i brugen af genitiver. Desuden underbygges<br />

en sådan konklusion ikke af en hel række andre substantiver som fx land eller<br />

Danmark. <strong>Det</strong>, der forekommer mere suspekt end mindre udsving i genitivandelene,<br />

er de markante hyppighedsforskelle for lemmaer som bil (K90: 10.360;<br />

K<strong>2000</strong>: 8.354), land (K90: 21.478; K<strong>2000</strong>: 28.222) eller Danmark (K90:<br />

22.243; K<strong>2000</strong>: 30.730), som kan konstateres mellem de to korpusser – <strong>og</strong>så<br />

selvom de l<strong>og</strong>aritmiske hyppighedsangivelser for disse ord er ens for de to<br />

korpusser. Og det er snarere igen et tegn på to forskelligt sammensatte korpusser<br />

end spr<strong>og</strong>lige forandringer.<br />

Eksemplerne tyder på, at man næppe kan konstatere generelle forandringer<br />

i fleksionssystemet blot ved <strong>til</strong>fældigt at udvælge en række hyppige ord <strong>og</strong><br />

undersøge dem, idet de kvantitative resultater, disse undersøgelser medfører,<br />

virker alt for <strong>til</strong>fældige. Vil man undersøge spr<strong>og</strong>lige forandringer, der vedrører<br />

fleksionssystemet, burde man vel snarere undersøge fænomenet – i dette <strong>til</strong>fæl-<br />

22 STU DIE R I NORDISK 2002-2003


de altså andelen af genitivformer – blandt samtlige substantiviske former i hele<br />

korpus – et forhold, som Elbro i øvrigt udtrykkeligt anfører.<br />

2.3. Kollokation<br />

K<strong>2000</strong>-systemet kan vise både hyppige <strong>og</strong> typiske kollokater (“naboer”) <strong>til</strong> ord.<br />

Hyppige kollokater giver oplysninger om et ords funktionelle kombinatoriske<br />

egenskaber, fx hvilke præpositioner de hyppigt optræder sammen med. Hyppige<br />

kollokater bestemmes ganske enkelt ved at tælle, hvilke ord der hyppigst optræder<br />

i den umiddelbare omgivelse af det ord, man undersøger. De otte hyppigste<br />

kollokater <strong>til</strong> venstre for lemmaet debat i K90 er eksempelvis en, i, den, <strong>til</strong>,<br />

offentlige, <strong>og</strong>, den <strong>og</strong> under. Typiske kollokater derimod bestemmes vha. en<br />

statistisk metode, mutual information, 11 <strong>og</strong> fremhæver ord, der især <strong>til</strong>trækkes<br />

af det undersøgte ord, men ikke i nær samme grad af det overvejende flertal af<br />

andre ord i korpus. Resultatet er et indtryk af ordets semantiske kombinatoriske<br />

egenskaber – de ti mest typiske kollokater <strong>til</strong> venstre for lemmaet debat i K<strong>2000</strong><br />

er heftig, følelsesladet, offentlig, saglig, folkelig, livlig, konstruktiv <strong>og</strong> heftige.<br />

Kollokater vises i K<strong>2000</strong>-systemet som tabeller med fire kolonner: én for<br />

hhv. højre- <strong>og</strong> venstrekollokater for hvert af de to korpusser. Kollokaterne er<br />

sorteret i faldende orden efter antal samforekomster (hyppighed) eller efter<br />

deres mutual information score (typiskhed). Både antal samforekomster samt<br />

scoren udtrykkes ikke som absolutte talværdier, men omregnes <strong>til</strong> et antal prikker<br />

(1-5), der synes bedre egnet <strong>til</strong> at visualisere kollokaters ‘tyngde’. Figur 2<br />

viser som eksempel de typiske kollokater for lemmaet terrorist.<br />

Figur 2. Typiske kollokater for terrorist<br />

Oversigten i figur 2 kan fortolkes på følgende måde: et af de træk ved terrorist,<br />

11<br />

Jf. Church&Hanks (1989) eller Church et al. (1991). I K<strong>2000</strong>-systemet er mutual<br />

information modificeret med en række filtre, der bl.a. reducerer statistisk støj, jf.<br />

Asmussen (under udgivelse).<br />

STU DIE R I NORDISK 2002-2003 23


som åbenbart ikke ændrer sig i løbet af det tidsrum, der ligger imellem de to<br />

korpusser, er eftersøgte <strong>og</strong> palæstinensiske, hvorimod vesttyske ikke længere<br />

synes at være et typisk træk i K<strong>2000</strong>, men derimod mange andre nationaliteter,<br />

en religiøs orientering, eller bare international. I K<strong>2000</strong> k<strong>nytte</strong>s terrorist enten<br />

<strong>til</strong> bestemte personer eller organisationer, mens dræbt (i aktiv eller passiv) er<br />

et fremherskende træk i K90. <strong>Det</strong> større antal kollokater i K<strong>2000</strong> er et tegn på,<br />

at ordet terrorist er mere udbredt her, <strong>og</strong> det viser sig da <strong>og</strong>så, at lemmaet forekommer<br />

næsten dobbelt så hyppigt i K<strong>2000</strong> (477) som i K90 (253) – hvis ikke<br />

dette bør tolkes som endnu et tegn på, at de to korpusser er sammensat forskelligt.<br />

Alligevel synes resultaterne at afspejle generelle træk ved den danske<br />

samfundsdebat om dette emne: ens historiske viden hjælper en <strong>til</strong> at forstå både<br />

ændringer <strong>og</strong> konstanter i dette ords kollokative egenskaber.<br />

For et ord som jul må man derimod antage en vis kollokativ stabilitet over<br />

en periode på kun ca. 10 år, da ordet vel overvejende bruges i stærkt traditionsbundne<br />

sammenhænge – <strong>og</strong> <strong>til</strong>svarende finder man hovedparten af de fundne<br />

kollokater i begge korpusser, fx glædelig, fejre eller – <strong>til</strong> højre for jul – nytår.<br />

<strong>Det</strong>, der imidlertid kan undre en, er, at antallet af kollokater er n<strong>og</strong>et større for<br />

K90 end for K<strong>2000</strong>, hvilket skyldes at jul er betydeligt hyppigere i K90 (2.196<br />

forekomster) end i K<strong>2000</strong> (1.275 forekomster) – sandsynligvis endnu et tegn på<br />

en uensartet sammensætning af de to korpusser. <strong>Det</strong>te afspejler sig så <strong>og</strong>så i, at<br />

en kollokation som hvid jul ikke dukker op i oversigten for K<strong>2000</strong>: selvom<br />

kollokationen faktisk forekommer to gange i K<strong>2000</strong> (mod 27 i K90), er den<br />

statistisk set ikke udpræget nok <strong>til</strong> at blive udtrukket af kollokationsalgoritmen.<br />

Eksemplet viser, at <strong>til</strong>fældige hyppighedsforskelle i et ellers ret udbredt ord, kan<br />

have en afgørende indflydelse på statistisk fremfinding af stadig gyldige kollokationer.<br />

Eksemplet viser <strong>og</strong>så, at en sammenligning af kollokater bestemt på<br />

baggrund af et ord, hvis hyppighed er markant forskellig i de to korpusser, ikke<br />

nødvendigvis giver et realistisk indtryk af ændringer i dets kollokative egenskaber:<br />

selvom et ord faktisk bruges mindre, betyder det jo ikke, at dets kollokative<br />

egenskaber har ændret sig af den grund, men dets ellers veletablerede kollokater<br />

kan ikke nødvendigvis længere bestemmes vha. en statistisk kollokabilitetsanalyse.<br />

Modsat vil den statistiske kollokabilitetsanalyse i visse <strong>til</strong>fælde udpege ord,<br />

som intuitivt ikke kan betragtes som kollokater <strong>til</strong> et ord. Udfører man en kollokabilitetsanalyse<br />

på juletræ, får man som ventet bl.a. pynte <strong>og</strong> danse (rundt om),<br />

men i K<strong>2000</strong> får man som det mest markante venstrekollokat talende! En nærmere<br />

undersøgelse af konkordansen med de konkrete forekomster af talende<br />

juletræ viser, at de alle stammer fra en <strong>og</strong> samme tekst. 12 Eksemplet viser, at de<br />

12 En julehistorie fra fyldepennen.dk.<br />

24 STU DIE R I NORDISK 2002-2003


ene forekomsttal, et ord har i hele korpus, heller ikke bør lægges umiddelbart<br />

<strong>til</strong> grund for kollokabilitetsberegningen – <strong>og</strong>så her burde man i virkeligheden<br />

operere med en dispersionsbaseret korrektion, der ville kunne undertrykke ad<br />

hoc-kollokationer som talende juletræ, som alene skyldes én speciel tekst i<br />

korpus.<br />

2.4. Semantik<br />

Nært beslægtet med kollokation er mange ords tendens <strong>til</strong> at indgå i helt bestemte<br />

kontekstuelt betingede semantiske sammenhæng, eksempelvis vil man<br />

typisk finde sund fornuft, næppe syg fornuft, mens bivirkning sjældent vil blive<br />

kendetegnet som uskadelig, men ofte som skadelig – et semantisk fænomen,<br />

som bl.a. Rundell (2002) betegner som “semantisk prosodi”. 13 Mange leksemer<br />

indgår således i en ganske bestemt semantisk kontekst, der restringerer deres<br />

semantiske kombinatoriske egenskaber. Ordet sideeffekt, 14 som har 11 forekomster<br />

i K90 <strong>og</strong> 22 i K<strong>2000</strong>, er sandsynligvis et relativt nyt låneord fra engelsk, om<br />

end ikke registreret i Jarvad (1999). Da betydningen af engelsk side effect kan<br />

ækvivaleres med den, bivirkning har på dansk, kan man argumentere, at sideeffekt<br />

vel egentlig er overflødig på dansk. Omtrent halvdelen af forekomsterne af<br />

sideeffekt i K90 viser ordet i en tydelig negativ kontekst, der afslører, at sideeffekt<br />

er n<strong>og</strong>et u<strong>til</strong>sigtet skadeligt, <strong>og</strong> ordet indgår i semantiske kontekster, der er<br />

ganske parallelle med dem for bivirkning. I K<strong>2000</strong> er billedet derimod et n<strong>og</strong>et<br />

andet: ordet bruges stadigvæk om n<strong>og</strong>et u<strong>til</strong>sigtet, men nu positivt, egentlig vel<br />

svarende <strong>til</strong> betydningen af sidegevinst – en del af forekomsterne modificeret<br />

af adjektivet positiv, jf. figur 3.<br />

13 Rundell (2002) betragter fænomenet som en særlig leksik<strong>og</strong>rafisk udfordring, idet det<br />

ofte kun vanskeligt lader sig beskrive i ordbøger, samtidig med at det kan være af<br />

afgørende betydning for acceptabel spr<strong>og</strong>brug.<br />

14 Forfatteren blev gjort opmærksom på dette eksempel af Henrik Gottlieb, Engelsk<br />

Institut, KU.<br />

Figur 3. “Semantisk prosodi” for sideeffekt<br />

STU DIE R I NORDISK 2002-2003 25


Spørgsmålet er nu, hvorvidt sideeffekt-eksemplerne fra K90 <strong>og</strong> K<strong>2000</strong> empirisk<br />

kan støtte konklusionen, at sideeffekt faktisk har ændret dets semantisk-prosodiske<br />

egenskaber fra de oprindelige engelske <strong>til</strong> en mere selvstændig dansk ‘positiv<br />

bivirkning’, <strong>og</strong> dermed måske har fundet en semantisk niche i dansk. Hvor<br />

mange eksempler på et ords måske ændrede semantik har man brug for, før man<br />

med sikkerhed kan udelukke korpuskompositionel støj <strong>og</strong> kan fremsætte generelle<br />

udsagn om bestemte semantiske forandringer i et spr<strong>og</strong> som helhed?<br />

2.5. Ordtopol<strong>og</strong>i<br />

Der skal gives ét eksempel på sammenlignende ordtopol<strong>og</strong>iske undersøgelser<br />

for at illustrere de metodiske problemer, der k<strong>nytte</strong>r sig her<strong>til</strong>. Almindeligvis<br />

betragtes hovedsætningsords<strong>til</strong>ling af ikke i bisætninger som substandard som<br />

fx i ? Anne serverer kaffe, fordi Peter drikker ikke te. <strong>Det</strong> skal undersøges, hvor<br />

udbredt denne konstruktion, der måske især forekommer i talespr<strong>og</strong>, er i de to<br />

skriftspr<strong>og</strong>lige korpusser. Intuitivt – eller måske <strong>og</strong>så ud fra en antagelse om,<br />

at talespr<strong>og</strong>et determinerer skriftspr<strong>og</strong>et – skulle man forvente, at den ikkekanoniske<br />

placering af ikke i bisætninger er mere udbredt i K<strong>2000</strong> end i K90.<br />

Om end en <strong>til</strong>bundsgående undersøgelse med det eksisterende søgesystem ikke<br />

umiddelbart er mulig, viser undersøgelser af bestemte ordtopol<strong>og</strong>iske mønstre,<br />

fx en søgning på sekvensen at-pronomen-verbum-ikke, at den ikke-kanoniske<br />

placering af ikke er mere udbredt i K90 end i K<strong>2000</strong> – figur 4 viser en række<br />

eksempler.<br />

Figur 4. Eksempler fra K90 på ikke-kanonisk placering af ikke<br />

3. <strong>Korpus</strong> <strong>2000</strong> – <strong>til</strong> <strong>hvilken</strong> <strong>nytte</strong>?<br />

Eksemplerne ovenfor viser, at sammenlignende korpusundersøgelser i en række<br />

<strong>til</strong>fælde kan medføre tvivlsomme fortolkninger <strong>og</strong> generaliseringer vedrørende<br />

spr<strong>og</strong>lige forandringer – <strong>og</strong> man må derfor spørge, hvad man d<strong>og</strong> skal med et<br />

korpus, der ganske vist påstås at kunne bruges <strong>til</strong> empiriske spr<strong>og</strong>undersøgelser,<br />

26 STU DIE R I NORDISK 2002-2003


der d<strong>og</strong> så alligevel er præget af <strong>til</strong>fældigheder <strong>og</strong> unøjagtigheder i en grad, så<br />

man er henvist <strong>til</strong> sin egen spr<strong>og</strong>lige intuition, når man skal vurdere undersøgelsesresultaterne.<br />

Problemet er d<strong>og</strong> næppe brugen af et korpus som sådan, men<br />

snarere de metoder, man lægger <strong>til</strong> grund for korpusbaserede undersøgelser i<br />

almindelighed <strong>og</strong> for sammenlignende undersøgelser i særdeleshed.<br />

En grundlæggende metodisk vanskelighed ved korpusbaserede spr<strong>og</strong>undersøgelser<br />

er muligheden for at kvantificere spr<strong>og</strong>lige fænomener, mens traditionelle<br />

spr<strong>og</strong>undersøgelser ofte tager udgangspunkt i en kvalitativ beskrivelse af<br />

et bestemt spr<strong>og</strong>ligt fænomen, som man – måske <strong>til</strong>fældigt – er stødt på. Undersøgelsens<br />

fokus forskydes altså i korpusbaserede undersøgelser let fra en<br />

beskrivelse af hvad man ser, <strong>til</strong> en beskrivelse af, hvor meget man ser – hvor<br />

idealet måske burde være en kombination: både beskrivelsen af et fænomen <strong>og</strong><br />

dets måske skiftende udbredelse.<br />

Her<strong>til</strong> kommer, at de forekomsttal, man umiddelbart ser ved sammenligningen<br />

af to korpusser, ikke nødvendigvis er sammenlignelige. I den fysiske verden<br />

er det for de fleste evident, at én kilometer er mere end ti kilometer, men om én<br />

kilometer er meget eller lidt, afhænger <strong>og</strong>så af den kontekst, hvori mængedeangivelsen<br />

bliver brugt. Ti kilometer kan således være en ganske betragtelig<br />

vejlængde, hvis den skal <strong>til</strong>bagelægges <strong>til</strong> fods, mens den samme vejlængde<br />

<strong>til</strong>bagelagt i bil er knapt så imponerende. Ganske <strong>til</strong>svarende gælder for de<br />

forekomsttal, man finder i et korpus: de giver ingen mening i sig selv, men kun<br />

i forhold <strong>til</strong> n<strong>og</strong>et andet, indenfor en kontekst – det er således ganske intetsigende,<br />

at konstatere at mand har 1.936 genitivformer i K90 mod 1.606 i K<strong>2000</strong>, når<br />

man ikke i det mindste sætter disse tal i forhold <strong>til</strong>, hvor mange forekomster<br />

lemmaet mand har i de to korpusser: gør man det, finder man, at andelen af<br />

genitivformer for lemmaet mand er 2,0% i begge korpusser. Med andre ord kan<br />

forekomsttal aldrig tages for pålydende i korpusundersøgelser, <strong>og</strong> for hver type<br />

undersøgelse kræves der en række metodiske overvejelser, inden man giver sig<br />

<strong>til</strong> at konkludere. Som K<strong>2000</strong>'s søgesystem er opbygget nu, får brugeren i virkeligheden<br />

ikke megen metodisk hjælp – det overlades i vid udstrækning <strong>til</strong> brugeren<br />

selv at fortolke de kvantitative resultater hensigtsmæssigt. Så selvom sigtet<br />

med K<strong>2000</strong>'s webbaserede søgesystem var, at gøre det let for enhver spr<strong>og</strong>interesseret<br />

af lave sine egene spr<strong>og</strong>lige undersøgelser, bidrager grænsefladen<br />

ikke <strong>til</strong> at minimere metodiske fejlgreb – en ulempe, som fremtidige versioner<br />

af grænsefladen bør råde bod på.<br />

Her<strong>til</strong> kommer så spørgsmålet, hvad sammenlignelighed af korpusser egentlig<br />

vil sige. K90's <strong>og</strong> K<strong>2000</strong>'s sammensætning er <strong>til</strong>stræbt identiske, men i<br />

praksis, dvs. i de viste eksempler, er der n<strong>og</strong>et, der tyder på, at sammensætningen<br />

ikke kan være så identisk endda. <strong>Det</strong> gælder først <strong>og</strong> fremmest forskelle i<br />

udbredelsen af bestemte lemmaer, som man intuitivt skulle mene havde en<br />

STU DIE R I NORDISK 2002-2003 27


konstant udbredelse i spr<strong>og</strong>et inden for en tidsramme af ca. 10 år, fx bil, jul,<br />

mand osv. Og ganske rigtigt er det især andelen af avismateriale i de to korpusser,<br />

som er meget forskelligt, ca. en tredjedel i K90 mod to tredjedele i K<strong>2000</strong>.<br />

<strong>Det</strong>te rejser spørgsmålet, hvordan man sikrer sammenlignelighed af to korpusser<br />

mht. <strong>til</strong> en bestemt dimension, i dette <strong>til</strong>fælde tidsdimensionen: hvordan<br />

burde et K90 <strong>og</strong> et K<strong>2000</strong> sammensættes, så man kunne være sikker på, at de<br />

forskelle, man kan konstatere imellem dem, vitterligt er sikre indicier på tidsbestemte<br />

spr<strong>og</strong>lige forandringer?<br />

Løsningen på de skitserede problems<strong>til</strong>linger må findes i udviklingen af en<br />

generel metodol<strong>og</strong>i for korpusdesign <strong>og</strong> -ud<strong>nytte</strong>lse – et område, som <strong>Det</strong> <strong>Danske</strong><br />

<strong>Spr<strong>og</strong></strong>- <strong>og</strong> Litteraturselskab trods beskedne resurser arbejder indenfor med<br />

henblik på at kunne forbedre kvaliteten både af de eksisterende korpusser <strong>og</strong> af<br />

de søgesystemer, der k<strong>nytte</strong>r sig <strong>til</strong> dem. Målet for 2004 er at kunne lancere et<br />

forbedret webinterface for K<strong>2000</strong>, hvori der vil være taget højde for en hel<br />

række af de søgemetodiske problems<strong>til</strong>linger, som blev skitseret i dette bidrag.<br />

Litteratur<br />

Andersen, M.S., Asmussen, H., Asmussen, J. (2002): The Project of <strong>Korpus</strong><br />

<strong>2000</strong> Going Public; in: A. Braasch and C. Povlsen (eds.): Proceedings of the<br />

Tenth EURALEX International Congress, EURALEX 2002, København.<br />

Asmussen, J. (2001): <strong>Korpus</strong> <strong>2000</strong>. Et overblik over projektets baggrund, fremgangsmåder<br />

<strong>og</strong> perspektiver. NyS 30. Nydanske studier & almen kommunikationsteori,<br />

København.<br />

Asmussen, J. (under udgivelse): Towards a methodol<strong>og</strong>y for corpus-based<br />

studies of linguistic change. Contrastive observations and their possible<br />

diachronic interpretations in the <strong>Korpus</strong> <strong>2000</strong> and <strong>Korpus</strong> 90 Corpora of<br />

Danish; in: Archer, Rayson, Wilson (eds.): Corpus Linguistics Around the<br />

World. Rodopi, Amsterdam.<br />

Bick, E. (2003a): Morfosyntaktisk opmærkede corpora for dansk: <strong>Korpus</strong><br />

90/<strong>2000</strong> <strong>og</strong> Arboretum; in: 9. Møde om Udforskningen af Dansk <strong>Spr<strong>og</strong></strong> 10.-<br />

11. oktober 2002. Proceedings. Aarhus Universitet.<br />

Bick, E. (2003b): A CG & PSG hybrid approach to automatic corpus annotation;<br />

in: Simov, K. & Osenova P. (eds.): Proceedings of the Workshop on<br />

Shallow Processing of Large Corpora (SProLaC 2003) held in conjunction<br />

with the Corpus Linguistics 2003 Conference. UCREL technical paper no.<br />

17. UCREL, Lancaster University.<br />

28 STU DIE R I NORDISK 2002-2003


Christ, O. (1994): A modular and flexible architecture for an integrated corpus<br />

query system. COMPLEX’94 Proceedings, Budapest.<br />

Church, K. & P. Hanks (1989): Word association norms, mutual information<br />

and lexic<strong>og</strong>raphy. ACL Proceedings, 27 th Annual Meeting, Vancouver.<br />

Church, K. et al. (1991): Using Statistics in Lexical Analysis; in: Zernik (ed.):<br />

Lexical Acquisition. Exploiting On-Line Resources to Build a Lexicon.<br />

Hillsdale, New Jersey 1991.<br />

Elbro, C. (2002): Ift, ifm, mht, mhp <strong>og</strong> andre uspecifikke præpositioner. Mål <strong>og</strong><br />

Mæle 3:2002, København, pp. 17-23.<br />

Jarvad, P. (1999): Nye Ord. Ordb<strong>og</strong> over nye ord i dansk 1955-1998. København.<br />

Norling-Christensen, O. & J. Asmussen (1998): The Corpus of The Danish<br />

Dictionary; in: Lexikos 8, Afrilex Series 8:1998, Stellenbosch, pp. 223-242.<br />

Rundell, M. (2002): Good Old-fashioned Lexic<strong>og</strong>raphy: Human Judgment and<br />

the Limits of Automation; in M-H. Corréard (ed.): Lexic<strong>og</strong>raphy and Natural<br />

Language Processing. A Festschrift in Honour of B.T.S. Atkins.<br />

EURALEX 2002.<br />

STU DIE R I NORDISK 2002-2003 29

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!