Korpus 2000 ? til hvilken nytte? - Det Danske Sprog- og ...
Korpus 2000 ? til hvilken nytte? - Det Danske Sprog- og ...
Korpus 2000 ? til hvilken nytte? - Det Danske Sprog- og ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Korpus</strong> <strong>2000</strong> – <strong>til</strong> <strong>hvilken</strong> <strong>nytte</strong>?<br />
Muligheder <strong>og</strong> grænser for empiriske<br />
spr<strong>og</strong>undersøgelser<br />
JØRG ASMUSSEN<br />
<strong>Korpus</strong> <strong>2000</strong> er et korpus over dansk skriftspr<strong>og</strong> omkring år <strong>2000</strong> udarbejdet<br />
med henblik på at give alle spr<strong>og</strong>interesserede et redskab <strong>til</strong> at undersøge dansk<br />
spr<strong>og</strong>brug med. <strong>Korpus</strong> <strong>2000</strong> er gjort <strong>til</strong>gængelig på internettet parallelt med det<br />
10-15 år ældre <strong>Korpus</strong> 90, en særlig bearbejdet delmængde af Den <strong>Danske</strong><br />
Ordb<strong>og</strong>s korpus.<br />
I bidraget skitseres først baggrunden for <strong>og</strong> opbygningen af <strong>Korpus</strong> <strong>2000</strong>,<br />
dernæst vises en række sammenlignende spr<strong>og</strong>undersøgelser mellem <strong>Korpus</strong><br />
<strong>2000</strong> <strong>og</strong> <strong>Korpus</strong> 90 <strong>og</strong> mulige konklusioner diskuteres: afspejler observerbare<br />
forskelle generelle spr<strong>og</strong>lige forandringer – eller bare uensartet sammensatte<br />
korpusser?<br />
På baggrund af eksemplerne opridses kort muligheder for at gøre såvel udarbejdelsen<br />
af korpusser som de undersøgelser, man kan udføre på dem, metodisk<br />
velfunderede. 1<br />
1. Baggrund<br />
<strong>Korpus</strong> <strong>2000</strong> (K<strong>2000</strong>) blev udarbejdet af <strong>Det</strong> <strong>Danske</strong> <strong>Spr<strong>og</strong></strong>- <strong>og</strong> Litteraturselskab<br />
i perioden <strong>2000</strong>-2002. Hensigten med dette projekt var at etablere en stor<br />
samling over eksempler på dansk spr<strong>og</strong>brug – et korpus 2 – omkring år <strong>2000</strong>.<br />
1 Dele af denne artikel, først <strong>og</strong> fremmest undersøgelseseksemplerne, er <strong>og</strong>så indeholdt i<br />
Asmussen (under udgivelse), der desuden giver en mere grundig beskrivelse af de<br />
spr<strong>og</strong>statistiske elementer i <strong>Korpus</strong> <strong>2000</strong>-systemet, <strong>og</strong> som ellers fokuserer på<br />
undersøgelsesmetodol<strong>og</strong>iske <strong>og</strong> korpuskompositoriske overvejelser <strong>og</strong> i denne forbindelse<br />
introducerer ideen om invariante tekstuelle træk (invariant textual features) som en<br />
forudsætning for korpussers diakrone sammenlignelighed.<br />
2<br />
Begrebet korpus bruges i betydningen meget stor digitaliseret samling af (længere<br />
uddrag af) skrevne eller nedskrevne sammenhængende autentiske, objektspr<strong>og</strong>lige tekster;<br />
samlingen skal med hensyn <strong>til</strong> fastlagte teksttypol<strong>og</strong>iske kriterier være struktureret efter et<br />
STU DIE R I NORDISK 2002-2003 17
K<strong>2000</strong> består af tekster eller tekstuddrag fra årene 1998-2002 <strong>og</strong> er på 28 millioner<br />
tekstord. Teksterne stammer fra et bredt udsnit af skrevet dansk, hentet<br />
fra både offentligt <strong>til</strong>gængelige kilder som aviser, bøger, blade, radio, tv, brochurer,<br />
reklamer, tegneserier, <strong>og</strong> fra private tekster som dagbøger, breve, skoles<strong>til</strong>e<br />
osv. K<strong>2000</strong> er s<strong>til</strong>let offentligt <strong>til</strong> rådighed på internettet. 3<br />
Parallelt med K<strong>2000</strong> blev der udarbejdet en særlig version af Den <strong>Danske</strong><br />
Ordb<strong>og</strong>s korpus, 4 <strong>Korpus</strong> 90 (K90), der omfatter 28 millioner tekstord skriftspr<strong>og</strong><br />
fra perioden 1983-1992 <strong>og</strong> dermed indeholder spr<strong>og</strong>ligt materiale, som<br />
er ca. 10-15 år ældre end det, man finder i K<strong>2000</strong>.<br />
Målgruppen for K<strong>2000</strong> <strong>og</strong> K90 er først <strong>og</strong> fremmest lægfolk uden større<br />
spr<strong>og</strong>videnskabelige forudsætninger, men med interesse for spr<strong>og</strong>et. Derfor er<br />
der under opbygningen af korpusserne <strong>og</strong> udviklingen af søgeinterfacet blevet<br />
lagt særlig vægt på at gøre håndteringen af hele systemet så lige<strong>til</strong> som muligt,<br />
så det bliver let<strong>til</strong>gængeligt for alle interesserede. <strong>Det</strong>te indebærer blandt andet,<br />
at den morfol<strong>og</strong>iske <strong>og</strong> syntaktiske opmærkning af korpusserne ikke eksplicit<br />
vises, <strong>og</strong> at der i søgninger med det nuværende interface kun kan indgå ordklasseopmærkningen<br />
som et kriterium. 5<br />
Adgang <strong>til</strong> de to korpusser får man via et fælles webbaseret søgeinterface,<br />
som blev udviklet med særlig henblik på K<strong>2000</strong>-projektet. 6 Ved hjælp af <strong>Korpus</strong><br />
<strong>2000</strong>'s søgesystem 7 er det bl.a. muligt at søge på samtlige forekomster af et<br />
ord eller på en sekvens af ord eller ordklasser, <strong>og</strong> man kan få vist disse forekomster<br />
i forskellige oversigter. Endvidere muliggør interfacet umiddelbare<br />
sammenligninger mellem <strong>Korpus</strong> <strong>2000</strong> <strong>og</strong> <strong>Korpus</strong> 90.<br />
eksplicit princip med henblik på at muliggøre spr<strong>og</strong>brugsundersøgelser, jf. Asmussen<br />
(2001).<br />
3 http://www.korpus<strong>2000</strong>.dk<br />
4<br />
Jf. Norling-Christensen & Asmussen (1998).<br />
5 Den morfosyntaktiske opmærkning er udført af VISL-projektet ved Syddansk<br />
Universitet, jf. Bick (2003a+b). På VISL’s hjemmeside<br />
http://visl.hum.sdu.dk/visl/corpora.html er en delmængde af K90 <strong>og</strong> K<strong>2000</strong> søgbar med<br />
både morfol<strong>og</strong>iske <strong>og</strong> syntaktiske kriterier.<br />
6<br />
En udførlig beskrivelse af principperne for dette interface findes i Andersen et al.<br />
(2002).<br />
7 Som søgemaskine bruges CQP, som er udviklet ved Institut für Maschinelle<br />
Sprachverarbeitung ved universitet i Stuttgart, jf. http://www.ims.unistuttgart.de/projekte/CorpusWorkbench/<br />
<strong>og</strong> Christ (1994). <strong>Det</strong> webbaserede søgeinterface<br />
er udviklet hos DSL.<br />
18 STU DIE R I NORDISK 2002-2003
I det følgende afsnit gives eksempler på en række sammenlignende undersøgelser,<br />
man kan foretage på de to korpusser, <strong>og</strong> mulige fortolkninger af<br />
resultaterne drøftes.<br />
2. Sammenlignende undersøgelser <strong>og</strong> fortolkningen af resultater<br />
Søger man på enkeltord i K<strong>2000</strong>-systemet, vises hyppigheder <strong>og</strong> kollokater i<br />
kontrastive oversigter for K<strong>2000</strong> <strong>og</strong> K90, der muliggør en umiddelbar sammenligning<br />
af ords udbredelse <strong>og</strong> kollokationelle egenskaber i de to korpusser. Således<br />
får brugeren straks et indtryk af de forandringer, der måtte være sket inden<br />
for ordforråd, bøjning <strong>og</strong> kombinatorik/semantik i løbet af den tid, der ligger<br />
mellem udarbejdelsen af de to korpusser. Ulempen ved den kontrastive<br />
præsentation af undersøgelsesresultater er, at brugeren let kan forledes <strong>til</strong> at<br />
drage uhensigtsmæssige slutninger, der giver et forvrænget billede af formodede<br />
spr<strong>og</strong>lige forandringer.<br />
2.1. Ordforråd<br />
En sammenligning af alle ords hyppigheder i K<strong>2000</strong> <strong>og</strong> K90 viser ikke overraskende,<br />
at n<strong>og</strong>le ord forekommer betydeligt oftere i det ene korpus end i det<br />
andet. Hvis man antager, at begge korpusser afspejler deres tids danske spr<strong>og</strong>brug,<br />
altså K90 spr<strong>og</strong>brugen i perioden 1983-1992 <strong>og</strong> K<strong>2000</strong> spr<strong>og</strong>brugen i<br />
perioden 1998-2002, så kan man med en vis rimelighed fortolke hyppighedsforskelle<br />
som forskelle i udbredelsen af de pågældende ord i dansk som helhed.<br />
Figur 1 nedenfor viser, hvordan hyppighederne for formerne af substantivet<br />
regn oplyses i brugerinterfacet: første søjle oplister samtlige mulige bøjningsformer<br />
af lemmaet, anden søjle oplister hver forms hyppighed i K<strong>2000</strong> <strong>og</strong> tredje<br />
søjle de <strong>til</strong>svarende hyppigheder i K90. I nederste række står hyppighederne for<br />
hele lemmaet regn, dvs. summen af alle dets forskellige former. 8 Hyppighederne<br />
oplyses ikke i absolutte tal, men som l<strong>og</strong>aritmiske størrelser i form af mellem<br />
0 <strong>og</strong> 7 røde (på figuren mørke) prikker. Fordelen ved at udtrykke hyppigheden<br />
som en af otte mulige hyppighedsklasser er, at måske <strong>til</strong>fældigt betingede forskelle<br />
i et ords hyppighed i de to korpusser udviskes <strong>til</strong> en vis grad <strong>og</strong> risikoen<br />
for at brugeren fejlfortolker hyppighedsoplysningerne følgelig mindskes n<strong>og</strong>et.<br />
8 <strong>Det</strong> glade ansigt viser, at lemmaets stavning er i overensstemmelse med<br />
Retskrivningsordb<strong>og</strong>ens normering. Hyppighedstabellerne kan <strong>og</strong>så indeholde former <strong>og</strong><br />
stavemåder, der afviger fra den officielle norm – de vil da være markeret med et vredt<br />
ansigt.<br />
STU DIE R I NORDISK 2002-2003 19
Antallet af prikker synes i øvrigt pænt at følge den intuitive fornemmelse af<br />
ords udbredelse i spr<strong>og</strong>et generelt: således er ord med 1-2 prikker forholdsvis<br />
sjældne, fx entomol<strong>og</strong>i, ord med 6-7 prikker er meget hyppige, fx i <strong>og</strong> <strong>og</strong>, mens<br />
ord med 3-5 prikker ligger i den store midtergruppe som fx regn. Som det fremgår<br />
af oversigten, kan der ikke konstateres de store forskelle i hyppighederne<br />
af de forskellige former af regn i de to korpusser, med én undtagelse, nemlig<br />
genitiven regns, som slet ikke forekommer i K<strong>2000</strong>, men scorer én prik i K90.<br />
Den løftede tommelfinger indikerer, at denne form forekommer mindst dobbelt<br />
så hyppigt i K90 som i K<strong>2000</strong>. Selvom tommelfingeren ikke må fortolkes som<br />
et tegn på, at der er tale om en signifikant forskel i statistisk forstand, skal den<br />
rette opmærksomheden på fænomener, som måske kunne være af lingvistisk<br />
relevans. Er man interesseret i at erfare det absolutte antal forekomster af en<br />
form på listen, klikker man på et af forstørrelsesglassene ud for formen, hvorefter<br />
man får vist en KWIC-konkordans over pågældende form sammen med det<br />
absolutte antal forekomster i det pågældende korpus: regns forekommer tre<br />
gange i K90 – en forskel der nok på ingen måde berettiger <strong>til</strong> at konkludere<br />
n<strong>og</strong>et om et skift i dette ords bøjningsmæssige egenskaber. Tværtimod synes<br />
regn – at vurdere ud fra de l<strong>og</strong>aritmiske frekvensoplysninger – at være et ret<br />
stabilt udbredt ord.<br />
Figur 1. Hyppigheder for regn <strong>og</strong> former i K<strong>2000</strong> <strong>og</strong> K90<br />
Anderledes forholder det sig med et ord som mobiltelefon, som scorer fire<br />
prikker i K<strong>2000</strong> mod tre i K90; faktisk er lemmaet ca. 25 gange så hyppigt i<br />
K<strong>2000</strong> (1.586 forekomster) som i K90 (59 forekomster). Hvis man antager, at<br />
et spr<strong>og</strong>s ordforråd afspejler generelle samfundsmæssige forandringer <strong>og</strong><br />
sammenholder dette med den teknol<strong>og</strong>iske udvikling, der er sket fra midtfirserne<br />
<strong>til</strong> senhalvfemserne, er det nærliggende at fortolke den observerede kvantitative<br />
forskel som et udtryk for en faktisk ændring af det danske ordforråd: ordet<br />
mobiltelefon er blevet betydelig mere udbredt i spr<strong>og</strong>et, fordi dets denotat er<br />
det. Tilsvarende eksempler er biltelefon <strong>og</strong> benchmarking: biltelefon, som er<br />
20 STU DIE R I NORDISK 2002-2003
fem gange hyppigere i K90 (51 forekomster, 3 prikker) end i K<strong>2000</strong> (9 forekomster,<br />
2 prikker) betegner et apparat, som stort set er blevet erstattet af mobiltelefoner,<br />
mens benchmarking slet ikke forekommer i K90 mod 34 gange (3<br />
prikker) i K<strong>2000</strong>, hvilket kunne tyde på at ordet er nyt i dansk. Jarvad (1999),<br />
hvis ordb<strong>og</strong> over nye ord i dansk ganske vist ikke beror på en dokumenteret<br />
empirisk, korpusstatistisk fremgangsmåde, <strong>og</strong> som derfor bør konsulteres med<br />
en vis forsigtighed, daterer første brug <strong>til</strong> 1996 – hvilket muligvis støtter antagelsen,<br />
at der her er tale om et nyt låneord. De nævnte eksempler tyder på, at<br />
ændringer i udbredelsen af bestemte ord, som man kan konstatere ved at<br />
sammenligne de to korpusser, afspejler ændrede forhold i samfundet: spr<strong>og</strong> <strong>og</strong><br />
virkelighed følges altså pænt ad, ser det ud <strong>til</strong>.<br />
Et mindre udbredt ord som kambrium forekommer fire gange (2 prikker) i<br />
K90, men findes ikke i K<strong>2000</strong>; det er desuden markeret med en løftet tommelfinger<br />
under K90. En fortolkning, anal<strong>og</strong> <strong>til</strong> dem ovenfor, kunne være, at ordets<br />
udbredelse er i aftagende, måske fordi det betegner n<strong>og</strong>et, som ikke længere har<br />
så stor relevans. En nærmere undersøgelse 9 af, hvilke kilder de fire forekomster<br />
i K90 stammer fra, viser at de er fra tre tekster om geol<strong>og</strong>i, alle fra samme<br />
opslagsværk. 10 K<strong>2000</strong> indeholder derimod ingen <strong>til</strong>svarende tekster. N<strong>og</strong>et<br />
tyder derfor på, at fagområdet geol<strong>og</strong>i er dækket forskelligt i de to korpusser <strong>og</strong><br />
at forskellen i hyppigheden for ordet kambrium siger mere om korpussernes<br />
sammensætning end om spr<strong>og</strong>et som sådant.<br />
Eksemplet viser, at rå forekomsttal ikke umiddelbart bør sammenlignes, især<br />
ikke, hvis de er lave. Selvom den l<strong>og</strong>aritmiske hyppighedsoplysning i K<strong>2000</strong>systemet<br />
<strong>til</strong> en vis grad udjævner hyppighedsforskelle, der kan skyldes <strong>til</strong>fældigheder,<br />
fejler den, når forekomstallene er lave. Målingen af ords hyppighed,<br />
forstået som indikator for deres udbredelse i spr<strong>og</strong>et som helhed, bør ikke blot<br />
udtrykkes i antal forekomster eller en l<strong>og</strong>aritmisk funktion heraf, men bør inddrage<br />
et mål for forekomsternes jævne fordeling over hele korpus (dispersion):<br />
et ord har givetvis en større udbredelse i spr<strong>og</strong>et, hvis det bruges i flere tekster<br />
af flere forfattere over hele korpus end blot mange gange i én tekst eller tekster<br />
af én forfatter eller tekster om ét ganske snævert fagområde.<br />
9 Denne undersøgelse kan ikke udføres direkte i K<strong>2000</strong>-systemet, da der her p.t. ikke er<br />
adgang <strong>til</strong> tekstoplysninger fra konkordanslinjer i K90. Derimod er det muligt at udføre<br />
undersøgelsen med korpussøgesystemet Semaskop på hele Den <strong>Danske</strong> Ordb<strong>og</strong>s korpus,<br />
som kan downloades fra http://korpus.dsl.dk/e-resurser/.<br />
10 Fakta. Gyldendal 1988.<br />
STU DIE R I NORDISK 2002-2003 21
2.2. Bøjning<br />
Sammenligner man ikke hele lemmaer (altså summen af alle bøjningsformer),<br />
men blot bestemte bøjningsformer af en række ord, vil der ofte vise sig markante<br />
hyppighedsforskelle mellem K<strong>2000</strong> <strong>og</strong> K90. I eksemplet regn ovenfor blev<br />
det allerede konstateret, at den indefinitte genitivform regns ikke var repræsenteret<br />
i K<strong>2000</strong> – mod tre forekomster i K90. Selvom dette ikke er statistisk signifikant,<br />
udelukker det ikke, at systemets brugere kan forledes <strong>til</strong> at drage tvivlsomme<br />
slutninger, <strong>til</strong>skyndet både af en løftet tommelfinger <strong>og</strong> måske desuden<br />
af iagttagelsen af, at den definitte genitivform regnens absolut set <strong>og</strong>så<br />
forekommer lidt sjældnere i K<strong>2000</strong> (9 forekomster) end i K90 (12 forekomster).<br />
Elbro (2002) observerer, at visse hyppigt brugte konkrete susbstantiver udviser<br />
færre genitivformer i K<strong>2000</strong> end i K90 <strong>og</strong> antager på baggrund heraf en tendens<br />
i dansk, hvor genitivkonstruktioner <strong>til</strong>tagende erstattes af præpositionsforbindelser;<br />
antagelsen støttes yderligere af, at han kan konstatere forhøjede<br />
forekomsttal for en række præpositioner i K<strong>2000</strong>.<br />
Umiddelbart taler n<strong>og</strong>et for denne antagelse, fx har substantivet bil i alt 393<br />
genitivformer i K<strong>2000</strong> mod 586 i K90 – <strong>og</strong> ganske <strong>til</strong>svarende er resultaterne<br />
for fx cykel, hus <strong>og</strong> mand. Betragter man bil nærmere, viser det sig imidlertid,<br />
at lemmaet med alle bøjningsformer forekommer 10.360 gange i K90 mod kun<br />
8.354 gange i K<strong>2000</strong> – en observation, der næppe vil få n<strong>og</strong>en <strong>til</strong> at antage – i<br />
anal<strong>og</strong>i med genitiv-konklusionen –, at ordet bil er ved at blive erstattet af andre<br />
ord eller vendinger, eller – i anal<strong>og</strong>i med eksemplet biltelefon – at denotatet selv<br />
er ved at forsvinde fra virkeligheden. Derfor bør man nok kun vurdere en forms<br />
kvantitative udbredelse som den (procentuelle) andel, den udgør af samtlige<br />
former af et ord. For ordet bil er andelen af genitivformer i K90 5,7% mod 4,7%<br />
i K<strong>2000</strong> – forskellen synes intuitivt for beskeden <strong>til</strong> at kunne underbygge en<br />
konklusion om markante ændringer i brugen af genitiver. Desuden underbygges<br />
en sådan konklusion ikke af en hel række andre substantiver som fx land eller<br />
Danmark. <strong>Det</strong>, der forekommer mere suspekt end mindre udsving i genitivandelene,<br />
er de markante hyppighedsforskelle for lemmaer som bil (K90: 10.360;<br />
K<strong>2000</strong>: 8.354), land (K90: 21.478; K<strong>2000</strong>: 28.222) eller Danmark (K90:<br />
22.243; K<strong>2000</strong>: 30.730), som kan konstateres mellem de to korpusser – <strong>og</strong>så<br />
selvom de l<strong>og</strong>aritmiske hyppighedsangivelser for disse ord er ens for de to<br />
korpusser. Og det er snarere igen et tegn på to forskelligt sammensatte korpusser<br />
end spr<strong>og</strong>lige forandringer.<br />
Eksemplerne tyder på, at man næppe kan konstatere generelle forandringer<br />
i fleksionssystemet blot ved <strong>til</strong>fældigt at udvælge en række hyppige ord <strong>og</strong><br />
undersøge dem, idet de kvantitative resultater, disse undersøgelser medfører,<br />
virker alt for <strong>til</strong>fældige. Vil man undersøge spr<strong>og</strong>lige forandringer, der vedrører<br />
fleksionssystemet, burde man vel snarere undersøge fænomenet – i dette <strong>til</strong>fæl-<br />
22 STU DIE R I NORDISK 2002-2003
de altså andelen af genitivformer – blandt samtlige substantiviske former i hele<br />
korpus – et forhold, som Elbro i øvrigt udtrykkeligt anfører.<br />
2.3. Kollokation<br />
K<strong>2000</strong>-systemet kan vise både hyppige <strong>og</strong> typiske kollokater (“naboer”) <strong>til</strong> ord.<br />
Hyppige kollokater giver oplysninger om et ords funktionelle kombinatoriske<br />
egenskaber, fx hvilke præpositioner de hyppigt optræder sammen med. Hyppige<br />
kollokater bestemmes ganske enkelt ved at tælle, hvilke ord der hyppigst optræder<br />
i den umiddelbare omgivelse af det ord, man undersøger. De otte hyppigste<br />
kollokater <strong>til</strong> venstre for lemmaet debat i K90 er eksempelvis en, i, den, <strong>til</strong>,<br />
offentlige, <strong>og</strong>, den <strong>og</strong> under. Typiske kollokater derimod bestemmes vha. en<br />
statistisk metode, mutual information, 11 <strong>og</strong> fremhæver ord, der især <strong>til</strong>trækkes<br />
af det undersøgte ord, men ikke i nær samme grad af det overvejende flertal af<br />
andre ord i korpus. Resultatet er et indtryk af ordets semantiske kombinatoriske<br />
egenskaber – de ti mest typiske kollokater <strong>til</strong> venstre for lemmaet debat i K<strong>2000</strong><br />
er heftig, følelsesladet, offentlig, saglig, folkelig, livlig, konstruktiv <strong>og</strong> heftige.<br />
Kollokater vises i K<strong>2000</strong>-systemet som tabeller med fire kolonner: én for<br />
hhv. højre- <strong>og</strong> venstrekollokater for hvert af de to korpusser. Kollokaterne er<br />
sorteret i faldende orden efter antal samforekomster (hyppighed) eller efter<br />
deres mutual information score (typiskhed). Både antal samforekomster samt<br />
scoren udtrykkes ikke som absolutte talværdier, men omregnes <strong>til</strong> et antal prikker<br />
(1-5), der synes bedre egnet <strong>til</strong> at visualisere kollokaters ‘tyngde’. Figur 2<br />
viser som eksempel de typiske kollokater for lemmaet terrorist.<br />
Figur 2. Typiske kollokater for terrorist<br />
Oversigten i figur 2 kan fortolkes på følgende måde: et af de træk ved terrorist,<br />
11<br />
Jf. Church&Hanks (1989) eller Church et al. (1991). I K<strong>2000</strong>-systemet er mutual<br />
information modificeret med en række filtre, der bl.a. reducerer statistisk støj, jf.<br />
Asmussen (under udgivelse).<br />
STU DIE R I NORDISK 2002-2003 23
som åbenbart ikke ændrer sig i løbet af det tidsrum, der ligger imellem de to<br />
korpusser, er eftersøgte <strong>og</strong> palæstinensiske, hvorimod vesttyske ikke længere<br />
synes at være et typisk træk i K<strong>2000</strong>, men derimod mange andre nationaliteter,<br />
en religiøs orientering, eller bare international. I K<strong>2000</strong> k<strong>nytte</strong>s terrorist enten<br />
<strong>til</strong> bestemte personer eller organisationer, mens dræbt (i aktiv eller passiv) er<br />
et fremherskende træk i K90. <strong>Det</strong> større antal kollokater i K<strong>2000</strong> er et tegn på,<br />
at ordet terrorist er mere udbredt her, <strong>og</strong> det viser sig da <strong>og</strong>så, at lemmaet forekommer<br />
næsten dobbelt så hyppigt i K<strong>2000</strong> (477) som i K90 (253) – hvis ikke<br />
dette bør tolkes som endnu et tegn på, at de to korpusser er sammensat forskelligt.<br />
Alligevel synes resultaterne at afspejle generelle træk ved den danske<br />
samfundsdebat om dette emne: ens historiske viden hjælper en <strong>til</strong> at forstå både<br />
ændringer <strong>og</strong> konstanter i dette ords kollokative egenskaber.<br />
For et ord som jul må man derimod antage en vis kollokativ stabilitet over<br />
en periode på kun ca. 10 år, da ordet vel overvejende bruges i stærkt traditionsbundne<br />
sammenhænge – <strong>og</strong> <strong>til</strong>svarende finder man hovedparten af de fundne<br />
kollokater i begge korpusser, fx glædelig, fejre eller – <strong>til</strong> højre for jul – nytår.<br />
<strong>Det</strong>, der imidlertid kan undre en, er, at antallet af kollokater er n<strong>og</strong>et større for<br />
K90 end for K<strong>2000</strong>, hvilket skyldes at jul er betydeligt hyppigere i K90 (2.196<br />
forekomster) end i K<strong>2000</strong> (1.275 forekomster) – sandsynligvis endnu et tegn på<br />
en uensartet sammensætning af de to korpusser. <strong>Det</strong>te afspejler sig så <strong>og</strong>så i, at<br />
en kollokation som hvid jul ikke dukker op i oversigten for K<strong>2000</strong>: selvom<br />
kollokationen faktisk forekommer to gange i K<strong>2000</strong> (mod 27 i K90), er den<br />
statistisk set ikke udpræget nok <strong>til</strong> at blive udtrukket af kollokationsalgoritmen.<br />
Eksemplet viser, at <strong>til</strong>fældige hyppighedsforskelle i et ellers ret udbredt ord, kan<br />
have en afgørende indflydelse på statistisk fremfinding af stadig gyldige kollokationer.<br />
Eksemplet viser <strong>og</strong>så, at en sammenligning af kollokater bestemt på<br />
baggrund af et ord, hvis hyppighed er markant forskellig i de to korpusser, ikke<br />
nødvendigvis giver et realistisk indtryk af ændringer i dets kollokative egenskaber:<br />
selvom et ord faktisk bruges mindre, betyder det jo ikke, at dets kollokative<br />
egenskaber har ændret sig af den grund, men dets ellers veletablerede kollokater<br />
kan ikke nødvendigvis længere bestemmes vha. en statistisk kollokabilitetsanalyse.<br />
Modsat vil den statistiske kollokabilitetsanalyse i visse <strong>til</strong>fælde udpege ord,<br />
som intuitivt ikke kan betragtes som kollokater <strong>til</strong> et ord. Udfører man en kollokabilitetsanalyse<br />
på juletræ, får man som ventet bl.a. pynte <strong>og</strong> danse (rundt om),<br />
men i K<strong>2000</strong> får man som det mest markante venstrekollokat talende! En nærmere<br />
undersøgelse af konkordansen med de konkrete forekomster af talende<br />
juletræ viser, at de alle stammer fra en <strong>og</strong> samme tekst. 12 Eksemplet viser, at de<br />
12 En julehistorie fra fyldepennen.dk.<br />
24 STU DIE R I NORDISK 2002-2003
ene forekomsttal, et ord har i hele korpus, heller ikke bør lægges umiddelbart<br />
<strong>til</strong> grund for kollokabilitetsberegningen – <strong>og</strong>så her burde man i virkeligheden<br />
operere med en dispersionsbaseret korrektion, der ville kunne undertrykke ad<br />
hoc-kollokationer som talende juletræ, som alene skyldes én speciel tekst i<br />
korpus.<br />
2.4. Semantik<br />
Nært beslægtet med kollokation er mange ords tendens <strong>til</strong> at indgå i helt bestemte<br />
kontekstuelt betingede semantiske sammenhæng, eksempelvis vil man<br />
typisk finde sund fornuft, næppe syg fornuft, mens bivirkning sjældent vil blive<br />
kendetegnet som uskadelig, men ofte som skadelig – et semantisk fænomen,<br />
som bl.a. Rundell (2002) betegner som “semantisk prosodi”. 13 Mange leksemer<br />
indgår således i en ganske bestemt semantisk kontekst, der restringerer deres<br />
semantiske kombinatoriske egenskaber. Ordet sideeffekt, 14 som har 11 forekomster<br />
i K90 <strong>og</strong> 22 i K<strong>2000</strong>, er sandsynligvis et relativt nyt låneord fra engelsk, om<br />
end ikke registreret i Jarvad (1999). Da betydningen af engelsk side effect kan<br />
ækvivaleres med den, bivirkning har på dansk, kan man argumentere, at sideeffekt<br />
vel egentlig er overflødig på dansk. Omtrent halvdelen af forekomsterne af<br />
sideeffekt i K90 viser ordet i en tydelig negativ kontekst, der afslører, at sideeffekt<br />
er n<strong>og</strong>et u<strong>til</strong>sigtet skadeligt, <strong>og</strong> ordet indgår i semantiske kontekster, der er<br />
ganske parallelle med dem for bivirkning. I K<strong>2000</strong> er billedet derimod et n<strong>og</strong>et<br />
andet: ordet bruges stadigvæk om n<strong>og</strong>et u<strong>til</strong>sigtet, men nu positivt, egentlig vel<br />
svarende <strong>til</strong> betydningen af sidegevinst – en del af forekomsterne modificeret<br />
af adjektivet positiv, jf. figur 3.<br />
13 Rundell (2002) betragter fænomenet som en særlig leksik<strong>og</strong>rafisk udfordring, idet det<br />
ofte kun vanskeligt lader sig beskrive i ordbøger, samtidig med at det kan være af<br />
afgørende betydning for acceptabel spr<strong>og</strong>brug.<br />
14 Forfatteren blev gjort opmærksom på dette eksempel af Henrik Gottlieb, Engelsk<br />
Institut, KU.<br />
Figur 3. “Semantisk prosodi” for sideeffekt<br />
STU DIE R I NORDISK 2002-2003 25
Spørgsmålet er nu, hvorvidt sideeffekt-eksemplerne fra K90 <strong>og</strong> K<strong>2000</strong> empirisk<br />
kan støtte konklusionen, at sideeffekt faktisk har ændret dets semantisk-prosodiske<br />
egenskaber fra de oprindelige engelske <strong>til</strong> en mere selvstændig dansk ‘positiv<br />
bivirkning’, <strong>og</strong> dermed måske har fundet en semantisk niche i dansk. Hvor<br />
mange eksempler på et ords måske ændrede semantik har man brug for, før man<br />
med sikkerhed kan udelukke korpuskompositionel støj <strong>og</strong> kan fremsætte generelle<br />
udsagn om bestemte semantiske forandringer i et spr<strong>og</strong> som helhed?<br />
2.5. Ordtopol<strong>og</strong>i<br />
Der skal gives ét eksempel på sammenlignende ordtopol<strong>og</strong>iske undersøgelser<br />
for at illustrere de metodiske problemer, der k<strong>nytte</strong>r sig her<strong>til</strong>. Almindeligvis<br />
betragtes hovedsætningsords<strong>til</strong>ling af ikke i bisætninger som substandard som<br />
fx i ? Anne serverer kaffe, fordi Peter drikker ikke te. <strong>Det</strong> skal undersøges, hvor<br />
udbredt denne konstruktion, der måske især forekommer i talespr<strong>og</strong>, er i de to<br />
skriftspr<strong>og</strong>lige korpusser. Intuitivt – eller måske <strong>og</strong>så ud fra en antagelse om,<br />
at talespr<strong>og</strong>et determinerer skriftspr<strong>og</strong>et – skulle man forvente, at den ikkekanoniske<br />
placering af ikke i bisætninger er mere udbredt i K<strong>2000</strong> end i K90.<br />
Om end en <strong>til</strong>bundsgående undersøgelse med det eksisterende søgesystem ikke<br />
umiddelbart er mulig, viser undersøgelser af bestemte ordtopol<strong>og</strong>iske mønstre,<br />
fx en søgning på sekvensen at-pronomen-verbum-ikke, at den ikke-kanoniske<br />
placering af ikke er mere udbredt i K90 end i K<strong>2000</strong> – figur 4 viser en række<br />
eksempler.<br />
Figur 4. Eksempler fra K90 på ikke-kanonisk placering af ikke<br />
3. <strong>Korpus</strong> <strong>2000</strong> – <strong>til</strong> <strong>hvilken</strong> <strong>nytte</strong>?<br />
Eksemplerne ovenfor viser, at sammenlignende korpusundersøgelser i en række<br />
<strong>til</strong>fælde kan medføre tvivlsomme fortolkninger <strong>og</strong> generaliseringer vedrørende<br />
spr<strong>og</strong>lige forandringer – <strong>og</strong> man må derfor spørge, hvad man d<strong>og</strong> skal med et<br />
korpus, der ganske vist påstås at kunne bruges <strong>til</strong> empiriske spr<strong>og</strong>undersøgelser,<br />
26 STU DIE R I NORDISK 2002-2003
der d<strong>og</strong> så alligevel er præget af <strong>til</strong>fældigheder <strong>og</strong> unøjagtigheder i en grad, så<br />
man er henvist <strong>til</strong> sin egen spr<strong>og</strong>lige intuition, når man skal vurdere undersøgelsesresultaterne.<br />
Problemet er d<strong>og</strong> næppe brugen af et korpus som sådan, men<br />
snarere de metoder, man lægger <strong>til</strong> grund for korpusbaserede undersøgelser i<br />
almindelighed <strong>og</strong> for sammenlignende undersøgelser i særdeleshed.<br />
En grundlæggende metodisk vanskelighed ved korpusbaserede spr<strong>og</strong>undersøgelser<br />
er muligheden for at kvantificere spr<strong>og</strong>lige fænomener, mens traditionelle<br />
spr<strong>og</strong>undersøgelser ofte tager udgangspunkt i en kvalitativ beskrivelse af<br />
et bestemt spr<strong>og</strong>ligt fænomen, som man – måske <strong>til</strong>fældigt – er stødt på. Undersøgelsens<br />
fokus forskydes altså i korpusbaserede undersøgelser let fra en<br />
beskrivelse af hvad man ser, <strong>til</strong> en beskrivelse af, hvor meget man ser – hvor<br />
idealet måske burde være en kombination: både beskrivelsen af et fænomen <strong>og</strong><br />
dets måske skiftende udbredelse.<br />
Her<strong>til</strong> kommer, at de forekomsttal, man umiddelbart ser ved sammenligningen<br />
af to korpusser, ikke nødvendigvis er sammenlignelige. I den fysiske verden<br />
er det for de fleste evident, at én kilometer er mere end ti kilometer, men om én<br />
kilometer er meget eller lidt, afhænger <strong>og</strong>så af den kontekst, hvori mængedeangivelsen<br />
bliver brugt. Ti kilometer kan således være en ganske betragtelig<br />
vejlængde, hvis den skal <strong>til</strong>bagelægges <strong>til</strong> fods, mens den samme vejlængde<br />
<strong>til</strong>bagelagt i bil er knapt så imponerende. Ganske <strong>til</strong>svarende gælder for de<br />
forekomsttal, man finder i et korpus: de giver ingen mening i sig selv, men kun<br />
i forhold <strong>til</strong> n<strong>og</strong>et andet, indenfor en kontekst – det er således ganske intetsigende,<br />
at konstatere at mand har 1.936 genitivformer i K90 mod 1.606 i K<strong>2000</strong>, når<br />
man ikke i det mindste sætter disse tal i forhold <strong>til</strong>, hvor mange forekomster<br />
lemmaet mand har i de to korpusser: gør man det, finder man, at andelen af<br />
genitivformer for lemmaet mand er 2,0% i begge korpusser. Med andre ord kan<br />
forekomsttal aldrig tages for pålydende i korpusundersøgelser, <strong>og</strong> for hver type<br />
undersøgelse kræves der en række metodiske overvejelser, inden man giver sig<br />
<strong>til</strong> at konkludere. Som K<strong>2000</strong>'s søgesystem er opbygget nu, får brugeren i virkeligheden<br />
ikke megen metodisk hjælp – det overlades i vid udstrækning <strong>til</strong> brugeren<br />
selv at fortolke de kvantitative resultater hensigtsmæssigt. Så selvom sigtet<br />
med K<strong>2000</strong>'s webbaserede søgesystem var, at gøre det let for enhver spr<strong>og</strong>interesseret<br />
af lave sine egene spr<strong>og</strong>lige undersøgelser, bidrager grænsefladen<br />
ikke <strong>til</strong> at minimere metodiske fejlgreb – en ulempe, som fremtidige versioner<br />
af grænsefladen bør råde bod på.<br />
Her<strong>til</strong> kommer så spørgsmålet, hvad sammenlignelighed af korpusser egentlig<br />
vil sige. K90's <strong>og</strong> K<strong>2000</strong>'s sammensætning er <strong>til</strong>stræbt identiske, men i<br />
praksis, dvs. i de viste eksempler, er der n<strong>og</strong>et, der tyder på, at sammensætningen<br />
ikke kan være så identisk endda. <strong>Det</strong> gælder først <strong>og</strong> fremmest forskelle i<br />
udbredelsen af bestemte lemmaer, som man intuitivt skulle mene havde en<br />
STU DIE R I NORDISK 2002-2003 27
konstant udbredelse i spr<strong>og</strong>et inden for en tidsramme af ca. 10 år, fx bil, jul,<br />
mand osv. Og ganske rigtigt er det især andelen af avismateriale i de to korpusser,<br />
som er meget forskelligt, ca. en tredjedel i K90 mod to tredjedele i K<strong>2000</strong>.<br />
<strong>Det</strong>te rejser spørgsmålet, hvordan man sikrer sammenlignelighed af to korpusser<br />
mht. <strong>til</strong> en bestemt dimension, i dette <strong>til</strong>fælde tidsdimensionen: hvordan<br />
burde et K90 <strong>og</strong> et K<strong>2000</strong> sammensættes, så man kunne være sikker på, at de<br />
forskelle, man kan konstatere imellem dem, vitterligt er sikre indicier på tidsbestemte<br />
spr<strong>og</strong>lige forandringer?<br />
Løsningen på de skitserede problems<strong>til</strong>linger må findes i udviklingen af en<br />
generel metodol<strong>og</strong>i for korpusdesign <strong>og</strong> -ud<strong>nytte</strong>lse – et område, som <strong>Det</strong> <strong>Danske</strong><br />
<strong>Spr<strong>og</strong></strong>- <strong>og</strong> Litteraturselskab trods beskedne resurser arbejder indenfor med<br />
henblik på at kunne forbedre kvaliteten både af de eksisterende korpusser <strong>og</strong> af<br />
de søgesystemer, der k<strong>nytte</strong>r sig <strong>til</strong> dem. Målet for 2004 er at kunne lancere et<br />
forbedret webinterface for K<strong>2000</strong>, hvori der vil være taget højde for en hel<br />
række af de søgemetodiske problems<strong>til</strong>linger, som blev skitseret i dette bidrag.<br />
Litteratur<br />
Andersen, M.S., Asmussen, H., Asmussen, J. (2002): The Project of <strong>Korpus</strong><br />
<strong>2000</strong> Going Public; in: A. Braasch and C. Povlsen (eds.): Proceedings of the<br />
Tenth EURALEX International Congress, EURALEX 2002, København.<br />
Asmussen, J. (2001): <strong>Korpus</strong> <strong>2000</strong>. Et overblik over projektets baggrund, fremgangsmåder<br />
<strong>og</strong> perspektiver. NyS 30. Nydanske studier & almen kommunikationsteori,<br />
København.<br />
Asmussen, J. (under udgivelse): Towards a methodol<strong>og</strong>y for corpus-based<br />
studies of linguistic change. Contrastive observations and their possible<br />
diachronic interpretations in the <strong>Korpus</strong> <strong>2000</strong> and <strong>Korpus</strong> 90 Corpora of<br />
Danish; in: Archer, Rayson, Wilson (eds.): Corpus Linguistics Around the<br />
World. Rodopi, Amsterdam.<br />
Bick, E. (2003a): Morfosyntaktisk opmærkede corpora for dansk: <strong>Korpus</strong><br />
90/<strong>2000</strong> <strong>og</strong> Arboretum; in: 9. Møde om Udforskningen af Dansk <strong>Spr<strong>og</strong></strong> 10.-<br />
11. oktober 2002. Proceedings. Aarhus Universitet.<br />
Bick, E. (2003b): A CG & PSG hybrid approach to automatic corpus annotation;<br />
in: Simov, K. & Osenova P. (eds.): Proceedings of the Workshop on<br />
Shallow Processing of Large Corpora (SProLaC 2003) held in conjunction<br />
with the Corpus Linguistics 2003 Conference. UCREL technical paper no.<br />
17. UCREL, Lancaster University.<br />
28 STU DIE R I NORDISK 2002-2003
Christ, O. (1994): A modular and flexible architecture for an integrated corpus<br />
query system. COMPLEX’94 Proceedings, Budapest.<br />
Church, K. & P. Hanks (1989): Word association norms, mutual information<br />
and lexic<strong>og</strong>raphy. ACL Proceedings, 27 th Annual Meeting, Vancouver.<br />
Church, K. et al. (1991): Using Statistics in Lexical Analysis; in: Zernik (ed.):<br />
Lexical Acquisition. Exploiting On-Line Resources to Build a Lexicon.<br />
Hillsdale, New Jersey 1991.<br />
Elbro, C. (2002): Ift, ifm, mht, mhp <strong>og</strong> andre uspecifikke præpositioner. Mål <strong>og</strong><br />
Mæle 3:2002, København, pp. 17-23.<br />
Jarvad, P. (1999): Nye Ord. Ordb<strong>og</strong> over nye ord i dansk 1955-1998. København.<br />
Norling-Christensen, O. & J. Asmussen (1998): The Corpus of The Danish<br />
Dictionary; in: Lexikos 8, Afrilex Series 8:1998, Stellenbosch, pp. 223-242.<br />
Rundell, M. (2002): Good Old-fashioned Lexic<strong>og</strong>raphy: Human Judgment and<br />
the Limits of Automation; in M-H. Corréard (ed.): Lexic<strong>og</strong>raphy and Natural<br />
Language Processing. A Festschrift in Honour of B.T.S. Atkins.<br />
EURALEX 2002.<br />
STU DIE R I NORDISK 2002-2003 29