Korpus 2000 ? til hvilken nytte? - Det Danske Sprog- og ...

korpus.dsl.dk

Korpus 2000 ? til hvilken nytte? - Det Danske Sprog- og ...

Korpus 2000til hvilken nytte?

Muligheder og grænser for empiriske

sprogundersøgelser

JØRG ASMUSSEN

Korpus 2000 er et korpus over dansk skriftsprog omkring år 2000 udarbejdet

med henblik på at give alle sproginteresserede et redskab til at undersøge dansk

sprogbrug med. Korpus 2000 er gjort tilgængelig på internettet parallelt med det

10-15 år ældre Korpus 90, en særlig bearbejdet delmængde af Den Danske

Ordbogs korpus.

I bidraget skitseres først baggrunden for og opbygningen af Korpus 2000,

dernæst vises en række sammenlignende sprogundersøgelser mellem Korpus

2000 og Korpus 90 og mulige konklusioner diskuteres: afspejler observerbare

forskelle generelle sproglige forandringer – eller bare uensartet sammensatte

korpusser?

På baggrund af eksemplerne opridses kort muligheder for at gøre såvel udarbejdelsen

af korpusser som de undersøgelser, man kan udføre på dem, metodisk

velfunderede. 1

1. Baggrund

Korpus 2000 (K2000) blev udarbejdet af Det Danske Sprog- og Litteraturselskab

i perioden 2000-2002. Hensigten med dette projekt var at etablere en stor

samling over eksempler på dansk sprogbrug – et korpus 2 – omkring år 2000.

1 Dele af denne artikel, først og fremmest undersøgelseseksemplerne, er også indeholdt i

Asmussen (under udgivelse), der desuden giver en mere grundig beskrivelse af de

sprogstatistiske elementer i Korpus 2000-systemet, og som ellers fokuserer på

undersøgelsesmetodologiske og korpuskompositoriske overvejelser og i denne forbindelse

introducerer ideen om invariante tekstuelle træk (invariant textual features) som en

forudsætning for korpussers diakrone sammenlignelighed.

2

Begrebet korpus bruges i betydningen meget stor digitaliseret samling af (længere

uddrag af) skrevne eller nedskrevne sammenhængende autentiske, objektsproglige tekster;

samlingen skal med hensyn til fastlagte teksttypologiske kriterier være struktureret efter et

STU DIE R I NORDISK 2002-2003 17


K2000 består af tekster eller tekstuddrag fra årene 1998-2002 og er på 28 millioner

tekstord. Teksterne stammer fra et bredt udsnit af skrevet dansk, hentet

fra både offentligt tilgængelige kilder som aviser, bøger, blade, radio, tv, brochurer,

reklamer, tegneserier, og fra private tekster som dagbøger, breve, skolestile

osv. K2000 er stillet offentligt til rådighed på internettet. 3

Parallelt med K2000 blev der udarbejdet en særlig version af Den Danske

Ordbogs korpus, 4 Korpus 90 (K90), der omfatter 28 millioner tekstord skriftsprog

fra perioden 1983-1992 og dermed indeholder sprogligt materiale, som

er ca. 10-15 år ældre end det, man finder i K2000.

Målgruppen for K2000 og K90 er først og fremmest lægfolk uden større

sprogvidenskabelige forudsætninger, men med interesse for sproget. Derfor er

der under opbygningen af korpusserne og udviklingen af søgeinterfacet blevet

lagt særlig vægt på at gøre håndteringen af hele systemet så ligetil som muligt,

så det bliver lettilgængeligt for alle interesserede. Dette indebærer blandt andet,

at den morfologiske og syntaktiske opmærkning af korpusserne ikke eksplicit

vises, og at der i søgninger med det nuværende interface kun kan indgå ordklasseopmærkningen

som et kriterium. 5

Adgang til de to korpusser får man via et fælles webbaseret søgeinterface,

som blev udviklet med særlig henblik på K2000-projektet. 6 Ved hjælp af Korpus

2000's søgesystem 7 er det bl.a. muligt at søge på samtlige forekomster af et

ord eller på en sekvens af ord eller ordklasser, og man kan få vist disse forekomster

i forskellige oversigter. Endvidere muliggør interfacet umiddelbare

sammenligninger mellem Korpus 2000 og Korpus 90.

eksplicit princip med henblik på at muliggøre sprogbrugsundersøgelser, jf. Asmussen

(2001).

3 http://www.korpus2000.dk

4

Jf. Norling-Christensen & Asmussen (1998).

5 Den morfosyntaktiske opmærkning er udført af VISL-projektet ved Syddansk

Universitet, jf. Bick (2003a+b). På VISL’s hjemmeside

http://visl.hum.sdu.dk/visl/corpora.html er en delmængde af K90 og K2000 søgbar med

både morfologiske og syntaktiske kriterier.

6

En udførlig beskrivelse af principperne for dette interface findes i Andersen et al.

(2002).

7 Som søgemaskine bruges CQP, som er udviklet ved Institut für Maschinelle

Sprachverarbeitung ved universitet i Stuttgart, jf. http://www.ims.unistuttgart.de/projekte/CorpusWorkbench/

og Christ (1994). Det webbaserede søgeinterface

er udviklet hos DSL.

18 STU DIE R I NORDISK 2002-2003


I det følgende afsnit gives eksempler på en række sammenlignende undersøgelser,

man kan foretage på de to korpusser, og mulige fortolkninger af

resultaterne drøftes.

2. Sammenlignende undersøgelser og fortolkningen af resultater

Søger man på enkeltord i K2000-systemet, vises hyppigheder og kollokater i

kontrastive oversigter for K2000 og K90, der muliggør en umiddelbar sammenligning

af ords udbredelse og kollokationelle egenskaber i de to korpusser. Således

får brugeren straks et indtryk af de forandringer, der måtte være sket inden

for ordforråd, bøjning og kombinatorik/semantik i løbet af den tid, der ligger

mellem udarbejdelsen af de to korpusser. Ulempen ved den kontrastive

præsentation af undersøgelsesresultater er, at brugeren let kan forledes til at

drage uhensigtsmæssige slutninger, der giver et forvrænget billede af formodede

sproglige forandringer.

2.1. Ordforråd

En sammenligning af alle ords hyppigheder i K2000 og K90 viser ikke overraskende,

at nogle ord forekommer betydeligt oftere i det ene korpus end i det

andet. Hvis man antager, at begge korpusser afspejler deres tids danske sprogbrug,

altså K90 sprogbrugen i perioden 1983-1992 og K2000 sprogbrugen i

perioden 1998-2002, så kan man med en vis rimelighed fortolke hyppighedsforskelle

som forskelle i udbredelsen af de pågældende ord i dansk som helhed.

Figur 1 nedenfor viser, hvordan hyppighederne for formerne af substantivet

regn oplyses i brugerinterfacet: første søjle oplister samtlige mulige bøjningsformer

af lemmaet, anden søjle oplister hver forms hyppighed i K2000 og tredje

søjle de tilsvarende hyppigheder i K90. I nederste række står hyppighederne for

hele lemmaet regn, dvs. summen af alle dets forskellige former. 8 Hyppighederne

oplyses ikke i absolutte tal, men som logaritmiske størrelser i form af mellem

0 og 7 røde (på figuren mørke) prikker. Fordelen ved at udtrykke hyppigheden

som en af otte mulige hyppighedsklasser er, at måske tilfældigt betingede forskelle

i et ords hyppighed i de to korpusser udviskes til en vis grad og risikoen

for at brugeren fejlfortolker hyppighedsoplysningerne følgelig mindskes noget.

8 Det glade ansigt viser, at lemmaets stavning er i overensstemmelse med

Retskrivningsordbogens normering. Hyppighedstabellerne kan også indeholde former og

stavemåder, der afviger fra den officielle norm – de vil da være markeret med et vredt

ansigt.

STU DIE R I NORDISK 2002-2003 19


Antallet af prikker synes i øvrigt pænt at følge den intuitive fornemmelse af

ords udbredelse i sproget generelt: således er ord med 1-2 prikker forholdsvis

sjældne, fx entomologi, ord med 6-7 prikker er meget hyppige, fx i og og, mens

ord med 3-5 prikker ligger i den store midtergruppe som fx regn. Som det fremgår

af oversigten, kan der ikke konstateres de store forskelle i hyppighederne

af de forskellige former af regn i de to korpusser, med én undtagelse, nemlig

genitiven regns, som slet ikke forekommer i K2000, men scorer én prik i K90.

Den løftede tommelfinger indikerer, at denne form forekommer mindst dobbelt

så hyppigt i K90 som i K2000. Selvom tommelfingeren ikke må fortolkes som

et tegn på, at der er tale om en signifikant forskel i statistisk forstand, skal den

rette opmærksomheden på fænomener, som måske kunne være af lingvistisk

relevans. Er man interesseret i at erfare det absolutte antal forekomster af en

form på listen, klikker man på et af forstørrelsesglassene ud for formen, hvorefter

man får vist en KWIC-konkordans over pågældende form sammen med det

absolutte antal forekomster i det pågældende korpus: regns forekommer tre

gange i K90 – en forskel der nok på ingen måde berettiger til at konkludere

noget om et skift i dette ords bøjningsmæssige egenskaber. Tværtimod synes

regn – at vurdere ud fra de logaritmiske frekvensoplysninger – at være et ret

stabilt udbredt ord.

Figur 1. Hyppigheder for regn og former i K2000 og K90

Anderledes forholder det sig med et ord som mobiltelefon, som scorer fire

prikker i K2000 mod tre i K90; faktisk er lemmaet ca. 25 gange så hyppigt i

K2000 (1.586 forekomster) som i K90 (59 forekomster). Hvis man antager, at

et sprogs ordforråd afspejler generelle samfundsmæssige forandringer og

sammenholder dette med den teknologiske udvikling, der er sket fra midtfirserne

til senhalvfemserne, er det nærliggende at fortolke den observerede kvantitative

forskel som et udtryk for en faktisk ændring af det danske ordforråd: ordet

mobiltelefon er blevet betydelig mere udbredt i sproget, fordi dets denotat er

det. Tilsvarende eksempler er biltelefon og benchmarking: biltelefon, som er

20 STU DIE R I NORDISK 2002-2003


fem gange hyppigere i K90 (51 forekomster, 3 prikker) end i K2000 (9 forekomster,

2 prikker) betegner et apparat, som stort set er blevet erstattet af mobiltelefoner,

mens benchmarking slet ikke forekommer i K90 mod 34 gange (3

prikker) i K2000, hvilket kunne tyde på at ordet er nyt i dansk. Jarvad (1999),

hvis ordbog over nye ord i dansk ganske vist ikke beror på en dokumenteret

empirisk, korpusstatistisk fremgangsmåde, og som derfor bør konsulteres med

en vis forsigtighed, daterer første brug til 1996 – hvilket muligvis støtter antagelsen,

at der her er tale om et nyt låneord. De nævnte eksempler tyder på, at

ændringer i udbredelsen af bestemte ord, som man kan konstatere ved at

sammenligne de to korpusser, afspejler ændrede forhold i samfundet: sprog og

virkelighed følges altså pænt ad, ser det ud til.

Et mindre udbredt ord som kambrium forekommer fire gange (2 prikker) i

K90, men findes ikke i K2000; det er desuden markeret med en løftet tommelfinger

under K90. En fortolkning, analog til dem ovenfor, kunne være, at ordets

udbredelse er i aftagende, måske fordi det betegner noget, som ikke længere har

så stor relevans. En nærmere undersøgelse 9 af, hvilke kilder de fire forekomster

i K90 stammer fra, viser at de er fra tre tekster om geologi, alle fra samme

opslagsværk. 10 K2000 indeholder derimod ingen tilsvarende tekster. Noget

tyder derfor på, at fagområdet geologi er dækket forskelligt i de to korpusser og

at forskellen i hyppigheden for ordet kambrium siger mere om korpussernes

sammensætning end om sproget som sådant.

Eksemplet viser, at rå forekomsttal ikke umiddelbart bør sammenlignes, især

ikke, hvis de er lave. Selvom den logaritmiske hyppighedsoplysning i K2000systemet

til en vis grad udjævner hyppighedsforskelle, der kan skyldes tilfældigheder,

fejler den, når forekomstallene er lave. Målingen af ords hyppighed,

forstået som indikator for deres udbredelse i sproget som helhed, bør ikke blot

udtrykkes i antal forekomster eller en logaritmisk funktion heraf, men bør inddrage

et mål for forekomsternes jævne fordeling over hele korpus (dispersion):

et ord har givetvis en større udbredelse i sproget, hvis det bruges i flere tekster

af flere forfattere over hele korpus end blot mange gange i én tekst eller tekster

af én forfatter eller tekster om ét ganske snævert fagområde.

9 Denne undersøgelse kan ikke udføres direkte i K2000-systemet, da der her p.t. ikke er

adgang til tekstoplysninger fra konkordanslinjer i K90. Derimod er det muligt at udføre

undersøgelsen med korpussøgesystemet Semaskop på hele Den Danske Ordbogs korpus,

som kan downloades fra http://korpus.dsl.dk/e-resurser/.

10 Fakta. Gyldendal 1988.

STU DIE R I NORDISK 2002-2003 21


2.2. Bøjning

Sammenligner man ikke hele lemmaer (altså summen af alle bøjningsformer),

men blot bestemte bøjningsformer af en række ord, vil der ofte vise sig markante

hyppighedsforskelle mellem K2000 og K90. I eksemplet regn ovenfor blev

det allerede konstateret, at den indefinitte genitivform regns ikke var repræsenteret

i K2000 – mod tre forekomster i K90. Selvom dette ikke er statistisk signifikant,

udelukker det ikke, at systemets brugere kan forledes til at drage tvivlsomme

slutninger, tilskyndet både af en løftet tommelfinger og måske desuden

af iagttagelsen af, at den definitte genitivform regnens absolut set og

forekommer lidt sjældnere i K2000 (9 forekomster) end i K90 (12 forekomster).

Elbro (2002) observerer, at visse hyppigt brugte konkrete susbstantiver udviser

færre genitivformer i K2000 end i K90 og antager på baggrund heraf en tendens

i dansk, hvor genitivkonstruktioner tiltagende erstattes af præpositionsforbindelser;

antagelsen støttes yderligere af, at han kan konstatere forhøjede

forekomsttal for en række præpositioner i K2000.

Umiddelbart taler noget for denne antagelse, fx har substantivet bil i alt 393

genitivformer i K2000 mod 586 i K90 – og ganske tilsvarende er resultaterne

for fx cykel, hus og mand. Betragter man bil nærmere, viser det sig imidlertid,

at lemmaet med alle bøjningsformer forekommer 10.360 gange i K90 mod kun

8.354 gange i K2000 – en observation, der næppe vil få nogen til at antage – i

analogi med genitiv-konklusionen –, at ordet bil er ved at blive erstattet af andre

ord eller vendinger, eller – i analogi med eksemplet biltelefon – at denotatet selv

er ved at forsvinde fra virkeligheden. Derfor bør man nok kun vurdere en forms

kvantitative udbredelse som den (procentuelle) andel, den udgør af samtlige

former af et ord. For ordet bil er andelen af genitivformer i K90 5,7% mod 4,7%

i K2000 – forskellen synes intuitivt for beskeden til at kunne underbygge en

konklusion om markante ændringer i brugen af genitiver. Desuden underbygges

en sådan konklusion ikke af en hel række andre substantiver som fx land eller

Danmark. Det, der forekommer mere suspekt end mindre udsving i genitivandelene,

er de markante hyppighedsforskelle for lemmaer som bil (K90: 10.360;

K2000: 8.354), land (K90: 21.478; K2000: 28.222) eller Danmark (K90:

22.243; K2000: 30.730), som kan konstateres mellem de to korpusser – og

selvom de logaritmiske hyppighedsangivelser for disse ord er ens for de to

korpusser. Og det er snarere igen et tegn på to forskelligt sammensatte korpusser

end sproglige forandringer.

Eksemplerne tyder på, at man næppe kan konstatere generelle forandringer

i fleksionssystemet blot ved tilfældigt at udvælge en række hyppige ord og

undersøge dem, idet de kvantitative resultater, disse undersøgelser medfører,

virker alt for tilfældige. Vil man undersøge sproglige forandringer, der vedrører

fleksionssystemet, burde man vel snarere undersøge fænomenet – i dette tilfæl-

22 STU DIE R I NORDISK 2002-2003


de altså andelen af genitivformer – blandt samtlige substantiviske former i hele

korpus – et forhold, som Elbro i øvrigt udtrykkeligt anfører.

2.3. Kollokation

K2000-systemet kan vise både hyppige og typiske kollokater (“naboer”) til ord.

Hyppige kollokater giver oplysninger om et ords funktionelle kombinatoriske

egenskaber, fx hvilke præpositioner de hyppigt optræder sammen med. Hyppige

kollokater bestemmes ganske enkelt ved at tælle, hvilke ord der hyppigst optræder

i den umiddelbare omgivelse af det ord, man undersøger. De otte hyppigste

kollokater til venstre for lemmaet debat i K90 er eksempelvis en, i, den, til,

offentlige, og, den og under. Typiske kollokater derimod bestemmes vha. en

statistisk metode, mutual information, 11 og fremhæver ord, der især tiltrækkes

af det undersøgte ord, men ikke i nær samme grad af det overvejende flertal af

andre ord i korpus. Resultatet er et indtryk af ordets semantiske kombinatoriske

egenskaber – de ti mest typiske kollokater til venstre for lemmaet debat i K2000

er heftig, følelsesladet, offentlig, saglig, folkelig, livlig, konstruktiv og heftige.

Kollokater vises i K2000-systemet som tabeller med fire kolonner: én for

hhv. højre- og venstrekollokater for hvert af de to korpusser. Kollokaterne er

sorteret i faldende orden efter antal samforekomster (hyppighed) eller efter

deres mutual information score (typiskhed). Både antal samforekomster samt

scoren udtrykkes ikke som absolutte talværdier, men omregnes til et antal prikker

(1-5), der synes bedre egnet til at visualisere kollokaters ‘tyngde’. Figur 2

viser som eksempel de typiske kollokater for lemmaet terrorist.

Figur 2. Typiske kollokater for terrorist

Oversigten i figur 2 kan fortolkes på følgende måde: et af de træk ved terrorist,

11

Jf. Church&Hanks (1989) eller Church et al. (1991). I K2000-systemet er mutual

information modificeret med en række filtre, der bl.a. reducerer statistisk støj, jf.

Asmussen (under udgivelse).

STU DIE R I NORDISK 2002-2003 23


som åbenbart ikke ændrer sig i løbet af det tidsrum, der ligger imellem de to

korpusser, er eftersøgte og palæstinensiske, hvorimod vesttyske ikke længere

synes at være et typisk træk i K2000, men derimod mange andre nationaliteter,

en religiøs orientering, eller bare international. I K2000 knyttes terrorist enten

til bestemte personer eller organisationer, mens dræbt (i aktiv eller passiv) er

et fremherskende træk i K90. Det større antal kollokater i K2000 er et tegn på,

at ordet terrorist er mere udbredt her, og det viser sig da også, at lemmaet forekommer

næsten dobbelt så hyppigt i K2000 (477) som i K90 (253) – hvis ikke

dette bør tolkes som endnu et tegn på, at de to korpusser er sammensat forskelligt.

Alligevel synes resultaterne at afspejle generelle træk ved den danske

samfundsdebat om dette emne: ens historiske viden hjælper en til at forstå både

ændringer og konstanter i dette ords kollokative egenskaber.

For et ord som jul må man derimod antage en vis kollokativ stabilitet over

en periode på kun ca. 10 år, da ordet vel overvejende bruges i stærkt traditionsbundne

sammenhænge – og tilsvarende finder man hovedparten af de fundne

kollokater i begge korpusser, fx glædelig, fejre eller – til højre for jul – nytår.

Det, der imidlertid kan undre en, er, at antallet af kollokater er noget større for

K90 end for K2000, hvilket skyldes at jul er betydeligt hyppigere i K90 (2.196

forekomster) end i K2000 (1.275 forekomster) – sandsynligvis endnu et tegn på

en uensartet sammensætning af de to korpusser. Dette afspejler sig så også i, at

en kollokation som hvid jul ikke dukker op i oversigten for K2000: selvom

kollokationen faktisk forekommer to gange i K2000 (mod 27 i K90), er den

statistisk set ikke udpræget nok til at blive udtrukket af kollokationsalgoritmen.

Eksemplet viser, at tilfældige hyppighedsforskelle i et ellers ret udbredt ord, kan

have en afgørende indflydelse på statistisk fremfinding af stadig gyldige kollokationer.

Eksemplet viser også, at en sammenligning af kollokater bestemt på

baggrund af et ord, hvis hyppighed er markant forskellig i de to korpusser, ikke

nødvendigvis giver et realistisk indtryk af ændringer i dets kollokative egenskaber:

selvom et ord faktisk bruges mindre, betyder det jo ikke, at dets kollokative

egenskaber har ændret sig af den grund, men dets ellers veletablerede kollokater

kan ikke nødvendigvis længere bestemmes vha. en statistisk kollokabilitetsanalyse.

Modsat vil den statistiske kollokabilitetsanalyse i visse tilfælde udpege ord,

som intuitivt ikke kan betragtes som kollokater til et ord. Udfører man en kollokabilitetsanalyse

på juletræ, får man som ventet bl.a. pynte og danse (rundt om),

men i K2000 får man som det mest markante venstrekollokat talende! En nærmere

undersøgelse af konkordansen med de konkrete forekomster af talende

juletræ viser, at de alle stammer fra en og samme tekst. 12 Eksemplet viser, at de

12 En julehistorie fra fyldepennen.dk.

24 STU DIE R I NORDISK 2002-2003


ene forekomsttal, et ord har i hele korpus, heller ikke bør lægges umiddelbart

til grund for kollokabilitetsberegningen – også her burde man i virkeligheden

operere med en dispersionsbaseret korrektion, der ville kunne undertrykke ad

hoc-kollokationer som talende juletræ, som alene skyldes én speciel tekst i

korpus.

2.4. Semantik

Nært beslægtet med kollokation er mange ords tendens til at indgå i helt bestemte

kontekstuelt betingede semantiske sammenhæng, eksempelvis vil man

typisk finde sund fornuft, næppe syg fornuft, mens bivirkning sjældent vil blive

kendetegnet som uskadelig, men ofte som skadelig – et semantisk fænomen,

som bl.a. Rundell (2002) betegner som “semantisk prosodi”. 13 Mange leksemer

indgår således i en ganske bestemt semantisk kontekst, der restringerer deres

semantiske kombinatoriske egenskaber. Ordet sideeffekt, 14 som har 11 forekomster

i K90 og 22 i K2000, er sandsynligvis et relativt nyt låneord fra engelsk, om

end ikke registreret i Jarvad (1999). Da betydningen af engelsk side effect kan

ækvivaleres med den, bivirkning har på dansk, kan man argumentere, at sideeffekt

vel egentlig er overflødig på dansk. Omtrent halvdelen af forekomsterne af

sideeffekt i K90 viser ordet i en tydelig negativ kontekst, der afslører, at sideeffekt

er noget utilsigtet skadeligt, og ordet indgår i semantiske kontekster, der er

ganske parallelle med dem for bivirkning. I K2000 er billedet derimod et noget

andet: ordet bruges stadigvæk om noget utilsigtet, men nu positivt, egentlig vel

svarende til betydningen af sidegevinst – en del af forekomsterne modificeret

af adjektivet positiv, jf. figur 3.

13 Rundell (2002) betragter fænomenet som en særlig leksikografisk udfordring, idet det

ofte kun vanskeligt lader sig beskrive i ordbøger, samtidig med at det kan være af

afgørende betydning for acceptabel sprogbrug.

14 Forfatteren blev gjort opmærksom på dette eksempel af Henrik Gottlieb, Engelsk

Institut, KU.

Figur 3. “Semantisk prosodi” for sideeffekt

STU DIE R I NORDISK 2002-2003 25


Spørgsmålet er nu, hvorvidt sideeffekt-eksemplerne fra K90 og K2000 empirisk

kan støtte konklusionen, at sideeffekt faktisk har ændret dets semantisk-prosodiske

egenskaber fra de oprindelige engelske til en mere selvstændig dansk ‘positiv

bivirkning’, og dermed måske har fundet en semantisk niche i dansk. Hvor

mange eksempler på et ords måske ændrede semantik har man brug for, før man

med sikkerhed kan udelukke korpuskompositionel støj og kan fremsætte generelle

udsagn om bestemte semantiske forandringer i et sprog som helhed?

2.5. Ordtopologi

Der skal gives ét eksempel på sammenlignende ordtopologiske undersøgelser

for at illustrere de metodiske problemer, der knytter sig hertil. Almindeligvis

betragtes hovedsætningsordstilling af ikke i bisætninger som substandard som

fx i ? Anne serverer kaffe, fordi Peter drikker ikke te. Det skal undersøges, hvor

udbredt denne konstruktion, der måske især forekommer i talesprog, er i de to

skriftsproglige korpusser. Intuitivt – eller måske også ud fra en antagelse om,

at talesproget determinerer skriftsproget – skulle man forvente, at den ikkekanoniske

placering af ikke i bisætninger er mere udbredt i K2000 end i K90.

Om end en tilbundsgående undersøgelse med det eksisterende søgesystem ikke

umiddelbart er mulig, viser undersøgelser af bestemte ordtopologiske mønstre,

fx en søgning på sekvensen at-pronomen-verbum-ikke, at den ikke-kanoniske

placering af ikke er mere udbredt i K90 end i K2000 – figur 4 viser en række

eksempler.

Figur 4. Eksempler fra K90 på ikke-kanonisk placering af ikke

3. Korpus 2000til hvilken nytte?

Eksemplerne ovenfor viser, at sammenlignende korpusundersøgelser i en række

tilfælde kan medføre tvivlsomme fortolkninger og generaliseringer vedrørende

sproglige forandringer – og man må derfor spørge, hvad man dog skal med et

korpus, der ganske vist påstås at kunne bruges til empiriske sprogundersøgelser,

26 STU DIE R I NORDISK 2002-2003


der dog så alligevel er præget af tilfældigheder og unøjagtigheder i en grad, så

man er henvist til sin egen sproglige intuition, når man skal vurdere undersøgelsesresultaterne.

Problemet er dog næppe brugen af et korpus som sådan, men

snarere de metoder, man lægger til grund for korpusbaserede undersøgelser i

almindelighed og for sammenlignende undersøgelser i særdeleshed.

En grundlæggende metodisk vanskelighed ved korpusbaserede sprogundersøgelser

er muligheden for at kvantificere sproglige fænomener, mens traditionelle

sprogundersøgelser ofte tager udgangspunkt i en kvalitativ beskrivelse af

et bestemt sprogligt fænomen, som man – måske tilfældigt – er stødt på. Undersøgelsens

fokus forskydes altså i korpusbaserede undersøgelser let fra en

beskrivelse af hvad man ser, til en beskrivelse af, hvor meget man ser – hvor

idealet måske burde være en kombination: både beskrivelsen af et fænomen og

dets måske skiftende udbredelse.

Hertil kommer, at de forekomsttal, man umiddelbart ser ved sammenligningen

af to korpusser, ikke nødvendigvis er sammenlignelige. I den fysiske verden

er det for de fleste evident, at én kilometer er mere end ti kilometer, men om én

kilometer er meget eller lidt, afhænger også af den kontekst, hvori mængedeangivelsen

bliver brugt. Ti kilometer kan således være en ganske betragtelig

vejlængde, hvis den skal tilbagelægges til fods, mens den samme vejlængde

tilbagelagt i bil er knapt så imponerende. Ganske tilsvarende gælder for de

forekomsttal, man finder i et korpus: de giver ingen mening i sig selv, men kun

i forhold til noget andet, indenfor en kontekst – det er således ganske intetsigende,

at konstatere at mand har 1.936 genitivformer i K90 mod 1.606 i K2000, når

man ikke i det mindste sætter disse tal i forhold til, hvor mange forekomster

lemmaet mand har i de to korpusser: gør man det, finder man, at andelen af

genitivformer for lemmaet mand er 2,0% i begge korpusser. Med andre ord kan

forekomsttal aldrig tages for pålydende i korpusundersøgelser, og for hver type

undersøgelse kræves der en række metodiske overvejelser, inden man giver sig

til at konkludere. Som K2000's søgesystem er opbygget nu, får brugeren i virkeligheden

ikke megen metodisk hjælp – det overlades i vid udstrækning til brugeren

selv at fortolke de kvantitative resultater hensigtsmæssigt. Så selvom sigtet

med K2000's webbaserede søgesystem var, at gøre det let for enhver sproginteresseret

af lave sine egene sproglige undersøgelser, bidrager grænsefladen

ikke til at minimere metodiske fejlgreb – en ulempe, som fremtidige versioner

af grænsefladen bør råde bod på.

Hertil kommer så spørgsmålet, hvad sammenlignelighed af korpusser egentlig

vil sige. K90's og K2000's sammensætning er tilstræbt identiske, men i

praksis, dvs. i de viste eksempler, er der noget, der tyder på, at sammensætningen

ikke kan være så identisk endda. Det gælder først og fremmest forskelle i

udbredelsen af bestemte lemmaer, som man intuitivt skulle mene havde en

STU DIE R I NORDISK 2002-2003 27


konstant udbredelse i sproget inden for en tidsramme af ca. 10 år, fx bil, jul,

mand osv. Og ganske rigtigt er det især andelen af avismateriale i de to korpusser,

som er meget forskelligt, ca. en tredjedel i K90 mod to tredjedele i K2000.

Dette rejser spørgsmålet, hvordan man sikrer sammenlignelighed af to korpusser

mht. til en bestemt dimension, i dette tilfælde tidsdimensionen: hvordan

burde et K90 og et K2000 sammensættes, så man kunne være sikker på, at de

forskelle, man kan konstatere imellem dem, vitterligt er sikre indicier på tidsbestemte

sproglige forandringer?

Løsningen på de skitserede problemstillinger må findes i udviklingen af en

generel metodologi for korpusdesign og -udnyttelse – et område, som Det Danske

Sprog- og Litteraturselskab trods beskedne resurser arbejder indenfor med

henblik på at kunne forbedre kvaliteten både af de eksisterende korpusser og af

de søgesystemer, der knytter sig til dem. Målet for 2004 er at kunne lancere et

forbedret webinterface for K2000, hvori der vil være taget højde for en hel

række af de søgemetodiske problemstillinger, som blev skitseret i dette bidrag.

Litteratur

Andersen, M.S., Asmussen, H., Asmussen, J. (2002): The Project of Korpus

2000 Going Public; in: A. Braasch and C. Povlsen (eds.): Proceedings of the

Tenth EURALEX International Congress, EURALEX 2002, København.

Asmussen, J. (2001): Korpus 2000. Et overblik over projektets baggrund, fremgangsmåder

og perspektiver. NyS 30. Nydanske studier & almen kommunikationsteori,

København.

Asmussen, J. (under udgivelse): Towards a methodology for corpus-based

studies of linguistic change. Contrastive observations and their possible

diachronic interpretations in the Korpus 2000 and Korpus 90 Corpora of

Danish; in: Archer, Rayson, Wilson (eds.): Corpus Linguistics Around the

World. Rodopi, Amsterdam.

Bick, E. (2003a): Morfosyntaktisk opmærkede corpora for dansk: Korpus

90/2000 og Arboretum; in: 9. Møde om Udforskningen af Dansk Sprog 10.-

11. oktober 2002. Proceedings. Aarhus Universitet.

Bick, E. (2003b): A CG & PSG hybrid approach to automatic corpus annotation;

in: Simov, K. & Osenova P. (eds.): Proceedings of the Workshop on

Shallow Processing of Large Corpora (SProLaC 2003) held in conjunction

with the Corpus Linguistics 2003 Conference. UCREL technical paper no.

17. UCREL, Lancaster University.

28 STU DIE R I NORDISK 2002-2003


Christ, O. (1994): A modular and flexible architecture for an integrated corpus

query system. COMPLEX’94 Proceedings, Budapest.

Church, K. & P. Hanks (1989): Word association norms, mutual information

and lexicography. ACL Proceedings, 27 th Annual Meeting, Vancouver.

Church, K. et al. (1991): Using Statistics in Lexical Analysis; in: Zernik (ed.):

Lexical Acquisition. Exploiting On-Line Resources to Build a Lexicon.

Hillsdale, New Jersey 1991.

Elbro, C. (2002): Ift, ifm, mht, mhp og andre uspecifikke præpositioner. Mål og

Mæle 3:2002, København, pp. 17-23.

Jarvad, P. (1999): Nye Ord. Ordbog over nye ord i dansk 1955-1998. København.

Norling-Christensen, O. & J. Asmussen (1998): The Corpus of The Danish

Dictionary; in: Lexikos 8, Afrilex Series 8:1998, Stellenbosch, pp. 223-242.

Rundell, M. (2002): Good Old-fashioned Lexicography: Human Judgment and

the Limits of Automation; in M-H. Corréard (ed.): Lexicography and Natural

Language Processing. A Festschrift in Honour of B.T.S. Atkins.

EURALEX 2002.

STU DIE R I NORDISK 2002-2003 29

More magazines by this user
Similar magazines