Korpus 2000 ? til hvilken nytte? - Det Danske Sprog- og ...
Korpus 2000 ? til hvilken nytte? - Det Danske Sprog- og ...
Korpus 2000 ? til hvilken nytte? - Det Danske Sprog- og ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
fem gange hyppigere i K90 (51 forekomster, 3 prikker) end i K<strong>2000</strong> (9 forekomster,<br />
2 prikker) betegner et apparat, som stort set er blevet erstattet af mobiltelefoner,<br />
mens benchmarking slet ikke forekommer i K90 mod 34 gange (3<br />
prikker) i K<strong>2000</strong>, hvilket kunne tyde på at ordet er nyt i dansk. Jarvad (1999),<br />
hvis ordb<strong>og</strong> over nye ord i dansk ganske vist ikke beror på en dokumenteret<br />
empirisk, korpusstatistisk fremgangsmåde, <strong>og</strong> som derfor bør konsulteres med<br />
en vis forsigtighed, daterer første brug <strong>til</strong> 1996 – hvilket muligvis støtter antagelsen,<br />
at der her er tale om et nyt låneord. De nævnte eksempler tyder på, at<br />
ændringer i udbredelsen af bestemte ord, som man kan konstatere ved at<br />
sammenligne de to korpusser, afspejler ændrede forhold i samfundet: spr<strong>og</strong> <strong>og</strong><br />
virkelighed følges altså pænt ad, ser det ud <strong>til</strong>.<br />
Et mindre udbredt ord som kambrium forekommer fire gange (2 prikker) i<br />
K90, men findes ikke i K<strong>2000</strong>; det er desuden markeret med en løftet tommelfinger<br />
under K90. En fortolkning, anal<strong>og</strong> <strong>til</strong> dem ovenfor, kunne være, at ordets<br />
udbredelse er i aftagende, måske fordi det betegner n<strong>og</strong>et, som ikke længere har<br />
så stor relevans. En nærmere undersøgelse 9 af, hvilke kilder de fire forekomster<br />
i K90 stammer fra, viser at de er fra tre tekster om geol<strong>og</strong>i, alle fra samme<br />
opslagsværk. 10 K<strong>2000</strong> indeholder derimod ingen <strong>til</strong>svarende tekster. N<strong>og</strong>et<br />
tyder derfor på, at fagområdet geol<strong>og</strong>i er dækket forskelligt i de to korpusser <strong>og</strong><br />
at forskellen i hyppigheden for ordet kambrium siger mere om korpussernes<br />
sammensætning end om spr<strong>og</strong>et som sådant.<br />
Eksemplet viser, at rå forekomsttal ikke umiddelbart bør sammenlignes, især<br />
ikke, hvis de er lave. Selvom den l<strong>og</strong>aritmiske hyppighedsoplysning i K<strong>2000</strong>systemet<br />
<strong>til</strong> en vis grad udjævner hyppighedsforskelle, der kan skyldes <strong>til</strong>fældigheder,<br />
fejler den, når forekomstallene er lave. Målingen af ords hyppighed,<br />
forstået som indikator for deres udbredelse i spr<strong>og</strong>et som helhed, bør ikke blot<br />
udtrykkes i antal forekomster eller en l<strong>og</strong>aritmisk funktion heraf, men bør inddrage<br />
et mål for forekomsternes jævne fordeling over hele korpus (dispersion):<br />
et ord har givetvis en større udbredelse i spr<strong>og</strong>et, hvis det bruges i flere tekster<br />
af flere forfattere over hele korpus end blot mange gange i én tekst eller tekster<br />
af én forfatter eller tekster om ét ganske snævert fagområde.<br />
9 Denne undersøgelse kan ikke udføres direkte i K<strong>2000</strong>-systemet, da der her p.t. ikke er<br />
adgang <strong>til</strong> tekstoplysninger fra konkordanslinjer i K90. Derimod er det muligt at udføre<br />
undersøgelsen med korpussøgesystemet Semaskop på hele Den <strong>Danske</strong> Ordb<strong>og</strong>s korpus,<br />
som kan downloades fra http://korpus.dsl.dk/e-resurser/.<br />
10 Fakta. Gyldendal 1988.<br />
STU DIE R I NORDISK 2002-2003 21