27.09.2013 Views

Indlæg - CBS

Indlæg - CBS

Indlæg - CBS

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

NoRdteRM 16<br />

Ontologier og taksonomier<br />

RedaktøReR: Bodil NistRup MadseN & HaNNe eRdMaN tHoMseN<br />

NoRdteRM 2009<br />

københavn 9.-12. juni 2009


NORDTERM 16<br />

Ontologier og taksonomier<br />

<strong>Indlæg</strong> fra NORDTERM 2009<br />

København, Danmark<br />

9.‐12. juni 2009<br />

Redaktører:<br />

Bodil Nistrup Madsen<br />

& Hanne Erdman Thomsen<br />

Arrangører:<br />

Institut for Internationale Sprogstudier og Vidensteknologi<br />

& DANTERMcentret, Handelshøjskolen i København (<strong>CBS</strong>)<br />

Institut for Fagsprog, Kommunikation og Informationsvidenskab,<br />

Syddansk Universitet (SDU)<br />

Værter:<br />

Institut for Internationale Sprogstudier og Vidensteknologi<br />

& DANTERMcentret<br />

<strong>CBS</strong><br />

Sponsorer:<br />

Nordplus, FUHU, Hedorfs Fond<br />

NORDTERM 2009, København 9.-12. juni 2009 1


FORORD<br />

NORDTERM 2009 fandt sted ved Institut for Internationale Sprogstudier og Vidensteknologi, <strong>CBS</strong>,<br />

Handelshøjskolen i København, den 9.-12. juni 2009 (www.cbs.dk/nordterm2009). Arrangementet<br />

bestod af et kursus, en konference, en workshop, NORDTERM-forsamlingen og styregruppemøder.<br />

Kurset varede én dag og blev afholdt tirsdag de n 9. juni, m ens konferencen fandt sted fra onsdag<br />

den 10. til torsdag 11. juni. Den 12. juni blev de r afholdt workshop, styre- og arbejdsgruppemøder<br />

samt NORDTERM-forsamling.<br />

Tema<br />

Hovedtemaet for NORDTERM 2009 var udarbejdelse og anvendelse af ontologier og taksonom ier,<br />

især hos organisationer og offentlige myndigheder i de nordiske lande. P.t. er der et stort b ehov for<br />

terminologer hos det offentlige, hvor bl.a. term inologiske ontologier (begrebssystemer) bliver brugt<br />

til optimering af it-arkitektur, i d igitale forvaltningssystemer, til af klaring af organisationernes<br />

terminologi og til meget mere.<br />

Kurset og de inviterede indlæg på konferencen vedrørte principper for term inologiske ontologier,<br />

andre typer ontologier, værktøje r og for mater for ontologier sa mt deres anvendelse hos det<br />

offentlige.<br />

Til konferencen var der inviteret to foredragsholdere, som holdt følgende indlæg:<br />

David Markwell (Principal Consultant, CIC Ltd): Making sense of health - the challenge for<br />

clinical terminology<br />

Kristian Hjort-Madsen (Finansministeriet, Den Digitale Taskforce):<br />

Forretningsreferencemodellen FORM<br />

Herudover blev der indkaldt i ndlæg fra forskere og udøvende te rminologer til konferencen. Som<br />

sædvanlig var der – ud over hovedtemaet - mulighed for<br />

indlæg om terminologiarbejde i Norden<br />

teoretisk orienterede indlæg fra forsknings- og uddannelsesinstitutioner<br />

praktisk orienterede indlæg fra virksomheder og organisationer.<br />

Kurset gav en introduk tion til principper for den kendte sundhedsontologi, SNOMED CT (ved<br />

David Markwell: http://www 1.clininfo.co.uk/snomed) og tilpasni ngen af SNOMED CT til dansk<br />

(ved Birthe Toft, SDU). Herudover om fattede kurset en introduktion til te rminologiske ontologier<br />

samt deres anvendels e hos det offentlig e bl.a. som grundlag for klass ifikationer og datamodeller<br />

(ved Bodil Nistrup Madsen, Hanne Erdman Thomsen og Anna Odgaard, <strong>CBS</strong>).<br />

Målgruppe<br />

Arrangementet samlede terminologer og terminologiinteresserede fra såvel forskningsinstitutioner<br />

som erhvervsliv og offentlige institutioner i hele Norden.<br />

Proceedings<br />

Vi har valgt at opdele proceedings fra NORDTERM 2009 i hhv. trykte og elektroniske proceedings.<br />

De trykte p roceedings omfatter alle m odtagne abstracts fra konferencen sam t informationer om<br />

kurset, workshoppen, styregruppemøderne og NORDTERM-forsamlingen.<br />

NORDTERM 2009, København 9.-12. juni 2009 2


Bagest i de trykte proceedings findes en CD med alle modtagne indlæg og præsentationer fra<br />

konferencen og workshoppen. De elektroniske proceed ings omfatter især de akadem iske indlæg,<br />

idet ikke alle virksomheder og offentlige myndigheder har benyttet sig af tilbuddet om at publicere<br />

deres indlæg. Dog findes de fles te af konferencens PowerPoint-p ræsentationer i de elektroniske<br />

proceedings på den vedlagte CD, som endvidere indeholder abstracts og rapporter fra de trykte<br />

proceedings. Endelig findes link til både tryk te og elek troniske proceedings på konferencens<br />

hjemmeside http://www.cbs.dk/forskning/konferencer/nordterm_2009 samt på NORDTERMs<br />

hjemmeside http://www.nordterm.net/info/public-en.html.<br />

Arrangementskomité<br />

Planlægningen blev udført af en arrangementskomité bestående af Bodil Nistrup Madsen og Hanne<br />

Erdman Thomsen (begge Institut for Internationale Sprogstudier og Vi densteknologi, <strong>CBS</strong>, Lotte<br />

Weilgaard og Annelise Grinsted (Institut for Fagsprog, Kommunikation og Infor mationsvidenskab,<br />

Syddansk Universitet (SDU), Annne mette Wenzel / Lone Bo Sisseck, daglig leder ved<br />

DANTERMcentret samt Anna Odgaard, projektleder, ved DANTERMcentret, <strong>CBS</strong>.<br />

En særlig tak til Mere te Borch fra Institutadm inistrationen i Dalgas Have, IADH, <strong>CBS</strong>, som har<br />

bistået med planlægning, afvikling og udarbejdelse af proceedings.<br />

Sponsorer<br />

Arrangementet har modtaget støtte fra NordPlus Sprog, Hedord Fonden, FUHU og <strong>CBS</strong>.<br />

Bodil Nistrup Madsen og Hanne Erdman Thomsen<br />

NORDTERM 2009, København 9.-12. juni 2009 3


Proceedings<br />

ONTOLOGIARBEJDE I SUNDHEDSSEKTOREN<br />

Stefano Testi: Terminologi, Klassifikation, Begreppsmodellering<br />

Troels Thomsen: Sikring af Datakvalitet ved Hjælp af Ontologier<br />

Anne-Mette Skou: ’Specialer’ i sundhedsvæsnet i Danmark<br />

ONTOLOGIER INDEN FOR OMRÅDET BIOMEDICIN OG BIOKEMI<br />

Damhus, Olesen Larsen, Nistrup Madsen & Zambach: Begrebsafklaring inden for området<br />

enzymkemi<br />

Zambach & Nistrup Madsen: Terminologiske ontologier og beskrivelseslogik: Et eksperiment inden<br />

for domænet enzymkemi<br />

Nistrup Madsen, Erdman Thomsen, Lassen & Zambach: Insulinontologi til Søgeprojekt<br />

ONTOLOGIER OG BEGREBSRELATIONER<br />

Camilla Wiberg Danielsen: Working Towards a Common Danish Upper Ontology<br />

Cecilia Lind: TNCs arbete med en basordlista – en ontologi med definitioner?<br />

Anita Nuopponen: Begreppsrelationer som verktyg för begreppsanalysen<br />

ONTOLOGIER OG DATAMODELLER<br />

Nistrup Madsen & Odgaard: From concept models to conceptual data models<br />

SEMANTIK OG SAMMENHÆNG I DIGITAL FORVALTNING<br />

Lars Johnsen: Interoperabilitet 2.0: Sømløse emnekort i digital forvaltning<br />

DEN SVENSKE RIKSTERMBANKEN<br />

Anna-Lena Bucher: Terminologisamordning inom svenska myndigheter. Ny språklag på väg.<br />

Dobrina & Nilsson: Koll på innehåll igen: Vad har kommit med i Rikstermbanken?<br />

Peter Svanberg: Från Termdok på cd-rom till Rikstermbanken<br />

TEORI OG PRAKSIS I TERMINOLOGIARBEJDE<br />

Birthe Toft: Domænemodellering som grundlag for terminologier og ontologier:<br />

afgrænsningsproblemet<br />

Jørgen Burchardt: Personaliseret information<br />

Henrik Nilsson: Ordningen i redan – om uppräkningar i begreppsbeskrivningar<br />

NORDTERM 2009, København 9.-12. juni 2009 4


TERMINOLOGI OG UDDANNELSE<br />

Nilsson & Nissilä: TERMDIST: nordisk terminologiutbildning i ljuset av europeiskt utbildningsoch<br />

certifieringsarbete inom terminologi<br />

Nissilä & Pilke: Begreppsstrukturer i språkbadselevers ämnesspecifika skriftliga produktion<br />

Päivi Pasanen: Compiling a Glossary for a Special Language Learning Tool<br />

TERMINOLOGISK INFRASTRUKTUR OG TERMBASER<br />

Andersen & Kristiansen: Terminor og Termportalen – nye initiativer for norsk terminologisk<br />

infrastruktur<br />

Eija Puttonen: En termbank växer fram: Från kostnadsnyttoanalys via terminologisk analys till<br />

praktisk tillämpning<br />

Igor Kudashev: Documentation of Sources in Terminology Management Systems, with Particular<br />

Emphasis on Collaborative Platforms<br />

TERMINOLOGI I PRAKSIS<br />

Jeanette Ørsted: CLS Terminology Adapting to the Needs of the Market<br />

Grinsted & Erdman Thomsen: Cost-benefit begrebsafklaring<br />

INFORMATIONSEKSTRAKTION OG INFORMATIONSSØGNING<br />

Merkel, Foo, Andersson, Edholm, Gidlund & Åsberg: Automatic Extraction and Manual Validation<br />

of Hierarchical Swedish Patent Terminology<br />

Seppälä, Hyvönen, Tuominen & Viljanen: ONKI-ontologibiblioteket: tjänster för upprätthållare,<br />

indexerare och informationssökare<br />

TERMINOLOGIPROJEKTER<br />

Susanne Lervad: Etablering af termbase over dragt- og tekstilbegreber<br />

Torbjørg Breivik: Arbeid med nordiske termer i språkteknologi<br />

Olesen Larsen & Nistrup Madsen: Forskningsbegreber og terminologi<br />

KONTRASTIVE ANALYSER<br />

Mourier & Vesterli: KNowaboUT - A Work-In-Progress Study On How To Fruitfully Combine The<br />

Theories Of Terminology And Lexicography<br />

Fumiko Kano: Ontology-based Triangulated Terminology Management<br />

WORKSHOP: STANDARDISERING AV SPRÅKTEKNOLOGISKE TERMER I NORDEN<br />

NORDTERM 2009, København 9.-12. juni 2009 5


Torbjørg Breivik: Oppsummering – arbeidsseminar om språkteknologiske termer på de nordiske<br />

språkene<br />

Karlsson &Nilsson: Språkteknologisk (meta)terminologi – situationen i Sverige<br />

NORDTERM 2009, København 9.-12. juni 2009 6


Terminologi, Klassifikation,<br />

Begreppsmodellering<br />

Stefano Testi<br />

Socialstyrelsen, Sverige<br />

Abstract. Inom fackområdet vård och omsorg, som innefattar både hälso- och sjukvård och<br />

socialtjänst, bedrivs i Sverige projekt med sikte på en gemensam nationell informationsstruktur<br />

och ett nationellt fackspråk. Socialstyrelsen har regeringens uppdrag att driva dessa projekt. För<br />

att uppnå dessa mål krävs olika metoder. Terminologiarbete används för att reda ut begreppen<br />

inom fackområdet i fråga. Begreppsmodellering används för att visa hur begreppen i en viss<br />

verksamhet eller process relaterar till varandra och kan resultera i underlag till en<br />

informationsmodell. För statistiska ändamål och för att underlätta sökandet och användandet av<br />

information behövs klassifikationer. Denna artikel vill visa på att många blandar ihop de tre<br />

metoderna, men att de bör hållas isär och användas för sina respektive syften.<br />

INLEDNING<br />

Inom fackområdet vård och omsorg, som innefattar både hälso- och sjukvård och<br />

socialtjänst, bedrivs i S verige projekt med sikte på en gemensam nationell<br />

informationsstruktur och ett nationellt fackspråk. Socialstyrelsen har regeringens<br />

uppdrag att driva dessa projekt. För att uppnå dessa mål krävs olika metoder.<br />

Terminologiarbete används för att reda ut begreppen inom fackområdet i fråga.<br />

Begreppsmodellering används för att visa hur begreppen i en viss verksamhet eller<br />

process relaterar till varandra och kan resultera i underlag till en informationsmodell.<br />

För statistiska ändamål och för att underlätta sökandet och användandet av information<br />

behövs klassifikationer. Det är viktigt att hålla isär metoderna och använda dem för<br />

sina respektive syften.<br />

Denna artikel vill visa på att många blandar ihop metoderna, vad de har för syften<br />

och vad de ska användas till. Artikeln är skriven utifrån en terminologs perspektiv och<br />

kommer inte att beskriva terminologiläran utan visa exempel på sammanblandning.<br />

Eftersom problemen kan skilja sig mellan de nordiska länderna är det svenska<br />

förhållanden som beskrivs, dessutom begränsat till fackområdet vård och omsorg.<br />

När det gäller terminologiarbete gentemot klassifikation är det inte helt ovanligt att<br />

personer som söker i Socialstyrelsens termbank undrar varför de inte hittar samma<br />

information som i t.ex. ICF (Klassifikation av funktionstillstånd, funktionshinder och<br />

hälsa). Det händer också att klassifikationer används som om de vore uppslagsverk<br />

eller termlistor.<br />

NORDTERM 2009, København 9.-12. juni 2009 7


TERMINOLOGIARBETE OCH KLASSIFIKATION<br />

Skillnaden mellan terminologiarbete och klassifikation kan kortfattat uttryckas på<br />

följande sätt: Terminologiarbete syftar till att undvika tolkningstvister och<br />

missförstånd genom att reda ut och definiera begreppen inom ett fackområde samt ge<br />

lämpliga termer till b egreppen. Klassifikation syftar till a tt underlätta sökandet och<br />

användandet av information genom att gruppera, indela eller inordna objekt eller<br />

individer i olika klasser, för statistiskt ändamål.<br />

Terminologiska definitioner finns oftast inte i k lassifikationer. Vissa<br />

klassifikationer, som ICF och ICD-10 (på svenska Klassifikation av sjukdomar och<br />

hälsoproblem, KSH97) har någon form av beskrivningar, som i klassifikationen i fråga<br />

ibland kallas för definitioner. Dessa beskrivningar ska ses inom ramen för<br />

klassifikationen eller klassifikationens delområden. När det gäller kriterier, alltså det<br />

som avgör att något ska klassificeras som just det, hänvisas man nästan alltid till<br />

medicinsk sakkunskap (böcker, artiklar, forskningsfynd).<br />

I den svenska versionen av ICD-10 står följande under rubriken ”Klassifikation och<br />

inte nomenklatur”: Genom klassifikationens breda användning inom sjukvården blir<br />

dess språk och terminologi av betydelse för det medicinska fackspråket. Det förtjänar<br />

dock understrykas att det här primärt är fråga om en statistisk klassifikation och inte<br />

en nomenklatur, dvs. en förteckning över riktiga eller rekommenderade beteckningar<br />

eller termer. Klassifikationens språk är sålunda inte bindande för formuleringen av de<br />

diagnoser som anges i patientjournaler eller annan medicinsk dokumentation.<br />

Klassifikationer har följaktligen ett annat syfte än att definiera begrepp inom ett<br />

fackområde. Klassifikationen ICF används till exempel för att kunna klassificera<br />

funktionstillstånd och olika typer av funktionsnedsättningar, bland annat utifrån vad en<br />

person kan eller inte kan göra. ICF består av fyra huvudavsnitt, kroppsfunktioner,<br />

kroppsstrukturer, aktivitet och delaktighet samt omgivningsfaktorer. Varje avsnitt är<br />

indelat i kapitel, som i sin tur kan vara ytterligare underindelade.<br />

Terminologiskt skulle man kanske definiera begreppet ”äta” ungefär så här: inta<br />

fast eller flytande föda via munnen med hjälp av något verktyg. I ICF hittar man ”att<br />

äta” i kapitel 5 Personlig vård i avsnittet Aktiviteter och delaktighet, se figur 1 nedan.<br />

FIGUR 1. Exempel från ICF (avkortat).<br />

NORDTERM 2009, København 9.-12. juni 2009 8


ICF är uppbyggd efter en hierarkisk struktur men det handlar snarare om klasser<br />

eller kategorier än om begrepp. Att klä sig och att äta tillhör båda kategorin personlig<br />

vård (som kan ses som en rubrik i sammanhanget), men man skulle knappast<br />

terminologiskt definiera ”att äta” och ”att klä sig” utifrån det överordnade begreppet<br />

”personlig vård”. Beskrivningen i ICF till ”att äta” lyder Att genomföra samordnade<br />

uppgifter och handlingar för att äta mat som serveras, att föra maten till munnen och<br />

konsumera den på ett kulturellt acceptabelt sätt, skära eller bryta maten i bitar, öppna<br />

flaskor och burkar, använda matbestick, äta sina måltider till fest och vardags. Denna<br />

beskrivning innehåller kännetecken som inte har med begreppet äta att göra, till<br />

exempel skära eller bryta maten i bitar, öppna flaskor och burkar, äta sina måltider<br />

till fest och vardags. Här handlar det om en beskrivning i sitt sammanhang, man får<br />

tänka sig ett scenario där man ska kunna bedöma vad en person kan. Kan personen<br />

öppna en burk eller skära maten? I avsnittet Kroppsfunktioner finns ”funktioner vid<br />

intagande av föda” i kapitel 5 Matsmältnings- och ämnesomsättningsfunktioner och<br />

endokrina funktioner, se figur 2 nedan.<br />

FIGUR 2. Exempel från ICF (avkortat).<br />

Beskrivningen till ”funktioner vid intagande av föda” lyder Funktioner som hänger<br />

samman med att inta och hantera fasta eller flytande ämnen till kroppen genom<br />

munnen. En kombination av vissa av kännetecknen från att äta och funktioner vid<br />

intagande av föda skulle kunna ge en definition av begreppet ”äta”, men syftet med<br />

ICF är inte att definiera begrepp utan att kunna klassificera funktionstillstånd.<br />

ISO-standard<br />

Inom ISO (International Organization for Standardization) finns en teknisk kommitté<br />

för hälsoinformatik, ISO/TC 215 Health informatics. En av de standarder som denna<br />

kommitté har utarbetat heter ISO 17115 1<br />

Health informatics – Vocabulary for<br />

terminological systems. Som terminolog blir man nyfiken på vad ett terminologiskt<br />

system är, eftersom det inte brukar användas som term inom terminologiläran, och en<br />

ordlista för sådana system låter intressant. I avsnittet Main purposes står det följande:<br />

1 Jag har utgått från version 17115:2007.<br />

NORDTERM 2009, København 9.-12. juni 2009 9


The principles established by ISO/TC 37 are extended here into a formal system suited<br />

to health informatics. Eftersom ISO/TC 37 är den tekniska kommitté som arbetar med<br />

terminologi och andra språkliga resurser så blir man än mer intresserad. I standarden<br />

finns dessutom en bilaga med utvalda definitioner från ISO 1087-1:2000<br />

(Terminology work – Vocabulary – Part 1: Theory and application). I bilagan till ISO<br />

17115 föregås varje termpostnummer av ”A”, som hänvisning till ISO 1087-1.<br />

Vad är då ett terminologiskt system enligt denna standard? Det finns ingen<br />

definition av det begreppet, men däremot ett avsnitt med definitioner av olika typer av<br />

sådana system, nämligen classification, coding scheme, coding system, reference<br />

terminology och clinical terminology. Definitionen av classification lyder<br />

exhaustive set of mutually exclusive categories (2.1.4) to aggregate data at a preprescribed<br />

level of specialization (2.1.3) for a specific purpose<br />

Som exempel på en klassifikation ges ICD-10. Men som tidigare nämnts står det i<br />

inledningen till ICD-10 att det här primärt är fråga om en statistisk klassifikation och<br />

inte en nomenklatur. På vilka grunder är det då ett terminologisystem?<br />

Reference terminology har definitionen<br />

set of atomic level designations structured to support representations of both simple<br />

and compositional concepts independent of human language (within machine)<br />

med en anmärkning: Reference terminology is designed to uniquely represent<br />

concepts (A.2.3.1). Om nu terminologi är en uppsättning benämningar som hör till ett<br />

fackspråk, och ett fackspråk är en språkform som används för kommunikation inom ett<br />

fackområde, kan man då säga att en referensterminologi är något som är oberoende av<br />

mänskligt språk? Och vad är egentligen ett sammansatt (compositional) begrepp?<br />

För att återgå till d efinitionen av classification, den innehåller termen category.<br />

Figur 3 visar hur termposten för detta begrepp ser ut.<br />

FIGUR 3. Termposten category i ISO 17115:2007.<br />

I figur 3 framgår att category är synonym till generic concept. Termen generic<br />

concept och definitionen av begreppet är i sin tur hämtade från ISO 1087, som på<br />

svenska inte har någon direkt motsvarighet men som avser ett överordnat begrepp i en<br />

generisk relation. Det innebär att classification enligt ISO 17115 ä r en uttömmande<br />

uppsättning av ömsesidigt uteslutande överordnade begrepp i generiska relationer.<br />

För mig känns det inte riktigt att säga att klass eller kategori skulle vara synonymt med<br />

överordnat begrepp i en generisk relation. I klassifikationssammanhang väljer man att<br />

NORDTERM 2009, København 9.-12. juni 2009 10


kategorisera efter någon viss egenskap (att klä sig och att äta har man valt att lägga<br />

under samma kategori i ICF), men begreppsmässigt så ärver ett underbegrepp alla<br />

kännetecken från överbegreppet. Observera att ISO 1087 inte har med category som<br />

synonym till generic concept!<br />

Det finns flera exempel på när ISO 17115 krockar med terminologins terminologi,<br />

trots att man utgår från denna, till exempel begreppet concept name. Detta begrepp har<br />

definitionen<br />

term (A.3.4.3) which uniquely designates a concept (A.3.2.1) within a concept<br />

system (A.3.2.11)<br />

Allt som inleds med ett ”A” kommer alltså från ISO 1087. Men en terminolog är<br />

noga med att skilja mellan term och (egen)namn (där term är benämning för ett<br />

allmänbegrepp som tillhör ett fackområde medan egennamn är benämning på ett<br />

individualbegrepp). Att säga att ett begreppsnamn är en term blir ganska förvirrande<br />

och missvisande. I ISO 1087 oc h i bilagan till ISO 17115 f inns begreppet<br />

”appellation” med, med synonymen ”name” och definitionen verbal designation of an<br />

individual concept.<br />

Terminologiarbete och begreppsmodellering<br />

Syftena med terminologiarbete respektive begreppsmodellering kan förenklat<br />

beskrivas som i figur 4 nedan.<br />

FIGUR 4. Syftet med metoderna.<br />

Det väsentliga här är vad som är skillnaden mellan ett fackområde och en verksamhet.<br />

Man skulle kunna se det som att ett fackområde, som till exempel vård och omsorg,<br />

kan innefatta en mängd olika verksamheter (ambulanssjukvårdens verksamhet i ett<br />

område kan se annorlunda ut jämfört med ambulanssjukvårdens verksamhet i ett annat<br />

område, men de tillhör samma fackområde). Ofta är begreppsmodeller ett stöd för att<br />

utveckla informationsmodeller för en verksamhet.<br />

I Sverige görs mycket arbete med modellering av olika slag inom vård och omsorg.<br />

I arbetet med att ta fram en nationell informationsstruktur för vård och omsorg<br />

utarbetar man process-, begrepps- och informationsmodeller. Själva projektet<br />

förkortas NI (nationell informationsstruktur) och ett utkast 2<br />

med bilagor finns<br />

2 Reviderad begreppsmodell samt informationsmodell för vård och omsorg − Utgångspunkt för fortsatt utveckling av den<br />

nationella informationsstrukturen. Utkast 3 från projektet Nationell Informationsstruktur (2009-05-18).<br />

NORDTERM 2009, København 9.-12. juni 2009 11


tillgängligt för synpunkter på adress http://www.socialstyrelsen.se/NI. I bilaga 1 till<br />

detta utkast beskrivs bland annat begreppsmodellering. Där sägs följande:<br />

Beroende på om målet är att beskriva ett fackspråk eller att göra en<br />

begreppsmodell för en verksamhet så används olika metoder för begreppsanalys.<br />

Begreppsanalys i begreppsmodellering syftar till att identifiera begrepp inom en<br />

verksamhet genom att åskådliggöra dem och deras relationer till varandra.<br />

Terminologisk begreppsanalys syftar till att identifiera begrepps unika kännetecken<br />

för att kunna formulera textuella definitioner till begreppen inom ett fackområde.<br />

I projektet NI är verksamheten vård och omsorg. Men om verksamheten är lika med<br />

fackområdet borde det inte behövas olika metoder för begreppsanalys utan innehållet i<br />

begreppsmodell och terminologiskt begreppsdiagram borde överensstämma med<br />

varandra. Såsom begreppsanalys är beskrivet i bilaga 1 tycks det snarare handla om en<br />

verksamhetsanalys med fokus på begreppsanvändning och inte en analys av begreppet<br />

självt.<br />

Man måste kunna beskriva hur en verksamhet fungerar och vilken information som<br />

man behöver hålla i verksamheten, men det är inte detsamma som att identifiera och<br />

definiera begrepp (men för att kunna hålla information om begrepp måste begreppen<br />

vara utredda).<br />

Ett annat citat från bilaga 1 lyder<br />

Ett begrepp förklaras av sina samband till andra begrepp. Ju fler samband ett<br />

begrepp beskrivs med desto tydligare blir det.<br />

Ett begrepp blir knappast tydligare ju fler samband det beskrivs med, om inte dessa<br />

samband är särskiljande gentemot relaterade begrepp. För att definiera ett begrepp<br />

behöver man identifiera de särskiljande kännetecknen gentemot relaterade begrepp.<br />

I bilaga 1 finns följande text som förklaring till figur 5 nedan:<br />

Ett begrepp har flera samband som tillsammans förklarar vad som menas med<br />

begreppet. Ordet ”person” kan till exempel betyda många saker. Om vi däremot säger<br />

att ”person äger en bil” så har vi begränsat person till bilägande personer. Om vi<br />

lägger till ett samband till ”person har konto”, så har vi begränsat person ytterligare<br />

till ”bilägande personer med konto”. Om man lägger på ett samband till begreppet<br />

”konto” (till exempel ”konto knutet till oljebolag”) så begränsas inte bara ”konto”<br />

utan också ”person”. Förklaringen eller beskrivningen (”definitionen”) i detta<br />

sammanhang blir alltså ”bilägande personer med konto knutet till oljebolag”.<br />

NORDTERM 2009, København 9.-12. juni 2009 12


FIGUR 5. Exempel på begreppsmodell från bilaga 1 till NI:s Utkast 3.<br />

Det är svårt att förstå syftet med modellen i figur 5 (även om det bara är just ett<br />

exempel). För det första, kan ”person” verkligen betyda många saker? För det andra,<br />

vad är det egentligen som ”definieras” i exemplet? Man får inte veta något om<br />

begreppet person, inte heller om begreppen bil, konto eller oljebolag. Man får veta att<br />

det kan finnas personer som äger bil(ar) och har konto knutet till oljebolag. Men att<br />

säga att detta skulle vara en definition är inte lätt att förstå. En definition av vad? I<br />

vilket sammanhang? På vilka grunder är det en begreppsmodell? Ovanstående<br />

påminner snarare om en informationsmodell (men utan tillhörande attribut), för att<br />

hålla information om att någon kan äga bil och ha konto i oljebolag.<br />

Ytterligare ett citat från bilaga 1:<br />

Man kan också säga att en subklass är en delmängd av superklassen. Till exempel;<br />

mängden av alla Kunder är en delmängd av alla Personer eller med andra ord, en<br />

Kund är också en Person.<br />

Här känns det som man blandar ihop två saker. Det är referenterna till det<br />

underordnade begreppet som utgör en delmängd av referenterna till det överordnade<br />

begreppet. Mängden av alla barrträd är en delmängd av alla träd (på referentnivå), men<br />

begreppet barrträd är en typ av träd.<br />

På motsvarande sätt är det en viss person som kan ha olika roller i olika<br />

sammanhang, inte begreppet person. Terminologiskt skulle man inte säga att till<br />

exempel hälso- och sjukvårdspersonal och patient är olika typer av begreppet<br />

personroll, utan av begreppet person.<br />

Kanske är det denna sammanblandning som gör att exemplet i figur 6 kallas för<br />

begreppsmodell, trots att individuella roller och personbegrepp inte hålls isär<br />

(närstående är en typ av person som är en typ av personroll som innehas av fysisk<br />

person etc.).<br />

NORDTERM 2009, København 9.-12. juni 2009 13


FIGUR 6. Exempel från bilaga 3 till NI:s Utkast 3.<br />

Detta var en beskrivning av begreppsmodellering. I Sverige tycks inte finnas någon<br />

klar samsyn om vad begreppsmodellering är och hur en begreppsmodell ska vara<br />

uppbyggd.<br />

SLUTSATSER<br />

Det behöver tydliggöras att en klassifikation och en termbank inte innehåller<br />

samma typ av information utan har olika syften.<br />

Det är inte helt lätt att utifrån bilaga 1 till NI:s utkast 3 förstå vilket syfte<br />

begreppsmodellen har till skillnad från ett terminologiskt begreppsdiagram när<br />

verksamheten sammanfaller med fackområdet. Här behövs tydligare gränsdragning<br />

och syftesbeskrivning.<br />

När det gäller standarder behöver de kvalitetssäkras. Inom området hälsoinformatik<br />

finns en arbetsgrupp för terminologi, men principerna från ISO/TC 37 tillämpas inte i<br />

tillräcklig grad. Terminologiska begreppsdefinitioner blandas med beskrivningar av<br />

informationsmängder (klasser, kategorier). Dessutom är återanvändningen dålig, det<br />

vill säga varje standard definierar ofta begreppen utifrån själva standardens<br />

avgränsning i stället för utifrån fackområdet i fråga, vilket gör att det förekommer<br />

olika definitioner av samma begrepp i olika standarder.<br />

NORDTERM 2009, København 9.-12. juni 2009 14


REFERENSER<br />

ISO 17115:2007, Health informatics – Vocabulary for terminological systems<br />

ISO 1087-1:2000, Terminology work – Vocabulary – Part 1: Theory and application<br />

Klassifikation av funktionstillstånd, funktionshinder och hälsa (2003) (svensk version av International<br />

Classification of Functioning, Disability and Health, ICF)<br />

Klassifikation av sjukdomar och hälsoproblem 1997 (KSH97) (version 2009) (svensk version av<br />

ICD-10)<br />

NORDTERM 2009, København 9.-12. juni 2009 15


Sikring af Datakvalitet ved Hjælp af Ontologier<br />

Troels Thomsen<br />

Region Hovedstadens it-stab, Koncern IT<br />

København (Hillerød)<br />

Postadr.: Kongens Vænge 2, 3400 Hillerød<br />

Besøgsadr.: Borgervænget 7, 2100 København Ø<br />

Mail: tth@regionh.dk<br />

Abstract. Forudsætningen for genudnyttelse af elektroniske data er strukturerede data. Men<br />

det er ikke nogen triviel sag at tilvejebringe sådanne data. Det kræver, at grundlaget er begrebsafklaret<br />

og at data indtastes og lagres i en struktur, der kan behandles maskinelt. Først da kan data<br />

importeres i eller implementeres i det informationssystem, som de ønskede data skal anvendes<br />

i. Med eksempler belyses, hvad der skal forstås ved strukturerede data og hvorledes anvendelsen<br />

af ontologier kan kvalitetssikre en konsistent begrebsstruktur for data som grundlag for fx modellering<br />

af databaser.<br />

INDLEDNING<br />

Deling, udveksling og genudnyttelse af elektroniske data hører man nu efterhånden<br />

hver dag som den store åbenbaring i sundhedsvæsnet, og ordene har nærmest fået karakter<br />

af et mantra.<br />

Men elektroniske data kan ikke nødvendigvis udveksles vilkårligt efter ønske. Der er<br />

nogle forudsætninger, der skal være opfyldt. Forudsætningerne er ofte noget, der bliver<br />

glemt i euforien over det perspektiv, som rådighed over og adgang til elektroniske<br />

data åbner. Men datakvaliteten er afgørende for, hvad data overhovedet kan bruges til,<br />

og uddata bliver aldrig bedre end inddata!! Derfor er det vigtigt at sikre datakvaliteten.<br />

Mit fremmeste mål med dette indlæg er at gøre opmærksom på nogle strukturelle<br />

forudsætninger for at dele eller udveksle data.<br />

Jeg vil med eksempler fra det virkelige liv i henholdsvis ordbogsverdenen, nemlig<br />

Retskrivningsordbogen, og i Region Hovedstaden fortælle om, hvordan vi bruger begrebsafklaring<br />

og efterfølgende opstilling af mini-ontologier til at sikre datakvaliteten<br />

under udviklingen af nye, kliniske dokumentationssystemer.<br />

Udgangspunktet for udvikling af dokumentationssystemerne er et klinisk materiale,<br />

som dækker 34 medicinske specialer, og som er indsamlet i perioden 2004-2007. Materialet<br />

benævnes Sundhedsfagligt Indhold (SFI) og rummer flere tusinde Word-sider<br />

opsat i skemaer, se et eksempel i FIGUR 4. SFI rummer i princippet de 10 hyppigst<br />

forekommende kliniske interventioner inden for hvert speciale, og der er en vis overlapning.<br />

Sundhedsfagligt indhold handler hovedsageligt om klinisk viden og praksis<br />

som indhold i informationssystemer.<br />

NORDTERM 2009, København 9.-12. juni 2009 16


Men der hersker ikke nogen ensartet struktur af materialet, og dokumentationsarbejdet<br />

er sket på et uensartet grundlag. Derfor kræver materialet ikke blot en opdatering,<br />

det kræver også en begrebsafklaring og sidst, men ikke mindst, en dialog med de<br />

klinikere, der skal bruge indholdet i et informationssystem, altså slutbrugerne.<br />

Begrebsafklaring og dennes rolle i processen som middel til kvalitetssikring af data<br />

beskrives med udgangspunkt i konkret SFI-materiale. Selve arbejdsprocessen og metoden<br />

belyses med eksempler fra et par medicinske specialer, og der gives tillige et par<br />

eksempler på forvandlingen fra de oprindelige word-skemaer til mere strukturerede<br />

data.<br />

DATAKVALITET<br />

Når jeg taler om datakvalitet og især sikring af datakvalitet, så er kvalitet her forstået<br />

som en parameter, man skal definere. Datakvalitet rummer i sig selv ikke noget specielt<br />

positivt eller negativt, men er neutralt. Så i denne sammenhæng handler det om, at<br />

data har den kvalitet, man ønsker. Datakvaliteten handler fx om, hvorvidt data er<br />

strukturerede eller ej. Strukturen fremkommer fx ved, at data lagres i en database, hvor<br />

der er en beskrevet plads til hver informationstype, man indtaster, så man sidenhen<br />

kan søge på disse informationstyper. Det kan være navn, adresse, postnummer eller<br />

systolisk og diastolisk blodtryk.<br />

Derfor vil brugergrænsefladen, grafic user interface (GUI), ofte rumme begrænsninger<br />

på, hvilken slags data, der kan indtastes i hvilket felt.<br />

I det markerede felt kan man således kun indtaste en talværdi:<br />

FIGUR 1: Udkast til brugergrænseflade til dokumentation af observationer af en patients bevidsthedstilstand,<br />

Region Hovedstadens SFI.<br />

NORDTERM 2009, København 9.-12. juni 2009 17


Et minimumskrav til såvel inddata som uddata er, at brugerne af data har mulighed<br />

for at fortolke data ens, så de forstår det samme ved dem. Det kræver så dels, at data er<br />

definerede og at definitionerne er tilgængelige eller formidlet. Det sidste er en organisatorisk<br />

opgave, så den vil jeg ikke komme nærmere ind på her.<br />

Skal man kunne genudnytte data og søge på bestemte datatyper, så kræver det, at<br />

netop disse datatyper kan genfindes i en genkendelig og reproducerbar struktur. Det<br />

betyder omvendt, at data skal bringes ind i systemet på en måde, der sikrer genkendelse<br />

og ønsket struktur, og at de indtastede data er konsistente.<br />

Man må således ikke skifte mellem at måle blodtryk i hPa og mmHg i samme system.<br />

Tilsvarende skal man til ordbogsbrug anvende samme ordklassesystem hele vejen<br />

igennem og ikke skifte mellem et system med otte ordklasser og et system med 10<br />

ordklasser.<br />

STRUKTURERET VS. FRI TEKST<br />

Sammenlign fx en romantekst med en ordbogsartikel.<br />

Romanteksten er en lang kæde af tekststrenge. Tekst er det eneste, man kan søge,<br />

og man kan typisk ikke søge på fx ordklasser. Så selv om man har romanen elektronisk,<br />

kan man ikke søge på fx ordklassen konjunktioner, da de ’elektroniske håndtag’<br />

til at identificere ordklasse og konjunktion mangler. Teksten er ikke blevet tagget med<br />

disse klasser.<br />

Ideelt set er ordbogsartikler af samme type struktureret ens:<br />

• cykel sb., cyk(e)len, cykler.<br />

• cykelanhænger sb., -en, -e, bf. pl. cykelanhængerne.<br />

• cykelbud sb., -det, -e.<br />

• cykelbukser sb. pl.<br />

• cykelhandler sb., -en, -e, bf. pl. cykelhandlerne.<br />

Strukturen er styret af metadata, som det kan ses af FIGUR 2: (metadata er ikke fuldstændige)<br />

NORDTERM 2009, København 9.-12. juni 2009 18


M<br />

e<br />

t<br />

a<br />

d<br />

a<br />

t<br />

a<br />

• cykel sb., cyk(e)len, cykler.<br />

• cykelanhænger sb., -en, -e, bf. pl.<br />

cykelanhængerne.<br />

• cykelbud sb., -det, -e.<br />

• cykelbukser sb. pl.<br />

• cykelhandler sb., -en, -e, bf. pl. cykelhandlerne.<br />

lemma<br />

ordklasse<br />

Datakvalitet i kliniske it-systemer<br />

morfologi<br />

fleksion<br />

S t r u k t u r e r e d e d a t a<br />

FIGUR 2. Uddrag af Retskrivningsordbogen 2001<br />

numerus<br />

bestemthed<br />

Troels Thomsen<br />

I FIGUR 2 er følgende metadata fremhævet: lemma (=opslagsord), ordklasse, morfologi<br />

i form af morfologisk element i alternativ stavning og fleksiver for numerus og<br />

bestemthed. Disse metadata har en indbyrdes rækkefølge og styrer præsentationen af<br />

data. Det betyder også, at man kan søge på værdierne i disse kategorier i den database,<br />

de ligger i. Så eftersom data er beskrevet med metadata og metadata er strukturerede,<br />

har vi strukturerede data. Og hvordan når vi så dertil?<br />

Først og fremmest ved at holde styr på vores metadata:<br />

Struktureret inddatering & konsistens<br />

Metadata Data<br />

Lemma<br />

Ordklasse<br />

Bestemt form,<br />

sing.<br />

Bestemt form,<br />

pl.<br />

…<br />

FIGUR 3. Metadata og data<br />

cykel<br />

sb.<br />

cyk(e)len<br />

cyklerne<br />

Tilladte værdier<br />

vb.<br />

sb.<br />

adj.<br />

adv.<br />

konj.<br />

præp.<br />

pron.<br />

interj.<br />

num.<br />

NORDTERM 2009, København 9.-12. juni 2009 19


Her er vist et begrænset udfaldsrum også kaldet en værdiliste for de data (værdier),<br />

der er tilladt i metadatakategorien ’ordklasse’. Ved kun at tillade denne værdiliste, kan<br />

vi sikre konsistens i inddateringen. Konsistensen sikrer så, at vi kan sammenligne data,<br />

selvfølgelig under forudsætning af, at vi har fortolket data rigtigt og tilordnet dem de<br />

rigtige metadata.<br />

I disse globaliseringstider, hvor der er adgang til store datamængder og hvor behov<br />

for deling af data, især tænkes her på forskningsdata, er kravet til konsistens i data ultimativ.<br />

Skal der foretages sammenligninger, skal man have et defineret grundlag at gå<br />

ud fra.<br />

Forløbig sammenfatning:<br />

• Konsistent terminologi betyder, at såvel metadata som data har fastlagte definitioner,<br />

så både afsender og modtager fortolker samme data ens.<br />

• Konsistente data gør det muligt, at både afsender og modtager forstår det samme<br />

ved samme term.<br />

• Sammenligninger med internationale klassifikationer og terminologisystemer<br />

gør konsistens i såvel egen terminologi som den internationale ultimativ.<br />

To eksempler på hvad begrebsafklaring tilfører datakvaliteten<br />

i sundhedsfaglig applikation<br />

Udgangspunktet for en stor del af de nye applikationer, vi laver i Region Hovedstaden<br />

er et materiale, der blev indsamlet i perioden 2004-2007. Over 30 kliniske specialer<br />

har bidraget til at indsamle klinisk viden, som skal udgøre grundstammen af det sundhedsfaglige<br />

indhold i kliniske informationssystemer. Der ligger ca. 1200 unikke såkaldte<br />

standardplaner som udtryk for sæt af kliniske arbejdsgange. For eksempel<br />

rummer standardplanen Måling af vitale værdier: puls, blodtryk, iltmætning (saturation)<br />

og respiration, se FIGUR 4 nedenfor:<br />

Standardresultat<br />

(S R)<br />

Puls<br />

SR<br />

/værdi<br />

Frekvens<br />

(talværdi<br />

/min)<br />

SR /værdi SR /værdi<br />

SR I<br />

værdi<br />

Regelmæssig Uregelmæssig Fritekst<br />

Blodtryk *systolisk *Diastolisk Målt i hvile<br />

**Målested<br />

Højre<br />

arm<br />

Venstre arm<br />

Manchetstørrelse**<br />

(dropdownliste)<br />

SR Iværdi Kommentar<br />

aldersrelaterede<br />

normalværdier<br />

*(talværdi mmHg)/ (talværdi,<br />

mmHg)<br />

grænseværdier angives<br />

på<br />

afdelings/specialeniveau<br />

**Defaultværdi kan angives<br />

på afdelingsniveau<br />

NORDTERM 2009, København 9.-12. juni 2009 20


*Temperatur Rektalt Øre Oralt Axil Inguen<br />

*Respirationsfrekvens<br />

**Saturation<br />

Sat. målested Finger /Tå<br />

Uden 02 -tilskud Med O2<br />

-tilskud<br />

Uden 02 -tilskud /Med 02tilskud<br />

***Antal liter O2<br />

***Antal I 02<br />

Med<br />

fugter<br />

Med<br />

fugter<br />

Med Hudsonmaske<br />

Med Hudsonmaske<br />

FIGUR 4. Standardplan for måling af vitale værdier, uddrag af: Generel lægelig udredning, objektiv<br />

undersøgelse, s. 31, SFI Hovedstaden<br />

* (talværdi, grader celsius)<br />

* (talværdi/min)<br />

***(talværdi, 1/min)<br />

*(Talværdi i<br />

%)***(talværdi, 1/min)<br />

Men materialet er ikke nødvendigvis konsistent. Der har ikke ligget en egentlig dokumentationsmodel<br />

til grund for indsamlingen, og derfor er datakvaliteten ikke altid<br />

optimal. Så for at fange evt. inkonsistenser eller inkonsekvenser bliver materialet udsat<br />

for terminologisk behandling. Terminologiarbejdet sker altid på grundlag af de enkelte<br />

standardplaner, så det er op til terminologen at sikre terminologien på tværs af disse.<br />

På grund af manglende ressourcer er terminologiarbejdet begrænset til de enkelte<br />

standardplaner, efterhånden som de inddrages i udviklingsprocessen. Dette sikrer<br />

imidlertid ikke terminologien på tværs, altså mellem standardplanerne. Derfor er der<br />

heller ikke sikkerhed for, at terminologien i de nye systemer i sig selv er konsistent.<br />

Optimalt burde terminologiarbejdet således køre i to spor. Et spor, der tager sig af de<br />

enkelte planer, og et spor, der tager sig af den samlede terminologi. Hvis man fx skal<br />

definere blodtryk med typerne systolisk blodtryk, diastolisk blodtryk og middelblodtryk<br />

i forhold til andre tryk, så skulle man som minimum tage de tryktyper med, som<br />

er relevante i den kliniske verden. Og det er temmelig mange. Andre eksempler er:<br />

arterielt tryk, venetryk, osmotisk tryk, ilttryk, partialtryk, hudperfusionstryk og mange<br />

flere Men så ville man også have både overblik over og beskrivelse af tryktyperne, når<br />

man når til de de planer, hvori de indgår, og man ville undgå fejl.<br />

Et eksempel på nogle af uhensigtsmæssigheder fås fra nedenstående eksempel, som<br />

er en del af den standardplan, der hedder Almentilstand, objektiv undersøgelse:<br />

Standardresultat<br />

(SR)<br />

Psykisk neutral<br />

Psykisk påvirket<br />

Opstemt Depressiv Manisk Usammenhængende Psykotisk<br />

FIGUR 5. Uddrag af standardplanen Almentilstand, objektiv undersøgelse, fra Generel lægelig udredning,<br />

SFI-Region Hovedstaden<br />

NORDTERM 2009, København 9.-12. juni 2009 21


Det første, der springer i øjnene, er, at der ikke er noget overbegreb for Psykisk<br />

neutral og Psykisk påvirket, fx Psykisk tilstand. Men måske er de ikke engang sideordnede?<br />

Det næste er, at de kategorier, der nævnes under Psykisk påvirket, ikke tilhører<br />

samme aspekt eller inddelingskriterium, og det skaber uklarhed i kategorien Psykisk<br />

påvirket.<br />

For at skabe mere klarhed over begrebsrelationerne, er der blevet udarbejdet et begrebssystem,<br />

se FIGUR 6, hvor begreberne fra FIGUR5 er blevet indarbejdet:<br />

FIGUR 6. Udsnit af begrebssystemet: Almentilstand_kombi, Region Hovedstadens Begrebsbase<br />

Som det fremgår af FIGUR 6, indgår der flere begreber i beskrivelsen af psykisk tilstand,<br />

end der indgår i FIGUR 5. Derimod indgår Psykisk påvirket ikke. Den er heller<br />

ikke nødvendig, hvis man sætter overbegrebet psykisk tilstand ind. For så kunne man i<br />

skemaet anvende aspekterne stemningsleje og virkelighedsopfattelse. Så ville begre-<br />

NORDTERM 2009, København 9.-12. juni 2009 22


erne for det første få en reflekteret placering, deres indbyrdes relationer ville være<br />

klare, og dokumentationen ville blive bedre.<br />

Imidlertid skal der lige sparkes to sidebemærkninger ind her, og det er for det første,<br />

at de begreber, der optræder i et givet begrebssystem med det formål at begrebsafklare<br />

et område, ikke nødvendigvis vil komme til at optræde på en brugergrænseflade.<br />

Det sker, hvis begreberne ikke er relevante for brugergrænsefladen og dermed dokumentationen<br />

af et givet område. Men de kan sagtens være nødvendige i et begrebssystem.<br />

For det andet kan en term i et begrebssystem sagtens have et synonym på en<br />

brugergrænseflade eller være repræsenteret ved en ikon eller lignende. Det siger ikke<br />

nødvendigvis noget om, hvordan data faktisk lagres i en database.<br />

Et andet eksempel er Ekspektoration fra Almentilstand, objektiv undersøgelse, fra<br />

SFI-standardplanen Generel lægelig udredning. Ekspektoration er det at hoste noget<br />

op, og ekspektoratet er det, der hostes op. I SFI-materialet forventes Ekspektoration<br />

dokumenteret ved hjælp af følgende kategorier:<br />

Standard-<br />

Resultat/<br />

Værdi<br />

Intet ekspektorat<br />

Værdi Værdi Værdi Værdi Værdi<br />

Ekspektoration Klart ekspektorat <br />

Hvidtskummendeekspektorat<br />

Ekspektorat Ekspektorat<br />

med koagler med frisk<br />

blod<br />

Purulent Sejt ekspekto-<br />

ekspektorat rat<br />

FIGUR 7 Standardresultat for observation af ekspektoration. Uddrag af Generel lægelig udredning,<br />

objektiv undersøgelse, s. 29, SFI-Hovedstaden.<br />

Af dette skema fremgår begrebernes indbyrdes relationer ikke klart. Men det må<br />

formodes, at Intet ekspektorat og Ekspektoration, står i opposition til hinanden. Pudsigt<br />

er det, at det så ikke hedder Ingen ekspektoration eller for modpolen blot: Ekspektorat.<br />

Dette ikke mindst, da processen hedder ekspektoration, mens resultatet hedder<br />

ekspektorat.<br />

En rundspørge blandt læger og en efterfølgende terminologisk bearbejdelse af disse<br />

få begreber resulterer i følgende begrebssystem:<br />

NORDTERM 2009, København 9.-12. juni 2009 23


FIGUR 8 Begrebssystemet Modtagelse af patient, Ekspektoration, RegionH’s begrebsbase.<br />

Som det fremgår af FIGUR 8, er der føjet et begreb til, nemlig skummende ekspektorat.<br />

Dette fordi det manglede i det oprindelige materiale. Ekspektorater kan antage<br />

forskellige farver, og der kunne i princippet være anført flere farver, fx ’lyserødt’ eller<br />

’rosa’, som er almindelige.<br />

Det ses også, hvilke kombinationsmuligheder systemet åbner for, idet de to begreber<br />

under aspektet OPACITET er oppositioner ligesom de to begreber under VISKOSI-<br />

TET.<br />

Hvad anvendelsen af disse begreber i et informationssystem angår, så er der nu<br />

klarhed over, hvad der kan kombineres, og dermed hvilke bindinger brugergrænsefladen<br />

skal rumme. Samtidig opnås klarhed over, hvilke kliniske data der kan struktureres<br />

hvorledes, så man opnår konsistent inddatering og efterfølgende mulighed for konsistent<br />

søgning af indtastede data.<br />

OPSUMMERING<br />

Jeg håber med dette indlæg at have skabt en forståelse af såvel vigtigheden som<br />

nødvendigheden af at tænke i at tilvejebringe strukturerede data som grundlag for<br />

genudnyttelse af data. Men det er ikke nogen triviel sag at tilvejebringe sådanne data.<br />

Det kræver, at grundlaget er i orden. At grundlaget er i orden, vil sige, at det er begrebsafklaret<br />

og ligger i en struktur, der kan importeres eller implementeres i det informationssystem,<br />

som de ønskede data skabes i.<br />

Optimalt vil det (afhængigt af forholdene) være at anvende en tospors-løsning, hvor<br />

man på den ene side udarbejder detaljerede (lokale) begrebssystemer, fx blodtryk, og<br />

samtidig på den anden side detaljerede globale begrebssystemer fx tryk, hvori hele eller<br />

dele af lokale begrebssystemer efterhånden vil blive repræsenteret, så man med tiden<br />

får et så fuldstændigt globalt begrebssystem, som det nu er muligt.<br />

NORDTERM 2009, København 9.-12. juni 2009 24


REFERENCER<br />

SFI-Hovedstaden (2007) http://www.regionh.dk/menu/sundhedOghospitaler/SFI.<br />

Dansk Sprognævn (2001) Retskrivningsordbogen, Alinea A/S – Aschehoug Dansk Forlag A/S.<br />

Region Hovedtsadens Begrebsbase, Koncern IT<br />

NORDTERM 2009, København 9.-12. juni 2009 25


’Specialer’ i sundhedsvæsnet i Danmark<br />

Anne-Mette Skou<br />

Region Hovedstaden, Koncern IT, Projektafdelingen<br />

Abstract. Jeg vil i mit indlæg gennemgå resultatet af en undersøgelse af sundhedsvæsnets<br />

anvendelse af begrebet ’speciale’ – og de specialeopfattelser og specialeklassifikationer,<br />

sundhedsvæsnet i Danmark opererer med.<br />

Hvilke specialer findes der? Specialerne er jo på mange måder hele sundhedsvæsnets skelet,<br />

men min undersøgelse har vist, at der ikke er nogen steder, man kan se det i sin helhed. De<br />

forskellige dele ligger forskellige steder, og ikke alle passer sammen. Der er næppe nogen i<br />

sundhedsvæsnet, der ikke mener at vide, hvad et speciale er, og hvilke der findes, men man får<br />

meget forskellige svar, alt efter hvem man spørger.<br />

En guidet rundtur. Jeg vil tage konferencens deltagere med på en rundtur og vise, hvad der<br />

kaldes ’speciale’ og hvordan det, der kaldes ’speciale’, klassificeres i sundhedssektoren med<br />

eksempler fra en række forskellige kildetyper, fx love og bekendtgørelser, nogle af<br />

Sundhedsstyrelsens klassifikationer og registre, medicinske selskabers websites, sundhedsfaglige<br />

råd og Region Hovedstadens hospitalsplanlægning.<br />

Hvad det drejer sig om. Fx er ’mammakirurgi’ (brystkirurgi) ikke et speciale iflg. lovgivningen<br />

om uddannelse af speciallæger, men indeholdt i det lægelige speciale ’kirurgi’. Men folk, der<br />

planlægger, hvilke former for behandling, der skal være på hvilke hospitaler, taler om ’specialet<br />

mammakirurgi’. Og fx er specialerne ’thoraxkirurgi’ og ’plastikkirurgi’ i lovgivningen om<br />

uddannelse af speciallæger klassificeret som ’kirurgiske specialer’, mens fx ’øjenkirurgi’ ikke er<br />

det.<br />

Én national specialeklassifikation vil være et uvurderligt redskab til forbedring af<br />

datakvalitet. Pointen – som efter rundturen vil være indlysende - er, at det virkelig vil kunne<br />

betale sig for sundhedssektoren at gennemføre et nationalt oprydningsprojekt og udarbejde en<br />

samlet national klassifikation – eller ontologi – et egentligt begrebssystem med termer,<br />

synonymer, definitioner og øvrige oplysninger i terminografiske artikler. Det vil være et<br />

uvurderligt redskab i udviklingen af den digitale forvaltning af sektoren - af arbejdet med<br />

udvikling af de af sundhedsvæsnets it-systemer, der i tabelværkerne anvender klassifikationer af<br />

specialer og fænomener, der er ’specialespecifikke’ og ’specialerelaterede’.<br />

HISTORIEN OM ONTOLOGIEN,<br />

DER IKKE ER UDARBEJDET<br />

NORDTERM 2009, København 9.-12. juni 2009 26


Jeg foretog i foråret en undersøgelse, der viste, at det danske sundhedsvæsen ikke<br />

har én, samlet specialeontologi. Det overraskede mig, da jeg troede, at udarbejdelse af<br />

en sådan ville være noget af det første, man ville forestage sig som led i<br />

digitaliseringen af sundhedssektoren. Dette indlæg giver et lille indblik i – men<br />

absolut ikke et fuldstændigt billede af – hvilke former for oversigter og<br />

systematiseringer af ’specialer’, der arbejdes med i det danske sundhedsvæsen.<br />

Nedenstående gengivelse af mit indlæg indeholder ikke alle plancer, som blev<br />

præsenteret på konferencen.<br />

Koncern IT<br />

Hvilke specialer findes der?<br />

3<br />

www.regionh.dk<br />

Man får forskellige svar på det spørgsmål, alt efter hvor man spørger. Den seneste<br />

bekendtgørelse 1 om uddannelse af speciallæger indeholder 38 lægelige specialer =<br />

fagområder, inden for hvilke man kan specialisere sig som læge i det danske<br />

sundhedsvæsen. Disse specialer er følgende:<br />

Almen medicin<br />

Anæstesiologi<br />

Arbejdsmedicin<br />

Børne- og ungdomspsykiatri<br />

Dermato-venerologi (hud- og kønssygdomme)<br />

1 BEK nr 1248 af 24/10/2007<br />

https://www.retsinformation.dk/Forms/R0710.aspx?id=105090<br />

NORDTERM 2009, København 9.-12. juni 2009 27


Diagnostisk radiologi (røntgenundersøgelse)<br />

Gynækologi og obstetrik (kvindesygdomme og fødselshjælp)<br />

Intern medicin: endokrinologi (medicinske hormonsygdomme)<br />

Intern medicin: gastroenterologi og hepatologi (medicinske mave-tarm- og leversygdomme)<br />

Intern medicin: geriatri (alderdommens sygdomme)<br />

Intern medicin: hæmatologi (blodsygdomme)<br />

Intern medicin: infektionsmedicin<br />

Intern medicin: kardiologi (medicinske hjerte- og kredsløbssygdomme)<br />

Intern medicin: lungesygdomme<br />

Intern medicin: nefrologi (medicinske nyresygdomme)<br />

Intern medicin: reumatologi (gigtsygdomme)<br />

Kirurgi (kirurgiske sygdomme)<br />

Karkirurgi (kirurgiske blodkarsygdomme)<br />

Plastikkirurgi (plastik- og rekonstruktionskirurgi)<br />

Thoraxkirurgi (brysthulens kirurgiske sygdomme)<br />

Urologi (urinvejenes kirurgiske sygdomme)<br />

Klinisk biokemi<br />

Klinisk farmakologi<br />

Klinisk fysiologi og nuklearmedicin<br />

Klinisk genetik<br />

Klinisk immunologi<br />

Klinisk mikrobiologi<br />

Klinisk onkologi (kræftsygdomme)<br />

Neurokirurgi (kirurgiske nervesygdomme)<br />

Neurologi (medicinske nervesygdomme)<br />

Oftalmologi (øjensygdomme)<br />

Ortopædisk kirurgi<br />

Oto-rhino-laryngologi (øre-næse-halssygdomme)<br />

Patologisk anatomi og cytologi (vævs- og celleundersøgelser)<br />

Psykiatri<br />

Pædiatri (sygdomme hos børn)<br />

Retsmedicin<br />

Samfundsmedicin<br />

Kigger man på Dansk Medicinsk Selskabs website2, får man et andet svar. Dansk<br />

Medicinsk Selskab, DMS, er ”aktuelt en sammenslutning af 115 danske<br />

lægevidenskabelige selskaber med 22.883 medlemmer.”<br />

DMS klassificerer de lægevidenskabelige selskaber i hhv. ’specialebærende’ og ’ikkespecialebærende’<br />

selskaber og siger herom: ”Medlemsselskaberne fordeler sig på 38<br />

såkaldt specialebærende, som varetager de lægevidenkabelige områder der danner<br />

basis for specialestrukturen jvf. Indenrigs- og Sundhedsministeriets bekendtgørelse<br />

herom.”<br />

”De øvrige 77 ikke-specialebærende selskaber repræsenterer lægevidenskabelige<br />

områder, som er dele af specialerne (enkelte diagnoser eller kliniske områder) eller<br />

kliniske områder mellem flere specialer. En del af disse områder er eller vil blive<br />

etablerede som fagområder.”<br />

Der er 38 specialebærende selskaber, men ikke 38 specialer herunder. Der er to<br />

selskaber, der tilsammen dækker det, der engang var 2, men i dag et ét speciale,<br />

nemlig ’ gastroenterologi og hepatologi' . Til gengæld står specialet<br />

2 Citater fra DMS’s website i denne skriftlige udgave af indlægget er fra 11. august 2009.<br />

http://www.dms.dk/app/plsql/dms_forside.frz<br />

NORDTERM 2009, København 9.-12. juni 2009 28


’samfundsmedicin’ (som er indeholdt i bekendtgørelsen om uddannelse af<br />

speciallæger som et ’fagområde’.<br />

Koncern IT<br />

37 specialer – 38 selskaber<br />

samfundsmedicin mangler<br />

72 (fag)områder<br />

– herunder samfundsmedicin<br />

9<br />

www.regionh.dk<br />

Kigger man i SKS, får man også et andet svar. ’SKS’ er Sundhedsvæsnets<br />

KlassifikationsSystem, som kan tilgås fra Sundhedsstyrelsens website3. SKS består af<br />

flere tusinde koder, som brugers til at levere struktureret information til forskellige<br />

informationssystemer.<br />

I SKS finder man – under ’specialerelaterede tillægskoder ZN’ - følgende:<br />

o ZNA<br />

o ZNAA: de 38 lægelige specialer, der er i ovennævnte bekendtgørelse<br />

o ZNAB: 55 lægelige specialer efter tidligere bekendtgørelser<br />

o ZNAC: 11 ’Andre sundhedsfaglige områder’<br />

o ZNB: 10 ’Andre sundhedsfaglige specialer’.<br />

Dvs. i alt 114 koder. Der er ingen oplysninger om, hvad forskellen er på hhv. ’lægeligt<br />

speciale’, ’andet sundhedsfagligt område’ og ’andet sundhedsfagligt speciale’.<br />

’Andre sundhedsfaglige områder’ og ’andre sundhedsfaglige specialer’ er hhv.:<br />

3 http://www.sst.dk/Indberetning%20og%20statistik/Klassifikationer/Hvad_er_SKS.aspx<br />

http://www.sst.dk/Indberetning%20og%20statistik/Klassifikationer/Hvad_er_SKS/SKS_tabel.aspx<br />

http://www.medinfo.dk/sks/brows.php<br />

NORDTERM 2009, København 9.-12. juni 2009 29


11 Andre sundhedsfaglige områder, SKS/ZNAC<br />

Koncern IT<br />

14<br />

www.regionh.dk<br />

10 Andre sundhedsfaglige specialer, SKS/ZNB<br />

Koncern IT<br />

15<br />

www.regionh.dk<br />

Kigger man i ’Lov om autorisation af sundhedspersoner og om sundhedsfaglig<br />

virksomhed’, finder man følgende sundhedsfaglige uddannelser ud over ’læge’.<br />

NORDTERM 2009, København 9.-12. juni 2009 30


Koncern IT<br />

19<br />

www.regionh.dk<br />

Et andet sted på Sundhedsstyrelsens website finder man denne liste med<br />

sundhedsfaglige uddannelser. Den indeholder de samme som loven ovenfor, men har<br />

flere. Der er også en gruppe, der kaldes ’Øvrigt sundhedspersonale’.<br />

Koncern IT<br />

20<br />

www.regionh.dk<br />

NORDTERM 2009, København 9.-12. juni 2009 31


’Øvrigt sundhedspersonale’ rummer 5 sundhedsfaglige uddannelser, der ikke<br />

forekommer i nogle af de øvrige ovenstående lister. Én af dem, Hospitalsteknisk<br />

assistent, underinddeles yderligere i specialer.<br />

Koncern IT<br />

Koncern IT<br />

21<br />

www.regionh.dk<br />

22<br />

www.regionh.dk<br />

NORDTERM 2009, København 9.-12. juni 2009 32


I Region Hovedstadens Hospitalsplan figurerer en række specialer (kaldet både<br />

’specialer’, ’funktioner’, ’enheder’ og andre udtryk), hvoraf nogle - men ikke alle - er<br />

lægelige specialer iht. bekendtgørelse herom. Nogle svarer til det, der kaldes<br />

’fagområde’ af DMS, og enkelte er hverken specialer eller fagområder iht.<br />

behendtgørelse og DMS.<br />

Ikke lægelige eller<br />

tandlægelige specialer iht. BEK’er<br />

om speciallæger og -tandlæger<br />

Fagområder iht. dms.dk:<br />

•Akutmedicin<br />

•Intensiv medicin<br />

•Mammakirurgi<br />

•Børnekirurgi<br />

•Palliativ medicin<br />

•Medicinsk allergologi<br />

Hverken speciale eller fagområde<br />

Koncern IT<br />

27<br />

www.regionh.dk<br />

I hospitalsplanen ses endvidere en række specifikationer eller underinddelinger, der<br />

ikke ses i nogen af de andre kilder, fx<br />

• børnekirurgi<br />

• kirurgi på børn<br />

• kirurgi på børn < 2 år<br />

• kirurgi på børn > 2 år<br />

• mammakirurgi<br />

• idrætsklinik<br />

• øjenkirurgi<br />

Endvidere indeholder hospitalsplanen en række begreber (her vist som udkast til et<br />

begrebssystem i i-Term), der er udtryk for politisk-organisatoriske aspekter, som<br />

kombineres med specialerne iht. politiske beslutninger. Man kan fx skelne mellem<br />

’akut kirurgi’ (= ved ulykker) og ’elektiv kirurgi’ (= planlagte operationer, hvor<br />

NORDTERM 2009, København 9.-12. juni 2009 33


patienterne få en tid). En ontologi, som også indeholder disse begreber, vil tydeligvis<br />

blive stærkt polyhierarkisk.<br />

Og så er der også …<br />

Koncern IT<br />

29<br />

www.regionh.dk<br />

Kigger man på hospitalers og hospitalsafdelingers websites, vil man opdage, at der<br />

er endnu flere ’specialer’ end ovenfor nævnt.<br />

Koncern IT<br />

30<br />

www.regionh.dk<br />

NORDTERM 2009, København 9.-12. juni 2009 34


Klassifikationstendenser<br />

Der er ikke mange klassifikationstendenser – og dem der er, er ikke gennemført. I<br />

bekendtgørelsen om uddannelse af speciallæger er der to grupperinger: ’intern<br />

medicinske specialer’ og ’kirurgiske specialer’. Resten af specialerne er anført i<br />

alfabetisk rækkefølge.<br />

Koncern IT<br />

Neurokirurgi?<br />

Ortopædisk kirurgi?<br />

Hvorfor er der kirurgiske specialer,<br />

der ikke er kirurgiske specialer?<br />

Og som man kan se, er der ikke enighed om den sag!<br />

1<br />

www.regionh.dk<br />

NORDTERM 2009, København 9.-12. juni 2009 35


Koncern IT<br />

35<br />

www.regionh.dk<br />

I hospitalsplanen forekommer begreber, der er overbegreber til de tidligere nævnte<br />

specialer i hospitalsplanen. Men der findes ikke en egentlig klassifikation. Det er for<br />

det meste uklart, hvilke konkrete specialer, der hører under hvilke af disse<br />

overbegreber:<br />

o somatisk speciale<br />

o psykiatrisk speciale<br />

o sygehusspeciale<br />

o sygehusbaseret lægefagligt speciale<br />

o klinisk speciale<br />

o paraklinisk funktion<br />

o laboratoriespeciale<br />

o tværgående laboratoriespeciale<br />

o diagnostisk speciale<br />

o laboratoriediagnostisk speciale<br />

o billeddiagnostisk speciale<br />

o kvinde-barn-speciale<br />

o hjerte-lunge-område<br />

o neuro-område<br />

o neurospeciale<br />

o intern medicin<br />

o almen intern medicin<br />

Alt i alt viste undersøgelsen, at ’speciale’ er en homograf, som anvendes i (mindst)<br />

4 betydninger.<br />

NORDTERM 2009, København 9.-12. juni 2009 36


1. emne, område, foretagende el. andet som nogen er særlig god til el. har stor<br />

viden om<br />

I sundhedsvæsnet:<br />

a. primært uddannelsesområde, fx lægevidenskab, sygepleje og fysioterapi<br />

b. gren herunder, fx audiologi (audiologiassistent)<br />

c. videreuddannelsesområde, fx onkologi, tand-, mund- og kæbekirurgi<br />

d. gren herunder, fx mammakirurgi, audiologi og trykkammerbehandling<br />

e. variation, fx hospitalssocialrådgivning<br />

2. en funktion/funktionel enhed, der varetager opgaver inden for et videnområde,<br />

fx en ’kirurgisk funktion’, ’elektiv kirurgisk funktion’ eller ’elektiv kirurgi’<br />

3. en konkret organisatorisk enhed<br />

fx ’Kirurgisk Afdeling’ på Hillerød Hospital<br />

4. et ’samfund’ der kan karakteriseres som en organisme, der består af mange<br />

forskellige elementer, der lever i indbyrdes overlap og afhængighed og<br />

gensidig påvirkning,<br />

”inden for kirurgi siger man, at …”<br />

Så også her er det vigtigt at vide, hvornår det er vigtigt at vide, hvad man taler om!<br />

NORDTERM 2009, København 9.-12. juni 2009 37


Begrebsafklaring inden for området<br />

enzymkemi<br />

Ture Damhus a,b,c , Peder Olesen Larsen d , Bodil Nistrup Madsen e,f and<br />

Sine Zambach g<br />

a Novozymes A/S, DK-2880 Bagsværd, tda@novozymes.com<br />

b Kemisk Forenings Nomenklaturudvalg<br />

c Sekretær, IUPAC Division VIII<br />

d Kemisk Forenings Nomenklaturudvalg, pol@webspeed.dk<br />

e DANTERMcentret, Copenhagen Business School, DK-2000 Frederiksberg, bnm.danterm@cbs.dk<br />

f Formand for ISO TC 37, SC 3 Systems to manage terminology, knowledge and content<br />

g Datalogi, Institut for Kommunikation, Virksomhed og Informationsteknologier, Roskilde Universi-<br />

tet, DK-4000 Roskilde, sz@ruc.dk<br />

Abstract. Faget og forskningsområdet kemi har en lang tradition for at organisere og standardisere<br />

– for eksempel navne på kemiske forbindelser i systematisk nomenklatur og grundstofferne<br />

i det periodiske system. IUPAC (International Union of Pure and Applied Chemistry) har lagt et<br />

stort arbejde i at samle terminologien for kemiske begreber i the Gold Book, som i dag er tilgængelig<br />

via Gold Book on-line (IUPAC 2006). Vi har gennemført et pilotprojekt, der har til<br />

formål at vise, at definitionerne af begreber inden for enzym- og proteinkemi i IUPAC Gold<br />

Book on-line (2006) kan forbedres, hvis der anvendes terminologiske metoder (jf. for eksempel<br />

Madsen et al. 2006). Vi foreslår, at der udarbejdes terminologiske ontologier (begrebssystemer)<br />

som basis for udarbejdelsen af definitionerne af de kemiske begreber. Vi har modelleret eksempler<br />

fra underdomænerne enzyminhibering og proteinstruktur. Dette har medført en række afklaringer<br />

og har endvidere afdækket områder for videre udforskning.<br />

BAGGRUND FOR PROJEKTET<br />

Videnskabelig kommunikation foregår overvejende på engelsk. Der er imidlertid et<br />

stort behov for dansk terminologi inden for naturvidenskabeligt sprog:<br />

• Vi skal kunne undervise på dansk i for eksempel fysik og kemi i folkeskolen<br />

og gymnasiet.<br />

• Det skal være muligt at formidle forskningsresultater, produktbeskrivelser<br />

m.m. på dansk.<br />

• Danske naturvidenskabsstuderende har brug for danske termer og definitioner<br />

for bedre at kunne forstå undervisning på engelsk.<br />

• Medierne (talte, trykte, elektroniske) har brug for et alment accepteret og præcist<br />

sprog til behandling af videnskabelige emner.<br />

• Myndighederne skal kunne formulere love og bekendtgørelser og retssystemet<br />

behandle sager på dansk med videnskabeligt indhold.<br />

NORDTERM 2009, København 9.-12. juni 2009 38


FORMÅLET MED PROJEKTET<br />

Vi satte os derfor oprindeligt som mål at undersøge mulighederne for at skabe en<br />

kodificeret dansk kemisk terminologi, i første omgang inden for enzymkemi, og at<br />

oprette en termbase med dansk og engelsk terminologi, baseret på internationale anbefalinger.<br />

Som udgangspunkt for dette var det nødvendigt at undersøge eksisterende<br />

international terminologi inden for enzymkemi. Vores arbejde med dette bekræftede<br />

vores formodninger om, at det ville være nødvendigt at udarbejde forslag til forbedringer<br />

og suppleringer af den eksisterende engelske terminologi inden for området, da<br />

der kunne konstateres en række problemer. Vi har derfor gennemført et pilotprojekt<br />

med det formål at vise, at de eksisterende definitioner kan forbedres, hvis der anvendes<br />

terminologiske metoder, ifølge hvilke definitionerne udarbejdes på basis af analyse<br />

af begrebernes karakteristiske træk og af ontologier (begrebssystemer), jf. for eksempel<br />

Madsen et al. (2006).<br />

PROBLEMER I DE EKSISTERENDE OPSLAGSVÆRKER<br />

Som grundlag for pilotprojektet har vi anvendt følgende opslagsværker: IUPAC Gold<br />

Book on-line og The Oxford Dictionary of Biochemistry and Molecular Biology,<br />

ODBMB (2006).<br />

Vi har konstateret følgende problemer med definitionerne i de eksisterende kilder:<br />

1. Definitionerne er af og til indbyrdes inkonsistente.<br />

2. Definitionerne indeholder ofte informationer, som kan betragtes som supplerende<br />

informationer, hvorved fås lange og mindre klare definitioner.<br />

3. Definitionerne er ikke baseret på en ontologi som viser specificerede relationer<br />

mellem begreberne.<br />

4. Uoverensstemmelser mellem IUPAC Gold Book on-line og ODBMB (2006).<br />

5. I nogle tilfælde hersker der faglig uenighed om definitionerne af et begreb.<br />

6. De forskellige kemiske grene forstår typisk begreber lidt forskelligt. For eksempel<br />

forstås begrebet proteinstruktur af røntgenkrystallografer nok ofte som<br />

koordinaterne i et krystalliseret protein, mens molekylærbiologer måske er mere<br />

tilbøjelige til at opfatte strukturen som summen af de (til dels mindre stringent<br />

definerede) strukturelementer, der omtales nedenfor (primær, sekundær<br />

osv.).<br />

Vi fokuserer i det følgende på problemet med inkonsistente og lange definitioner,<br />

der ikke er baseret på en ontologi (problem 1. og 2.) Problemet med inkonsistente definitioner<br />

kan i mange tilfælde føres tilbage til manglen på klare relationer mellem<br />

begreberne.<br />

I Gold Book on-line præsenteres begreberne i såkaldte ”interactive link maps”,<br />

som er baseret på de links mellem begreber, som findes i forbindelse med definitionerne.<br />

Der er dog en række problemer med begrebsrelationerne i Gold Book on-line:<br />

1. Relationstyperne er ikke anført, og det er dermed ikke muligt at skelne mellem<br />

typerelationer, del-helheds-relationer og associative relationer.<br />

NORDTERM 2009, København 9.-12. juni 2009 39


2. Det er derfor heller ikke muligt at skelne mellem et begrebs overbegreber og<br />

dets andre relaterede begreber.<br />

3. Der er således ikke tale om egentlige ontologier, og begrebsrelationerne kan<br />

ikke anvendes som grundlag for definitioner som opfylder kravet til terminologiske<br />

definitioner: anførelse af nærmeste overbegreb og adskillende træk.<br />

I de tre næste figurer vises et interactive link map fra Gold Book on-line, hvor begrebet<br />

primary structure er det centrale. Figurerne viser tre detaljeringsgrader af det<br />

pågældende interactive link map.<br />

FIGUR 1. Interactive link map for primary structure – First level (Gold Book on-line)<br />

NORDTERM 2009, København 9.-12. juni 2009 40


FIGUR 2. Interactive link map for primary structure – udsnit af Second level (Gold Book on-line)<br />

NORDTERM 2009, København 9.-12. juni 2009 41


FIGUR 3. Interactive link map for primary structure – udsnit af Third level (Gold Book on-line)<br />

Som det fremgår af figur 1 og 2 er der i nogle tilfælde to relationer mellem to begreber,<br />

markeret med forskellig retning, for eksempel mellem primary structure og<br />

secondary structure. Men det fremgår ikke, hvilke typer relationer der er tale om. Et<br />

bud er, at der i forbindelse med definitionen for begge begreber er en henvisning til<br />

det andet begreb. Figur 3 illustrerer endnu tydeligere, hvor vanskeligt, det er at få forståelse<br />

for begrebernes sammenhæng og betydning ud af det store virvar af relationer.<br />

NORDTERM 2009, København 9.-12. juni 2009 42


FORSLAG TIL ONTOLOGI OG NYE DEFINITIONER TIL BE-<br />

GREBER RELATERET TIL MOLECULAR STRUCTURE<br />

I figur 4 vises et første udkast til en delontologi for molecular structure. Diagrammet<br />

er fremstillet i begrebsmodelleringsmodulet i-Model, som er en del af terminologi-<br />

og videnshåndteringsværktøjet i-Term, udviklet af DANTERMcentret. I diagrammerne<br />

repræsenteres begreberne af bokse indeholdende systematiske notationer og de<br />

foretrukne termer. For relationerne er der anvendt følgende signaturer:<br />

FIGUR 4. Første udkast til ontologi for molecular structure<br />

Ved en nærmere analyse af begrebernes karakteristiske træk, kunne dette første udkast<br />

ændres til forslaget i figur 5. De fire niveauer for struktur, primary, secondary,<br />

tertiary og quaternary structure bliver typisk brugt sammen til at beskrive en struktur.<br />

Primary structure har den egenskab, at den definerer en sekvens af byggeklodser,<br />

hvilket for proteinstruktur er rækkefølgen af aminosyrer. Dette gør, at dette begreb<br />

adskiller sig fra de tre andre begreber ved at repræsentere en del af konstitutionen<br />

(constitution) af en molekylær struktur snarere end en del af konformationen (conformation).<br />

NORDTERM 2009, København 9.-12. juni 2009 43


De karakteristiske træk er anført i form af trækspecifikationer under begreberne, for<br />

eksempel LEVEL: sequence of building blocks til begrebet primary structure. Boksene,<br />

som grupperer underbegreber til et begreb, indeholder inddelingskriterier (anført<br />

med versaler). Figur 5 er ufuldstændig, og der er udeladt nogle begreber i forhold til<br />

figur 4.<br />

FIGUR 5. Nyt udkast til ontologi for molecular structure<br />

I figur 6 vises definitionerne for de tre begreber primary structure, secondary structure<br />

og tertiary structure i hhv. ODBMB og Gold Book on-line. Endvidere vises de<br />

karakteristiske træk, definitioner og kommentarer, som er udarbejdet i forbindelse med<br />

pilotprojektet og indlæst i databasen.<br />

NORDTERM 2009, København 9.-12. juni 2009 44


Concept Definition from ODBMB Definition from Gold Book<br />

on-line<br />

primary<br />

structure<br />

secondary<br />

structure<br />

tertiary<br />

structure<br />

The first order of complexity<br />

of structural organization exhibited<br />

by polypeptide and protein<br />

molecules, and by polynucleotide<br />

and nucleic-acid molecules.<br />

When applied to a segment<br />

of a polypeptide chain, or to a<br />

polypeptide or protein molecule,<br />

it refers to the linear sequence<br />

of the amino-acid residues<br />

of the polypeptide<br />

chain(s), without regard to<br />

spatial arrangement, apart from<br />

configuration at the α-carbon<br />

atoms (and excluding positions<br />

of any disulfide bonds).<br />

Arrangement of the polypeptide<br />

structure into locallyorganised,<br />

hydrogen-bonded<br />

structures, in particular αhelices<br />

and β sheets<br />

The level of protein structure<br />

at which an entire polypeptide<br />

chain has folded into a 3-D<br />

structure. The tertiary structure<br />

results from interactions between<br />

amino-acid residues that<br />

may be widely separated in the<br />

primary structure, but may be<br />

brought into proximity by the<br />

folding of the polypeptide<br />

chain.<br />

In the context of macromolecules<br />

such as proteins,<br />

constitutional formula,<br />

usually abbreviated to a<br />

statement of the sequence<br />

and if appropriate crosslinking<br />

of chains.<br />

The conformational arrangement<br />

(α-helix, βpleated<br />

sheet, etc.) of the<br />

backbone segments of a<br />

macromolecule such as a<br />

polypeptide chain of a protein<br />

without regard to the<br />

conformation of the side<br />

chains or the relationship to<br />

other segments.<br />

The spatial organization<br />

(including conformation) of<br />

an entire protein molecule<br />

or other macromolecule<br />

consisting of a single chain.<br />

Characteristic<br />

feature<br />

LEVEL:<br />

sequence of<br />

building blocks<br />

LEVEL:<br />

localised structure<br />

LEVEL:<br />

entire molecule<br />

Definition proposal based on<br />

the concept diagram and<br />

comments<br />

sequence of building blocks in a<br />

linear macromolecule, such as<br />

the sequence of amino acid<br />

residues in a polypeptide chain<br />

part of the conformation of a<br />

polypeptide (or other macromolecule)<br />

specifying the internal<br />

spatial arrangement of individual<br />

backbone segments<br />

without regard to the conformation<br />

of side chains or the<br />

relationship to other segments<br />

Comment: The segments are<br />

typically organised via hydrogen<br />

bonds. Examples of secondary<br />

structure elements are<br />

α-helices and β-pleated sheets in<br />

polypeptides.<br />

FIGUR 6. Eksempler på definitioner fra ODBMB, Gold Book on-line og forslag til nye definitioner<br />

De to definitioner af primary structure fra hhv. ODBMB og Gold Book on-line adskiller<br />

sig mht. om cross-linking kan betragtes som en del af primary structure.<br />

part of the conformation of<br />

an entire polypeptide (or other<br />

macromolecule consisting of a<br />

single chain) specifying the<br />

spatial arrangements of all<br />

backbone segments relative to<br />

each other<br />

Comment: The tertiary structure<br />

results from interactions between<br />

amino-acid residues that<br />

may be widely separated in the<br />

primary structure, but may be<br />

brought into proximity by the<br />

folding of the polypeptide<br />

chain.<br />

NORDTERM 2009, København 9.-12. juni 2009 45


Derudover er definitionerne for de tre begreber primary structure, secondary structure<br />

og tertiary structure udformet forskelligt. Definitionerne i ODBMB indledes med<br />

hhv. 'first order of complexity of structural organization,' 'arrangement of ... structure'<br />

og 'level of structure'. Gold Book on-line har heroverfor 'constitutional formula ... abbreviated<br />

to sequence', 'conformational arrangement' og 'spatial organization'.<br />

Ifølge terminologiske principper skal definitioner af sideordnede begreber, som har<br />

samme overbegreb, indledes med netop dette overbegreb, og derefter skal de adskillende<br />

træk anføres. Hvis der er tale om en del-helheds-relation, kan der anføres det<br />

nærmeste helhedsbegreb.<br />

Dette princip er overholdt for de to sideordnede begreber secondary structure og<br />

tertiary structure, som indledes med ’part of the conformation of’, og trækspecifikationen<br />

for det adskillende karakteristiske træk vedrører i begge tilfælde LEVEL. Disse<br />

definitioner er således baseret på ontologien i figur 5. Ideelt set bør de karakteristiske<br />

træk fremgå eksplicit af definitionerne, hvilket vil gøre det lettere for en ikkefagkyndig,<br />

som skal sætte sig ind i et nyt område, at forstå definitionerne.<br />

Endelig skal det fremhæves, at definitionerne fra ODBMB indeholder mere end det<br />

som er nødvendigt for at definere termen. I den database, som er oprettet til pilotprojektet,<br />

findes disse supplerende informationer i et kommentarfelt.<br />

Første Udkast til ontologi for inhibition<br />

Ontologien i figur 7 afklarer forskellene mellem en række underbegreber til begrebet<br />

inhibition.<br />

FIGUR 7. Udkast til ontologi for inhibition<br />

NORDTERM 2009, København 9.-12. juni 2009 46


I figur 8 vises definitionerne til de tre begreber allosteric inhibition, substrate inhibition<br />

og product inhibition. Af figur 7 fremgår det at disse tre begreber adskiller sig<br />

mht. MECHANISM, og derfor skulle definitionerne for disse begreber fokusere på<br />

mechanism. Dette fremgår imidlertid ikke af definitionerne fra ODBMB i figur 8, hvor<br />

de karakteristiske træk fra i figur 7 også er vist.<br />

Concept Definition from ODBMB Characteristic feature<br />

allosteric inhibition Any inhibition of an enzyme by<br />

a negative allosteric effector.<br />

substrate inhibition The inhibition of an enzyme's<br />

activity by its substrate by an allosteric<br />

mechanism.<br />

product inhibition The inhibition of an enzymic reaction<br />

caused by increased concentration<br />

of one or more products of<br />

that reaction<br />

MECHANISM:<br />

the inhibitor binds at a place different<br />

from the active site<br />

MECHANISM:<br />

the substrate itself is the inhibitor<br />

MECHANISM:<br />

a product of the reaction is the inhibitor<br />

FIGUR 8. Definitioner fra ODBMB og tilsvarende karakteristiske træk fra termbasen<br />

Brud på princippet om adskillende træk<br />

Ifølge de principper for opbygning af ontologier, som er foreslået i forbindelse med<br />

udviklingen af en prototype i CAOS-projektet, Computer-Aided Ontology Structuring,<br />

jf. for eksempel Madsen og Thomsen (2006), skal to sideordnede begreber altid adskilles<br />

af ét karakteristisk træk. De fire begreber i figur 7, som er underbegreber til<br />

reversible inhibition, adskiller sig mht. trækket KINETICS, som er et sammensat træk,<br />

hvis værdi består af to trækspecifikationer med attributterne: MICHAELIS CON-<br />

STANT og MAXIMUM RATE.<br />

Dette kan accepteres hvis ontologien primært skal bruges til begrebsafklaring, men<br />

hvis det nævnte princip skal overholdes, og hvis man vil formalisere ontologier mhp.<br />

konsistenskontrol skal ontologien i figur 7 ændres.<br />

Løsningen kan for eksempel være at introducere et niveau af ”kunstige” begreber<br />

mhp. at opnå polyhierarki. Disse “kunstige” begreber eksisterer logisk set, men er ikke<br />

leksikaliseret. Dette fænomen er ikke ualmindeligt.<br />

Nyt udkast til ontologi for inhibition<br />

I figur 9 introduceres tre begreber, som adskiller sig mht. MICHAELIS CONSTANT,<br />

og to begreber, som adskiller sig mht. MAXIMUM RATE. På denne måde får de fire<br />

begreber på det laveste niveau to overordnede begreber (polyhierarki) og dermed arver<br />

de ét karakteristisk træk fra hvert overordnet begreb. Yderligere forskning inden for<br />

området enzymkemi kan evt. lede til forslag om andre løsninger. Diagrammet i figur 9<br />

NORDTERM 2009, København 9.-12. juni 2009 47


er anvendt i det forsøg som er udført med implementering af de her nævnte ontologier<br />

i Protegé vha. OWL-DL, jf. Zambach & Madsen (2009).<br />

FIGUR 9. Nyt udkast til ontologi for inhibition<br />

NORDTERM 2009, København 9.-12. juni 2009 48


Ud over indførelsen af de ekstra begreber i figur 9 er inddelingskriteriet og trækspecifikationerne<br />

for de tre begreber allosteric inhibition, substrate inhibition og product<br />

inhibition ændret. Det der karakteriserer begrebet allosteric inhibition er trækket BIN-<br />

DING SITE OF INHIBITOR, medens de to begreber substrate inhibition og product<br />

inhibition adskiller sig mht. INHIBITOR OF PROCESS. Værdierne til trækket ME-<br />

CHANISM i figur 7 svarede nærmest til hele forklaringer, for eksempel: ’the substrate<br />

itself is the inhibitor’ på begrebet substrate inhibition. I figur 9 er de ændret til kortere<br />

formuleringer, for eksempel for substrate inhibition er værdien til INHIBITOR OF<br />

PROCESS ‘substrate’. Ideelt set bør værdierne i trækspecifikationerne svare til begreber.<br />

De her nævnte ændringer er ikke gennemdrøftet i projektgruppen, og derfor ikke<br />

indført i databasen.<br />

KONKLUSION<br />

Vores arbejde har identificeret uklarheder og inkonsistenser i eksisterende opslagsværker<br />

inden for området enzymkemi. Vi har anvendt terminologiske metoder til opbygning<br />

af ontologier baseret på karakteristiske træk og til udarbejdelse af definitioner,<br />

og kan konkludere, at der på basis af ontologierne kan udarbejdes korte, klare og<br />

konsistente definitioner.<br />

Vi har arbejdet med to afgrænsede delområder, enzyminhibering og proteinstruktur,<br />

men vi mener at principperne kan anvendes på større områder.<br />

I vores ontologi for inhibition er nogle af begreberne defineret ved en kombination<br />

af karakteristiske træk. Dette udfordrer teorien om, at der skal være netop ét adskillende<br />

træk for hvert begreb i en terminologisk ontologi. Vi foreslår en metode til at undgå<br />

dette problem (jf. også indlægget ”Terminologiske ontologier og beskrivelseslogik”<br />

(Zambach & Madsen 2009).<br />

Vi kan konkludere, at terminologiarbejde bør udføres i et samarbejde mellem kemikere<br />

og terminologer, og at det er hensigtsmæssigt at anvende et begrebsmodelleringsværktøj,<br />

som for eksempel i-Model (særligt modul i i-Term).<br />

Vi foreslår et fælles IUPAC-IUBMB projekt mhp. at udbygge vores resultater og at<br />

opstille retningslinjer for fremtidigt arbejde.<br />

ACKNOWLEDGEMENTS<br />

Annemette Wenzel og Lone Bo Sisseck, begge tidligere medarbejdere ved DAN-<br />

TERMcentret, deltog i de tidlige faser af pilotprojektet.<br />

NORDTERM 2009, København 9.-12. juni 2009 49


REFERENCER<br />

i-Term: www.i-Term.dk, Terminologi- og videnshåndteringsværktøj udviklet af DANTERMcentret, et<br />

dansk terminologicenter på Copenhagen Business School.<br />

IUPAC Gold Book On-line (2006): Compendium of Chemical Terminology, 2 nd ed. (the Gold Book).<br />

Redigeret af A. D. McNaught and A.Wilkinson. Blackwell Scientific Publications, Oxford (1997).<br />

XML on-line corrected version: http://goldbook.iupac.org (2006) created by M. Nic, J. Jirat, B. Kosata;<br />

opdateringer ved A. Jenkins.<br />

Madsen, Bodil Nistrup & Hanne Erdman Thomsen (2006): ‘Terminological ontologies and normative<br />

terminology work’. Proceedings of TSTT 2006 – Third International Conference on Terminology<br />

Standardization and Technology Transfer.<br />

ODBMB (2006): The Oxford Dictionary of Biochemistry and Molecular Biology, 2 nd Ed. Oxford University<br />

Press. Redaktør: Cammack, R. et al.<br />

Zambach, Sine & Bodil Nistrup Madsen (2009): Terminologiske ontologier og beskrivelseslogik: Et<br />

eksperiment inden for domænet enzymkemi. Udkommer i Proceedings fra NORDTERM 2009, 11.-<br />

12. juni, Copenhagen Business School.<br />

NORDTERM 2009, København 9.-12. juni 2009 50


Terminologiske ontologier og beskrivelseslogik:<br />

Et eksperiment inden for domænet enzymkemi<br />

b<br />

Sine Zambach a og Bodil Nistrup Madsen b<br />

a<br />

Roskilde Universitet, Universitetsvej 1, Roskilde,Denmark, sz@ruc.dk<br />

Copenhagen Business School, Dalgas Have 15, Frederiksberg, Denmark, bnm .isv@cbs.dk<br />

Abstract. I dette indlæg beskriver vi en metode til at formalisere terminologiske begrebssystemer.<br />

Vores domæne er enzymkemi som vi har arbejdet med, med henblik på at forbedre IUPAC Gold<br />

book (McNaught et al., 1997). Vi benytter ISO 704 ( 2000) standarden for terminologiske<br />

principper og formaliserer ontologien ved hjælp af W3C’s anbefalede ontologiformatet, OWL.<br />

<strong>Indlæg</strong>get diskuterer de formelle egenskaber, som den resulterende ontologi får, samt fordele og<br />

ulemper ved at bruge OWL til visualisering og modellering.<br />

INTRODUKTION<br />

For at fremme anvendelsen af terminologiske begrebssystemer bør de være både<br />

logisk konsistente og formaliserede. I vores indlæg vil vi præsentere en metode til at<br />

implementere en terminologisk ontologi inden for området enzymkemi i<br />

beskrivelseslogik-formalismen.<br />

Ved terminologiske ontologier, forstår vi ontologier, der er udarbejdet i<br />

overensstemmelse med de terminologiske principper for udarbejdelse af<br />

begrebssystemer, som bl.a. er beskrevet i ISO 704 (2000), og som er yderligere<br />

formaliseret, idet begrebernes karakteristiske træk modelleres vha. formelle<br />

trækspecifikationer, der består af en attribut og en tilhørende værdi: [ATTRIBUT:<br />

værdi], jf. Carpenter (1992), Thomsen (1998) og Madsen et al. (2004). Sideordnede<br />

underbegreber inddeles i grupper vha. inddelingskriterier, som svarer til attributterne i<br />

trækspecifikationerne. Et begreb må højst have én adskillende trækspecifikation,<br />

medmindre det indgår i polyhierarki, dvs. at det har to overbegreber. Hvis et begreb<br />

indgår i polyhierarki, skal de to overbegreber høre til to forskellige inddelingskriterier.<br />

Som baggrund for eksperimentet anvender vi en ontologi for inhibering (hæmning),<br />

som vi har udarbejdet i et pilotprojekt, der har til formål at vise, at definitionerne af<br />

begreber inden for enzym- og proteinkemi i IUPAC Gold Book on-line, McNaught et<br />

al (2006), kan forbedres, hvis der anvendes terminologiske metoder (jf. indlægget<br />

”Begrebsafklaring inden for området enzymkemi”, Damhus et al. (2009). Den ontologi<br />

for inhibering, som er udarbejdet i pilotprojektet, overholder ikke princippet om én<br />

adskillende trækspecifikation for hvert begreb. Vi har derfor udarbejdet en ny version<br />

af ontologien, hvor der er introduceret polyhierarki ved hjælp af indførelse af en række<br />

’kunstige’ begreber, som hører til to forskellige inddelingskriterier, hvorved<br />

NORDTERM 2009, København 9.-12. juni 2009 51


underbegreberne kan arve træk fra to overbegreber, og derved defineres vha. en<br />

kombination af træk.<br />

Vi har implementeret denne ontologi både i begrebsmodelleringsmodulet i-Model i<br />

terminologi- og videnshåndteringsværktøjet i-Term® og i beskrivelsesogik-værktøjet<br />

Protegé 3.4, OWL DL.<br />

TERMINOLOGIMODELLERING SOM BASIS<br />

En terminologisk ontologi er en domænespecifik ontologi, jf. fx kategoriseringen af<br />

ontologier i (Guarino, 1998). Principperne for terminologiske ontologier er beskrevet i<br />

fx (Madsen et al. 2004) og er baseret på principperne for begrebssystemer, som<br />

normalt bruges i terminologiarbejde, fx (ISO 704, 2000).<br />

I terminologiske ontologier udgøres knuderne af begreber, som defineres ved hjælp<br />

af begrebsrelationer og karakteristiske træk, der beskriver egenskaberne ved<br />

individuelle referenter, som hører til et begrebs ekstension. I figur 1 vises et udsnit af<br />

ontologien for inhibering, som blev udarbejdet i det ovennævnte pilotprojekt<br />

vedrørende ontologier inden for enzymkemi. I terminologiarbejde anvendes alle typer<br />

af begrebsrelationer: typerelationer (ISA-relationer), del-helheds-relationer og<br />

associative relationer, som fx årsagsrelationer. I figur 1 vises del-helheds-relationer<br />

som kantede linjer, medens alle andre relationer er typerelationer.<br />

Begrebers karakteristiske træk præsenteres som trækspecifikationer i form af<br />

attribut-værdi-par (Carpenter, 1992), fx MICHAELIS CONSTANT: increased. På basis<br />

af disse trækspecifikationer introduceres inddelingskriterier, som giver et godt<br />

overblik og hjælper terminologen til at udarbejde konsistente definitioner af<br />

sideordnede begreber, det vil sige definitioner i hvilke de adskillende træk er baseret<br />

på den samme attribut med forskellige værdier. Inddelingskriterier er i figur 1 og 2<br />

repræsenteret ved hjælp af bokse med tekst i versaler.<br />

Et begreb må højst have én adskillende trækspecifikation, medmindre det indgår i<br />

polyhierarki, dvs. at det har to (eller flere) overbegreber. Hvis et begreb indgår i<br />

polyhierarki, skal de to overbegreber høre til to forskellige inddelingskriterier, og det<br />

pågældende begreb defineres ved hjælp af kombinationen af de overordnede begrebers<br />

karakteristiske træk.<br />

I diagrammet i figur 1, som blev udarbejdet i det ovennævnte pilotprojekt, er de fire<br />

underbegreber til begrebet reversible inhibition adskilt med hensyn til trækket<br />

KINETICS, som er et sammensat træk hvis værdi består af to trækspecifikationer med<br />

attributterne MICHAELIS CONSTANT og MAXIMUM RATE. Dette strider mod<br />

principperne for terminologiske ontologier, og hvis vi vil formalisere den<br />

terminologiske ontologi med henblik på implementering i OWL-DL, bør diagrammet<br />

ændres.<br />

En mulig løsning er at introducere nogle ”kunstige” begreber, det vil sige tre<br />

begreber, som adskiller sig med hensyn til Michaelis constant, og to begreber, som<br />

adskiller sig med hensyn til Maximum rate. Denne løsning ses i figur 2, hvor de fire<br />

begreber på det laveste niveau alle har to overordnede begreber og således arver et<br />

NORDTERM 2009, København 9.-12. juni 2009 52


FIGUR 1. Tidlig version af diagrammet Inhibition fra enzymkemiprojektet.<br />

karakteristisk træk fra hvert af de to overordnede begreber. Logisk set eksisterer de<br />

fem ”kunstige” begreber, men der er (endnu) ikke leksikaliseret. Yderligere forskning<br />

inden for området enzymkemi kan lede til en anden løsning. Det er imidlertid<br />

diagrammet i figur 2, som vi har anvendt til implementering i OWL-DL.<br />

Diagrammet i figur 1 er et godt udgangspunkt for diskussion mellem terminologer<br />

og fageksperter med henblik på at opnå begrebsafklaring. Men for at opnå en<br />

formaliseret beskrivelse, som blandt andet kan anvendes til konsistenstjek, er det ikke<br />

optimalt. Ideelt set bør attributværdien i en trækspecifikation svare til et begreb, og<br />

dette er ikke tilfældet i figur 1. Et eksempel er værdien “the substrate itself is the<br />

inhibitor” i trækspecifikationen til begrebet substrate inhibition. I figur 2 er<br />

trækværdien blevet ændret til substrate og det adskillende træk er nu INHIBITOR OF<br />

PROCESS.<br />

Alle trækspecifikationer kan repræsenteres som en relation mellem to begreber, og<br />

omvendt: en begrebsrelation kan repræsenteres som en trækspecifikation. Hvis alle<br />

trækspecifikationer imidlertid er repræsenteret som begrebsrelationer, kan det være<br />

sværere at få et overblik, da mange af begreberne, som dermed introduceres, ikke<br />

nødvendigvis er de mest centrale begreber inden for området.<br />

Når man ser nærmere på trækspecifikationerne for de tre underbegreber, som falder<br />

ind under inddelingskriteriet MECHANISM i figur 1, kan det ses, at de adskiller sig<br />

mht. to forskellige træk: BINDING SITE og INHIBITOR OF PROCESS. Dette<br />

skyldes, at allosteric inhibition defineres med hensyn til binding site, medens<br />

substrate inhibition og product inhibition adskiller sig med hensyn til inhibitor of the<br />

process.<br />

NORDTERM 2009, København 9.-12. juni 2009 53


FIGUR 2. Diagrammet Inhibition med ekstra begreber og inddelingskriterier.<br />

MODELLERING I BESKRIVELSESLOGIK<br />

Ontologien der er vist i figurerne 3-6 sidst i artiklen er modelleret ved hjælp af<br />

beskrivelseslogik i OWL-DL ved hjælp af Protegé 3.4. Vi har valgt at bruge dette<br />

format fordi det bruges til vidensrepræsentation af mange i for eksempel The Semantic<br />

Web society og fordi det giver mulighed for logisk ræsonnering over relationer og en<br />

mere kompleks nedarvning end standard databaserepræsentation. Den logiske<br />

formalisme, beskrivelseslogik, kaldes på engelsk Description Logic og forkortes DL.<br />

Vi har fulgt den vejledning i navngivning og formalisering som er beskrevet i<br />

Horridge et al (2004).<br />

I Protege svarer classes groft sagt til hvad vi har kaldt begreber og object properties<br />

svarer til begrebsrelationer i i-Term. Desuden findes der en såkaldt datatype property<br />

der går fra et begreb eller individ til en form for data. Denne datatype property har vi<br />

valgt til at repræsentere inddelingskriterier, hvor værdien er det adskillende træk.<br />

Dette er gjort ved at definere datatype = string når en datatype property skal defineres<br />

i Protegé.<br />

Implementering i OWL<br />

For at bygge ontologien i OWL må man starte med at lave et typehierarki med den<br />

terminologiske ontologi man har modelleret. Begreber svarer her til ”Classes” og man<br />

kan rykke rundt på begreberne og ændre navnet på dem i Protegé 3.4.<br />

NORDTERM 2009, København 9.-12. juni 2009 54


Hernæst skal relationerne defineres som ”properties” og tildeles egenskaber. Object<br />

properties kan tildeles for eksempel egenskaber som transitivitet og logiske<br />

kvantifikatorer og kan hermed have flere egenskaber end datatype properties, hvis<br />

værdier blot kan nedarves i klassehierarkiet.<br />

For eksempel er begrebet substrate inhibition fra den terminologiske ontologi, med<br />

det adskillende træk, INHIBITOR OF PROCESS: substrate formaliseret til class:<br />

SubstrateInhibition med datatype property: hasInhibitorOfProcess has (value)<br />

”Substrate”. Denne definition angivet i kategorien ”necessary and sufficient<br />

conditions” svarende til ækvivalensoperatoren (≡). Dette begreb er vist i figur 4.<br />

I opbygningen af det føromtalte polyhierarki er for eksempel competitive inhibition<br />

formaliseret til class: CompetitiveInhibition med MichaelisConstantIncreased og<br />

MaximumRateUnchanged i kategorien ”necessary and sufficient conditions”. Derved<br />

får begrebet ikke sin egen datatype property (adskillende træk) men nedarver det fra<br />

de to overbegreber. Dette begreb er vist i figur 5. Ifølge Horridge et al (2004) bør man<br />

dog i værktøjer som Protege være varsom med at gøre dette, da begreberne vil fremstå<br />

som underbegreber to eller flere forskellige steder (i modsætning til repræsentationen i<br />

fx i-Term). De anbefaler derfor at man nøjes med at skrive det fulde antal adskillende<br />

træk ned og lade det logiske maskineri i ræsonnerings-programmet holde styr på<br />

polyhierarkiet (den multible nedarvning).<br />

Object properties er brugt til at definere del-helhedsrelationen og kan potentielt set<br />

bruges til alle relationer mellem begreber og individer. Her skal man dog være<br />

opmærksom på de logiske følger der er i de to kvantorer, ”for alle” ( ∀ ) og ”der<br />

eksisterer mindst et” ( ∃ ). En definition som:<br />

Inhibition ⊆ ∃partOf<br />

. Kinetics<br />

betyder: for alle forekomster af inhibition eksisterer der en kinetik-instans som<br />

inhibition er en del af. Havde man i stedet skrevet:<br />

Inhibition ⊆ ∀partOf<br />

. Kinetics<br />

tolker OWL det som: for alle instanser af inhibition og for alle de ting som<br />

inhibition instanserne er en del af, er det kinetik, inhibition er en del af. Da inhibition i<br />

princippet godt kunne have en delheds-relation til andre begreber end kinetik, er denne<br />

formulering dog ikke helt korrekt og man skal være varsom med at bruge den i<br />

beskrivelses-logiske systemer. ”For alle” ( ∀ ) bruges dog i de såkaldte ”closure<br />

axioms” som kan anvendes hvis noget alene er definerende. Fx hvis kinetics kun kan<br />

have inhibition og activation som dele kan det bruges således:<br />

Kinetics ⊆ ∀(<br />

∃hasPart.<br />

Inhibition ∃hasPart.<br />

Activation)<br />

Ontologiens egenskaber<br />

Den resulterende ontologi får den egenskab at den har et minimum af logiske<br />

operatorer i ”necessary and sufficient conditions” for hvert begreb. Netop det at have<br />

NORDTERM 2009, København 9.-12. juni 2009 55


som mål at definere ét adskillende træk eller alternativt have polyhierarki, hvor to eller<br />

flere træk ”blot” nedarves, gør at hvert begreb er enkelt defineret.<br />

Det er desuden på linje med Grubers ”minimal ontological commitment” (1993)<br />

hvor han foreslår at man forsøger at begrænse hvad der skal siges om de begreber man<br />

har konceptualiseret i sit begrebssystem. Da hvert begreb skal have et adskillende<br />

træk, kommer alle begreber til at være såkaldt ”Defined” frem for ”Primitives”.<br />

Eksempler på beskrivelser for hver ”Class” kan ses i figur 3-5. Typehierarkiet er vist<br />

i figur 6.<br />

MODELLERINGSPROCEDURE<br />

I dette afsnit giver vi et resumé af, hvordan man kan bruge de terminologiske<br />

modelleringsprincipper sammen med OWL til at konstruere ontologier i<br />

beskrivelseslogik.<br />

Terminologimodelleringsprocedure<br />

1. Find sideordnede begreber der er relateret til et overbegreb. Fx: substrate<br />

inhibition og product inhibition der er underbegreber til inhibition.<br />

2. Identificer de karakteristiske træk for de sideordnede begreber. Fx er substrate<br />

inhibition og product inhibition adskilt med hensyn til hvad der er inhibitoren<br />

for inhibition-processen.<br />

3. Hvis begreberne kan adskilles af netop et træk, skal et attribut-værdipar<br />

introduceres for hvert begreb. Fx: substrate inhibition, INHIBITOR OF<br />

PROCESS: substrate,<br />

4. Grupper begreberne ved hjælp af et eller flere adskillende træk.<br />

5. Hvis det ikke er muligt at adskille begreber ved hjælp af kun ét adskillende<br />

træk, kan man introducere et ekstra lag af begreber således at de sideordnede<br />

begreber udgør en del af et polyhierarki. Det vil sige at de karakteristiske træk<br />

fra to eller flere overbegreber nedarves til underbegreberne.<br />

Implementering i OWL DL, her i Protegé version 3.4<br />

6. Definer begreberne som Classes i OWL-DL.<br />

7. Inddelingskriterierne skal være modelleret som datatype property med værdien<br />

”string”.<br />

8. Definer de adskillende træk for sideordnede begreber ved hjælp ækvivalensopratoren<br />

(≡), hvor streng-værdien er værdien for det adskillende træk. Hvis<br />

der er tale om et polyhierarki, er det overbegreberne der benyttes som<br />

ækvivalenter og derved kombinationen af deres adskillende træk der bliver<br />

definerende for begrebet. For eksempel: SubstrateInhibition ≡<br />

hasInhibitorOfProcess has ”substrate”. Eksempler på disse ses i figur 3-5.<br />

NORDTERM 2009, København 9.-12. juni 2009 56


FIGUR 3. OWL-udgaven af begrebet “Reversibel inhibition” modelleret i Protegé.<br />

FIGUR 4. OWL-udgaven af begrebet “Substrate inhibition” modelleret i Protegé.<br />

NORDTERM 2009, København 9.-12. juni 2009 57


FIGUR 5. OWL-udgaven af begrebet “Competitive inhibition” modelleret i Protegé.<br />

DISKUSSION<br />

Resultaterne af vores eksperiment viser, at det er muligt at implementere en<br />

terminologisk ontologi i Protegé og derved opnå fordele i form af konsistenstjek og et<br />

populært format.<br />

Vores implementering er på linje med Grubers ”ontological commitments” (1993):<br />

”coherence” (sammenhæng), ”extendability” (udvidelsesbarhed), ”clarity” (klarhed),<br />

”minimal ontological commitment” (minimalt ontologisk indhold) og til dels<br />

”encoding bias” (ontologien bør ikke være afhængig af et bestemt software).<br />

Minimalt ontologisk indhold har vi netop opnået ved den modelleringsprocedure vi<br />

forslår med netop ét adskillende træk. Sammenhængskraft er opnået ved at benytte de<br />

ontologi-testende ”reasoners” som findes i Protegé, ligesom ontologien i høj grad kan<br />

udvides. Klarhed er opnået ved at formalisere ontologien i et logisk sprog. På den<br />

anden side gives der også køb på klarheden ved at bruge netop et formelt sprog som<br />

ikke er tydeligt læsbart for alle mennesker i lige så høj en grad som for eksempel i-<br />

Term-implementeringen er det.<br />

Om ontologien er afhængig af softwaren eller ej kan naturligvis diskuteres. På den<br />

ene side kan man formelt udnytte de muligheder der er i Protegé optimalt. Men det er<br />

imidlertid en ulempe ved Protegé, at der mangler en mulighed for at skrive betegnelser<br />

for begreber, karakteristiske træk og begrebsrelationer i et naturligt sprog, hvilket er<br />

muligt i et terminologisk orienteret værktøj, som fx i-Term.<br />

NORDTERM 2009, København 9.-12. juni 2009 58


Endvidere er det endnu ikke muligt grafisk at vise inddelingskriterier dynamisk<br />

under modelleringen i Protegé – der kan blot genereres en graf som den på figur 6, når<br />

man er færdig med modelleringen. Endelig giver ontologier, som bygger på<br />

principperne fra terminologiske ontologier, ifølge hvilke et begreb er defineret vha.<br />

nærmeste overbegreb og ét adskillende træk operationelle fordele frem for ontologier,<br />

der er defineret med tilfældigt mange træk, som det er tilladt i OWL DL.<br />

Vi foreslår at modelleringsproceduren der er beskrevet ovenfor skal analyseres<br />

nærmere og kan være med til at give en mere finkornet ontologimodelleringsmetode<br />

og formalisering end de standarder, der nu findes i form af for eksempel Methontology<br />

(Lopez, 1997).<br />

FIGUR 6. En grafisk repræsentation af typehierarkiet for vores ontologi i Protegé.<br />

REFERENCER<br />

Baader, F., Calvanese, D., McGuiness, D.L., Nardi, D. And Patel-Schneider, P.F. editors, 2003. The<br />

Description Logic Handbook. Theory, Implementation and Applications. Cambridge, UK.:<br />

Cambridge University press.<br />

Carpenter, Bob (1992): “The Logic of Typed Feature Structures”. Cambridge, Mass.: Cambridge<br />

University Press.<br />

Damhus, T., Olesen Larsen, P. Madsen, B.N. and Zambach, S., 2009. How to work systematically<br />

towards a consistent and codified chemical terminology – a pilot study. To be published in Chemistry<br />

International, July 2009.<br />

Damhus, T., Olesen Larsen, P. Madsen, B.N. and Zambach, S., 2009. Begrebsafklaring inden for<br />

området enzymkemi. To be published in the proceedings of NORDTERM 2009, June 11-12,<br />

Copenhagen Business School.<br />

Gruber, T.R., 1993. Toward Principles for the Design of Ontologies Used for Knowledge Sharing. In<br />

Formal Ontology in Conceptual Analysis and Knowledge, Kluwer Academic Publishers.<br />

NORDTERM 2009, København 9.-12. juni 2009 59


Guarino, N., 1998. Formal Ontology and Information Systems. In: Formal Ontology in Information<br />

Systems, Proceedings of the First International Conference , June 6-8, Trento, Italy, 3-15.<br />

Amsterdam: IOS Press.<br />

Horridge, M., Knublauch, H., Rector, A., Stevens, R., Wroe, C., 2004. A Practical Guide To Building<br />

OWL Ontologies Using The Protegé-OWL Plugin and CO-ODE Tools, Edition 1.0, August 27,<br />

University of Manchester, pp. 1-99.<br />

ISO 704:2000. Terminology work – Principles and methods. International Organization for<br />

Standardization, TC 37, Terminology and other language resources (under revision).<br />

i-Term: http://www.i-Term.dk,<br />

terminologi- og videnshåndteringsværktøj udviklet af<br />

DANTERMcentret, Copenhagen Business School.<br />

Lopez, M.F., Gomez-Perez, A., Juristo, N., 1997. In Proc. AAAI Spring Symp. Series, AAAI Press,<br />

Menlo Park, pp. 33-40.<br />

Madsen, Bodil Nistrup, Hanne Erdman Thomsen and Carl Vikner (2004):”Principles of a system for<br />

terminological concept modelling”. In: Proceedings of the 4th International Conference on Language<br />

Resources and Evaluation, Vol. I. Lisbon: 15-18.<br />

McNaught, A.D. and Wilkinson, A., 1997. IUPAC. Compendium of Chemical Terminology, 2nd ed.<br />

Blackwell Scientific Publications, Oxford. XML on-line corrected version: http://goldbook.iupac.org<br />

(2006-)<br />

Protégé: http://protege.stanford.edu/. (2009)<br />

Stearns, M.Q., Price, C., K.A. Spackman, and A.Y. Wang, 2001. SNOMED clinical terms: overview of<br />

the development process and project status, in Proc AMIA Symp, pp. 662–666.<br />

Thomsen, Hanne Erdman. (1998). Typed Feature Structures for Terminology Work - Part II. In: LSP -<br />

Identity and Interface - Research, Knowledge and Society. Proceedings of the 11th European<br />

Symposium on Language for Special Purposes. Copenhagen, August 1997. Copenhagen Business<br />

School, 349-359.<br />

NORDTERM 2009, København 9.-12. juni 2009 60


a<br />

Insulinontologi til Søgeprojekt<br />

Bodil Nistrup Madsen a , Hanne Erdman Thomsen a , Tine Lassen b , og<br />

Sine Zambach b<br />

Institut for Internationale Sprogstudier og Vidensteknnologi, <strong>CBS</strong> - Handelshøjskolen i København<br />

{bnm.isv@cbs.dk, het.isv@cbs.dk}.<br />

b<br />

Institut for Kommunikation, Virksomhed og Informationsteknologier, Roskilde Universitet<br />

{tlassen@ruc.dk, sz@ruc.dk}<br />

Abstract. I forbindelse med det tværvidenskabelige projekt SIABO (Semantic Information<br />

Access through Biomedical Ontologies) som omhandler ontologibaseret søgning i tekster om<br />

insulin, arbejder vi med opbygning af domæneontologier for insulinrelaterede begreber. Vi<br />

opbygger domæneontologierne som en statisk basis for såkaldt generative ontologier, hvor det<br />

generative består i at nye begreber kan dannes automatisk ud fra semantiske regler.<br />

Begrundelsen for at opbygge en egen domæneontologi er at eksisterende ontologier ikke er<br />

specifikke nok, hverken hvad angår begreber eller hvad angår begrebsrelationer. Ud fra et<br />

mindre korpus af domænespecifikke tekster har vi udtrukket frekvenslister, og efterfølgende<br />

genereret nøgleordslister ved sammenligning med et almensprogligt korpus. Ud fra disse er der<br />

efterfølgende i samarbejde med domæneeksperter udvalgt en mængde centrale begreber<br />

vedrørende insulinproduktion. Ved anvendelse af principper for terminologiske ontologier har vi<br />

sikret en klar afgrænsning af begreber, og været i stand til a t identificere entydige<br />

begrebsrelationer.<br />

INTRODUKTION<br />

I forbindelse med det tværvidenskabelige projekt SIABO (Semantic Information<br />

Access through Biomedical Ontologies) som omhandler ontologibaseret søgning i<br />

tekster om insulin (patenter, videnskabelige artikler med mere) arbejder vi med<br />

opbygning af domæneontologier for insulinrelaterede begreber.<br />

En vigtig del af projektet er en såkaldt generativ ontologi, hvor det generative<br />

består i at nye begreber kan dannes automatisk ud f ra statiske begreber i en<br />

skeletontologi samt en mængde semantiske regler.<br />

I de følgende afsnit gives en introduktion til SIABO-Projektet, en beskrivelse af<br />

begrebet generative ontologier og en beskrivelse af vores motivation for at opbygge en<br />

egen domæneontologi samt metoden der er anvendt i opbygningen af samme. Herefter<br />

beskrives udvalgte eksempler fra domæneontologien og endelig konkluderes der på<br />

arbejdet med opbygning af en domæneontologi for insulinrelaterede begreber.<br />

NORDTERM 2009, København 9.-12. juni 2009 61


SIABO-projektet<br />

Dette arbejde finder sted inden for rammerne af SIABO-projektet (Semantic Information<br />

Access through Biomedical Ontologies). SIABO-projektets overordnede mål<br />

er at udvikle semantisk baserede søgemuligheder i store tekstsamlinger.<br />

Projektet er et tværinstitutionelt projekt med deltagere fra Danmarks Tekniske<br />

Universitet (DTU), Copenhagen Business School (<strong>CBS</strong>), Roskilde Universitet (RUC),<br />

samt en industriel partner, Novo Nordisk. Projektet er støttet af Det Strategiske<br />

Forskningsråd, Programkomiteen for Nanovidenskab og -teknologi, Bioteknologi og<br />

IT (NABIIT)<br />

I takt med at volumen af tekstsamlinger vokser overalt i samfundet, bliver konventionel<br />

nøgleordsbaseret søgning mere og mere utilstrækkelig. Projektet søger derfor at<br />

udvikle en tilgang til søgning der bevæger sig ud over en sådan konventionel nøgleordsbaseret<br />

søgning, hvor der søges indholdsbaseret ved hjælp af ontologier. Vi ønsker<br />

specifikt at udvikle metoder til o ptimering af søgning i s tore samlinger af tekst<br />

indenfor domænet ‘biomedicin’. Til dette formål anvender projektet såkaldt generative<br />

ontologier, som tillader indeksering af tekster i forhold til sammensatte begreber som<br />

afspejler tilsvarende komplekse lingvistiske udtryk.<br />

Generative ontologier<br />

En ontologi er en formalisering af en fælles forståelse af begreber og relationer<br />

mellem dem inden for et domæne, og er som udgangspunkt statiske modeller. En<br />

vigtig del af projektet er en generativ ontologi, hvor det generative består i at nye<br />

sammensatte begreber kan dannes automatisk ud fra semantiske regler. Generative<br />

ontologier er baseret på statiske ontologier, der er ordnet efter inklusionsrelationen<br />

‘isa’ – denne del kalder vi for skeletontologien. f.eks.:<br />

FIGUR 1. Udsnit at en skeletontologi, der viser en sti af isa-relationer fra begrebet 'secretion' til<br />

topbegrebet 'entity'<br />

NORDTERM 2009, København 9.-12. juni 2009 62


Ontologien bliver generativ ved tilføjelse af en mængde semantiske relationer,<br />

f.eks. AGENT, PATIENT, RESULT, eller specialiseringer af disse, f.eks. ACTIVITY-<br />

AGENT, ACTIVITY-PATIENT, INSTRUMENT-RESULT, samt muligheden for at<br />

danne sammensatte begreber ved attributering:<br />

secretion[ACTIVITY-RESULT:insulin]<br />

FIGUR 2. Det sammensatte begreb secretion[ACTIVITY-RESULT:insulin], og dets placering i den<br />

generative ontologi.<br />

Dette sammensatte begreb afspejler det begrebsmæssige indhold i de sproglige<br />

udtryk:<br />

• secretion of insulin<br />

• insulin secretion<br />

• release of insulin<br />

• insulin is being secreted<br />

• etc …<br />

Motivation<br />

Vi opbygger domæneontologierne som en statisk basis for den generative ontologi.<br />

Begrundelsen for at vi selv opbygger domæneontologien, er at eksisterende ontologier,<br />

som f.eks. UMLS (Unified Medical Language Systems), ikke er specifikke nok, hverken<br />

hvad angår begreber eller hvad angår begrebsrelationer.<br />

Som en yderligere motivation for arbejdet, vil Novo Nordisk kunne bruge domæneontologien<br />

og en tilhørende termbase som intern videnbase.<br />

NORDTERM 2009, København 9.-12. juni 2009 63


METODE<br />

Terminologiske ontologier<br />

Vi arbejder med terminologiske ontologier, det vil sige vi baserer strukturen på<br />

karakteristiske træk og inddelingskriterier som beskrevet i (Madsen et al., 2005), hvor<br />

vi bruger et udbygget sæt af begrebsrelationer, f.eks. ACTIVITY-AGENT,<br />

ACTIVITY-PATIENT, INSTRUMENT-RESULT (se Madsen et al., 2002).<br />

Karakteristiske træk<br />

Karakteristiske træk afspejler fælles egenskaber ved entiteter som hører til de relevante<br />

begrebers ekstension. Der kan være et stort antal af sådanne egenskaber. I takt<br />

med at vores viden om et begreb øges, kan der knyttes flere og flere karakteristiske<br />

træk til d et. Det er dog klart at disse træk ikke alle vil være lige vigtige for<br />

afgrænsningen af det pågældende begreb i forhold til andre begreber.<br />

Vi arbejder med to typer karakteristiske træk:<br />

• Adskillende træk<br />

• Ikke-adskillende træk<br />

Vi antager at det ikke er nødvendigt at knytte mere end ét adskillende træk til et<br />

begreb. Dette betyder at vi går ud fra en hypotese om at et adskillende træk repræsenterer<br />

en nødvendig og tilstrækkelig betingelse for at kunne adskille et begreb fra andre<br />

begreber. Hvis det findes nødvendigt at knytte mere end ét karakteristisk træk til et<br />

begreb (dvs. at hvert af trækkene betragtes som nødvendige, men at ingen af dem i sig<br />

selv er tilstrækkelige), kan dette være et tegn på at der er ”huller” i begrebssystemet.<br />

Disse ”huller” fyldes ud ved at tilføje relevante overbegreber på passende steder i<br />

begrebssystemet.<br />

Inddelingskriterier<br />

Et inddelingskriterium under et begreb er en attribut som anvendes i en trækspecifikation<br />

på et af begrebets underbegreber. Et inddelingskriterium er altså en attribut<br />

hvis mulige værdier tillader at skelne mellem nogle af det pågældende begrebs underbegreber.<br />

Et eller flere inddelingskriterier under et begreb kan udpeges som inddelende inddelingskriterier,<br />

dvs. inddelingskriterier der kan bruges i definitionerne af nogle af det<br />

pågældende begrebs nærmeste underbegreber. Begrebet process har underbegreberne<br />

inhibition og stimulation, hvor inddelingskriteriet er ’INFLUENCE ON OTHER<br />

PROCESS’, jf. figur 3. Dvs., vi kan definere inhibition som en type process som har<br />

en negativ indflydelse på andre processer.<br />

NORDTERM 2009, København 9.-12. juni 2009 64


Figur 3 viser et udsnit af en domæneontologi for en delmængde af termerne der er<br />

fundet i vores diabetes-domænekorpus. Figuren viser inddelingskriterier samt karakteristiske<br />

træk, samt en mapning til andre ontologiressourcer for visse begreber.<br />

FIGUR 3. Udsnit af domæneontologi for en delmængde af termerne der er fundet i det anvendte<br />

diabeteskorpus.<br />

Identifikation af begreber<br />

Der er taget udgangspunkt i et mindre korpus af domænespecifikke tekster hvorfra<br />

der er udtrukket frekvenslister med weirdness-scores (cf. Gillam, 2004). På baggrund<br />

af frekvenser i vores korpus sammenlignet med frekvenser i British National Corpus<br />

(BNC), er der beregnet weirdness-scores for alle ord der forekommer i teksterne. På<br />

baggrund af disse weirdness-scores, er der efterfølgende genereret nøgleordslister, og i<br />

samarbejde med domæneeksperter fra Novo Nordisk er de mest centrale begreber<br />

vedrørende insulinproduktion blevet udvalgt.<br />

Et weirdness-score er et statistisk mål for hvor tæt på/forskelligt fra distributionen<br />

af et givent ord i en given tekstsamling er i forhold til distributionen i et referencekorpus.<br />

Det beregnes på baggrund af frekvens af en given term samt antallet af<br />

løbende ord i hhv. et almensprogligt korpus og et domænekorpus:<br />

NORDTERM 2009, København 9.-12. juni 2009 65


Hvor NGLer antal løbende ord i et referencekorpus (typisk et almensprogligt<br />

korpus), NSLer antal løbende ord i domænekorpusset, fSLer frekvens af ordet i<br />

domænekorpusset og fGLer frekvens af ordet i referencekorpusset.<br />

Jo højere et ords relative frekvens er i et domænekorpus i forhold til den relative<br />

frekvens i et referencekorpus, jo højere weirdness-score. Jo mere ens distributionen i<br />

de to korpora er, jo tættere på 0 tilnærmes weirdness-score.<br />

Vi benytter i det følgende eksempel det almensproglige korpus BNC, som består af<br />

~85.000.000 tokens som referencekorpus, og et korpus bestående af Medline-abstracts<br />

på ~17.000.000 tokens som domænekorpus.<br />

Eksempel:<br />

Ord: hyperglycemia<br />

f BNC = 0<br />

f Medline = 676<br />

weirdness = (85.000.000*676)/((1+0)* 17.000.000) = 3442<br />

Ord: become<br />

f BNC = 67.219<br />

f Medline = 6.528<br />

weirdness = (85.000.000*6.528)/((1+67.219)*17.000.000) = 0,49<br />

Tabel 1 Nøgleordskandidater baseret på højeste weirdness-scores for ord i en eksempeltekst:<br />

‘Chapter 2: The Pancreatic Beta Cell’ (Eisenbarth)<br />

NORDTERM 2009, København 9.-12. juni 2009 66


I ovenstående beregninger af weirdness scores for de to ord hyperglycemia og<br />

become, ser vi at hyperglycemia scorer relativt højt, og at become scorer relativt lavt.<br />

Vi kan udlede af dette, at distribibutionen for hyperglycemia i de to korpora er meget<br />

uens , svarende til at ordet er en nøgleordskandidat, og at distributionen for become er<br />

tæt på at være ligelig, svarende til at ordet ikke er en nøgleordskandidat.<br />

I Tabel 1 ses en nøgleordskandidatliste dannet på baggrund af højeste weirdnessscores<br />

for ord i et lille korpus bestående af en tekst om beta-celler.<br />

ONTOLOGI FOR INSULINPRODUKTION<br />

Der eksisterer en række tilgængelige ontologiressourcer som dækker det relevante<br />

domæne i større eller mindre grad. Vi benytter imidlertid ikke disse ressourcer direkte<br />

som domæneontologier i forbindelse med søgning, men benytter dem udelukkende<br />

som referenceværker i forbindelse med vores modelleringsarbejde. Vi giver herunder<br />

eksempler på forskelle imellem vores behov og det som en given eksisterende<br />

ressource, UMLS, indeholder.<br />

Problemerne ved eksisterende ressourcer som UMLS i forhold til vores behov<br />

består bl.a. i:<br />

• Manglende sammenhæng mellem forskellige delressourcer<br />

• Manglende dækning (langt fra alle diabetesrelaterede begreber findes)<br />

• Ikke altid dækkende termvariantmængder<br />

• Ikke-dækkende relationssæt<br />

• Ingen inddelingskriterier eller trækspecifikationer<br />

Figur 4-6 illustrerer udsnit af UMLS-ressourcer som inkluderer begreber der er<br />

identificeret som domænebegreber via vores domænekorpus:<br />

• Inhibition<br />

• Stimulation<br />

• Stimulation of insulin secretion<br />

Termen inhibition findes ikke tilknyttet et begreb i UMLS, men ved nærmere<br />

eftersyn findes et begreb med samme begrebsmæssige indhold, nemlig negative<br />

regulation of biological process, som illustreret i Figur 4. Der mangler altså en<br />

termvariant knyttet til begrebet. Begrebet eksisterer i delressourcen Gene Ontology,<br />

men kan ikke knyttes sammen med begreber i andre delressourcer da en mapning<br />

mellem de enkelte ressourcer ikke findes.<br />

NORDTERM 2009, København 9.-12. juni 2009 67


Figur 4 Udsnit af UMLS-delressourcen Gene Ontology indeholdende begrebet ’negative<br />

regulation of biological process’<br />

Ligeledes findes termerne stimulation og stimulation of insulin secretion ikke tilknyttet<br />

et begreb i UMLS, men det begrebsmæssige indhold er dækket af begreberne<br />

positive regulation of biological process og positive regulation of insulin secretion<br />

også i Gene Ontology, som illustreret i Figur 5 og Figur 6.<br />

FIGUR 5. Udsnit af UMLS-delressourcen Gene Ontology indeholdende begrebet ’positive<br />

regulation of biological process’<br />

NORDTERM 2009, København 9.-12. juni 2009 68


FIGUR 6. Udsnit af UMLS-delressourcen Gene Ontology indeholdende begrebet ’positive<br />

regulation of insulin secretion’<br />

KONKLUSION<br />

Ved at benytte principper for terminologiske ontologier, har vi været i stand til at opbygge<br />

en domæneontologi for insulinrelaterede begreber, hvor der er en klar afgrænsning<br />

af begreber og entydige begrebsrelationer samt mapning til eksisterende ontologiressourcer<br />

for domænet. Med dette resultat kan vi levere et velfunderet stabilt grundlag<br />

for den generative ontologi.<br />

REFERENCER<br />

Gillam, L. (2004): Systems of concepts and their extraction from text. Unpublished PhD thesis,.<br />

University of Surrey.<br />

Madsen, Bodil Nistrup; Bolette Sandford Pedersen & Hanne Erdman Thomsen (2002): ”Semantic<br />

Relations in Content-based Querying Systems: a Research Presentation from the OntoQuery<br />

Project”. In: K. Simov and A. Kiryakov (Eds.): Ontologies and Lexical Knowledge Bases.<br />

Proceedings of the 1 st<br />

International Workshop, OntoLex 2000. OntoText Lab., Sofia. Pp. 72-82<br />

NORDTERM 2009, København 9.-12. juni 2009 69


Madsen, Bodil Nistrup; Hanne Erdman Thomsen, Carl Vikner (2004): ‘Comparison of Principles<br />

Applying to Domain Specific versus General Ontologies’. In: Alessandro Oltramari, Patrizia Paggio,<br />

Aldo Gangemi, Maria Teresa Pazienza, Nicoletta Calzolari, Bolette Sandford Pedersen, Kiril Simov<br />

(eds.): OntoLex 2004: Ontologies and Lexical Ressources in Distributed Environments. ELRA,<br />

2004, pp. 90-95<br />

George S. Eisenbarth (editor): Type 1 Diabetes: Cellular, Molecular & Clinical Immunology, Online<br />

Edition Version 3.0: http://www.uchsc.edu/misc/diabetes/books/type1/type1.html<br />

NORDTERM 2009, København 9.-12. juni 2009 70


Working Towards a Common Danish Upper<br />

Ontology<br />

a<br />

Camilla Wiberg Danielsen a<br />

National Board of Health, Health Documentation, Denmark, Terminologist.<br />

Abstract. More and more domains within the public sector start developing domain specific<br />

concepts. As the work progresses the domains realize that they share a need for the same very<br />

general concepts. Therefore the development of a co mmon national upper ontology seems to<br />

come closer. This paper describes the ontology work in the Danish Health Care Service where a<br />

domain specific upper ontology has been developed which could be the starting point for a<br />

common national upper ontology. Advantages and challenges of creating a co mmon national<br />

ontology will be discussed.<br />

ONTOLOGY WORK IN THE DANISH HEALTH CARE SECTOR<br />

In 2004 The National Board of Health in Denmark started to work with ontologies<br />

in order to define central concepts from the information model for electronic health<br />

care records that was then being elaborated.<br />

The work was defined in the National IT strategy 2003-2007for the Danish Health<br />

Care Service that stated “The National Board of Health is in charge of establishing a<br />

widely anchored organization whose purpose it is to evaluate and develop concepts in<br />

the health care service. Through a database, these will be made available to all<br />

activities relating to analysis and development in the healthcare service.”<br />

The result of this initiative was that a national concepts council for health care was<br />

established, a database with an interface that is accessible for the public was developed<br />

and a secretariat that supports the work was set up.<br />

The actual work defining the concepts is being carried out in work groups that work<br />

within specific health care related sub-domain for instance ‘medicine’, ‘examination’<br />

or ‘administrative concepts’. The National Concepts Council was responsible for<br />

appointing members for work groups so that the members of the single work group<br />

would be subject matter experts that represent a broad range of special interest groups.<br />

The delivery of a work group is a concept system with definitions and terms as well as<br />

other relevant information about the concepts. When work is finished within a subdomain<br />

the concept system with definitions and other information about the concepts<br />

is send out into public hearing and the hearing comments will be adapted into the<br />

concept system. Finally the council would approve the concept system or perhaps ask<br />

for further development before approving the work.<br />

In 2008 a Council for Content Standards was established in Denmark and The<br />

National Concepts Council was closed down. The work of defining central health care<br />

NORDTERM 2009, København 9.-12. juni 2009 71


concepts now refers to The Council for Content Standards but is mainly being carried<br />

out as before this organizational change.<br />

The work that is being carried out within this frame is using terminological working<br />

methods and principles that are in accordance with ISO 704 and a handbook for<br />

terminology work in the Danish Health Care Service has been written to support the<br />

work and the participants in the work groups.<br />

Do we need to define concepts within the public sector?<br />

Especially the very central concepts within a sector or domain are very often the<br />

most difficult to write one common definition for. The reason for this is that they are<br />

already defined in a range of ways in accordance with use in specific situation. It<br />

seems, however, that there is an increasing acknowledgement of the fact that a<br />

common understanding and a uniform way of applying concepts and terms is<br />

necessary within the public sector.<br />

Also the increasing need for operability and interoperability within systems that<br />

collect and exchange data has made the need for common understanding of concepts<br />

explicit. When we implement IT systems, report or collect data there is a need for<br />

common, structured and detailed terminology.<br />

We now have many separate systems that work well but with the development of<br />

these an immense amount of coding and registration has followed that is now a burden<br />

to the employees in the public sector. To ease this and to facilitate the exchange of<br />

data and the development of new systems ontology work is a major issue.<br />

The Danish Health Care Ontology<br />

Since we started working with the Danish health care ontology nine workgroups<br />

have developed ontologies within as many sub-domains. These are:<br />

• Administrative concepts<br />

• Clinical process<br />

• Medication<br />

• Quality concepts<br />

• Adverse events<br />

• Information security<br />

• Disease prevention, health promotion and population health status<br />

• Examination concepts<br />

• Clinical pathways<br />

Of course the number of concepts treated within each sub-domain varies, but each<br />

work group has collected and defined approximately fifty concepts.<br />

While defining concepts within the single work group it became obvious that some<br />

concepts were common for more or all groups. To avoid that these concepts were<br />

defined by more groups and to make sure that there would be only one common<br />

NORDTERM 2009, København 9.-12. juni 2009 72


viden<br />

definition of these concepts it was decided to establish a special group to define these<br />

concepts:<br />

• General concepts<br />

Typically the concepts that the sub-domains would send on to this special group<br />

would be very general concepts that were super-ordinate to concepts within the subdomain,<br />

but were not really a part of the sub-domain. Also concepts that were used in<br />

definitions, but were of a more common type would be treated by this group. The<br />

group would of course also use the common principles for the terminology work in the<br />

Health Care Services stated in the handbook and the result should be a concept system.<br />

In order to create a coherent concept system it was necessary to add some concepts to<br />

the ontology. In this way the work was driven by the need of the sub-domains and was<br />

not developed in order to describe “everything in the world” as is often the case of<br />

upper ontologies.<br />

The National Concept Work for the Danish Health Care Services can now present<br />

an ontology that consists of:<br />

• One layer called the upper ontology<br />

This layer contains concepts like activity, object, factor, occurrence<br />

• One layer containing general health care concepts<br />

The concepts described are for instance health condition, ill, health sector<br />

• One layer made up by 9 ontologies each dealing with a sub-domain<br />

These will describe concepts like direct patient examination, dose, patient<br />

pathway<br />

proces<br />

konsekvens<br />

aktivitet<br />

forudsætter<br />

objekt<br />

resultat adfærd proces<br />

begivenhed<br />

aktør<br />

faktor<br />

indsats<br />

metode<br />

oprindelse<br />

resulterer i<br />

fører<br />

til<br />

formål<br />

sigter imod<br />

specificerer<br />

tidsmæssig<br />

afgrænsning<br />

forløb<br />

mål handling<br />

udføres af udføres af<br />

tidsmæssig<br />

udstrækning<br />

redskab<br />

hensigt<br />

hændelse<br />

ulykke<br />

deltager i<br />

virkning<br />

målgruppe<br />

individ<br />

entitet<br />

rolle livsform<br />

repræsentation afgrænsethed ordning<br />

kan være<br />

person<br />

består af<br />

gruppe af<br />

individer<br />

består af<br />

formål<br />

primærsektor<br />

art<br />

samfund<br />

grafisk<br />

dokument<br />

organisation<br />

består af<br />

samfundssektor<br />

område<br />

sundhedssektor<br />

dokumentation<br />

består af<br />

information<br />

sekundærsektor<br />

forandring<br />

tegn<br />

data<br />

medlemstype gruppe<br />

model<br />

arketype<br />

system<br />

formalisering formål ensartethed<br />

sundhedsvilkår<br />

FIGURE 1. UML diagram showing the upper ontology and the general health concepts in the ontology<br />

for the Danish Health Care Service<br />

omfatter<br />

påvirkning<br />

sundhedsramme<br />

område<br />

domæne<br />

indvirker på<br />

ramme struktur<br />

befinder sig i<br />

afgrænsethed<br />

domæne<br />

objekt relation<br />

kvalitet<br />

egenskab<br />

ramme sund<br />

helbred<br />

sundhedsvæsen<br />

begreb<br />

forbinder<br />

begrebsrelation<br />

formål<br />

område<br />

rask<br />

helbredskvalitet<br />

syg<br />

supplerende<br />

træk<br />

funktion<br />

helbredsstatus<br />

beskrivelse formål<br />

specificerer<br />

kontekst<br />

usund<br />

helbredspotentiale<br />

sygdom<br />

tilstand<br />

adskillende<br />

træk<br />

differentiering<br />

karakteristisk<br />

beskrives med<br />

træk<br />

normativ<br />

beskrivelse<br />

informativ<br />

beskrivelse<br />

mål<br />

sundhed<br />

virkefelt<br />

formål<br />

intentionalitet<br />

udstrækning<br />

forstyrrelse<br />

trækspecifikation<br />

består af<br />

standard<br />

instruks<br />

vejledning<br />

helbredstilstand<br />

består af helbred<br />

sundhedstilstand<br />

folkesundhed<br />

indvirker på<br />

udstrækning<br />

attribut<br />

attributværdi<br />

indvirker på<br />

inddelingskriterium<br />

specificerer<br />

NORDTERM 2009, København 9.-12. juni 2009 73


A COMMON NATIONAL ONTOLOGY<br />

The concept modeling within the health care sector has been going on f or<br />

somewhat longer than in most other sectors and no ot her sector has an equivalent<br />

concept system describing general concepts.<br />

Within resent years more and more public institutions have shown interest in<br />

defining concepts and more and more show interest in creating a common upper<br />

ontology. Also there is a common acknowledgement, that is seems sensible to take an<br />

offset in the health care upper ontology.<br />

Advantages<br />

The development of a common national upper ontology would have a number of<br />

advantages for the ontology work in all sectors.<br />

• The single sector will not develop its own sector specific upper ontology and<br />

create similar concepts with different definitions<br />

• It will be easy for new domains to attach their concepts or concept systems to<br />

concepts in the upper ontology<br />

• It is much easier to see what concepts you miss in the concept system when you<br />

have a fairly well developed concept system<br />

• Defining this type of concepts is not easy as very often the same term is well<br />

established in different sectors for concepts that are defined slightly different.<br />

However, having well defined concepts makes it much easier to see where you<br />

do not agree and need to define another concept that is in accordance with the<br />

specific use in a specific sector<br />

• The community of people working with ontologies in the public sector in<br />

Denmark is very small. Therefore, it is a great advantage, if we can share our<br />

knowledge and experiences and thus share the work load.<br />

Challenges<br />

Working together on a common ontology across sectors will of course also give<br />

some challenges:<br />

• In the work that has been made within the health sector one of the biggest<br />

challenges has been to make definitions that are both short, exact and<br />

understandable for a wide range of uses<br />

• To sort out, separate or agree upon c ommon definitions for concepts behind<br />

well integrated terms in different sectors will be difficult<br />

• To establish the resources that is needed for the work to be carried out will be a<br />

major challenge<br />

• To establish the governance that is needed in order to host the common<br />

ontology and to secure the dissemination of the definitions will be a challenge.<br />

NORDTERM 2009, København 9.-12. juni 2009 74


How to proceed from here<br />

At the moment the National Concept Work for the Danish Health Care Services is<br />

reviewing the current upper ontology. As work in the sub-domains progresses it has<br />

become clear, that some of the descriptions of the concepts in the top levels of the<br />

health care upper ontology are too difficult to understand. Therefore the group has<br />

reassembled to review the definitions and especially to add comments and examples to<br />

better describe the concepts. This work will be finished in the autumn of 2009. At the<br />

same time the definitions will be translated into English in order to have a basis for<br />

collaboration internationally. When the review is finished the work will be send out in<br />

public hearing.<br />

A group of people working with concept definitions in the public sector 1<br />

Denmark has started to meet every second to third month. The aim of these meeting is<br />

to share knowledge and experiences by sharing the concept work within each sector.<br />

There is a great interest within this group to develop a common national ontology, but<br />

there is also a great lack of resources for this type of work. One of the group’s<br />

initiatives is the establishment of a forum for discussion on the internet. On this forum<br />

both members of the public sector as well as other interested parties can discuss the<br />

concept work in the public sector.<br />

A very important issue for The National Concept Work for the Danish Health Care<br />

Services is that the common work is based on the use of standards including ISO 704<br />

Principles and Methods and ISO 1087 Terminology Work, Vocabulary.<br />

On the homepage of The National Concept Work for the Danish Health Care<br />

Services http://begrebsbasen.sst.dk/ there is a link for the Handbook for Terminology<br />

Work in the Danish Health Care Service.<br />

Also a common format for exchange of data will have to be discussed in order to<br />

share and store definitions and relations between concepts.<br />

Finally a common public storage, distribution and governance of the concepts will<br />

be needed in order to secure that the work is developed, stored and distributed in a<br />

way that makes it used throughout the sectors.<br />

REFERENCES<br />

Bodil Nistrup Madsen (1999). Terminologi, principper og metoder, Gads Forlag.<br />

ISO (2000). ISO 1087-1, Terminology work – Vocabulary – Part 1: Theory and application<br />

ISO (2001). ISO 704, Terminology work – Principles and methods<br />

National Board of Health (2005). Håndbog i Begrebsarbejde, del 1: Principper, Sundhedsstyrelsen.<br />

1 Central Customs and Tax Administration, Danish, Government IT Services, Danish Institute for Quality and Accreditation in<br />

Healthcare, Danish Prison & Probation Service, Digital Health, Local Government Denmark, National Board of Health, National<br />

Board of Social Services, National it and telecom agency Denmark, The Capital Region of Denmark, The Police<br />

NORDTERM 2009, København 9.-12. juni 2009 75<br />

in


National Board of Health (2006). Håndbog i Begrebsarbejde, del 2: Metoder og arbejdsforløb,<br />

Sundhedsstyrelsen.<br />

NORDTERM 2009, København 9.-12. juni 2009 76


TNCs arbete med en basordlista –<br />

en ontologi med definitioner?<br />

Cecilia Lind<br />

Terminologicentrum TNC, Västra vägen 7 B, SE-169 61 Solna, Sverige,<br />

+46 8 446 66 03, cecilia.lind@tnc.se<br />

Abstract. Genom att fastlägga fackspråkliga betydelser hos ord som förekommer frekvent i<br />

många olika fackspråk, så skapar man en grund för formulering av entydiga definitioner, vilket<br />

är en förutsättning för terminologiarbete med kvalitetsanspråk. Detta har TNC arbetat med i<br />

olika omgångar ända sedan 1941 (då TNC bildades). Det senast publicerade materialet i TNCs<br />

basordsarbete är ordlistan Tekniska basord som kom 1995. Den ordlistan koncentrerades kring<br />

tekniska basord och hade en preliminär prägel; det sägs i förordet att den skulle fungera som en<br />

remissutgåva och läsarna uppmanades att inkomma med synpunkter. På sin webbplats uppmanar<br />

nu TNC intresserade personer att inkomma med förslag till basord som behöver preciseras. År<br />

2006 sökte och fick TNC ett bidrag från Marcus och Amalia Wallenbergs stiftelse för att åter<br />

bearbeta och precisera betydelsen i ett antal basord. Arbetet påbörjades samma år.<br />

Utgångspunkten har varit Tekniska basord men omfånget har vidgats och omfattar nu<br />

ämnesområden utanför tekniken, t.ex. organisation, förvaltning och dokumentation. Varje basord<br />

– eller term – som definieras, grundas på belägg, excerpter, ur ett stort antal källor,<br />

huvudsakligen från det material som finns i TNCs interna termdatabas. Men även från mer<br />

allmänt material, som Nationalencyklopedin och Wikipedia, har belägg hämtats. Under arbetet<br />

har följande problemtyper visat sig: olika uppfattningar om ett ords betydelse; begreppskluster<br />

där det kan vara svårt att avgöra var gränserna mellan begreppen går och vilka; relationer som<br />

gäller mellan begreppen; vanligt förekommande termer som sällan förklaras eller där begreppen<br />

bakom termerna är svårfångade; termen förekommer inom många olika områden och där i<br />

(något) olika betydelse. Terminologiarbetets bärande princip, att utgå från begreppet och inte<br />

termen, visar sig vara till stor hjälp också i arbetet med att precisera basord som används inom<br />

flera fackområden. Det finns företeelser som begreppsmässigt är ”maskiner” men som benämns<br />

”apparater” och vice versa. Givetvis kan man inte göra mycket åt väl etablerade termer men man<br />

kan ha nytta av basordens definitioner när man vill benämna nya föremål. Att välja en term som<br />

entydigt svarar mot begreppet underlättar förståelsen och är i vissa fall eftersträvansvärt i<br />

terminologiarbete.<br />

UTVECKLINGEN AV EN TERMINOLOGISK BASORDLISTA<br />

På Nordterm i R eykjavik 1995 be rättade Lars Törnqvist från Tekniska<br />

nomenklaturcentralen om sitt arbete med Tekniska basord och under Nordterm 2009 i<br />

Köpenhamn fick deltagarna höra om Terminologicentrum TNCs arbete med<br />

NORDTERM 2009, København 9.-12. juni 2009 77


evisionen av Tekniska basord. Revisionen har inneburit ett horisontellt<br />

terminologiarbete på en övergripande begreppsnivå för att definiera termer som<br />

behövs för att förklara termer på lägre nivåer. För att kunna definiera skruvmejsel så är<br />

det lämpligt att ha definierat verktyg osv.<br />

DEFINIERA PÅ ÖVERGRIPANDE NIVÅ<br />

Målet med Basorden är att formulera definitioner som kan fungera inom många<br />

flera olika områden; gärna så många som möjligt. Detta har lett till a tt många<br />

definitioner har vidgats och att många insnävningar har tagits bort i jämförelse med<br />

den äldre upplagan. Det har vi kunnat göra eftersom kärnegenskaperna ofta är<br />

desamma även när en term förekommer inom flera ämnesområden men i lite olika<br />

betydelse. De begrepp som inkluderas i Basord bör ligga högt upp i<br />

begreppshierarkierna. En svårighet har dock varit urvalet av termer och begrepp; att<br />

hamna på ungefär samma horisontella nivå i begreppshierarkierna.<br />

NYTT OMFÅNG – NY TITEL<br />

Det är Gunnel Johansson som leder revisionen och som har lagt upp arbetet.<br />

Begreppen i boken har delats in i avsnitt med besläktade begrepp. Nya områden, som<br />

t.ex. organisation och dokumentation har tillkommit även om de tekniska termerna<br />

ännu är i majoritet. Arbetsnamnet har därför ändrats till Basord eftersom området nu<br />

utvidgats utanför det rent tekniska. Vi är väl medvetna om att ordet basord är TNCjargong<br />

för facktermer som kan förekomma inom flera fackområden och ännu är den<br />

slutliga titeln på ordlistan inte fastställd. (Basord används inom lexikografin i en annan<br />

betydelse.)<br />

PROBLEM I DE HÖGRE HIERARKIERNA<br />

Den här artikeln kommer att behandla olika typer av problem som vi stött på under<br />

arbetet, t.ex. problem med avgränsning, svårfångade begrepp och begrepp där antingen<br />

fackexperterna har olika uppfattning om begreppet bakom termen eller där det finns<br />

små begreppsskillnader mellan närliggande ämnesområden. Varje term som definieras<br />

grundas på belägg, excerpter, ur ett stort antal källor, huvudsakligen från det material<br />

som finns i TNCs interna termdatabas. Men excerpter har även hämtats från mer<br />

allmänna källor, som svenska Nationalencyklopedin och Wikipedia.<br />

SVÅRUTREDDA KOMPLEX<br />

Vid en första anblick kan en grupp närliggande begrepp verka lätta att förklara och<br />

enkla att skilja från varandra. Men vid en närmare granskning kan det visa sig att det<br />

inte är så enkelt att hitta de särskiljande kännetecknen. Gränserna mellan begreppen<br />

NORDTERM 2009, København 9.-12. juni 2009 78


visar sig vara otydliga och ibland verkar det som om begreppen delvis överlappar<br />

varandra. Vari ligger t.ex. skillnaden mellan maskin, apparat, instrument och verktyg?<br />

Man får akta sig för att ta för mycket fasta på uttryckssidan eftersom t.ex. det som<br />

begreppsmässigt är en maskin kan kallas apparat, och vice versa.<br />

Ett annat exempel på två begrepp som kan vara svåra att skilja åt är teknik och<br />

metod. Problemet är av samma slag som det ovan beskrivna. Varför säger man t.ex.<br />

skidåkningsteknik men vallningsmetod?<br />

Ett tredje exempel är begreppen energi, arbete och effekt inom fysik. Dessa begrepp<br />

definieras ofta med hjälp av varandra. Man får ett antal yttre cirklar. Det blir svårt att<br />

välja ut ett av begreppen och hitta en självständig definition. Det är tydligt att energi är<br />

ett så pass komplext begrepp att det inte går att definiera utan cirkeldefinition och en<br />

lösning är att undvika att definiera energi och därmed utgå ifrån att begreppet är<br />

självklart i sitt sammanhang.<br />

TEKNISK DEFINITION SAKNAS MEN ALLMÄNSPRÅKLIG<br />

FINNS<br />

I vissa fall saknas en teknisk vetenskaplig definition, men det går att finna<br />

förklaringar i mer allmänspråkliga källor. Begreppen antas förmodligen vara så<br />

självklara inom sitt fackområde att de inte har definierats där. Atom är ett exempel på<br />

term med få eller inga fackspråkliga definitioner. TNCs interna termdatabas, som<br />

innehåller ca 265 000 termposter och många fler termer, ger en enda träff, visserligen<br />

från en vederhäftig källa, TNC 90 K ärnenergiordlista, men ändå endast en träff.<br />

Dessutom saknas det ordböcker på svenska inom ämnesområdet fysik. Atom förklaras<br />

däremot i de mer allmänspråkliga källorna Nationalencyklopedin och Wikipedia. Det<br />

leder till att de allmänspråkliga källorna får procentuellt stort inflytande över TNCs<br />

definitionsformulering så vida vi inte går direkt till experterna.<br />

Ett annat exempel är termen elementarpartikel som saknas helt i T NCs interna<br />

termdatabas. Det verkar dessutom finnas en äldre, mer etablerad, skola och en nyare<br />

skola när det gäller vad som bör räknas som elementarpartiklar och hur dessa kan<br />

indelas. Vilket synsätt ska man då redovisa i ordlistan? Vi valde att redovisa synsättet<br />

från den äldre skolan eftersom det nya inte tycktes ha vunnit genomslag i s amma<br />

omfattning.<br />

SVÅRFÅNGADE BEGREPP<br />

Olika termer kan stå för mycket likartade begrepp. Detta gäller t.ex. lag, formel och<br />

sats inom naturvetenskap. Det har varit omöjligt att hitta särskiljande kännetecken<br />

med hjälp av excerpterna och därför har vi antagit att lag och sats är synonymer, som<br />

t.ex. i Ohms lag och Pythagoras sats.<br />

NORDTERM 2009, København 9.-12. juni 2009 79


MÅNGTYDIGHET<br />

Ett annat problem har varit mångtydigheten hos vissa termer. Hur många av dessa<br />

betydelser bör redovisas i en ordlista av detta slag? Bör man ta med flera betydelser av<br />

en sådan term än vad som egentligen är berättigat, enbart för att få en mer fullständig<br />

bild? Vi har sett två typer av mångtydighet nämligen homonymi inom och mellan<br />

fackområden samt mångtydighet i excerpter. Det senare avser att samma begrepp<br />

förklaras olika i olika excerpter. När det gäller homonymi inom samma fackområde så<br />

har vi ställts inför frågan om vilka begrepp som är relevanta för Basordens målgrupp.<br />

Har det funnits en gemensam kärna så har vi försökt hitta den och formulera en<br />

övergripande definition i enlighet med den horisontella begreppstanken.<br />

HOMONYMI<br />

Lite extra svårt blir det när en term står för flera begrepp inom samma<br />

ämnesområde. Då måste man bli mer precis när det gäller insnävningstexten, dvs. i<br />

vilket fackområde begreppet förekommer. Det räcker då inte att t.ex. ange "(inom<br />

matematik:)". Exempel på en sådan term är bas inom matematik. Här finns minst tre<br />

olika betydelser inom tre underområden:<br />

(inom geometri:) sida som valts ut i samband med areaberäkning;<br />

(i en potens:) det tal eller uttryck som upphöjs till något, t.ex. talet a i a²;<br />

(i ett positionssystem:) positivt heltal som anger antalet möjliga värden som varje<br />

sifferposition kan anta.<br />

Termen bas förekommer dessutom i andra betydelser inom ett flertal andra<br />

ämnesområden.<br />

AVSAKNAD AV ENTYDIGHET<br />

Excerpterna som använts som underlag för definitionerna har ibland visat på<br />

avsaknad av en entydig bild. Inte så sällan pekar excerpterna ut ett antal olika<br />

överordnade begrepp. Det kan då bli svårt att välja den relevanta överordnade termen<br />

för definitionen. Någon gång har vi dessutom valt en annan överordnad term än de<br />

som förekommer i excerpterna. Vi har då tyckt att excerpterna inte har lyckats fånga<br />

det centrala i begreppet. Ibland kan infallsvinkeln vara olika i olika excerpter. Man<br />

beskriver samma begrepp men utifrån olika perspektiv. Det gör att begreppet kan få<br />

olika kännetecken i olika excerpter. Det är då inte så lätt att hitta begreppets kärna. Till<br />

exempel kan kon o ch cylinder definieras olika beroende på om man ser det strikt<br />

matematiskt eller utifrån ett mer allmänt perspektiv. Strikt matematiskt kan en kon<br />

eller cylinder ha vilken basyta som helst medan en mer allmän uppfattning är att den<br />

ska vara cirkulär. Koner och cylindrar är dessutom oändliga enligt en strikt<br />

matematisk definition, men i de flesta fall ses de som begränsade.<br />

NORDTERM 2009, København 9.-12. juni 2009 80


ARDETETS UPPLÄGGNING<br />

Tekniska basord var indelad i fackområden t.ex. brand och ytbehandling. Inför<br />

revisionen har vi valt en annan indelningsgrund som delvis är ämnesoberoende och<br />

mer övergripande:<br />

1. Egenskaper<br />

2. Processer, operationer<br />

3. Tillstånd, förhållanden<br />

4. Ämnen, material<br />

5. Produkter, varor<br />

6. Mekaniska och elektriska föremål<br />

7. Storheter, enheter<br />

8. Bygg och anläggningar<br />

9. Övriga fenomen och företeelser<br />

10. Organisation<br />

11. Dokumentation<br />

Den gamla upplagan bestod av 1 462 antal termer och är i skrivandes stund uppe i 1<br />

592 poster.<br />

Jämfört med Tekniska basord har drygt 200 termposter plockats bort eftersom de<br />

ansetts för smala eller inte längre aktuella. I stället har ca 330 nya begrepp tillförts.<br />

Vissa ämnesområden, t.ex. kemi och dokumentation, var tidigare dåligt<br />

representerade. Revidering har till största delen skett inom TNC. Vi har då litat till den<br />

fackkunskap som TNCs medarbetare besitter. Experter har självfallet tillfrågats där<br />

intern kunskap saknats.<br />

VAD HÄNDER SADAN?<br />

Efter en första genomgång krävs att hela materialet läses igenom och ensas. Detta<br />

kommer att innebära ett stort arbete. Den nya upplagan kommer att ingå i<br />

Rikstermbanken och kommer eventuellt också i tryckt upplaga. Basorden kommer att<br />

vara under ständig revidering eftersom begreppen kan förändras över tid och mellan<br />

fackområden. Genom Rikstermbankens kommentarfunktion finns en möjlighet att<br />

kommentera termposterna direkt till sekretariatet via webben. Det är en möjlighet för<br />

allmänheten att påverka Basordens innehåll.<br />

NYTTAN MED FACKSPRÅKLIGA BASORD<br />

Man kan idag inte göra så mycket åt väl etablerade termer som ursprungligen inte<br />

är så väl valda men för framtida termval kan man ha nytta av basordens definitioner.<br />

Att välja en term som entydigt svarar mot begreppet underlättar förståelsen och är<br />

eftersträvansvärt i terminologiarbete. Basorden kan förhoppningsvis också göra det<br />

lättare att välja en korrekt överordnad term vid skrivning av definitioner. När<br />

översättare måste skapa en ny svensk term för ett begrepp som saknar en etablerad<br />

sådan har även de nytta av att begreppet beskrivs med hjälp av en korrekt överordnad<br />

term.<br />

NORDTERM 2009, København 9.-12. juni 2009 81


Som det ser ut i dag kan den nya titeln bli Tvärvetenskapliga basord för att<br />

tydliggöra att termerna utgör basord inom flera olika fackspråk som behövs vid<br />

formulering av definitioner. Inte de basord som barn lär sig först utan de överordnade<br />

termer som behövs för att kunna uttrycka en definition inom ett fackspråk.<br />

NORDTERM 2009, København 9.-12. juni 2009 82


Begreppsrelationer som verktyg för<br />

begreppsanalysen<br />

Anita Nuopponen<br />

Vasa universitet<br />

Abstract. This paper presents a set of models that can be used as tools for analysing concepts.<br />

The models are based on an updated and modified classification of concept relations presented<br />

originally in Nuopponen 1994 and revised in various papers later on. The suggested systematic<br />

concept analysis starts by selecting a concept of departure, after which a preliminary overall picture<br />

of concepts and concept systems of the target field is obtained by using satellite model, i.e. a<br />

uniform, mind-map-like way to graphically represent concepts and different types of relations<br />

between them. The branches of the resulting presentation are scrutinized separately. This may be<br />

done with the help of their own satellite models if needed. At this phase, the concept relation<br />

models discussed in this paper can be applied to clarify relation types between the concepts (generic,<br />

origination, developmental, contiguity, activity, transmission, causal, and dependence relations).<br />

The models can be modified and applied according to the needs of the domain. This<br />

analysis phase results in detailed information of the concepts and their relations to other concepts.<br />

The information received when going through different relation models helps also to modify<br />

the preliminary generic concept system(s). Finally, as a synthesis a new version of the whole<br />

overall concept system (or ontology) consisting of different types of minor concept systems is<br />

compiled. The results can be utilised in writing definitions, compiling ontologies etc. The analysis<br />

process can be integrated in e.g. terminology or ontology work, technical writing or academic<br />

research.<br />

INLEDNING<br />

I detta bidrag beskrivs modeller som kan användas för att analysera olika typer<br />

relationer mellan begreppen. Terminologilärans begreppsrelationer har under det<br />

senaste decenniet fått betydelse som verktyg för ontologier och andra system för<br />

kunskapsorganisation 1 . Därför har jag också under de senaste åren återvänt till<br />

klassifikationen i Nuopponen 1994 och omarbetat den bit för bit 2<br />

. I det följande samlar<br />

jag ihop dels sådant som jag har presenterat tidigare i o lika sammanhang och dels<br />

lägger till några nya relationstyper och grupperar begreppsrelationer på ett något<br />

annorlunda sätt än tidigare. Avsikten är att öka begreppsrelationernas tillämpbarhet<br />

som verktyg för systematisk begreppsanalys.<br />

1<br />

T.ex. TKE 2008 konferens hade som tema "Managing Ontologies and Lexical Resources" och specialtemat på NORDTERM<br />

symposium 2009 var "Ontologier og taksonomier".<br />

2<br />

Se källförteckningen.<br />

NORDTERM 2009, København 9.-12. juni 2009 83


Systematisk begreppsanalys<br />

Begreppsrelationer betraktas som väsentliga verktyg för systematisk begreppsanalys.<br />

Systematisk begreppsanalys bygger på begrepp och metoder som skapats för<br />

terminologiarbete och terminologisk forskning. En speciell betoning ligger på<br />

begreppsrelationer och begreppssystem. Systematisk begreppsanalys kan tjäna som en<br />

metod för vilken som helst undersökning där man behöver klargöra (fack)begrepp och<br />

deras relationer till varandra.<br />

När man analyserar begrepp, rör man sig på tre olika nivåer som man borde hålla<br />

isär: referentnivån (entiteter och deras egenskaper i den verkliga världen eller i en<br />

föreställd värld), begreppsnivån (begrepp och deras kännetecken) och uttrycks- eller<br />

representationsnivån (benämningar och begreppsdefinitioner). Begreppet begrepp<br />

definieras i Nordterms ordlista Terminologins terminologi på nordiska som<br />

"kunskapsenhet som skapats genom en unik kombination av kännetecken", vilket<br />

innebär att ett begrepp skiljer sig från andra begrepp genom ett eller flera särskiljande<br />

kännetecken. Ett kännetecken i sin tur är en "abstraktion av en egenskap hos en viss<br />

referent eller hos en grupp av referenter" enligt ordlistan medan en referent är en<br />

"entitet 3<br />

som kan påvisas eller uppfattas eller som man kan föreställa sig och som ett<br />

begrepp kan knytas till". Begreppen utgörs alltså av kännetecken som också är<br />

begrepp − begrepp vars referenter är de egenskaper som iakttagits.<br />

För att uttrycka fackbegrepp använder man termer, dvs. benämningar för<br />

allmänbegrepp som tillhör ett fackområde, begreppsdefinitioner<br />

Det finns flera olika sätt att analysera begrepp systematiskt, och i min forskning<br />

håller jag på att reda ut dessa möjligheter. I detta bidrag koncentrerar jag mig på ett<br />

tillvägagångssätt som har visat sig vara effektivt när man vill kartlägga större<br />

områden. Denna metod kunde också kallas för "satellitmetod" på grund av dess<br />

viktigaste verktyg s.k. satellitmodell. I det följande diskuterar jag de faser som gäller<br />

val av ett utgångsbegrepp, utarbetande av en preliminär helhetsbild (satellitmodell)<br />

och närmare granskning av relationer mellan begreppen (begreppsrelationsmodeller).<br />

Det är den sistnämnda fasen som står i fokus i detta bidrag.<br />

4<br />

och andra – både<br />

skriftliga och muntliga – begreppsbeskrivningar samt visuella representationsformer.<br />

Benämningar för individualbegrepp, dvs. egennamn, behövs dock ibland också (se<br />

Nuopponen & Pilke 2008).<br />

Satellitmodell - en helhetsbild av fackområdet<br />

Själva begreppsanalysen börjar med att man skaffar man sig en preliminär<br />

helhetsbild av det analyserade begreppets område eller fackområde. Även om man ska<br />

analysera bara ett enda begrepp är det nödvändigt att kartlägga åtminstone dess<br />

närmaste begrepp för att få en uppfattning av dess innehåll. Begreppsinnehållet hänger<br />

ihop med begreppets placering i begreppssystemet.<br />

3<br />

I litteraturen förekommer det också t.ex. termer företeelse, fenomen, föremål och objekt som synonymer till entitet. Här används<br />

termen företeelse.<br />

4<br />

TSK 2006: "beskrivning som ska avgränsa begreppet mot relaterade begrepp".<br />

NORDTERM 2009, København 9.-12. juni 2009 84


Som verktyg kan man använda s.k. satellitmodell som är ett grafiskt presentationssätt<br />

skapat för terminologiarbete och som liknar idékartor (mindmap) men som går<br />

djupare in i relationer mellan begreppen 5<br />

. Satellitmodellen kunde karakteriseras som<br />

en dynamisk begreppskarta, eftersom den växer, modifieras och specificeras allt efter<br />

man under analysens gång får mera information om de analyserade begreppen. Man<br />

börjar med en preliminär helhetsbild och går över till att granska begreppen i<br />

satelliterna och deras satelliter osv. Hur djupt in i fackområdets vetande ska man gå<br />

beror på analysens avsikt och tiden som man har till förfogande.<br />

Valet av utgångsbegreppet<br />

För satellitmodellen behöver man ett utgångsbegrepp eller en annan gemensam<br />

nämnare för fackområdet vars begrepp och termer ska undersökas. Som<br />

utgångsbegrepp kan fungera t.ex. ett begrepp på en högre abstraktionsnivå eller ett<br />

begrepp som annars kan föra ihop de undersökta begreppen. Det kan hänvisa till<br />

exempel till:<br />

• ett fackområde eller en disciplin eller en del eller variant av dessa, t.ex.<br />

lingvistik, lexikologi; sjukvård, närsjukvård; trädgårdsskötsel, kompostering;<br />

japansk teceremoni, Urasenke-tetradition.<br />

• en handling, en aktivitet, en process eller en händelse, t.ex. ordbildning,<br />

medicinsk diagnos, plantering, temae (proceduren för att förbereda te).<br />

• ett materiellt eller immateriellt föremål, ett objekt, ett tillstånd; t.ex. språk,<br />

morfem; läkemedel, tandläkare, feber; pion, kompost; teskål, tehus, osv.<br />

Utgångsbegreppet placeras i centralnoden och de viktigaste besläktade begreppen i<br />

"satellitnoderna" omkring den. För att framställningen skulle bli åskådligare är det<br />

ändamålsenligt att gruppera begrepp med hjälp av hjälp- eller "pseudonoder", t.ex. om<br />

utgångsbegreppet avser en aktivitet, utgörs de viktigaste satellitnoderna av<br />

hjälpnoderna "aktör", "objekt", "verktyg", osv. I en noggrannare analys av<br />

fackområdets begrepp kan vart och ett begrepp tas som utgångsbegrepp i tur och<br />

ordning. Satellitnoderna får sina egna satelliter och t.ex. hjälpnoden "verktyg" binder<br />

ihop begrepp för alla verktyg som används för att genomföra aktiviteten. Dessa kan<br />

vidare delas i underbegrepp eller man kan redogöra för verktygens beståndsdelar,<br />

material, ursprung, osv.<br />

Under den systematiska analysen kan tyngdpunkten flyttas till ett annat begrepp<br />

som kan ta över rollen som utgångsbegrepp. Om man arbetar med ett stort fackområde<br />

eller ett mera komplicerat fenomen eller om man ska jämföra olika syn på begrepp och<br />

deras referenter, kan det uppstå flera alternativa satellitmodeller.<br />

BEGREPPSRELATIONSMODELLER<br />

I den tidigare forskningen har jag utarbetat en detaljerad klassifikation av<br />

begreppsrelationer som kan användas vid terminologisk begreppsanalys. Vissa<br />

5 Se mera t.ex. i Nuopponen 2000.<br />

NORDTERM 2009, København 9.-12. juni 2009 85


elationer (aktivitets- och upphovsrelationer) har jag grupperat i modeller som kan<br />

fungera som utgångspunkter för en satellitmodell. I det följande presenterar jag ett<br />

försök att gruppera resten av begreppsrelationer i liknande "begreppsrelationsmodeller".<br />

Modellerna kan vara alternativa och tillämpas i den ordning som tycks vara<br />

ändamålsenlig i vart och ett fall. Element ur olika modellerna kan kombineras enligt<br />

behov.<br />

Begreppsrelationstyperna är generaliserade för att kunna tillämpas i a lla möjliga<br />

fall. De baserar sig på människans grundläggande sätt att strukturera och kategorisera<br />

världen. Benämningarna som jag har valt är allmänna (t.ex. ändamålsrelation) eller<br />

metaforiska lån från ett fackområde (t.ex. ingrediensrelation; patient).<br />

Avsikten med<br />

termvalet har varit att ge plats för olika tolkningar och tillämpningsmöjligheter inom<br />

olika fackområden. Modellerna är avsedda som utgångspunkter och idégivare för var<br />

och ens egen metodutveckling. Man kan plocka det som lämpar sig för fackområdet i<br />

fråga och utarbeta modeller som fungerar där. Innan man väljer modellerna som ska<br />

användas, lönar det sig dock att testa alla för att undvika förutfattade föreställningar<br />

om fackområdets begreppsapparat. För att snabbt komma i gång med analysen kan<br />

man formulera nyckelfrågor som är relevanta för det undersökta området.<br />

Typer och egenskaper<br />

Oberoende av begreppets typ är det väsentligt att bestämma begreppets plats i ett<br />

generiskt begreppssystem (syn. logiskt begreppssystem): vad är dess överbegrepp,<br />

sidobegrepp och underbegrepp samt eventuella indirekta sidobegrepp.<br />

FIGUR 1. Analysmodell för generiska begreppsrelationer och kännetecken.<br />

När man försöker bestämma det generiska överbegreppet 6 till utgångsbegreppet<br />

(se figur 1) letar man efter information om ett begrepp vars omfång 7<br />

täcker också<br />

utgångsbegreppet, dvs. en större klass av företeelser som referenten hör till.<br />

Svårigheter förorsakas t.ex. av att överbegreppet kan vara under diskussion inom<br />

själva fackområdet eller disciplinen. Det kan finnas många olika tolkningar hur<br />

referenten borde klassificeras, t.ex. diskuterar olika forskare om japansk teceremoni<br />

6<br />

TSK 2006: "begrepp som står i generisk relation till ett annat begrepp och vars intension inkluderas i intensionen av det andra<br />

begreppet".<br />

7<br />

TSK 2006: "uppsättning referenter som kan knytas till ett visst begrepp".<br />

NORDTERM 2009, København 9.-12. juni 2009 86


(jap. chadô "teets väg") skulle betraktas som en typ av ceremoni, ritual, konst, kult,<br />

tedrickande, filosofi, religion osv. I vissa sammanhang måste man klassificera eller<br />

definiera utgångsbegreppet och således fatta beslutet vad som skall uppfattas som ett<br />

överbegrepp.<br />

I innehållsdefinitionen som är den klassiska definitionsmodellen beskrivs begreppet<br />

"genom att ange dess överordnade begrepp och dess särskiljande kännetecken" (TSK<br />

2006). I vissa fall måste man ersätta den term som representerar överbegreppet med ett<br />

allmänt ord, t.ex. "tradition, som...", "ett sätt att…" 8<br />

. Valet av ett överbegrepp<br />

påverkar också termvalet, t.ex. om man väljer att behandla japansk teceremoni som en<br />

ceremonityp, väljer man termen 'teceremoni' eller om man ser den som en konstform,<br />

föredrar man termen 'tekonst'. Gör man en deskriptiv studie, kan begreppet få flera<br />

överbegrepp (se figur 1).<br />

För att kunna definiera begreppet behövs det (ett eller flera) särskiljande kännetecken<br />

som skiljer det undersökta begreppet från andra begrepp på samma<br />

abstraktionsnivå, dvs. dess generiska sidobegrepp ska kartläggas och skillnaderna<br />

mellan dem redogöras för. Till exempel om man vill definiera japansk tekonst, ska<br />

man fråga hur den avviker från andra konstformer, eller om man betraktar den som en<br />

ceremonityp, är man tvungen att klargöra hur teceremonin avviker från andra<br />

ceremoniformer och hur den japanska teceremonin avviker från t.ex. kinesiska eller<br />

koreanska teceremonier. Om man ser på chadô i sin japanska kontext, likställs det som<br />

ett parallellt fenomen till andra dô, dvs. "vägar", t.ex. kadô (ikebana), judô, kendô,<br />

budô, osv.<br />

Ofta kommer det vid analysen fram begrepp som är nära det undersökta begreppet,<br />

men tycks inte ha samma direkta överbegrepp. Ändå kan det vara viktigt att avgränsa<br />

dem från det undersökta begreppet för att få en vattentätare definition. Dessa begrepp<br />

ligger längre borta i det generiska begreppssystemet än de direkt sidoordnade begreppen<br />

eller relationen är annars oklar. De kan även höra till ett alternativt generiskt<br />

begreppssystem.<br />

En del underbegrepp finner man vanligen redan i början av analysen, men man får<br />

en bättre uppfattning om dem och deras innehåll under analysens gång samtidigt som<br />

man undersöker andra relationstyper. Då kommer det fram nya indelningskriterier och<br />

annan dylik information; t.ex. skillnaden mellan olika typer av öl klargörs när man<br />

bekantar sig med framställningsmetoder och bryggningsprocess. Man ska under hela<br />

analysprocessen leta efter information som kompletterar det generiska begreppssystemet.<br />

Också annars ska man under analysen återkomma till skedet där man preliminärt<br />

har klargjort begreppets kännetecken och generiska relationer. 9<br />

Ursprung, utveckling och processer<br />

När man bekantar sig med en företeelse får man ofta information om dess ursprung<br />

och utveckling. Detta är typiskt för encyklopediartiklar eller läroböcker. Dessa<br />

beskrivningar ger uppgifter om upphovs- och utvecklingsrelationer mellan begreppen.<br />

Upphovsrelationer baserar sig på förhållanden mellan utgångsbegreppets referent<br />

och andra företeelser eller faktorer som har med dess ursprung eller uppkomst att göra:<br />

8 Se Vehmas-Lehto 2006.<br />

9 Se mera i Nuopponen 1994.<br />

NORDTERM 2009, København 9.-12. juni 2009 87


vem tillverkar eller har tillverkat den, var, varför, hur, av vilket material ("ingredienser"),<br />

med vad och när (se figur 2). Det är lätt att finna dessa relationer när man<br />

analyserar en konkret företeelse, t.ex. cappuccino, men svårare när man har med en<br />

immateriell företeelse att göra, t.ex. teceremoni. Till exempel i litteraturen om japansk<br />

teceremoni kommer det fram olika människor, skolbildningar och faktorer som har<br />

bidragit till att denna aktivitetsform existerar. Vissa tidsperioder uppges också ha haft<br />

betydelse. Ingredienser som cappucino tillverkas av är espresso, ångad mjölk och<br />

mjölkskum medan i fråga om japansk teceremoni (t.ex. som en konstform) kunde man<br />

räkna som "ingredienser" inflytande från olika religioner, arkitektur och andra<br />

konstarter (blomsterkonst, keramik, kalligrafi, etc.) som har styrt teceremonins<br />

utveckling.<br />

FIGUR 2. Analysmodell för upphovsrelationer 10<br />

.<br />

FIGUR 3. Analysmodell för utvecklingsrelationer och temporala begreppsrelationer.<br />

Utvecklingsrelationer anknyter sig till fenomenets utveckling (se figur 3).<br />

Encyklopediartiklar och läroböcker redogör för också dessa begreppsrelationer när de<br />

10 I de flesta figurerna har termerna förkortats och uttryck som "ÄNDAMÅL", "INGREDIENS" osv. ska läsas<br />

"ändamålsbegrepp", "ingrediensbegrepp" osv. Om man vill kan man bilda termer för dessa begrepp, jfr. helhetsbegrepp,<br />

delbegrepp.<br />

NORDTERM 2009, København 9.-12. juni 2009 88


presenterar utvecklingshistorien bakom företeelsen: Vilka utvecklingsstadier går en<br />

individ eller ett material igenom, vilka företrädare och efterträdare har företeelsen,<br />

hur har hela arten utvecklats och vilka generationer kan man urskilja?<br />

Sammansättning, struktur och läge<br />

En grupp av begreppsrelationer har med referentens rumsliga kontakt att göra (se<br />

figur 4). Till den mest centrala informationen hör referentens indelning i delar,<br />

komponenter, element el.dyl. Frågan Vilken större helhet företeelsen hör till? leder till<br />

information om utgångsbegreppets helhetsbegrepp 11 , dvs. begreppet som är överordnat<br />

till det i ett partitivt begreppssystem. Utgångsbegreppets partitiva sidobegrepp och<br />

delbegrepp finner man genom att ställa frågorna Vilka andra delar hör till samma<br />

helhet? respektive Av vilka delar, beståndsdelar eller komponenter består referenten<br />

själv av?<br />

FIGUR 4. Analysmodell för partitiva och närliggande begreppsrelationer.<br />

Vid sidan av egentliga delar kan det även vara frågan om något som kan anknytas<br />

till en företeelse som en "extra utrustning" (t.ex. trädgård – belysning; kaffedryck –<br />

socker). Det kan också gälla en egenskap hos utgångsbegreppets referent (t.ex. kaffe –<br />

koffeinhaltig), dess ämneskomponent (t.ex. kaffe – koffein), ingredienser som den<br />

tillverkats av (se exemplen i 2.1) eller "läge" (espresso – espressokopp). Dessa<br />

relationer kan vändas om på liknande sätt som partitiv över- och underordning. Då kan<br />

man t.ex. fråga Vilken företeelse har utgångsbegreppets referent utvunnits ur? 12<br />

Materialrelationer kunde också kallas "ämneskomponentrelation" eller "utvinnings-<br />

relation" för att uttrycka bättre materialets roll i denna relationstyp.<br />

11<br />

TSK 2006: "begrepp i en partitiv begreppsrelation som avser helheten".<br />

12<br />

Se mera i Nuopponen 1994.<br />

NORDTERM 2009, København 9.-12. juni 2009 89


Aktivitet<br />

Ett aktivitetssystem är en naturlig utgångspunkt för områdets satellitmodell om man<br />

analyserar begrepp som har med en aktivitet, ett aktivitetsområde eller en handling att<br />

göra (se figur 5). Man ställer då frågor om aktiviteten. Vilka av dessa frågor man<br />

ställer, hur man formulerar frågorna och hurudana svar man får beror mycket på<br />

fackområdet T.ex. terminologiarbete görs av en terminolog och aktiviteten har termer<br />

och begrepp som objekt. Som verktyg räknas här utom själva verktyg också material,<br />

sätt och metod som man använder för att utföra handlingen eller aktiviteten. Vid<br />

terminologiarbetet används det olika terminologiska metoder, dataprogram osv.<br />

Aktiviteten eller handlingen kan anknytas till en viss plats, t.ex. terminologiarbete<br />

− terminologicentra, översättningsavdelning; teceremoni − tehus osv. Man kan också<br />

fastställa en tidpunkt eller en tidsperiod då den idkas, t.ex. julfirande − jul. Aktiviteten<br />

eller handlingen kan ha ett eller flera mål eller syften, t.ex. tävling − vinst;<br />

terminologiarbete − begreppslig reda, terminologisk standardisering/harmonisering. I<br />

många fall sammanfaller mål- och resultatbegreppet men ibland kan det vara ändamålsenligt<br />

att göra skillnad mellan målrelation och teleologisk aktivitetsrelation, t.ex. ett<br />

resultat av terminologiarbetet kan vara en ordlista. Aktiviteten kan ha en speciell rutt<br />

som används för att genomföra den. Rutten kan bestå av olika etapper. (Se figur 5.)<br />

FIGUR 5. Analysmodell för aktivitetsrelationer och temporala begreppsrelationer.<br />

Ibland är den granskade aktiviteten en fas i en mera omfattande process och den<br />

kan också ha sina egna underfaser. Relationer mellan faserna leder till temporala<br />

begreppsrelationer. Var och en av faserna kan analyseras med aktivitetsrelationsmodellen<br />

då de tillsammans bildar en kedja. 13<br />

13 Se mera Nuopponen 1994, 2006, 2007.<br />

NORDTERM 2009, København 9.-12. juni 2009 90


Överföring, transmission<br />

En typ av aktiviteter är olika slags överförings- eller transmissionsprocesser. Jag<br />

har klassificerat denna typ av aktiviteter skilt eftersom dessa processer medför<br />

ytterligare komplexitet. Om själva överföringsprocessen (t.ex. betalning) tas som<br />

utgångsbegrepp, kan modellen för analysen av aktivitetsrelationer tillämpas till en stor<br />

del (se figur 6), eftersom överföring eller transmission är en aktivitet och samma typer<br />

av relationer är inblandade (Vad är objektet för överföring, vem utför överföringen,<br />

vilken väg och instrument används? Osv.).<br />

FIGUR 6. Analysmodell för transmissionsrelationer.<br />

När man har företeelsen som överförs som utgångspunkt är det möjligt att fastställa<br />

relationstyper, som är specifika för överföringsprocesser (se figur 6). En sådan är t.ex.<br />

relationen mellan begreppen som avser det som överförs och sändaren (t.ex. skatt −<br />

skattebetalare). Man kan också ta vilken som helst av begreppen som utgångspunkt<br />

och få fram några ytterligare relationstyper. Till exempel om begreppet som avser<br />

sändaren (t.ex. författare) tas som utgångsbegrepp kommer det att anknytas med<br />

begreppen som avser mottagaren (t.ex. läsare) och förmedlaren (t.ex. översättare)<br />

(direkt resp. sekventiell transmissionsrelation). 14<br />

Orsak och verkan<br />

I kausala begreppssystem kan man skilja mellan begrepp som avser olika typer av<br />

orsak och följd (t.ex. finanskris − lågkonjunktur). Orsaker kan vara en agent som kan<br />

tänkas ha förorsakat någonting (kausal agent), en händelse som leder till följder och<br />

bildar eventuellt en kausalkedja (producerande orsak), eller omständigheter som kan<br />

tänkas ha förorsakat någonting (förklarande orsak). T.ex. vid den globala finanskrisen<br />

som började sommaren 2007 kunde man betrakta banker som kausal agenter och deras<br />

osund kreditgivning som producerande orsak och början på en kausalkedja som ledde<br />

till krisen. Patientbegreppet (t.ex. ekonomi) hänvisar till någonting som påverkas och<br />

hos vilken/vilket symptom (t.ex. arbetslöshet, tillväxt, inflation) förekommer. Också<br />

här kan man ta vilket som helst begrepp som utgångsbegrepp och få fram olika<br />

synvinklar på orsak och följd.<br />

14 Se mera i Nuopponen 2007.<br />

NORDTERM 2009, København 9.-12. juni 2009 91


FIGUR 7. Analysmodell för kausala begreppsrelationer med följdbegreppet som utgångspunkt.<br />

I analysmodellen i figur 7 har följdbegreppet tagits som utgångsbegrepp (t.ex.<br />

lågkonjunktur). Mellan det och orsaksbegreppet finns det en orsaksrelation, vilken är<br />

den primära kausala begreppsrelationen. De övriga kan man inte undvika när man<br />

analyserar kausala förhållanden närmare. Det finns t.ex. vissa åtgärder (motverkande<br />

orsak) med vilka man kan försöka komma ur lågkonjunkturen eller förhindra den, men<br />

om det inte lyckas, kan lågkonjunkturen ha t.ex. depression som konsekvens. Man kan<br />

skilja ytterligare relationstyper i k ausala begreppssystem, t.ex. olika symptom kan<br />

förekomma i olika delar av "patienten" och ha sina egna konsekvenser och<br />

"botemedel". 15<br />

Beroende och jämförelse<br />

I figur 8 har jag samlat relationer som inte nödvändigtvis formar ett sammanhängande<br />

begreppssystem eller kan fungera som sådan som en utgångspunkt för en<br />

satellitmodel. De anknyter sig på ett eller annat sätt till b eroende och jämförelse<br />

mellan företeelser och kan integreras i de övriga modellerna enligt behov. I de tidigare<br />

klassifikationerna har jag placerat dessa relationer på olika ställen, de flesta som<br />

kontakt- och interaktionsrelationer. 16<br />

FIGUR 8. Olika typer av beroende.<br />

Ägarrelationen baserar sig på sambandet mellan referenten och den som äger den<br />

eller tvärtom, om referenten är den som äger något. Dessa relationer är ofta nära<br />

partitiva begreppsrelationer eller tillhörighetsrelationer, men ibland kan ägarrelationen<br />

15 Se mera i Nuopponen 2008.<br />

16 Se mera i Nuopponen 1994, 2005.<br />

NORDTERM 2009, København 9.-12. juni 2009 92


vara nyttig vid begreppsanalysen när ägandeförhållandet betonas speciellt (t.ex.<br />

skogsägare − skog). I vissa fall fungerar "ägare" också bättre som metafor. Exempel<br />

på en avhänginghetsrelation är relationerna mellan begreppen värd − gäst och<br />

långivare − låntagare. En korrelationsrelationen finns det t.ex. mellan begreppen pris<br />

− efterfrågan och symbolrelationer mellan riksdagsledamot − valkrets och term −<br />

begrepp. Rangrelationen har att göra med företeelsernas placering i den skala som<br />

uppstår av jämförelsen (t.ex. huvudgäst, andra gäst, tredje gäst vid den japanska<br />

teceremonin). Rollrelationen råder mellan utgångsbegreppet och begreppen som avser<br />

företeelsens roller (t.ex. professor − sakkunnig; journalist − grindvakt; museum −<br />

upplysare).<br />

SYNTES<br />

De begreppsrelationsmodeller presenterades i denna artikel är avsedda för det första<br />

att komma i gång med begreppsanalysen och att skapa en preliminär helhesbild i form<br />

av en satellitmodell. För det andra stöder de arbetet när man ska reda ut och<br />

specificera olika typer av begreppsrelationer och begreppssystem(fragment) som man<br />

har funnit inom det undersökta fackområdet.<br />

Under den systematiska genomgången av den preliminära satellitmodellen får man<br />

ytterligare information för att klargöra olika typer av begreppssystem(fragment).<br />

Speciellt värdefullt är informationen som preciserar de preliminära generiska begreppssystemen.<br />

Det som man samlar och sorterar med hjälp av begreppsrelationsmodeller<br />

och satellitmodellen kan utom begrepp och termer vara information om<br />

referenternas egenskaper. Man kan då kartlägga och jämföra begreppskännetecken 17<br />

.<br />

Även om all denna information inte nödvändigtvis direkt bygger upp begrepps-<br />

systemet kan den hjälpa på flera andra sätt vid begreppsanalysen.<br />

Den sista fasen i en systematisk begreppsanalys består av att sammanfatta analysens<br />

resultat i en reviderad satellitmodell. Efter att ha klargjort den preliminära<br />

satellitmodellens delar "satellit" för "satellit" så långt som man vill komma in i<br />

fackområdets vetande, återkommer man alltså till helheten och modifierar den så att<br />

alla bitar faller på plats. Som slutresultat uppstår det ett "heltäckande" begreppssystem<br />

eller en ontologi för det valda fackområdet. I vissa fall uppstår det flera alternativa<br />

eller parallella helhetsbilder, t.ex. när man jämför skillnader mellan begreppssystem i<br />

olika länder, teorier, företag osv.<br />

Slutresultaten kan tillämpas när man ska skriva definitioner, utarbeta ordlistor,<br />

ontologier, termbanker, osv. I enlighet med den allmänna terminologilärans traditioner<br />

är den systematiska begreppsanalysmetoden avsedd för att vara allmänt tillämpbar<br />

oavsett språk och fackområde eller oavsett vem som använder den. Analysprocessen<br />

kan integreras som ett moment inte bara i te rminologiarbete utan i o ntologiarbete, i<br />

teknikinformatörens arbete eller i vetenskaplig forskning. Metoden och dess verktyg är<br />

inte heller bundna vid ett visst modellerings- eller databassystem. Friheten från dessa<br />

begränsningar har gjort det lättare att testa olika möjligheter och att ändra<br />

klassifikationen. Detta har bidragit också till a tt satellitmetoden och klassifikationer<br />

har kunnat tillämpas och modifieras för olika syften 18<br />

.<br />

17<br />

Se mera i Nuopponen 2000.<br />

18<br />

T.ex. Kristiansen 2000; Hedin osv. 2000.<br />

NORDTERM 2009, København 9.-12. juni 2009 93


REFERENSER<br />

Hedin, Anita, Lena Jernberg, Hans Christian Lennér, Torsten Lundmark & Sven-Bertil Wallin (2000).<br />

Att mena och mäta samma sak: en begreppsorienterad metod för terminologiskt arbete. Lund: Studentlitteratur.<br />

Kristiansen, Marita (2000). Emerging disciplines in the behavioural sciences. Assessment of disciplinary<br />

autonomy by terminological conceptual analysis. In Unesco Alsed-LSP Newsletter vol. 23, no.<br />

2 (50) 2000. Copenhagen: Copenhagen Business School.<br />

Nuopponen, Anita (1994). Begreppssystem för terminologisk analys. Acta Wasaensia. Vaasa:<br />

University of Vaasa.<br />

Nuopponen, Anita (1996). Att strukturera kunskap. Om systematisk begreppsanalys. I: J. Myking, R.<br />

Sæbøe & B. Toft (red.), Terminologi − system og kontekst , 171−196. Oslo: Noregs forskingsråd.<br />

Nuopponen, Anita (1997). A model for systematic terminological analysis. In L. Lundquist & H. Picht<br />

& C. Quistguaard (Eds.), LSP − Identity and Interface Research, Knowledge and Society, 363−372.<br />

Copenhagen: Copenhagen Business School.<br />

Nuopponen, Anita (2000). Satelliter och system − att integrera begreppssystem i terminologiarbetet. I<br />

A. Nuopponen, B. Toft & J. Myking (red.), I terminologins tjänst. Festskrift för Heribert Picht på<br />

60-årsdagen, 128−45. Vaasa: Vaasan yliopisto.<br />

Nuopponen, Anita (2005). Concept Relations v2 An update of a concept relation classification. In Terminology<br />

and Content Development, 127−138. B. Nistrup Madsen & H. Erdman Thomsen (Eds.).<br />

Copehagen: Litera.<br />

Nuopponen, Anita (2006). A model for structuring concept systems of activity. In Y. Wang, Y. Wang &<br />

Y. Tian (Eds.), Terminology, Standardization and Technology Transfer, Proceedings of the<br />

TSTT'2006 Conference. Beijing: Encyclopedia of China Publishing House.<br />

Nuopponen, Anita (2007). Terminological modelling of processes: an experiment. In B.E. Antia (ed.),<br />

Indeterminacy in Terminology and LSP: Studies in honour of Heribert Picht, 199–213. John Benjamins.<br />

Nuopponen, Anita (2008). Causal concept systems. In B. Nistrup Madsen & H. Erdman Thomsen<br />

(Eds.), Managing ontologies and lexical resources, 17− 28. Copenhagen: Copenhagen Business<br />

School.<br />

Nuopponen, Anita & Nina Pilke (2010). Ordning och reda. Terminologilära i teori och praktik.<br />

Stockholm: Norstedts Akademiska Förlag. (I tryck).<br />

Nuopponen, Anita & Nina Pilke (2008). Radiccio, Bond och Conax – om termer och namn i fackordlistor.<br />

I Kunnskap og fagkommunikasjon, 182−191. Nordterm 15. Red. Jan Hoel. Oslo: Språkrådet i<br />

Noreg.<br />

Terminologins terminologi på nordiska (2005). http://www.nordterm.net/info/Publ/PNORDTERM13sv.html.<br />

Nationella upplagor: Se TNC 2008, TSK 2006.<br />

TNC (2008). Terminologins terminologi: ordlistan. Stockholm: TNC.<br />

http://www.tnc.se/images/stories/Bokhandel/ TT_ordlistan.pdf.<br />

TSK (2006). Terminologian sanasto. Terminologins terminologi. Helsinki: TSK.<br />

http://www.tsk.fi/tiedostot/pdf/ TerminologianSanasto.pdf<br />

NORDTERM 2009, København 9.-12. juni 2009 94


Vehmas-Lehto, Inkeri (2006). Yläkäsite – määritelmien toimittamisen kulmakivi. I Fackspråk och<br />

översättningsteori. VAKKI-symposium XXVI. Vasa 11.–12.2.2006, 319–330. Vasa: Vasa universitet.<br />

Humanistiska fakulteten.<br />

NORDTERM 2009, København 9.-12. juni 2009 95


From concept models to conceptual data<br />

models<br />

Bodil Nistrup Madsen & Anna Elisabeth Odgaard<br />

Abstract. In order to develop a harmonised and efficient IT system, such as a database, it is<br />

important to be familiar with the underlying concept model (concept systems) for the relevant<br />

domain which the IT system should be designed to accommodate, as this forms the necessary firm<br />

foundation for designing the conceptual data model. Although there is no one-to-one correlation<br />

between concept and characteristic features in the concept model and classes and attributes in the<br />

conceptual data model, there are many similarities between concept modelling and conceptual data<br />

modelling, and by closely examining the relationship between the two models, we have strived to<br />

construct an algorithm for creating conceptual data models in Unified Modelling Language (UML)<br />

on the basis of concept models that adhere to the traditional principles and methods of terminology<br />

work.<br />

THE FOUR MODELLING PHASES<br />

Ideally, the modelling procedure for developing an IT system that comprises a<br />

database should consist of four phases: Concept modelling, conceptual data modelling,<br />

logical data modelling and physical data modelling, cf. Figure 1.<br />

FIGURE 1.The Four Modelling Phases<br />

Unfortunately, the concept modelling phase is often omitted and IT developers set<br />

out to design the conceptual data model first off. This causes problems as a conceptual<br />

NORDTERM 2009, København 9.-12. juni 2009 96


data model, which is also inappropriately referred to as a semantic model, contains no<br />

information about meaning, rather, what kind of information should be recorded in the<br />

database. If concepts are not clarified and consensus regarding the content of concepts<br />

and usage of terms has not been reached, problems and misunderstandings could arise<br />

in connection with the data models. Therefore conceptual data models should be<br />

constructed on the basis of concept models and recent research in this area is already<br />

beginning to yield valuable findings (Kop 2008). However, we will go one step further<br />

as we set out to construct an algorithm for automatically generating conceptual data<br />

models on the basis of concept models. In our description of the four phases below we<br />

will use the design of a database for information about a conference system as an<br />

example, cf. Figure 2. This example has been inspired but not constrained by a case<br />

presented by Mathiassen et al. (2008), as we include a concept model and present a<br />

different data model.<br />

FIGURE 2. Extract of a concept model for a conference system<br />

PHASE 1: In the first phase of concept modelling, the domain experts draw upon<br />

their knowledge and understanding of the domain to identify the concepts and terms<br />

which are relevant for the proposed IT system. This information may also be extracted<br />

from requirement and design specifications. Assisted by terminologists or having the<br />

NORDTERM 2009, København 9.-12. juni 2009 97


necessary terminological prerequisites, the domain experts then proceed to organise<br />

concepts visually in a concept model where the mutual semantic relations between the<br />

concepts are recognized and defined. Finally, the subdivision criteria and<br />

characteristic features are identified allowing for the production of short, simple and<br />

precise concept definitions.<br />

PHASE 2: Once a concept model has been produced, a conceptual data model in<br />

UML can be created on the basis of the conceptual information contained in the<br />

concept model in the form of characteristic features and concept relations. In this<br />

work, we have attempted to closely study and formalise to the extent possible, the<br />

many considerations and decisions of this conversion process. As a general trend, it<br />

can be observed that some concepts correspond to classes, attributes or attribute values<br />

while other concepts in the concept model are not to be found at all as elements in the<br />

data model. Furthermore, the relations between concepts in a concept model can differ<br />

from the associations in the corresponding conceptual data model.<br />

FIGURE 3. Algorithm for creating a conceptual data model on the basis of a<br />

concept model<br />

NORDTERM 2009, København 9.-12. juni 2009 98


By applying the algorithm on a concept model, it would be possible to generate a<br />

conceptual data model in UML semi-automatically. However, this does imply that the<br />

concept model is complete, that concepts which are irrelevant to the IT system are<br />

identified manually, that multiplicity is specified manually and that any simplifications<br />

are carried out manually. Figure 3 shows the draft algorithm.<br />

In order to move through the concept model and process all the concepts,<br />

subdivision criteria and relations in the appropriate way, the algorithm identifies the<br />

initial focus concepts which are characterized by not having any super ordinate<br />

concepts nor do they solely enter into an associative relation as the target concept.<br />

Subsequently, a series of properties are analyzed to establish which role the focus<br />

concept, relevant subdivision criteria and relations should play in the conceptual<br />

model. For instance, if a focus concept has several subordinate concepts, then the<br />

focus concept is converted to a class in UML and each subdivision criteria is similarly<br />

converted to a class with an attribute corresponding to the name of the class. In<br />

addition, a “has” relation is created from the class of the focus concept to the class of<br />

the subdivision criteria, and the associated subordinate concepts become attribute<br />

values in the class of the subdivision criteria. Another part of the algorithm accounts<br />

for the measures to be taken when the focus concept enters into associative relations as<br />

the source concept. In this case, the focus concept is converted to a class, if it has not<br />

been converted already, and the associatively related concepts become classes as well<br />

with attributes corresponding to the names of the classes. Lastly, a “has” relation is<br />

created from the class of the focus concept to the associatively related classes. Another<br />

rule in the algorithm states that if a subconcept of a focus concept has subconcepts<br />

itself or enters into associative relations as the source concept, then this subconcept<br />

should be treated as a focus concept too. The algorithm is thus repeatedly traversed<br />

until all concepts have been processed. Figure 4 shows an example of a conceptual<br />

data model generated on the basis of the concept model in Figure 2.<br />

NORDTERM 2009, København 9.-12. juni 2009 99


FIGURE 4. Extract of a conceptual data model generated on the basis of the<br />

concept model<br />

Next, each relation in the new intermediate model will have to be carefully<br />

scrutinized to determine multiplicity. The domain experts and IT developers will also<br />

be able to make simplifications in order to facilitate implementation or cater for<br />

specific user requirements, before the conceptual model can be considered actually<br />

complete and ready for phase 3.<br />

PHASE 3. Concerning the logical data modelling phase, principles and<br />

recommendations for converting a conceptual data model to a logical data model<br />

already exist (Connelly & Begg: 2004, Applied Information Science: 1997). During<br />

this conversion, all classes are provided with a primary key corresponding to the name<br />

of the class joined with the identifier string “ID” and the relevant attribute is given a<br />

(pk) marking. Many-to-many relations transformed into a new intermediate class and<br />

two one-to-many relations from the two original classes to the new intermediate class<br />

are created. All classes which take part in a one-to-many relation are joined by a<br />

primary key (pk) on the “one” side and a foreign key (fk) on the “many” side. An<br />

example of a logical model, which is created on the basis of the conceptual data model<br />

in figure 4, is given in Figure 5.<br />

NORDTERM 2009, København 9.-12. juni 2009 100


FIGURE 5. Extract of a logical data model created on the basis of the conceptual data model<br />

PHASE 4: Implementing a physical data model in the last phase calls for<br />

considerations regarding the facilities and constraints of a given schema and query<br />

language, such as SQL or XML, including technical specifications, such as data types<br />

or the sequence order of elements. Once this has been established, the database can be<br />

implemented.<br />

Figure 6 shows an overview of the phases 1 to 3: from concept model to<br />

logical data model.<br />

CONSIDERABLE POTENTIAL<br />

Formalising the crucial step of converting a concept model to a conceptual data<br />

model has clear benefits and considerable potential, especially in the current age of<br />

digitalization where the necessity of organising and clarifying concepts as a basis for<br />

data modelling has become apparent. By providing guidelines for converting a concept<br />

model to a data model, we hope to pave the way for consistently anchoring data<br />

models in concept models, implementing a mediating framework for a dialogue<br />

between domain experts, terminologists and IT developers, and reducing resource<br />

costs by avoiding errors, ambiguity and vagueness during IT system development.<br />

NORDTERM 2009, København 9.-12. juni 2009 101


Result of Phase 1:<br />

Concept Model<br />

Result of Phase 3:<br />

Logical Data Model<br />

automatic<br />

automatic<br />

Result of Phase 2:<br />

Conceptual Data Model<br />

Figure 6: Overview of the phases 1 to 3: from concept model to logical data model<br />

FUTURE WORK<br />

manual<br />

In future work, we plan to investigate the relationship between concept models and data<br />

models even further and apply the algorithm to a wide range of concept models and<br />

subsequently potentially extend and improve the algorithm. An interesting direction for future<br />

research in this area would also be to devise a methodological workflow for progressing<br />

through the four modelling phases and specify the necessary skills and competencies for the<br />

various profiles involved both directly and indirectly in IT system development.<br />

REFERENCES<br />

Ambler, Scott (2004): "The Object Primer 3rd Edition - Agile Model-Driven Development with UML 2.<br />

0" ,Cambridge University Press, retrieved 20 th August 2009 from<br />

http://www.agiledata.org/essays/dataModeling101.html<br />

Applied Information Science (1997): “Conceptual ~ Logical ~ Physical Models”, retrieved 20 th August<br />

2009 from http://www.aisintl.com/case/CDM-PDM.html<br />

Connolly, Thomas & Begg, Carolyn (2004): "Database Systems 4.ed - A Practical Approach to Design,<br />

Implementation and Management" Pearson Education Limited<br />

NORDTERM 2009, København 9.-12. juni 2009 102


Kop, Christian (2008): “Conceptual modelling tool for novice designers”, International Journal of<br />

Metadata, Semantics and Ontologies, v.3 n.2, p.151-165<br />

Mathiassen, Lars et al. (1998): ”Objekt-Orienteret Analyse og Design”. Forlaget Marko Aps, Aalborg<br />

Yeung, Albert (1998): "Unit 051 - Information Organization and Data Structure", retrieved 20 th August<br />

2009 from http://www.ncgia.ucsb.edu/giscc/units/u051/u051.html<br />

NORDTERM 2009, København 9.-12. juni 2009 103


Interoperabilitet 2.0: sømløse emnekort i digital<br />

forvaltning<br />

Lars Johnsen<br />

Syddansk Universitet, Engstien 1, 6000 Kolding, Danmark<br />

Abstract. I denne artikel gives der en kort introduktion til Topic Maps, en model og teknologi til<br />

udvikling og udveksling af digitale emnekort, og det demonstreres, hvordan sådanne emnekort<br />

kan anvendes til organisering og integration af videns- og informationsressourcer i digital<br />

forvaltning. Blandt andet anføres det, hvordan emnekort kan bruges til integration af konceptuel<br />

og sproglig viden i f.eks. begrebssystemer og termbaser med OIOXML, det fællesoffentlige<br />

sprog til dataudveksling mellem it-systemer i den offentlige sektor i Danmark.<br />

BAGGRUND<br />

Inden for digital forvaltning er der stor fokus på interoperabilitet. Interoperabilitet<br />

kan i bred forstand forstås som it-systemers evne til at agere i samspil, herunder især<br />

deres mulighed for at udveksle og anvende oplysninger og viden på tværs af tekniske<br />

platforme og organisatoriske skel. Der er i Danmark således blevet iværksat flere<br />

projekter og initiativer, som har til f ormål at understøtte interoperabilitet i d en<br />

offentlige sektor. Disse initiativer har resulteret i en lang række konkrete og brugbare<br />

informationsressourcer, også kaldet interoperabilitetsaktiver, så som ontologier,<br />

taksonomier, datastandarder (= OIOXML-skemaer) og webservice-beskrivelser. Og<br />

ikke mindst med IT- og Telestyrelsens nye strategi for fællesoffentlig<br />

datastandardisering er der al mulig grund til at tro på, at der fremover vil ske en<br />

voldsom vækst i antallet og omfanget af disse ressourcer.<br />

Det spørgsmål, der rejser sig, er imidlertid, hvordan man sikrer sig adgang,<br />

sammenhæng, overblik og struktur i dette univers af distribuerede, heterogene, digitale<br />

ressourcer produceret og publiceret af mange forskellige myndigheder og<br />

organisationer, offentlige som private.<br />

Noget af svaret ligger gemt i de portaler, repositorier og web 2.0-platforme som<br />

inden for de sidste par år har set dagens lys. Det gælder f.eks. SEMIC.EU,<br />

Digitaliser.dk og socialebegreber.dk, som på henholdsvis EU-, nationalt og<br />

sektorniveau forsøger at skabe bedre rammer for vidensdeling inden for digital<br />

forvaltning.<br />

SEMIC.EU er et EU-finansieret og -drevet website, der giver aktører i digital<br />

forvaltning mulighed for at dele interoperabilitetsaktiver på tværs af nationale grænser.<br />

Dette sker med udgangspunkt i et åbent repositorie og en defineret clearing-proces, der<br />

skal sikre kvalitet i de ressourcer, der uploades til sitet.<br />

Digitaliser.dk er en fællesoffentlig webbaseret samarbejdsplatform for alle, der<br />

arbejder med digitalisering i Danmark. Digitaliser.dk er baseret på en web 2.0-<br />

NORDTERM 2009, København 9.-12. juni 2009 104


tankegang, der blandt andet betyder, at sitets informationsarkitektur primært er<br />

centreret omkring brugergrupper eller communities. Udover en række<br />

brugerorienterede funktioner, der tillader upload og tagging af ressourcer, debat,<br />

nyhedsformidling, etc., har sitet et REST-baseret API, gennem hvilket sitets indhold<br />

og metadata kan udstilles i et maskinlæsbart XML-format.<br />

Endelig er socialebegreber.dk et eksempel på et website, der har til formål at<br />

fremme vidensdeling og fælles begrebsdannelse samt understøtte bedre it-løsninger<br />

inden for en enkelt sektor, i dette tilfælde det sociale område.<br />

I sig selv er de tre websites eksempler på gode og fremadrettede initiativer, der hver<br />

på deres måde bidrager til udbredelse og kvalitetssikring af information og viden om<br />

digitalisering, herunder interoperabilitet. Problemet er desværre, at der – lige nu – ikke<br />

sker en egentlig integration af de ressourcer, som publiceres på websites som disse.<br />

Sagt lidt firkantet er der i dag ikke nogen større interoperabilitet mellem (ressourcer<br />

på) offentlige websites, hvis formål blandt andet er at understøtte interoperabilitet i<br />

digital forvaltning.<br />

Et konkret eksempel på den manglende sammenhæng er fraværet af eksplicitte<br />

koblinger mellem begrebssystemer, datastandarder og eksisterende lovgivning i form<br />

af bekendtgørelser, regelsæt, love, etc. Kigger man f.eks. på den standard, der<br />

specificerer, hvordan en borgers civilstand skal repræsenteres i OIOXML, det<br />

fællesoffentlige format til dataudveksling, vil man eksempelvis kunne se, at det skal<br />

gøres med XML-koden … og en af<br />

følgende dataværdier:<br />

• married<br />

• divorced<br />

• widow<br />

• registered partnership<br />

• abolition of registered partnership<br />

• longest living partner<br />

• deceased<br />

• unmarried<br />

( Se http://digitaliser.dk/resource/4615)<br />

Der er imidlertid intet i datastandarden, dvs. OIOXML-skemaet og dets tilhørende<br />

dokumentationsfil, der forklarer disse dataværdiers semantik, deres brug eller<br />

lovgivningsmæssige forankring. I det konkrete tilfælde kan det f.eks. undre, at<br />

”widow” åbenbart er en gyldig værdi til angivelse af en persons civilstand, men ikke<br />

”widower”. Så hvordan skal man egentlig angive i OIOXML, at en person er<br />

enkemand? I en praktisk sammenhæng er det selvsagt et problem for den<br />

datamodellør, it-arkitekt eller softwareudvikler, der f.eks. skal planlægge og udvikle<br />

en it-løsning til beregning og overførsel af pensionsudbetalinger.<br />

Der er med andre ord brug for en model og en teknologi, der kan integrere<br />

heterogene interoperabilitetsaktiver, som f.eks. begrebssystemer og datastandarder, på<br />

tværs af websites og stille resultatet til rådighed på en brugbar, gennemskuelig, og<br />

ikke mindst navigerbar facon.<br />

NORDTERM 2009, København 9.-12. juni 2009 105


TOPIC MAPS<br />

En sådan løsning kunne være Topic Maps. Topic Maps er en model, baseret på en<br />

ISO-standard, og tilhørende teknologier til u dvikling og udveksling af såkaldte<br />

emnekort. Emnekort er digitale ”kort”, der kobler vidensstrukturer sammen med<br />

(referencer til) informationsressourcer. Et emnekort indeholder et eller flere emner. Et<br />

emne er en repræsentation af noget, man ønsker at lagre information om: et abstrakt<br />

begreb, en hændelse, et billede eller noget helt andet. Emner kan have et eller flere<br />

navne, og de kan forbindes i navngivne relationer og inddeles i klasser eller typer. Til<br />

emner kan der knyttes informationsressourcer. Det kan være oplysninger, som angives<br />

i selve emnekortet, eller eksterne ressourcer, der linkes til, typisk websider og<br />

lignende. Et centralt aspekt ved emnekort er begrebet identitet. Identitet drejer sig om<br />

at kunne identificere de emner, der optræder i emnekort: f.eks. at kunne skelne mellem<br />

Paris, byernes by, Paris, helten fra den trojanske krig, og Paris, mediedarlingen med<br />

efternavnet Hilton. Måden at identificere et emne på er at udstyre det med en eller<br />

flere emneidentifikatorer. En emneidentifikator er normalt enten en URL (webadresse<br />

på nettet), der peger på en emneindikator, en webside eller andet dokument, der<br />

beskriver eller ”indikerer”, hvad emnet er, eller, hvis emnet i s ig selv er et digitalt<br />

objekt, objektets egen adresse på nettet eller i et lokalt filsystem. Identifikatorer er<br />

centrale i Topic Maps-paradigmet, blandt andet fordi de muliggør programmatisk<br />

sammenfletning af flere emnekort i en sammenhængende struktur. Ved en sådan<br />

sammenfletning vil emner med samme identitet således automatisk blive fusioneret,<br />

deres indhold ”lagt sammen” og redundant information blive fjernet. Emnekort kan<br />

repræsenteres i en række formater, herunder et standardiseret XML-format kaldet<br />

XTM, og bruges ofte som grundlag for udvikling af semantiske portaler og lignende.<br />

I forhold til in tegration af heterogene, distribuerede interoperabilitetsaktiver har<br />

emnekort den fordel, at de bygger på en meget fleksibel datamodel, der tillader en<br />

kombination af forskellige organiseringstilgange. F.eks. kan man med emnekort<br />

integrere ontologier/begrebssystemer, taksonomier og folksonomies, dvs. sæt af<br />

brugergenererede tags. Og lige netop denne mulighed vil være oplagt, når det gælder<br />

om at skabe en bedre sammenhæng mellem interoperabilitetsaktiver af den type, der<br />

blev nævnt ovenfor. Figur 1 illustrerer således, hvordan konceptuel viden (her fra det<br />

sociale område) kan kobles til en taksonomisk struktur, der klassificerer relevante<br />

OIOXML-skemaer, som igen er tagget med et eller flere brugergenererede tags, mens<br />

figur 2 vi ser, hvordan koblingen konkret kan ske ved, at to (eller flere) emnekort<br />

flettes sammen, hvorved emner med samme identifikator automatisk lægges sammen,<br />

i dette tilfælde to OIOXML-skemaer.<br />

Visionen for anvendelsen af Topic Maps i digital forvaltning er således at kunne<br />

generere, mere eller mindre automatisk, digitale emnekort, der i standardiseret form<br />

kortlægger, organiserer eller integrerer data fra diverse interoperabilitetsaktiver.<br />

Sådanne ”OIO-emnekort” vil i sig selv være åbne overlejrede datastrukturer, der<br />

maskinelt kan behandles, udveksles eller sammenflettes, og som kan fungere som<br />

navigeringsværktøjer eller portaler i forbindelse med browsing og søgning.<br />

NORDTERM 2009, København 9.-12. juni 2009 106


FIGUR 1. Integration af ontologi, taksonomi og folksonomy i et emnekort.<br />

FIGUR 2. Emner (fra forskellige emnekort) sammenflettes, hvis de har samme emneidentifikator.<br />

NORDTERM 2009, København 9.-12. juni 2009 107


OIO-EMNEKORT<br />

Det er uden for rammerne af denne korte artikel at diskutere nøjere, hvordan OIOemnekort<br />

bør eller kan modelleres og struktureres. Men det kan måske være på sin<br />

plads lige at eksemplificere, hvordan begrebsmæssige oplysninger og OIOXML rent<br />

faktisk kan integreres og repræsenteres i XTM 2.0, det nyeste XML-format til<br />

udveksling af emnekort. Nedenfor ses et eksempel på dele af et simplificeret, fiktivt<br />

emnekort, der indeholder udvalgte oplysninger om et enkelt begreb, nemlig ”enke”,<br />

herunder dets OIOXML-repræsentation. Det fremgår således af emnekortet, at ”enke”<br />

er et OIO-begreb, hvis emneindikator kan findes på en nærmere angivet webadresse på<br />

Digitaliser.dk; at begrebet har navnet, eller termen, ”enke” på dansk; og at der til<br />

begrebet er knyttet en informationsressource af typen OIOXML, som har værdien<br />

widow.<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

<br />

enke<br />

<br />

<br />

<br />

<br />

<br />

<br />

widow<br />

<br />

<br />

<br />

..<br />

<br />

Læg mærke til, at elementet:<br />

• er den container, som indeholder selve emnekortet<br />

• indeholder alle oplysningerne om et enkelt emne<br />

• angiver emnets type<br />

• er koden for emnets identifikator<br />

• angiver emnets navn samt i hvilken kontekst (scope), dette navn er<br />

gyldigt<br />

• giver oplysninger om en informationsressource, der er knyttet til<br />

emnet<br />

• viser, hvilken type denne informationsressource har<br />

NORDTERM 2009, København 9.-12. juni 2009 108


• indeholder informationsressourcens indhold, som i dette<br />

tilfælde i sig selv er et XML-element, dvs. <br />

Bemærk også, at symbolet #, som optræder i attributten ”href” i elementet ”topicRef”<br />

angiver, at der er tale om en reference til et selvstændigt emne. Selvstændige emner er<br />

således typeangivelser som ”OIOConcept” og ”OIOXML” og sproget dansk ”DA”.<br />

Disse emner er dog af overskuelighedshensyn udeladt i eksemplet.<br />

AFSLUTTENDE BEMÆRKNINGER<br />

Forudsætningen for, at brugbare OIO-emnekort kan genereres og sammenflettes på<br />

basis af udtræk af datasæt fra interoperabilitetsaktiver som begrebssystemer, termbaser<br />

og OIOXML-skemaer, er dog nok, at disse datasæt i højere grad ”sættes fri”, end<br />

tilfældet er i dag. Det vil især sige, at de:<br />

• frigøres fra system- og rettighedsmæssige bindinger<br />

• udstilles i veldefinerede og f orudsigelige strukturer og i et standardiseret<br />

maskinlæsbart format, f.eks. via et REST API<br />

• udstyres med konsistente identifikatorer<br />

Det vil med andre ord sige, at ethvert fagligt begreb på eksempelvis<br />

socialebegreber.dk eksempelvis bør kunne tilgås ved hjælp af en logisk URL, og at<br />

man via denne URL automatisk er sikret relevante oplysninger om begrebet i en<br />

veldefineret og gennemskuelig struktur i XML.<br />

En URL på socialebegreber.dk kunne se således ud:<br />

http://www.socialebegreber.dk/begreber/maalgruppe/ADHD<br />

Her angiver adressen et bestemt begreb (ADHD) inden for et nærmere emne<br />

(målgruppe) inden for et specifikt domæne, nemlig det sociale område.<br />

Og aktiveringen af denne URL kunne generere en simpel XML-struktur som f.eks.:<br />

<br />

b345<br />

http://www.socialebegreber.dk/begreber/maalgruppe/ADHD<br />

<br />

ADHD<br />

udviklingsforstyrrelse, der er kendetegnet ved<br />

opmærksomhedsforstyrrelse og/eller hyperaktivitet og<br />

impulsadfærd<br />

...<br />

<br />

NORDTERM 2009, København 9.-12. juni 2009 109


(Oplysningerne er her taget fra begrebsdatabasen på socialebegreber.dk).<br />

Der vil altså her være tale om en slags kontrakt, der sikrer, at et givet sæt af data altid<br />

udstilles på samme måde, uanset hvordan disse data er organiseret eller teknisk<br />

implementeret i d et underliggende it-system på det pågældende website, her<br />

socialebegreber.dk.<br />

REFERENCER<br />

Garshol, L.M (2004): Metadata? Thesauri? Taxonomies? Topic Maps! Making sense of it all.<br />

(http://www.ontopia.net/topicmaps/materials/tm-vs-thesauri.html).<br />

Garshol, L.M. & Moore, G. (red.) (2006): Topic Maps – XML Syntax.<br />

ISO/IEC JTC1/SC34. Information Technology - Document Description and Processing Languages.<br />

(http://www.isotopicmaps.org/sam/sam-xtm/).<br />

Johnsen, L. (2009): National Data Standardization: A Place for Topic Maps? (upubliceret).<br />

NORDTERM 2009, København 9.-12. juni 2009 110


Terminologisamordning inom svenska<br />

myndigheter<br />

Ny språklag på väg<br />

Anna-Lena Bucher<br />

Terminologicentrum TNC, Västra vägen 7 B, SE-169 61 Solna, Sverige,<br />

+46 8 446 66 18, anna-lena.bucher@tnc.se<br />

Abstract. TNC fick 2003 e tt särskilt bidrag från Näringsdepartementet för att föreslå hur en<br />

utvidgad terminologisk infrastruktur för Sverige (TISS) skulle kunna se ut. I TNCs förslag<br />

framhölls särskilt två viktiga komponenter: 1. en allmänt tillgänglig rikstermbank borde<br />

utvecklas – av TNC (!) och 2. inom varje myndighet, företag och organisation borde det finnas<br />

en funktion för terminologisamordning och terminologiarbete. Den första punkten har redan<br />

förverkligats: Rikstermbanken lanserades den 19 mars 2009. Den andra punkten,<br />

terminologisamordning på myndigheter, ser nu också ut att kunna bli verklighet i en mycket<br />

större omfattning än vad som hittills varit fallet. Den 1 juli 2009 kommer nämligen den svenska<br />

riksdagen att anta en språklag som innehåller bestämmelser om svenska språket, de nationella<br />

minoritetsspråken och det svenska teckenspråket. I lagens paragraf 12 sägs det: ”Myndigheter<br />

har ett särskilt ansvar för att svensk terminologi inom deras olika fackområden finns tillgänglig,<br />

används och utvecklas.” Med den nya lagen uppstår nya möjligheter för TNC. Vilka dessa nya<br />

möjligheter är och hur utvecklingen och spridningen av terminologiarbete i myndighetsvärlden<br />

kan se ut kommer att belysas i föredraget.<br />

Bakgrund<br />

Under 16 månader mellan oktober 2002 o ch december 2003 fick Terminologicentrum<br />

TNC en särskild finansiering av Näringsdepartementet för att genomföra en<br />

studie om hur en utvidgad terminologisk infrastruktur skulle kunna se ut, vari ingick<br />

en studie av det terminologiska landskapet i Sverige. Anledningen till att<br />

Näringsdepartementet ville att TNC skulle göra studien vid just denna tidpunkt var<br />

den pågående utvecklingen av den svenska e-förvaltningen.<br />

Studien lyfter fram två ingredienser som särskilt väsentliga i en terminologisk<br />

infrastruktur. Det ena är en terminologiportal på Internet där en nationell termbank,<br />

Rikstermbanken, skulle stå i centrum. Det andra är organisatorisk terminologisamordning<br />

i form av ett nätverk av personer på myndigheter och företag med<br />

terminologiarbete som sin främsta arbetsuppgift.<br />

NORDTERM 2009, København 9.-12. juni 2009 111


Rikstermbanken<br />

Nu har Rikstermbanken blivit verklighet. Den gjordes allmänt tillgänglig den 19<br />

mars 2009 oc h invigningen skedde med viss pompa och ståt. Mottagandet har varit<br />

positivt vilket illustreras i följande presscitat:<br />

”Rikstermbanken […] är en gåva till mänskligheten och särskilt till fackfolk och<br />

översättare.”<br />

”Jag sökte också på ”lane departure warning”, på både svenska och engelska, men<br />

fick ingen träff. Det kanske inte är en term? Den naturliga frågan blir då: Vad är en<br />

”term”? Träff! […] Och ett ”begrepp” – vad är det? […] Ja, så kan man hålla på.<br />

Utan att det kostar några pengar.”<br />

”Nu har nämligen Rikstermbanken öppnat. […] Kolla gärna under rubriken Källor<br />

så ser ni att den gör fog för namnet bank. Det är det ju inte alla banker som gör<br />

nuförtiden.”<br />

Men det finns också uttryck för besvikelse för att en viss term saknas:<br />

”Söker man på ”ord” hittar man däremot ingen definition. Ordet ”ord” skulle<br />

alltså inte vara en term enligt Rikstermbanken. Fast det är nog snarare ett uttryck för<br />

att databasen, trots sina 54 962 termposter, än så länge är rätt begränsad.”<br />

I och med lanseringen av Rikstermbanken är vi alltså i mål med en viktig del i den<br />

svenska terminologiska infrastrukturen.<br />

Terminologisamordning<br />

Med samordning menar TNC ungefär detsamma som man menar i en statlig<br />

offentlig utredning 1<br />

:<br />

”aktivitet som innebär att se till att den verksamhet som bedrivs av olika samhällsorgan genomförs<br />

med utgångspunkt i gemensamma utgångspunkter och att själva genomförandet inte präglas av<br />

divergerande mål mellan olika samhällsorgan”.<br />

Här kan man enkelt byta ut ”verksamhet” mot terminologiarbete för att förstå vad<br />

terminologisamordning skulle kunna stå för. Det säger dock inget om hur en sådan<br />

terminologisamordning rent praktiskt kan uppnås och vilka åtgärder som krävs.<br />

TNC har fört fram idén om ett nätverk av så kallade terminologisamordnare i flera<br />

olika sammanhang under de senaste tre–fyra åren. Bland annat ordnade TNC ett<br />

seminarium för terminologiskt intresserade personer på myndigheter hösten 2006. Där<br />

1 SOU 2007:31 Alltid redo! En ny myndighet mot olyckor och kriser<br />

NORDTERM 2009, København 9.-12. juni 2009 112


skisserade vi en modell för hur terminologisamordning i myndighetsvärlden skulle<br />

kunna se ut. Viktiga förutsättningar är förstås att personer utses och att tid och medel<br />

avsätts. Men det handlar i nuläget också om att förse dessa personer med argument för<br />

terminologiarbetet och om att konkretisera det, till e xempel genom att visa vilka<br />

verktyg (bland annat Rikstermbanken) som redan finns tillgängliga.<br />

Följande arbetsuppgifter är tänkbara för en terminologisamordnare på en<br />

myndighet. Terminologisamordnaren ska:<br />

1. informera internt om att terminologisamordning sker på myndigheten och vad detta<br />

innebär<br />

2. identifiera delfackområden som är specifika för myndigheten och inventera<br />

terminologi inom dessa<br />

3. hantera enstaka termfrågor från de anställda samt dokumentera både frågor och<br />

svar<br />

4. bilda nätverk eller grupper inom myndigheten av experter inom olika<br />

delfackområden<br />

5. medverka i harmonisering och samordning av olika terminologier, inom och mellan<br />

myndigheter<br />

6. initiera projekt där terminologi inom myndighetens delfackområden utreds<br />

7. medverka till att nya svenska termer skapas för till exempel EU-specifika begrepp<br />

8. se till att myndighetens terminologi finns lätt åtkomlig samt ansvara för kontinuerlig<br />

uppdatering av det som är publicerat<br />

9. delta i nätverksaktiviteter som rör språk och terminologi<br />

10. ha klart för sig hur termer hanteras i myndighetens arbete med klarspråk<br />

11. utarbeta och tillhandahålla en intern handledning över hur terminologisamordning<br />

på myndigheten ska se ut<br />

12. ha kontakten med TNC och anlita TNCs kompetens när det är befogat.<br />

Den nya svenska språklagen och dess paragraf 12 om<br />

myndigheternas terminologiansvar<br />

Under årens lopp har TNC idkat lobbyverksamhet för idén med<br />

terminologisamordning inom den offentliga förvaltningen, med viss framgång. Ett<br />

mycket tydligt exempel på framgångsrikt lobbningsarbete måste paragraf 12 i Sveriges<br />

nya språklag anses vara. Den paragrafen tilldelar myndigheterna ett eget ansvar för<br />

den egna terminologin.<br />

Den svenska språklagen antogs av riksdagen den 20 m aj i år (2009) och lagen<br />

trädde i kraft den 1 j uli 2009. Lagen lagfäster svenskan som huvudspråk i Sverige,<br />

vilket betyder att svenska ska kunna användas inom alla samhällsområden. Detta<br />

ställer förstås krav på att svenskan, och särskilt svensk terminologi, utvecklas och<br />

används också inom högre utbildning och forskning.<br />

Paragraf 12 av språklagen lyder:<br />

”Myndigheter har ett särskilt ansvar för att svensk terminologi inom deras olika fackområden finns<br />

tillgänglig, används och utvecklas.”<br />

NORDTERM 2009, København 9.-12. juni 2009 113


Myndigheterna ska alltså se till att deras terminologi ”finns tillgänglig, används och<br />

utvecklas” – en skrivning som mycket väl omfattar det som TNC avsett med<br />

terminologisamordning. Fortfarande återstår dock att konkretisera dessa tre typer av<br />

terminologiansvar.<br />

Trots att det kan ses som en framgång att lagen innehåller en paragraf om<br />

terminologi, har den paragrafen tyvärr inte varit särskilt uppmärksammad, varken i<br />

samband med presentationen av lagförslaget eller efter det att lagen antagits i<br />

riksdagen. Om man läser snabbprotokollet från riksdagsdebatten den 20 maj är det<br />

heller ingen riksdagsledamot som särskilt berör paragraf 12. Debatten handlar i stället<br />

om vilket parti som först kom på idén att Sverige skulle ha en språklag (mycket<br />

utrymme i debatten ägnas åt detta) och hur lagens intentioner ska kunna förverkligas.<br />

Man pratar om läsfrämjande åtgärder med hänvisning till att bokläsandet har minskat<br />

på en del håll, om behovet av undervisning i skolan i dialekter och attitydförändrande<br />

insatser avseende dialekter, om stärkandet av minoritetsspråken och teckenspråket, om<br />

vikten av att svenskan inte trängs undan i EU – men inte ett ord om terminologi. En<br />

vänsterpartist påpekar att svenska språkets ställning inom forskning och högre<br />

utbildning har behandlats styvmoderligt i regeringens proposition, men närmare<br />

fackspråk än så kommer inte debatten. Det är på något vis symptomatiskt för den<br />

breda språkdebatten i Sverige i dag: man talar gärna om språkets estetiska sida och<br />

ofta ligger debatten på en övergripande nivå, till exempel svenskan i EU och i<br />

forskning och högre utbildning. Många talar om risken för domänförlust och om<br />

vikten av den semantiska interoperabiliteten i samband med utvecklingen av eförvaltningen<br />

– men nästan ingen utanför TNC kommer in på vilka konkreta<br />

handlingar som behövs för att undvika domänförlust – eller uppnå domänvinster – och<br />

för att möjliggöra en semantisk interoperabilitet. Som slagord fungerar ändå<br />

domänförlust och semantisk interoperabilitet, närmare precisering behövs inte.<br />

Det återstår alltså en del arbete för att konkretisera paragraf 12. Fortfarande är det<br />

en viktig pedagogisk uppgift för oss terminologer att ständigt missionera, förklara,<br />

argumentera och visa exempel på när terminologiarbete behövs i samhället. Mycken<br />

okunskap råder alltjämt om terminologiarbetets natur och syfte, därför ”glöms” ofta<br />

paragraf 12 bort när språklagen debatteras bland politiker, språkfolk och journalister.<br />

Men i och med lagen och paragraf 12 ha r TNC fått en ny bas att utgå ifrån i sin<br />

pedagogiska uppgift; myndigheterna kan inte längre blunda utan måste se till att de<br />

ägnar terminologifrågorna viss uppmärksamhet. En ny uppgift – och utmaning – för<br />

TNC blir att verka för att paragrafen efterlevs.<br />

Vilka är myndigheterna och hur bör de ta sitt<br />

terminologiska ansvar?<br />

Beroende på hur man definierar ”myndighet” kan antalet svenska myndigheter<br />

variera. Som högst brukar man räkna att Sverige har cirka 300 m yndigheter. I den<br />

vidaste definitionen inräknas också universitet bland myndigheter. Då uppstår förstås<br />

frågan om vilket som är ”deras olika fackområden”. Universitetsadministration, kurs-<br />

NORDTERM 2009, København 9.-12. juni 2009 114


och studieplanering i den högre utbildningen, är naturligtvis ett fackområde, men<br />

universiteten arbetar ju inom ett stort antal fackområden via sin undervisning och det<br />

finns många fackområden som det undervisas i på många universitet. Hur ska man<br />

göra här?<br />

TNC har den uppfattningen att det ska bildas termgrupper bestående av ett nätverk<br />

med representanter för olika universitet, privata företag och myndigheter när det är<br />

relevant. Termgruppsmodellen fungerar bra för sådant här fortlöpande terminologiarbete<br />

som berör många olika organisationer. I Sverige finns redan Svenska<br />

datatermgruppen, Svenska biotermgruppen och Svenska optiktermgruppen. Flera<br />

liknande termgrupper kan behöva bildas nu. För ett sådant här terminologiarbete kan<br />

definitionerna i Rikstermbanken vara både ett bra underlag och fungera som en<br />

katalysator för själva arbetet.<br />

Lagens efterlevnad<br />

Språklagen är en ramlag vilket betyder att den ger riktlinjer. Det finns andra lagar<br />

som också säger något om språk och språkbehandling och dessa ”tar då över”<br />

språklagen. Till exempel säger minoritetsspråklagarna att enskilda har rätt att i s ina<br />

kontakter med förvaltningsmyndigheter och domstolar använda samiska, finska och<br />

meänkieli.<br />

Det är också en skyldighetslag vilket betyder att det allmänna har vissa skyldigheter<br />

när det gäller språket i samhället.<br />

Språkrådet, sedan 2007 en statlig myndighet, kommer att ha uppgiften att<br />

kontrollera hur lagens intentioner uppfylls och de har av den anledningen för 2010 fått<br />

ett utökat statligt bidrag. I sin förberedande planering räknar man inom Språkrådet<br />

med att uppgiften kan bestå i att göra stickprov och titta på myndigheternas utåtriktade<br />

texter. Är texterna skrivna på ett vårdat, enkelt och begripligt språk? Språkrådet<br />

kommer att titta på vilka universitet och högskolor som har uttalade principer för<br />

språkval, och hur dessa ser ut. Hur många engelskspråkiga doktorsavhandlingar som<br />

skrivs i Sverige har en sammanfattning på svenska? Hur ser situationen ut vad gäller<br />

tolkning och översättning till svenska inom EUs organ? Hur många grundskoleelever<br />

går i friskolor med engelska som undervisningsspråk, hur utvecklas dessa elevers<br />

svenskkunskaper? Språkrådet kommer också att behöva välja vilken eller vilka<br />

paragrafer man ska fokusera på under en viss period. Enligt uppgifter från Språkrådet<br />

kommer man att börja med att undersöka hur det ser ut med undervisning på engelska<br />

på universiteten.<br />

När det gäller paragraf 12 är TNC och Språkrådet överens om att TNC har en viktig<br />

roll när det gäller att se hur den paragrafen efterlevs. Det innebär, som vi ser det, att<br />

TNC har ansvaret för att redovisa hur det står till med det offentliga terminologiska<br />

landskapet. Det bör förstås också vara TNC som genom särskilda uppdrag på olika sätt<br />

stöttar myndigheterna i deras terminologiarbete. Det är viktigt att alla myndigheter lär<br />

sig samma metoder för sitt terminologiarbete, och poängen med det är att få ett<br />

kvalitativt bättre och mer enhetligt resultat tvärs över alla myndigheter. Vi vill också<br />

starkt understryka att man ska satsa resurser på själva terminologiarbetet och inte på<br />

att bygga några interna IT-verktyg för publicering av resultatet, till det finns nu<br />

NORDTERM 2009, København 9.-12. juni 2009 115


Rikstermbanken – där kan alla terminologiska ordlistor samlas och göras lätt<br />

tillgängliga för alla, vilket enkelt realiserar en del av ansvaret i paragraf 12.<br />

Trots att många myndigheter, de flesta, inte har terminologer anställda eller någon<br />

terminologisk samordningsfunktion, har ändå många ordlistor på sina webbplatser.<br />

Syftet med dessa ordlistor är inte alltid att effektivisera kommunikationen internt. De<br />

är snarare avsedda att vara till stöd för medborgarna när de besöker myndighetens<br />

webbplats; myndigheten förklarar där några för verksamheten centrala termer. På<br />

Åklagarmyndigheten förklaras till exempel vad en ”åklagare” är, medan Ekonomistyrningsverket<br />

förklarar vad ”ekonomisk styrning” är. Ordlistorna, som sägs ge<br />

förenklade och korta förklaringar, är avsedda både för en intresserad allmänhet och för<br />

dem som arbetar med ämnesinriktade frågor. Ofta är det myndigheternas<br />

informationsavdelningar som utarbetat ordlistorna.<br />

Dessa ordlistor är av skiftande kvalitet, kanske bland annat därför att de har en bred<br />

målgrupp. Dessutom är de många gånger ett engångsarbete, det vill säga de uppdateras<br />

inte regelbundet, och de kan i många avseenden vara ofullständiga.<br />

Sammanfattningsvis kan man säga om förutsättningarna för efterlevnaden av<br />

paragraf 12: Vi på TNC tror att det är bra att Rikstermbanken kom först och språklagen<br />

sedan. Rikstermbanken har redan visat sig fungera som en katalysator och den<br />

har väckt den terminologiska medvetenheten på många håll. Rikstermbanken kan<br />

därför bana väg för utbyggnaden av myndighetsinterna terminologisamordningsfunktioner.<br />

Utmaningar<br />

TNC ser en rad utmaningar för verksamheten om paragraf 12 s ka få den verkan<br />

som lagen avser. Vilka är då utmaningarna förutom att konkretisera paragrafens<br />

innehåll i tänkbara åtgärdssteg? Här kommer några av de viktigaste:<br />

1. Eftersom terminologikompetens är en bristvara i Sverige måste TNC medverka till att<br />

alla som ska arbeta med terminologi inom myndigheterna får en grundläggande<br />

utbildning i terminologiarbetets metoder och principer. Vi måste utbilda och sälja<br />

terminologisk kompetens, men vi får inte göra oss själva överflödiga!<br />

2. Vi måste också sälja in att våra tjänster behövs även efter det att myndigheten<br />

utbildat egna terminologer. Varför? Jo, TNC måste alltid ha en bredare erfarenhet<br />

och en djupare kompetens, vi måste ha en bättre överblick än de enskilda<br />

myndigheterna. Vi måste fortsätta att vara bäst på att bedöma kvaliteten i de<br />

enskilda myndigheternas terminologiarbete och kunna ställa krav på kvaliteten<br />

eftersom terminologierna ska komma in i Rikstermbanken som TNC förvaltar.<br />

3. Vi bör börja tala om ”terminologisk konsekvensanalys” i våra kontakter med<br />

myndigheterna. Visa med tydliga exempel vilken roll terminologin spelar i alla<br />

dokument och vad som kan hända om man inte har överblick, samordning eller<br />

ordning och reda. Vidare bör beslut fattas på goda terminologiska grunder.<br />

4. Vi måste klargöra förhållandet mellan att göra ordlistor på webben som ska vara till<br />

stöd för allmänheten och ordlistor som syftar till att effektivisera kommunikationen<br />

internt. I det sammanhanget måste vi också tala om klarspråksarbetet, som har fått<br />

NORDTERM 2009, København 9.-12. juni 2009 116


stor framgång på många myndigheter, och dess förhållningssätt till terminologi.<br />

Klarspråksarbete uppfattas ibland som en motsättning till terminologiarbete men vi<br />

menar att man måste framhålla att de båda arbetssätten kompletterar varandra.<br />

5. Vi måste framhålla att terminologi är betydelsefullt för svenskans ställning och<br />

användning i EU. När myndigheterna ska hjälpa EU:s översättare är det viktigt att de<br />

angriper ”översättningen” av termer med terminologiska metoder.<br />

6. Vi måste få universiteten, forskning och högre utbildning att förstå att de inte kan få<br />

till en parallellspråkighet eller sammanfattningar på svenska på avhandlingar om de<br />

inte också investerar i ett terminologiarbete.<br />

7. Just nu är även Sverige drabbat av den finansiella krisen. TNC har fått besked från<br />

både Näringsdepartementet och Kulturdepartementet om att de måste ha en viss<br />

återhållsamhet när det gäller finansiering av termgrupper eller förvaltning och drift<br />

av Rikstermbanken. Även hos myndigheterna själva finns en återhållsamhet just nu,<br />

många har anställningsstopp och man anlitar utomstående konsulter i mindre<br />

utsträckning än annars. Frågan är då om man anser att man kan sätta igång med<br />

terminologiarbete? Vår utmaning blir att visa att det kan vara mycket lämpligt att<br />

satsa på ett sådant infrastrukturellt arbete just i ekonomiskt svåra tider, eftersom det<br />

är en bra förberedelse till de bättre tiderna.<br />

8. Vi måste, oavsett finanskris eller inte, utveckla kringtjänster som ger oss stöd för<br />

driften av Rikstermbanken. Och vi har börjat planera för sådana.<br />

9. Sist men inte minst: Vi måste ständigt, ständigt arbeta för att höja den<br />

terminologiska medvetenheten i samhället ett par nivåer.<br />

Terminologisk medvetenhet<br />

Avslutningsvis vill jag med ett citat visa hur sådan terminologisk medvetenhet som<br />

TNC efterlyser kan se ut. Det är hämtat ur ett förord till en terminologisk ordlista som<br />

görs inom Dietisternas Riksförbund. Arbetet sker helt ideellt och med stor entusiasm<br />

bland förbundets medlemmar. De motiverar varför de arbetar med sin terminologi så<br />

här, något som fler borde kunna skriva under på:<br />

- Terminologin ska ligga till grund för ett gemensamt fackspråk för dietister.<br />

- Terminologin ska förbättra, underlätta och standardisera dokumentation och<br />

utvärdering av behandlingen.<br />

- Terminologin ska underlätta kvalitetsarbete, t.ex. utveckling av standarder, riktlinjer,<br />

behandlingsplaner och kvalitetsregister.<br />

- Terminologin ska underlätta forskning genom ett väl definierat fackspråk.<br />

- Terminologin ska tydliggöra dietistens yrkesroll. 2<br />

ReferensER<br />

Bucher, A.-L. (2007). Terminology work the Swedish way. In Terminologija 14. Vilnius: Lietuvių<br />

2 Dietisternas Riksförbund, 2009<br />

NORDTERM 2009, København 9.-12. juni 2009 117


kalbos institutas, ss. 37–48, ISSN 1392-267X<br />

Bucher, A.-L. (2008). Terminologiepolitik und Terminologieinfrastruktur in Schweden, In: eDITion,<br />

Ausgabe 2/2008, Deutscher Terminologie-Tag e.V. (DTT): Heidelberg, ss. 21–24, ISSN 1862-023X<br />

Bilaga: Språklagen<br />

Lagens innehåll och syfte<br />

1 § I denna lag finns bestämmelser om svenska språket, de nationella<br />

minoritetsspråken och det svenska teckenspråket. Lagen innehåller även bestämmelser<br />

om det allmännas ansvar för att den enskilde ges tillgång till s pråk samt om<br />

språkanvändning i offentlig verksamhet och i internationella sammanhang.<br />

2 § Syftet med lagen är att ange svenskans och andra språks ställning och användning i<br />

det svenska samhället. Lagen syftar också till att värna svenskan och den språkliga<br />

mångfalden i Sverige samt den enskildes tillgång till språk.<br />

3 § Om en annan lag eller en förordning innehåller någon bestämmelse som avviker<br />

från denna lag, gäller den bestämmelsen.<br />

Svenska språket<br />

4 § Svenska är huvudspråk i Sverige.<br />

5 § S om huvudspråk är svenskan samhällets gemensamma språk, som alla som är<br />

bosatta i S verige ska ha tillgång till och som ska kunna användas inom alla<br />

samhällsområden.<br />

6 § Det allmänna har ett särskilt ansvar för att svenskan används och utvecklas.<br />

De nationella minoritetsspråken<br />

7 § D e nationella minoritetsspråken är finska, jiddisch, meänkieli, romani chib och<br />

samiska.<br />

8 § Det allmänna har ett särskilt ansvar för att skydda och främja de nationella<br />

minoritetsspråken.<br />

Det svenska teckenspråket<br />

NORDTERM 2009, København 9.-12. juni 2009 118


9 § Det allmänna har ett särskilt ansvar för att skydda och främja det svenska<br />

teckenspråket.<br />

Språkanvändningen i offentlig verksamhet<br />

10 § S pråket i domstolar, förvaltningsmyndigheter och andra organ som fullgör<br />

uppgifter i offentlig verksamhet är svenska. I annan lag finns särskilda bestämmelser<br />

om rätt att använda nationella minoritetsspråk och annat nordiskt språk. När det gäller<br />

skyldigheten för domstolar och förvaltningsmyndigheter att anlita tolk och att<br />

översätta handlingar finns det särskilda bestämmelser.<br />

11 § Språket i offentlig verksamhet ska vara vårdat, enkelt och begripligt.<br />

12 § Myndigheter har ett särskilt ansvar för att svensk terminologi inom deras olika<br />

fackområden finns tillgänglig, används och utvecklas.<br />

Svenskan i internationella sammanhang<br />

13 § Svenska är Sveriges officiella språk i internationella sammanhang.<br />

Svenskans ställning som officiellt språk i Europeiska unionen ska värnas.<br />

Den enskildes tillgång till språk<br />

14 § Var och en som är bosatt i Sverige ska ges möjlighet att lära sig, utveckla och<br />

använda svenska. Därutöver ska<br />

1. den som tillhör en nationell minoritet ges möjlighet att lära sig, utveckla och<br />

använda minoritetsspråket, och<br />

2. den som är döv eller hörselskadad och den som av andra skäl har behov av<br />

teckenspråk ges möjlighet att lära sig, utveckla och använda det svenska<br />

teckenspråket. Den som har ett annat modersmål än de språk som anges i första<br />

stycket ska ges möjlighet att utveckla och använda sitt modersmål.<br />

15 § Det allmänna ansvarar för att den enskilde ges tillgång till språk enligt 14 §.<br />

NORDTERM 2009, København 9.-12. juni 2009 119


Koll på innehåll igen:<br />

Vad har kommit med i Rikstermbanken?<br />

Claudia Dobrina a och Henrik Nilsson b<br />

a Terminologicentrum TNC, Västra vägen 7 B, SE-169 61 Solna, Sverige,<br />

+46 8 446 66 07, claudia.dobrina@tnc.se<br />

b Terminologicentrum TNC, Västra vägen 7 B, SE-169 61 Solna, Sverige,<br />

+46 8 446 66 10, henrik.nilsson@tnc.se<br />

Abstract. Rikstermbanken öppnades på webben den 19 mars 2009. Rikstermbankens användare<br />

får tillgång till termer och begrepp från ett stort antal ämnesområden: ekonomi och teknik,<br />

juridik och humaniora. I Rikstermbanken finns till största delen termer på svenska, men också<br />

termer på flera av Sveriges minoritetsspråk och på andra språk, bland annat på engelska, franska,<br />

danska, norska, finska och ryska – i nuläget drygt 20 språk. I vårt föredrag under Nordterm 2007<br />

diskuterade vi våra ambitioner för innehållet i Rikstermbanken: det skulle vara omfattande,<br />

representativt, varierande, tillförlitligt och av god terminologisk kvalitet. I detta uppföljningsföredrag<br />

kommer vi att berätta om och hur våra ambitioner har förverkligats, om våra<br />

erfarenheter av arbetet med insamlingen och bearbetningen av olika typer av terminologiska<br />

data, om åtgärder (även automatiska) för kvalitetshöjning av materialet, och om kontakter med<br />

dem som levererat material. Frågor om aktualisering och revidering av termposter som finns i<br />

Rikstermbanken kommer också att beröras. Avslutningsvis kommer vi även att redovisa<br />

mottagandet av Rikstermbanken i Sverige och våra visioner för att utveckla termbanken vidare.<br />

FRÅN VISIONER TILL VERKLIGHETEN<br />

I vårt föredrag vid Nordterm ’07 1 tog vi upp en del krav som innehållet i vår (då)<br />

framtida Rikstermbanken skulle uppfylla: Rikstermbankens innehåll skulle vara<br />

omfattande, representativt, varierande, tillförlitligt, av god terminologisk kvalitet och<br />

upphovsrättsligt oklanderligt. Två år och många arbetstimmar senare är det dags för<br />

den första avstämningen: har vi lyckats? För att besvara vår första fråga tar vi en<br />

ögonblicksbild på Rikstermbankens innehåll denna oktoberdag 2009.<br />

Omfattande?<br />

Kan Rikstermbanken med sina 60 000 termposter och 250 000 termer på ett tjugotal<br />

språk beskrivas som omfattande? Frågan beror förstås på vad man jämför med, men<br />

svaret är nog: knappast. Å andra sidan befinner vi oss bara i början och inget (förutom<br />

förstås tid, pengar och eventuellt upphovsrättsliga frågor) hindrar att det blir fler och<br />

fler.<br />

1 Dobrina & Nilsson, 2007<br />

NORDTERM 2009, København 9.-12. juni 2009 120


Representativt?<br />

Med ”representativt” menade vi att det skulle finnas termer från de mest centrala<br />

fackområdena samt från områden av intresse för stora användargrupper. I<br />

Rikstermbanken finns nu begrepp inom bland annat ekonomi och juridik, energi och<br />

bygg, jordbruk och medicin och miljö. Under resans gång har vi dock kommit fram till<br />

insikten hur värdefull information från smala fackområden kan vara. Just på grund av<br />

deras relativa snävhet är de oftast svårtillgängliga. Vi hoppas att terminologisamlingar<br />

från områden som musiketnologi, osttillverkning och anordning av lotterier hittar sina<br />

– och nya – användare tack vare Rikstermbanken.<br />

Varierat?<br />

Detta krav innebär att materialet i Rikstermbanken ska:<br />

1) täcka ett brett spektrum av terminologiska resurser – från renodlade<br />

terminologiska ordlistor till termdatabaser, ontologier och tesaurusar<br />

2) komma från olika leverantörer<br />

3) innehålla relevant terminologisk information på ett stort antal språk.<br />

1) Än så länge är alla källor i Rikstermbanken ordlistor, om än av olika slag:<br />

ordlistor utarbetade enligt terminologins alla regler, ordlistor som bara innehåller<br />

termer och deras ekvivalenter på olika språk, webbordlistor med endast några begrepp<br />

förklarade och gamla hederliga pappersalster (som följaktligen behövde skannas). Vad<br />

gäller andra typer av terminologiska resurser som vi hoppades på (ontologier,<br />

taxonomier m.m.) hör de fortfarande till visionerna …<br />

2) Drömmen om många och olika leverantörer har gått i uppfyllelse:<br />

300 terminologisamlingar från ett 100-tal leverantörer från Sverige och andra nordiska<br />

länder – myndigheter, företag, stiftelser, föreningar och privatpersoner – har lagts in i<br />

Rikstermbanken. Ytterligare en variationsfaktor är namnen på de terminologisamlingar<br />

som levererats: ”Ordlista”, ”Begreppslista”, ”Centrala definitioner”,<br />

”Teoretiska definitioner”, ”Några begrepp”, ”Viktiga begrepp”, ”Ordförklaringar”,<br />

”Vad betyder alla ord?” osv. Denna variation, kombinerad med det faktum att<br />

funktionaliteten hos många sökfunktioner på webbplatser, hör till det som faktiskt<br />

försvårat urvalsarbetet till Rikstermbanken. I varje söksystem måste man nämligen<br />

använda en uppsättning av ”metatermer” för att hitta fram till intressant material, och<br />

det finns fortfarande en stor risk att man missar intressant material.<br />

3) Mångspråkigheten har inte heller blivit lidande: termer på 20 språk finns<br />

representerade. Hur många språk som finns med i varje termpost varierar med de olika<br />

källorna – från enbart svenska upp till ett tiotal andra språk. Utgångspunkten i Rikstermbanken<br />

har varit att beskriva den svenska begreppsvärlden, och i varje termpost<br />

finns antingen termer på svenska eller på något av Sveriges minoritetsspråk (finska,<br />

meänkieli, romani chib, samiska och yiddisch).<br />

NORDTERM 2009, København 9.-12. juni 2009 121


Tillförlitligt?<br />

Detta tål att diskuteras gång på gång. Med erfarenhet av drygt 300 bearbetade<br />

källor tycker vi att det viktigaste när det gäller en ordlistas tillförlitlighet är<br />

kompetensen hos upphovsmännen. Och med kompetensen menar vi i första hand<br />

fackområdeskompetensen men också den terminologiska kompetensen. Fackområdeskompetens<br />

har funnits hos många leverantörer och ett typiskt exempel är Regelsamling<br />

för byggande från Boverket som utarbetats av experter inom byggområdet. Med den<br />

terminologiska kompetensen verkar det ibland ha varit mer problematiskt – det visar<br />

sig i den ibland varierande terminologiska kvaliteten i de levererade samlingarna. Men<br />

eftersom allt som kommit in i Rikstermbanken har genomgått en terminologisk<br />

kontroll och bearbetats (mer om det nedan) kan man om, än med visst förbehåll, bocka<br />

av även detta krav.<br />

För att ytterligare hjälpa användaren i tillförlitlighetsbedömningen av<br />

Rikstermbanken har dessutom en förhållandevis stor mängd metadata inkluderats för<br />

varje källa. Dessutom har (i möjligaste mån) en länk tillbaka till originalkällan lagts in<br />

vilket gör att en användare själv kan gå tillbaka och jämföra med originalet. En risk<br />

för dubbellagring och misstämning mellan material som finns lagrat på två ställen<br />

föreligger alltid när man inte arbetar med en distribuerad databaslösning; TNCs<br />

lösning på detta är ett påminnelsesystem där varje leverantör uppmanas och<br />

regelbundet påminns att meddela eventuella ändringar i material till Rikstermbankens<br />

sekretariat 2 . Detta är också ett sätt att öka tillförlitligheten till en viss källa – och<br />

förstås till Rikstermbanken som helhet.<br />

Av god terminologisk kvalitet?<br />

God terminologisk kvalitet är som bekant resultatet av idogt arbete. Dessutom<br />

krävs en hög terminologisk medvetenhet och en bred terminologisk kompetens när en<br />

ordlista ska utarbetas. Så var inte alltid fallet med alla de ordlistor som levererades.<br />

Det saknades ibland definitioner, och det som kallades för definitioner var inte riktigt<br />

det en terminolog skulle kalla definition. Följaktligen krävs det fortfarande mycket<br />

arbete med att höja den terminologiska medvetenheten och många utbildningsinsatser<br />

för att detta krav på sikt ska kunna uppfyllas. Å andra sidan utgör de samlingar som<br />

utarbetats av fackexperter tillsammans med terminologer (t.ex. TNCs egna<br />

terminologiska ordlistor) en stor del av materialet – och de håller måttet.<br />

Upphovsrättsligt oklanderligt?<br />

Detta har vi sett till genom att bara importera material som vi fått tillåtelse att lägga<br />

in liksom även i någon mån det som kan anses vara ”fritt” material (visst<br />

myndighetsmaterial). I det brev som skickats ut till svenska myndigheter med en<br />

förfrågan om deras material har vi bland annat tryckt på det EU-direktiv 3 som uppmuntrar<br />

till vidareanvändning av offentlig information. Vi lyckades också få tillstånd<br />

2<br />

Allt arbete med Rikstermbanken har bedrivits av en projektgrupp som bestod av några TNCs terminologer. Nu efter lanseringen<br />

har vi skapat en särskild enhet inom TNC som har ansvaret för det fortsatta arbetet – Rikstermbankssekretariatet.<br />

3<br />

Europaparlamentets och rådets direktiv 2003/98/EG av den 17 november 2003 om vidareutnyttjande av information från den<br />

offentliga sektorn<br />

NORDTERM 2009, København 9.-12. juni 2009 122


från förlag för några publicerade samlingar. I de enstaka fall detta inte var möjligt fick<br />

vi avstå från att ta med det materialet.<br />

PÅ ANDRA SIDAN SÖKGRÄNSNITTET<br />

FIGUR 1. Rikstermbankens sökgränssnitt (för enkel sökning).<br />

I Rikstermbanken finns tre huvudtyper av terminologisamlingar: terminologiska<br />

ordlistor från TNC (drygt 40 ordlistor) och TSK i Finland, ett stort antal terminologier<br />

från olika myndigheter och organisationer i Sverige samt ett urval termer och<br />

definitioner ur lagtexter, föreskrifter och Statens offentliga utredningar (SOU).<br />

TNCs och TSKs ordlistor är resultatet av ett mångårigt samarbete mellan<br />

terminologer och experter inom olika fackområden, som tillsammans använt<br />

beprövade terminologiska metoder och principer i sitt arbete. I dessa samlingar fanns i<br />

de flesta fall begreppsbeskrivningar i form av definitioner och kompletterande<br />

information (anmärkningar) samt ekvivalenter på flera språk. Till exempel har TNC:s<br />

geologiska ordlista svenska termer, definitioner, anmärkningar samt ekvivalenter på<br />

åtta språk. TSKs Mobilordlista har termer, definitioner och anmärkningar på svenska,<br />

finska och engelska.<br />

Det material som hämtades från andra organisationer visade en mycket större<br />

variation vad gäller terminologisk kvalitet samt mängd och typer av information i<br />

termposterna. I Svensk-engelsk ordlista från Migrationsverket innehåller termposten<br />

bara den svenska termen och dess engelska ekvivalent. I Läkemedelsverkets Svenska<br />

definitioner av läkemedelsformer finns både terminologiskt korrekta definitioner och<br />

beskrivningar som ger en viss information om begreppet utan att avgränsa det mot<br />

relaterade begrepp. Majoriteten av materialet hade tidigare publicerats på webbplatser,<br />

men det finns också exempel på material som publicerats i bokform. Materialet från de<br />

svenska termgrupperna utgör ett annat välkommet inslag i Rikstermbanken, det<br />

handlar ju om aktuella begrepp inom deras respektive områden.<br />

Termerna och definitionerna ur Svensk författningssamling (SFS), föreskrifter och<br />

Statens offentliga utredningar (SOU) ger en inblick i hur juridiska definitioner<br />

utformas. Dessa är inte alltid uppbyggda enligt samma principer som terminologiska<br />

definitioner och är i många fall nära knutna till sina respektive dokument. I de fall<br />

NORDTERM 2009, København 9.-12. juni 2009 123


denna koppling varit alltför tydlig, och när den terminologiska kvaliteten varit för låg,<br />

har dessa inte tagits med (se vidare nedan).<br />

VÄGEN IN I RIKSTERMBANKEN<br />

Nu kommer vi att titta närmare på både de utmaningar som arbetet med att<br />

förbereda denna brokiga samling av terminologiskt material för import i en och<br />

samma termbank medfört, och på de lösningar som vi hitintills kommit fram till. Det<br />

handlar om urval, bedömningar och bearbetningar som till exempel omformatering<br />

(vilket bland annat innefattar borttagning av ”bokmässiga” aspekter), kompletteringar,<br />

språkliga och faktamässiga justeringar, men också om automatisk importkontroll – ett<br />

verktyg som varit en stor hjälp i bearbetningen.<br />

VAL AV LEVERANTÖRER<br />

En första fråga blev vem vi skulle kontakta och om vilket material. Lyckligtvis hade<br />

TNC genom sitt tidigare arbete inom infrastrukturprogrammet TISS 4 undersökt vilka<br />

terminologiska samlingar som finns bland olika organisationer. Dock krävdes ändå en<br />

hel del detektivarbete, inte minst vad gäller ordlistor som inte är publicerade som<br />

separata dokument utan som ingår som bilagor i till exempel rapporter och andra<br />

dokument.<br />

När det gäller själva uppsökandet av material generellt uppstår också andra frågor,<br />

relaterade till aspekter som representativitet och balans: Vilken av alla kommunordlistor<br />

ska man välja: alla eller någon viss, och i så fall, varför just den framför en<br />

annan? Bör man fråga alla banker som har ordlistor eller kan man nöja sig med vissa?<br />

Är det till exempel önskvärt att arbetsrelaterade ordlistor från både arbetsgivar- och<br />

arbetstagarorganisationer tas med eftersom detta kan påverka hur definitioner<br />

formuleras? osv. Svaret blir olika i de olika fallen, och kriterier som kvalitet och<br />

aktualitet har förstås varit viktiga.<br />

BEDÖMNING OCH URVAL<br />

Den första preliminära bedömningen av materialet gjordes utifrån de krav och<br />

prioriteringar som vi diskuterade i början av artikeln, bland annat om materialet är<br />

informativt, bearbetbart, tillförlitligt, aktuellt och unikt. Dessa låg till grund för ett<br />

urval på makrostrukturnivå, även om det bör sägas att det är enklare att bedöma enligt<br />

vissa av kraven, till exempel bearbetbarhet och informationsinnehåll än de tre sistnämnda.<br />

Just ”unikheten” är den aspekt som kan förväntas bli viktigare i takt med att<br />

mängden termposter i Rikstermbanken växer; då ökar nämligen också risken att ett<br />

visst begrepp, men en snarlik definition redan finns med.<br />

För urvalet på mikrostrukturnivå gällde frågan om allt i en viss samling skulle tas<br />

med eller om något borde tas bort. Detta förutsätter naturligtvis att innehållet kan<br />

tolkas entydigt vilket dock inte alltid varit fallet. Utgångspunkten här har varit att<br />

materialet ska läggas in i sin helhet, men i vissa fall har termposter tagits bort eftersom<br />

4 TISS = terminologisk infrastruktur för Sverige. Se Nilsson, 2005.<br />

NORDTERM 2009, København 9.-12. juni 2009 124


ett visst begrepp har varit perifert i förhållande till ordlistans eller<br />

leverantörens huvudsakliga fackområde,<br />

de har varit bristfälliga på ett eller flera sätt,<br />

de har varit alltför interna och specifika, till exempel anpassade till en viss<br />

målgrupp,<br />

de har innehållit värderande formuleringar (ibland i form av smygreklam),<br />

det redan har funnits flera snarlika termposter eller termposter av högre<br />

kvalitet i Rikstermbanken.<br />

BEARBETNING<br />

Som man lätt kan ana har den största utmaningen varit att ensa och importera ett<br />

terminologiskt material som hämtats från många olika håll, ett material som utarbetats<br />

av personer med mycket varierande grad av terminologisk kompetens, ett material<br />

som producerats mellan 1940-talet och 2000-talet, ett material där många sätt att<br />

strukturera information finns representerade, ett material som täcker såväl<br />

traditionella, hårda fackområden som ”mjuka” fackområden, till exempel förvaltning<br />

och administration där variationen vad gäller både uttryck och innehåll är stor osv.<br />

Under bearbetningen var vi tvungna att hantera både teoretiska och många praktiska<br />

utmaningar. Som exempel på de första kan man nämna valet av definition eller<br />

förklaring, aktualitet kontra korrekthet, införande av termstatus och avgränsning av<br />

fackområde. Och de praktiska? Det räcker kanske med att nämna att ”bokmässiga<br />

aspekter” av samlingarna på många sätt behövde anpassas till termbanksformatet.<br />

Under de flesta av rubrikerna nedan förklaras de olika utmaningarna, men de lösningar<br />

vi kommit fram till finns också beskrivna.<br />

Även om det mesta av bearbetningen har inneburit uppdelning av materialet har<br />

även sammanslagningar av material gjorts. I de fall en viss terminologisk samling<br />

funnits på flera språk, men varit lagrad i separata filer har dessa slagits samman till en<br />

enda, flerspråkig ordlista. I sådana fall har ett ”bryggspråk”, oftast svenska, underlättat<br />

sammanslagningen.<br />

I andra existerande termbanker 5 har även termposter som innehåller olika<br />

information (till exempel termer på olika språk) om ett och samma begrepp slagits<br />

samman till en enda. Detta ställer höga krav på att det av informationen i termposterna<br />

säkert går att avgöra om det handlar om samma begrepp; detta har hittills inte<br />

genomförts i Rikstermbanken.<br />

Definition eller förklaring?<br />

Som vid all kodning av material till en termbank är det viktigt att informationen<br />

fördelas på ett lämpligt sätt mellan de fält som bestämts i termbanksstrukturen. Redan<br />

i ett tidigt skede valde vi att skilja mellan definition och förklaring, och vi införde<br />

därför ett förklaringsfält som alternativ till definitionsfältet. Följden av detta blev ett<br />

vägval mellan två möjliga typer av begreppsbeskrivningar. Enkelt uttryckt bestämdes<br />

det att i de fall en begreppsbeskrivning inte enkelt lät sig göras om till en termino-<br />

5 EuroTermbank och den iriska termbanken Focal.ie.<br />

NORDTERM 2009, København 9.-12. juni 2009 125


logiskt korrekt definition 6 har den i stället angivits som förklaring. Felber skriver: ”If,<br />

for some reason or other, it is not possible to give a precise or complete definition, at<br />

least an approximate one should be given instead (explanation)” 7 . Vad kan det då vara<br />

som gör att det är svårt att klassa och koda något som en definition? Det kan till<br />

exempel handla om att definitionen inleds med uttryck av typen ”Med X avses”, att<br />

informationen är alltför generellt uttryckt för att kunna kallas definition eller att det<br />

saknas särskiljande kännetecken. Med tiden utvecklades också en viss praxis i fall där<br />

valet mellan definition och förklaring är diskuterbart; så kallade ”samlingsdefinitioner”<br />

8 , dvs. definitioner som inleds med ”sammanfattande benämning på” och<br />

liknande formuleringar, har kodats som förklaringar.<br />

Aktualitet korrekthet<br />

Vi anser att en rikstermbank bör representera de ingående källorna så väl som<br />

möjligt, och i viss mån även redovisa termer som inte längre används. Samtidigt måste<br />

en användare tydligt få veta vilken terminologi som är aktuell vid en viss tidpunkt. I<br />

nuläget signalerar sekretariatet en avvikelse från den ursprungliga källan med hakparenteser<br />

i termposten:<br />

svensk term: friggebod<br />

definition: mindre byggnad (på högst 10 kvadratmeter) [sedan 2008: 15<br />

kvadratmeter] som hör till ett småhus och som får byggas utan<br />

bygglov<br />

Denna typ av markering har även tillämpats för andra faktaändringar, till exempel<br />

Ceylon [numer Sri Lanka]” och för metaupplysningar av typen ”som uppfyller kraven<br />

i SS 84 21 08 (ISO 1496/3) [upphävd].” Detta system har dock nackdelar och kommer<br />

på sikt att ändras till ett särskilt kommentarfält på termpostnivå där sådan information<br />

i stället kan ges.<br />

Ett särskilt problem uppstår när en ordlista i Rikstermbanken innehåller termer som<br />

inte längre används och de nyare termerna ännu inte finns med. När den nyare termen<br />

inte finns med kan en ”uppehållande” kommentar anges på det sätt som angetts ovan.<br />

Exempel: I TNCs ordlista för arbetslivsinrikad rehabilitering (från 1995) används<br />

termen ”förtroendeläkare” som i dag ersatts av termen ”försäkringsläkare” inom<br />

Försäkringskassan. Försäkringskassan har dock ännu inte levererat material till<br />

Rikstermbanken och följaktligen går det inte att göra en korsreferens till en sådan<br />

termpost. I stället kan ett tillägg av typen ”[OBSERVERA: Informationen i den här<br />

termposten är föråldrad. Numer används termen ”försäkringsläkare” av Försäkringskassan.]”<br />

vara ett bättre alternativ än att ta bort hela termposten. Det kvarstår dock en<br />

del frågor kring aktualisering av material – ska till exempel samma upplysning in i alla<br />

termposter där ”förtroendeläkare” nämns? Och påverkas utländska ekvivalenter till<br />

”förtroendeläkare”? Ett särskilt problem gäller lagtexter; är terminologi som ingick i<br />

en tidigare lagtext som upphävts och inte finns med i den nya versionen också att anse<br />

som ”upphävd”?<br />

6<br />

Se till exempel ISO 704:2000 eller Terminologiguiden..<br />

7<br />

Felber, 1984<br />

8<br />

Se vidare Nilsson, 2009<br />

NORDTERM 2009, København 9.-12. juni 2009 126


Ett liknande problem kan uppkomma när ett material innehåller termer som av<br />

svenska termgrupper eller liknande (Svenska Läkaresällskapet, Svenska datatermgruppen,<br />

Svenska biotermgruppen och Svenska optiktermgruppen) anses mindre<br />

lämpliga; till exempel kan en kommentar av typen ”[OBSERVERA: Svenska<br />

datatermgruppen rekommenderar” eller ”Svenska Läkaresällskapet rekommenderar<br />

stavning med]” läggas till.<br />

Termval<br />

Om det i originalmaterialet fanns flera termer som benämner ett visst begrepp kan<br />

en fråga uppstå vilken av dessa som ska anges som den första. Enligt<br />

Terminologiguiden kan bara en av dessa anges som rekommenderad term, och en<br />

sådan presenteras i Rikstermbanken överst och andra (tillåtna termer) därunder. Vad<br />

gäller statusangivelse för de termer som ingår i en termpost används i Rikstermbanken<br />

statusbeteckningarna ”rekommenderad”, ”accepterad” (synonym) och ”avrådd” (som<br />

dessutom markeras grafiskt med överstrykning). Detta vållade inga problem när<br />

termstatusangivelserna fanns i det ursprungliga materialet, vilket oftast var fallet för<br />

TNCs egna ordlistor. För andra samlingar hade man inte alltid tydligt angivit vilken<br />

term som föredrogs och vi har i sådana fall försökt tillämpa ”sedvanliga” termkriterier<br />

(genomsynlighet, språkekonomi, etableringsgrad etc.) så som de beskrivs i ISO 704<br />

för att välja vilken term som ska placeras överst. Då anges inte heller uttryckligen<br />

”rekommenderad” i presentationen av termposten utan den tolkningen stöds endast av<br />

placeringen. Överlag har också tydligare, längre former valts framför kortformer.<br />

Jargongliknande termer, till exempel ”biträde” i Rättshjälpmyndighetens ordlista har<br />

placerats under den tydligare termen ”rättshjälpsbiträde”.<br />

Från ”bok” till termbank: korsreferenser, delar av termer,<br />

homonymi och polysemi<br />

Trots att den stora majoriteten av det material som matats in i Rikstermbanken<br />

utgörs av ordlistor i digital form som (oftast) varit publicerade på webben, har många<br />

av dessa behållit drag av traditionella, tryckta ordlistor. Just den detaljen hade kanske<br />

inte spelat så stor roll om det hade varit upphovsmännen själva som hade matat in sin<br />

ordlista i termbanken; i nuläget ledde det dock till en del problem. I många webbordlistor<br />

finns till exempel ofta ett stort antal termposter som endast består av en<br />

hänvisning till en annan termpost: ”A, se B” (till exempel ”Depå, se Aktiedepå”) 9 . En<br />

sådan upplysning är ganska onödig om man lagrar materialet i en termbank och<br />

bygger snarare på att användaren använder webben som en bok och ”rullar sig<br />

igenom” snarare än söker efter en viss term. Problem kan uppstå när det sedan inte<br />

tydligt framgår i termposten för B varför man hänvisats dit från A. I exemplet med<br />

”depå” ges under ”aktiedepå” endast följande upplysning: ”En tjänst som banker och<br />

andra fondkommissionärer erbjuder för hantering av aktier.” Är ”depå” då att betrakta<br />

som synonym trots att detta inte nämns uttryckligen? Normalt har detta kunnat lösas,<br />

9 Aktiespararna: Ordlista<br />

NORDTERM 2009, København 9.-12. juni 2009 127


men ibland har det krävts kontakter med leverantören för att klargöra vilket<br />

förhållande som råder.<br />

I andra fall nämns det kanske något om A i förklaringen av B utan att A för den<br />

skull är en synonym. Då handlar det inte om synonymi utan om så kallade<br />

inkorporerade termer, som står för ett annat begrepp, och som man av någon<br />

anledning inte velat beskriva i en separat termpost. I de fall dessa inte gått att ”bryta<br />

ut” till en egen termpost har i stället termen angivits i ett separat fält. Detta förfarande<br />

medför att termen ifråga blir sökbar och det underlättar sökningen för användaren;<br />

hade detta inte gjorts hade användaren nämligen enbart fått träff om fritextsökning<br />

använts.<br />

Ett annat specialfall är när man låtit begreppsinformationen för en sådan<br />

inkorporerad term stå kvar i en termpost men ändå skapat en separat termpost för att<br />

där kunna återge ekvivalenterna till termen på andra språk (vilket hade varit svårt i den<br />

ursprungliga termposten). I sådana fall har en speciell typ av korsreferens skapats<br />

(med texten ”Se under”) till den termpost där begreppsinformationen finns.<br />

En annan typisk ”bokaspekt” som ofta lever kvar även i webbordlistor är<br />

användningen av parenteser för att indikera att vissa delar av termer inte är<br />

obligatoriska. Sådana ”platsbesparande former” har vi genomgående ”löst upp” och då<br />

valt att sätta den längre formen först (om inte annat indikerats i ordlistan). Ett exempel<br />

på detta är den engelska termen ”(acoustic) absorption factor” som kodades som två<br />

olika termer: ”acoustic absorption factor” och ”absorption factor”. Vissa längre uttryck<br />

som inte kunde anses utgöra fraser 10 har sönderdelats: en del har angetts i termfältet,<br />

och den andra delen (som ibland snarare kunde ses som användningsområdet)<br />

presenteras i webbgränssnittet inom parentes efter termen. Ett exempel på detta är det<br />

engelska uttrycket ”connecting box for an air terminal device” som i gränssnittet<br />

presenteras som ”connecting box (for an air terminal device)”.<br />

En annan ”bokmässig” aspekt som justerats är det i allmänna ordböcker så vanliga<br />

sättet att presentera alla betydelser under ett och samma uppslagsord. I sådana fall har<br />

vi delat upp denna information i separata termposter och givit termerna nummer (som<br />

gäller inom en och samma terminologisamling). Dessutom har dessa termposter när så<br />

varit möjligt kompletterats med angivelse om särskilt användningsområde.<br />

incidens 1. antalet fall av en viss sjukdom som uppträder i en befolkning under viss tid; anges t ex som<br />

antalet diagnoser per 1 000 invånare per år. 2. antalet av en viss studerad »händelse i en klinisk<br />

prövning eller kohortundersökning, dividerat med antalet deltagare i gruppen. Graden av skillnad<br />

mellan två gruppers incidenstal kan uttryckas genom att det ena divideras med det andra till en<br />

incidenskvot. (originalordlistan)<br />

10 Vi har också fraser som typ av benämning i Rikstermbanken.<br />

NORDTERM 2009, København 9.-12. juni 2009 128


FIGUR 2. Exempel på uppdelning i två termposter med numrerade termer (homonymer eller<br />

polysemer).<br />

Språkliga justeringar<br />

När det kommer till språkliga aspekter finns inga begränsningar vad gäller de<br />

teckenuppsättningar som används i Rikstermbanken i dag (latin, grekiska, ryska), dock<br />

ingår ännu inget material på språk som skrivs från höger till vänster. Vissa av TNCs<br />

ordlistor hade ryska termer (translittererade) och dessa har nu fått sitt kyrilliska<br />

utseende tillbaka i Rikstermbanken. Däremot har japanska termer än så länge behållits<br />

i sin translittererade11 form. Det mesta av arbetet med den språkliga anpassningen har<br />

dock gällt skrivregler och teckenrepresentation.<br />

TNC deltar i det nationella språkvårdsarbetet och bedriver naturligtvis även<br />

fackspråkvård. Innehållet i Rikstermbanken måste därför också vara oklanderligt ur<br />

fackspråkligt skrivregelsperspektiv vilket bland annat innebär att skrivregler som finns<br />

beskrivna i TNCs skrivregelssamling måste följas. Stor och liten bokstav, användningen<br />

av bindestreck, tankstreck, punkt i förkortningar är bara några exempel där<br />

justeringar behövts: till exempel ändrades Monte Carlo metoden till Monte Carlometoden<br />

och Avtalet om ursprungsregler ändrades till avtalet om ursprungsregler.<br />

Särskild möda har ägnats åt att införa Unicode-koder för diverse specialtecken<br />

(minustecken −, dimensionskryss × med flera) och index och exponenter (i kemiska<br />

formler) som förekommer i många termposter. Eventuella felstavningar har<br />

naturligtvis även korrigerats, även för andra språk. 12 Särskild kodning har införts för<br />

kursiv och fet stil.<br />

Harmonisering på alla nivåer<br />

När en terminologisk samling lämnar sin ursprungliga kontext och splittras upp i<br />

enstaka termposter måste varje definition kunna ”stå på egna ben”. Detta får olika<br />

konsekvenser: när det gäller språket har vissa ordlistor ett personaliserat tilltal som blir<br />

underligt när inte längre en viss organisation lika tydligt är avsändare till<br />

informationen (även om det förstås framgår i termpostens källa). Följaktligen har, med<br />

tillstånd från respektive organisation, ”du” (och varianter och böjningar av detta<br />

uttryckssätt) ändrats till ”man” eller passiv form. Viss information – till exempel<br />

referenser till andra dokument eller delar av dokument, interna koder etc. – har också<br />

utelämnats eftersom den inte längre blir meningsfull i Rikstermbanken. Dock har<br />

11 Enligt Kunrei-Siki.<br />

12 En genomgång av tyska termer enligt modern tysk rättstavning genomförs till exempel under hösten 2009.<br />

NORDTERM 2009, København 9.-12. juni 2009 129


elationer mellan termposter behållits om dessa uttryckts i texten språkligt eller<br />

grafiskt (till exempel genom fet eller kursiv stil).<br />

Hjälp på vägen: automatisk importkontroll<br />

Vår börda har blivit lite lättare att bära tack vare ett egenutvecklat verktyg för<br />

automatisk kontroll av det material som importeras i Rikstermbanken. Utan att<br />

fördjupa oss i den bakomliggande tekniken 13 kan vi här ge en liten fingervisning om<br />

hur det går till. Den textfil som är utgångspunkt genomsöks för inkonsekvenser och<br />

felaktiga kodningar. Resultatet av genomsökningen presenteras som fel och varningar.<br />

Felen måste korrigeras för att filen ska kunna importeras, medan varningarna kan<br />

förbises. Vanliga feltyper som avslöjas i importkontrollen är felaktiga fältkoder och<br />

homonymer utan numrering, men inte felstavning eller såklart inte fel val av fält! Av<br />

särskild hjälp är indikationen av felaktiga korsreferenser mellan termposter (vilket ofta<br />

beror på en inkonsekvent skrivning av termerna på olika ställen i ordlistan eller att<br />

vissa termposter tagits bort och korsreferensen därefter inte justerats) eftersom<br />

storleken på materialet i många fall hade gjort det nästintill omöjligt att upptäcka felet<br />

manuellt.<br />

BEARBETNINGEN I BACKSPEGELN<br />

När vi nu ser tillbaka på allt det arbete som vi faktiskt lagt ner på det material som<br />

finns i Rikstermbanken kan man konstatera att det är mångfacetterat och tids- och<br />

resurskrävande. Alla termposter har bearbetats mänskligt och maskinellt utifrån de<br />

prioriteringar och beslut som fattas under processens gång och endast vissa av dessa<br />

moment kan automatiseras med gott resultat. Nya samlingar har inneburit nya<br />

utmaningar och ibland även medfört ändringar av Rikstermbankens datamodell. Med<br />

tanke på bristen på litteratur som beskriver det praktiska arbetet med att samla och<br />

ensa brokigt terminologiskt material kan förhoppningsvis dokumentation och<br />

beskrivningar av det praktiska arbetet med termbanksinnehåll (som den här artikeln<br />

och EuroTermBanks publikationer) vara till hjälp för andra som står i begrepp att<br />

bygga upp termbanker. (Norge och Danmark har båda uttryckt intresse för en nationell<br />

termbank.)<br />

Man kan också se att många av åtgärderna som genomförts under bearbetningen på<br />

olika sätt har lett till en högre terminologisk kvalitet än vad som var fallet i det<br />

ursprungliga materialet (TNCs ordlistor utgör i denna respekt inget undantag). I flera<br />

fall har det handlat om att utnyttja den information som redan fanns i materialet men<br />

som inte använts i ordlistans struktur och presentation. De korsreferenser som angavs i<br />

originalet (till exempel genom markering med fetstil o.d.) har i Rikstermbanken<br />

omvandlats till klickbara länkar, men även i fall där originalkällan inte uttryckligen<br />

angivit detta har sådan information tillförts i möjligaste mån. På det sättet kan<br />

materialet utnyttjas till fullo och förutsättningar för fördjupade kunskaper om<br />

begreppssamband ges.<br />

13 Se vidare Svanberg i denna volym.<br />

NORDTERM 2009, København 9.-12. juni 2009 130


Vi har i vissa fall även tillfört annan information i termposter för att ytterligare<br />

tydliggöra begreppet eller ge upplysningar om termen. Exempel på sådana tillägg är<br />

information om särskilt användningsområde, ordklass, böjning och uttal.<br />

VISIONER<br />

Rikstermbanken har lanserats och blir alltmer känd, använd, uppskattad och använd<br />

som referens. Det återstår dock en hel del att göra och vår slogan ”Alla termer på ett<br />

ställe” kommer att kräva mycket tid och resurser både från Rikstermbankssekretariatet<br />

och från alla som i framtiden kommer att försörja Rikstermbanken med material. Vi<br />

hoppas att den blir hela Sveriges angelägenhet – och för att komma dit behöver den<br />

ha:<br />

ökad omfattning och variation,<br />

ökad interaktivitet,<br />

ständig aktualisering,<br />

högre användaranpassning, bland annat genom flera sökalternativ och genom<br />

integrering med andra programvaror (Word, översättningsminnen),<br />

bredare ändamålsanpassning: Rikstermbanken ska inte bara användas för<br />

sökning utan också för lagring (arkivering av terminologi), för forskning och<br />

undervisning,<br />

kontinuerligt finansiellt stöd.<br />

Förhoppningsvis kan Rikstermbanken på ett generellt plan vara ett föredome och<br />

bli en angelägenhet även för andra utanför Sveriges gränser; på ett mer konkret plan<br />

kan detta åstadkommas genom att samsökningar med andra termbanker (IATE,<br />

EuroTermBank) möjliggörs eller genom att den inkorporeras i andras söksystem (till<br />

exempel söksystemet Quest inom EU).<br />

När det gäller andra typer av terminologiskt material är visionen att förutom<br />

ordlistor av alla slag även lägga in andra typer av terminologiskt relevant material<br />

(ontologier, taxonomier etc.).<br />

En tanke som påverkat det urval och de bearbetningar som beskrivits ovan är att<br />

Rikstermbanken i början befinner sig i en presentationsfas, dvs. de termposter som<br />

finns inom olika områden presenteras – och finns det flera för ett visst begrepp inom<br />

ett visst fackområde så presenteras de ”bredvid” varandra. Tanken är på sikt att denna<br />

fas kan övergå i en konsolideringsfas där vissa termposter kan ensas och en gemensam<br />

definition utvecklas som flera organisationer kan enas kring. Då har den verkligen<br />

blivit den viktiga komponenten i en nationell terminologisk infrastruktur 14 den är tänkt<br />

att vara.<br />

REFERENCER<br />

Dobrina C., Nilsson H. (2007). Koll på innehåll. Vad ska in i en nationell termbank? In NORDTERM 15<br />

Kunnskap og fagkommunikasjon. Oslo, ss.69–75.<br />

14 Se vidare Bucher i denna volym.<br />

NORDTERM 2009, København 9.-12. juni 2009 131


EuroTermBank Consortium (2006). Towards consolidation of European Terminology Resources.<br />

Experience and Recommendations from EuroTermBank Project. Tilde: Riga<br />

Felber, H. (1984). Terminology Manual. Unesco: Infoterm.<br />

ISO 704:2000 Terminology work – Principles and methods.<br />

Nilsson, H. (2005). TISS & IATE. Svensk terminologisk infrastruktur och svensk rikstermbank. I:<br />

Nordterm 14: Ord og termer. (Reykjavík, Island, 9.–11. juni 2005). Reykjavík.<br />

Nilsson, H. (2009). The realisation of a national term bank – how and why? (under publicering).<br />

Suonuuti, H. (2004). Terminologiguiden: en introduktion till terminologiarbete i teori och praktik.<br />

Solna: Terminologicentrum TNC.<br />

NORDTERM 2009, København 9.-12. juni 2009 132


Från Termdok på cd-rom till Rikstermbanken<br />

Peter Svanberg a<br />

a<br />

Terminologicentrum TNC, Västra vägen 7 B, SE-169 61 Solna, Sverige,<br />

+46 8 446 66 15, peter.svanberg@tnc.se<br />

Abstract. Sveriges nationella termbank, Rikstermbanken, öppnades den 19 mars 2009 på<br />

webben. Vilka utmaningar stod TNC inför när terminologiska data skulle bli allmänt tillgängliga<br />

och lätt sökbara via en söktjänst på webben? Vad kunde användas av de tekniska lösningarna<br />

från utvecklingen av Termdok på cd-rom och vad nytt behövde göras för Rikstermbankens<br />

behov? Här ges inblickar i uppbyggnaden av programvaran, databasstrukturen, gränssnitet och i<br />

hanteringen av befintliga termpostdata.<br />

Hur det börjadE<br />

Den ursprungliga planen för Rikstermbanken var att använda programvaran i EUtermbanken<br />

IATE (http://iate.europa.eu/). Det ansågs som en bra lösning – den var<br />

redan utvecklad och TNC hade i ett särskilt projekt (finansierat av statliga Vinnova)<br />

testat programvaran och funnit den användbar för våra behov, efter vissa anpassningar.<br />

Men vidare efterforskningar visade att drift av IATE förutsatte innehav och drift även<br />

av databasprogrammet Oracle, vilket skulle bli mycket dyrt för det förhållandevis lilla<br />

system vi tänkte oss. Vi planerade att driva det själva på TNC, men med oklar framtida<br />

finansiering. Ett annat problem var att ägarskapet för IATE var oklart, vilket ledde<br />

till att det var svårt att få besked om huruvida vi skulle få använda programmet.<br />

Samtidigt fick vi tips om att det fanns en programmerare i Stockholm som arbetat med<br />

IATE-programvaran. Allt detta ledde till att vi beslutade att inleda egen utveckling av<br />

programvara för Rikstermbanken.<br />

TNC och NTRF<br />

En central fråga i utvecklingsarbetet var hur vi skulle arbeta med terminologiska data<br />

– vilket format skulle användas och hur skulle data redigeras?<br />

NTRF, Nordic Terminological Record Format (Hjulstad 1999), är ett termpostformat<br />

som utvecklades i ett samarbete mellan Nordiska terminologer under 1980talet,<br />

främst för att förenkla produktion av tryckta ordlistor. Det florerar olika ”dialekter”<br />

av detta format men grundprinciperna är desamma. Data lagras i enkla textfiler<br />

(dvs. utan någon formatering) och redigeras med ordbehandlingsprogram, normalt<br />

Microsoft Word. Exempel:<br />

KL XXX klassifikation<br />

svTE konvexform term<br />

NORDTERM 2009, København 9.-12. juni 2009 133


svAVTE hanform avrådd term<br />

svAVTE patris<br />

svDF formhalva med upphöjda arbetsytor definition<br />

svRETE konkavform länk till relaterad termpost<br />

enTE positive mould term på engelska<br />

enSYTE male mould<br />

frTE moule positif term på franska<br />

GNGR m grammatisk information<br />

frSYTE poinçon<br />

GNGR m<br />

noTE konveks formdel term på norska<br />

noSYTE positiv form<br />

Varje fält hör till en viss hierarkisk nivå, som påverkar fältvärdets giltighet, se tabell 1.<br />

Ett fält på termnivå måste komma efter – kopplas till – det språknivåfält som det knyts<br />

till. Regler finns för vilka termnivåfält som får knytas till vilka språknivåfält.<br />

TABELL 1 . Nivåer för fält i NTRF.<br />

Nivå Giltighet Exempel<br />

postnivå hela termposten KL – klassifikation av termpostens begrepp<br />

språknivå för ett visst språk svTE, svSYTE, svDF – term, synonym term resp.<br />

definition på svenska<br />

termnivå för ett visst fält som tillhör<br />

språknivån<br />

GNGR – genus för en viss term<br />

Med dagens utvecklingsnivå inom datahantering framstår NTRF-formatet och användning<br />

av MS Word for redigeringen som gammalmodigt och ineffektivt. Om man<br />

skulle utarbeta en termdatahantering idag skulle man troligen välja en XML-lösning,<br />

använda XML-editorer för redigeringen och XSLT för att extrahera data på olika sätt.<br />

Men nu var NTRF det lagringsformat som TNC-terminologer var vana vid att hantera<br />

och som allt TNC:s termdatamaterial var lagrat med. För Rikstermbanken krävdes<br />

följaktligen att program måste utvecklas för att tolka NTRF-data. Detta gjorde att vi<br />

valde att använda NTRF som importformat för Rikstermbanksdata.<br />

Under utvecklingen och utprovningen av NTRF-tolkningen insåg vi successivt:<br />

• Detta att data matas in i MS Word utan några automatiska kontroller medför att<br />

olika typer av fel uppstår i NTRF-filer:<br />

◦ syntaxfel (felstavad kod, uteblivna eller oavsiktliga radbyten)<br />

◦ logiska fel (fel ordning på koderna)<br />

◦ referensfel (felstavad referens eller referens till borttagen termpost)<br />

NORDTERM 2009, København 9.-12. juni 2009 134


• Strikt specifikation av regler saknades – data har lagrats på lite olika sätt under<br />

olika tidsperioder och av olika personer<br />

Detta fick konsekvenserna att en tydlig specifikation gjordes, som kompletterades<br />

efterhand, och att vi implementerade en omfattande importkontroll i systemet (se<br />

nedan).<br />

DATAMODELLEN<br />

Nästa fråga i utvecklingen var vilken datamodell som skulle användas i Rikstermbankens<br />

databas, dvs. vad som skulle lagras om varje termpost. Här valde vi att utgå<br />

från IATE:s hierarkiska datamodell (vilken i sin tur ungefär överensstämmer med ISO<br />

16642). Dess grundstruktur överensstämmer med strukturen i NTRF, så mappningen<br />

mellan NTRF och denna datamodell var till stora delar självklar. Men för vissa data<br />

krävdes en mer strikt specifikation av vad som ska lagras, och hur.<br />

Vi klargjorde också vissa implicita tolkningar. Ett exempel på detta var uppdelningen<br />

mellan term och synonym. Det finns en kod (TE) för term och en för synonym<br />

(SYTE). Men är det säkert en skillnad mellan dessa – är termen alltid den som rekommenderas,<br />

medan synonymer är mindre lämpliga och ska användas med försiktighet?<br />

Vi kom fram till att det bara är för vissa av de ordlistor där TNC medverkat som vi<br />

kan vara säkra på att en sådan uppdelning medvetet gjorts, och då bara för termerna på<br />

svenska. Detta ledde till att vi för varje ordlista måste ange hur dessa koder ska tolkas.<br />

En annan tolkningsupplysning vi insåg behövdes var hur ordklassinformation var<br />

kodad. Oftast var bara ordklass angiven för en term då den – för en läsare med viss<br />

erfarenhet av språket – inte var självklar. Men i vissa källor finns ordklassdata för alla<br />

termer.<br />

Att TNCs ordlistdata innehöll i vissa ordlistor ofullständiga termposter. I anmärkningen<br />

till en termpost om begreppet A nämns ibland termer för ett annat begrepp B. I<br />

de fall då man haft termer på andra språk för B har man gjort en termpost för B som<br />

saknar definition men som hänvisar till A (”se under”). Detta hanteras i Rikstermbankens<br />

datamodell med en riktad relation mer information finns i från termposten för<br />

B till termposten för A. I andra fall har bara existensen av termen för B markerats i Atermposten<br />

(kod UPTE, uppslagsterm). Detta hanteras med ett fält ”inkorporerad<br />

term” i vår datamodell.<br />

Förutom ovan nämnda tolkningsinformation krävdes förstås även att rena<br />

bibliografiska data om varje källa angavs: titel, utgivningsår, utgivare osv. Även en<br />

kortfattad bakgrund till och viktiga upplysningar om källan lagrades.<br />

Vad gäller tecken används genomgående teckenkoden Unicode.<br />

IMPORT TIL RIKSTERMBANKEN<br />

Import till Rikstermbanken sker via ett webbgränssnitt där en noggrann kontroll av<br />

indata görs: syntax och regler måste följas, korsreferenser kontrolleras. Dessutom görs<br />

försök att upptäcka och varna för vanliga fel, såsom glömda radbyten. Denna<br />

hantering har medfört en avsevärd kvalitetsförbättring: Många misstag i ordlistdata har<br />

upptäckts och rättats.<br />

NORDTERM 2009, København 9.-12. juni 2009 135


GRÄNSSNITTET<br />

Rikstermbankens gränssnitt ägnade vi mycket tid åt att utarbeta. Att Rikstermbanken skulle<br />

finnas gratis tillgänglig för alla på webben var ju en ny situation för en termbank: Det var inte<br />

längre bara vi själva eller särskilt intresserade och terminologiskt kunniga som skulle använda<br />

den och tolka termdata utan vem som helst kunde hamna på vår webbplats. Det ställde höga<br />

krav på gränssnittet – det måste vara mycket enkelt att förstå.<br />

Den enkla sökningen, som man ser direkt på ingångssidan – hur skulle den utformas?<br />

Det finns många fördelar med att källspråket är känt när man gör sökning i en<br />

termbank: användaren slipper onödiga träffar, vissa förutsättningar om böjningsmönster<br />

kan göras, etc. Men hur utformar man ett enkelt gränssnitt med en språkangivelse<br />

så att alla förstår att man syftar på källspråket (och inte målspråket)? Vi kom fram till<br />

att det inte går – risken för missförstånd blir stor hur man än gör. Dessutom bedömde<br />

vi att nackdelarna med att komplicera det enkla gränssnittet var allvarligare än<br />

nackdelarna med att källspråk inte är känt. Däremot kostade vi på oss att möjliggöra<br />

ett val mellan sökning bara i termer respektive sökning även i andra fält. Se figur 1.<br />

FIGUR 1. Rikstermbankens ingångssida, med gränssnitet för enkel sökning.<br />

Hur träfflistan skulle presenteras var en annan stötesten. Traditionell visning i form<br />

av en tabell kändes omodernt, svårläst och platsineffektivt. Istället valde vi en presentation<br />

med en några raders sammanfattande visning av det viktigaste om varje träff –<br />

ungefär som i Google. Definition eller förklaring visas alltid (ev. avkortat om den är<br />

lång) men termer på andra språk visas inte. Tanken med detta är att användaren snabbt<br />

ska hitta rätt termpost, och sedan lockas att titta på hela termposten, för att få all<br />

information. Den sökta texten framhävs i träfflistan (med mörkare bakgrund) så att det<br />

är lätt att se var man fick träff i termposten. Vad som presenteras om varje termpost i<br />

träfflistan styrs av var matchningen skedde. Först i träfflistvisningen står alltid den<br />

svenska termen, men om det blev träff i en term på ett annat språk visas den termen<br />

NORDTERM 2009, København 9.-12. juni 2009 136


också. Anmärknings- och exempelfälten visas bara om sökmatchningen endast var i<br />

det fältet.<br />

Sorteringen av träfflistan är noga genomtänkt: Termposterna i träfflistan sorteras<br />

efter bl.a. följande kriterier och nivåer 1<br />

:<br />

1. efter matchande språk – svenska först, sedan engelska, tyska, franska osv.<br />

2. efter plats – alla träffar där termen matchar först, därefter träffar i andra fält<br />

3. efter matchningens exakthet – träff på hela termen först, därefter träff på ett<br />

ord i en flerordsterm<br />

4. efter källas ålder – nyaste källor först<br />

Effekten av detta blir att först kommer alla träffar där träffen var på svenska, därefter<br />

de på engelska osv. Inom alla sådana delmängder (t.ex. träffar på svenska) kommer<br />

först alla träffar med matchning i termen, därefter de med matchning i andra fält. Inom<br />

varje sådan delmängd (t.ex. träffar i termen bland träffar på svenska) kommer först …<br />

Så fortsätter det för varje nivå. Se exempel i figur 2.<br />

PROGRAMMERINGSARBETET<br />

Programutvecklingsarbetet har utförts av en TNC-anställd (jag själv) och inhyrda programmerare<br />

från en konsultbyrå. Vi har använt öppen och fri programteknik: servletmotorn<br />

Apache Tomcat, sökmotorn Lucene, databashanteraren Mysql, programspråket<br />

Java, Javaprogramramverket Appfuse m.m. Utvecklingen har i stor utsträckning skett<br />

iterativt, dvs. genom successiva små förbättringar. Projektadministrationen har skötts<br />

via en webbtjänst.<br />

1 Med sortering i nivåer i menas att vid avgörande av ordningen mellan två objekt används först kriteriet för nivå 1. Bara om det<br />

inte räckte för att avgöra ordningen används kriteriet för nivå 2 osv.<br />

NORDTERM 2009, København 9.-12. juni 2009 137


FIGUR 2. Exempel på träfflista vid sökning efter investering i alla textfält.<br />

NORDTERM 2009, København 9.-12. juni 2009 138


VISIONER<br />

Självklart har vi önskemål och visioner för framtida utveckling av Rikstermbanken. Här följer<br />

några:<br />

• Stabila webbadresser (URL:er): Det finns flera som uttryckt önskemål att i<br />

dokument vill länka från en term i den egna texten till dess termpost i<br />

Rikstermbanken. För tillfället är det olämpligt, eftersom adresser in till en<br />

termpost inte är stabila – de kan ändras när vi ändrar i databasen. Vi tycker det<br />

är intressant med sådana länkar och ska försöka lösa detta problem.<br />

• Andra typer av sökning: Indexlista; på källkategori; expertsökning<br />

• Anpassning till användning på små skärmar – avancerade mobiltelefoner<br />

• Gränssnitt på andra språk<br />

• Möjlighet att göra en särskild ingång för organisationer, så att<br />

Rikstermbanken kan avlasta organisationen från arbetet att publicera materialet<br />

på egna webbplatser.<br />

• Hantering av begreppssystem och begreppsdiagram.<br />

• Exporthantering till TBX, Excel etc.<br />

• Dubblettkontroll/sammanslagning av termposter à la Eurotermbank<br />

ReferensER<br />

Hjulstad H., Eckmann, C. B. (1999). Nordic Terminological Record Format, Rådet för teknisk<br />

terminologi. <br />

ISO (2003). ISO 16642:2003, Computer applications in terminology -- Terminological markup framework.<br />

NORDTERM 2009, København 9.-12. juni 2009 139


Domænemodellering som grundlag for<br />

terminologier og ontologier:<br />

afgrænsningsproblemet<br />

Birthe Toft<br />

Insitut for Fagsprog, Kommunikation og Informationsvidenskab<br />

Syddansk Universitet<br />

Engstien 1<br />

DK-6000 Kolding<br />

Abstract. <strong>Indlæg</strong>get omhandler hvordan et sæt grundlæggende ontologiske og epistemiske<br />

kategorier, udviklet af I. Dahlberg til brug for et universelt klassifikationssystem, ICC, kan<br />

bruges som udgangspunkt for en checkliste med generelle, grundlæggende spørgsmål til et givet<br />

domæne. Det påvises gennem eksempler, at besvarelse af spørgsmålene kan understøtte såvel<br />

den første afgrænsning af et domæne som den indledende begrebsmodellering. Da visse<br />

grundlæggende epistemiske kategorier som tid og sted ikke er relevante i forbindelse med især<br />

rent abstrakte domæner, anbefales det her at supplere med såkaldte kognitive metaforiske<br />

modeller, som antages at kunne kombineres med de øvrige kategorier.<br />

Dette indlæg er en videreførelse af mit indlæg på TKE-konferencen i København i august<br />

2008 (Toft 2008), hvor jeg gjorde et første forsøg på at opstille nogle generelle retningslinjer<br />

for afgrænsning og indledende modellering af domæner i forbindelse med terminologiske og<br />

ontologiske projekter.<br />

Jeg mener dengang at have påvist, at det er muligt at opstille sådanne generelle - og derfor<br />

nødvendigvis meget overordnede - retningslinjer. I dette indlæg har jeg inddraget yderligere<br />

to eksempeldomæner, og jeg har justeret og udbygget retningslinjerne. Desuden har jeg<br />

kombineret dem med kognitive metaforiske modeller, en fremgangsmåde som især viser sig<br />

at være relevant i de tilfælde, hvor det på grund af domænets natur ikke er muligt at<br />

anvende de grundlæggende dimensioner tid, sted og position til afgrænsning og indledende<br />

modellering.<br />

En domænemodel omfatter normalt en funktionel og en strukturel del, hvoraf sidstnævnte<br />

svarer til en terminologisk begrebsmodel. Jeg mener at mine retningslinjer, i kraft af deres<br />

meget generelle karakter, har betydning for begge modellens dele.<br />

NORDTERM 2009, København 9.-12. juni 2009 140


DE PRÆSENTEREDE PROJEKTER OG DOMÆNER<br />

TABEL 1. I tabellen præsenteres de fire domæner, jeg bruger som eksempler, plus de projekter som<br />

modelleringen af de enkelte domæner indgår i.<br />

Domæne Projekt: formål med modelleringen<br />

arkitektur<br />

historie<br />

ernæring<br />

økonomi<br />

web-portal til arkitekturinteresserede borgere<br />

etablering af virtuelt museum om den dansk/tyske grænseregions<br />

historie<br />

oprettelse af forbruger-webportal med ernæringsråd<br />

etablering af termbase/vidensformidling (undervisning)<br />

Domænemodelleringens indledende faser<br />

I litteraturen om domænemodellering lægges der som regel stor vægt på vigtigheden af at<br />

fastlægge et projekts purpose (formål) og scope (’omfang’, ’rækkevidde’ eller<br />

’dækningsområde’). De to beslutninger har naturligvis afgørende betydning for hele<br />

processen og for resultatet.<br />

Jeg har valgt at inddele den indledende domænemodellering i to faser, hvoraf den første<br />

består i indledende afgræsning og ’chunking’ (dvs. grovinddeling), der til dels falder sammen<br />

med fastlæggelse af purpose og scope, medens den anden udgøres af den indledende<br />

begrebsmæssige modellering. Det er ikke muligt at skelne skarpt mellem de to faser.<br />

NORDTERM 2009, København 9.-12. juni 2009 141


Hverken i den terminologiske litteratur eller i litteraturen om vidensmodellering og<br />

ontologier finder man egentlige praktiske råd om, hvordan man tager de første skridt i<br />

domænemodelleringsprocessen. Felber og Budin (1989:222) beskriver for eksempel<br />

afgrænsningsprocessen forud for terminologisk behandling af et fagområde på denne måde:<br />

- afgræns fagområdet (det er ikke tilstrækkeligt at navngive det)<br />

- beskriv fagområdets omfang ved hjælp af så mange underinddelinger som muligt<br />

- undersøg anvendeligheden af eksisterende klassifikationer og systematisk ordnede<br />

indholdsfortegnelser i fagbøger<br />

Kun det sidste råd har vist sig at være brugbart i praksis, eksempelvis i arkitekturprojektet,<br />

hvor mine studerende og jeg foretog følgende ’chunking’ af domænet arkitektur på basis af<br />

en anbefalet lærebog (se også Bilag 1):<br />

- arkitekturhistorie<br />

- stilarter<br />

- grundlæggende teoretiske begreber<br />

- de fysiske omgivelser<br />

- oplevelse af arkitektur<br />

I økonomiske lærebøger bruges ofte nedenstående inddeling af faget. I højre side har jeg<br />

angivet, hvordan de enkelte dele af inddelingen kan hjælpe til at udføre indledende<br />

afgrænsning og ’chunking’:<br />

- Hvad er økonomi?<br />

o det økonomiske problem Afgrænsning i f.t.<br />

o økonomi som socialvidenskab andre videnskaber<br />

- mikroøkonomi<br />

o prissystemet<br />

o forbrug, produktion og omkostninger<br />

o markeder og prisfastsættelse<br />

o faktorprissættelse og indkomstfordeling ’Chunking’<br />

- makroøkonomi<br />

o nationalindkomst og finanspolitik<br />

o penge, bankvæsen og pengepolitik<br />

NORDTERM 2009, København 9.-12. juni 2009 142


Den teoretiske baggrund for retningslinjerne<br />

De retningslinjer, jeg foreslår, hviler som beskrevet i Toft 2008 på et systemisk og<br />

evolutionært videnskabsteoretisk fundament (Budin 1996, Vollmer 1983). Den direkte<br />

inspiration stammer fra Information Coding Classification (ICC), et universelt klassifikations-<br />

og vidensstruktureringsystem til brug for hele Informations- og Dokumentationsområdet, der<br />

blev udviklet af Ingetraut Dahlberg i 1970erne og 1980erne. I Dahlberg 1978 beskrives det,<br />

hvordan ICC direkte bygger på Feiblemans teori om virkeligheden som et gigantisk niveaudelt<br />

system af integrerede systemer (objektområder) samt dertil svarende videnskabelige<br />

discipliner (Feibleman 1965).<br />

Dahlberg byggede ICC på 9 generelle værenskategorier (ontiske kategorier), der kunne<br />

kombineres med 9 generelle formkategorier (epistemiske kategorier). Begge typer af<br />

kategorier er opdelt i hovedgrupper.<br />

Værenskategorierne tager udgangspunkt i virkeligheden som niveaudelt, integreret system,<br />

hvor graden af kompleksitet er stigende fra det nederste til det øverste niveau. I Tabel 2, der<br />

er udarbejdet på grundlag af Dahlberg 1982, er rækkefølgen dog af en eller anden grund den<br />

omvendte, således at gruppen af mest komplekse virkelighedsfænomener befinder sig<br />

nederst.<br />

TABEL 2. Generelle værenskategorier (baseret på Dahlberg 1982)<br />

I: stof og struktur 1. rene former og strukturer<br />

2. energi og stof<br />

3. jorden og rummet<br />

II: levende væsener 4. biologiske entiteter<br />

5. mennesker<br />

6. samfund<br />

III: artefakter 7. materielle produkter skabt af menneske eller samfund<br />

NORDTERM 2009, København 9.-12. juni 2009 143


8. intellektuelle produkter skabt af menneske eller samfund<br />

9. kulturelle og åndelige produkter skabt af menneske eller<br />

samfund<br />

Formkategorierne (Tabel 3) repræsenterer en udbygning af Aristoteles’ kategorier, men<br />

modsat listen over værenskategorierne er de mest grundlæggende kategorier her anført<br />

nederst.<br />

TABEL 3. Generelle formkategorier (baseret på Dahlberg 1982)<br />

I: objekttyper 1. principper<br />

2. materielle objekter<br />

3. abstrakte objekter<br />

II: attributter 4. mængde<br />

5. egenskab<br />

6. relation<br />

III: aktiviteter 7. tilstand<br />

8. proces<br />

9. operation<br />

IV: dimensioner 10. sted<br />

11. position<br />

12. tid<br />

Menneskelig erkendelse og vidensskabelse består i følge Dahlberg i kombination af værens- og<br />

formkategorier, for eksempel ved at værenskategorien 6 (samfund) bestemmes og beskrives<br />

NORDTERM 2009, København 9.-12. juni 2009 144


ved hjælp af formkategorierne 1 (abstrakt objekt) og 7 (tilstand). Bestemmelse og beskrivelse<br />

foregår naturligvis iterativt, hvilket vil sige, at eksisterende kombinationer af værens- og<br />

formkategorier indgår i nye kombinationer.<br />

Dahlberg beskriver den ramme, inden for hvilken kombination af værens- og formkategorier<br />

finder sted i ICC, som en ‘sequence of facets’ eller en ’systematifier’, der blandt andet muliggør<br />

systematisering af emne- og vidensområder gennem en bestemt rækkefølge af kombinationer<br />

af værens- og formkategorier (Dahlberg 1982: 88). I tabel 4 vises et lille uddrag af ICC-tabellen<br />

over emneområder, som bygger på denne ramme.<br />

TABEL 4. Udsnit af ICC – subject groups according to general entity areas (baseret på Dahlberg 1982)<br />

VÆRENSKATEGORIER FACETTER<br />

PRINCIP AKTIVITET RELATION<br />

form og struktur logik statistik ...<br />

energi og stof mekanik teknisk fysik kemi<br />

mennesker human biologi patologi og medicin psykologi<br />

samfund sociologi offentlig administration samfundsplanlægning<br />

materielle produkter økonomi teknologi generelt transport og service<br />

Retningslinjer i form af checkspørgsmål<br />

Inspireret af Dahlbergs ’systematifier’ har jeg udarbejdet en liste over checkspørgsmål til det<br />

enkelte domæne, baseret på værens- og formkategorierne i ICC. Spørgsmålene stilles i den<br />

indledende fase af domænemodelleringen.<br />

TABEL 5. Liste over checkspørgsmål<br />

NORDTERM 2009, København 9.-12. juni 2009 145


1. Inden for hvilke værensområder skal viden modelleres?<br />

2. Hvilken grundlæggende dimension (tid, sted, position) er vigtigst?<br />

3. Hvordan kan dimensionerne bruges i fase 1 og 2 af vidensmodelleringen?<br />

4. Hvilke andre formkategorier har betydning for afgrænsning og ’chunking’?<br />

5. Spiller svarene på spørgsmål 1 – 4 ind på den indledende begrebsmodellering?<br />

Jeg mener, at svarene på disse spørgsmål bidrager til at klargøre nogle basale egenskaber ved<br />

domænet, og at de samtidig muliggør endelig afgrænsning samt letter den indledende<br />

’chunking’ og begrebsmodellering. Checkspørgsmålene giver således svar på spørgsmål som<br />

- hvilke ’virkelighedsniveauer’ skal modelleres, og hvilke kan følgelig udelades?<br />

- kan de grundlæggende dimensioner anvendes som parametre for afgrænsning og<br />

modellering, og i bekræftende fald hvilke?<br />

- hvilke andre formkategorier er i fokus, og hvilke kan der ses bort fra?<br />

Eksempler på besvarelse af checkspørgsmålene<br />

Den følgende gennemgang af de svar, jeg for de fire valgte domæners vedkommende har givet<br />

på de 5 checkspørgsmål, giver anledning til nogle generelle kommentarer.<br />

NORDTERM 2009, København 9.-12. juni 2009 146


TABEL 6. Besvarelse af checkspørgsmål for domænet arkitektur. Formål: Web-portal til<br />

arkitekturinteresserede borgere<br />

SPØRGSMÅL SVAR<br />

1 Inden for hvilke værensområder skal viden<br />

modelleres?<br />

2 Hvilken grundlæggende dimension (tid, position, sted)<br />

er vigtigst?<br />

8 intellektuelle produkter<br />

9 kulturelle og åndelige<br />

produkter<br />

tid; sted og position kan<br />

derimod spille en større rolle i<br />

andre arkitekturprojekter<br />

3 Hvordan kan dimensionerne bruges i fase 1 og 2? tid bruges som grundlæggende<br />

afgrænsnings- og modelleringsparameter;<br />

overlapper til dels<br />

med ’stilarter’ (abstrakt objekt)<br />

4 Hvilke andre formkategorier har betydning for<br />

afgrænsning og ’chunking’?<br />

5 Spiller svarene på 1 – 4 ind på den indledende<br />

begrebsmodellering?<br />

3 abstrakte objekter (stilarter)<br />

8 processer (historisk udvikling)<br />

(deldomænet ’konkrete<br />

bygningsværker’ udelades)<br />

kategorierne ’perioder,’<br />

’stilarter’ og ’grundlæggende<br />

arkitektoniske begreber’<br />

underinddeles og forbindes så<br />

vidt muligt<br />

Kommentarer: Domænet egner sig fortrinligt til afgrænsning og modellering ved hjælp af de to<br />

grundlæggende dimensioner tid og sted. Valget af tidsdimensionen som den basale i netop<br />

dette projekt har afgørende betydning for afgrænsning og indledende modellering.<br />

Muligheden for at se bort fra visse formkategorier bidrager ligeledes til at lette afgrænsning og<br />

modellering.<br />

Nedenstående ses de studerendes skitse til domænemodel, udarbejdet i mind map-værktøjet<br />

Freemind.<br />

NORDTERM 2009, København 9.-12. juni 2009 147


NORDTERM 2009, København 9.-12. juni 2009 148


TABEL 7. Besvarelse af checkspørgsmål for domænet den dansk/tyske grænseregions historie. Formål:<br />

etablering af virtuelt museum<br />

SPØRGSMÅL SVAR<br />

1 Inden for hvilke værensområder skal viden<br />

modelleres?<br />

2 Hvilken grundlæggende dimension (tid, position, sted)<br />

er vigtigst?<br />

5 mennesker<br />

6 samfund<br />

7 materielle produkter<br />

8 intellektuelle produkter<br />

9 kulturelle og åndelige<br />

produkter<br />

tid; derefter sted og position<br />

3 Hvordan kan dimensionerne bruges i fase 1 og 2? grundlæggende afgrænsning<br />

sker på basis af periode (1830 –<br />

2000) og region (Nord- og<br />

Sydslesvig)<br />

4 Hvilke andre formkategorier har betydning for<br />

afgrænsning og ’chunking’?<br />

5 Spiller svarene på 1 – 4 ind på den indledende<br />

begrebsmodellering?<br />

næsten alle formkategorier<br />

involveret – derfor har de ringe<br />

betydning<br />

prioritering mellem<br />

værensområderne 6 (samfund)<br />

og 5 (mennesker) påvirker<br />

begrebsmodelleringen<br />

definitionen af begrebet<br />

’periode’ (granularitet, national<br />

synsvinkel) har stor betydning<br />

for modelleringen<br />

Kommentarer: projektet er afsluttet, og resultatet kan ses på nedenstående adresse 1<br />

.<br />

Checkspørgsmålene er således ikke blevet anvendt i praksis i dette projekt, men<br />

1<br />

http://www.vimu.info/general_01.jsp?lang=da&u=general&flash=true&s=B04FA8A033E6AA97CA9A<br />

NORDTERM 2009, København 9.-12. juni 2009 149


tankeeksperimentet har været meget nyttigt. Især viser det tydeligt, hvor grundlæggende<br />

dimensionerne tid og sted er, og hvor nyttige de er som parametre for afgrænsning og<br />

chunking i mange projekter, omend langt fra i alle, som det ses af de to sidste domæner.<br />

I det aktuelle projekt har det inden for dimensionen tid været vigtigt – og vanskeligt – at<br />

definere begrebet ’periode’, idet perioder både kan være rent numeriske og dermed objektive<br />

fænomener (f.eks. perioden 1910-1920) og kulturelt eller nationalt definerede fænomener<br />

som f.eks. perioden ’den tyske besættelse af Danmark 1940 - 45’, der formentlig ikke vil spille<br />

nogen rolle set fra et tysk historisk synspunkt.<br />

TABEL 8. Besvarelse af checkspørgsmål for domænet basisernæring. Formål: Web-portal om ernæring<br />

SPØRGSMÅL SVAR<br />

1 Inden for hvilke værensområder skal viden<br />

modelleres?<br />

2 Hvilken grundlæggende dimension (tid, position, sted)<br />

er vigtigst?<br />

2 energi og stof<br />

8 intellektuelle produkter<br />

ingen af dimensionerne spiller<br />

nogen rolle<br />

3 Hvordan kan dimensionerne bruges i fase 1 og 2? ingen af dimensionerne kan<br />

derfor anvendes hverken til<br />

afgrænsning eller chunking<br />

4 Hvilke andre formkategorier har betydning for<br />

afgrænsning og ’chunking’?<br />

5 Spiller svarene på 1 – 4 ind på den indledende<br />

begrebsmodellering?<br />

1 principper (råd om ernæring)<br />

2 mængde<br />

5 egenskab<br />

6 relation<br />

de to relevante<br />

værenskategorier fin-inddeles,<br />

og deres egenskaber, indhold<br />

(mængde) og indbyrdes<br />

relationer klargøres. Endelig<br />

BDE2DE55F7E7. Se også Granlie og Toft (2008), der handler om projektets terminologiske og<br />

vidensmodelleringsmæssige aspekter.<br />

NORDTERM 2009, København 9.-12. juni 2009 150


forbindes de med principper i<br />

form af råd om indtag af det<br />

enkelte næringsstof / den<br />

enkelte fødevare<br />

Kommentarer: I projektet drejer det sig om at angive anbefalede mængder af næringsstoffer<br />

samt hvilke mængder af næringsstofferne, der findes i bestemte fødevarer. På den ene side<br />

har man altså brug for inddeling af fødevarer og næringsstoffer i underkategorier, på den<br />

anden side har man brug for en række anbefalinger med hensyn til, hvilke af disse<br />

næringsstoffer og dermed fødevarer, der bør indgå i en sund kost.<br />

For dette domænes vedkommende er det den klare afgræsning af værensområderne og det<br />

klare fokus på de relevante formkategorier, der er resultatet af besvarelsen af<br />

checkspørgsmålene. Domænet er samtidig et klart eksempel på, at de grundlæggende<br />

dimensioner tid og sted langtfra kan anvendes som afgrænsnings- og ’chunking’-redskaber<br />

ved alle domæner.<br />

TABEL 9. Besvarelse af checkspørgsmål for domænet økonomi. Formål: etablering af termbase samt<br />

vidensformidling<br />

SPØRGSMÅL SVAR<br />

1 Inden for hvilke værensområder skal viden<br />

modelleres?<br />

2 Hvilken grundlæggende dimension (tid, position, sted)<br />

er vigtigst?<br />

5 mennesker<br />

6 samfund<br />

7 materielle produkter<br />

8 intellektuelle produkter<br />

ingen dimension er væsentlig<br />

3 Hvordan kan dimensionerne bruges i fase 1 og 2? grundlæggende dimensioner<br />

kan dermed ikke anvendes til<br />

afgræsning eller ’chunking’<br />

4 Hvilke andre formkategorier har betydning for<br />

afgrænsning og ’chunking’?<br />

3 abstrakte objekter<br />

4 mængde<br />

NORDTERM 2009, København 9.-12. juni 2009 151


5 Spiller svarene på 1 – 4 ind på den indledende<br />

begrebsmodellering?<br />

5 egenskab<br />

6 relation<br />

7 tilstand<br />

8 proces<br />

i høj grad. Der modelleres kun<br />

abstrakte objekter, disses<br />

egenskaber og indbyrder<br />

relationer samt de tilstande og<br />

processer, de indgår i<br />

Kommentarer: Alle svarene fortæller os, hvad vi måske godt var klar over i forvejen, nemlig at<br />

vi har at gøre med et rent abstrakt domæne. Ganske vist indgår værensområderne 5 - 7,<br />

mennesker, samfund og materielle produkter, men kun i form af abstraktioner.<br />

Ligesom det var tilfældet med domænet basisernæring, spiller de to grundlæggende<br />

dimensioner tid og sted ingen rolle for hverken afgræsning eller ’chunking’, men for økonomis<br />

vedkommende er årsagen udelukkende domænets rent abstrakte natur, hvilket man<br />

formentlig ikke kan hævde om domænet basisernæring.<br />

I sidste afsnit vil jeg komme ind på, hvordan kognitive metaforiske modeller så at sige kan<br />

erstatte de to grundlæggende dimensioner som ’skelet’ for modellering af visse domæner.<br />

Brug af kognitive metaforiske modeller som supplement<br />

Ved afgrænsning og modellering af rent abstrakte domæner kan de grundlæggende<br />

dimensioner tid, sted og position som nævnt ikke anvendes som redskaber til afgrænsning og<br />

’chunking’. For nogle domæners vedkommende kan en kognitiv metaforisk model imidlertid<br />

anvendes til erstatning for dimensionerne; det gælder eksempelvis for domænet økonomisk<br />

teori.<br />

NORDTERM 2009, København 9.-12. juni 2009 152


Kognitive metaforiske modeller er et begreb der stammer fra eksperientiel kognitionsteori,<br />

hvor det antages, at erkendelse og forståelse af nye begreber forudsætter skabelse af<br />

omfattende kognitive modeller med metaforisk basis. Modellerne fungerer som rammer,<br />

inden for hvilke det er muligt at kategorisere og forstå nye vidensområder metaforisk eller<br />

analogt, idet viden overføres fra et erfaringsdomæne til et nyt.<br />

Som omtalt i Toft 2007 kan klassisk økonomiske teori betragtes som en abstraktion, der hviler<br />

på en såkaldt ’rod’-metafor eller ’rod’-analogi, nemlig analogien til markedet med dets aktører<br />

og de kræfter, der spiller ind på aktørernes beslutninger. I økonomiske lærebøger udnyttes<br />

markeds-analogien faktisk i praksis, især på grundlæggende niveauer. Det sker i form af det<br />

såkaldte økonomiske kredsløb, der bruges som visuelt redskab og som udgangspunkt for<br />

gennemgangen af økonomiske begreber.<br />

Jeg mener, at det må være muligt at ’koble’ de relevante værens- og formkategorier på den<br />

eksisterende rod-analogi til erstatning for de grundlæggende dimensioner tid og sted. Ikke blot<br />

for teoretisk økonomis vedkommende, men også for andre rent abstrakte domæners<br />

vedkommende.<br />

Alene i kraft af, at al forståelse i følge eksperientiel kognitionsteori sker via metaforisk<br />

overførsel af viden fra et erfaringsområde til et andet, vil det nærmest være naturstridigt ikke<br />

at anvende denne metode, men det er blot vigtigt, at den anvendes bevidst og konsekvent, og<br />

at man ved hjælp af checkspørgsmålene gør sig klart, hvornår den er anvendelig.<br />

REFERENCER<br />

Budin, G. (1996). Wissensorganisation und Terminologie. Die Komplexität und Dynamik<br />

wissenschaftlicher Informations- und Kommunikationsprozesse. Tübingen: Gunter Narr Verlag.<br />

Dahlberg, I. (1978). Ontical Structures and Universal Classification. Bangalore: Sarada Ranganathan<br />

Endowment for Library Science.<br />

Dahlberg, I. (1982). ICC – Information Coding Classification – Principles, Structure and Application<br />

Possibilities. International Classification 9 (1982), No. 2.<br />

Feibleman, J.K. (1965). Theory of Integrative Levels. Kyle, B. (ed.): Focus on Information. London:<br />

Aslib.<br />

Felber, H., Budin, G. (1989). Terminologie in Theorie und Praxis. Tübingen: Günter Narr Verlag.<br />

Granlie, J. & B. Toft (2008). The Virtual Museum Project – From a Knowledge Modelling and<br />

Implementation Point of View, i: K. Robering (ed.): Information Technology for the Virtual Museum;<br />

NORDTERM 2009, København 9.-12. juni 2009 153


Museology and the Semantic Web. LIT Verlag.<br />

Temmerman, R. (2000. Towards New Ways of Terminology Description; The Sociocognitive Approach.<br />

Amsterdam: John Benjamins.<br />

Toft, B. (2007). Concept formation and indeterminacy in the LSP of Economics, i: B.E. Antia (ed.):<br />

Indeterminacy in terminology and LSP. Studies in honour of Heribert Picht. John Benjamins<br />

Publishing Company.<br />

Toft, B. (2008). Initial Delimitation of Domains and Initial Conceptual Modelling: Can General<br />

Guidelines be Devised?, i: Nistrup Madsen, B., Erdman Thomsen, H. (eds.): Managing Ontologies<br />

and Lexical Resources: Proceedings of the 8th International Conference on Terminology and<br />

Knowledge Engineering, Copenhagen Business School, 19. – 20. August, 2008. København: Institut<br />

for Internationale Sprogstudier og Vidensteknologi. S. 79-87.<br />

Vollmer, G. (1983). Evolutionäre Erkenntnistheorie. Stuttgart.<br />

NORDTERM 2009, København 9.-12. juni 2009 154


Personaliseret information<br />

Emnesystematik bag kommunikation af<br />

videnskabelig information på Internettet<br />

Jørgen Burchardt<br />

seniorforsker, Nyt om Arbejdsliv, Nyborgvej 13, 5750 Ringe www.burchardt.name.<br />

Abstract. Med relativt små midler kan en emnesystematik udvikles til brug hos en videnskabelig<br />

nyhedstjeneste. Med eksempel fra Nyt om Arbejdsliv fortælles hvorledes man ”quick and dirty”<br />

kan udarbejde en emnesystematik. Den er blevet en central del af hjemmesidens systemarkitektur,<br />

hvorved mere end 100.000 personer hvert år finder oplysninger blandt nettets mange<br />

milliarder sider. En systematik er samtidig nødvendig, idet folk ikke interesserer sig for et fag,<br />

men oftest kun for et afgrænset emne.<br />

HVORFOR PERSONALISERET INFORMATION<br />

Mængden af viden er de seneste årtier nærmest eksploderet. Digitaliserede arkiver er<br />

blevet fyldt med information, og Internettet har gjort dette tilgængeligt på en fantastisk<br />

effektiv måde. Søgemaskiner kan give adgang til dette næsten uendeligt store materiale.<br />

Med få tastetryk står man med links til det materiale man ønsker. Google har i skrivende<br />

stund efterår 2009 indekseret mere end 17 milliarder sider.<br />

Som bruger kan det imidlertid godt være vanskeligt at få adgang til den ønskede<br />

information. Det var lettere i 1472, hvor størstedelen af verdens bøger fandtes på et<br />

bibliotek som Queens College med dets i alt 199 bøger. Der er nemlig et meget stort<br />

problem: Der er så store mængder, at søgeresultaterne oftest er så omfattende med så<br />

mange henvisninger, at det er blevet vanskeligt og tidskrævende at finde de rigtige<br />

oplysninger. ”Information overload” hedder fænomenet, hvor man bliver overbelastet<br />

af for mange oplysninger, så man ikke kan finde den ønskede nål i høstakken.<br />

Dette problem vil naturligt vokse, idet mængderne af information fortsat vil vokse.<br />

Problemet eksisterer ikke alene på hele nettet. Selv på hjemmesider fra<br />

informationsudbydere er mængden af information vokset således at det bliver umuligt<br />

at overskue alt materialet. På vores nyhedstjeneste Nyt om Arbejdsliv har vi mere end<br />

8.000 sider. Kun en målrettet søgning kan forhindre spild af tid.<br />

Personaliseret information er løsningen på dette ”information overload” problem.<br />

Der skal kun bringes de informationer, som jeg er interesseret i, og ikke alle de øvrige,<br />

som ville spilde min tid.<br />

NORDTERM 2009, København 9.-12. juni 2009 155


Denne måde at organisere og vise oplysninger på er ikke ny. Kunderne hos<br />

Amazon.com kender til de anbefalede bøger, som firmaet anbefaler ud fra lighed med<br />

de tidligere købte bøger. Datamining har længe været benyttet af store ressourcerige<br />

firmaer.<br />

Denne arbejdsmåde kan også benyttes af fattigere organisationer, og<br />

informationerne kan ordnes på en endnu mere kvalificeret måde, end det er tilfældet<br />

hos Amazon.com.<br />

Emnesystematik er et vigtigt redskab i opbygningen af den interne infrastruktur,<br />

hvor det ønskes, at brugerne vælger lige præcis de emner, de er interesserede i, og som<br />

de til gengæld kan blive optimalt informeret om.<br />

ERFARINGSMATERIALET<br />

Jeg vil fortælle om erfaringerne fra et tværvidenskabeligt forskningsområde om arbejdsliv,<br />

arbejdsmarked og arbejdsmiljø. Mere end 500 danske forskere er aktive på feltet både på<br />

universiteter og private forskningsinstitutioner, og deres forskning bliver i stor udstrækning<br />

gjort tilgængelig for samfundet – lægmænd som andre forskere – gennem Internetportalen<br />

”Nyt om Arbejdsliv”. En del af de samme oplysninger findes på engelsk ”Working Life Info” i<br />

en automatisk ”spejlet” udgave.<br />

En emnesystematik på dansk og engelsk med en specifik udarbejdet liste over<br />

emneord er central i den etablerede IT-platform. Alle videnskabelige produkter –<br />

artikler, anmeldelser og bøger – bliver kategoriseret sammen med tilbud om møder og<br />

konferencer. Hvert år er der omkring 168.000 såkaldte unikke besøgende, hvilket i<br />

realiteten betyder, at ca. 100.000 forskellige personer benytter denne tjeneste gennem<br />

deres mere end 250.000 besøg.<br />

Vi startede op i 2003 og kan således give erfaring fra mere end 6 år videre.<br />

Brugernes ønsker – et emne<br />

Det er brugernes ønsker, som vi må tage udgangspunkt i, når vi designer en<br />

nyhedstjeneste på nettet. Vi har naturligvis vores egne ønsker og idéer, men når vi kommer<br />

til den endelige udformning, er det brugerne, vi i stor udstrækning skal tage hensyn til.<br />

Det var et forhold, vi meget hurtigt blev klar over, da vi havde lavet de første<br />

udgaver af vores hjemmeside og efterfølgende så på hvorledes brugerne i<br />

virkeligheden udnyttede de muligheder, vi havde stillet til rådighed for dem. Det blev<br />

vist gennem alle vores undersøgelser via interviews og gruppesamtaler med brugere<br />

samt ved analyse af logfiler.<br />

Vi må konstatere, at brugerne i stor udstrækning opførte sig helt anderledes, end vi<br />

havde forventet. Vores udgangspunkt er en forening for alle forskere inden for<br />

området arbejdsliv, som dækker alle områder af ”arbejdsliv”. Det viste sig hurtigt, at<br />

brugerne ikke interesserede sig for faget som sådan, men kun for et eller få emner.<br />

NORDTERM 2009, København 9.-12. juni 2009 156


Det blev derfor naturligt for os, at tage udgangspunkt i brugernes behov, nemlig det<br />

at de ville vide noget om et begrænset emne, mens de øvrige emner på det nærmeste<br />

var irrelevante. Vores nyhedstjeneste skulle derfor gøre det muligt at levere<br />

personaliseret information.<br />

Emnefeltet arbejdsliv<br />

Vores område er ”arbejdsliv”. Det er faktisk ikke nærmere defineret, men er blevet<br />

afgrænset af de aktiviteter, som vores organisation Center for Studier i Arbejdsliv står for.<br />

Forskningsfeltet er tværfagligt, idet der er aktive forskere fra så forskellige<br />

fagområder som sociologi, psykologi, medicin, etnografi, økonomi, politologi, jura,<br />

historie samt en del yderligere fagområder. Fagets emner er således ikke udviklet<br />

inden for en enkelt videnskab, men benyttes af en række forskellige forskere fra<br />

forskellige fag. Dette gør tillige, at der ikke findes en 100 % holdbar systematik for<br />

forskerne fra alle forskningsfelter.<br />

Af praktiske årsager har vi ladet aktiviteterne i Tidsskrift for Arbejdsliv definere<br />

områdets omfang og indhold.<br />

Tidsskriftet havde eksisteret siden 1999, og der var på det tidspunkt tale om<br />

omkring 100 artikler i tidsskriftet. Hertil kom omkring 1.000 bøger, som tidsskriftets<br />

anmelderredaktion havde udvalgt til at være relevante for anmeldelse i tidsskriftet.<br />

Dette har været en pragmatisk måde til at definere feltet på. Metoden vil derfor<br />

kunne bruges til fortsat at udvikle emneordslisten i takt med at området fagligt ændrer<br />

sig.<br />

Denne quick and dirty måde at definere emneområdet på har selvfølgelig en stor<br />

fordel ved at kunne etableres på meget kort tid. Svagheden er, at den er afhængig af<br />

relativt få menneskers beslutninger, nemlig redaktionens optagelse af artikler og en<br />

enkelt anmelderredaktørs beslutning om hvilke bøger, der skal medtages på<br />

tidsskriftets anmeldelsesliste.<br />

Disse begrænsninger er dog ikke særlig alvorlige, da det netop har drejet sig om at<br />

få indekseret bidragene til tidsskriftet samt de løbende boglister. Hvis der løbende<br />

bliver justeret, vil emneordslisten til stadighed være ajour i forhold til det aktuelle<br />

behov.<br />

NORDTERM 2009, København 9.-12. juni 2009 157


FIGUR 1. Denne hjemmeside er en nyhedstjeneste, som Center for Studier i Arbejdsliv udgiver med<br />

den nyeste forskning fra områdets mere end 500 forskere. Artikler og anmeldelser fra Tidsskrift for<br />

Arbejdsliv er unikt materiale, der suppleres med nyheder om bøger og konferencer. Mere end 1.700<br />

modtager CSA’s nyhedsmail, og årligt besøges siden mere end 250.000 gange.<br />

Emneordslistens opbygning<br />

Da vi startede arbejdet, havde vi ingen erfaringer på området. Vi kunne se, at det ville<br />

være ønskeligt med en systematik på flere hundrede emneord, således at mængden ved<br />

søgning via et emneord kunne reducere resultatet til en delmængde på i gennemsnit en<br />

hundrededel eller mindre.<br />

I første omgang blev det undersøgt, om der i forvejen fandtes et bestående system,<br />

som blot kunne overtages evt. efter en simpel revision. Det viste sig desværre ikke at<br />

være tilfældet.<br />

De første systemer var systemerne fra de danske folkebiblioteker og et officielt<br />

system fra IT- og Telestyrelsen. De viste sig ikke at kunne opfylde vores krav til<br />

detaljeringsgrad. Samtidig havde de begge en form for systematik, som i hvert fald for<br />

vores system ikke ville fungere optimalt. Bibliotekernes system kunne således ikke<br />

bruges i sin helhed, men de fundne ord blev lagt i en database for efterfølgende<br />

behandling. Det officielle danske IT-væsen havde selv et ønske om at benytte<br />

NORDTERM 2009, København 9.-12. juni 2009 158


systematik til sin sagsbehandling og brug af automatisk journalisering. Vi så nærmere<br />

på systemet, men måtte konstatere, at det var alt for simpelt.<br />

Større held var der med bibliotekssystemet hos det nu nedlagte Arbetslivsinstitutets<br />

bibliotek, som dengang var Europas mest omfattende forskningsinstitution på området.<br />

Der var ikke tale om en systematik, men mange gode emneord blev samlet sammen og<br />

supplerede den oparbejdede database.<br />

Jagten fortsatte, og mange andre udenlandske systemer blev gennemgået. Et af de<br />

mest gennemarbejdede systemer var det finske Työterveyslaitos. Det havde sin<br />

begrænsning i kun at medtage en del af det emneområde, vi gerne ville dække. Til<br />

gengæld var det på mange måder et optimalt udført arbejde. Mange ord var defineret,<br />

og der fandtes samtidig et tilsvarende engelsk begreb i mange tilfælde. 1<br />

Arbejde udført fra grunden<br />

Efter det forberedende arbejde havde vi opstillet en længere liste af ord. Vi vidste dog, at<br />

hele emneområdet ikke var dækket. Nu kom vi til det tidskrævende arbejde at få listen<br />

suppleret med de manglende ord.<br />

Her valgte vi at få suppleret ved at gennemgå 1.000 bøger, artikler og konferencer.<br />

Hver enkelt blev vurderet for hvad man kunne kategorisere dem at omhandle.<br />

Af praktiske årsager var det kun muligt at kategorisere ud fra titel, undertitel samt<br />

for bøger og tidsskriftsartiklers vedkommende fra det korte resumé leveret af forfatter<br />

eller udgiver.<br />

Dette arbejde gav mange nye begreber, som ikke havde været omfattet i de<br />

hidtidige emneordslister og systematikker. Der opstod dog samtidig et nyt problem,<br />

der skulle afklares, nemlig at mange ord dækkede et for detaljeret begreb, at det ikke<br />

ville være praktisk at benytte det i en systematik. Vi skulle ikke udarbejde en udførlig<br />

fagterm, men kun vælge de ca. 20 % mest brugbare og dækkende termer. I en artikel<br />

om arbejdsmiljø, kunne der til eksempel være omtalt begrebet ”sikkerhedsudvalgsmøde”.<br />

Det dækker over et reelt begreb, men det ville nok give en for<br />

detaljeret ordliste, hvis alle disse ord skulle medtages. ”Sikkerhedsarbejde” og<br />

”sikkerhedsudvalg” ville nok være begreber, der dækker møderne. Der var mange af<br />

denne type afgørelser, der skulle træffes. Af hensyn til de få ressourcer i projektet,<br />

måtte der hurtigt træffes en beslutning, hvilket skete uden større argumentering men<br />

blot ud fra en fornemmelse af, at dette eller hint begreb nok blev for specielt.<br />

1 Vi har bl.a. fået inspiration fra Mannheimer Zentrum für Europäische Sozialforschung, Library of Congress, Outline of Cultural<br />

Material, Universel Decimalklasse Klassifikation, Arbetslivsinstituttet, AMI, Svenska ämnesord, UNESCO Thesaurus ULCC,<br />

EUROVOC thesaurus, Cambridge Scientific Abstracts. Sociology Thesaurus, Työterveyslaitos (Työsuojelusanasto).<br />

NORDTERM 2009, København 9.-12. juni 2009 159


FIGUR 2. Emnet ”arbejdsliv” består af begreber fra en lang række fag. Det er derfor kun folk med<br />

føling i alle disse områder, der kan bedømme termer.<br />

HVEM KAN UDARBEJDE EN SYSTEMATIK?<br />

Vores erfaringer fra et fattigt forskningsfelt viser, at det kan lade sig gøre at etablere en<br />

fungerende emneordsliste med relativt få midler. Hvis bare metoderne er gennemtænkte,<br />

kan tingene udformes rimelig let.<br />

I praksis har der været få mennesker involveret i arbejdet. Det har ikke været<br />

nødvendigt at involvere mange mennesker i den første forberedende fase. Det har dog<br />

været et udgangspunkt, at mindst én person med et kendskab til hele forskningsfeltet<br />

har skullet deltage. Det praktiske arbejde omkring programmering og tilretning kunne<br />

udføres af personer uden for fagmiljøet.<br />

Det har i mange forbindelser været ønsket, at få tilbagemelding fra<br />

forskningsmiljøet. Sådanne tilbagemeldinger har det ikke været muligt at få i særligt<br />

omfattende eller gennemgribende omfang. Derimod er der modtaget mange<br />

enkeltstående kommentarer om fortrinsvis enkelte begrebers brugbarhed.<br />

At benytte en systematik<br />

Da vi startede op i 2003 ønskede vi ikke alene at have en emneordsliste. Listen skulle<br />

samtidig være systematisk. Det var et optimalt ønske, idet man herved kunne give brugerne<br />

mulighed for at søge på et meget snævert emne, men kunne samtidig give en alternativ<br />

mulighed for at vælge et større emne. Til eksempel kan man vælge emnet<br />

”lærlingeuddannelse”, men man kan også vælge det mere omfattende ”uddannelse”, som<br />

omfatter mange andre former for uddannelse.<br />

Det var et fint ideal. Virkeligheden viste sig at være mere problematisk. Vi starte<br />

med en usystematisk liste på 400 ord, og øvelsen var så at gruppere dem i et system. I<br />

NORDTERM 2009, København 9.-12. juni 2009 160


lighed med selve emneordene, fandtes der ingen systematik at bygge videre på. Det<br />

hele skulle udvikles fra grunden.<br />

Mange ord var lette at organisere. Størstedelen af ordene faldt nærmest af sig selv<br />

ind i en systematik. Arbejdet bestod ”blot” i at sætte etiketter på et hierarki, som man<br />

kunne forestille sig kun ventede på at dette meget indlysende arbejde skulle blive<br />

foretaget.<br />

Der var desværre en relativ stor gruppe ord tilbage, som ikke egentlig havde nogen<br />

systematik at høre til eller – hvilket var værre – kunne høre til to eller flere andre dele<br />

af den udarbejdede systematik.<br />

Det første kunne godt løse sig ved at lave nogle overbegreber, som blot dækkede<br />

disse emner. Det andet problem var vanskeligere – for ikke at sige umuligt - at løse, og<br />

det måtte man lære at leve med, at der var denne synlige svaghed.<br />

En systemarkitektur for personaliseret information<br />

I sommeren 2003 var arbejdet med systematikken afsluttet. Der var lavet en systematik<br />

med knap 400 emneord, som var blevet inddelt i et mindre antal overordnede begreber. Nu<br />

kunne systemet for alvor blive indført.<br />

Der blev valgt at arbejde med en relationelt opbygget database. Ønsket var at starte<br />

med at arbejde i den simple og billige database Access, som de fleste i forvejen har<br />

liggende på deres computer. Det var meningen senere at skalere til et større<br />

databasesystem. Der viste sig da også nogle kapacitetsproblemer med Access, da<br />

systemet kom i drift. Hvis der var for mange samtidig brugere, kunne systemet<br />

blokere, og kun en genstart af serveren kunne få systemet i gang igen. Det var et<br />

problem, som vi skulle identificere, og som vi efterfølgende skulle bede web-hotellet<br />

om at løse. Inden vi havde opdaget, at der var en fejl, kunne der gå dage, og hvis det<br />

skete ved en weekend, kunne der gå yderligere en del timer mens hjemmesiden ikke<br />

var tilgængelig.<br />

En omlægning ville tage ret lang tid, og da vi endelig havde besluttet at starte at<br />

omlægge til det forbedrede databasesystem, var der imidlertid ingen problemer mere<br />

på IT-siden. Web-hotellet havde på grund af forbedrede opsætninger gjort systemet<br />

mindre sårbart, samtidig med at Microsoft leverede bedre programmer både ved selve<br />

Access programmet, men også de servere og de web værktøjer vi havde valgt (hvilket<br />

var .Net tilsvarende fra Microsoft). Vi kører således med stor tilfredshed på en Access<br />

database, hvor oppetiden er på over 99,9%<br />

Vi valgte at arbejde med referencefiler til hver enkelt af de kategorier, der blev<br />

indtastet. Det har været en god løsning, idet det har fungeret robust, og hvor det har<br />

været let at udnytte emneordene gennem programmering af web-systemet.<br />

Det må nævnes, at vi havde valgt selv at opbygge vores CMS, hvorved de nævnte fordele let<br />

har kunnet implementeres. Det må dog også nævnes, at et standard CMS ville have løst os<br />

fra nogle af de opgaver, der løbende har været med opdatering til nye forhold.<br />

NORDTERM 2009, København 9.-12. juni 2009 161


FIGUR 3. Allerede ved planlægningen af nyhedstjenestens infrastruktur blev den systematiske<br />

emneordsliste indtænkt. Illustrationen viser tabellerne i den relationelle database.<br />

IGANGSÆTNING<br />

Da arbejdet skulle igangsættes, havde vi allerede omkring 1.000 dokumenter i systemet.<br />

Det var rimelig let at udføre indekseringen, idet der på indtastningsskærmen var blevet<br />

placeret et vindue, hvor man kunne vælge de ønskede emneord ud fra en menu.<br />

I praksis viste det sig, at det var relevant at give en bog, artikel eller konference<br />

mellem to eller tre emneord. Kun sjældent var der kun tale om et så smalt emne, at kun<br />

et enkelt ord var dækkende. Omvendt var der sjældent tale om at give mere end seks<br />

ord, og som nævnt var det mest almindelige to til tre ord.<br />

Der var naturligvis i f.eks. en bog berørt mange hundrede begreber. Imidlertid<br />

måtte vi som registratorer identificere bogens hovedemner. Som nævnt blev arbejdet<br />

udført med meget få ressourcer, hvorfor dette arbejde måtte udføres med en meget kort<br />

beslutningstid for hver enkelt enhed. Til en slags trøst vidste vi, at alle<br />

kategoriseringer kunne ændres, hvis de viste sig at være forkerte eller hvis de<br />

manglede emner. Dette har det dog ikke været tale om.<br />

Ved dette arbejde viste der sig imidlertid også en række svagheder ved det<br />

udarbejdede system, og en justering af ordlisten blev udført løbende i et vist omfang.<br />

Det kunne ske ved tilføjelse af nye ord til de etablerede begreber. Derimod viste det<br />

sig heldigvis ikke nødvendigt at flytte rundt på begreber eller ændre hierarkiet.<br />

NORDTERM 2009, København 9.-12. juni 2009 162


ORDLISTE PÅ ENGELSK<br />

Det var naturligt at udarbejde en engelsk ordliste, da vi skulle etablere en nyhedstjeneste<br />

på engelsk. I stor udstrækning var denne hjemmeside en ”spejling” af den danske udgave,<br />

således at indekseringen af bøger, artikler og begivenheder i den danske udgave automatisk<br />

blev overført til den engelske udgaves bøger, artikler og begivenheder (der var en del bøger<br />

og begivenheder på dansk, norsk og svensk, som ikke var medtaget i den engelske udgave).<br />

Vi fandt hurtigt ud af, at mange af de engelske begreber ikke kunne findes via en<br />

standard ordbog. Dels var der mange ord, som ikke fandtes i ordbogen, eller også<br />

fandtes der flere muligheder, hvor vi ikke var i stand til at bedømme, hvilke der var de<br />

rigtige. Det gav – i hvert fald i begyndelsen – en ordliste med visse svagheder.<br />

WIKI OG ORDBOG<br />

Svaghederne i den engelske ordliste blev dog efterhånden begrænset, og ordlisten fik<br />

herved nye brugsmuligheder.<br />

Vi søgte at finde de rigtige engelske begreber til at bekræfte eller supplere ordlisten.<br />

Det kunne blandt andet ske ved at se brugen af begreber i bøger, som vi tilfældigvis<br />

fik lejlighed til at gennemlæse.<br />

En anden og meget vellykket metode var at lade læserne kommentere og supplere<br />

ordlisten. Denne Wiki-metode fungerede især ved at folk påpegede fejl og svagheder<br />

ved ordlisten, hvor det engelske ord ikke svarede til det danske eller ikke helt havde<br />

den samme betydning. Der kom dog også nogle enkelte tilføjelser via denne metode.<br />

I lighed med den folkelige deltagelse, blev ordlisten samtidig en lille ordbog<br />

mellem dansk og engelsk. Herved har folk fået et gratis opslagsværk på dette<br />

fagområde.<br />

6 ÅRS GODE ERFARINGER<br />

Systemet har nu været i funktion i 6 år i den danske udgave, og det fungerer stadigvæk.<br />

Det bør justeres, som de angives i næste kapitel, men det har trods alt fungeret og fungerer<br />

stadigvæk godt.<br />

Emneordene har været nyttige på to helt forskellige områder.<br />

Det ene er den direkte personalisering, hvor hjemmesidens brugere har kunnet søge<br />

via emneord. De har haft mulighed for at vælge de overordnede begreber, eller de har<br />

kunnet vælge mere smalle begreber.<br />

Den anden brug har faktisk vist sig at være den vigtigste. Hjemmesiden er blevet<br />

opbygget således, at søgemaskinernes robotter har høstet hjemmesiden efter emne<br />

(samt navn og andre dimensioner). Denne opbygning har betydet, at til eksempel<br />

Google har indekseret vores hjemmeside meget høj på mange af de 400 emneord. Den<br />

NORDTERM 2009, København 9.-12. juni 2009 163


seneste opgørelse er fra 2007, hvor 70 af vores emneord lå inden for 20 af Googles<br />

bedste pladser. Af dem var 20 førstepladser. Derved har brugen af emneord været en<br />

forudsætning for at vores hjemmeside har haft en søgemaskineoptimering, som må<br />

betegnes at være tæt på det optimale.<br />

De mange mangler<br />

Jeg har ikke påstået, at systemet er perfekt. Det vil en emneordsliste eller en systematik<br />

vistnok aldrig kunne blive.<br />

Bortset fra enkelte tilføjelser af ord til listen, har der ikke været udført en egentlig<br />

revision. En sådanne står umiddelbart foran sin effektuering.<br />

Igennem alle årene er der blevet skrevet en ”fejlrapport”, når der har været en bog<br />

eller artikel, som ikke havde sit emne på listen. Der er derved blevet udarbejdet en<br />

liste på efterhånden mere end 100 ord.<br />

Årsagen er delvist, at den oprindelige ordliste allerede ved fødslen havde<br />

svagheder, således at den ikke kunne tage højde for videnskabelige resultater omkring<br />

visse specielle smalle emner, der kun opstod meget sjældent.<br />

En anden årsag er, at faget har udviklet sig. I tidsskriftets efterhånden mere end 10<br />

års forløb har videnskaben ændret sig både i takt med at samfundet har ændret sig,<br />

men sandelig også, fordi der i videnskaben selv har været en udvikling, som ikke<br />

nødvendigvis er parallel med samfundets udvikling<br />

Alle disse mangler skal der tages højde for ved den snarlige revision.<br />

Systematikkens svagheder<br />

Selvom systematikken benyttes, er der nogle svagheder i systemet, som ikke sådan lige er<br />

til at komme udenom. Det er tilfældet, når nogle ord benyttes ualmindeligt meget eller når<br />

de ikke udnyttes særlig meget.<br />

Nogle ord benyttes så meget, at de ikke er særlig velegnede til at lave en<br />

delmængde. F.eks. behandler mange bøger ”globalisering” eller de kan i det mindste<br />

have et aspekt omkring emnet. En søgning på dette emne i bøger på vores hjemmeside<br />

vil give 110 henvisninger, hvilket er et meget stort antal at forholde sig til.<br />

Af de mange søgeord havde 12 flere end 40 hits. Det må ved systematikkens videre<br />

udvikling søges at bringe dette antal ned. Ved begrebet globalisering må der til<br />

eksempel opfindes nye begreber, der underinddeler og findeler emnet. Det kunne til<br />

eksempel være ”globalisering, økonomi”, ”globalisering, ledelse” og tilsvarende<br />

opdeling af globalisering.<br />

Denne svaghed findes udelukkende ved brug af systematikken. Hvis man søger på<br />

emneord, vil man kunne kombinere ”globalisering” med et andet begreb og herved<br />

reducere antallet af hits.<br />

En anden svaghed er hvor emneord har få eller ingen resultater. 130 af emneordene<br />

havde faktisk kun én eller ingen bøger at henvise til. Med så få tilfælde kan man sige,<br />

NORDTERM 2009, København 9.-12. juni 2009 164


at disse emneord er for specifikke, og at de på en måde er ”støj”, der fylder op og gør<br />

tingene uoverskuelige. Det er ikke et mål i sig selv, at udvikle et ”optimalt” system,<br />

der dækker alle begreber. Der skal være en pragmatisk fornuft, og der vil derfor ikke<br />

ske noget ved at fjerne størstedelen af dem.<br />

FIGUR 4. Begreber med for få eller for mange henvisninger var uhensigtsmæssige.<br />

DEN MÅLBARE SUCCES – ELLER FIASKO<br />

Ved Internettet er vi så heldig, at vi i stor udstrækning kan se hvordan vores brugere<br />

benytter vores tjeneste. Mens man ved en udgivelse i bogform ikke kan se, om læserne<br />

benytter et indeks eller stikordsregister, er det helt anderledes let at se, hvorledes brugerne<br />

navigerer rundt på en hjemmeside. Faktisk er det muligt at registrere hvert eneste tastetryk.<br />

Det er ren Big Brother.<br />

Brugen af emneord viser sig således kun at være en betinget succes, eller i hvert<br />

fald, at kun en mindre del af brugerne udnytter de nye muligheder til at navigere via<br />

systematikken. Kun 50 ud af 1.000 besøgende udnyttede denne mulighed.<br />

Om dette nu er en fiasko, skal der en nærmere vurdering til for at afklare. Mange<br />

ikke-brugere navigerer efter andre metoder. De ser f.eks. alle bøger igennem på de<br />

aktuelle boglister, hvorved de bliver orienteret om hele forskningsfeltet. Andre søger<br />

efter en enkelt forfatter eller en bestemt artikel og er tilsyneladende tilfreds med dette.<br />

Den relativt ringe brug af systematikken kan have flere årsager – hvis det altså er en<br />

ringe brug. Det kunne være, at navigationen til systematikken var for besværlig. Det<br />

kunne man få bekræftet eller afkræftet ved at gøre navigationen i en periode<br />

ualmindelig let at komme til og herefter se, om det skulle være årsagen.<br />

Det kan også være, at en systematik kun benyttes, når en forsker skal i gang med et<br />

forskningsprojekt og her ønsker at få et overblik over den totale litteratur på et<br />

område. At det kun er de rigtige ”professionelle”, der benytter systematikken, men<br />

altså også, at almindelige mennesker måske ikke kender til fordelene ved at benytte en<br />

sådan mulighed.<br />

NORDTERM 2009, København 9.-12. juni 2009 165


De største succeser<br />

Inden vi kaster systematikken bort, vil jeg dog berette om dens brug på to områder, hvor<br />

den virkelig har vist at have berettigelse.<br />

Det ene er på muligheden for målrettet information, en aktiv push fra<br />

indholdsleverandørens side, til folk, der er interesseret i at følge med i bestemte<br />

områder. Det har vi organiseret via RSS, hvor brugerne har mulighed for at vælge<br />

mellem 216 emner. Når der på hjemmesiden kommer en ny bog, vil der blive givet<br />

sendt besked til brugernes RSS læser om nyheden.<br />

Den tekniske konstruktion af RSS bygger på emneordene, og her må vi konstatere,<br />

at det er en succes i stort omfang. Der er således udvalgt mere end 5.000 RSS-emner,<br />

hvilket vi er rimelig tilfredse med. Vores sammenligningsgrundlag er, at vi har 500<br />

abonnenter på den bogtrykte udgave af vores tidsskrift, og da vi har konstateret, at<br />

brugerne i gennemsnit kun vælger et par få emner at abonnere på, er der tale om flere<br />

tusinde brugere.<br />

Største succes for Google søgerne<br />

Den anden – og vel nok langt den største - succes for systematikken er for brugerne af<br />

søgemaskiner. Når man søger efter et ord, vil man typisk kun se efter søgeresultater på den<br />

første side og oftest kun efter de første få øverste resultater.<br />

Her har vores hjemmeside en ualmindelig god stilling. En analyse af hjemmesidens<br />

placering af søgeord viste i 2007, at stillingen for vores søgeord var blevet væsentlig<br />

forbedret siden indførelse af den nye teknik for søgemaskineoptimering baseret på<br />

systematikken. 71 begreber lå på de øverste 9 pladser i Google, den altdominerende<br />

søgemaskine, og heraf havde vi endda 21 ord på førstepladsen.<br />

Det er helt sikkert den vigtigste årsag bag vores hjemmesides succes. En meget stor<br />

del af de besøgende på vores hjemmeside kommer ind via søgemaskiner – mere end<br />

en tredjedel er der tale om ved de konkrete målinger, og da mange af de øvrige<br />

brugere, som linker direkte til hjemmesiden, i første omgang er blevet opmærksom på<br />

hjemmesiden på grund af en vellykket søgning, er resultatet efter brug af søgeord langt<br />

mere end halvdelen af hjemmesidens brug i det hele taget.<br />

Succes for det interne arbejde<br />

Ud over den nævnte direkte brug for de besøgende på hjemmesiden, har vi internt i<br />

redaktionen yderligere haft udbytte af systematikken. Ved at analysere brugernes<br />

anvendelse af systematikken, er vi blevet klogere og kan derved lave et bedre produkt.<br />

Vi har til eksempel set på hvilke begreber, som brugerne har benyttet og hvilke de<br />

ikke har benyttet. Det giver os herved en mulighed for at justere vores udvælgelse.<br />

Selvfølgelig skal det – efter vores mening – ikke været styret fuldt ud af brugernes<br />

NORDTERM 2009, København 9.-12. juni 2009 166


interesser. Det er os i redaktionen, som har forstand på kvalitet og som redigerer ud fra<br />

denne selvforståelse. Det vil dog være ufornuftigt, hvis vi ikke lader os inspirere af de<br />

ord, som brugerne i særdeleshed efterspørger, idet de afslører et behov for viden på<br />

disse områder hos brede kredse, hvilket vi kan lade indgå i vores fremtidige arbejde.<br />

Der må dog nævnes et negativt aspekt ved brug af denne type analyser: De tager<br />

tid. Det er i hvert fald for vores nyhedstjeneste ikke muligt at udføre denne type<br />

analyser mere end én gang om året.<br />

KONKLUSION<br />

Det må konstateres, at vores nyhedstjeneste har haft et stort udbytte af at benytte en<br />

faglig systematik inden for det tværfaglige forskningsfelt, arbejdsliv. Alle vores oplysninger er<br />

blevet indekseret, således at hver bogomtale, artikel, anmeldelse eller præsentation af<br />

konference har fået et eller oftest flere emner koblet til dig.<br />

Emnesystematikken er blevet udviklet af vores egne redaktører, som er de bedste<br />

(og vel også eneste) med et indgående kendskab til fagområdets begreber. Vi har ikke<br />

haft økonomi til at få erfarne emneordsudviklere til at hjælpe os med systemet, men<br />

kunne dog godt have tænkt os at have fået hjælp undervejs, hvilket ville have lettet os<br />

arbejdet og sikkert givet et bedre resultat.<br />

Selvom vi har gjort brug af og blevet inspireret af samtlige nationale og<br />

internationale emneordslister i og omkring vores område, har vi måtte udføre arbejdet<br />

fra grunden af. Vi kunne dog godt tænke os, at arbejdet med emneord på bedre vis<br />

bliver koordineret internationalt, således at andre vil kunne udnytte vores systematik<br />

og vi omvendt få hjælp af andre. Det ville være en god forudsætning for en fremtidig<br />

udveksling af oplysninger baseret på emneord og systematik.<br />

REFERENCER<br />

Nyt om Arbejdsliv, systematik www.nyt-om-arbejdsliv.dk/systematik.aspx<br />

Working Life Info, systematik www.workinglife.info/esystematik.aspx<br />

NORDTERM 2009, København 9.-12. juni 2009 167


Ordningen i redan<br />

– om uppräkningar i begreppsbeskrivningar<br />

Henrik Nilsson<br />

Terminologicentrum TNC, Västra vägen 7 B, SE-169 61 Solna, Sverige,<br />

+46 8 446 66 10, henrik.nilsson@tnc.se<br />

Abstract. De extensionella ”definitionerna” (det vill säga en begreppsbeskrivning som innebär<br />

någon form av uppräkning, av underbegrepp eller referenter) har ofta diskuterats i<br />

terminologivärlden. Detta föredrag kommer genom exempel från olika områden att titta närmare<br />

på denna och andra liknande begreppsbeskrivningar. Kan dessa ”definitioner” användas praktiskt<br />

och vad bör man tänka på i så fall? Är de ibland t.o.m. att föredra framför andra typer av<br />

definitioner? Och vilken relation finns till klassifikation – särskilt vad gäller de närliggande<br />

typer av begreppsbeskrivningar som man skulle kunna kalla ”referensdefinitioner” och ”rubrikdefinitioner”?<br />

Särskilt kommer fokus att ligga på om och i så fall hur själva ordningen på de<br />

uppräknade elementen (referenter eller underbegrepp) påverkar definitionens innehåll.<br />

INLEDNING<br />

Den brittiske filmaren och konstnären Peter Greenaway tyckte inte att bara USA<br />

skulle få bestämma vilka objekt som skulle skickas med vid rymdfärder för att<br />

representera mänskligheten. Han skapade därför en ”prop-opera” som han kallade<br />

”100 objects to represent the world” 1<br />

. Hans uppräkning av 100 objekt (som bland<br />

annat omfattar regnbågen, en kyss, stolar, Mozarts kranium, själen, kvicksilver, Venus<br />

från Willendorf, Freuds hatt och portfölj, röda böcker, skräp och Archaeopteryx) är<br />

hans personliga uppfattning av vad som kan representera världen av i dag, men kan<br />

inte ses som en definition av världen. Det handlar endast om ett urval, och dessutom<br />

av fenomen och objekt blandat. I de fall uppräkningar använts som metod (i s.k.<br />

extensionella ”definitioner”) för att beskriva begrepp terminologiskt har kravet just<br />

varit att uppräkningen ska vara uttömmande.<br />

De så kallade extensionella ”definitionerna” – det vill säga definitioner som räknar<br />

upp alla referenter som begreppet syftar på eller alla underordnade begrepp – har inte<br />

ansetts riktigt rumsrena i terminologiarbetet. Många menar att de inte bör kallas<br />

definitioner alls. Men i själva verket rymmer begreppsbeskrivningar (för att nu<br />

undvika termen ”definitioner”) väldigt ofta uppräkningar i någon form. När vi på TNC<br />

importerat terminologiskt material till Rikstermbanken har vi gått igenom tusentals<br />

definitioner. Det har då visat sig att icke-uttömmande uppräkningar inte så sällan<br />

används som begreppsbeskrivningar, särskilt i lagtexter, och inte alls är ovanliga i<br />

begreppsbeskrivningar.<br />

1 Se vidare: http://www.changeperformingarts.it/Greenaway/100objects.html<br />

NORDTERM 2009, København 9.-12. juni 2009 168


I den här artikeln koncentrerar jag mig på hur och var uppräkningar används i och<br />

som begreppsbeskrivningar, med fokus på uppräkningen som begreppsbeskrivning i<br />

sig och dess lämplighet.<br />

Det är inte helt enkelt att hitta en definition av ”uppräkning” utan att hamna i<br />

mycket generella beskrivningar av typen ”redogörelse i (viss) ordningsföljd” 2<br />

. Denna<br />

definition är dock inte ointressant och just användningen av ”viss” behandlas i slutet<br />

av den här artikeln.<br />

UPPRÄKNINGAR I DEFINITIONER<br />

En första distinktion som kan göras är den mellan uppräkningar i<br />

begreppsbeskrivningar och uppräkningar som begreppsbeskrivningar.<br />

Den vanligaste typen av terminologisk definition, den s.k. intensionella<br />

definitionen, kan innehålla en uppräkning, ofta som en (då icke-uttömmande)<br />

exemplifiering i slutet:<br />

biomassa<br />

material med biologiskt ursprung och som inte eller endast i ringa grad omvandlats, till<br />

exempel energigröda, energiskog, halm, trä, vass<br />

I en äldre TNC-artikel står följande att läsa: ”Även om [exempel] inte kan anses<br />

tillhöra själva definitionen kan de dock tillfogas direkt efter, eller infogas i,<br />

definitionen. […] Exemplen kan framför allt avse uppslagstermens användning; ibland<br />

anger exemplet någon belysande omständighet av annan art; i andra fall kan<br />

exemplifieringen gälla något i ordförklaringen.” 3<br />

. Även Wright & Strehlow (1995) har<br />

påpekat nyttan av att göra beskrivningen av ett begrepp tydligare med hjälp av<br />

exemplifieringar; de säger dock inget om var detta bör göras. I Rikstermbanken har<br />

sådana exempel i stället placerats i ett separat exempelfält som presenteras separat från<br />

definitionen. På så sätt renodlas själva definitionen ytterligare.<br />

I vissa definitioner är det i stället överbegreppet som utgörs av en uppräkning, även<br />

om detta är ovanligare:<br />

stiftare<br />

person, företag eller förening som startar ett aktiebolag<br />

kylmedium<br />

gas eller vätska som transporterar bort värme, till exempel från en reaktorhärd 4<br />

2 Nationalencyklopedins ordbok<br />

3 TNC, Ord och uttryck, 1963<br />

4 TNC: manus till basordlista<br />

NORDTERM 2009, København 9.-12. juni 2009 169


I just det här exemplet hade den inledande uppräkningen kunnat undvikas genom att ”vätska<br />

eller gas” kunnat ersättas med ”fluid” (som i sig definieras just extensionellt som ’vätska eller<br />

gas’ 5<br />

).<br />

Till detta kommer definitioner som utgör hybridformer mellan intensionella och<br />

extensionella definitioner:<br />

intermediära varor<br />

insatsvaror, halvfabrikat och komponenter av olika slag, det vill säga normalt varor som ingår<br />

som en delprodukt i en slutlig vara/produkt<br />

I ovanstående definitionsexempel kombineras extensionens underbegrepp<br />

(insatsvaror, halvfabrikat och komponenter) och intensionens beskrivning (”varor som<br />

ingår som en delprodukt i en slutlig vara/produkt”) – något som förstås även kunde ha<br />

gjorts i ett separat fält i termposten (se ovan).<br />

Referensdefinitioner<br />

Särskilt i lagtexter förekommer ett specialfall av den extensionella definitionen som<br />

skulle kunnas kallas referensdefinition. I själva definitionen finns det egentligen inte<br />

så mycket relevant information om begreppet utan i stället bara en referens till det<br />

ställe där den informationen finns – i till exempel en paragraf eller bilaga. Där görs då<br />

inte sällan en – ofta ganska utrymmeskrävande – uppräkning. Det som alltså kan se ut<br />

som en intensionell definition, med överbegrepp och kännetecken blir en sorts<br />

”förtäckt” extensionell definition:<br />

”med hushållstjänster avses de tjänster som är uppräknade i 4 § lagen (2007:346) om<br />

skattereduktion för hushållsarbete”<br />

I exemplet ovan specificeras överbegreppet ”tjänster” på detta, ”referentiella” sätt<br />

(och i 4 § räknas sedan det som räknas till hushållstjänster upp: städarbete eller annat<br />

rengöringsarbete som utförs i bostaden, vård av kläder och hemtextilier som utförs i<br />

bostaden, matlagning som utförs i eller i nära anslutning till bostaden […]) 6<br />

5 TNC 98: Tekniska basord (1995)<br />

6 Lag om ändring i lagen (2007:346) om skattereduktion för hushållsarbete (SFS 2009:538)<br />

NORDTERM 2009, København 9.-12. juni 2009 170


Uppräkningar som definitioner<br />

Även om ovanstående exempel är intressanta utgör de ändå en minoritet, och den<br />

kategori där uppräkningar i sig utgör hela begreppsbeskrivningen, det vill säga ”egna”<br />

definitioner, överväger. Sedan tidigare finns här början till en typologi med en<br />

indelning utifrån vad som räknas upp i ”traditionella” extensionella definitioner<br />

(eventuellt med ovan nämnda undertyp referensdefinition) och beståndsdelsdefinitioner.<br />

Kanske finns här dock behov av fler typer, uppdelade utifrån det sätt<br />

definitionen skapas på; här kallade rubrikdefinitioner.<br />

Den ”traditionella” extensionella definitionen (som i litteraturen även kallats<br />

omfångsdefinition, denotativ definition och extensiv definition) är en ”definition som<br />

räknar upp begreppets alla underordnade begrepp eller referenter enligt en viss<br />

indelningsgrund” 7<br />

:<br />

flerbostadshus<br />

gathus, lamellhus, smalhus, skivhus, stjärnhus, loftgångshus eller låghus<br />

En ofullständig exemplifiering kan inte sägas utgöra en definition, det vill säga allt<br />

som ingår i begreppets extension måste räknas upp. Det sista elementet i uppräkningen<br />

måste också föregås av ”eller” för att definitionen ska vara användbar som definition.<br />

Angivandet av vad som räknas upp har växlat i definitionen av extensionell<br />

definition under årens lopp. Det vanligaste fallet är att begreppets extension<br />

(begreppsomfång) räknas upp, det vill säga underbegreppen (som i sig är sidobegrepp<br />

och företrädesvis på samma nivå i ett begreppssystem) eller referenterna. I många fall<br />

är den bakomliggande begreppsrelationen då ”antingen–eller” (det som Nuopponen et<br />

al kallar ”extensionell disjunktion”):<br />

kronprinsessa<br />

kvinnlig tronföljare eller gemål till en kronprins 8<br />

klausul<br />

tilläggsbestämmelse eller förbehåll 9<br />

Beståndsdelsdefinitioner<br />

Extensionella definitioner där delbegrepp räknas upp är också ganska vanligt<br />

förekommande; dessa kallas då ofta för beståndsdelsdefinition, och de uppräknade<br />

elementen (delbegreppen) har en partitiv relation till helhetsbegreppet:<br />

7 Nordterm 13: ”Terminologins terminologi på nordiska”<br />

8 Nordisk förvaltningsordbok, 1991<br />

9 Nordisk förvaltningsordbok, 1991<br />

NORDTERM 2009, København 9.-12. juni 2009 171


vecka<br />

måndag, tisdag, onsdag, torsdag, fredag, lördag och söndag<br />

Rubrikdefinitioner<br />

Så långt är det hela föga komplicerat – underbegrepp, referenter eller delbegrepp<br />

räknas upp. Det finns dock en del fall där det verkar råda en annan typ av<br />

begreppsrelation mellan det som definieras och de begrepp som räknas upp:<br />

kalandrering<br />

utvalsning, laminering, dubblering, friktionering eller beläggning (1) i kalander<br />

I det här exemplet handlar det inte om underbegrepp (inget av dem definieras som<br />

’kalandrering som …’) eller referenter och inte heller om delbegrepp. Snarare har<br />

dessa begrepp något gemensamt – en kalander ingår i alla processerna. Samtidigt<br />

antyder definitionens ”eller” att man inte bara klumpat ihop begreppen för att man kan<br />

använda termen ”kalandrering” för att kunna tala om alla dessa processer samtidigt.<br />

När ordet ”kalandrering” används kan snarare någon av dessa processer avses. Valet<br />

att definiera på det här sättet verkar alltså vara avsiktligt. Att det hade varit möjligt att<br />

definiera intensionellt visar andra ordlistor som innehåller definitioner av just<br />

begreppet ”kalandrering”: ’ytförändrande mekanisk behandling i valsverk<br />

(kalander)’ 10<br />

.<br />

Även syftet med att göra uppräkningar i begreppsbeskrivningar är intressant.<br />

Österberg skriver i sin bok ”Hierarkisk begreppsanalys” (1979) att man i processen att<br />

skapa en begreppshierarki kan gå i två riktningar. ”Riktningen ’uppifrån och ned’<br />

motsvarar […] ’division’. ’Nedifrån och upp’ motsvaras av ’klassifikation’. Kan det<br />

vara så att vissa uppräkningar som begreppsbeskrivningar uppstår i sammanhang när<br />

man egentligen vill klassificera och egentligen inte definiera, det vill säga när man vill<br />

kunna tala om flera begrepp med en gemensam rubrik, och alltså slippa upprepa alla<br />

elementen i uppräkningen varje gång de förekommer i en text?<br />

förnybar energi<br />

vindkraft, solenergi, vågenergi, geotermisk energi, biobränslen och vattenkraft<br />

10 TNC 76: Textilordlista, 1981<br />

NORDTERM 2009, København 9.-12. juni 2009 172


anordningar för personlig hygien<br />

omklädningsrum, dusch, handtvättanordningar och liknande 11<br />

I de här exemplen understryks detta av det faktum att uppräkningarnas sista element<br />

föregås av ”och” och inte av ”eller”; det är helheten som avses, inte vart och ett av de<br />

uppräknade elementen. Man kan konstatera att den här typen av begreppsbeskrivningar,<br />

som man skulle kunna kalla rubrikdefinitioner, är vanligare<br />

förekommande i vissa texttyper (bland annat lagtexter) där de verkar ha skapats just av<br />

klassificerings- och regelskäl. Uppräkningen utgör således en helhet för vilken man i<br />

ett dokument använder en ”rubrikterm” för att slippa upprepa alla elementen. På det<br />

sättet liknar dessa definitioner det man hittar under ”rubrikord” som ibland används i<br />

ordlistor där man under ett gemensamt uppslagsord samlar allt som på något sätt har<br />

en association till begreppet ifråga att göra och på så sätt stafettmässigt leder<br />

användare vidare i ordlistan:<br />

glasteknik<br />

hyttarbetat (drivet), formblåst (fastblåst, optikblåst, stött), gjutet (sandgjutet), centrifugerat,<br />

pressglas, automatblåst (till exempel buteljtillverkning), studioglas, fusing, slumping,<br />

bending, paté [sic] de verre, limmat, kulat 12<br />

I vissa fall kan man nästan misstänka att begreppsanalysen i sig givit upphov till<br />

den här typen av definition, och att det som i själva verket är en indelningsgrund i ett<br />

begreppssystem får status av term – vars motsvarande begrepp då lämpligen definieras<br />

just med en rubrikdefinition (de element som räknas upp i definitionen har då ofta<br />

heller inga egna definitioner i ordlistan ifråga):<br />

trafikslag<br />

vägtrafik, järnvägstrafik, luftfart och sjöfart<br />

Samlingsdefinitioner<br />

Ibland kan det vara svårt att avgöra om en definition är en intensionell definition<br />

med ett mycket generellt överbegrepp (verksamhet i exemplet nedan) eller snarare<br />

någon form av extensionell definition med en inledningsfras:<br />

11 föreskrift från Arbetsmiljöverket<br />

12 Svensk Forms Opinionsnämnd Ordbok, 2001<br />

NORDTERM 2009, København 9.-12. juni 2009 173


telekrigföring<br />

Verksamhet omfattande signalspaning, falsk signalering, insats av telemotmedel, insats mot<br />

teleanläggningar av signalsökande vapen samt teleskydd. 13<br />

telekrigföring<br />

sammanfattande benämning på militära åtgärder för att upptäcka, utnyttja, påverka,<br />

försvåra eller förhindra motståndarens användning av telemedel, som utnyttjar<br />

elektromagnetisk vågutbredning, samt egna åtgärder för att minska verkan av<br />

motståndarens telekrigföring. 14<br />

Under en kurs i definitionsskrivning som hölls på TNC 1975 angav man att sådana<br />

definitioner, som skulle kunna kallas samlingsdefinitioner, som inleds med en metaformulering<br />

som ”sammanfattande benämning på …”, också skulle räknas som<br />

extensionella definitioner. För det är nog tveksamt om den typen av formuleringar ska<br />

anses utgöra ett överbegrepp i något som liknar en intensionell definition. Oavsett hur<br />

man ser på det är ”samlingsdefinitionen” inte ovanlig och det förekommer många<br />

varianter, bland annat ”Samlingsterm för …”,”Sammanfattande benämning för …”,<br />

och ”Begreppet omfattar …”. (I samtliga dessa fall anges ”och” före det sista<br />

elementet i uppräkningen.)<br />

banljus<br />

Sammanfattande beteckning för bankantljus, tröskelljus, banändljus, centrumlinjeljus,<br />

sättningszonljus och ljus vid utrullningsområde. 15<br />

Hur räknas det upp?<br />

Om man nu i stället frågar sig hur det räknas upp i begreppsbeskrivningar sker det<br />

oftast uttömmande enligt en viss indelningsgrund med de uppräknade elementen på<br />

samma begreppsnivå (dock icke-uttömmande i exemplifieringar och liknande som<br />

visats ovan, det vill säga när uppräkningar ingår i en definition).<br />

I vilken ordning räknas så elementen upp – och ger ordningen någon information<br />

om det bakomliggande begreppet? Jag ger här en bakgrund till min fråga:<br />

När jag en gång (innan Pluto blivit dvärgplanet 16<br />

) gjorde en OH-bild av en<br />

extensionell definition av begreppet planet med planeterna i bokstavsordning möttes<br />

det av förundran hos kollegerna: ”Så kunde man väl inte göra – de måste ju stå i<br />

13<br />

Frivilliga Radioorganisationen, http://www.fro.se/ordlista<br />

14<br />

ÖB<br />

15<br />

Luftfartsstyrelsen: Definitionssamling, 2008<br />

16<br />

I lanseringen av Nationalencyklopedins nya, uppdaterade kortversion (20 band) i Sverige lyfter man bland annat fram att Pluto<br />

inte längre är en planet. Detta är helt sant efter att den astrononiska unionen IAU röstat och kommit fram till att Pluto enligt den<br />

nya intensionella definitionen av ”planet” snarare ska räknas till dvärgplaneterna, men det är intressant att noterat man väljer att<br />

just ta upp något som är så inlärt (i en viss ordning) sedan skoltiden som planeterna i solsystemet.<br />

NORDTERM 2009, København 9.-12. juni 2009 174


ordningen från Solen räknat!?” Men gjorde bokstavsordningen dem mindre till planet<br />

– var det inte bara så att ett kännetecken mindre uttrycktes?<br />

planet<br />

Merkurius, Venus, Jorden, Mars, Jupiter, Saturnus, Uranus, Neptunus eller Pluto<br />

Ordningen från Solen räknat är den vi lärt oss i skolan och den som känns naturlig;<br />

någon annan ordning, även bokstavsordning, om än mer logisk på ett sätt, blir svårare<br />

att komma ihåg. Det är svårt att dra slutsatser om den ordning som används när<br />

element räknas upp som begreppsbeskrivningar, men ofta verkar det ske i en för<br />

fackområdet och målgruppen logisk ordning (till exempel vad gäller planeterna), det<br />

vill säga enligt ett underförstått kännetecken (avstånd från solen). I exemplet om<br />

”ädelgas” känner många säkert igen ordningen (som gjorts efter det underförstådda<br />

kännetecknet ”plats i periodiska systemet”), men förmodligen för att ordningen är<br />

inlärd snarare än för att man i detalj kan redogöra för det periodiska systemets<br />

uppbyggnad. Men kanske den definitionen inte alls är tänkt för lekmän utan för<br />

experter? Men då behöver den väl inte nödvändigtvis vara särdeles pedagogisk?<br />

ädelgas<br />

helium, neon, argon, krypton, xenon eller radon<br />

Varför räknas det upp?<br />

Om man sammanfattar vilka skälen kan vara till att element räknas upp i och som<br />

begreppsbeskrivningar förefaller det som att de praktiska skälen är de vanligaste, till<br />

exempel för att det kan vara svårt att skriva en intensionell definition eller som i<br />

följande fall, där man just vill undvika att specificera och istället använder ett<br />

överordnat uttryck – något som snarare liknar ett klassifikationsskäl. Ibland framgår<br />

motivet tydligt:<br />

sorption<br />

överterm för absorption och adsorption<br />

Termen används när man ej kan avgöra om absorption eller adsorption föreligger.<br />

Till dessa kan läggas ”traditionsenliga” och kunskapsmässiga såväl som<br />

mnemotekniska skäl, det vill säga att man har lärt in något i en viss ordning som<br />

förefaller naturlig i ett visst sammanhang eller i en viss kultur (börjar till exempel<br />

veckan på söndag eller måndag i en extensionell definition av ”vecka”?).<br />

Picht & Draskau (1985) har påpekat att extensionella definitioner är kortare och<br />

mer förklarande. Åhlberg (1986) framhåller att det är enklare att använda de här<br />

typerna av definitioner för estetiska begrepp eftersom det ofta råder större enighet om<br />

konnotationen av ett begrepp än av denotationen, det vill säga uppräkningen är minst<br />

NORDTERM 2009, København 9.-12. juni 2009 175


provokativ. Frågan kvarstår dock om dessa beskrivningar – som i litteraturen har<br />

framhållits som pedagogiska trots att de egentligen säger lite om det begrepp som<br />

”definieras” – verkligen är så pedagogiska i alla sammanhang, särskilt om det<br />

underförstådda kännetecken som uttrycks genom elementens ordning endast är<br />

självklart för en liten grupp fackexperter.<br />

Särskilt i lagtext verkar den extensionella definitionen vara vanlig. I en offentlig<br />

utredning (SOU 2008:120 Bättre kontroll av missbruksmedel. En effektivare<br />

narkotika- och dopningslagstiftning m.m.) beskrivs nio olika sätt att definiera inom<br />

juridiken, bland annat uppräkningsdefinitioner och s.k. definitionsmängder som kan<br />

vara slutna eller öppna. Den slutna definitionsmängden ”innebär att den mängd<br />

företeelser som definitionen åsyftar är bestämd eller känd vid ett visst givet tillfälle.”<br />

Man kan alltså ange alla element i definitionsmängden. Ofta sker det genom<br />

uppräkning. Inga nya element kan tillfogas mängden, som inte kan växa i omfång om<br />

inte definitionen ändras. Den öppna definitionsmängden innebär i stället att det kan<br />

tillfogas nya element som motsvarar definitionens kriterier. En öppen<br />

definitionsmängd kan alltså växa i omfång utan att definitionen behöver ändras.<br />

När det gäller begreppen ”narkotika” och ”dopningsmedel”, som är fokus för<br />

utredningen, beskrivs de med en sluten respektive en öppen definitionsmängd. Även<br />

om man i definitionen av narkotika anger ett överbegrepp (”läkemedel eller<br />

hälsofarliga varor”) så blir i praktiken ”den svenska narkotikadefinitionen en<br />

uppräkningsdefinition, genom att all narkotika anges på Läkemedelsverkets narkotikaförteckningar”<br />

och utgör alltså en sluten definitionsmängd. Detta anges i utredningen<br />

ha haft fördelar eftersom man enkelt har kunnat säga om ett ämne varit narkotika eller<br />

inte. Samtidigt framhåller man att den snabba utvecklingen av nya droger gör att<br />

förteckningarna snart blir inaktuella vilket påverkar rättssäkerheten. Det innebär att en<br />

extensionell definition är olämplig när extensionen ofta ändras. En önskan om en<br />

”generell” definition framhålls således samtidigt som man har invändningar mot en<br />

sådan eftersom man då riskerar att täcka in för många preparat och ev. kriminalisera<br />

tidigare legala ämnen.<br />

Man ska inte heller glömma att användningen av extensionella definitioner även har<br />

många andra nackdelar: de ger inte någon egentlig information om begreppet, det<br />

finns sällan en uttömmande extension och de är ej alltid särskilt varaktiga eftersom<br />

extensionen i många fall ändras med tiden. Dessutom avspeglar de inte alltid tydligt<br />

ett bakomliggande begreppssystem och anger inte alltid tydligt de uppräknade<br />

elementens position i ett sådant begreppssystem (handlar det t.ex. om underbegrepp,<br />

referenter eller exempel?). De uttrycker inte alltid explicit grunden för sin<br />

presentation, det vill säga ordningen, och de kan svårligen användas i stället för<br />

termen (Försök att fråga någon: Vilken januari, februari, mars, april, maj, juni, juli,<br />

augusti, september, oktober, november eller december fyller du år?).<br />

Till sist …<br />

I den här artikeln har jag försökt se på en kategori av ”definitioner” som visat sig<br />

vara ganska vanlig utan att gå till botten med uppräkningarnas alla mysterier. Mer<br />

skulle behöva göras och förhoppningsvis kan detta resonemang uppmuntra till mer<br />

forskning på den här typen av begreppsbeskrivningar. Mycket är ogjort och det är till<br />

NORDTERM 2009, København 9.-12. juni 2009 176


exempel inte uppenbart hur ett begreppssystem över den här typen av ”definitioner”<br />

skulle se ut:<br />

intensionell definition<br />

definition<br />

(relat ionstyp och form)<br />

extensionell definition<br />

(riktning)<br />

? ”traditionell”<br />

extensionell<br />

definition<br />

?<br />

(”rubrikdefinition”)<br />

beståndsdelsdefinition (”samlingsdefinition”)<br />

uppräkningar<br />

FIGUR 1. Útkast till begreppssystem för ”uppräkningsdefinitioner”.<br />

Till sist vill jag räkna upp några punkter om uppräkningar som kan användas i det<br />

praktiska definitionsarbetet. Tänk på att:<br />

• uppräkningar kan fylla olika funktioner och ha sitt berättigande även som egna<br />

begreppsbeskrivningar – när det verkligen finns skäl<br />

• man bör vara medveten om varför och hur uppräkningen görs<br />

• man bör ange sorteringsgrunden när uppräkningar görs, i alla fall när de används som<br />

begreppsbeskrivningar!<br />

REFERENCER<br />

Nilsson, H. (2008). Ordning i redan – om extensionella ”definitioner”. I: Med tydlig intension, Solna:<br />

Terminologicentrum TNC, ISBN 978-91-633-3194-7, ss. 111–128<br />

Nilsson, H. (2009). X. I: Terminfo nr X 2009, Helsingfors: Terminologicentralen TSK<br />

Picht, H. & Draskau, J. (1985) Terminology : an introduction Guildford: Univ. of Surrey, ISBN: 0-<br />

9510943-1-9<br />

SOU 2008:120 Bättre kontroll av missbruksmedel. En effektivare narkotika- och dopningslagstiftning<br />

m.m., Socialdepartementet, Narkotikautredningen, Stockholm: Fritzes, ISBN 978-91-38-23114-2,<br />

http://www.sweden.gov.se/sb/d/10057/a/117523, 2009-09-04<br />

NORDTERM 2009, København 9.-12. juni 2009 177


Wright, S.E. & Strehlow, R.A. (red.) (1995) Standardizing and harmonizing terminology : theory and<br />

practice, Philadelphia: ASTM, ISBN: 0-8031-1984-4<br />

Åhlberg, L.-O. (1986) Konst, språk och värde : om begrepp och definitioner inom de estetiska<br />

vetenskaperna. Uppsala: Uppsala univ., Inst. f. estetik, ISBN: 91-506-0475-9<br />

Österberg, H. (1979), Hierarkisk begreppsanalys : ett hjälpmedel vid undersökning av komplexa<br />

forskningsproblem, Stockholm: EFI : Norstedt, 91-1-787741-5<br />

Exemplen är (om inte annat nämns) hämtade från Rikstermbanken: .<br />

NORDTERM 2009, København 9.-12. juni 2009 178


TERMDIST – nordisk terminologiutbildning i<br />

ljuset av europeiskt utbildnings- och<br />

certifieringsarbete inom terminologi<br />

Henrik Nilsson a och Niina Nissilä b<br />

a Terminologicentrum TNC, Västra vägen 7 B, SE-169 61 Solna, Sverige, +46 8 446 66 10,<br />

henrik.nilsson@tnc.se<br />

b Vasa universitet/Vaasan Yliopisto, Institutionen för nordiska språk, PB 700, FI-65101 Vasa,<br />

+358 6 324 81 11, niina.nissila@uwasa.fi<br />

Abstract. Sedan ett par år har C openhagen Business School (København), Norges<br />

Handelshøyskole (Bergen), Syddansk Universitet (Kolding), Terminologicentrum TNC<br />

(Stockholm) och Vasa u niversitetet (Vasa), Tolk- och översättarinstitutet (Stockholms<br />

universitet, Stockholm) och Stofnun Árna Magnússonar í íslenskum fræðum (Reykjavík) samarbetat<br />

inom projektet TERMDIST. Målet är att sk apa ett nätbaserat magister-/masterprogram i<br />

terminologi. Projektet presenterades under Nordterm 2007, och sedan dess har arbetet fortskridit.<br />

Höstterminen 2009 genomförs en pilotkurs. Denna kurs ska sedan upprepas som ett första steg i<br />

ett längre magister-/masterprogram, eventuellt med start hösten 2010. I denna artikel kommer vi<br />

att redovisa hur arbetet har fortskridit med kursen och på vilket sätt en nordisk utbildning av det<br />

här slaget är i ntressant för nordiska företag och deras anställda. Under ett seminarium om<br />

terminologens yrkesroll som hölls i Paris i feb ruari 2009 presenterade TermNet en plan för hur<br />

”terminologihanterare” (”terminology managers”) ska kunna certifieras (ino m projektet EU-<br />

CERT). Planen innehöll bland annat de l ärmoduler som ansågs behöva ingå i terminologiutbildningar<br />

för att en så dan certifiering skulle kunna ske. Artikeln kommer därför även att<br />

behandla i vilken mån innehållet i det tänkta nordiska magister-/masterprogrammet (sett även i<br />

förhållande till an dra existerande europeiska masterprogram) kommer att motsvara den<br />

planerade certifieringen. Mer information finns på: .<br />

TERMDIST: NÄTVERK OCH UTBILDNING<br />

Det nordiska nätverket TERMDIST skapades 2005 med stöd från Nordplus Språk.<br />

Nätverket TERMDIST arbetar aktivt m ot målet att skapa en samnordisk utbildning i<br />

terminologi på master-/magisternivå 1 .<br />

I nätverket ingår för närvarande fyra nor diska högre utbildningsinstitutioner där det<br />

bedrivs forskning och undervisning i terminologi och fackspråk och ett företag som är<br />

en drivkraft för terminologisk utveckling i sitt land:<br />

Copenhagen Business School (Handelshøjskolen i København), Institut for<br />

internationale sprogstudier og vidensteknologi, Danmark<br />

Norges Handelshøyskole, Institutt for fagspråk og interkulturell<br />

kommunikasjon, Norge<br />

1 Här råder viss språkförbistring mellan länderna varför både beteckningarna magisterprogram och masterprogram används.<br />

NORDTERM 2009, København 9.-12. juni 2009 179


Stofnun Árna Magnússonar í íslenskum fræðum, Island<br />

Syddansk Universitet i Kolding, Institutt for fagsprog, kommunikation og<br />

informationsvidenskab, Danmark<br />

Terminologicentrum TNC, Sverige<br />

Vasa universitet, Institutionen för nordiska språk, Finland<br />

Förutom dessa har Tolk- och översättarin stitutet TÖI (Stoc kholms Universitet)<br />

också deltagit i nätverket.<br />

Förutom nätverksorganisationernas egen finansiering har projektet m ottagit stöd<br />

från Nordplus Språk under 2005–2008. Språkrådet i Norge bidrar till utveckling av<br />

läromedel. Utveckling av den kurs i term inologi som ges hösten 2009 (projektåret<br />

2008/09) finansieras av Norgesuniversitetet.<br />

Magister-/masterprogrammet 2 har p lanerats som ett Internetbaserat p rogram (60<br />

ECTS, högskolepoäng) enligt Bolognam odellen. Fokus kommer att ligga på distansundervisning.<br />

Enligt planerna ska programmet omfatta ett år, men kommer tidsmässigt<br />

att fördelas över två år så att det går att kombinera med till exempel förvärvsarbete.<br />

PILOTKURSEN 2009<br />

Hösten 2009 genomför s den första m odulen (Terminologi I) i nordiska m aster-/<br />

magisterprogrammet som en pilotkurs ”Nordi sk kurs i terminologi”. Kursen riktar sig<br />

till kunskapsförmedlare, kommunikationsmedarbetare, översättare och<br />

dokumentalister, men också till fackexpert er med interesse för effektiv språklig<br />

kommunikation. Kursen ger 7,5 ECTS och varar 11 veckor (v. 40–50) hösten 2009.<br />

De medverkande instanserna kommer att va ra ansvariga för olika delar av kursen.<br />

Deltagarna kommer från alla de nordiska länderna.<br />

Kursen är nätbaserad och genom förs i nätinlärningsplattform en It’s learning.<br />

Undervisningen sker i form av självstudi er, presentationer på nätet, asynkron dialog,<br />

synkron chatt i mindre grupper, och övningar i grupper eller individuellt.<br />

It’s learning fungerar som kurswebbplats, so m används som materialbank för<br />

studiematerialet, som diskussionsplattform för m edstuderande och lärare, som<br />

postfack för inläm ningsuppgifter och övninga r och som ”lärarrum”. Undervisningsspråket<br />

varierar m ellan danska, norska oc h svenska. En del av övningarna och<br />

grupparbetena genomförs i bl andade nordiska grupper, en del av dem är språkspecifika.<br />

Antagningskrav är minst tre års utbildni ng på universitets- och högskolenivå. Den<br />

främsta målgruppen är personer som i sitt arbete kan tänkas ha nytta av terminologiska<br />

principer och metoder.<br />

Kursens mål är att ge studenterna färdigheter i terminologiarbete, ge grundläggande<br />

kunskaper om terminologi och terminologins teoretiska och m etodologiska grunder i<br />

ett nordiskt perspektiv, och ge en uppfattni ng om term inologins roll för en effektiv<br />

fackspråklig kommunikation. Studenterna får träning i att analysera och systematisera<br />

begrepp, identifiera och värdera term er i texter, utarbeta och bedöma definitioner och<br />

analysera texter term inologiskt. Kursinnehållet är f örankrat i te rminologistandarder<br />

2 Se nedan.<br />

NORDTERM 2009, København 9.-12. juni 2009 180


utarbetade av ISO. Exempel och övningar som ingår är of ta hämtade från praktiskt<br />

terminologiarbete. Dessutom får student erna bekanta sig m ed terminologiska<br />

problemställningar på alla niv åer, från det lokala till det nordiska planet. Kursen är<br />

tänkt att utgöra en bas för fortsatta studier i terminologi.<br />

Kursen kommer att ge en översikt över terminologins centrala begrepp (begrepp,<br />

referent, begreppskännetecken, begreppsrelationer och be greppssystem, definitioner,<br />

termer etc.), förhållandet mellan fackspråk och allmänspråk, samt förhållandet mellan<br />

terminologilära och lexikografi. Det i ngår många övningar i praktisk term inologiarbete,<br />

såsom strukturering av begreppssystem, definitionsskrivande och<br />

termskapande. För att kunna göra övningarn a får man en introduktion i term inologihanteringssystemen<br />

i-Term och i-Model. Efter kursen ska studenterna kunna:<br />

Strukturera begrepp i begreppssystem<br />

Använda principerna för definitionsskrivning korrekt och redogöra för dem<br />

Känna till principerna för termskapande<br />

Välja ut termer utifrån etablerade kriterier<br />

Argumentera för terminologins roll i en effektiv fackspråklig<br />

kommunikation, både fackinternt och fackexternt<br />

Använda terminologins terminologi korrekt<br />

Examen genomförs som en digital portfölj 3 evaluering. Detta betyder att man under<br />

kursens gång ska lämna in fyra uppgifter, varav man sedan omarbetar tre med hjälp av<br />

individuella kommentarer från läraren. Den slutgiltiga ”portföljen” ska innehålla dessa<br />

tre uppgifter, både i den version som först lämnades in och i en bearbetad form samt<br />

en reflektionstext.<br />

Undervisningen genomförs av nordiska terminologiexperter med erfarenhet av<br />

undervisning, forskning och praktiskt terminologiarbete. Lärarna på kursen har alla en<br />

anknytning till nordiska forskningsinstitutioner eller terminologicentrum.<br />

MAGISTER-/MASTERPROGRAM<br />

Den ovan beskrivna pilotkurse n är tänkt att utgöra en fö rsta modul i ett ettårigt<br />

master-/magisterprogram 4 omfattande 60 HCTS fördelade på 8 moduler som är tänkta<br />

att distribueras enligt följande:<br />

3<br />

I Danmark där metoden är vanlig pratar man både om ”portfolio” och ”portefølje” i pedagogiska sammanhang (Nyt fra<br />

sprognævnet, 2009/2, s. 13).<br />

4<br />

Intresset för ett sådant magisterprogram undersöks nu inom ramen för en doktorsavhandling vid Vasa universitet. En inledande<br />

enkätundersökning visar intressanta, preliminära resultat, bland annat att en stor andel skulle skicka sina anställda på en sådan<br />

kurs, att de föredrar två år framför ett år och att de skulle uppskatta terminologisk kompetens vid nyanställning.<br />

NORDTERM 2009, København 9.-12. juni 2009 181


TABELL 1. Översikt över det planerade magister-/masterprogrammet.<br />

År 1 År 2<br />

Terminologi I (7, 5 ECTS)<br />

Terminologihanteringssystem (TMS:er)<br />

(7,5 ECTS)<br />

Terminologi II (7,5 ECTS)<br />

Projektledning (7,5 ECTS)<br />

Språkpolitik (5 ECTS)<br />

Kunskapsstrukturering (5 ECTS)<br />

Översättningsorienterat<br />

terminologiarbete (5 ECTS)<br />

Masteropgave (15 ECTS)<br />

I nuläget finns inte så m ånga andra liknande utbildningar 5 , men i Spanien erbjuds en<br />

Master Online en Terminología 6 och vi har därför valt att även jäm föra med deras<br />

moduler; även om en sådan jämförelse endast kan bli förhållandevis ytlig; djuplodande<br />

information om vad som ingår i respektive modul har inte funnits tillgänglig.<br />

TABELL 2. Översikt över IULAs ”Master Online en Terminología”<br />

Obligatoriska moduler Valbara moduler<br />

Online Postgraduate Diploma:<br />

Terminology and Professional Needs<br />

(20 ECTS)<br />

Methodology on terminological work<br />

(10 ECTS)<br />

Supervised Master Project (10 ECTS)<br />

Online Postgraduate Course on<br />

Introduction to Terminology<br />

(10 ECTS)<br />

Resource for terminology by Internet:<br />

search and evaluation (5 ECTS)<br />

Using corpora for terminology<br />

(5 ECTS)<br />

Terminology management on computer<br />

assisted translation (5 ECTS)<br />

Making Terminological DB (5 ECTS)<br />

Problems of terminological work<br />

Redan den här enkla överblicken ger vid ha nden att det m esta av innehållet i den<br />

spanska utbildningen överensstämm er med som ingår i det planerade nordiska<br />

magister-/masterprogrammet, även om omfattningen i E CTS varierar något. Som i<br />

TERMDIST finns en grundläggande kurs som också ges separat (Online Postgraduate<br />

Course on Introduction to Terminology). En skillnad är den vikt man i Spanien lägger<br />

på korpusbaserat terminologiarbete.<br />

Exemplet EU-CERT<br />

Inom EU-CERT 7 (European Certificates Campus Project) pågår för närvarande ett<br />

projekt för certifiering av ”terminology managers” och ”financial term inology<br />

managers” med deltagare från Ungern, Rum änien, Spanien och Österrike (Term Net).<br />

5 Vi räknar här inte med de självstudiekurser som erbjuds av bland annat Termisti i Belgien: Abrégé de terminologie multilingue<br />

() och Translation Bureau (BtB) i Kanada: Terminology Tutorial (”Le Pavel”)<br />

(). Vi har heller inte jämfört med EMLex:<br />

European Master in Lexicography: .<br />

6 Se vidare för vidare information om det spanska magisterprogrammet.<br />

7 Se för mer information om projektet.<br />

NORDTERM 2009, København 9.-12. juni 2009 182


Nedanstående översikt presenterades vi d EAFTs seminarium ”The Term inology<br />

Profession and the Marketplace” 8 som hölls i Paris i februari 2009. Enligt denna ska<br />

en certifiering bygga på att term inologen har en utbildning som motsvarar sex s.k.<br />

”skill units” (kompetensenheter) med tillhörande ”learning e lements” (lärkomponenter).<br />

Dessa presenteras närmare i figur 1:<br />

FIGUR 1. Översikt över de delar som ingår i den certifiering av ”terminologihanterare” som föreslagits<br />

inom projektet EU-CERT.<br />

8 Dokumentation finns på .<br />

NORDTERM 2009, København 9.-12. juni 2009 183


I det följande komm er vi att jäm föra innehållet i den tänk ta certifieringen med de<br />

moduler som i dag finns planerade för TER MDISTs magister-/masterprogram. På det<br />

sättet kan man få en uppfattning om huruvi da de som kommer att följa den nordiska<br />

utbildningen skulle kunna certifiera sig i framtiden. Jämförelser med den spanska<br />

utbildningen kommer också att göras.<br />

Även om en sådan jämförelse inte kan bli helt fullödig eftersom information om<br />

EU-CERTs olika kom petensenheter inte h ar funnits tillgänglig kan det ändå ge en<br />

uppfattning om vad som tidigare, och i nuläget, anses tillhöra term inologens<br />

grundutbildning. I beskrivningen av profilen för ”certified terminology manager” sägs<br />

att ”Terminology and term inology management build an in tegral, high quality and<br />

quality assuring part of the end products, services and tolls in the fields of infor mation<br />

& communication, classification & categorization, translation & localization. The new<br />

job profile “Certified Term inology Manager” combines and bundles the various<br />

competencies of professionals active in these areas”. 9<br />

Överlag kan man konstatera att fyra av de sex modulerna verkar täckas in väl i både<br />

det nordiska och det spanska programmet, även om momentet om standardisering inte<br />

får lika stor plats som det verkar ha i EU-CERT. Modulerna om affärsprocesser och<br />

samarbete och psykologi är de som inte täcks in i nuläget. Man ka n då diskutera om<br />

dessa bör ingå eller om de fra mtida terminologerna ska ha detta i bagaget alternativt<br />

skaffa sig den utbildningen någon annans tans. Den här frågan diskuterades under<br />

ovannämnda EAFT-seminarium och Gabriele Sauberer från TermNet varnade då för<br />

att terminologen kan bli en ”eierlegende W ollmilchsau” 10 , dvs. en m ultikonstnär som<br />

ska klara allt, eventu ellt med tveksamt resultat. Man kan diskutera om detta är en<br />

önskvärd utveckling m en vi kan inte förd jupa den diskussionen här utan bara<br />

konstatera att man bör väga in tidigare kom petenser och kompletterande studier när<br />

man bedömer term inologens kompetens. Nedan beskriver vi varje kom petensenhet<br />

från EU-CERT med vad som nämns i olika yrkesprofiler och med praktisk erfarenhet<br />

av terminologiarbete och terminologiundervisning.<br />

Kompetensenheten ”Understanding Term inology Management” motsvarar huvudsakligen<br />

det som i TERMDIST ingår i m odulerna Terminologi I och Term inologi i<br />

Norden och de därtill kopplade lärkom ponenterna är sådana som en terminolog<br />

använder när han eller hon de ltar i aktiviteter som rör terminologiplanering, ensar och<br />

harmoniserar terminologier, skapar nya termer, produktnamn eller funktionsbeskrivningar,<br />

normerar terminologier eller granskar och följer upp terminologier så<br />

att termer och begrepp används på ett rikt igt sätt. Annorlunda ut tryckt, när han eller<br />

hon agerar term inograf, dokumentalist, fackspråkrådgivare, granskare, redaktör eller<br />

fackspråkvårdare. Det ingår mer övergripande moment som att skriva handledningar i<br />

begreppsanalys och term inologiarbete och delta i m er övergripande term inologiplanering<br />

på företags-, myndighets- eller sa mhällsnivå – aktiviteter som term inologer<br />

bevisligen arbetar med i Sverige i dag.<br />

Terminologyrket håller, som så m ånga andra, på att bli alltm er tekniskt och allt<br />

oftare ställs krav på kunnande i hanteri ng av olika term hanteringssystem. När det<br />

gäller kompetensenheten ”Terminology Management Skills” ligger dock Norden väl<br />

9<br />

http://www.iscn.com/projects/eu_cert/index.php?id=52 (2009-05-30)<br />

10<br />

Ung. ”äggläggande ullig gris som går att mjölka”, dvs. ett djur som ger både ull, mjölk, ägg och fläsk – en metafor för en person<br />

med extremt bred kompetens.<br />

NORDTERM 2009, København 9.-12. juni 2009 184


framme: i Danm ark och Sverige finns fler a lokalutvecklade term inologihanteringssystem<br />

(TMS:er) o ch diskussioner om olika typer av m odellering och notation av<br />

begreppssystem fortgår. Det finns oc kså en god inblick och m ånga praktiska<br />

erfarenheter av hur term inologiprojekt bäst bedrivs. I Sverige och D anmark finns<br />

också några terminologer anställda inom offentlig och privat sekt or. I det planerade<br />

magister-/masterprogrammet motsvaras denna enhet av flera moduler: Terminologi II,<br />

Översättningsorienterat terminologiarbete, Kunskapsstrukturering och Projektledning.<br />

Den sistnämnda har tidigare ingått i den Master of La nguage Administration (MLA)<br />

som tidigare getts vid Handelshøjskolen i København 11<br />

Man ska inte underskatta den ökade ”t eknifiering” som också skett av<br />

terminologyrket (automatisk excerpering, kor pusbaserat terminologiarbete etc.) och<br />

Hayhoe (2000) uttrycker detta på följande sät t: ”If we want to prom ote our profession<br />

and ourselves, of course we m ust be competent users of tools. But at the sam e time,<br />

we should not led the tools define us or di stract us, our m anagers, or our audiences<br />

from the essential expe rtise that makes us effective communicators of specialized<br />

information. […] Wha t’s important about our work is the effectiveness and<br />

appropriateness of the content that we deve lop […], not the tools we use to encode<br />

that content. The tools make the production and delivery of the content easier, but it’s<br />

our technical subject matter expertise and communication skills that make us technical<br />

communicators.” Även om detta gällde teknikinformatörer kan mycket sägas vara sant<br />

även för terminologer.<br />

Den översättning av Snom ed (Systematized Nomenclature of Medicine) som har<br />

sysselsatt och sysselsätter m ånga i Danm ark och Sverige är bara ett ex empel på en<br />

tillämpning av terminologiläran inom en vi ss sektor. Och många fler sådana exem pel<br />

finns, liksom exempel på terminologiska tillämpningar i den semantiska webben och i<br />

lokalisering. Det finns alltså ett bra utgångs material för den kompetensenhet som EU-<br />

CERT kallar ”Application, Scenarios”.<br />

Norden har också varit och är fram trädande inom ISO och standardisering av<br />

terminologins egen terminologi och terminologiska arbetsmetoder vilket i sig gör att<br />

det finns mycket att ta upp i den kompetensenhet som kallas just ”Standards and Legal<br />

Issues”. ISO-standardisering utgör bas för den metodik som lärs ut.<br />

Detsamma gäller utbytesformat för terminologiska data (EU-CERT nämner TBX 12 )<br />

där de nordiska länderna har en ganska lång tradition. Däremot finns det nog en del att<br />

komplettera med vad gäller sambandet terminologi och juridik, till exempel<br />

upphovsrätt och liknande frågor.<br />

Som tidigare nämnts är de två kvarv arande kompetensenheterna ”Business Process<br />

& Management Skills” och ”Tea m Working & Communication Skills” d e som i<br />

nuläget minst finns representerade i utbildni ngar. Att terminologiarbete inte är något<br />

ensamarbete är ingen nyhet, och när det gäller den mer ”psykologiska delen” av att till<br />

exempel arbeta m ed en expertg rupp och få m edlemmarna att komm a till konsensu s<br />

kring en definition eller en term finns det en hel del kunskap och erfarenhet bland<br />

yrkesverksamma terminologer. Kanske finns dock inte så mycket av detta beskrivet i<br />

11 Se vidare .<br />

12 TBX (Term Base eXchange) är en öppen, XML-baserad standard för utbyte av terminologiska data som utvecklats av LISA<br />

men som kommer att publiceras som ISO-standard (ISO 30042). Mer information finns på .<br />

NORDTERM 2009, København 9.-12. juni 2009 185


form av utbildningsm aterial och teorier. När det gäller den m er affärsmässiga och<br />

ekonomiska delen har den komm it att bli en del av mången terminologs vardag i takt<br />

med att det krävs alltfler hå rda argument för att m otivera ett terminologiprojekt eller<br />

inköp av ett term inologihanteringssystem. Går det att räkna hem ? Det finns dock<br />

exempel på hur sådan argum entation kan ly ckas; ett sådant är uppbyggnaden av en<br />

termbank på Finlands Bank 13 .<br />

Allt innehåll i dessa kompetensenheter är dock inte helt och hållet frånvarande från<br />

planerade och existerande utbildningar – och i viss utsträckning kan nog en del av dem<br />

vara något som en term inolog har m ed sig sedan tidigare (p resentations- och<br />

undervisningskompetens etc.). En helt annan fråga är i vilken omfattning dessa<br />

moment som å ena sidan är specialkompetens, men å andra sidan allt viktigare som en<br />

del av te rminologiarbetet ska ing å i en terminologiutbildning – kan det räcka m ed<br />

gästföreläsningar eller krävs hela moduler med andra lärare än de som i dag undervisar<br />

terminologi?<br />

Certifiering av terminologer?<br />

Man kan här stanna upp och fråga sig om idén med en certifiering är lämplig för<br />

den lilla yrkeskår som kallar sig terminologer i Norden. Men allra först, några ord om<br />

begreppet certifiering. Begreppet kan definieras som ”handling utförd av en tredje part<br />

som visar att tillräcklig tilltro uppnåtts att en vederbörligt identifierad produkt, process<br />

eller tjänst är i överen sstämmelse med en bestäm d standard eller m ed ett annat<br />

regelgivande dokument” 14 , men nämns ofta ( i Sverige) i samma a ndetag som<br />

ackreditering, legitimering och auktorisering, och kring dessa begrepp råder, i varje<br />

fall i Sverige ibland viss förvirring. 15 Vi ska dock inte fördjupa denna diskussion här,<br />

men man kan konstatera att det teoretiskt skul le vara möjligt att i Sverige certifiera<br />

personer 16 .<br />

Diskussionen om certifiering har interna tionellt förts bland teknikinform atörer<br />

(Turner & Rainey, 2004; Rainey, Turn er & Dayton, 2005; W hiteside, 2003; Brady<br />

2007, Hayhoe 2000) – en yrkesgrupp som har beröringspunkter med terminologerna,<br />

varför dessa diskussioner kan vara intr essanta att app licera på term inologernas<br />

situation. Enligt dessa (Turner & Rainey, 2004) förutsätter certifiering bland annat:<br />

ett giltigt testförfarande<br />

en överenskommen kunskapsbas<br />

en kompetent administration<br />

ett tillförlitligt certifieringsorgan<br />

en rimlig kostnad<br />

13<br />

Se vidare Puttonen i denna volym.<br />

14<br />

SS-EN 45 011 (utg 1), 1989: Certifieringsorgan – Allmänna krav vid certifiering av produkter. Det finns dock flera snarlika<br />

definitioner i andra standarder och ordlistor.<br />

15<br />

Turner & Rainey (2004) definierar begreppet ”certification” som ”recognition or validation by a professional organization<br />

(including a college or university) or agency that an invididual possesses the qualification for engaging in a specific profession”.<br />

TNC har inlett en analys av dessa begrepp och deras svenska termer.<br />

16<br />

Det finns yrken som kan få titeln ”legitimerad” (inom vårdsektorn) och andra som är ”auktoriserade” (revisor och translator).<br />

NORDTERM 2009, København 9.-12. juni 2009 186


En grundläggande fråga blir då om det fö r terminologer går att ta fram en sådan<br />

överenskommen kunskapsbas (body of knowledge) – som definierats som ”essential<br />

information of which practitioners m ust demonstrate mastery to be certified as<br />

professionals in that field” (Hayhoe , 2000). När det gäller kompetenser och<br />

kvalifikationer finns o m möjligt ännu fler begrepp och definition er i om lopp:<br />

kvalifikation, kompetens, skill, qualification, competence … Men oavsett vad man<br />

lägger i dessa begrepp och i begreppet kunskapsbas<br />

17 har det redan gjorts ett antal<br />

sammanställningar, yrkesprofiler, för term inologer 18 som just försöker beskriv a<br />

terminologens olika yrkesroller och länka dessa till nödvändiga kompetenser:<br />

RaDT: Berufsprofil 19<br />

Quirion, Caignon & Mareschal, 2004: ”Formation de terminologues”<br />

OTTIAQ : Kompetenstabeller (”Grilles de compétence”)<br />

EU<br />

Syddansk Universitet, Danmark<br />

Dessa profiler och deras innehåll utgör en bra utgångspunkt för en internationell<br />

kunskapsbas. Men kanske kan det be hövas ytterligare uppspjälkning av<br />

kompetenserna. För det ändamålet kan en diskussion som förts av Ellström (1997) och<br />

en tillhörande modell tjäna som utgångspunkt:<br />

p<br />

attribut<br />

hos<br />

individen<br />

formal competence<br />

officially demanded competence<br />

{<br />

competence in use<br />

actual competence<br />

competence required by the job<br />

FIGUR 2. Modell över yrkeskompetenser (Ellström, s. 268).<br />

Ellström (1997) beskriver den term inologiska oreda som föreligger när det gäller<br />

kompetens och börjar m ed att skilja m ellan begreppen ”competence”, ”occupational<br />

competence” och ”qualification”.<br />

Kompetens (competence 20 ) definierar han som ”the potential capacity of an<br />

individual (or a co llective) to successfully (acc ording to certain form al or inform al<br />

criteria, set by oneself or by som ebody else) handle certain situations or com plete a<br />

certain job or task”<br />

Denna ”capacity” kan, enligt Ellström, beskrivas ytterligare genom fem klasser av<br />

”skills”: motoriska, kognitiva, affektiva, personlighetsrelaterade och sociala.<br />

17 I det här sammanhanget talas det också ibland om s.k. generiska kompetenser men då avses oftast kompetenser en person bör ha<br />

oavsett yrke. Dahllöf (2006) beskriver dessa kompetenser som ”sådana som är av en allmän relevans för många ämnesområden<br />

och som man som student därför torde kunna ta med sig från ett sammanhang till ett annat”.<br />

18 Se vidare Grinsted (2007) för en jämförelse av existerande profiler.<br />

19 Se vidare < http://www.radt.org/veroeffentlichungen.html>.<br />

20 Vi har valt att ibland behålla Ellströms engelska termer (och ibland även definitioner) i stället för att riskera att använda en<br />

felaktig eller olämplig svensk ekvivalent (om sådana ens finns).<br />

NORDTERM 2009, København 9.-12. juni 2009 187<br />

{<br />

attribut<br />

hos<br />

arbetet


Yrkeskompetens (”occupational competence”) kan då ses som ett komplex av dessa<br />

fem klasser, en relation m ellan en individs kapacitet och det en viss s ituation eller<br />

uppgift kräver vilket gör det snarare till en potentiell kapacitet än en verklig kapacitet.<br />

Detta resonemang leder till att begreppet ”qualification” kan definieras som en typ av<br />

kompetens: ”the com petence that is act ually required by the work task; and /or<br />

implicitly or explicitly prescribed by the employer” (Ellström, 1997)<br />

Han fortsätter därefter med att ta upp fe m typer av kompetens och tre sätt att se på<br />

kompetens. Enligt de t första sättet (till vänster i bilden) ses kom petensen som ett<br />

kapital som individen besitt er och man talar då om ”formell” eller ”verk lig”<br />

kompetens:<br />

formal competence: kompetens som kan mätas i antal skolår, examina eller i<br />

vitsord från referenspersoner etc.<br />

actual competence: den potentiella kapaciteten hos person att klara av<br />

arbetsuppgift (baseras på utbildning och erfarenheter)<br />

Mycket av fokus har i m ånga sammanhang legat på den formella kompetensen och<br />

hur den säger något om den verkliga kom petensen. Ellström betonar d ock att d etta<br />

synsätt har kritiserats eftersom man inte alltid vägt in kvaliteten på olika utbildningar.<br />

Man har också tyckt att allt för stor vikt har lagts vi d intellektuella ”skills” på<br />

bekostnad av de övriga (till exem pel attityd, motivation och intressen) Dessutom bör<br />

man inte glömm a att den verkliga kom petensen innefattar även sådant som lärs in<br />

under själva arbetet och inte bara resultatet av utbildning. (Ellström, s. 268). Tillämpar<br />

man det här synsättet på term inologyrket infinner sig nog en mycket jäm nare<br />

fördelning mellan tyngden i form ell och verk lig kompetens; eftersom det saknas ett<br />

regelrätt utbildningsprogram handlar det i många sammanhang om att som terminolog<br />

lära sig genom att arbeta handfast m ed terminologi (”learning by doing”), genom en<br />

sorts modernt lärlingsutbildning. Samtidigt kan tidigare utbildning i både<br />

terminologilära och andra äm nen påverka ens yrkeskompetens som terminolog och<br />

bör därför vägas in vid kompetensbedömningar.<br />

Det andra synsättet (till höger i bilden) betonar yrkeskompetensen som något som<br />

framkommer i kraven som ställs för ett vi sst jobb, i en viss jobbannons, på en viss<br />

arbetsplats, av en chef etc. Detta gör att yrkeskompetens närmar sig begreppet<br />

”qualification” (se ovan). Ellström trycker på att det kan f innas skillnader mellan vad<br />

som officiellt krävs och vad som verkligen krävs, särskilt om man inte noggrant<br />

analyserat vad ett visst jobb innebär och vilka krav som bör ställas:<br />

”officially demanded competence”: föreskrivna kompetenskrav<br />

(platsannonser)<br />

competence required by the job: verkliga/egentliga kompetenskrav<br />

”Terminologjobbet” har väl inte hittil ls varit föremål för någon riktigt<br />

genomgripande analys (även om flera av de ovannäm nda yrkesprofilerna tar upp<br />

exempel på arbetsuppgifter en term inolog kan – och får – ut föra) och det skulle alltså<br />

kunna finnas en risk att det som föreskrivs (i jobbannonser och likna nde) inte är det<br />

som krävs – och inte heller det som tagits upp i term inologiutbildningen. Ellström<br />

NORDTERM 2009, København 9.-12. juni 2009 188


etonar dock att den typen av jobbanalyser inte är enkla att genomföra. I stället vill<br />

han föra fram ett tredje, och mer interaktivt synsätt (mitten av bilden):<br />

”competence in use”: fokus ligger här på interaktionen mellan individ och<br />

arbete och den kompetens som verkligen används när arbetet utförs .<br />

Yrkeskompetensen är alltså varken ett attribut som hör till individen eller till själva<br />

yrket/jobbet utan om den kompetens som utvecklas i interaktionen m ellan individen<br />

och arbetet, den kom petens som verkligen används. Och det är kanske snarare den<br />

som beskrivits i de existerande yrkespro filerna för term inologer; eftersom många<br />

utvecklat yrkesrollen, åtminstone i Norden, genom praktiskt arbete har m an studerat<br />

vilka arbetsuppgifter man verkligen har utfört och inte resonerat fram vad man borde<br />

kunna göra med en viss utbildning i bagaget.<br />

Flera andra frågor kvarstår naturligtvis rörande kompetens och certifiering: Bör en<br />

analys av terminologjobb i Norden genomföras och på vilket sätt? Vilket organ skulle<br />

utföra en certifiering i varje land? Förmodligen bör certifieringen utföras lokalt, m en<br />

ett alternativ vore a tt en internationell organisation på terminologiområdet, som till<br />

exempel Infoterm eller TermNet, skulle sköta detta, men en förutsättning är då att d et<br />

finns beskrivningar som är jämförbara för existerande terminologiutbildningar.<br />

Alldeles oavsett om certifieringen realiseras eller in te kan det vara in tressant att<br />

föra en diskussion om terminologyrkets status och utveckling. I takt m ed att yrkeskåren<br />

förhoppningsvis växer bör man studera vilka krav som kan komma att ställas.<br />

Återigen kan man jämföra med teknikinformatörerna; i studier (W hiteside, 2003) har<br />

det framkommit att det som nyutexaminerade teknikinformatörer och chefer anser vara<br />

det viktigaste att komplettera en utbildning med är:<br />

”business operations<br />

project management<br />

problem-solving skills<br />

scientific and technical knowledge”<br />

Återigen är det inte svårt att tänka sig att flera av de här punkterna är relevanta även<br />

för terminologer, särskilt med tanke på de kom petensenheter i de n föreslagna<br />

certifieringen som i dag verkar vara något mindre utvecklade i terminologiutbildningar<br />

(ekonomisk argumentationsförmåga etc.).<br />

Diskussionens vågor för och em ot certifiering har alltså sva llat höga bland teknikinformatörer<br />

och inform ationsspecialister, men enbart nyligen väckts bland<br />

terminologer. Man kan därför fråga sig om det är lika relevant med en certifiering för<br />

terminologer och vad den i så fall skulle tjäna till. Följande uppställning presenterar<br />

några argument för och emot:<br />

För:<br />

Kan ge yrket status och<br />

legitimitet – och eventuellt<br />

högre löner<br />

Ansvarsmekanism<br />

Dokumenterar<br />

yrkeskunskaper<br />

Skapa (inter)nationell samhörighet<br />

NORDTERM 2009, København 9.-12. juni 2009 189


Emot:<br />

För få yrkesutövande<br />

terminologer<br />

Svårt att sätta upp kriterier<br />

Svårt att få fram objektiva<br />

data om vad som efterfrågas<br />

på arbetsmarknaden<br />

Av en sådan samm anställning är d et förstås svårt att dra några slutsatser om en<br />

certifiering bör genomföras eller e j, men den kan möjligtvis väcka en diskussion som<br />

kan fortsätta inom bland annat Nordterm s ramar. Vad m an kan konstatera är att<br />

terminologyrket innehåller et t brett spektrum av roller och uppgifter och att<br />

terminologen ofta innehar många roller på samma gång.<br />

Terminologiutbildning – några utmaningar och frågor<br />

Alldeles oavsett om den ovannämnda certifieringen realiseras eller inte kan det vara<br />

intressant att fortsätta föra en diskussi on om terminologyrkets status och utveckling<br />

och vilka konsekvenser detta får för aktuell och framtida utbildning av term inologer.<br />

Redan i dag finns m ånga utmaningar för terminologiutbildningen i de nordiska<br />

länderna:<br />

Inget större genomslag av terminologi som akademiskt ämne och<br />

terminologiprofessurer finns i få nordiska länder.<br />

Otillräckligt antal studenter: en av anledningarna att TERMDIST startades<br />

var just att det i varje nordiskt land inte ansågs finnas tillräckligt studenter<br />

för att kunna starta en längre utbildning i terminologi.<br />

Olika utbildningskontexter (nätkurser, självstudiekurser, kurser i samband<br />

med projekt, kurser som ingår i introduktioner för nyanställda etc.) ställer<br />

olika (och nya?) krav på innehåll och metodik.<br />

En förändrad arbetsmarknad (och en framtida certifiering) ställer nya krav<br />

på innehållet i terminologiutbildningar vilka i sin tur ställer nya krav på<br />

terminologiutbildarna och på tvärvetenskapliga samarbeten.<br />

När det gäller målgrupper för terminologiutbildningar kan man fundera på om man<br />

bör sträva mot en ”terminologisering” av andra yrkesgrupper – och utbildningar?, dvs.<br />

parallellt nyutbilda terminologer vid universitet och högskolor i särskilda program<br />

men också erbjuda fortbildning för yrkesverksamm a personer från andra områden och<br />

erbjuda terminologi som en m odul i he lt andra utbildningsprogram än enbart<br />

språkorienterade? Quiron et al (2004) nä mner i sin yrkes- oc h kompetensprofil för<br />

terminologer att när det gäller term inologens kunskaper i ett fackområde kan man<br />

antingen tillgodose detta genom en introduktio n i fackområdet eller genom att ställa<br />

krav på tid igare studier inom detta om råde. Ska m an alltså, annorlu nda uttryckt,<br />

utbilda terminologer i kem i och andra fackom råden och parallellt utbilda kemister,<br />

fysiker etc. i term inologi? Kan man då i förlängningen tänka sig att en utbildning i<br />

terminologi ska kunna ses som en del i livs långt lärande och något som man snarare<br />

ska kunna få lära på/i jobbet vilket i sin tur ställer andra krav på didaktik och metodik.<br />

En annan relaterad fråga är hur m an bör resonera kring antagningskraven till<br />

terminologiutbildningarna. I Kanada har m an på Translation Bureau, som anställer<br />

NORDTERM 2009, København 9.-12. juni 2009 190


många terminologer, nyligen ändrat kraven så att det nu krävs en översättarexamen för<br />

att få påbörja det tvååriga interna utbildningsprogrammet som leder fram till titeln<br />

terminolog. På TNC arbetar flera te rminologer som har annan huvudsaklig<br />

utbildningsbakgrund än språklig, vilket ibla nd har förvånat utländska term inologer.<br />

Även i TERMDIST di skuterades dessa frågor eftersom det ibland ställs krav in om<br />

institutioner på särskilda bakgrundsstudier för studenter som vill söka till ett nys tartat<br />

magister-/masterprogram.<br />

SLUTSATSER OCH IDÉER<br />

En bit in i p ilotkursen framstår TERMDIST som ett gott n ordiskt samarbete, som<br />

trots många utmaningar och olikheter kunna t realiseras. TE RMDIST-samarbetet har<br />

satt fingret på viktiga skillnader i uppfa ttningar och undervisningmetoder – något som<br />

också förtjänas att beskrivas i en egen artikel. Det framstår allt tydligare att det än så<br />

länge kan bli svårt för varje nordiskt land att få tillräckligt med studenter för att ordna<br />

ett eget master-/magisterprogram i terminologi, men det förhållandet kan naturligtvis<br />

ändras. Dock ändras inte det faktum att en samnordisk kurs är berikande på flera sätt,<br />

både för lärare och studenter.<br />

I ljuset av europeiskt arbete m ed certifiering och europeisk term inologutbildning<br />

kan det magister-/m asterprogram som skisserats inom TERMDIST, m ed vissa<br />

tänkbara kompletteringar, sägas väl motsvara EU-CERTs tänkta certifiering, och även<br />

täcka in innehållet i andra utom nordiska motsvarande program. Och de EU-CERTenheter<br />

som i dag saknas eller är m indre utvecklade skulle kunna ge upphov till nya<br />

intressanta tvärvetenskapliga samarbeten som kan bli till gagn även för utveckling av<br />

terminologiläran.<br />

Vi vill avs luta med några f rågor och idéer på tem at yrkeskompetens och<br />

certifiering: Frågan om certifiering skulle behöva fortgå – varför inte inom ramen för<br />

Nordterm, som ett nytt gem ensamt nordiskt projekt? – och utv ecklingen inom DTTs<br />

arbetsgrupp för utbildning där m an nyligen skapat ett system för viktning och arbetat<br />

fram kompetensmatriser bör följas. Ka nske dessa kan anpassas till nordiska<br />

förhållanden på samma sätt som deras Berufsprofil?<br />

Den enkätundersökning som genomförs vid Vasa universitet blir en intressant<br />

utgångspunkt för diskussioner och eventuellt fler undersökningar om olika typer av<br />

kompetenser hos terminologer. Kanske bör man djupdyka i vilka behov som finns på<br />

arbetsmarknaden av färdigutbildade te rminologer – och av vidareutbildning i<br />

terminologi av andra yrkesgrupper som kan pågå parallellt. Skulle en studie av<br />

jobbannonser och intervjuer m ed anställda och chefer kunna vara produktivt för en<br />

sådan diskussion eller varför inte ett sem inarium om kompetenser o ch en eventuell<br />

certifiering i Norden?<br />

REFERENCER<br />

Brady, A. (2007). What We Teach and What They Use. Teac hing and Learning in Scientific and<br />

Technical Communication Programs and Beyond.. In Journal of Business and Technical<br />

Communication 21(1), Sage Publications, ss. 37–61.<br />

Dahllöf, M. (2006). ”Generiska kompetenser”. PM, Uppsala: Uppsala universitet, Institutionen för<br />

NORDTERM 2009, København 9.-12. juni 2009 191


lingvistik och filologi, , hämtad 2009-07-31<br />

Ellström, P.-E. (1997). The many meanings of occupational competence and qualification. In Journal of<br />

European Industrial Training 21/6/7. MCB University Press, ss. 266–273<br />

Grinsted, A. (2008). TERMdist. Et Nordisk Initiativ om en Masteruddannelse I Terminologi. In J. Hoel<br />

(red.) Kunnskap og fagkommunikasjon. (Nordterm 15, Nordterm 2007, 13.–16. juni 2008) Oslo:<br />

Språkrådet, ss. 76--84.<br />

Grinsted, A. (2007). TERMdist. Sammenligning af pr ofiler. Terminologer. Opublicerat<br />

projektdokument.<br />

Hayhoe, G.F. (2000). What Do Technical Communicators Need to Know? In Technical Communication<br />

47(2), ss. 151–153.<br />

Nilsson, H. (2009). Le terminologue en profil | The terminologist in profile. Opublicerad presentation<br />

framförd vid EAFTs seminarium The Terminology Profession and the Marketplace som hölls i Paris<br />

den 19 februari 2009.<br />

Pulitano, D. (2009). Le profil du terminologue du RaDT. Opublicerad presentation framförd vid EAFTs<br />

seminarium The Terminology Profession and the Marketplace som hölls i Paris den 19 februari<br />

2009.<br />

Rogers, M. (2000). Training in Terminology. In Conference on Co-operation in the Field of<br />

Terminology in Europe, Union Latine & EAFT: Paris, ss. 167–177.<br />

Sauberer, G. (2009). Terminology and the famous RoI. Opublicerad presentation framförd vid EAFTs<br />

seminarium The Terminology Profession and the Marketplace som hölls i Paris den 19 februari<br />

2009.<br />

Turner, R.K., Rainey, K. T. (2004). C ertification in Technical Communication. In Technical<br />

Communication Quarterly 13(2). Hillsdale, NJ: Lawrence Erlbaum Associates, ss. 211–234.<br />

Turner, R.K., Rainey, K.T. & Dayton, D. (2005). Do Curricula Correspond to Managerial Expectations?<br />

Core Competencies for Technical Communicators. In Technical Communication 52(3), ss. 323–352.<br />

Whiteside, A.L. (2003). The Skills that Technical Communicators Need: An Investigation of Technical<br />

Communication Graduates, Managers, and Curricula. In Journal of Technical Writing and<br />

Communication 33(4), Baywood Publishing Co, ss. 303–318.<br />

NORDTERM 2009, København 9.-12. juni 2009 192


Begreppsstrukturer i språkbadselevers<br />

ämnesspecifika skriftliga produktion<br />

Niina Nissilä a och Nina Pilke<br />

aInstitutionen för nordiska språk, Vasa universitet<br />

Abstrakt. Den här artikeln diskuterar terminologiska metoder i analysen av begreppsstrukturer i<br />

skolelevers skriftliga produktion på L2. Materialet består av 117 uppsatser skrivna av<br />

språkbadselever på årskurs 6. Elevernas begreppsorientering undersöks med hjälp av<br />

begreppskartor (satellitmodell) som förväntas visa hur eleverna strukturerar ett angivet tema<br />

(väder) med tanke på olika nivåer. Studien visar att med stöd av begreppskartor är det möjligt att<br />

identifiera olika känneteckenkategorier på olika nivåer. Med hjälp av de terminologiska metoderna<br />

kan man därmed få en helhetsbild av hurdana begreppshierarkier det finns i texterna och på detta<br />

sätt få en uppfattning om hur elever på en viss årskurs strukturerar ämnesspecifik kunskap.<br />

INLEDNING<br />

I vår artikel diskuterar vi användning av terminologiska metoder i analysen av<br />

begreppsstrukturer i skolelevers skriftliga produktion på L2 (andra språket). Vår studie<br />

är en del av forskningsprojektet Begreppsvärldar i svenskt språkbad (BeVis) vid<br />

institutionen för nordiska språk vid Vasa universitet.<br />

Vi är intresserade av på vilket sätt (om och hur) terminologiska metoder kan<br />

tillämpas i en ämnesspecifik kontext som ändå inte är kommunikation mellan experter.<br />

Vi undersöker elevernas begreppsorientering med hjälp av begreppskartor som<br />

förväntas visa hur eleverna strukturerar ett angivet tema med tanke på olika nivåer. Vi<br />

kommer också att göra en preliminär analys av begreppskännetecken genom att<br />

undersöka vilka aspekter eleverna har med i sina texter.<br />

PROJEKTET BEVIS OCH MATERIAL<br />

Det övergripande syftet med det bakomliggande större forskningsprojektet (BeVis)<br />

är att studera hur språkbadselevernas ämnesspecifika kunskapsstrukturer och<br />

kunskapshantering utvecklas i den grundskoleundervisning som ges via både<br />

språkbadsspråket svenska och första språket finska (BeVis 2009). Svenskt språkbad i<br />

Finland är ett flerspråkigt undervisningsprogram där barn som har majoritetsspråket<br />

finska som sitt förstaspråk lär sig språk och innehåll parallellt. Språkbadet<br />

introducerades i mitten av 1980-talet i Vasa med en grupp i daghem. (Laurén 1999).<br />

Idag deltar ca 4000 elever i svenskt språkbad på daghems- och grundskolenivå på 13<br />

orter. (Laurén & Buss 2009: 3).<br />

Projektet BeVis förenar två forskningstraditioner vid institutionen för nordiska<br />

språk, nämligen forskning i svenskt språkbad och forskning i fackspecifik<br />

NORDTERM 2009, København 9.-12. juni 2009 193<br />

b


kommunikation. Forskargruppen be står av fackspråksforska re och språkbadsforskare<br />

på post doc -nivå, doktorander och avhand lingsskribenter på magisternivå. Denna<br />

kombination förväntas ge dels nya insikter i åldersrelaterad ämnesspecifik kompetens i<br />

andraspråk i språkbad, dels nytt ve tande om tillämpningen av term inologiska och<br />

fackspråkliga metoder i en ny kontext.<br />

Materialinsamlingen inom projektet inleddes 2004 m ed en skriftlig<br />

pilotundersökning och avslutades 2009 med klassrumsobservationer och<br />

lärarintervjuer. Den insamlade korpusen består av enkät, muntlig t material, skriftligt<br />

material och klassrumsobservationer på tre årskurser (3, 6 och 9) i tre städer i Finland<br />

(Esbo, Åbo och Vasa). I denna artik el sätter vi det skriftliga materialet på årskurs 6<br />

som samlats in i oktober 2005 i fokus.<br />

På uppgiftspapperet har eleverna fått krys sa för kön (flicka/pojke) och skriva in<br />

klass. Själva uppgiften är som följer:<br />

Berätta för en språkbadselev i Australien vad som händer när det blir vinter i<br />

Finland. På papperet finns några ledtrådar som ger dig idéer vad du kan skriva<br />

om. Du får välja så många av dem som du vill. Sätt ”Nu blir det vinter i<br />

Finland” som rubrik.<br />

Eleverna har därm ed haft som uppgift att under ungefär 30 m inuter skriva en<br />

uppsats med rubriken Nu blir det vinter i Finland utgående från sex ämnesspecifika<br />

stimulusord (vädret, marken, vattendragen, växterna, djuren, människan). Eleverna på<br />

årskurs 6 i Esbo, Åbo och Va sa har skrivit 119 uppsatser som innehåller sammanlagt<br />

18121 ord. Ord har räknats som grafiska ord med hjälp av W ord i den autentiska<br />

kontext där de förekomm er. Felaktig sä rskrivning av sa mmansättningar (t.ex. minus<br />

grader, Golf strömen, jätte kalt) resulterar således i tv å eller flera ord. Bland<br />

skribenterna finns det enligt den inform ation som eleverna ger på uppgiftspapperet 56<br />

flickor och 61 pojkar. Därtill finns det 2 el ever som inte har angett sitt kön. Av dessa<br />

finns den ena bland flickorna (93 ord) och de n andra bland pojkarna (104 ord) i tabell<br />

1.<br />

TABELL i). Ord i uppsatserna.<br />

Flickor Pojkar Totalt<br />

Ord 10936 7186 18121<br />

Flickorna har skrivit knappt 11000 ord (i genomsnitt 192 ord/uppsats) och pojkarna<br />

drygt 7 000 ord (i geno msnitt 113 ord/uppsats). I genomsnitt har eleverna skrivit 152<br />

ord i sina uppsatser (rubriken inte m edräknad) och variationsvidden för ländgen mätt i<br />

ord i det utvalda m aterialet är 10–388 ord. En kvantitativ genom gång av m aterialet<br />

ifråga om ledtråden väder visar att endast två elever av 119 inte alls diskuterar<br />

begreppet ’väder’ i sina texter. En kvalitativ analys av hur de 117 eleverna presenterar<br />

NORDTERM 2009, København 9.-12. juni 2009 194


egreppet ’väder’ i sina texter gör vi genom att analysera vilka begreppsstrukturer som<br />

förekommer i materialet.<br />

I vår analys använder vi terminologiska metoder med vissa modifieringar. Texterna<br />

är skriva av barn/ungdomar på ett andraspråk och därmed kan man varken förvänta sig<br />

helt korrekta term er eller att de olika begr eppsnivåerna och alla begreppsrelationer<br />

uttrycks explicit i tex terna. Däremot är det av intress e att und ersöka vilka<br />

begreppsnivåer eleverna på årskurs 6 i svenskt språkbad se r ut att favorisera, vilken<br />

intension i form av kännetecken de ger de begrepp som de har valt att diskutera och<br />

hur de uttrycker det ämnesspecifika innehåll et i sina texter. Alla exem pel som vi<br />

presenterar nedan är autentiska (f elen är därmed inte rättade) och kodade (inom<br />

parentes ges årskurs, kön, ort, skola, skribent).<br />

GRÄNSDRAGNINGAR<br />

Vi har inte sett på hur eleverna definierar begreppet ’vinter’, utan koncentrerar oss<br />

på kännetecken som de använder när de be skriver vädret. Gränsdragningen för vilka<br />

kännetecken som har tagits m ed i analysen baserar sig på Nationalencyklopedins<br />

(1996) definition av väder. Där definieras sökordet ”väder” på följande sätt:<br />

rådande tillstånd i fråga om vind, nederbörd, temperatur och liknande<br />

naturföreteelser i den närmast omgivande atmosfären på viss plats vid visst<br />

tillfälle el. under viss tidrymd.<br />

I fråga om ’nederbörd’ har vi avgränsat de t undersökta materialet så att vi tar m ed<br />

de uttryck som hänvisar till väderlek (t.ex. händelserna det snöar, det regnar, det faller<br />

snö), men inte de uttryck som beskriver hur det ser ut i Finlan d på vintern (t.ex.<br />

tillståndet marken är helt vit av snö). Enligt samma princip har vi i d et här sk edet<br />

utelämnat uttryck som marken blir kallare och kallare och marken är frysen, och har i<br />

stället koncentrerat oss på uttryck som klart anknyter till väder och ’temperatur’ (t.ex.<br />

sen blir vädret kallare och det blir hela tiden kallare och kallare). Längden på dagen<br />

och mörkret ingår inte i definitionen av ’väder’. Därför läm nas exempelvis<br />

beskrivningar som det är mycket mörkare än på sommaren utanför den nu aktuella<br />

analysen.<br />

Texterna ger många forskningsmöjligheter. Vår gränsd ragning att ta enbart<br />

begreppet ’väder’ som undersökningsobjekt medför att flera intressanta teman den här<br />

gången lämnas utanför vår analys. Ett av de m är begreppsrelationerna mellan de olika<br />

stimulusbegreppen.<br />

Begreppet ’väder’ i uppsatserna<br />

Vi har upprättat ett satellitsystem (mer om satellitsystem i Nuopponen 2000)<br />

utgående från de begrepp och kännet ecken som förekommer i uppsatserna.<br />

Satellitsystemet kan användas som verkt yg i arbetsprocessen då m an skapar en<br />

indelning för ett om råde. Det kan också användas för att hålla samman fackom rådets<br />

begreppssystem. Satellitsystem kan fungera som visuellt verktyg när man vill illustrera<br />

komplicerade begreppsproblem och som flexibelt begreppsligt verktyg som tillåter<br />

NORDTERM 2009, København 9.-12. juni 2009 195


förändringar, avgränsningar och specifi ceringar under arbetets gång (Nuopponen<br />

2000: 130, 142ff.).<br />

Vi har excerperat kännetecken på ’väder’ i uppsatserna och använder<br />

satellitsystemet för att illustrera kollektivt alla känn etecken på ’väder’ s om<br />

förekommer i uppsatserna från årskurs 6. På de t sättet vill vi illust rera hur barnen på<br />

årskurs 6 ordnar sitt vetande och hurdana be greppshierarkier barnen skapar när de<br />

beskriver begreppet ’väder’. I fortsättni ngen kommer vi att upprätta likadana system<br />

utgående från det övriga undersökningsm aterialet från årskur serna 3 och 9, och<br />

jämföra systemen med varandra. De olika sy stemen förväntas visa hur elever i o lika<br />

åldrar strukturerar ämnesspecifikt vetande.<br />

Vi har byggt satellitsystemet runt begreppet ’väder’ (se Bilaga). Satellitsystemet har<br />

tre satellitnoder. För tydlighetens skull har vi i vår tex t markerat med fet stil de taljer<br />

som är med i figuren. Vi beskriver en satellitnod åt gången, och går vidare med en nod<br />

åt gången från helhet till detalj. Vi koncen trerar oss främst på begreppsnivån och<br />

bortser från eventuella språkfel.<br />

Enligt eleverna på årskurs 6 är den kalla temperaturen och nederbörden i form av<br />

snö de två viktigaste kännetecknen på ’vin ter’. De här två har fått egna noder i vårt<br />

satellitsystem om väde r. De mer sällsynta företeelserna i uppsatserna, d.v.s. solen,<br />

molnigheten, vinden och åskan presenterar vi i en tredje nod (Andra företeelser).<br />

NEDERBÖRD<br />

Enligt eleverna på årskurs 6 hör nederbörd ti ll vinter. Att det snöar är enligt barnen<br />

ett viktigt kännetecken på vinterväder, det näm ns i näs tan alla uppsatser (1a).<br />

Nederbörden kommer enligt barnen i form av snö, slask eller regn (1b och 1c):<br />

Ex.1 a) I Finland snöar det på vintern. (6FV17)<br />

b) I mällan kan det rägna slask (6FED5)<br />

c) Ibland regnar det, ibland snöar det (6FÅ1)<br />

Barnen skriver om hur ofta det snöar ( frekvens), hur m ycket det snöar ( mängd)<br />

och när och var det snöar ( lokalisering). Frekvensen utgör en skala från att det snöar<br />

några gånger eller ibland till att d et snöar ofta (2a) eller att de t snöar oftast flera<br />

gånger i veckan. Det intressanta i dessa klimatförändringens tider är observationen att<br />

det kanske inte alltid snöar (2b) på vintern. Mängden va rierar likaså på en skala från<br />

lite till mycket och mera (2c).<br />

Ex. 2 a) Det snöar ganska ofta. (6PV112)<br />

b) De är kanske trokigt när där komma inte snö (6FED6)<br />

c) Det snöar jätte mycke när de är vinter. (6PV116)<br />

Lokaliseringen av snön är både tidsmässig och rumsmässig i uppsatserna. Ifråga om<br />

tid menar eleverna att d et snöar på vintern och både hela vintern och varje vinter<br />

(3a) nämns i texterna. Snöandet börjar enligt eleverna i början av vintern eller i<br />

december (3b). Uppgiften att skriva ett brev st yr innehållet i texterna så att några<br />

elever har en starkt deiktisk syftning (s e Aristotle 1989; Saarin en 1999: 140f.) i sina<br />

NORDTERM 2009, København 9.-12. juni 2009 196


texter (dagsaktuella förhållanden) och skriver att det snöar idag. Att det till sist snöar<br />

är en konsekvens av att vädret blir kallare och att det först regnar mycket.<br />

Ex. 3 a) Det regnar snö varje vinter i Finland. (6PED8)<br />

b) Ibland smälter snön i november men senast i december kommer det<br />

ny snö. (6PV117)<br />

c) Här i Finland Faller snö från himlet. (6PV19)<br />

d) Snö flingorna kommer ner till marken. (6FEA3)<br />

Rumsmässigt nämns det i de fles ta uppsatserna att det snöar i Finland (3a, 3c) på<br />

vintern. Några har specificerat att det snöar mest i Lappland eller tänkt på sin hem ort<br />

och konstaterar att det snöar i Vasa på vintern. De som anger riktning skriver att snön<br />

kommer från himlen (3c) och att snön faller till marken (3d).<br />

Ex. 4 a) Oftast regnar det mycket före de första snön kommer. (6PEA24)<br />

b) Först regnar det litet (6PEA17)<br />

Tidsmässigt menar barnen att det kan regna ibland eller hela vintern. I fråga om<br />

mängden av regn menar de att det regnar oftast mycket (4a) eller först litet (4b).<br />

TEMPERATUR<br />

I sina uppsatser nämner alla elever som skriver om väder i vårt m aterial<br />

kännetecknet temperatur i en eller annan form. En del hänvisar till<br />

temperaturbegreppet genom att skriva att d et är minusgrader respektive plusgrader.<br />

Alla går längre ner i begreppshierar kin och ger tem peraturbegreppet en tidsmässig,<br />

rumslig, kvantitativ (mängd) eller kvalitativ (sätt) avgränsning. De kan ha preciserat<br />

att det är hela tiden (5a) eller oftast minusgrader, att det är minusgrader ute (5b), att<br />

det brukar vara (5c) minusgrader eller att temperaturen går neråt (5d):<br />

Ex. 5 a) På vinter är temperaturen nästan hela tiden på minus. (6PV27)<br />

b) Alltså ute blir minusgrader. (6FV215)<br />

c) Det brukar oftast vara minus grader men (6FV211)<br />

d) Temperaturen går neråt och neråt (6FED14)<br />

De som diskuterar kvantiteten skriver att det är flera minusgrader (6a) eller<br />

alternativt nämner de grader med hjälp av ett värde (6b) eller en skala (6c):<br />

Ex. 6 a) Flera minus grader. (6PÅ24)<br />

b) På vinter kan det vara över -20c° kallt. (6FED11)<br />

c) När det komm er vinter till Fi nland blir det kalt (-5°C - -15°C).<br />

(6PV16)<br />

Vid sidan av tem peratur är det vanligt att eleverna diskuterar kyla (några även<br />

värme) i sina texte r. Vanligast är att de t är e ller blir kallt (7a,b) e ller att d et blir<br />

kallare (7c):<br />

NORDTERM 2009, København 9.-12. juni 2009 197


Ex. 7 a) Vädret är kallt (6PV212)<br />

b) När Finland kommer vinter så vädret blir kalt (6PED3)<br />

c) När det blir vinter här i Finland blir vädret kallare. (6FÅ18)<br />

I en del texter har fenom enet kyla fått en totalitetsbetydelse (allt är ka llt) medan<br />

samma fenomen i andra te xter får avgränsningen ganska kallt och jättekallt. Det är<br />

intressant att notera att eleverna tycks jämföra även om de inte nämner explicit vad de<br />

jämför med (se ex. 7c ovan). De som ger fenomenet kallare en precisering jäm för<br />

platser (Tyskland, Lappland, 8a,b), olika årstider (8c) eller månader (8d).<br />

Ex. 8 a) I Finland är det oftast en kallare vinter, än t.ex. i Tyskland. (6FEC3)<br />

b) I Lappland är det mycket kallare. (6FÅ1)<br />

c) Vädret k ommer att bli kallar e än i sommar elle r höst.<br />

(6FV216)<br />

d) Kallaste är i december, januar och februar. (6FÅ17)<br />

Kännetecknet kallt finns m ed även i de uppsatser som beskriver förhållandena på<br />

vintern som inte varma. Begreppet värme behandlas i några upps atser. Eleverna har<br />

tagit fasta på både sätt ( ganska varmt) och orsakerna bakom att det är varm t<br />

(Golfströmmen).<br />

ANDRA FÖRETEELSER<br />

Den tidsmässiga dimensionen finns också m ed när barnen skriver om solen på<br />

vintern. De m enar att det är soligt bara på dagen och att solen är ” nere än på<br />

sommaren” (d.v.s. lägre ner, 9a). Båda observati onerna implicerar en jämförelse med<br />

de andra årstiderna. Frekvensen för ett soligt väder varierar från att det är mycket<br />

soligt till att solen inte syns så bra eller att solen inte skiner på vintern (9b). Solens<br />

funktion på vinter är att ge ljus, men till egenskaperna hör att den inte värmer (9c).<br />

Ex. 9 a) På vintern syns solen inte så bra när solen är nere än på sommaren.<br />

(6FEA4)<br />

b) Solen skinen inte hela vintren. (6FEA3)<br />

c) Vädret kan ändö vara solig, eller molnig, men fast det skulle vara<br />

soligt betyder det inte att det skulle vara så mycket varmare. (6FED15)<br />

Moln (9c) och vind nämns bara i några en staka uppsatser. Det är enligt en elev<br />

ibland mulet på vintern, det kan vara vindigt (10a) eller vinden kan vara stark/hård.<br />

En av eleverna skriver att det inte åskar på vintern (10b).<br />

Ex. 10 a) Vädret blir kallt och vindigt. (6FEA18)<br />

b) På vinter åskar det inte. (6FEA7)<br />

NORDTERM 2009, København 9.-12. juni 2009 198


DISKUSSION<br />

I vår artikel har vi visat hur man kan använda terminologiska metoder i analysen av<br />

begreppsstrukturer i skol elevers skriftliga produkti on på L2 (andraspråket).<br />

Satellitsystem är ett flexib elt verktyg, som kan användas fö r att illustrera en helhet<br />

som byggs upp av en heterogen sam ling av egenskaper. Vi använder satellitsystem<br />

som begreppskartor vilka visar hur eleverna strukturerar ett angivet tema med tanke på<br />

olika nivåer. Kartorna ger en helhetsbild av hurdana begreppshierarkier det finns i<br />

texterna. En språkbadslärare t.ex. kan tänkas ha nytta av att kunna få en helhetsbild av<br />

hur eleverna tänker när de st rukturerar ämnesspecifikt innehåll i en viss ålder. Då kan<br />

läraren anpassa både innehållet och f ormen i sin undervisning till elevernas kunskaper<br />

och utvecklingsnivå. Lärarna kan också tänkas ha nytta av att kunna relatera elevernas<br />

produktion som helhet till det som de har gått igenom i undervisningen.<br />

Vårt mål har varit att testa hur terminologiska metoder kan tillämpas i analysen av<br />

elevtexter. Pilotstudien visar att det på uttrycksnivå inte är ä ndamålsenligt att i f örsta<br />

hand prioritera termer eftersom det är fråga om språkinlärning. Bristande användning<br />

av termer (t.ex. regna snö istället för snöa) är dock inget hinder för våra analyser.<br />

Läraren kan på uttrycksnivån se vilka luc kor det finns i ordfö rrådet inom det givna<br />

temat. Uppsatserna är resultatet av en urvalsprocess och visar därmed naturligtvis inte<br />

allt vad eleverna kan om ifrågavarande tema.<br />

Begreppet ’väder’ och dess kännetecken i texterna kan analyseras m ed hjälp av<br />

terminologisk begreppsanalys. Med stöd av våra begreppskartor har vi kunnat<br />

identifiera olika känneteckenkategorier på olika nivåer. Det finns flera möjligheter att<br />

redovisa resultaten. För det första kan m an ge en helhetsbild där m an har m ed alla<br />

kännetecken som eleverna n ämner. För det andra kan m an begränsa<br />

resultatredovisningen till att gälla bara de kännetecken som är de mest frekventa (t.ex.<br />

nämns i 50 % av texterna). I fortsätt ningen kommer vi att se på själva<br />

begreppsorienteringen med kartorna so m utgångspunkt, dvs. undersöka vilka slags<br />

begreppsrelationer som finns mellan kännetecknen inne i ett begrepp (begreppsinterna<br />

begreppsrelationer) och m ellan olika stimulusbegrepp (begreppsexterna<br />

begreppsrelationer). De begreppsinterna relationerna indelas i v år studie dels i<br />

horisontala relationer, dels i vertikala relationer.<br />

Eleverna ser ut att definiera begrepp i sina texter vilket styrs av uppgiften. Eleverna<br />

har i sina uppsatser bl.a. ofta gett begreppen ’snö’ och ’jul’ en längre beskrivning som<br />

förklarar fenomenet för en som inte känner ti ll det. Definitionsstrategier är därm ed<br />

också ett möjligt tema för fortsatt forskning.<br />

REFERENCER<br />

Aristotle (1989). Categories. In: Aristotle’s Categories and De Interpretaione, 3–42. Clarendon Aristotle<br />

Series. Oxford: Clarendon Press.<br />

BeVis (2009). Begreppsvärldar i sv enskt språkbad. Tillgänglig: http://www.uwasa.fi/pohjoismaiset/<br />

forskning/koi/<br />

Laurén, Christer (1999). Språkbad. Forskning och praktik. Vaasan yliopiston julkaisuja. Tutkimuksia<br />

NORDTERM 2009, København 9.-12. juni 2009 199


226. Vaasa: Vaasan yliopisto.<br />

Laurén, Christer & Martina Buss (2009). Samhället som språklärare i språkbad: För att förstå behöver<br />

man inte kunna varje ord. Tillgänglig: http://www.uwasa.fi/midcom-admin/ais/midcomserveattachment-6753/sprakbad.<br />

Vaasa.<br />

Nationalencyklopedins ordbok (1996). Tredje bandet. Språkdata, Göteborg, och Bokförlaget Bra Böcker<br />

AB, Höganäs.<br />

Nuopponen, Anita (2000). Satelliter och system – att integrera begreppssystem i terminologiarbetet. I:<br />

Nuopponen, Toft & Myking (red.) I terminologins tjänst. Festskrift för Heribert Picht på 60årsdagen,<br />

128–145. Vaasan yliopiston julkaisuja. Selvityksiä ja raportteja. Vaasa.<br />

Saarinen, Irja (1999). Kvantitatiivinen silmänkääntötemppu ja miten se tehdään. Määrien retoriikkaa<br />

Suomen Kuvalehdessä. I: Käytännön sanelema juttu? Aikakauslehtigenreä etsimässä, 140–176.<br />

Kielen opissa nro 3. Helsinki, Helsingin yliopiston Suomen kielen laitos.<br />

NORDTERM 2009, København 9.-12. juni 2009 200


Compiling a Glossary for a Special Language<br />

Learning Tool<br />

Päivi Pasanen<br />

Kymenlaakso University of Applied Sciences<br />

P.O. Box 9, FI-48401 Kotka, Finland<br />

Abstract. This paper is based on the experience received from two Leonardo da Vinci projects,<br />

MarEng and MarEng Plus 1 . During the MarEng project a web-based maritime English learning<br />

tool was compiled. The learning tool was published on a CD-ROM and on the internet in the<br />

Spring of 2007. Maritime students and workers all over the world have taken the learning tool<br />

into wide use. However, based on the feedback, elementary level material and material on some<br />

relevant themes are in demand, as well as a teacher’s manual. The aim of the ongoing MarEng<br />

Plus project is to respond to this feedback. One of the aims of the MarEng Plus project is to<br />

update the glossary which was compiled during the MarEng project. This paper considers the<br />

glossary from a terminological point of view and suggests some guidelines which could be<br />

applied in the glossary work. Terminologists might meet similar challenges or tasks in event that<br />

existing company glossaries are used as a source for a termbank or terminology work on a<br />

special field.<br />

background<br />

For a long time, English has been the common language at the seas. This is more<br />

apparent in today’s market with multinational and multicultural crews. Sufficient<br />

command of English, and more precisely, maritime English, is crucial, not only for<br />

everyday work, but especially for safety reasons. To ensure the safety, security and<br />

efficiency of seafaring and port operations messages must be understood correctly in<br />

spite of the different cultural and national backgrounds of the speakers. All<br />

communications must be conducted in a manner which will avoid confusion and<br />

misunderstanding, especially in emergency situations. These demands are a challenge<br />

to seafarers, who cannot attend traditional language training because of the long<br />

sailing periods (very often from six months up to one year). Besides seafarers, the tool<br />

is intended for landlubbers working ashore in maritime business and for maritime<br />

English teachers and students all around the world. The lack of maritime English<br />

teaching material which is available at low cost or free stimulated the project coordinators<br />

to start planning the MarEng project.<br />

The aim of the first MarEng project was to promote the maritime English language<br />

competences of those working in various maritime professions in Europe. During the<br />

project a web-based maritime English learning tool was compiled. The MarEng<br />

Learning Tool is an organised database of various maritime English teaching and<br />

learning materials which are grouped in thematic modules, each containing a number<br />

of units. The materials represent two language levels, intermediate and advanced. The<br />

NORDTERM 2009, København 9.-12. juni 2009 201


themes are, such topics as, port operations and cargo operations, shipping and<br />

maritime management, vessel types and parts (the engine room, cargo space) and the<br />

crew, weather, radio communication, standard marine communication phrases,<br />

emergency situations, vessel traffic services and ice navigation.<br />

The aim of the ongoing MarEng Plus project (MarEng Plus Learning Tool and<br />

New Applications) is to respond to the feedback received from the learning tool. The<br />

usability of the learning tool will be improved and the user group will be widened by<br />

adding elementary level materials to the tool. Also, two new themes will be included.<br />

These are Maritime Security and the Marine Environment. The teacher’s manual will<br />

give instructions to English teachers on how to use the tool.<br />

mareng glossary<br />

One of the aims of the MarEng Plus project is to update the glossary which was<br />

compiled during the MarEng project. The English-English glossary is based on the<br />

materials produced for the learning tool. Every partner made a selection of headwords<br />

from his or her material and suggested them to the partners responsible for the<br />

glossary compilation. All learning material is English-English and is based on<br />

language used in actual situations on board ships and in ports. The texts are carefully<br />

thought out dialogue and information written with a professional maritime flavour. In<br />

addition no rules, regulations, international conventions or other legal texts are<br />

included. They are not needed in the tool, because teachers have access to the original<br />

legal texts.<br />

According to the project plan of the MarEng Plus project, the material in the<br />

existing glossary will be preserved and completed with new themes and new<br />

headwords selected from the new elementary level material. For financial reasons, in<br />

the new tool the glossary will be in pdf format. Furthermore, the glossary will be<br />

transferred into a form which can be utilised in a mobile phone even when the phone<br />

is out of satellite connection.<br />

The aim of the glossary is to facilitate the use of the learning tool. Terminologists<br />

might meet similar challenges or tasks in the case existing company glossaries are<br />

used as a source for a termbank or terminology work on a special field. The existing<br />

glossaries may not be user-friendly, because even if they are electronically readable, it<br />

may be that they have different formats and structures. Very often they are just unclear<br />

paper copies with hand-written side notes. Glossaries which have been compiled from<br />

different sources contain overlapping information or concepts which are out of date.<br />

At the same time, some important (new) concepts are missing. In this case a<br />

terminologist has to address the questions, how to utilize existing resources, how to<br />

instruct material producers and how to find possible inconsistencies. The quickest way<br />

to solve the problem is to just add new headwords and definitions to the existing<br />

glossary. The hardest way is to compile a completely new terminological glossary. Or,<br />

as a compromise light renovation could be a suitable solution. In the following, I will<br />

discuss some aspects of a glossary work to be considered if the choice is to lightly<br />

renovate an existing glossary.<br />

NORDTERM 2009, København 9.-12. juni 2009 202


The headwords of the glossary<br />

Glossaries are structered into two easily distinguished parts, which can be called the<br />

left hand side and the right hand side. On the left are the headwords and on the right is<br />

the information about the headwords, such as definitions, examples, grammatical<br />

information etc. (see e.g. Kudashev 2007: 33–42). The size of a glossary is normally<br />

indicated with the number of headwords. Having 1400 headwords (and 33 pages), the<br />

existing MarEng Glossary could be called handysize. With new themes and the new<br />

level the number will grow, maybe double. The student will have difficulty in finding<br />

the word or words in question. Obviously, the number of headwords should be<br />

reduced. Handbooks on terminology work (e.g. Sanastotyön käsikirja 1988: 153)<br />

instruct to start reduction from general language words. So, I checked the left hand<br />

side of the glossary with the aim to detect unnecessary general language headwords.<br />

As a result, I detected 24 headwords which could be considered as general language<br />

words. General language words should not be found as headwords in a special<br />

language glossary, unless they have a special meaning in the field (cf. Kudashev 2007:<br />

97). The following headwords can be mentioned as examples of general language<br />

words included in the glossary:<br />

(1) automotive<br />

(2) average<br />

(3) can<br />

The idea of the compilers was to give the general language meaning for a word<br />

which is a part of a compound term, for example, the noun can is a part of can buoy (a<br />

cylindrical unlighted buoy used as a channel marker). Still, I would exclude can from<br />

the glossary and show the necessary information in the definition of the term. The<br />

same would apply for ore and side. Furthermore, the adjectives automotive, average,<br />

total and firm, for example, have the same meaning in the maritime context as they<br />

have in the general language.<br />

The question about inclusion of multiword language units (MWLU), such as<br />

compound terms, collocations and idioms, is more complicated, since English for<br />

special purposes is rich in multiword units. A collocation is a relationship involving<br />

the co-occurrence of words (Perea Barberá 1999: 290), whereas a compound is a<br />

combination of two or more words with a new meaning (Sager 1990: 76). As Pritchard<br />

(2003: 7) says, in English it is often difficult to decide whether a certain multiword<br />

unit is a compound or a collocation. I will not discuss the difference between<br />

compound terms and collocations, but instead, will consider them as a whole having<br />

the concept multiword language unit as the superordinate concept for both. As a rule,<br />

the number of multiword language units is higher in specilized dictionaries than in<br />

general language dictionaries (Pritchard 2003: 2). It has been agreed that about 80<br />

(60–95) per cent of special language dictionary headwords are multiword units<br />

(Kudashev 2007: 186). In the MarEng Glossary one will find the portion of multiword<br />

heads is a lower percentage. There are at least four possible explanations for this.<br />

NORDTERM 2009, København 9.-12. juni 2009 203


Either there are too many one word heads or some multiword heads are missing. The<br />

third explanation is that the maritime language is the necessary exception from the rule<br />

or the material does not include multiword terms. None of these explanations in my<br />

view seems valid. Instead, I believe the explanation can be found in the part of speech<br />

devision of the headwords. The avarage proportion of multiword units as headwords<br />

has been counted from dictionaries with nouns or noun phrases as headwords. The<br />

MarEng Glossary includes a number of verbs and adjectives as head words, although,<br />

normally adjectives would be in a glossary as a constituent of a noun phrase. The<br />

compilers of the glossary have wanted to give the meaning of constituents of<br />

multiword terms, being it an adjective or a noun. In most cases this practise is quite<br />

justified, since nouns normally are terms alone, as the noun deck in the term deck<br />

cargo:<br />

(4) deck cargo cargo and goods carried on deck<br />

Besides nouns and noun phrases, the MarEng Glossary includes a number of<br />

adjectives and verbs as headwords:<br />

(5) inbound inward bound e.g. inbound ships, ships sailing into the port,<br />

channel or fairway<br />

(6) flammable easily set on fire<br />

According to Grinёv (1993: 28–29), almost all terms are nouns, since verb terms<br />

can always be transformed to nouns. The compilers have often included both the verb<br />

and the noun having the same baseform. The number of headwords could be reduced<br />

by leaving just one of them in the glossary, since they designate the same concept.<br />

This is evident from the definitions which have the same characteristics, as is the case<br />

in the following examples:<br />

(7) cool to bring to cold temperature<br />

(8) cooling lowering the temperature of cargo<br />

The choice between a noun and a verb depends on the use of the terms in the<br />

material. From this point of view, it could be justified to place a verb as a headword.<br />

On the other hand, from a terminological point of view, it could be justified to place a<br />

noun as a headword, since nouns are easier to define than verbs.<br />

Synonyms are normally accepted in a special field glossary. Since they name the<br />

same concept, they are recorded in the same entry in the MarEng Glossary. The<br />

problem is that the reader cannot find the synonym if it is embedded in the same entry<br />

with another term. Every synonym should have an entry of its own, but the definition<br />

should come with either but not both. In the example 9 below, the synonym lighter<br />

should appear as a separate headword with the notion: see barge.<br />

NORDTERM 2009, København 9.-12. juni 2009 204


(9) barge a lighter, a flat-bottomed vessel, usually intended to be towed or<br />

pushed, for transporting cargo or passangers<br />

Some headwords have variant spellings and forms:<br />

(10) astern full speed! /full speed astern!/ full speed backwards!<br />

(11) liquefied natural gas carrier, LNG carrier a ship specially constructed for<br />

the carriage of natural gas in a liquid form<br />

What is said about the synonyms above, applies to variants as well. Every variant<br />

should have an entry of its own and the definition should appear together with the<br />

variant most frequently used. Other spellings should be cross-referred to the main<br />

entry. However, if the variants appear next to each other in alphabetics, it might be<br />

reasonable to place them in one entry. This is an exception, though. There are just a<br />

few examples about variants having almost identical spellings, like the variants<br />

fo’c’sle and foc’sle, for example.<br />

Extensive use of abbreviations is typical of maritime English. It is important to<br />

explain them in the glossary, because the exclusive use of abbreviations creates a false<br />

feeling of familiarity (Pasanen 2006: 237). Concerning abbreviations, the MarEng<br />

Glossary is inconsistant. An abbreviation is normally given together with the long<br />

form on the same line with or without a definition. But, as a rule, the abbreviation and<br />

a long form do not appear as two separate headwords, as they should. In terminology<br />

work, there is a rule to avoid duplicate definitions. Therefore, the definition should be<br />

given only in one place, either in connection with the abbreviation or with the long<br />

form, which is the normal practice in dictionaries. The solution suggested here is that<br />

the abbreviation and the long form appear as separate headwords and the definition<br />

goes with the long form (see other dictionaries e.g. Webster’s New World Dictionary).<br />

As an example, the following abbreviations can be found in the glossary:<br />

(12) bill of lading / B/L / a document stating that goods have been shipped on<br />

board and are to be delivered to a consignee at a port of destination<br />

(13) C.P.A. = Closest Point of Approach<br />

(14) CPA = Closest Point of Approach the shortest passing distance<br />

In the example 12 the abbreviation is embedded in the headword together with the<br />

long form of the term. There is no headword starting with the abbreviation B/L in the<br />

glossary. Therefore, a reader may not find an explanation for the abbreviation. In the<br />

examples 13 and 14 the abbreviations are synonymous variants, which are placed in<br />

different places in alphabetics. Traditionally, abbreviations consisting of capital letters<br />

separated with full stops, start a section in a glossary, while abbreviations without full<br />

stops appear later in the section. There is no need to change this order, as far as the<br />

NORDTERM 2009, København 9.-12. juni 2009 205


abbreviations are followed with a cross reference to the main entry and the definition<br />

follows the main headword.<br />

In the MarEng Glossary, proper names are included only in the form of<br />

abbreviations. In this respect the glossary meets the requirements of a terminological<br />

glossary. The glossary does not take the task to give an explanation of the roles of<br />

different organisations and bodies in the maritime field:<br />

(15) INMARSAT = International Maritime Satellite Organization<br />

THE DEFINITIONS IN THE GLOSSARY<br />

After making a decision about headwords necessary for the target group, the<br />

compiler has to decide which kind of information is needed at the right hand side of<br />

the glossary. Besides definitions or explanations, the list of information types which<br />

might be useful for the reader, may include phonetics, subject labels, grammatical<br />

information, style, age, information about locality or encyclopaedic information, for<br />

example (Kudashev 2007: 197). At the moment, there are definitions, but no other<br />

information about the headwords in the MarEng Glossary. Sometimes there is more<br />

than one definition, since some headwords have more than one meaning. For example,<br />

berth has at least three meanings which are valid in the maritime context:<br />

(16) berth 1. any place for securing a vessel (for conducting commercial<br />

operations); 2. a bed in a passenger cabin; 3. distance (give this object a wide<br />

berth) keep well clear of<br />

For the sake of the mobile version of the glossary, the different meanings should be<br />

placed in separate entries. This means that the number of headwords will grow<br />

remarkably. Therefore, the number of different meanings has to be kept in minimum.<br />

Browsing through the glossary gives the impression that this might be difficult with<br />

some verbs and nouns, which have more than one meaning. The solution suggested<br />

here, is that the meaning of some verbs could be narrowed with prepositions. For<br />

example, the meaning of the verb heave can be narrowed with prepositions away, in,<br />

on, to or up. Some verbs might be merged together with nouns as headwords.<br />

Phonetic transcriptions may be helpful in the English word list (Perea Barberá<br />

1999: 290). It could be claimed, however, that students are not familiar with the<br />

phonetic symbols. The most helpful means would be to include audios. Technically<br />

this should be possible but the phonetic transcription is not included in the existing<br />

MarEng Glossary.<br />

Subject labels would be helpful in some cases. For example, there are plenty of<br />

headwords having the upper level concept device. Why not label them with eng.<br />

meaning engine room, or bridge meaning that the device is mounted on the bridge.<br />

Also, the student might be interested to know, if the headword denotes to an act or a<br />

device. The structure of the MarEng Glossary does not necessarely follow concept<br />

systems and the definitions do not always show concept relations. Therefore, strictly<br />

speaking, the glossary is not terminological. It would be useful to know the upper<br />

NORDTERM 2009, København 9.-12. juni 2009 206


level concept, to which concept group does the concept belong, is it a device or a<br />

place, is it human or not. The example 17 shows a definition in which the upper level<br />

concept is missing:<br />

(17) booster pump used to increase pressure in a liquid line, or pulls liquid<br />

from a tank and pressurizes a system<br />

Although it is quite obvious that a booster pump is a kind of a pump, the definition<br />

shoud explicitely indicate the superordinate concept. Furthermore, even if the concept<br />

relations are not indicated, the definition should contain at least one delimiting<br />

characteristic. In the example 18 a characteristic is missing. A reader might be<br />

interested to know; what is the cause of corrosion and what are the consequencies of<br />

the process?<br />

(18) corrosion rusting<br />

The glossary is full of verbs, probably, because they are typical for the field and<br />

have to be included in the glossary. Verbs have not been in the focus of terminology<br />

research and the technique to define verbs is not well developed. In the book<br />

Sanastotyön käsikirja, which is the Finnish version of the handbook of terminology<br />

work, this topic occupies five lines and one example. The book says that verbs can be<br />

defined with functional characteristics describing method, result, agent or device used<br />

for the act. In the existing MarEng Glossary most verbs are accompanied with near<br />

synonyms from general language, often more than one of them. The general language<br />

verbs lack the essential special field information which the head verb has. The<br />

compilers have tried to compensate this lack by adding more general language verbs to<br />

the list. By adding more general language verbs, the compilers actually do students a<br />

disservice, because there is a risk that the student chooses the wrong near synonym.<br />

This problem has been discussed in Perea Barberá (1999: 292) stating that most<br />

dictionaries frequently provide lists of equivalents with no discriminating label or<br />

encyclopaedic note. Proper definitions or encyclopaedic information would be useful,<br />

since the students might be familiar with the field, but still have some gaps in the<br />

encyclopaedic knowledge.<br />

concluding remarks<br />

When starting a glossary project, the first thing to do is to decide the amount of<br />

information to be included: number and form of headwords (terms, compound terms,<br />

collocations, phrases, commands), grammatical information, examples, phonetics,<br />

subject labels, encyclopaedic information. The decision will depend on the language<br />

skills and needs of the intended users of the glossary. The size of the glossary should<br />

be kept within reasonable limits. Normally, the users will appreciate handysize<br />

glossaries including all essential information and excluding unnecessary headwords or<br />

repetition. How do we meet these demands in MarEng Plus glossary project? First,<br />

start downsizing. Find synonyms and join them where possible, cut off extensive<br />

definitions and use cross-referencies, instead. Secondly, add the superordinate<br />

NORDTERM 2009, København 9.-12. juni 2009 207


concepts where they are missing, if not the closest, then a concept on the upper level.<br />

Thirdly, group concepts belonging to the same semantic group and subdivide them to<br />

find conceptual relations. For example, devices belonging to the engine room<br />

comprise one group, devices belonging to the bridge comprise the second group, and<br />

cargo handling devices comprise the third group. Change the superordinate concept, if<br />

there is one which is closer to the concept, check the definitions and correct<br />

inconsistencies. Finally, find characteristics for the verbs, at least some of them. In this<br />

way, the work will be heading to the direction predicted by Boris Pritchard (2000: 97)<br />

in his article on pragmatic information in maritime dictionaries:<br />

“We may therefore predict three likely trends in maritime lexicography of the<br />

future, involving:<br />

- development of multilingual terminological dictionaries with English as the key<br />

language,<br />

- conceptual (thematic) approach to dictionary macrostructure, or a mixed approach<br />

including alphabetical macrostructure and conceptual arrangement for selected entries<br />

within the alphabetical word list,<br />

- methodology of compiling, sampling and making dictionaries mainly based on<br />

corpus linguistics and availability of electronic data banks.” (Pritchard 2000: 97).<br />

References<br />

Grinёv 1993 = Гринев, С. В. (1993). Введение в терминоведение. Москва: Московский Лицей.<br />

Kudashev 2007 = Кудашев, И. С. (2007). Проектирование переводческих словарей специальной<br />

лексики. Helsinki University Translation Studies Monographs 3. Helsinki: Helsinki University Print.<br />

Pasanen, Päivi (2006). Standard Marine Communication Phrases as a Maritime Language Norm. In E.<br />

Lehtinen & N. Niemelä (Eds.), LSP and Theory of Translation. 26 th VAKKI Symposium. Vaasa, 11.–<br />

12.2.2006. Vaasa: University of Vaasa, pp. 230--239.<br />

Perea Barberá, M. D. (1999). An Approach to the Typology of Contemporary Spanish-English /<br />

English-Spanish Maritime Dictionaries: the Terminology of Shipbuilding. In D. L. Newman & M.<br />

Van Campenhoudt (Eds.) Maritime Terminology: Issues in Communication and Translation.<br />

Proceedings of the First International Conference on Maritime Terminology. Brussels, 15–16 May<br />

1998. Bruxelles: Éditions du Hazard, pp. 285--293.<br />

Pritchard, B. (2000). Pragmatic Information in Maritime Dictionaries. In J. Vainio (Ed.) Maritime<br />

Terminology: Dictionaries and Education. Proceedings of the Second International Conference on<br />

Maritime Terminology. Turku, 11–12 May 2000. Publications from the Centre for Maritime Studies A<br />

36. Turku: University of Turku Centre for Maritime Studies, pp. 83--99.<br />

Prichard, B. (2003). Multiword lexical units in maritime dictionaries. In 3 rd International Conference on<br />

Maritime Terminology. Lisboa, 23–24 June 2003. CD-ROM.<br />

Sager, J. (1990). A Practical Course in Terminology Processing. Amsterdam/Philadelphia: John<br />

Benjamins.<br />

Sanastotyön käsikirja (1988). Soveltavan terminologian periaatteet ja työmenetelmät. SFS-käsikirja 50.<br />

NORDTERM 2009, København 9.-12. juni 2009 208


Terminor og Termportalen – nye initiativer for<br />

norsk terminologisk infrastruktur<br />

b<br />

Gisle Andersen a, b og Marita Kristiansen a<br />

a<br />

Institutt for fagspråk og interkulturell kommunikasjon<br />

Norges Handelshøyskole (NHH)<br />

Helleveien 30<br />

NO-5045 Bergen<br />

Unifobs avdeling for kultur, språk og informasjonsteknologi (Unifob AKSIS)<br />

Allégaten 27<br />

NO-5007 Bergen<br />

Abstract. I denne artikkelen presenterer vi to prosjekter som har som mål å fremme og gjøre<br />

tilgjengelig norsk terminologi for ulike fagområder. Det ene prosjektet er nylig gjennomført og det<br />

andre er planlagt.<br />

Det første prosjektet, Termportalen, er et prosjekt som har vært gjennomført ved Unifobs Avdeling<br />

for kultur, språk, og informasjonsteknologi (Unifob AKSIS). Prosjektet har vært et første steg mot<br />

en nasjonal infrastruktur for terminologi og fagspråk og fungerer som et slags pilotprosjekt i<br />

forhold til det langt mer omfattende Terminor-prosjektet. Et system for søking på tvers av<br />

heterogene termbaser er utviklet, og en nettportal for norsk terminologi er etablert.<br />

I det andre prosjektet, Terminor, ønsker vi å fylle termportalen med innhold ved å utvikle<br />

oppdatert terminologi for en rekke fagfelt. I tillegg ønsker vi å videreutvikle den teknologiske<br />

infrastrukturen og utarbeide en felles nasjonal standard for terminologiarbeidet i prosjektet.<br />

Initiativet til prosjektet er tatt av Norges Handelshøyskole (NHH), i nært samarbeid med Unifob<br />

AKSIS og Universitetet i Bergen (UiB).<br />

INTRODUKSJON<br />

De siste årene har det blitt et stadig sterkere fokus på språkplanlegging i Norge og<br />

situasjonen for norsk som fagspråk i forhold til særlig engelsk har vært kraftig debattert. En<br />

årsak til dette er en økende trussel om domenetap innen sentrale fagområder etter hvert<br />

som engelsk tar over som hovedspråket på disse fagområdene. Denne diskusjonen er<br />

oppsummert i St.meld.nr. 35 (2007-2008) Mål og meining. Ein heilskapleg norsk språkpolitikk<br />

(Språkmeldingen). Behovet for å intensivere arbeidet med norsk fagspråk er dessuten slått<br />

fast i en rekke publikasjoner og utredninger, slik som Norsk i hundre! og har vært tema ved<br />

flere seminarer, bl.a. Språkrådets strategikonferanse om fagterminologi i oktober 2004 og en<br />

konferanse om terminologi og økonomisk lønnsomhet i Bergen i november 2005. Flere av<br />

innleggene på forrige Nordterm-konferanse slo fast at arbeidet med norsk fagspråk befinner<br />

NORDTERM 2009, København 9.-12. juni 2009 209


seg i en uavklart situasjon (Andersen 2008; Kristoffersen 2008; Leonteva 2008). Det finnes<br />

mange tidligere terminologiressurser som ligger brakk og som ikke ivaretas på en forsvarlig<br />

måte, slik som dataene fra Norsk termbank (NOT-basen) og Rådet for teknisk terminologi<br />

(RTT). Samtidig er flere miljøer i ferd med å utvikle nye termressurser, slik som arbeidet med<br />

Den grønne ordboka (Kerner 2008), brannfaglig terminologi (Liebe 2008),<br />

samfunnsøkonomisk terminologi (Hjelmbrekke 2008; Kristiansen 2009), osv.<br />

Både brukere av terminologi og terminologiutviklere har interesse av at det som finns av<br />

eksisterende terminologiressurser blir tatt vare på og gjort tilgjengelig. Søking i mange ulike<br />

databaser, med mange ulike grensesnitt og brukertilganger, er både tungvint og tidkrevende.<br />

Slik vi vurderer det, er det et tydelig behov for at arbeidet med terminologi koordineres på<br />

nasjonalt plan. I denne artikkelen vil vi presentere to prosjekter, Termportalen og Terminor,<br />

som begge har som mål å fremme og gjøre tilgjengelig norsk terminologi for ulike<br />

fagområder gjennom etablering av en nasjonal terminologiressurs. Slik vil prosjektene også<br />

bidra til de føringene som legges i Språkmeldingen gjennom at norsk fagspråk ivaretas og<br />

videreutvikles parallelt med engelsk.<br />

TERMPORTALEN<br />

Termportalen er et prosjekt som har vært gjennomført ved Unifob AKSIS. Bakgrunnen for<br />

prosjektet er erkjennelsen av behovet for å fremskaffe en samlet og oppdatert oversikt over<br />

eksisterende terminologiressurser. Unifob AKSIS har gjennom årene utviklet en lang rekke<br />

termbaser og det var ønskelig å undersøke muligheter og forutsetninger for å gjøre dem<br />

tilgjengelig gjennom et felles grensesnitt, i tillegg til at det trengtes en kartlegging av norske<br />

termressurser mer generelt. Prototypen Termportalen er et forslag til en slik nasjonal<br />

ressurs. Den er utformet som en nettportal som er ment for alle som på ulike måter er i<br />

befatning med norsk fagspråk og terminologi. I tillegg til oppdaterte oversikter med lenker til<br />

utvalgte nettbaserte terminologiressurser, er det et langsiktig mål at portalen skal kunne<br />

tilby brukerne informasjon om alt fra konferanser, kurs og faglitteratur til hjelp med å finne<br />

terminologisk eller teknisk bistand.<br />

Termportalen foregikk ved Unifob AKSIS i perioden 1. desember 2007-22. april 2009.<br />

Prosjektet var hovedsakelig internt finansiert, men i prosjektets siste del (fra august 2008)<br />

hadde det en delfinansiering fra Språkrådet. Arbeidet har vært et første steg mot en nasjonal<br />

infrastruktur for terminologi og fagspråk og fungerer som et slags pilotprosjekt i forhold til<br />

det langt mer omfattende Terminor-prosjektet som vi vil beskrive nærmere under.<br />

Prosjektet forløp i tre faser. I første fase var målet å kartlegge i bredest mulig grad hva<br />

som er tilgjengelig av norske terminologiressurser på Internett. Det ble samlet inn et stort<br />

antall lenker til aktuelt materiale, hver enkel lenke ble undersøkt og vurdert, og til sist sto vi<br />

igjen med et 40-talls referanser til ulike nettsteder som inneholder norsk terminologi.<br />

Ressursene ble så gruppert etter fagområde. En oversikt over ressursene som portalen<br />

henviser til finnes på Termportalens ressursside, som vist i Figur 1 under.<br />

NORDTERM 2009, København 9.-12. juni 2009 210


I prosjektets annen fase ble denne oversikten videreutviklet. I tillegg ble det skannet en<br />

del materiale ved Unifob AKSIS som ikke var elektronisk tilgjengelig, nemlig tre termlister<br />

tilknyttet maritime fag. Disse er foreløpig inkorporert i portalen i form av søkbare pdfdokumenter,<br />

men har bare vært gjenstand for sporadisk korrekturlesning. I tillegg gjorde<br />

prosjektgruppen forsøk på å få tilgang til de verdifulle termressursene som i sin tid ble<br />

utviklet av RTT. Dette arbeidet lyktes, og en avtale ble inngått med den nåværende eieren av<br />

dette rikholdige materialet. I denne fasen utarbeidet vi dessuten en søknad til Språkrådet om<br />

støtte til prosjektet Termportalen – fra lenkesamling til nasjonal infrastruktur, og denne ble<br />

innvilget i september 2008.<br />

NORDTERM 2009, København 9.-12. juni 2009 211


FIGUR 1. Termportalens lenkesamling<br />

Prosjektets tredje fase var altså delfinansiert av Språkrådet, og målet med denne fasen<br />

var å ta steget fra en lenkesamling til en mer fullverdig digital infrastruktur for terminologi.<br />

Arbeidet i denne fasen dreide seg først og fremst om å utvikle en ny databaseløsning som<br />

gjør det mulig å søke på tvers av databaser som inneholder terminologi for ulike fagområder.<br />

Gruppen gjorde også en kartlegging av innholdet i RTT-materialet og vurderte tekniske<br />

forutsetninger for å innlemme det i den nasjonale portalen.<br />

Den nye tekniske løsningen er en prototyp for databaseløsning og grensesnitt som i sin<br />

helhet er basert på åpen kildekode. Den benytter seg av programmeringsspråket Common<br />

Lisp, såkalte Weblocks og databasespråket PostgreSQL. Fordelene ved dette er åpenbare. Det<br />

innebærer at kildekoden er tilgjengelig for programmerere, noe som forenkler fremtidig<br />

videreutvikling og feilkorrigering. Det er heller ingen restriksjoner på distribuering eller salg<br />

av systemet. Grensesnittet er programmert i Common Lisp med verktøyet Weblocks for<br />

laging av vebbapplikasjoner med tett integrasjon av databaser, automatisk<br />

sesjonshåndtering, med støtte for vebbutviklingsteknologi basert på AJAX (asynkron Java og<br />

XML).<br />

Så langt har fire termbaser blitt importert i den nye termportalen: EØS-sekretariatets<br />

terminologidatabase og norske oversettelser av rettsakter innlemmet i EØS-avtalen (EØS-EUbasen),<br />

KB-N-basen utviklet under prosjektet Kunnskapsbank for norsk økonomiskadministrativt<br />

domene, NOT-basen utviklet av Norsk termbank, og RTT-materialet utviklet av<br />

Rådet for teknisk terminologi. Samlet utgjør dette et stort materiale, nærmere 128 000<br />

termposter. Fordelingen på de ulike deldatabasene er som vist i Tabell 1.<br />

TABELL i). Oversikt over terminologiske ressurser i Termportalen<br />

Termbaser Fagområder Antall termposter*<br />

KB-N økonomi og administrasjon 8 467<br />

EØS-basen 70 fagområder, EØS-rettsakter 40 348<br />

NOT-basen 38 fagområder, Norsk<br />

termbank<br />

30 521<br />

RTT-materialet 48 314<br />

NORDTERM 2009, København 9.-12. juni 2009 212


Til sammen 127 650<br />

* per 19. oktober 2009<br />

I menyvalget Termsøk er det mulig å søke både i enkeltressurser og parallelt i flere ressurser<br />

samtidig. Dette er vist i Figur 2.<br />

NORDTERM 2009, København 9.-12. juni 2009 213


FIGUR 2. Termportalen, søk i spesifikk termbase<br />

Per i dag ligger NOT-basen, KB-N, RTT-materialet og EØS-EU-basen inne som eksempler,<br />

men infrastrukturen kan raskt utvides. Det vil være mulig for andre termressurser å bli<br />

tilknyttet den nasjonale portalen. Teknisk sett er en slik integrering forholdsvis ukomplisert,<br />

så lenge det ikke er juridiske forhold som hindrer dette. Termportalen skal i utgangspunktet<br />

være gratis og fritt tilgjengelig for alle, men de deler som er beskyttet på grunn av<br />

opphavsrett vil være passordbeskyttet.<br />

I den gjeldende løsningen kan man bruke ulike søkbegrensende kategorier, i tillegg til å<br />

begrense søket til individuelle termbaser. Figur 3 viser hvilke språk som er representert i<br />

Termportalen.<br />

NORDTERM 2009, København 9.-12. juni 2009 214


FIGUR 3. Termportalen – søk i språkspesifikke felt<br />

Dessuten kan man søke i spesifikke felt i en termpost, slik som Hovedterm og Synonym.<br />

Videre kan man søke med utgangspunkt i Definisjon og Kontekst, og man kan søke blant<br />

frarådde termer, som vist i Figur 4.<br />

NORDTERM 2009, København 9.-12. juni 2009 215


FIGUR 4. Termportalen – søk i bestemte felt i termposter<br />

TERMINOR – TERMINOLOGISK INFRASTRUKTUR FOR<br />

NORSK<br />

I det planlagte prosjektet Terminor ønsker vi å videreføre arbeidet med<br />

Termportalen ved å bygge ut en bred terminologisk infrastruktur for norsk. Målet er å<br />

etablere en nasjonal kunnskapsbase bestående av kvalitetssikrede terminologiske<br />

ressurser som er fritt tilgjengelig via én felles internettbasert portal.<br />

NORDTERM 2009, København 9.-12. juni 2009 216


En viktig motivasjon for prosjektet er å få etablert en infrastruktur for<br />

begrepsmessig harmonisering og enhetlig terminologibruk i Norge. Ved at denne<br />

infrastrukturen gjøres tilgjengelig for forskere, studenter og samfunnet for øvrig, vil<br />

portalen kunne bli en viktig ressurs for norske forskningsmiljøer som i stadig større<br />

grad jobber på tvers av institusjoner, fagmiljø og nasjonale grenser i både<br />

interdisiplinære og transdisiplinære prosjekter. Således tar Terminor mål av seg å møte<br />

ufordringen med et stadig mer globalisert og dynamisk forskningssamfunn og vil<br />

danne grunnlag for forsknings- og utviklingsarbeid på tvers av akademiske og<br />

næringsrelaterte virksomheter.<br />

Samtidig vil prosjektet fremme internasjonaliseringen av norsk forskning gjennom<br />

at prosjektet kobles opp mot den infrastrukturen som bygges opp i ESFRI-prosjektet<br />

CLARIN (Common Language Technology Infrastructure, http://www.clarin.eu).<br />

CLARIN er et europeisk initiativ for å skape, koordinere og gjøre språk- og<br />

språkteknologiressurser tilgjengelige på tvers av språk og landegrenser. Det vil også<br />

være nærliggende å ta lærdom av erfaringer fra Terminors ”søsterprosjekt”<br />

Rikstermbanken, som allerede er etablert av Terminologicentrum TNC i Sverige<br />

(http://www.rikstermbanken.se/).<br />

En fullstendig utbygd nasjonal forskningsinfrastruktur for norsk fagspråk vil måtte<br />

omfatte alle fagområder og -miljø som er aktive innen FoU-arbeid i Norge. For å<br />

komme i gang med dette arbeidet vil vi i Terminor-prosjektet fortsette å fylle<br />

Termportalen med innhold ved å utvikle oppdatert terminologi for en rekke fagfelt. I<br />

tillegg ønsker vi å videreutvikle den teknologiske infrastrukturen og utarbeide en felles<br />

nasjonal standard for terminologiarbeidet i prosjektet. Dette innebærer at den planlagte<br />

infrastrukturen i hovedsak vil bestå av fire komponenter som vi i det følgende vil<br />

beskrive som innhold, system, metode, og verktøy. Vi vil også presentere hvordan<br />

Terminor-prosjektet er tenkt organisert.<br />

Infrastrukturens innhold<br />

Infrastrukturen skal inkludere eksisterende nasjonale termbaser med flerspråklige<br />

oppslag for begreper og begrepsbeskrivelser, slik som hovedtermer, synonymer,<br />

definisjoner og begrepsrelasjoner, basert på konsensus mellom fagspesialister på de<br />

ulike fagområdene. I tillegg vil det være et mål i prosjektet å utvide infrastrukturen til<br />

også å inkludere nye fagområder.<br />

Fem konkrete fagområder har blitt valgt ut som fokusdomener i prosjektet –<br />

økonomi og administrasjon, energi, miljø, helse og informasjonsteknologi. Disse<br />

fagområdene har blitt valgt ut fordi det her er et stort behov for begrepsmessig<br />

harmonisering og avklaring på tvers av både nasjonale forskningsmiljøer og<br />

internasjonale prosjektsamarbeid. Fagområdenes betydning er også understreket i det<br />

norske forskningsrådet (NFR) sitt strategiske dokument Verktøy for forskning.<br />

Alle de fem fokusområdene opplever et stadig økende press fra engelsk som<br />

rådende fagspråk. Det er derfor innen disse fagområdene et umiddelbart behov for å<br />

forhindre domenetap på norsk, og å sikre at norsk fagspråk vedlikeholdes og utvikles<br />

sammen med fagenes lingua franca som jo er engelsk. Det vil derfor være et viktig<br />

mål for den planlagte infrastrukturen å bidra til å sikre fagspråkskommunikasjonen,<br />

NORDTERM 2009, København 9.-12. juni 2009 217


ikke bare mellom fagspesialistene, men også mellom spesialistene, høyere<br />

utdanningsinstitusjoner, næringslivet og samfunnet for øvrig.<br />

I tillegg til de fem fokusområdene vil infrastrukturen, som nevnt over inkorporere<br />

relevante terminologiske ressurser som allerede eksisterer. Denne delen av prosjektet<br />

vil ta utgangspunkt i tidligere norske terminologiske initiativer som har resultert i de<br />

ressursene som per i dag er tilgjengelige i Termportalen, altså EØS/EU-termbasen,<br />

KB-N-basen, NOT-basen og RTT-materialet.<br />

Den tekniske infrastrukturen vil imidlertid være fleksibel slik at det kan åpnes for at<br />

andre fagområder enn de som er valgt ut som fokusområder kan inkluderes i portalen.<br />

Infrastrukturen vil dermed fungere som en nasjonal sentral for terminologiske<br />

ressurser som er utviklet av aktører som ikke er direkte involvert i selve Terminorprosjektet.<br />

Infrastrukturen som system<br />

Gjennom Terminor-prosjektet vil det bli utviklet en teknisk arkitektur som<br />

integrerer flerspråklige kunnskapsbaser (termbaser) gjennom en felles internettbasert<br />

søkeportal. Målet vil være at denne portalen skal være fritt tilgjengelig, men at ulike<br />

former for tilgang (inkludert redigeringstilgang) kan gis for ulike brukergrupper.<br />

Gjennom den tekniske infrastrukturen vil fragmenterte terminologiske ressurser bli<br />

omdannet til en felles nasjonal infrastruktur. Infrastrukturen vil bygge direkte videre<br />

på teknologi og ressurser som er tilgjengelige gjennom CLARIN-nettverket, samt<br />

termbaseteknologi utviklet over flere tiår i en rekke prosjekter som har sin opprinnelse<br />

i Norsk Termbank og det NFR-finansierte prosjektet KB-N. Som i CLARIN er det et<br />

mål at eksisterende enkeltstående ressurser skal fortsette å eksistere som sådanne. Det<br />

Terminor vil bidra med, er å samle alle disse ressursene i en nasjonal paraplystruktur<br />

slik at brukerne vil kunne nå alle eller deler av ressursene gjennom et felles<br />

søkegrensesnitt. Gjennom at disse blir innlemmet i den nasjonale infrastrukturen i<br />

Terminor vil brukerne få en unik tilgang til kvalitetssikrede terminologiske ressurser.<br />

Eksisterende ressurser vil ha ulike tekniske løsninger og det vil derfor være et fokus<br />

i Terminor å utvikle et system som vil kunne søke i ressurser som er lagret i en rekke<br />

relasjonsdatabaser slik som for eksempel Oracle og MySQL, og presentere data på en<br />

enhetlig måte gjennom å generere en veldefinert XML-representasjon av data som kan<br />

presenteres på en fleksibel måte gjennom bruk av XSLT-stilark.<br />

Infrastrukturens metode<br />

For et så stort nasjonalt terminologisk prosjekt vil det være nødvendig å utvikle effektive<br />

systemer for kunnskapshåndtering og standardiserte måter å representere innholdet på. En<br />

viktig del av prosjektet vil derfor være å komme fram til et felles teoretisk og metodologisk<br />

rammeverk for hvordan informasjonen i nye ressurser som bygges opp behandles og<br />

presenteres. Dette innebærer blant annet et felles rammeverk for hvordan strukturere<br />

begreper, lage definisjoner og anvende metadata. En utfordring vil her være å få på plass en<br />

metodologi for hvordan avgrense domener og subdomener (Kristiansen 2006) siden en slik<br />

NORDTERM 2009, København 9.-12. juni 2009 218


avklaring vil være avgjørende for hvor anvendbare dataene vil være for diskusjoner innad og<br />

på tvers av ulike forskningsmiljø.<br />

Her vil prosjektet basere seg på internasjonalt utviklede metoder for å utvikle et<br />

rammeverk som i størst mulig grad samsvarer med tilsvarende ressurser i andre land. Et<br />

naturlig utgangspunkt for etableringen av dette rammeverket vil være ISO 704 ”Terminology<br />

Work – Principles and Methods” og ISO1087 ”Terminology Work – Vocabulary” som begge<br />

beskriver god praksis for terminologisk arbeid. Dessuten vil det være viktig å ta utgangspunkt<br />

i rammeverket som etableres i CLARIN-nettverket. Dette nettverket, som initiativtakerne til<br />

prosjektet deltar i, utvikler internasjonale standarder og taksonomier for språkressurser.<br />

Infrastrukturen som verktøy for forskning<br />

Når det gjelder infrastrukturen som et verktøy for forskning, vil det bli utviklet løsninger<br />

for visning av begrepsrelasjoner, tekstbasert termekstraksjon, håndtering av<br />

domenespesifikke korpora og kobling mellom oppslag i termbasene og tekstbaser. Det<br />

innebærer at det vil bli utviklet nye terminologiske ressurser kombinert med at eksisterende<br />

ressurser utnyttes.<br />

En pilotstudie gjennomført i Termportal-prosjektet har vist at eksisterende norske<br />

terminologiske ressurser er forholdsvis heterogene når det gjelder formater, innhold,<br />

dekningsgrad, struktur og metadata. Håndteringen av slike ressurser krever derfor effektive<br />

og fleksible konverteringsverktøy. I tillegg vil Terminor dra nytte av en rekke mer generelle<br />

dataverktøy som kan gjøre det terminografiske arbeidet mer effektivt for nye domener.<br />

Dette inkluderer verktøy for håndtering av termbaseoppslag, for hierarkisk organisering og<br />

grafisk visning av ontologiske relasjoner, for korpusbasert termekstraksjon og for å knytte<br />

termbaseoppslag til relevante domenespesifikke korpora. Gjennom tidligere prosjekter har<br />

prosjektgruppen tilgang på en rekke språkteknologiske verktøy. Spesielt kan nevnes et<br />

verktøy for korpusbasert termekstraksjon for norsk som har blitt utviklet i KB-N prosjektet.<br />

Videre har en i det NFR-finansierte infrastrukturprosjektet Norsk Aviskorpus<br />

(http://avis.uib.no) utviklet systemer for semi-automatisk domeneklassifikasjon av tekster og<br />

identifikasjon av kollokasjoner og flerordsuttrykk. Dette vil gi et godt utgangspunkt for å<br />

fange opp mulige termer og ekstrahere termer fra et bredere sett av korpustekster enn<br />

snevert definerte domenespesifikke tekster.<br />

Organisering av Terminor-prosjektet<br />

Selv om fagspråksmiljøet i Bergen, med NHH i spissen, har vært initiativtakere til<br />

prosjektet, er målet å få etablert et nasjonalt prosjekt med størst mulig bredde. Vi ønsker å<br />

NORDTERM 2009, København 9.-12. juni 2009 219


dra nytte av et bredest mulig nettverk av forsknings- og utdanningsinstitusjoner for å sikre<br />

begrepsmessig harmonisering og avklaring innad og på tvers av vitenskapelige fagområder.<br />

Deltagelse av organisasjoner som Universitets- og høyskolerådet (UHR) i Norge er derfor<br />

viktig for å kunne etablere en ressurs som kan vinne fram og få gjennomslag i sentrale<br />

vitenskaplige miljø for å motvirke domenetap på norsk.<br />

I figur 5 under viser hvordan Terminor er tenkt organisert og et utsnitt av bredden av<br />

aktuelle samarbeidspartnere som vi ønsker å få på plass i oppbyggingen av den<br />

terminologiske infrastrukturen. Samarbeidspartnere vil omfatte både høyere<br />

utdanningsinstitusjoner og andre virksomheter som arbeider med fagspråk og terminologi,<br />

både fra offentlig og privat sektor.<br />

FIGUR 5. Terminor – organisering og mulige samarbeidspartnere<br />

Som nevnt over er det valgt ut fem fokusdomener, nemlig økonomiskadministrative<br />

fag, energi, miljø, inkludert marin sektor, klima og klimaendringer,<br />

meteorologi og oseanografi, helse, og informasjons- og kommunikasjonsteknologi.<br />

Hvert av disse fokusdomenene organiseres som en terminologisk arbeidsgruppe (WP<br />

4-8), og skal ledes av en sentral forsker på det aktuelle fagområdet sammen med to<br />

terminologer. Arbeidsgruppene skal organisere en prosjektgruppe og et nasjonalt<br />

nettverk med ansvar for konsensus og kvalitetssikring på de respektive fagområdene.<br />

NORDTERM 2009, København 9.-12. juni 2009 220


Typiske oppgaver for arbeidsgruppene vil være å kartlegge og vurdere eksisterende<br />

terminologiske ressurser og annet relevant materiale slik som for eksempel sentrale<br />

lærebøker og fagordbøker. Videre skal arbeidsgruppene sikre korrekt overføring av<br />

eksisterende ressurser til kvalitetssikrete termoppslag i den digitale infrastrukturen,<br />

oppdatere eksisterende terminologisk ressurser og bygge ut termbasen som en del av<br />

den nasjonale terminologiske infrastrukturen.<br />

En viktig fase i prosjektet vil være formidling av resultatene og samfunnskontakt (WP9).<br />

Videre vil det være essensielt å få etablert en plan for langsiktig drift av infrastrukturen og<br />

ressursene for at disse skal forbli oppdaterte og relevante etter hvert som fagområdene og<br />

kunnskapen utvikler seg videre.<br />

Som en overbygning til arbeidsgruppene WP 4-8 vil det bli etablert to grupper (WP<br />

2 og 3) som skal ha fokus på infrastrukturens metode og infrastrukturen som verktøy<br />

(jf. avsnitt 3.3 og 3.4 over).<br />

OPPSUMMERING<br />

I denne artikkelen har vi argumentert for at terminologi bør betraktes som en form<br />

for forskningsinfrastruktur og at en bred og omfattende videreutvikling av norsk<br />

terminologi er en nødvendig forutsetning for å sikre god fagkommunikasjon og unngå<br />

domenetap. Vi har beskrevet to prosjekter som har dette som et felles mål. Prosjektet<br />

Termportalen har vært gjennomført og kan vise til interessante resultater, og en<br />

begrenset videreutvikling er planlagt. Prosjektet Terminor befinner seg derimot på<br />

visjonsstadiet mer enn på gjennomføringsstadiet. Vi mener at en slik nasjonal dugnad<br />

som prosjektet legger opp til vil være av stor betydning for å nå målene som er uttrykt<br />

i strategidokumenter som Norsk i hundre! og Mål og meining. Det gjenstår imidlertid<br />

å få en avklaring av om dette vil bli prioritert av bevilgende myndigheter.<br />

REFERENCER<br />

Andersen, G. 2008. Terminologi som språkressurs og forskningsinfrastruktur.<br />

NORDTERM 15, 53-58.<br />

Hjelmbrekke, S. 2008. Av studentar, for studentar. Produksjon av småordlister, døme frå<br />

samfunnsøkonomi. NORDTERM 15, 94-97.<br />

ISO 1087 (1990). Terminology — Vocabulary. International Organization for<br />

Standardization.<br />

ISO DIS 704 (1987). Principles and Methods of Terminology. International Organization<br />

for Standardization.<br />

Kerner, K. 2008. Gresset er alltid grønnere på den andre siden. Erfaringer fra oppbgging av<br />

en flesrspråklig termbase. NORDTERM 15, 113-116.<br />

Kristiansen, M. (2006). A terminological approach to multi-disciplinary domains and<br />

disciplinary autonomy. I Toft, Birthe/Nina Pilke (eds) Terminology science and<br />

NORDTERM 2009, København 9.-12. juni 2009 221


esearch - Journal of the International Institute of Terminology Research (2006)<br />

vol. 17.<br />

Kristiansen, M. 2009. Language Planning in Higher Education. The Case of<br />

Microeconomics. I Proceedings from the XVII European Symposium on LSP, 17.-<br />

.21. august 2009, Århus (under publisering).<br />

Kristoffersen, G. 2008. Terminologi i den nye norske språkpolitikken. NORDTERM 15,<br />

26-32.<br />

Leontieva, A. N. 2008. Terminologi for tolker innen offentlig tjenesteyting. Erfaringer fra<br />

tolkeutdanningen ved Universitetet i Bergen, med fokus på juridisk terminologi.<br />

NORDTERM 15, 148-151.<br />

Liebe, G. 2008. Norsk brannfaglig terminologi under utvikling. NORDTERM 15, 157-161.<br />

Norsk Aviskorpus < http://avis.uib.no><br />

Norsk i Hundre! <br />

Rapport Termportalen – Prototype per 22.04.09. Rapport levert til språkrådet. Unifob<br />

AKSIS 2009.<br />

St.meld.nr. 35 (2007-2008) Mål og meining. Ein heilskapleg norsk språkpolitikk<br />

<br />

Verktøy for forskning <br />

NORDTERM 2009, København 9.-12. juni 2009 222


En termbank växer fram: Från kostnadsnyttoanalys via<br />

terminologisk analys till praktisk tillämpning<br />

Eija Puttonen<br />

INLEDNING<br />

En god översättning ska återspegla textens innehåll och stil och innehålla korrekt och konsekvent<br />

terminologi. De terminologiska källorna är i dagens läge många och det tar tid att leta sig fram<br />

mellan vanliga ordböcker, elektroniska ordböcker, termbanker och översättningsminnen – ibland<br />

dessutom utan resultat. När det gäller specialterminologi, framför allt nya termer, står den bästa<br />

expertisen ofta att finna inom den egna organisationen hos någon expert eller kollegan i rummet<br />

intill. I takt med omvärldsförändringar vinner nya begrepp och termer terräng. Se bara på den<br />

växande floran av nya företeelser och benämningar till följd av EU och Eurosystemet! Det är därför<br />

nödvändigt att resultatet av en termsökning dokumenteras så detaljerat som möjligt för framtida<br />

behov. I en organisation med flera översättare är det dessutom viktigt att dela med sig av resultatet<br />

för att skapa en enhetlig och konsekvent terminologi och undvika dubbelt arbete. För det behövs<br />

fungerande rutiner och ändamålsenliga verktyg.<br />

KVALITET OCH EFFEKTIVITET<br />

När översättarna själva insett fördelarna med en egen termbank gäller det att övertyga ledningen<br />

om behovet. Det råder ingen brist på hållbara argument, men ett termbanksprogram är dyrt och<br />

kräver dessutom tid och resurser för terminologiarbete. Att insatserna sedan ger utdelning i form av<br />

en högklassig samling facktermer inte bara för översättarna utan också för andra medarbetare, som i<br />

sin tur garanterar en enhetlig användning av terminologin, tillvaratar medarbetarnas "tysta kunskap"<br />

och stöder introduktionen av nya medarbetare, är inte tillräckligt. Konkreta inbesparingar i arbetstid<br />

och - i slutändan - reda pengar förutsätts också. För att påvisa att termbanken minskar tiden för<br />

termsökningar och därigenom leder till större kostnadseffektivitet i arbetet genomfördes därför en<br />

kostnadsnyttoanalys.<br />

Det har blivit allt vanligare med kostnadsnyttoanalys av termbanker och termarbete, och<br />

undersökningar pågår för att ta fram konkreta modeller och metoder. Att prissätta termarbete är<br />

givetvis ingen lätt uppgift. Det är viktigt att kunna påvisa inbesparingar, men inte på bekostnad av<br />

kvaliteten.<br />

I den kostnadsnyttoanalys som genomfördes på Finlands Bank bedömdes lönsamheten enligt<br />

både kvalitativa och kvantitativa kriterier. Analysen visade att den största kvantitativa nyttan av en<br />

termbank var – kanske inte helt oväntat – inbesparingar i arbetstid för bankens experter inklusive<br />

översättarna. Den potentiella inbesparingen i experternas totala arbetstid uppskattades till cirka 80<br />

NORDTERM 2009, København 9.-12. juni 2009 223


persondagar per år under åren efter att termbanken tagits i drift. Motsvarande inbesparing för<br />

översättarna beräknades vara 75 persondagar på årsnivå.<br />

Bland de kvalitativa fördelarna nämndes konsekvent användning av riktiga och aktuella termer,<br />

vilket bidrar till både den interna informationsförmedlingen och kommunikationen utåt och stärker<br />

därigenom företagets image. En gemensam termbank för hela organisationen ger alla möjlighet att<br />

bidra med sin sakkunskap och skapar därigenom förutsättningar för en fruktbar dialog mellan<br />

översättare och andra experter, vilket garanterar att termbanken hålls uppdaterad och föråldrade<br />

termer eller direkta fel utmönstras. Det minskar risken för missförstånd och feltolkningar och höjer<br />

kvaliteten i kommunikationen.<br />

Termbanken är också tänkt att bli ett hjälpmedel för introduktionen av nya medarbetare. Syftet är<br />

likaså att tillvarata termkompetensen hos översättare som snart går i pension. Målet är att överföra<br />

åtminstone en del av de erfarna översättarnas "tysta kunskap" både till bankens andra översättare<br />

och till de frilansöversättare som banken anlitar, som också enligt planerna ska få tillgång till<br />

termbanken.<br />

KOSTNADSNYTTOANALYS<br />

Kostnadsnyttoanalysen på Finlands Bank genomfördes i samarbete mellan språkservicebyrån<br />

och ekonomibyrån. På det sättet kunde både språklig och ekonomisk expertis utnyttjas. För analys<br />

av kostnader och fördelar användes tre olika metoder: pay back-metoden, nuvärdesmetoden och<br />

annuitetsmetoden. Investeringens lönsamhet bedömdes således enligt återbetalningstiden,<br />

intäkterna, årsbesparingarna och årsutgifterna. Resultatet av analysen var positivt, oavsett vilken<br />

metod som användes. Beräkningarna visade att enbart effektivitetsvinsterna av den inbesparade<br />

arbetstiden betydde att investeringen var lönsam. De uppenbara kvalitativa fördelarna i form av en<br />

enhetlig användning av terminologin och färre missförstånd bidrog ytterligare till lönsamheten och<br />

stödde bankens strategi. Tillsammans med de andra motiveringarna ledde kostnadsnyttoanalysen till<br />

ett positivt beslut.<br />

En termbank för översättare av översättare<br />

Överlag medför en egen termbank större effektivitet och bättre kvalitet i översättnings- och<br />

språkgranskningsarbetet, framför allt som den kan integreras med översättningsminnet och<br />

därigenom bidra till hela översättningsprocessen. Detta är helt i linje med bankens strategi där ett av<br />

de uppställda målen är välfungerande interna processer. Vidare ger programmet synergifördelar,<br />

eftersom samma program används av översättarna på Europeiska centralbanken (ECB) och vissa<br />

andra nationella centralbanker. Utöver direkt utbyte av termposter, vilket kan tänkas bli aktuellt i<br />

framtiden, har vi haft fördelen att kunna dra nytta av deras sakkunskap och erfarenheter i<br />

planeringsfasen. Denna typ av "benchmarking" har varit viktig för att kunna ta ställning till frågor<br />

som "hur många språk ska termbanken innehålla, vilka termposter behövs, ska materialet delas in<br />

efter fackområde eller något annat kriterium, behövs obligatoriska termposter, hur och när sker<br />

inmatning och validering och vad är viktigare: kontext eller definition?"<br />

NORDTERM 2009, København 9.-12. juni 2009 224


Även om programmet är sofistikerat och ger oanade möjligheter, bör termbankens struktur vara<br />

enkel och tydlig. Informationen ska vara överskådlig och tjäna som vägledning för översättare och<br />

andra experter. Onödiga datafält ska utmönstras. Onödiga musklickar höjer tröskeln för att lägga till<br />

termer. Vidare bör termbanken läggas upp så att den passar den målgrupp den är avsedd för. Det<br />

lönar sig därför att tänka igenom vem som kommer att använda termbanken och för vilket ändamål.<br />

Meningen är att termbanken ska komplettera existerande hjälpmedel för översättningsarbetet,<br />

framför allt översättningsminnet och dess konkordansfunktion, som hittills varit den huvudsakliga<br />

källan för termsökningar. Detta syfte gav anledning att undersöka å ena sidan termbankens och å<br />

andra sidan översättningsminnets egenskaper och funktion närmare. Skillnaderna kan<br />

sammanställas i följande tabell:<br />

Översättningsminne vs. termbank<br />

Översättningsminne Termbank<br />

- deskriptiv - preskriptiv<br />

- flera förekomster av samma term: - en termpost/begrepp<br />

- termen i dess rätta kontext - plats för beskrivning av kontext<br />

- begränsade källhänvisningar - utförliga källhänvisningar, t.ex. med<br />

länkar till webbsidor<br />

- inga definitioner - plats för definitioner<br />

Den största fördelen med översättningsminnet som terminologisk källa är att det ger termen i<br />

dess rätta sammanhang. Hänvisningar till de ursprungliga källorna saknas däremot ofta. Det<br />

mervärde som en termbank således kan tillföra översättningsprocessen är utförliga källhänvisningar<br />

med länkar till webbsidor där informationen hämtats.<br />

Skillnaderna i funktion mellan översättningsminnen och termbanker märks likaså. En<br />

konkordanssökning på en termsträng får gärna ge flera träffar och styra valet av term och<br />

uttryckssätt efter sammanhanget, medan alla upptänkliga synonymer och kontexter inte får plats i en<br />

termbank. Definitioner kan och ska däremot dokumenteras om de finns att tillgå, men det är inte<br />

motiverat eller ens klokt att själv börja skriva definitioner. I en termbank med flera språk är<br />

definitionens viktigaste uppgift att tjäna som vägledning för valet av motsvarigheter. Noteras bör<br />

emellertid att många existerande definitioner är legala definitioner, ett slags kontext, och inte några<br />

egentliga definitioner i terminologisk bemärkelse. Men det är kanske inte så relevant för ett företags<br />

interna termbank.<br />

NORDTERM 2009, København 9.-12. juni 2009 225


Documentation of Sources in Terminology<br />

Management Systems, with Particular Emphasis<br />

on Collaborative Platforms<br />

Igor Kudashev<br />

University of Helsinki<br />

Abstract. Documentation of sources is an important means of quality assurance in<br />

terminological work, especially in collaborative projects. However, support of source<br />

documentation in terminology management systems is currently insufficient. In this article we<br />

discuss the general principles of source documentation in terminology work, types of data<br />

related to documentation of sources, different levels of detail of bibliographic data, minimal<br />

requirements for source documentation in terminology management systems as well as means of<br />

advanced support and customization of source management.<br />

INTRODUCTION<br />

Indication of sources in terminological products is valuable information for both<br />

users and compilers. For users, indication of sources allows to estimate the quality of<br />

terminological information. In case of doubts they can check the source of information<br />

and also consult it directly for details. For compilers, indication of sources is useful for<br />

several reasons:<br />

− By indicating the sources compilers show respect to the intellectual rights of other<br />

authors and at the same time shift a large share of responsibility to them.<br />

− Indication of sources is a strong argument in disputes with domain experts, editors,<br />

other members of the community and critics.<br />

− Indication of sources helps find inconsistencies between different sources and resolve<br />

them.<br />

− Keeping record of sources saves a lot of time and effort in the future.<br />

The importance of source indication in terminological resources is confirmed by the<br />

existence of a dedicated ISO standard (ISO 12615:2004, Bibliographic references and<br />

source identifiers for terminology work). Different formats have also been developed<br />

for the exchange of bibliographic data between terminological collections (e.g. TeDIF<br />

– see Betz & Schmitz 1999; bibliographic data section in TBX – see ISO 30042:2008<br />

and ISO 12620:1999: 45–48).<br />

However, standards mentioned above are not the answer to every problem. First,<br />

some important parts of source references are not covered in them (for example,<br />

indication of the exact location of the cited passage in the original document and<br />

additional modifiers like cf. and as cited in). Second, there are many competing<br />

standards and formats, and the choice between them is not always easy. Third,<br />

NORDTERM 2009, København 9.-12. juni 2009 226


equirements of different applications vary a lot, and it is difficult to satisfy them<br />

equally well.<br />

In this article, we discuss the general principles of documenting sources in<br />

terminological management systems, with a particular focus on collaborative<br />

platforms. For a long time terminology management systems have been addressed to<br />

relatively small groups of language professionals and domain experts. The inspiring<br />

example of Wikipedia and other collaborative projects has given an impulse to the<br />

development of platforms for collaborative terminology work. One of these platforms<br />

called TermFactory is being developed at the University of Helsinki.<br />

Documentation of sources is particularly important in collaborative platforms as it<br />

is one of the main means of quality assurance. At the same time, collaborative work<br />

requires more flexibility and compromises than traditional terminology work, and<br />

documentation of sources is no exception.<br />

TYPES OF DATA RELATED TO DOCUMENTATION OF<br />

SOURCES<br />

Data related to the documentation of sources in terminological databases consists of<br />

source references and bibliographic records to which these references are made.<br />

Source references contain at least one source identifier which may be supplemented<br />

with several optional fields. Source reference may also be complex and contain two or<br />

more source identifiers with optional fields related to them.<br />

In theory, source identifiers may be equal to bibliographic records. In practice,<br />

however, bibliographic records are usually stored separately. There are several reasons<br />

for doing so.<br />

The first reason is space saving and user-friendliness. Bibliographic descriptions<br />

are usually quite long, so shorter aliases for them have to be used in the entries to save<br />

space and improve the readability of the entries.<br />

The second reason is reusability. The same source is usually referred to more than<br />

once in a database, so it is reasonable to record the full description once and make<br />

shorter references to it. In this way there is also no need to make multiple corrections<br />

if the record has to be modified for one reason or another.<br />

The third reason is modularity. If bibliographic records are stored separately, it is<br />

possible to provide them with additional data, split them into smaller pieces of data<br />

and make advanced queries about them. For example, it is possible to filter outdated<br />

sources and entries which contain references to them.<br />

Separate storage of source references and bibliographic records has two important<br />

implications. First, source identifiers have to be unique. Second, source identifiers<br />

have to be unambiguously linked to the corresponding bibliographic records. These<br />

two conditions have to be met at any time in any given term bank, which has to be<br />

taken into account in data exchange and restoration of archived data.<br />

From the point of view of user friendliness, source identifiers used in the entries<br />

should be relatively short and transparent, i.e. they should give some clue about the<br />

source and not be totally cryptic. A short and meaningful identifier is, however, a bad<br />

choice form the technical point of view as it is hard to guarantee its uniqueness. There<br />

NORDTERM 2009, København 9.-12. juni 2009 227


may also be situations when a source identifier has to be changed because it doesn’t<br />

sound good in other languages.<br />

These problems can be solved if a difference is made between a source identifier<br />

visible to the user and a permanent source ID code which is used by the system to<br />

unambiguously identify the source and link it to the corresponding bibliographic<br />

record. The source ID code may be based on URL, ISBN or any other system of<br />

global identifiers.<br />

Bibliographic records and references usually have to be supplemented with some<br />

administrative data, such as technical parameters required for the correct automatic<br />

processing and display of the data, information about different transactions,<br />

responsible persons, etc.<br />

LEVEL OF DETAIL OF THE DATA RELATED TO<br />

DOCUMENTATION OF SOURCES<br />

Due to the variety of applications different methods and levels of detail are used to<br />

record bibliographic information on t erminology sources (ISO 12615:2004: 4). The<br />

more data is provided about the sources and the better this data is classified, the richer<br />

the functionality of the system. Detailed description and fine granulation enable<br />

advanced queries about different characteristics of the sources and automatic<br />

generation of bibliography in different styles. Dedicated applications, such as source<br />

management systems, provide a good example of such facilities.<br />

However, it is unlikely that a terminology management system, especially a<br />

collaborative platform, would reach the level of the best source management systems<br />

and library services. On one hand, designers of a terminology management system are<br />

hardly able to provide and keep up-to-date facilities for professional-level source<br />

management. On the other hand, it is hard to expect that community members would<br />

have enough energy, time and expertise to document sources with professional-level<br />

depth and precision.<br />

To achieve the best results, designers of a collaborative platform have to make sure<br />

that the minimum set of data is provided about every source and at the same time they<br />

should give free hands to those users who want to follow the best practices and share<br />

them. It is also important to provide facilities for advanced customization of different<br />

parameters.<br />

MINIMAL REQUIREMENTS FOR DUCUMENTATION OF<br />

SOURCES<br />

The two most important things that users of a terminological management system<br />

want to know about the sources is how reliable they are and how they can be accessed.<br />

Besides, users want bibliographic records to be accurate, uniform and compliant with<br />

one of the common formats. Source identifiers and bibliographic records have to be<br />

unique and properly linked to each other. These are the starting points for formulating<br />

minimal requirements for the documenting and management of terminological<br />

sources.<br />

NORDTERM 2009, København 9.-12. juni 2009 228


The main data category which has to be filled in a bibliographic record is<br />

bibliographic citation. This category corresponds to the element bibliographicCitation<br />

in Dublin core (http://purl.org/dc/terms/bibliographicCitation). In this field,<br />

information about the source should be provided in the way the user wants it to appear<br />

in the bibliography. If the user wants to provide additional important information<br />

about the source which does not belong in the bibliographicCitation category, he<br />

should use the supplementaryInformation field.<br />

There are no restrictions concerning the style for presenting bibliographic data but<br />

it is recommended to follow generally accepted standards and best practices and be<br />

consistent. Information provided about the source has to be sufficient for its<br />

unambiguous identification.<br />

The following general categories are typically used for the identification of sources:<br />

name of the source (e.g. title of a publication), responsibility (authors, editors, etc.),<br />

place and date (e.g. place and date of publication). Besides, reference to the host<br />

document and location within it has to be specified for contributions. Information<br />

about version or edition has to be specified for repetitive works. Concrete<br />

representation of these categories depends on the type of the source.<br />

Two other mandatory parameters which are not necessarily required for the<br />

identification of the source but which are important pragmatically include format of<br />

the source and accessibility. Format of the source may be picked from a predefined<br />

list. The following values borrowed from the International Standard Bibliographic<br />

Description (2007: 11) will supposedly cover the vast majority of cases: printed text,<br />

electronic resource, multimedia resource, moving images, sound recording, still<br />

images, cartographic resources, notated music resource. It should also be possible to<br />

choose the option “other source”, name it and provide a short annotation for it.<br />

Data category accessibility should inform the users whether the source is public or<br />

private, published or unpublished, how it can be accessed and when it was retrieved.<br />

Distinction between public/private and published/unpublished sources may seem<br />

questionable at the first glance but this distinction is made for a reason. Unpublished<br />

works are not necessarily private. For example, graduation papers, dissertations, etc.<br />

are unpublished but public. At the same time, access to published sources may be<br />

restricted.<br />

Each bibliographic record should be provided with its shorter alias (source<br />

identifier) which will be used in the entries. Source identifier has to be unique within<br />

the term bank. Different methods may be used for forming source identifiers. It is<br />

desirable that source identifiers should provide some information about the source. For<br />

example, source identifier may be a combination of the author and the year of<br />

publication. Documents created by several authors or with no author specified may be<br />

abbreviated by initial letters of the title brought to uppercase, as described in the ISO<br />

standard (ISO 12615: 2004: 8).<br />

Source references have to be automatically updated by the system if a s ource<br />

identifier is modified, and automatically deleted if the corresponding bibliographic<br />

record is deleted. Notification about the changes in source identifiers has to be sent to<br />

the persons responsible for the entries in which these identifiers occur. It is strongly<br />

recommended to keep the history of transactions and provide the means for data<br />

restoration. Otherwise a sophisticated system of privileges is required.<br />

NORDTERM 2009, København 9.-12. juni 2009 229


As was mentioned earlier, source ID code must be assigned to every<br />

bibliographical record for its unambiguous identification. The source ID code must be<br />

generated automatically by the system.<br />

Since inline formatting (e.g. italics) is very common in bibliographic descriptions,<br />

terminology management system has to provide the means for adding inline<br />

formatting to bibliographic records. The addition of inline formatting may not have a<br />

negative impact on the functionality or speed of search.<br />

In some cases it may be necessary to contact the person responsible for the<br />

bibliographic record, for example to request more information on t he source or to<br />

report mistakes. It is also useful to know who and when has created and updated the<br />

record. This implies that bibliographic records should be provided with some<br />

administrative data.<br />

Proposed administrative data categories include creator, updater(s), creation date,<br />

update date(s) and responsible person(s). By default responsible person is the creator<br />

of the record unless specified otherwise. Categories other than responsible person<br />

should be automatically managed by the system and be read-only. The<br />

responsiblePerson category should contain a link to the person’s profile rather than a<br />

plain name. In any case contact information of the responsible person has to be<br />

provided.<br />

In order for the bibliographical data to be presented correctly to the final users,<br />

some technical data has to be provided including encoding, style and other layout<br />

features. Some of these parameters are application-specific and are not subject to<br />

change, others may be customizable.<br />

It should be technically possible to add source references to almost every data field<br />

related to the description of headwords. Sometimes it ma y also be necessary to add<br />

source references to parts of the fields, for instance, for multiple examples in the<br />

example field. It should also be technically possible to add two or more source<br />

references to the same field.<br />

ADVANCED SUPPORT OFR SOURCE MANAGEMENT<br />

The sky is the limit in the development of different instruments for source<br />

management. Below are described a few features which in our opinion should be<br />

implemented in the first place if designers of a collaborative terminology management<br />

system want to provide a better support for the documentation of sources.<br />

It is convenient for users that bibliography is automatically generated for every<br />

terminological collection or user-defined subset. Sources in different scripts usually<br />

have to be placed in different sections of bibliography (e.g. first Latin, then Cyrillic,<br />

then Chinese), and different methods of sorting may be used in different languages.<br />

The correct sorting of sources requires that a minimal set of information is provided<br />

about the language, script and preferred collation of every bibliographical citation.<br />

Codes of languages, scripts and collations have to be provided in a standardized<br />

form. Language and script codes and the rules for their construction are described in<br />

ISO standards 631-1:2002, 631-2:1999, 15924:2004 as well as in BCP 47 (Phillips &<br />

Davis 2006). Collation has to be specified only if it differs from the default Unicode<br />

collation. Many systems already provide mechanisms for creating user-defined<br />

NORDTERM 2009, København 9.-12. juni 2009 230


collation schemes (e.g. MultiTerm, TshwaneTerm) but these mechanisms can be<br />

extended further.<br />

Since users may have different preferences concerning the style of the presentation<br />

of sources in the bibliography, they should be able to add alternative versions of the<br />

bibliographicCitation field. A meaningful name, short description and optional<br />

language indication should be provided for each alternative version.<br />

Users may then specify in which style they want bibliographic record to be<br />

presented in the bibliography. It should be possible to choose different styles for the<br />

sources documented in different languages and scripts. If specified style is not<br />

available for all sources included in the bibliography, the default version may be used<br />

and highlighted. Alternative versions should be shareable, i.e. available to other users<br />

as well. This is one possible implementation of the collaborative approach in source<br />

management.<br />

Information contained in the bibliographic citation may be split and presented in<br />

separate data categories. Minimum set of data may be supplemented with other data<br />

which the users find important. There are many different formats from where<br />

additional categories may be borrowed (some of them are listed in Bibliography). Fine<br />

granulation of data allows advanced queries and arrangement of data based on<br />

different characteristics of the sources.<br />

When documenting private sources such as domain experts it is important to take<br />

into account the recommendations provided in the ISO standard (ISO 12612:2004:<br />

13). First, it is desirable to make a distinction between information needed for the<br />

bibliographic reference and what may be needed to maintain or establish contact with<br />

an individual. Second, in some countries there may be a legal requirement to declare<br />

that a file containing personal data is being maintained.<br />

Different templates may be provided for different types of sources and the library<br />

of templates may be enriched collaboratively. Other collaborative elements may<br />

include feedback to the person who is responsible for the bibliographic record, forumstyle<br />

comments by the users available to everyone else as well as voting and ranking<br />

mechanisms.<br />

Ideally, proper names such as geographical objects and publishing houses as well as<br />

dates should be presented in bibliographical records in a standardized form. There are<br />

different standards and ontologies from which such values may be borrowed.<br />

Standardized forms considerably improve the quality of the search. Integration of a<br />

spellchecker into the system helps prevent typing mistakes.<br />

Depending on their needs and preferences users should be able to choose different<br />

views of source references. They may want to see more detailed information about the<br />

source than coded in a source identifier, all the way to the full bibliographic citation.<br />

Bibliographical references should be customizable in other respects as well. Concrete<br />

parameters which can be customized are described below, after a closer look at some<br />

optional elements of source references.<br />

ADDITIONAL ELEMENTS OF SOURCE REFERENCES<br />

In addition to one or several source identifiers, source reference may contain<br />

optional fields. The most common and obvious of them include source label, one or<br />

NORDTERM 2009, København 9.-12. juni 2009 231


more indications of location of the cited abstract in the original document and<br />

additional modifiers, for example, indications of source usage like “cf.”, “as cited in”<br />

and “see also”.<br />

Source labels<br />

Source labels visually separate source identifiers from the preceding field and may<br />

provide additional information about the source, particularly about its type. For<br />

example, printed sources may be preceded by an “open book” symbol () and<br />

Internet sources by a PC icon (). Dictionary of Lexicography (1998) provides an<br />

example of such usage.<br />

Source labels may be graphical images or “letters” of symbolic fonts like Symbol,<br />

Wingdings or Webdings which can be found on pr actically every PC using the<br />

Windows operating system. Usage of symbolic fonts has many advantages but it<br />

may be problematic across platforms.<br />

Indication of citation’s location<br />

In many cases it is necessary to provide information about the location of the cited<br />

passage in the original document. Page numbers are the most common type of<br />

references. They may also be supplemented with the number of column, paragraph,<br />

row, etc. In highly structured documents like laws and in documents with no<br />

pagination references are usually made to logical divisions of the text (chapters,<br />

sections, paragraphs, etc.). In some types of electronic documents references can be<br />

made to special bookmarks or anchors within the document.<br />

Indication of source usage<br />

In terminological databases, like in other types of texts, it is sometimes necessary to<br />

indicate more complex relations between the text and the source than direct<br />

borrowing. These cases may be marked with special expressions or symbols. Symbols<br />

have the benefit of being language-independent (although not necessarily cultureindependent).<br />

For example, indirect borrowing may be indicated by the “approximately” symbol<br />

(≈) placed before or after the source label. This is the way it was done in the Finnish-<br />

Russian Forestry Dictionary (Suomalais-venäläinen metsäsanakirja 2008) to mark<br />

cases where definitions or notes based on certain sources had been modified:<br />

aapasuo YS<br />

suoyhdistymä, jonka keskiosa on reunoja alempana ≈ SESMS<br />

See references (as in “see Laine & Vasander 1990”) can be expressed with the help<br />

of an arrow pointing right: Laine & Vasander 1990. Cf. references (as in “cf.<br />

Laine & Vasander 1990”) can be indicated with an arrow pointing in both directions:<br />

Laine & Vasander 1990. As cited in references (e.g. “Laine & Vasander 1990:<br />

NORDTERM 2009, København 9.-12. juni 2009 232


22, as cited in Laine 1995: 52” ) can be marked with an arrow pointing left: Laine<br />

& Vasander 1990: 22 Laine 1995: 52.<br />

When making references to private consultations it may be necessary to distinguish<br />

the cases when new information was provided by the consulting person from the cases<br />

when the consulter confirms information which is “common knowledge” in the<br />

domain in question. For example, in the Finnish-Russian Forestry Dictionary the<br />

“confirmation” symbol followed by the name of the consultant was used to indicate<br />

the latter type of referencing.<br />

CUSTOMIZATION OF SOURCE REFRENCES<br />

It is desirable that users of a terminology management system should be able to<br />

customize the structure and layout of source references. Source references can form<br />

quite complex objects, and their customization is not a trivial task. There are many<br />

levels of customization, and designers should choose the one which suits their goals<br />

and ambitions best.<br />

The first level is customization of individual fields which form a source reference.<br />

This includes customization of contents of the fields, their layout and visibility.<br />

Customization of contents means that users can specify objects (characters, images,<br />

etc.) which will be presented in the field. For example, users may want to specify what<br />

kind of source labels should be used for different types of sources. If the field can<br />

accept two or more values (e.g. two or more location indicators), users should be able<br />

to specify what delimiter should be used between them (e.g. comma, semicolon, etc.).<br />

Customization of layout includes specification of inline formatting parameters, such<br />

as font settings. For example, users may want to specify that source identifiers should<br />

be italicized.<br />

Customization of visibility means that users can make fields visible, invisible and<br />

partially visible. For example, users may want to hide all indications of citations’<br />

location in the original documents. Or they may want to set the maximum length of<br />

the field after which it will be automatically truncated by the system and transformed<br />

into a clickable link.<br />

The next level is customization of the structure and layout of a source reference as a<br />

whole. This includes several layers: order of the fields, delimiters between them,<br />

combinations of the fields, etc.<br />

The order of the fields in source references is usually fixed except for additional<br />

modifiers. The default delimiter between the fields is space character but it ma y be<br />

necessary to customize this, for example to merge source label and additional<br />

modifiers. Location indicators are usually separated from the source identifier with a<br />

comma or a colon. Users should be able to choose between these separators or to add<br />

their own ones.<br />

Combination of fields is relevant mostly for source label and additional modifiers.<br />

Some additional modifiers may substitute source label, as in the case of the<br />

confirmation symbol in the example above.<br />

On the next level of customization it should be possible to specify different<br />

parameters for complex source references consisting of two or more instances. For<br />

example, if two or more sources are of the same type, source labels may not be needed<br />

NORDTERM 2009, København 9.-12. juni 2009 233


efore the second and subsequent sources. However, this is a matter of taste and<br />

should be customizable.<br />

Finally, source references may be customized in all their complexity as a whole,<br />

including their global layout parameters and position vis-à-vis other elements.<br />

SOME CONSIDERATIONS FOR USER INTERDACE<br />

One way to add source references in the editing form of a terminology management<br />

system is to use pick-up lists. However, the number of sources in a large terminology<br />

database can reach hundreds and thousands of records which makes the use of pick-up<br />

lists practically impossible. Pick-up lists also have to be updated in real time which is<br />

difficult to implement in a dynamic multi-user environment.<br />

A better solution is to let users choose the correct source identifier in a separate<br />

window with search possibilities. When the correct source is located, user can press<br />

the link to insert the corresponding source identifier into the editing form. A similar<br />

approach may be used in respect of additional fields.<br />

Access to full bibliographic records from the entries should be quick and easy. This<br />

can be implemented in the form of pop-ups or by showing records in a separate<br />

window. We favor the latter option as it has lower risk of bugs and hang-ups and<br />

allows copying data into the clipboard.<br />

CONCLUSION<br />

Source management is almost a must in modern terminology management systems,<br />

especially collaborative ones. However, at present the support for the documenting of<br />

sources in most terminology management systems is insufficient, so a lot has to be<br />

done in this respect.<br />

Universal solutions for source management are hardly possible due to the variety of<br />

applications and user requirements. To achieve the best results, designers of<br />

terminology management systems have to make sure that the minimum set of data is<br />

provided about every source and at the same time they should give free hands to those<br />

users who want to follow the best practices and share them.<br />

Collaborative approach is one of the strengths which may lead to better quality of<br />

source documentation. Instead of imposing unnecessary constraints on t he structure,<br />

content and representation of the data, designers of terminology management systems<br />

should encourage contributions from the community and provide support to them.<br />

REFERENCES<br />

Betz A. & Schmitz K.-D. (1999). The Terminology Documentation Interchange Format TeDIF. In<br />

Sandrini, P. (Ed.), Terminology and Knowledge Engineering TKE ‘99, Innsbruck, August 1999. Wien:<br />

TermNet, pp. 782--792.<br />

Dictionary of Lexicography (1998) / R.R.K. Hartmann and Gregory James. London: Routledge.<br />

Dublin Core Metadata Initiative. Retrieved 20.08.2009 from http://dublincore.org.<br />

Functional Requirements for Bibliographic Records (2009) / International Federation of Library<br />

NORDTERM 2009, København 9.-12. juni 2009 234


Associations and Institutions (IFLA), February 2009. Retrieved 20.08.2009 from<br />

http://www.ifla.org/files/cataloguing/frbr/frbr_2008.pdf.<br />

Identification of Existing Terminology Resources. EUROTERMBANK project. Deliverable 2.1, version<br />

I.I, 31/12/2005 / Raguz, M., Raupauch, I. & Schmitz, K.-D. Retrieved 20.08.2009 from<br />

http://project.eurotermbank.com/uploads/D2.1%20Identification%20of%20existing%20terminology<br />

%20resources.pdf.<br />

International Standard Bibliographic Description (ISBD) (2007) / International Federation of Library<br />

Associations and Institutions (IFLA). Retrieved 20.08.2009 from<br />

http://www.ifla.org/files/cataloguing/isbd/isbd-cons_2007-en.pdf.<br />

ISO 12615:2004(E) Bibliographic References and Source Identifiers for Terminology Work. Geneva:<br />

ISO.<br />

ISO 12620:1999(E) Computer Applications in Terminology – Data Categories. Geneva: ISO.<br />

ISO 15924:2004. Information and Documentation – Codes for the Representation of Names of Scripts.<br />

Geneva: ISO.<br />

ISO 30042:2008 Systems to Manage Terminology, Knowledge and Content – TermBase eXchange<br />

(TBX). Geneva: ISO.<br />

ISO 690:1987 Documentation – Bibliographic References – Content, Form and Structure. Geneva: ISO.<br />

ISO 690-2:1997 Information and Documentation – Bibliographic References – Part 2: Electronic<br />

Documents and Parts thereof. Geneva: ISO.<br />

Suomalais-venäläinen metsäsanakirja (2008) / Kudasheva, I. ja Kudashev, I. (tekijät); Vehmas-Lehto, I.<br />

ja Gerd, A. (toim.). Helsinki: Metsäkustannus.<br />

Phillips, A. & Davis, M. (Eds.) (2006) Tags for Identifying Languages. Best Current Practice 47.<br />

Request for Comments 4646. September 2006. Retrieved 20.08.2009 from http://www.rfceditor.org/rfc/rfc4646.txt.<br />

vCard standard (2009). Version 3.0. Retrieved 20.08.2009 from http://www.imc.org/pdi.<br />

NORDTERM 2009, København 9.-12. juni 2009 235


CLS Terminology Adapting to the Needs of the<br />

Market<br />

Jeannette Ørsted<br />

Group Manager Terminology, CLS Communication AG, Elisabethenanlage 11, 4051 Basel<br />

Abstract. CLS-Communication is a globally active language service provider specializing in the financial and life<br />

science sectors. The company covers the entire linguistic value chain from editing to publishing. Terminology and<br />

electronic dictionaries are marketed as separate services, but also as an integral part of the quality assurance for<br />

translations.<br />

CLS offers databases designed to specific company needs as well as online access to industry or sector-specific<br />

databases. Today the industry termbase contains more than 150.000 terms from the banking, insurance, legal,<br />

telecommunications and life science sectors and five full-time terminologists are working in the department.<br />

The selling price of these services takes into account that terminology is a highly sophisticated product produced<br />

by highly educated terminologists and experts and we are faced with the fact that many potential customers are<br />

substituting a customer-specific database with a free dictionary on the internet. In response to this development<br />

the CLS Terminology Team has initiated a strategic development of small sector-specific databases based on the<br />

contents of the existing industry termbase. To accompany this initiative the team has analysed all elements of the<br />

terminology products to provide an extensive list of benefits stressing the added-value to the client, meeting<br />

requirements at all levels from simple glossary-work to sophisticated knowledge-sharing.<br />

The presentation will describe the elements and challenges involved in creating new „baskets“ of languages and<br />

subjects on the basis of existing TDBs. In addition to this, customer benefits will be highlighted taking the value<br />

beyond quality and consistency showing how terminology gives added value to the organization.<br />

As a consequence of the changing marketplace and product development, working procedures have to be<br />

adapted so that a high output is reached without compromising quality. I will briefly discuss some of the possible<br />

key performance indicators (KPIs) that could serve as a basis for measurement.<br />

Presentation notes<br />

CLS Communication was originally the internal translation department of a big Swiss Bank. When the<br />

department was outsourced, support services such as the terminology unit was also outsourced. In the<br />

following ten years the department's size was more or less retained at the same level (10 people) and<br />

the original database with entries in five languages was continuously updated and extended so as to<br />

serve as support for translators. Concurrently new databases were formed within telecommunications,<br />

life science and energy. However, the original database with banking, insurance and legal terms<br />

remained the backbone of the work in the terminology unit.<br />

NORDTERM 2009, København 9.-12. juni 2009 236


In 2005 it was decided to offer this database in an online form and a special webinterface was<br />

developed for CLS. Customers could now subscribe to the database and get online access to up to<br />

60.000 terms. With a constantly growing database the amount of information which the customer will<br />

find is growing and in a market with increasing time pressure the need for a pre-defined filtering of the<br />

information required, has become stronger. At the beginning of the information era it was thought<br />

that access to a lot of information in itself was a convincing argument, but we now hear that targeted<br />

information is considered more valuable.<br />

In order to meet this requirement we have tried to develop new filters in the webinterface to be able<br />

to offer limited subject areas to the customers. In that process we ran into quite a number of<br />

difficulties because touching the datastructure in the old TDB also disturbs the cross references. This<br />

leads to a high number of errors and the result will not meet customer expectations.<br />

We are currently trying to develop a new profile in the webinterface that will take out the crossreferences<br />

automatically, or at least make it possible for us to edit these manually. Fundamentally we<br />

want to keep the root database and use it as a tool for editing, maintaining and updating separate<br />

subjects and then be able to offer selected parts targeted on customer needs. If we succed in finding a<br />

solution we only have to update in a central database and can make sub-areas available. On the other<br />

hand splitting up the database will entail a loss of information and knowledge. Finally the the cost of<br />

maintaining separate TDBs cannot be covered by customer fees.<br />

The challenge is thus double – both finding a technical solution and enhancing the efficiency of the<br />

terminologists. Both are work-in-progress being done under the constant price pressure of the market.<br />

NORDTERM 2009, København 9.-12. juni 2009 237


Cost-benefit begrebsafklaring<br />

Annelise Grinsted a og Hanne Erdman Thomsen b<br />

a Institut for Fagsprog, Kommunikation og Informationsvidenskab, Syddansk Universitet, Engstien 1,<br />

6000 Kolding, annelise@sitkom.sdu.dk.<br />

b Institut for Internationale Sprogstudier og Vidensteknologi, Copenhagen Business School,<br />

Dalgas have 15, 2000 Frederiksberg, het.isv@cbs.dk<br />

Abstract. I Grinsted & T homsen (2008:318) præsenterede vi en model for en cost-benefit<br />

analyse i forbindelse med introduktionen af termbaser og sy stematisk terminologiarbejde. I<br />

denne artikel følger vi mere konkret op på termerne for begrebet “costs”, og hvad afklaringen af<br />

begreberne har betydet for vores model.<br />

INTRODUKTION<br />

Man kan selvfølgelig spørge sig selv, hvorfo r det er interessant at lave en costbenefit<br />

analyse af terminologiarbejde. Vi har forsøgt at afdække, hvad der tidligere er<br />

blevet skrevet om denne type cost-benefit analyser og finder he le tiden den sam me<br />

forklaring, hvorfor vi citerer den m eget relevante canadiske Guy Cha mpagne rapport<br />

(2004:5):<br />

“(….) few attempts have been made in the past to assess the economic value<br />

of terminology. Industry professionals do not necessarily see their work and<br />

their profession from this angle. They see terminology’s qualitative impact on<br />

the language process, but definitely not its economic impact”.<br />

I samme rapport fremføres en række argum enter for indførelse af term inologiske<br />

værktøjer og gennem førelse af system atisk terminologiarbejde, hvoraf vi nævner<br />

nogle af de vigtigste:<br />

Terminologiarbejde er nødvendigt i 4-6 % af alle ord i en tekst<br />

Mellem 15-30 % af resurser anvendt i over sættelser relaterer sig til<br />

terminologi<br />

Investeringsafkastet (ROI 1 ) er 10 %<br />

Terminologiske værktøjer øger produktiviteten med 20 %<br />

For personer, der har arbejdet konkret m ed terminologiarbejde, er der næppe nogle<br />

af disse argum enter som ikke er genkende lige, skønt der m åske ikke har været sat<br />

konkrete tal på.<br />

Men der kan også fremføres argum enter af helt andre typer. For eksem pel<br />

introducerer Wright (1996:7) begrebet ”criticality” og relaterer det til spørgsmålet om,<br />

hvor detaljeret terminologiarbejdet kan / skal være, og hvilke konsekvenser m angler i<br />

3. ROI står for Return on Investment. I dette tilfælde betyder det at en investering på DKK 100 giver DKK 110<br />

tilbage til virksomheden<br />

NORDTERM 2009, København 9.-12. juni 2009 238


terminologiarbejdet eventuelt måtte have. Hun indfører 3 grader af ” criticality”, som<br />

kan bruges til at vurdere hvor detaljeret terminologiarbejdet bør være:<br />

kritisk mangel: en virksom hed kan udsætte s for et betragteligt tab<br />

(menneskeliv, sundhedsfare, skade på ejendom, etc.)<br />

alvorlig mangel: har strategisk betydning fo r virksomhedens målsætninger<br />

og konkurrencesituation<br />

mindre mangel: medfører irriterende kommunikationsfejl internt og<br />

eksternt i virksomheden<br />

Så argumenter for introduktion af term baser og derm ed også system atisk<br />

terminologiarbejde er mangfoldige, og en brugb ar metode er en cos t-benefit analyse,<br />

der retter sig direkte mod hvad en ledelse er interesseret i – de økonom iske fordele og<br />

ulemper.<br />

COST-BENEFIT MODELLEN<br />

Vi tog i G rinsted & Thom sen (2008:318) udgangspunkt i m odellen i figur 1,<br />

oprindeligt introduceret i Holm -Rasmussen et al. (2005:487), idet vi også selv skulle<br />

til at sætte os ind i arbejdet med cost-benefit analyser.<br />

FIGUR 1. Model for cost-benefit analyse baseret på Holm-Rasmussen et al. (2005:487)<br />

NORDTERM 2009, København 9.-12. juni 2009 239


accessional cost<br />

accounting cost<br />

achieved cost<br />

acquisition cost<br />

actual cost<br />

administrative<br />

cost<br />

all-in cost<br />

allocable cost<br />

alteration cost<br />

alternative cost<br />

amortized cost<br />

applied cost<br />

appraisal cost<br />

average cost<br />

average fixed<br />

cost<br />

average variable<br />

cost<br />

avoidable cost<br />

avoided cost<br />

batch cost<br />

benefit cost<br />

analysis<br />

breakage cost<br />

burden cost<br />

capital cost<br />

carriage cost<br />

carrying cost<br />

choice cost<br />

closing costs<br />

collateral cost<br />

common cost<br />

conceptual cost<br />

construction cost<br />

controllable costs<br />

conversion cost<br />

cost factor<br />

cost of lost sales<br />

cost of poor<br />

quality<br />

cost of quality<br />

cost of sales<br />

cost of work<br />

cost per response<br />

cost profile<br />

cost recovery<br />

cost tradeoff<br />

TABEL 1. Omkostningstermer fra en kombineret søgning i<br />

http://www.businessdictionary.com og http://investorwords.com/<br />

cost-benefit ratio<br />

costs<br />

distributable cost<br />

distributable labor cost<br />

distributed cost<br />

distributed labor cost<br />

economic cost<br />

embedded cost<br />

executory cost<br />

explicit cost<br />

extraordinary cost<br />

factor cost<br />

fixed cost<br />

fixed overhead cost<br />

follow through costs<br />

current cost<br />

customer costs<br />

depreciable cost<br />

development cost<br />

differential cost<br />

direct cost<br />

direct labor cost<br />

direct material cost<br />

direct overhead cost<br />

directly associated cost<br />

discretionary cost<br />

frictional cost<br />

full cost<br />

funding cost<br />

hard cost<br />

hidden cost<br />

historical cost<br />

holding cost<br />

implicit cost<br />

implied cost<br />

imputed cost<br />

increasing opportunity<br />

cost<br />

operating cost<br />

opportunity cost<br />

order generation costs<br />

ordering cost<br />

organizational costs<br />

other costs<br />

ownership cost<br />

period cost<br />

prime cost<br />

private cost<br />

product cost<br />

projected total life cost<br />

quality costs<br />

reasonable cost<br />

recurring cost<br />

rehabilitation cost<br />

relevant cost<br />

removal cost<br />

reorder cost<br />

replacement cost<br />

replacement cost policy<br />

roll up costs<br />

running cost<br />

selling costs<br />

severance costs<br />

step variable costs<br />

switching costs<br />

trading costs<br />

transaction costs<br />

incremental cost<br />

incurred cost<br />

indirect cost<br />

indirect maintenance cost<br />

indirect overhead cost<br />

intermediary cost<br />

inventory carrying cost<br />

inventory cost<br />

joint cost<br />

labor cost<br />

landed cost<br />

legacy costs<br />

managed cost<br />

manufacturing cost<br />

marginal cost<br />

marginal external cost<br />

marginal private cost<br />

marginal social cost<br />

mixed cost<br />

moving average inventory<br />

cost<br />

non value adding cost<br />

non-production costs<br />

non-recurring cost<br />

non-traceable common<br />

cost<br />

normal cost<br />

notional cost<br />

occupancy cost<br />

operating and support<br />

cost<br />

semi variable cost<br />

separable cost<br />

settlement cost<br />

setup cost<br />

shared costs<br />

shortages costs<br />

soft cost<br />

standard cost<br />

startup costs<br />

step cost<br />

stockout costs<br />

stranded cost<br />

sue and labor costs<br />

sunk cost<br />

support costs<br />

switching cost<br />

syndication cost<br />

target cost<br />

technology cost<br />

tooling costs<br />

total acquisition cost<br />

(TAC)<br />

traceable cost<br />

transaction cost<br />

transfer cost<br />

true interest cost (TIC)<br />

turnover cost<br />

unallowable cost<br />

unit cost<br />

usage cost<br />

user cost<br />

value added cost<br />

variable cost<br />

will cost<br />

zero cost option<br />

below cost<br />

cost/benefit analysis<br />

depreciated cost<br />

flotation costs<br />

gross capitalized cost<br />

operating costs<br />

original cost<br />

quality cost<br />

settlement costs<br />

NORDTERM 2009, København 9.-12. juni 2009 240


Vi forsøgte at klassificere de om kostninger, der blev om talt i de ovenf or nævnte<br />

artikler og rapporter om cost-benefit anal yser, efter om kostningstyperne i denne<br />

model. Men efterhånden som arbejdet skred fremad, gik det op for os, a t det også var<br />

nødvendigt at gennemføre et solidt terminologiarbejde på begrebet cost (”omkostning”<br />

på dansk).<br />

Ved en helt enkel søgning på nettet fandt vi frem til en ov ervældende mængde af<br />

omkostningstermer, som er vist i tabel 1, så det var oplagt, at en afklaring og<br />

afgrænsning var nødvendig.<br />

UDGANGSPUNKT<br />

I den følgende begrebsafklaring ta ger vi udgangspunkt i vores im plicitte<br />

begrebssystem over ”omkostninger” (Grinsted & Thomsen 2008).<br />

FIGUR 2. Begrebssystemet bag Grinsted & Thomsen (2008)<br />

De grå kasser i figur 2 repræsenterer begreber, hvorunder er anført adskillende<br />

træk, og de hvide kasser repræsenterer indd elingskriterier. I begrebssystem et er<br />

intangible cost (vanskeligt m ålbar omkostning) synonym m ed ”strategic cost<br />

(strategisk omkostning), og de nne sidste term kan derfor ikke ses i diagramm et.<br />

Desuden var det vores opfattelse at direct og indirect costs (direkte og indirekte<br />

omkostninger) altid kan måles i kroner og øre (eller en anden valuta).<br />

Siden har vi forsøgt at inddrage flere begr eber for at skabe et bedre overblik, bl.a.<br />

gennem input fra eksperter og definitioner fra forskellige medier.<br />

EKSPERTER<br />

For at s ikre at r esultatet ikke bare kom til at af spejle vores egen opfattelse af<br />

domænet, har vi rådført os med eksperter på området fra både Syddansk Universitet og<br />

Copenhagen Business School. Eksperterne fik en ganske kort orientering om<br />

NORDTERM 2009, København 9.-12. juni 2009 241


terminologiske begrebssystemer og blev herefter bedt om at systematisere sedler med<br />

udvalgte termer i et begrebssystem. Resultatet af dette blev lidt forskelligt fra den ene<br />

ekspert til den anden med den forklaring, at det naturligvis komm er an på hvilken<br />

synsvinkel man har på en cost-benefit anal yse: marketing, produktion etc. Interessant<br />

er det, at der ikke fremkom nye t ermer, mens nogle af dem vi havde udvalgt blev<br />

klassificeret som synonymer eller nærsynonymer.<br />

OVERVEJELSER I FORBINDELSE MED BEGREBSAFKLARING<br />

Når man ser på om kostninger, er det relevant at ske lne mellem initial cost og<br />

operating cost (etableringsomkostning og driftsomkostning), to begreber som ikke er<br />

med i begrebssys temet i f igur 2. If ølge den litteratu r vi så på, er<br />

etableringsomkostninger altid direkte, da de er direk te forbundet m ed formålet med<br />

investeringen, mens driftsomkostninger både kan være direkte og indirekte, som vist i<br />

figur 3. Her har vi også taget et par andre begreber med, som så ud til at høre hjemme i<br />

denne sammenhæng: non-recurring og recurring cost (engangsomkostning og<br />

gentagen omkostning).<br />

FIGUR 3. Begrebssystem udvidet med initial, operating, non-recurring og recurring cost.<br />

Efter at have kigget på vores eksem pler på konkrete om kostninger, nåede vi fre m<br />

til, at initial costs altid er non-recurring og operating costs altid recurring. Da vi ikke<br />

kunne finde andre ting, der adskilte non-recurring cost fra initial cost eller recurring<br />

cost fra operating cost, så det ud til, at der var tale om synonymer. Det blev bekræftet<br />

af de eksperter, vi har konsulteret.<br />

I en term base ville vi vælge at vise dette m ed noter, som hjælper til at vælg e<br />

betegnelse alt efter hvor ens fokus er, nem lig om hovedvægten ligger på en skelnen<br />

NORDTERM 2009, København 9.-12. juni 2009 242


mellem engangsudgifter og udgifter som går igen, eller på en skelnen m ellem<br />

opstarten og den daglige drift.<br />

Man kan også sige at sondringen m ellem recurring og non-recurring costs<br />

(gentagne og ikke gentagne om kostninger) ikke er interessant, når vi klassificerer<br />

omkostninger forbundet m ed terminologiarbejde – hvis vi allerede skelner m ellem<br />

initial og operating costs (etablerings- og driftsomkostninger).<br />

NEDARVNINGSPROBLEMER<br />

Begrebssystemet i f igur 3 er im idlertid problematisk. Hvis operating cost er underbegreb<br />

til både direct og indirect cost, arver det to f orskellige værdier til trækket<br />

RELATION som illustreret i figur 4, og det bliver umuligt at forklare begrebet.<br />

FIGUR 4. Begrebssystemet fra figur 3 nu med karakteristiske træk.<br />

Det er jo ikke sådan, at en given dr iftsomkostning kan være BÅDE direkte OG<br />

indirekte – nej, driftsomkostninger kan være ENTEN direkte ELLER indirekte. Det vil<br />

resultere i to nye underbegreber: direct operating cost og indirect operating cost. Og<br />

det er så disse to underbegreber, der skal arve fra direkte og i ndirekte omkostninger,<br />

som vist i figur 5.<br />

NORDTERM 2009, København 9.-12. juni 2009 243


FIGUR 5. 2 nye begreber arver trækkene [RELATION: direct] og [RELATION: indirect].<br />

Initial og operating cost (etablerings- og driftsomkostninger) må altså flyttes et sted<br />

hen, hvor operating cost ikke kan arve disse modstrid ende træk, f.eks. helt op under<br />

det øverste begreb, som vist i figur 6, hvor de nye begreber er indsat i et polyhierarki.<br />

FIGUR 6. Polyhierarki.<br />

Nu kan man se, at operating costs (driftsomkostninger) kan være enten direkte eller<br />

indirekte, mens initital costs (etableringsomkostninger) altid er direkte.<br />

På dette punkt i analysen m åtte vi overveje, om det også var sådan, at intangible<br />

cost (de vanskeligt m ålbare omkostninger) kunne kombineres med nogle af de andre.<br />

Findes der f.eks. intangible initial costs (vanskeligt målbare<br />

etableringsomkostninger)? Det kunne f.eks. være den ’m odstand mod forandringer’<br />

NORDTERM 2009, København 9.-12. juni 2009 244


som opstår, når nye rutiner og ny teknolog i indføres. Det taler for, at alle<br />

inddelingskriterierne skal helt op på øverste niveau, hvilket vil resultere i et m eget<br />

fladt begrebssystem med mulighed for at la ve mange polyhierarkiske kombinationer<br />

under det første niveau. I sådan et system kan intangible initial cost (vanskeligt målbar<br />

etableringsomkostning) indsættes, som vist i figur 7.<br />

FIGUR 7. Fladt system med polyhierarki.<br />

I figur 7 har vi kun taget de kom binationer med, som vi mener er relevante at tage i<br />

betragtning i forbindels e med en cost-benef it analyse af term inologiarbejde. F.eks.<br />

underinddeler vi ikke de vanskeligt målbare omkostninger i direkte og indirekte, da vi<br />

ikke mener, at det vil give bedre overblik over omkostningerne i praksis. Et eksempel<br />

på direct tangible initial cost (direkte m ålbar etableringsomskostning) kunne vær e<br />

installation af software til en te rmbase, mens en intangible initial cost (vanskeligt<br />

målbar etableringsomkostning) - som nævnt - kunne være ’modstand mod<br />

forandringer’.<br />

Systemet bliver lidt svært at over skue med de krydsende linier, m en det er udtryk<br />

for, at der i økonomisk samm enhæng bruges forskellige kriterier i forskellige<br />

sammenhænge. I nogle samm enhænge er det f. eks. mere relevant at se på, om en<br />

udgift gentages, end om det er etablering eller drift, nogle gange er det interessant at se<br />

på direkte omkostninger over for indirekte, m ens det andre gange i kke er relevant at<br />

skelne på denne måde.<br />

Som nævnt i starten var der en overvæl dende mængde af begreber bare for<br />

omkostninger (se tabel 1). Hvis de alle sammen kan sættes parvis op med forskellige<br />

inddelingskriterier som i figur 7, så tyder det på, at det er rigtigt at sige, at der er<br />

mange forskellige synsvinkler, og at m an i en given analyse vælger de inddelinger<br />

som er relevante. Som nævnt fandt vi ud af, at parret initial / operating også kunne<br />

benævnes recurring / non-recurring, og det er højst sandsynligt, at der er mange sæt af<br />

synonyme eller næsten-synonyme par. Man kan spekulere over, hvorfor der er denne<br />

overflod af termer – og dermed også begreber. En delvis forklaring blev fremført af en<br />

NORDTERM 2009, København 9.-12. juni 2009 245


af vores eksperter som udtalte: ”Alle forske re vil sige noget nyt. De laver lidt om og<br />

kalder det noget andet”.<br />

REVIDERET COST-BENEFIT MODEL<br />

Efter denne begrebsafklaring må vi modificere den oprindelige cost-benefit-model.<br />

De 6 kategorier fra figur 7 kan nu organise res som vist i tabel 2 i stedet for den<br />

oprindelige liste i modellen i figur 1. De omkostninger, der viser sig ved undersøgelser<br />

af terminologiarbejde i virksom heder og or ganisationer, kan vi så klassificere i<br />

tabellen.<br />

Costs<br />

TABEL 2. Klassifikation af omkostninger efter begrebsafklaring<br />

Tangible costs Intangible costs<br />

Direct costs Indirect costs<br />

Initial costs Direct tangible initial<br />

costs<br />

Tools<br />

Customizing<br />

Licenses<br />

Training courses<br />

Conversion of existing<br />

data<br />

Testing<br />

Operating<br />

costs<br />

Direct tangible operating<br />

costs<br />

Upgrades<br />

Maintenance<br />

Licenses<br />

Training courses<br />

Terminology work<br />

Indirect tangible initial<br />

costs<br />

Project management<br />

Indirect tangible<br />

operating costs<br />

Project management<br />

Derivative products<br />

(e.g. reports)<br />

Technical expertise<br />

Intangible initial costs<br />

Resistance to change<br />

Uncertainty<br />

Intangible operating<br />

costs<br />

Involvement of<br />

subject experts<br />

Den samlede cost-benefit model kommer så til at se ud som vist nedenfor i figur 8.<br />

Vi skal herefter også se, om der skal laves en lignende revision på benefitsiden.<br />

KONKLUSION<br />

I forbindelse m ed vores arbejde med cost -benefitanalyse af terminologiarbejde,<br />

blev det nødvendigt at lave en regulær te rminologisk begrebsafklaring, fordi nogle af<br />

termerne blev brugt i flæng, og for di der også dukkede en del term er op som lignede<br />

synonymer eller nærsynonym er. Og selv om det har kræ vet et større<br />

udredningsarbejde at blive sikre på begrebernes indhold, så viser det, at terminologisk<br />

ekspertise er et godt grundlag for at sætte sig ind i et ukendt emneområde.<br />

NORDTERM 2009, København 9.-12. juni 2009 246


FIGUR 8. Model for cost-benefitanalyse af terminologiarbejde.<br />

Den terminologiske metode til afklaring af begreber har m edført en detaljeret<br />

diskussion af begrebernes indhold til gavn for en videreudvikling af cost-ben efit<br />

analysen, men også i forhold til eksperternes bevidsthed om begrebernes indhold.<br />

Ved at bruge de ’strenge’ term inologiske nedarvningsprincipper har vi fået m ere<br />

klarhed over begreberne, og det har gjort de t muligt at lave en klassifikation på<br />

grundlag af et polyhierarkisk begrebssystem.<br />

I forbindelse med begrebsafklaringen blev nedarvning af karakteristiske træk brugt<br />

til at strukturere begreberne, og det gav en flad struktur m ed mulighed for m ange<br />

polyhierarkiske kombinationsbegreber svarende til de forskell ige synsvinkler, som<br />

eksperterne gav udtryk for. Det kunne derfor være interessant at undersøge, om der er<br />

en tilsvarende begrebsdannelse inden for a ndre dele af økonomisk terminologi – altså<br />

om det er et udtalt træk ved økonomisk sprog, at m an laver mange små variationer i<br />

betydning, som kun har lille betydning for økonomiske analyser.<br />

Cost<br />

Initial<br />

Operating<br />

Tangible Intangible<br />

Direct Indirect<br />

NORDTERM 2009, København 9.-12. juni 2009 247


Det er ikke alle begreber, der er relevante for en give n analyseopgave, og man skal<br />

ikke gøre det vanskeligere ved at forsøge at få så mange begreber med som muligt. På<br />

trods af de m ange omkostningsbegreber vi fa ndt, må vi konstatere, at det udvalg af<br />

begreber og derm ed inddelingskriterier, som 2 sproglige novicer udi cost-benef it<br />

analyser indledningsvis havde fundet frem til, har vist sig at være stort set<br />

anvendelige, når vi skal klassificere omkostninger i ”praksis”.<br />

Endelig var arbejdet med de konkrete om kostninger også en hjælp til at teste de<br />

polyhierarkiske underbegreber, f.eks. ved at se på om det var m uligt at finde<br />

eksempler på intangible initial costs (vanskeligt målbare etableringsomkostninger).<br />

Vi har endnu ikke set på, om vi kan bruge præcis den samme i nddeling i<br />

forbindelse med benefits (gevinster).<br />

Afslutningsvis vil vi gøre opm ærksom på, at vi stad ig er interesserede i at f å<br />

afprøvet modellen i praksis, og vi vil derf or gerne i kontakt m ed virksomheder, som<br />

vil indgå i et samarbejde om cost-benefit analyse af terminologiarbejde.<br />

ACKNOWLEDGEMENTS<br />

Vi vil gerne takke de forskere som har bi stået os m ed afklaringen af cost-benefitterminologien.<br />

Det drejer sig om Professor Niels Bjørn Ande rsen fra Copenhagen<br />

Business School; ph.d.-studerende Frederik Zachariasen og Profes sor Per Vagn<br />

Freytag, begge fra Syddansk Universitet.<br />

REFERENCER<br />

Guy Champagne Inc. (2004a). Portrait of Terminology in Canada. Report submitted to the Translation<br />

Bureau of Canada, Part I.<br />

Guy Champagne Inc. (2004b). The Economic Value of Terminology. Report submitted to the Translation<br />

Bureau of Canada, Part II and Summary.<br />

Grinsted, Annelise; Hanne Erdman Thomsen (2008). Cost-benefit Analysis of the Introduction and<br />

Implementation of a Terminology Management System. In: Madsen, B.N. and H.E.Thomsen (eds.):<br />

Managing Ontologies and Lexical Re-sources. Litera. ISBN: 87-91242-50-9. Pp. 317-332<br />

Holm-Rasmussen, Søren; Jens Ocksen Jensen; Lone Hansen (2005). Virksomhedsøkonomi til<br />

videregående uddannelser. Systime Academic, ISBN 87-7675-213-5.<br />

Wright, Sue Ellen (1996). Economic Issues of Terminology Management. In TermNet News 54/55, p. 4-<br />

10.<br />

NORDTERM 2009, København 9.-12. juni 2009 248


Automatic Extraction and Manual Validation of<br />

Hierarchical Swedish Patent Terminology<br />

Magnus Merkela, Jody Fooa, Mikael Anderssonb, Lars Edholmb, Mikaela<br />

Gidlundb, Sanna Åsbergb<br />

aDepartment of Computer Science and Information Technology, {magme,jodfo}@ida.liu.se<br />

bFodina Language Technology AB, {mikael.andersson, lars.edholm, mikaela.gidlund,<br />

sanna.asberg}@fodina.se<br />

Abstract. Several methods can be applied to create a set of validated terms from existing<br />

documents. In this paper we describe an a utomatic bilingual term candidate extraction<br />

method, and the validation process used to create a hierarchical patent terminology. The<br />

process described was used to extract terms from patent texts, commissioned by the Swedish<br />

Patent Office with th e purpose of using the terms for machine translation. Information<br />

on the correct linguistic inflection patterns and hierarchical partitioning of terms<br />

based on their use are of utmost importance.<br />

The process contains six phases, 1) Analysis of the source material and system configuration;<br />

2) Term candidate extraction; 3) Term candidate filtering and initial linguistic validation;<br />

4) Manual validation by domain experts; 5) Final linguistic validation; and 6)<br />

Publishing the validated terms. Input to the extraction process consisted of more than<br />

91.000 patent document pairs in English and Swedish, 565 million words in English and<br />

450 million words in Swedish. The English documents were supplied in EBD SGML<br />

format and the Swedish documents were supplied in OCR processed scans of patent documents.<br />

After grammatical and statistical analysis, the documents were word aligned. Using<br />

the word aligned material, candidate terms were extracted based on linguistic patterns.<br />

750,000 term candidates were extracted and stored in a relational database. The term candidates<br />

were processed in 8 months resulting in 181.000 unique validated term pairs<br />

which were then exported into several hierarchically organized OLIF files.<br />

INTRODUCTION<br />

Applying for a patent is a com plex process. Before applying for a patent, it is im -<br />

portant to research whether or not th ere already exists a conflicting patent. In the case<br />

of applying for European patents, this involves searching the patent databases of many<br />

different countries. The m ain obstacle for such a search is that all patents in such a<br />

database might not be available in the langua ge of the patent a pplicant. One way of<br />

solving this is to contact a local patent agency and acquire their service. However, this<br />

often implies additional costs, and almost certainly an increase in handling time.<br />

One solution to the lan guage barrier in the con text of patent search is to provide a<br />

cross-lingual search engine. Using a cross-li ngual search engine a patent stakeholder<br />

can perform a search using his or her own language, e.g. Swedish and find results<br />

from non-Swedish patent repo sitories. Furthermore the fo reign language patent text<br />

can be automatically translated into the language that was us ed for the search, in this<br />

case Swedish. For such a service to be made possible, the system needs to have a d ictionary<br />

containing translations of patent terms. These translations can be used either to<br />

translate the search query, and/or translate the patent texts in the foreign repositories.<br />

NORDTERM 2009, København 9.-12. juni 2009 249


This paper describes a proce ss of extracting and validating terms from a bilingual patent<br />

text corpus for use in Espacenet, a cross-lingual patent search system built by the<br />

European Patent Office. This paper starts of by introducing the area of patent texts,<br />

how they can be searched and who the different people are that search patent texts. We<br />

then describe the process that we developed and used to extract and validate hierarchically<br />

organized English-Swedish patent terms.<br />

BACKGROUND<br />

A validated bilingual patent terminology is a crucial component in cross-lingual patent<br />

search that uses a rule based machine translation system. As we cannot assume that the<br />

intricacies of the cross-lingual patent search domain are known to all readers, this section<br />

will provide some background on the topic.<br />

Patent texts<br />

Patent texts are classified and organized according to the IPC standard (W IPO 2005).<br />

In this standard, patents ar e grouped into sections, classe s and subclasses. A section<br />

contains several classes, which contain se veral subclasses. A c onsequence of this<br />

structure is that extracted term inology must also be hierarchically structured, in order<br />

to make sure that terms are used correctly in its intended section.<br />

The patent application<br />

To be granted a patent for a technical solution the invention must meet certain criteria<br />

(PRV 2009), it must be:<br />

new – the invention must not be known before you submit your patent<br />

application. The invention is considered known even if the inventor<br />

him/herself has published it.<br />

inventive – The invention m ust differ signifi cantly from what is already<br />

known.<br />

industrially applicable – the invention m ust be of a technical nature, have<br />

technical effect and be reproducible. The invention must not be just a theory<br />

but a product or a process; it must solve a problem in a technical way. It also<br />

has to be possible for others to repr oduce the invention and have the sam e<br />

results as from the original invention.<br />

A patent application must contain the following:<br />

A completed application form –the application for m must contain information of<br />

the invention’s title, the inventor and the applicant<br />

A description of your invention – The purpose of the description is to explain your<br />

invention. The description contains two part s; one general and one specific. In the<br />

general part, the applicant should present the field of application if the invention and<br />

the problem to be solved, along with the actual solution. In the specific part the appli-<br />

NORDTERM 2009, København 9.-12. juni 2009 250


cant should describe the invention in greater detail and give concrete examples of how<br />

it can be realized. The desc ription must be comprehens ive enough to enable a technical<br />

professional in the area to use the invention.<br />

One or more patent claims – the wording of the patent claims defines the invention,<br />

and is determining the scope of the patent pr otection. It is therefore very important to<br />

be accurate when writing the claims.<br />

An abstract – the abstract is written to summarize the technical content of the application<br />

and give an overview of the invention for interested parties.<br />

Drawings and appendices that further clarify the proposed invention can also be included.<br />

Patent search<br />

This section is an overview of relevant research and the status of patent search (novelty<br />

searches and patent examinations).<br />

Novelty searches<br />

Usually applicants choose to perform a novelty search of their invention, to see that<br />

the technical solution is not already known. It is common t o consult a specialist for<br />

performing the novelty search. Th e search specialist initially has to read the application<br />

(or the basis of the future applica tion) and understand the technological field.<br />

Then he/she starts to form a search expression used in different tools for searching in<br />

database collections. Because of the large am ount of information in the databases, the<br />

search queries will have to be refined during a number of iterations to find the relevant<br />

collections of documents relevant to the search.<br />

Patent examination<br />

When an application is filed to the patent office, the process of examining the application<br />

starts. A patent exam iner reads the applica tion to get the background of the field<br />

of the application. Then he/she starts perfor ming searches in the databases after other<br />

patents, articles or other non-patent literatu re to see if there are any docum ents that<br />

contradicts any of the three cr iteria for getting a patent granted. The process of patent<br />

examination is mainly the same as for novelty searches. The goal with patent examination<br />

is to make sure that there is nothing that prevents the patent from being granted.<br />

Espacenet<br />

A service has been created at the Eur opean Patent Office (EPO) in 1996 called<br />

Espacenet where anyone can search for patent in formation in several databases. They<br />

also have a m achine translation service for enabling people to search in their nativ e<br />

language, but find documents in other languages. To be able to do this in a good way,<br />

it demands that EPO has access to terms and their corresponding translation to English<br />

(which is the pivot language) and that is where the term extraction becomes important.<br />

An overview of the EPO/Espacenet translation system is given in Täger (2007).<br />

NORDTERM 2009, København 9.-12. juni 2009 251


Stakeholders<br />

In the “official” patent process, there are several stakeholders that are concerned by<br />

using terms in their work. Inventors often consult patent attorneys for writing the patent<br />

application. It is of high importance that the patent attorneys carefully choose<br />

their words, especially in the patent claim s since the scope of th e patent protection is<br />

defined there-in. In general, people who have their profession in the patent area have a<br />

good knowledge about terms, and the experience to know which term s are usable and<br />

which are not in a search query.<br />

The users o f Espacenet probably h ave a m ore shattered k nowledge base, and it<br />

seems more important to have an efficient terminology support tool to help the users<br />

of Espacenet to form good search expressions.<br />

CHALLENGES<br />

The task at hand was to extract and valid ate terminology from existing patent documents<br />

that existed in English and Swedish versions. These bilingual terms should then<br />

be produced in a form at that th e Machine Translation (MT) engin e used within<br />

Espacenet could handle, nam ely the Open Lexicon Interchange format (OLIF) an d<br />

contain entries in both directions, Eng lish-Swedish and Swedish-English. Furthermore,<br />

all term entries must be organized hierarchically according to the IPC system. A<br />

baseline already established was that for German around 120,000 unique term entries<br />

had been produced, which meant that this number was what was aimed for.<br />

THE PROCESS<br />

The process developed at Fodina Language Technology AB for extracting and validating<br />

terminology consists of six steps; source data analysis and system configuration,<br />

term candidate extraction, term candidate filtering and initial linguistic validation,<br />

manual validation by domain experts, final linguistic validation and publication of the<br />

validated terms. The process is visualized in Figure 1 below.<br />

NORDTERM 2009, København 9.-12. juni 2009 252


FIGURE 1. Process for term extraction and validation. Starting with patent documents and ending up<br />

with validated term entries in the OLIF format.<br />

All input data was provided as either SGML texts (for English) or as pure Latin-1<br />

texts for Swedish. The Swedish documents had been scanned OCR:ed by the Swedish<br />

Patent Office.<br />

Source data analysis and system configuration<br />

We analyzed the source data and configured the systems to the source data. In tota l<br />

there were over 91,000 docum ent pairs. The English SG ML texts were no rmalized<br />

into pure text format. The Swedish OCR f iles were processed to handle line breaks,<br />

standard hyphenation and page breaks. Furthe rmore, the Swedish texts were also prepared<br />

by automatic modification of frequent OCR errors.<br />

After the input texts had been norm alized, the whole docum ent set was sentence<br />

aligned, i.e., all texts were synchronized on the sentence level, to produce a parallel<br />

corpus. The corpus was created on the subc lass level which meant that a subcorpus<br />

was created for each su bclass. This was then the starting point for the next steps: 1)<br />

grammatical analysis and 2) statistical analysis and 3) patent dom ain training of word<br />

alignment.<br />

The grammatical analysis used to provide linguistic information, such as partsofspeech,<br />

base form and morpho-syntactic attributes, was done with the aid of Connexor’s<br />

Machinese Syntax system for English and Swedish respectively (Tapanainen<br />

& Järvinen 1997).<br />

The statistical analys is performed was done on the pa rallel material at both the<br />

word form level and at the base form level to provide probabilistic bilingual dictionaries<br />

that was used as input for the word alignment system.<br />

Before the automatic term extraction could take place, three patent subclasses were<br />

processed using the ILINK syste m (from Fodina and Linköping University – Ahren-<br />

NORDTERM 2009, København 9.-12. juni 2009 253


erg et al. 2003). By using ILINK which is an interactive word alignm ent system, a<br />

number of resources were created that furt her contributed to increasing the performance<br />

of the autom atic term extraction. Th ese resources created interactively were<br />

bilingual resources both on the lexical and th e syntactic level which would let the system<br />

be fine-tuned for the specific properties of patent translations between English<br />

and Swedish.<br />

A number of tests on how to configure the automatic word alignm ent system<br />

(ITRIX) were then performed where different combinations of system settings and use<br />

of resources were evaluated. This testing pha se then resulted in a default system configuration,<br />

which was then used for all the automatic extraction.<br />

Each subclass was then word aligned automatically using ITRIX, which resulted in<br />

word alignments of the input patent texts.<br />

Term candidate extraction<br />

After automatic word alignm ent of the bilingual subclasses using ITRIX, term candidates<br />

were extracted and stored in a datab ase. A sentence pair from the corpus is<br />

shown in Figure 2 below. The X’s in the m atrix show alignments between the English<br />

and the Swedish sentence. Two X’s on the sam e row means that a multiword unit has<br />

been aligned (for exam ple, living space-livsrummet and incubation environmentinkubationsmiljön).<br />

NORDTERM 2009, København 9.-12. juni 2009 254


FIGURE 2. Term extraction from word aligned material.<br />

NORDTERM 2009, København 9.-12. juni 2009 255


The boxed word units in Figure 2 are exam ples of what the term extraction component<br />

has decided to be term candidates. As can be seen, function words such as prepositions,<br />

articles and common verbs such as “provide” are no t regarded as term candidates.<br />

The term extraction component utilizes res ources such as general dictionaries and<br />

exception lists to determine what could be regarded as non-terms. This process is quite<br />

chosen to be rather non-strict, as we are still only concerned with term candidates, not<br />

the final term sets. The final decision on wh at should be a term has to be decided in<br />

the next step.<br />

But before validation can start, all term candidate pairs are imported into a<br />

relational database where all grammatical information and examples from the corpus<br />

are kept.<br />

Term candidate filtering and initial linguistic validation<br />

Before domain experts are called in to va lidate the term candidates, term candidates<br />

that do not fulfill certain requirements are filtered out in the database. Gradually, during<br />

the linguistic validation, errors in the automatic word alignment were collected and<br />

tagged which meant that this information could be used as resource for filtering out<br />

faulty term candidate pairs.<br />

As manual validation is a costly pr ocess, the goal of this stage is to re move term<br />

candidates from the work set so that the m anual validation process can be as efficient<br />

as possible. The way we rem oved term candidates from the work set to be passed to<br />

the domain experts was to set up four criteria for all term candidates to be passed on:<br />

• Term candidates must not be general language<br />

• Term candidates must not be erroneously aligned<br />

• Term candidates must have a source or target frequency above 4<br />

• Term candidates must have a Q-value above a subclass-specific threshold<br />

Deciding whether or not a word is general language or domain specific is a difficult<br />

question and cannot be done perfectly by a co mputer. In our case the goal was to remove<br />

as much general language as possible, but not too m uch. To do this we used a<br />

custom dictionary to remove the term candidates that were most likely to be gener al<br />

language. Using information on previous alignm ent errors and the work done during<br />

the linguistic validation, term candidates containing alignment errors could be removed.<br />

Also, term candidates were required to have a corpus frequency (either source<br />

or target word) of five or more within its subclass. The final requirement is for the<br />

alignment confidence, called Q-value, to be above a threshold set by the project managers<br />

for each clas s/subclass. For a m ore detailed description of how t he Q-value is<br />

used, see Merkel & Foo 2007). Here are som e numbers from the filtering process of<br />

subclass C04B. Note that the num ber term candidates that m atch each criterion are<br />

listed independently of whether or not they also match other criteria. • Total number of<br />

term candidate pairs extracted: 143,341<br />

• General language entries removed: 18,764<br />

NORDTERM 2009, København 9.-12. juni 2009 256


• Link errors removed: 653<br />

• Freq >4 src|trg: 9,064<br />

• Q-value filtering: keep 4,076 (q-val>1.9)<br />

• Total after filtering: 3,179<br />

As you can see, the criterion which is the ha rdest to pass is the Q-value threshold. Only<br />

4,076 term candidates pass this test, or in other words, 139,265 term candidates<br />

were rejected because of this criterion. The combination (not the sum) of the different<br />

criteria leaves us with 3,179 term candidates for the domain experts to validate.<br />

Manual validation by domain experts<br />

Rather than using professiona l domain experts, such as university lecturers, patent<br />

engineers from each domain, etc., which would have b een optimal, we chose to use<br />

university students from the various fields to validate the term candidates. What the<br />

expert validation meant in practice was that the domain experts either accept the term<br />

candidate as a term that belongs to the domain, or reject the term candidate as it is not<br />

specific to the domain.<br />

For each term candidate the domain expert also had access to the English and Swedish<br />

text passages from which the term s had been extracted. The basic task was then<br />

provide a simple Yes or No to the question on whether the term pair belonged to the<br />

domain of the particular subclass.<br />

Final linguistic evaluation<br />

After the dom ain experts have reje cted all inap propriate term candidates, additional<br />

linguistic metadata such as inflection patterns were added to the validated terms before<br />

they were published. The final linguistic validation also included m anual scrutiny of<br />

part-of-speech, gender and number.<br />

As this validation is a very tedious and time-consuming process, several steps were<br />

taken to make the final validation as efficient as possible. One such step was to develop<br />

a process that captures the corrections made by the linguistic validators. These decisions<br />

(e.g. for the term pair X and Y, corr ect Y to W) are then reused, i.e. reapp lied<br />

to similar term pairs (i.e. term pair X and Y in another s ubclass). These automated<br />

corrections however, do not automatically get promoted to “validated”, but are instead<br />

marked as “automatically corrected”. Depending on the source of the correction data,<br />

the correction was also marked as “very reli able” or “less reliable”. Correction data<br />

from the same IPC class was deemed to be more reliable than e.g. correction data from<br />

another section. In most cases the automatic correction is valid, and the human in the<br />

loop only has to accept the correction as opposed to actually making the correction.<br />

To assist the final linguist ic validation, Fodina TermVi ewer was specifically designed<br />

for this task. Fodina Term Viewer is an environm ent for revising term candidates<br />

before final publishing of the terms. A screenshot from Fodina TermViewer as it<br />

was used during the final linguistic validation is shown in Figure 3 below.<br />

NORDTERM 2009, København 9.-12. juni 2009 257


FIGURE 3. Fodina TermViewer for Final linguistic validation.<br />

The Fodina TermViewer application gives the linguistic validator inform ation on<br />

the source term, target term, head words, part-of -speech, inflection patterns, morphosyntactic<br />

information as well as on if the term pair information has been recycled in<br />

any way. In the lower panel, contexts for the term pairs in the patent documents are<br />

NORDTERM 2009, København 9.-12. juni 2009 258


also available. By selecting the butto n at the lower right-hand corner labeled “Ready<br />

for Export”, the validator has approved the term pair.<br />

Publishing the validated terms<br />

After the final linguistic validation, the terms can be published as a set of hierarchically<br />

structured OLIF lexicon files. The OL IF lexicon files were produced in two directions;<br />

one set for English to Swedish and one set for Swedish to English.<br />

Each subclass of the IPC standard is f illed with the validated terms, and then terms<br />

from subclasses belonging to a class are propa gated to the class leve l dictionary. This<br />

goes on up to the section level, and then to a default top dictionary level as depicted in<br />

Figure 4 below.<br />

FIGURE 4. Building hierarchical OLIF lexicons with patent terms.<br />

RESULTS<br />

After 8 months work, the complete term extraction and validation was finalized. More<br />

than 91,000 document pairs had then been processed from clean-up to final validation,<br />

providing more 181,260 unique term pairs.<br />

Most of the process was fully autom atic; clean-up, sentence-alignm ent, tagging,<br />

statistical analysis, word alignment and term candidate pair extraction.<br />

The time-consuming and mostly intense phase was of course the validation phase,<br />

but thanks to efficient and user-friendly environments like the Term Viewer, the linguistic<br />

and dom ain expert validation could be done e fficiently. The way that<br />

TermViewer was designed in order to gi ve maximal overview and also by providing<br />

keyboard shortcuts (instead of using graphi cal buttons) also increased the efficiency<br />

during the course of the projec t. At the end of the project w e estimate that an expert<br />

doing domain validation processed between 4, 000 and 6,000 term candidate pairs per<br />

NORDTERM 2009, København 9.-12. juni 2009 259


working day. Expert validation is an easier ta sk than linguistic validation as it is binary,<br />

it only required a Yes or a No. For linguistic validation we estim ate that a linguist<br />

processed between 2,000 and 3,000 term pairs per working day. The way that linguistic<br />

information was reused and tagged considerably made this performance possible.<br />

In Table 1 below, the progress of the project is illus trated. We started off with the<br />

smaller sections D, E and F, in order to build up efficient strategies to handle the logistics.<br />

The co lumns give inform ation of how large each section was in the Eng lish-<br />

Swedish corpus; the D, E and F sections together made up 12 per cent of the total document<br />

set, whereas section C alone was over 28 per cent of the total document set.<br />

TABLE 1. Size of IPC sections and number of accumulated extracted term pairs<br />

As can be seen in Table 1, the grow th of validated unique term pairs actually is m ore<br />

or less proportional to the size of the sections. This is shown clearer in the graph de -<br />

picted in Fig. 5 below.<br />

NORDTERM 2009, København 9.-12. juni 2009 260


FIGURE 5. Growth of validated term pairs in relation to total size of source documents.<br />

The fact that the growth of the number of validated term pairs is more or less linear<br />

is maybe somewhat surprising. Before embarking on this project we had expected that<br />

it would be harder and harder to detect “new” unique term pairs.<br />

DISCUSSION<br />

This paper has presented an efficient and l ogistically feasible approach extracting and<br />

validating terminology for a large area. The goal was to create a validated terminology<br />

base to be used in machine translation and this means that one does not have to deal<br />

with creating terminological concepts. Another difference from more traditional use of<br />

terminology is that the term bank is not normative or standardized. Only the m ost frequent<br />

terms have survived the extraction a nd validation stages described earlier. Although,<br />

a large number of terms have been produced, this is still only the tip of the iceberg<br />

when it comes to terminology used in patent texts. 181,000 unique term pairs is a<br />

large set of terms, but as terms with lower frequency and only the most frequent translation<br />

is kept, it is obvious that there are many more terms that could be extracted from<br />

this material, but it is a very good start. Th ere are of course bits that could be im -<br />

proved in the process but we regard the key<br />

benefits of this approach as the way we r ecycled information from previously validated<br />

term pairs, using students as dom ain experts and the developm ent and use of an<br />

efficient validation tool. An area that obviously could need more research is the automation<br />

of improved term filtering.<br />

ACKNOWLEDGMENTS<br />

NORDTERM 2009, København 9.-12. juni 2009 261


We would like to thank the people at the Swedish Patent Office (PRV), especially Leif<br />

Stolt, for excellent cooperation. We are also grateful to everybody at the European<br />

Patent Office who assisted us with OLIF and formal information. Finally, thanks to all<br />

the experts who helped us during the domain validation.<br />

REFERENCES<br />

Ahrenberg, L., Merkel, M., Petterstedt M. (2003). Interactive Word Alignment for Corpus Linguistics.<br />

In Proceedings from the International Conference of Corpus Linguistics, (pp. 533-542). Lancaster.<br />

Merkel, M., Foo, J. (2007). Terminology extraction and term ranking for standardizing term banks. In:<br />

Proceedings of the 16th Nordic Conference of Computational Linguistics, NODALIDA-07: May<br />

25-<br />

26 2007; Tartu; 2007: 349-354.<br />

PRV (2009). Patent- och registreringsverket (PRV, The Swedish Patent Office). http://www.prv.se/en<br />

(accessed 2009-10-01).<br />

Tapanainen, P., Järvinen, T. (1997). A non-projective dependency parser. In Proceedings of the 5th<br />

Conference on Applied Natural Language Processing, April 1997, Washington, D.C., Association<br />

of<br />

Computational Linguistics, pp. 64-71.<br />

Täger, W. (2007). European Machine Translation Programme. Presentation given at the Machine<br />

Translation Summit XI, Copenhagen September 11-14, 2007.<br />

WIPO 2005. World Intellectual Property Organization, International Patent Classification (IPC),<br />

Eighth Edition WIPO Publication Number 560/8, 2005.<br />

NORDTERM 2009, København 9.-12. juni 2009 262


ONKI-ontologibiblioteket: tjänster för<br />

upprätthållare, indexerare och<br />

informationssökare<br />

Katri Seppälä a , Eero Hyvönen b , Jouni Tuominen b och Kim Viljanen b<br />

a Terminologicentralen TSK och SeCo-gruppen (Semantic Computing Group) ,Tekniska högskolan, laboratoriet för mediateknik, fornamn.efternamn@tsk.fi<br />

b SeCo-gruppen (Semantic Computing Group), Tekniska högskolan, laboratoriet för mediateknik, fornamn.efternamn@tkk.fi<br />

Abstrakt. Ontologier behöver tjänster som underlättar deras användning och ett<br />

ontologibibliotek är för sin del nyttigt bara om det innehåller systematiska ontologier som<br />

uppfyller användarnas krav. För att främja användning av ontologier behövs alltså en modell för<br />

ontologiernas struktur och en metod för publicering av ontologier. I vår artikel kommer vi att<br />

diskutera hur ett ontologibibliotek kan användas av upprätthållare, indexerare och<br />

informationssökare och hur ontologier och ontologibiblioteket indirekt och direkt underlättar<br />

informationssökningen.<br />

FinnONTO 2.0-projektet<br />

Projektet Finska semantiska webbens ontologier (FinnONTO) pågick 2003–2007,<br />

och nu fortsätter arbetet i ett nytt projekt FinnONTO 2.0 (2008–2009). Projektet<br />

koordineras av professor Eero Hyvönen från Tekniska högskolan i Esbo, Finland, och<br />

dess forskningsgrupp består av cirka 20 forskare. Projektets huvudfinansiär är Tekes<br />

(utvecklingscentralen för teknologi och innovationer) och projektet har 38 deltagare,<br />

som är organisationer från olika specialområden: biblioteksväsen, informationsteknik,<br />

kartografi, kommunikation, litteratur, museiverk, social- och hälsovård,<br />

språkteknologi, terminologi, undervisning, metallindustri och maskinindustri.<br />

Projekten har redan producerat flera finska ontologier som är strukturerade efter en<br />

gemensam modell. Ontologierna har publicerats med hjälp av ONKIontologibiblioteket<br />

1 och de används till exempel i två portaler som forskningsgruppen<br />

har byggt upp: hälsoinformationsportalen TerveSuomi 2 och<br />

kulturinformationsportalen Kulttuurisampo 3<br />

. Det nuvarande projektet avslutas i slutet<br />

av år 2009 men en fortsättning på projektet är under planering.<br />

FinnONTO-ontologier<br />

I detta sammanhang hänvisar ordet ontologi till en exakt definiering av ett visst<br />

begreppssystem i en maskinläsbar form. TSK har i FinnONTO-projekten deltagit i<br />

uppbyggandet av den Allmänna finska ontologin, som baserar sig på den Allmänna<br />

1 http://www.yso.fi/<br />

2 http://www.tervesuomi.fi/<br />

3 http://www.kulttuurisampo.fi/<br />

NORDTERM 2009, København 9.-12. juni 2009 263


tesaurusen på finska, och kompletteringen av den allmänna ontologin med<br />

specialontologier. FinnONTOs specialontologier bygger på följande tesaurusar och<br />

ordlistor: Allmän tesaurus på finska, Ordlista för museibranschen, Ordlista för<br />

fotografi, Tesaurus för design och kommunikation, Agriforest-tesaurus, Tesaurus för<br />

hälsofrämjande, Tesaurus för sjöfartsbranschen, CILLA-specialtesaurus för musik och<br />

Bella-specialtesaurus för fiktivt material. Den enhetliga hierarkin, som används i alla<br />

FinnONTO-ontologier, är uppbyggd enligt en modell som skapades för den Allmänna<br />

finska ontologin. I motsats till tesaurusar och ordlistor har homonymer och polysemer<br />

åtskiljts och partitiva relationer tillagts i ontologierna. Dessa ontologier är lämpliga för<br />

samma användningsändamål som tesaurusar: indexering och sökning av olika slags<br />

material (t.ex. textdokument, bilder, föremål, musik). Däremot är ontologierna för<br />

inexakta för dataöverföring även om systematiken är bättre än i tesaurusar.<br />

ONKI-ontologibibliotekET<br />

Professor Eero Hyvönen, Jouni Tuominen och Kim Viljanen från FinnONTOgruppen<br />

har koncentrerat sig på utvecklingen av ONKI-ontologibiblioteket. ONKIontologibiblioteket<br />

är en server, där flera ontologier kan lagras, upprätthållas och<br />

användas och som erbjuder tjänster för flera användargrupper.<br />

BILD 1. ONKI-bläddrare.<br />

NORDTERM 2009, København 9.-12. juni 2009 264


ONKI för upprätthållare<br />

För upprätthållare ger ONKI en möjlighet att upprätthålla kombinerade ontologier,<br />

inte enbart upprätthållarens egen ontologi. Kombinerade ontologier kan bestå av<br />

ontologier med en gemensam struktur, t.ex. KOKO-ontologin, eller ontologier med<br />

olika strukturer, t.ex. den Allmänna finska ontologin och WordNet 4<br />

.<br />

Forskningsgruppens egen kombinerade ontologi KOKO har redan publicerats. Den<br />

innehåller flera av FinnONTOs specialontologier. Det finns planer att komplettera den<br />

Allmänna finska ontologin med ekvivalensrelationer till WordNets begrepp. Eftersom<br />

begreppen i ontologin har definierats med hjälp av relationer till näraliggande begrepp,<br />

är det möjligt att ge exakta ekvivalenter på olika språk. Dessutom är det möjligt att<br />

koordinera upprätthållandet av ontologierna eftersom alla upprätthållare har<br />

gemensamma regler för gemensamma strukturer, alla intresserade får information om<br />

ändringar och information om de äldre versionerna av ontologierna kan behållas på<br />

servern. Speciellt för små organisationer är det av stor hjälp att kunna utnyttja de<br />

centraliserade resurserna för maskinvara (en gemensam server) och användarstödet för<br />

de registrerade användarna. Det går också att integrera ONKI med andra system (för<br />

sökning och indexering) med hjälp av ett web service-gränssnitt.<br />

ONKI för indexerare<br />

ONKI-ontologibiblioteket underlättar en indexerares arbete eftersom det erbjuder<br />

en möjlighet att indexera med hjälp av en kombination av ontologier och därför<br />

behöver man inte längre söka i flera separata tesaurusar. I ONKI är det lätt att välja<br />

vilka ontologier man vill använda och det rätta begreppet kan hittas snabbt i den valda<br />

ontologin med hjälp av auto completion-funktionen. Auto completion-funktionen visar<br />

alla ord med den teckensträngen som har skrivits i sökfältet, om ett sådant begrepp<br />

finns i de valda ontologierna. När man klickar på det önskade indexeringsordet<br />

överförs informationen om begreppet (benämningen och URI) till det andra systemet<br />

som ONKI är integrerat med utan att man behöver kopiera och klistra in texten.<br />

Ontologins hierarki gör det lätt att välja det rätta och exakta begreppet vid indexering<br />

och då blir indexeringen enhetligare även om flera personer tar hand om den.<br />

Indexeringen blir också enklare eftersom det behövs endast ett indexeringsord per en<br />

hierarki, därför att ontologin innehåller information om över- och underordnade<br />

begrepp.<br />

ONKI för informationssökare<br />

Ontologierna och ontologibiblioteket möjliggör begreppsbaserad sökning. När man<br />

använder auto completion-funktionen som är kopplad till ontologin, är det inte möjligt<br />

att välja sökord som inte finns i ontologin. Ontologibiblioteket ger också en möjlighet<br />

att använda nya sökmetoder och formulera sökresultatet. Sökbegreppets hierarkiska<br />

underbegrepp används automatiskt i sökningen, men sökresultatet formuleras så att de<br />

sökträffarna som hittades med det exakta sökbegreppet visas först. Dessutom kan de<br />

4 http://wordnet.princeton.edu/<br />

NORDTERM 2009, København 9.-12. juni 2009 265


avrådda indexeringsorden användas vid sökningen. Vid sidan av sökträffarna kan<br />

ONKI ge rekommendationer om andra potentiellt intressanta objekt genom att<br />

använda de överordnade begreppen till sökbegreppet och begrepp som har associativa<br />

relationer till sökbegreppet (t.ex. om man söker information om arbetsredskap, är man<br />

kanske också intresserad av arbetskläder). Om ontologin är flerspråkig är det möjligt<br />

att byta mellan olika språk vid sökningen.<br />

I ett icke-semantiskt söksystem ska beskrivningen av ett föremål, dokument eller<br />

liknande innehålla exakt de indexeringsord som används vid sökningen – annars hittar<br />

man dem inte. Men om söksystemet utnyttjar ontologier räcker det att beskrivningen<br />

innehåller ett indexeringsord som hänvisar till ett underordnat begrepp till sökordet.<br />

Till exempel om man använder kärl som sökbegrepp, hittar man också föremål som<br />

har beskrivits med indexeringsorden kopp eller fat. Eller om man söker kärl som har<br />

tillverkats i Europa, hittar man kärl, som har tillverkats i Tyskland. På motsvarande<br />

sätt hittar man porslin, när man söker efter keramik.<br />

Eftersom det inte är lätt att snabbt ersätta de existerande IT-systemen är det viktigt<br />

att det är lätt att integrera ONKI med andra system. Då kan ontologierna tas i bruk<br />

även i de existerande systemen. För integrering av ONKI behövs bara cirka två rader<br />

Javascript-kod, vilken tillsammans med övriga instruktioner ligger på SeCo-gruppens<br />

webbplats 5<br />

. Integreringen har demonstrerats med Kantapuu-systemet (Stamträdet),<br />

som är en finskspråkig databas för samlingar som är gemensamma för ett flertal<br />

museer, t.ex. Lusto - Finlands skogsmuseum. Museerna ville inte ändra Kantapuusystemet<br />

men ville använda ontologierna vid sökning för att öka uppfångningen. Efter<br />

integreringen av ONKI-ontologibiblioteket i Kantapuu-systemet, breddas sökningen<br />

med hjälp av de underordnade begreppen till sökbegreppet. Skillnaden i<br />

uppfångningen är betydelsefull. Om man använder sökbegreppet<br />

työvälineet/arbetsredskap och söker med hjälp av ONKI, används också det<br />

underordnade begrepp till sökbegreppet, t.ex. sahat/sågar, och man får 4900<br />

sökträffar. Utan ONKI blir det bara 3509 sökträffar. Eftersom ontologin som används i<br />

systemet är tvåspråkig, kan man vid sökningen använda finska eller svenska sökord,<br />

även om indexeringen endast är gjord på finska. Också den Finska ortontologin med<br />

tidsperspektiv (SAPO) används i samband med Kantapuu och den hjälper att hitta<br />

information relaterad till orter trots kommunalsammanslagningar och förändringar av<br />

gränserna under tiden. Om man till exempel söker publikationer som har använts i<br />

Joensuu, får man som sökresultat publikationer som har Eno som användningsort.<br />

Grunden för resultatet är att ONKI använder också ortsnamnet Eno i sökningen<br />

eftersom Eno nuförtiden hör till Joensuu och information om denna<br />

kommunsammanslagning ingår i ontologin. Om informationssökaren inte är medveten<br />

om kommunsammanslagningen kan resultat först se förvirrande ut. Efter att ha kollat<br />

relationen mellan Joensuu och Eno märker man dock att ibland kan ontologierna eller<br />

söksystemet veta mer än personen som använder systemet.<br />

5 http://www.yso.fi/onkiselector/<br />

NORDTERM 2009, København 9.-12. juni 2009 266


BILD 2. Kantapuu-systemet som använder ONKI-ontologibiblioteket.<br />

AVSLUTNING<br />

Under de senaste åren har intresset för ontologierna varit stort. När antalet<br />

ontologibaserade system ökar, blir det lättare att demonstrera och å andra sidan förstå<br />

nyttan av ontologierna i olika sammanhang. Eftersom arbetet med ontologier är<br />

tidskrävande hoppas vi att vi hittar organisationer som efter forskningsprojekten tar<br />

ansvaret för upprätthållandet av FinnONTOs ontologier och tjänster så att de är fritt<br />

tillgängliga för alla intresserade också i framtiden.<br />

Vi tackar Tekes (utvecklingscentralen för teknologi och innovationer) och de 38<br />

deltagande organisationerna för finansiering av FinnONTO-projekten.<br />

REFERENCER<br />

Eero Hyvönen, Kim Viljanen, Jouni Tuominen and Katri Seppälä: Building a National Semantic Web<br />

Ontology and Ontology Service Infrastructure--The FinnONTO Approach. In Proceedings of the European<br />

Semantic Web Conference (ESWC 2008), Springer-Verlag, 2008.<br />

Jouni Tuominen, Matias Frosterus, Kim Viljanen and Eero Hyvönen: ONKI SKOS Server for<br />

Publishing and Utilizing SKOS Vocabularies and Ontologies as Services. In Proceedings of the 6th<br />

European Semantic Web Conference (ESWC 2009), Springer-Verlag, 2009.<br />

Jouni Tuominen, Tomi Kauppinen, Kim Viljanen and Eero Hyvönen: Ontology-Based Query Expansion<br />

NORDTERM 2009, København 9.-12. juni 2009 267


Widget for Information Retrieval. In Proc. of Scripting and Development for the Semantic Web<br />

Workshop at the ESWC, Heraklion, Greece, May 31, 2009, CEUR Workshop Proceedings, ISSN<br />

1613-0073, online CEUR-WS.org/Vol-449/, 2009.<br />

Kim Viljanen, Jouni Tuominen and Eero Hyvönen: Ontology Libraries for Production Use: The Finnish<br />

Ontology Library Service ONKI. In Proceedings of the 6th European Semantic Web Conference<br />

(ESWC 2009), Springer-Verlag, 2009.<br />

NORDTERM 2009, København 9.-12. juni 2009 268


Etablering af termbase over dragt- og<br />

tekstilbegreber<br />

a<br />

a,b<br />

Susanne Lervad<br />

Termplus Aps, Symbion Science Parc, Fruebjergvej 3<br />

2100 København Ø www.termplus.dk; sl@termplus.dk<br />

.<br />

b<br />

CRTT, Centre de Recherche en Terminologie et Traduction,<br />

Université Lyon86, rue Pasteur, F-69365 Lyon Cedex<br />

Abstract. Digitalisering: “Et klik på internettet – og De har svaret på hvad f.eks. en<br />

dullemøsse er. Det vil de danske museer have sikret om et par år med en digital ordbog over<br />

gamle udtryk og betegnelser for klædedragt og tekstiler. En dullemøsse er for øvrigt en hvid<br />

blondebesat hovedbeklædning for fine kvinder fra 1600- tallet”.<br />

Ny ordbog om gamle klæder<br />

Som medlem af Dragtpuljen under Kulturarvstyrelsen og som terminolog i arbejdsgruppen<br />

for ordbogsdatabasen i denne pulje, vil jeg forsøge at beskrive baggrunden for dette<br />

ordbogsprojekt, som arbejder med at sikre en autoriseret terminologi for dragter og tekstiler<br />

på de danske museer.. Baggrunden for samarbejdet er et ph.d. projekt om tekstilterminologi<br />

SDU og arbejdet med terminologi på forskningscentret CRTT ved universitetet I Lyon, samt<br />

tekstilmuseet og det internationale modeuniversitet i Lyon.<br />

Siden 2003 har jeg desuden arbejdet med udviklingen af termdatabase programmet<br />

Termplus Manager, der også er rettet til gruppens arbejde.<br />

En lang række danske museer har samlinger af historiske dragter og tekstiler, og i<br />

registreringen af disse er der anvendt forskellige ord, der betyder det samme, men som<br />

skifter over tid. Det er ikke hensigtsmæssigt i hverken forskning eller formidling, og derfor er<br />

der et stort arbejde i gang med at etablere en fælles database over dragt- og tekstiludtryk fra<br />

1600-tallet og fremefter.<br />

Projektets overordnede formål er dels at bevare den immaterielle kulturarv, som dragt- og<br />

tekstiludtrykkene er, og dels at gøre udtrykkene og deres betydning tilgængelige for alle<br />

interesserede via en database på internettet.<br />

NORDTERM 2009, København 9.-12. juni 2009 269


Tekstiludtryk er en vigtig kulturarv, som bør bevares. Nye generationer må kunne hente<br />

inspiration ikke kun i museernes tekstilsamlinger, men også i en videnbank med oplysninger<br />

om gamle tekstiludtryk.<br />

Museerne har i de senere år oplevet en stigende interesse for tidligere tiders dragter og<br />

tekstiler og dermed også for de udtryk, som knytter sig hertil. En orddatabase vil være et<br />

meget anvendeligt arbejdsredskab for alle, som beskæftiger sig med dette område, for<br />

eksempel håndarbejdsstuderende, universitetsstuderende, og forskere. Databasen vil også<br />

være til stor hjælp i museernes registreringsarbejde. Den vil sikre en mere ensartet<br />

terminologi, ligesom den vil være et vigtigt supplement til museernes arbejde med<br />

forespørgsler og formidling. Orddatabasen bliver en digital videnbank tilgængelig for alle, og<br />

den vil kunne give svar, hvor ordbøger og leksika i dag er utilstrækkelige.<br />

Arbejdsgruppen om ordbogen blev nedsat i 2004. Siden da har den arbejdet frem mod at<br />

registrere dragtterminologi, men da termer ændrer betydning over tid, betyder det f.eks. at<br />

kun folk over en vis alder vil kende det udgåede ord. Det er også planen at inkorporere andre<br />

projekter vedrørende historiske ord/termer inden for området dragt og tekstil i DK i det<br />

samlede arbejde.<br />

Et af målene med arbejdet er at registrere ud fra en præcis og autoriseret terminologi. F.eks.<br />

gælder det for termen giraftrusser at folk af en anden og yngre alder vil kende betegnelsen<br />

gamacher som et almindeligt udtryk, og nu ser vi alle betegnelsen leggings i stormagasiner<br />

og tøjforretninger.<br />

Fra starten ville arbejdsgruppen også have kildehenvisninger i orddatabasen, fordi det ville<br />

gøre den mere frugtbar som arbejdsredskab for alle. Dette niveau blev senere suppleret med<br />

et litterært niveau med citater, der bedre end mange forklaringer kunne vise den måde,<br />

termerne på et vist tidspunkt var blevet anvendt. Det ville kunne give dem både et tidsaspekt<br />

og et aspekt af termers brug i forskellige sociale niveauer og sammenhænge.<br />

Tidligt i arbejdet var der enighed om hvilke elementer der burde indgå i databasen:<br />

Dragtdele og dragtens enkelte elementer, materialer, teknik, historisk dimension, stil og de<br />

faglige tilgange.<br />

Men før det kunne realiseres var der mange debatter om struktur og eksperimenter med<br />

databasesystemer, der skulle gennemleves. Danmarks Center for Tekstilforskning på<br />

NORDTERM 2009, København 9.-12. juni 2009 270


Københavns Universitet koordinerede arbejdsgruppens ønsker om databasens elementer.<br />

Hvad databasen skal have af muligheder, blev i Termplus Manager omsat til fire<br />

sammenknyttede baser med indbyrdes søgemuligheder. Det blev til følgende klassifikation af<br />

begreberne i dragt og tekstildatabasen:<br />

1) Tekstiler og fremstillingsteknikker<br />

2) Dragter og dragtdele<br />

3) Dekoration og dekorationsteknikker<br />

4) Talemåder<br />

Kilderne til termbasen er kendte museumsfolk og forskeres opbyggede seddelkartoteker af<br />

Margrethe Hald. Ellen Andersen, Erna Lorenzen og Else Østergaard. Arbejdet med ar<br />

gennemgå selve ordene er påbegyndt med udgangspunkt i Erna Lorenzens seddelkartotek,<br />

som er yderst grundigt og systematisk.<br />

Det er gruppens mål at gøre ordene aktive netop ved at lade dem være offentligt<br />

tilgængelige på internettet forsynet med kildebelagte ordforklaringer, variationsmuligheder i<br />

staveformer, systematisering i typer og et litterært niveau med citater, der placerer ordene i<br />

tid og sted. Det er også målet at alle ord skal forsynes med illustrationer – gerne fra de<br />

danske muséers samlinger.<br />

Her følger nogle eksempler på definitioner af tekstiltermer og hvordan grundbegreber inden<br />

for vævning optræder i arbejdet med tekstilterminologi. Der kommer også eksempler på<br />

synonymi og ortografiske varianter.<br />

Grundelementer for en vævning er<br />

Binding: Vinkelret krydsning af lodret gående (kæde/skudtråde) og vandret gående tråde<br />

(skud/islættråde) udført efter tælleprincip for hvilke tråde, der skal hæves og sænkes for den<br />

mest enkle binding kan fremkomme<br />

NORDTERM 2009, København 9.-12. juni 2009 271


Bindingspunkt: Skuddet lægger sig ovenpå kæden eller går under, og der opstår derved en<br />

sammenfletning af to vinkelrette tråde.<br />

Rapport : mindste gentagelse af binding og dermed mindste gentagelsesenhed.<br />

Der findes tre grundbindinger og det er grundbegreberne i vævning og alt efter om man<br />

befinder sig i en håndværksmæssig eller industriel tilgang hedder de længdegående tråde<br />

trend eller kæde og de tværgående tråde islæt eller skud.<br />

Men så klar en skelnen er langtfra altid tilfældet i terminologi for feltet.<br />

De tre grundbindinger i vævning : lærred, kiper og satin kan også nemlig også betegnes:<br />

Lærred/toskaftsbinding<br />

Kiper/köper/kipper<br />

Satin/firskaftsbinding/atlask<br />

Traditionelt har terminologi som disciplin stræbt imod at undgå synonymi, men spørgsmålet<br />

er om det i en offentligt tilgængelig base er hensigtsmæssigt at reducere synonymi. Netop<br />

den brede skare af brugere af sådan en base ville have glæde af at kunne søge med<br />

ortografiske varianter som. f.eks. kiper/kipper eller med synonymi i skud/kæde eksemplet,<br />

der afspejler henholdsvis en industriel og en håndvæksmæssig sammenhæng.<br />

Termplus Manager systemet er derudover tilpasset til at kunne notere hvad der er den<br />

foretrukne term (t) og hvad der er synonym (s), sådan at der i en form for tragtmodel kan<br />

fremkomme en avanceret søgning med resultater med mange synonymer, men samtidig<br />

også en udvælgelse af den mest gængse term hvis en sådan findes.<br />

Derudover er det meningen, at der skal inddrages illustrationer i basen, som netop tydeliggør<br />

begreberne og medfører at lange tekstforklaringer ikke er<br />

NORDTERM 2009, København 9.-12. juni 2009 272


så nødvendige.<br />

Et andet eksempel med synonymi er grundbindingen lærred:<br />

Definition: ”En av de tre grundbindingarna. Rapporten består av två varp- och två<br />

inslagstrådar. Varje inslagstråd går växelvis över en och under en varptråd.”<br />

Kilde: Nordisk Textilteknisk Terminologi, s. 44<br />

Svensk: tuskaftsbindning; lärftsbinding<br />

Norsk: toskaftsbinding, lærredsbinding<br />

Dansk:. toskaftsbinding, lærredsbinding<br />

Engelsk: tabby<br />

Fransk:. taffetas, toile<br />

Tysk: Leinwandbindung<br />

Lærred kan illustreres på flere måder og her kommer blot én af muligehderne<br />

NORDTERM 2009, København 9.-12. juni 2009 273


FIGUR 1.<br />

En anden mulighed er en diagramform til at vise det binære symbol for hvordan en skudtråd<br />

går skiftevis over og under en kædetråd. På den måde bliver definitionen maskinlæsbar og<br />

kan bruges i computerprogrammer f.eks. som opskrift<br />

eller kan rejse over sproggrænser med en kode (værdi 0 eller 1).<br />

Der er en lang række afledninger af lærred, som alle har meget synonymi (panama, hopsack,<br />

reps etc.), men ved hjælp af. kodebrug fra f.eks standardiseringsnormen ISO 9354 bliver<br />

definitionen entydig uden brug af sproglige midler, og synonymi er derfor ikke så<br />

problematisk. 10 01010100 er koden for lærred i ISO normen 9354, og heraf er det første<br />

element bindingstype, det andet element er krydsningen af tråde, (kædetråde op eller ned).<br />

Det tredje.element er kædetrådenes gruppering (enkeltvis eller i gruppe) og endelig er det<br />

fjerde element springtallet for bindingen.<br />

Kipper/kiper/köper er den anden grundbinding, vi behandler.<br />

Definition<br />

NORDTERM 2009, København 9.-12. juni 2009 274


En av de tre grundbindingarna, karakteriserad av att bindepunktarna för varje inslag<br />

förflyttas ett steg åt sidan och bilda diagonllinjer (da. Kipergraden, ty. Grate) i vävnaden.<br />

Rapporten består alltid av samma antal varp- som inslagstrådar, minsta antalet är tre. En<br />

kypert definieras med hjälp av siffror, vilkas summa ger rapportens trådantal. Första sifffran<br />

betcknar det antal inslagstrådar över vilka en varptrådar över vilka en varptråd flotterar.<br />

Andra siffran det antal inslagstrådar samma varptråd passerar under o.s.v. Ex: sv. Kypert 3/1,<br />

no. kypert 3/1, eng. 3/1 twill, ty. K 3/1 = fyrskafdad kypert med varpeffekt på den sida<br />

beskrivningen avser.”<br />

Eksempler:<br />

Svensk: Kypert,<br />

Dansk: Kiper, köper<br />

Norsk: Kypert<br />

Engelsk: Twill,<br />

Fransk: Sergé<br />

Tysk: Köperbindungg<br />

Kilde: s.32-33 i Nordisk Textilteknisk terminologi<br />

NORDTERM 2009, København 9.-12. juni 2009 275


.<br />

FIGUR 2.<br />

Satin, atlask<br />

Den sidste grundbinding er satin og den vises her kun med to diagramformer, der tydeligt<br />

viser, at der her er springende bindingspunkter<br />

De afledte bindinger er ligeledes meget komplicerede at beskrive verbalt, så den non-verbale<br />

beskrivelse er her meget gunstig.<br />

Både kipper og satin er meget produktive til afledninger, hvilket betyder, at det er endnu<br />

mere vigtigt at kunne bruge en entydig kode og visuelle hjælpemidler også internationalt og<br />

over sproggrænser.<br />

Svensk Satin/Atlaskbindning<br />

Dansk Satin, atlask<br />

Norsk Sateng<br />

Engelsk Satin<br />

NORDTERM 2009, København 9.-12. juni 2009 276


Fransk Satin<br />

Tysk Atlasbinding, Atlas<br />

Definition<br />

“En av grundbindingarna karakteriserad av att alla bindepunkter åtskiljas i alla riktningar av<br />

en eller flere varptrådar och ett eller flera inslag. Rapporten består alltid av samma antal<br />

varp- som inslagstrådar. Minsta antalet är 5. Är skridningstalet hela tidan detsamma, bildas<br />

skönjbara diagonaler i vävnaden.<br />

En satinbinding definieras genom att man anger: antalet varptrådar i rapporten = det antal<br />

skaft som fordras för vävningen samt bindningens skridningstal. Ex. sv. 5-skaftad satin med<br />

skridningstal 2, da. 5 skaftat satin med skridiningstal 2, no. 5 skaftet sateng med<br />

skridningstall 2, eng. 5-end satin, interruption 1, fr. satin de 5, interruption 1 eller<br />

décochement 2, ty. 5-binding Atlasbindung mit Fortschreitungszahl 2”.<br />

Kilde: Nordisk textilteknisk terminology, p. 49<br />

NORDTERM 2009, København 9.-12. juni 2009 277


FIGUR 3.<br />

FIGUR 4.<br />

NORDTERM 2009, København 9.-12. juni 2009 278


VÆVEEKSEMPLER I DE HISTORISKE DRAGTER<br />

Et eksempel på lærredsvævning til dragter i perioden 1600- er taboret og floret.<br />

“Taboret er en ulden toskaftsvævning med nuancerede smalle striber i kæderetningen, til<br />

tider med en ekstra lancerende mønskerkæde og ofte brocherede strøbuketter. Taboret er<br />

vidt udbredt til kvindetrøjer, skørter og kjoler.<br />

Der er en lærredsvævet bund og lanceret flerfarvet mønster og kæderetning. Tit findes tillige<br />

brocherede strøblomster. Det var ligesom calemank uldent og glittet og kom til kontinentet<br />

fra England.<br />

Sluteffekten var en glitning med vox og påfølgende presning, der gjorde tjet silkeagtigt blankt<br />

men temmelig stift. Der var mange variationer, som gav romantiske og salgsbare navne”.<br />

Kilde: Erna Lorenzen: Folks tøj: 1675-1850<br />

Floret: Silke (toskaftsvævning og væveteknik overført til silke).<br />

Sluteffekten var en glitning med voks og påfølgende presning, der gjorde tøjet silkeagtigt<br />

blankt men temmelig stift. Der var mange variationer som man gav romantiske og salgsbare<br />

navne: sirts, kattun, lærredscattung og sirtscattung mm.)<br />

Kipper: Drejlstøj som mere jordnært end satinvævning og ofte er det kraftigt bomuldstøj.<br />

(daldrejl og halvdrejl). Drejl har ofte mindre gentagen rapport.<br />

Damask (satin/atlask væve er en ensfarvet vævning i satindamask binding, hvor mønstret på<br />

den ene side står mat mens bunden da nødvendigvis bliver blank. Det er det skiftende spil i<br />

trådretningerne, som fremhæver mønstret. På den modsatte side er det mønstret, der er<br />

blankt, men bunden er mat.<br />

Egentlig stof fra Damaskus. Oprindelig kun af silke, senere også af uld, hør eller bomuld.<br />

Mønstervirkningen fremkommer ved vekselvirkning mellem kæde og skudeffekt.<br />

KONKLUSION<br />

NORDTERM 2009, København 9.-12. juni 2009 279


Formålet med artiklen er at vise hvordan et tekstilterminologisk projekt kan gribes an og<br />

hvordan grundbegreberne i f.eks. vævning kan struktureres og klassificeres med forskellige<br />

former for definitioner , verbale som non-verbale. Med satin eller atlaskbinding – den sidste<br />

af grundbindingerne, som blev gennemgået i artiklen er det tydeligt at en non-verbal<br />

forklaring – et diagram, f.eks. letter forståelsen.<br />

En anden konklusion er at der kan være synonymi såvel som semantisk fleksibilitet for<br />

termer, og at det ikke behøver være noget der skal undgås i et fagleksikon. Det kan ligesåvel<br />

betragtes som en del af begrebsdannelsen som i de viste væveeksempler.<br />

Som afsluttende bemærkning vil jeg lade dragtpuljesekretær, museumsinspektør Tove<br />

Mathiassen fra Den Gamle By I Århus få ”ordet” :<br />

”I anledning af 200 året for H.C.Andersens fødsel arrangerede den Gamle by i Århus hvor TM<br />

arbejder en stor udstilling hvor mange af de hverdagsting som H.C.Andersen nævner i sine<br />

eventyr, var udstillet, f.eks. klodssko.<br />

Begreber fra eventyrene var illustreret med tingene, så publikum kunne gå på opdagelse.<br />

Ordene var ukendte for nutidens mennesker, velkendte for 1800- tallets.<br />

Det er et eksempel på hvordan et museum arbejder aktivt med de aspekter, som<br />

sprogudvalgets rapport ”Sprog til tiden” anfører: Sproget er først og fremmest noget, der<br />

lever i vores bevidsthed som et væsentligt mentalt organiseringsmiddel, som et redskab for<br />

tænkning og refleksion og som bærer af vores egen historie”.<br />

Ord er kulturarv som bør bevares og føres aktiv af mange grunde. Hvis vi skal kunne blive ved<br />

med at læse H.C.Andersen og anden skøn- eller faglitteratur på dansk eller forstå regnskab,<br />

skifter og andre slags skriftlige kilder. Samtidig har tekstilers produktion haft stor økonomisk<br />

betydning op gennem tiden. Derfor findes der vældig mange termer og begreber for dragt og<br />

tekstil. Med dette arbejde mener vi at de danske museers dragt og tekstilpulje kan være<br />

med til at bevare en immateriel kulturarv. En kulturarv som bidrager til at fastholde dansk<br />

som kultursprog”.<br />

NORDTERM 2009, København 9.-12. juni 2009 280


References<br />

Lorenzen, E. (1975). Folks tøj i og omkring Århus ca. 1675-1850, Århus Universitetsforlag<br />

Andersen, E: (1960): Danske bønders klædedragt, Carit Andersens forlag, København<br />

Budin, G & Wright, S.E. (1997) S.E. Handbook of Terminology Management, Volume 1. John Benjamins<br />

Publishing Company, Amsterdam, Philadelphia.<br />

CIETA (1997) Vocabulaire français, allemand, anglais, espagnol, italien, portugais et suédois. Centre<br />

International d’Etude des Textiles Anciens, Lyon.<br />

Dury, P. & Lervad, S. (2008) : La variation synonymique dans la terminologie de l’énergie : approches<br />

synchronique diachronique, deux études de cas. LSP and Professional Communication, Vol. 8, No.2, pp.<br />

66-79<br />

Dury, P & Lervad S. : Synonymic Variation in the Field of Textile Terminology: A study in Diachrony and<br />

Synchrony in proceedings ”Textile terminologies from the explorative seminar at Centre of Textile<br />

Research at the University of Copenhagen. March 2009 (coming soon)<br />

Geier (A), Hald (M), Hoffmann, Strömberg (1979): Nordisk tekstilteknisk terminology : ”Förindustriell<br />

vävnadsproduktion”, Oslo<br />

ISO 9354, (1989) Weaves,Coding systems and examples, case postale, 56, CH-211 Geneva, Switzerland.<br />

,<br />

Lervad, S. (1999) Les éléments graphiques dans la terminologie des textiles. LSP and Professional<br />

Communication, Vol. 22, No.2 (48), pp. 38-47<br />

NORDTERM 2009, København 9.-12. juni 2009 281


Lervad, S. (1998) Analyse comparative de trois ouvrages de lexicographie spécialisée dans le domaine<br />

de textiles concernant les définitions comme rerésentation de connaissances. In La banque des mots,<br />

N.8 spécial, Qualité et terminologie.<br />

Nordisk Textilteknisk terminologi (1967) Vävnader med de engelska, franska och tyska paralleltermer<br />

enligt C.I.E.T.A , Terminologie textile, tissus, danois, norvégien, suédois, anglais, français ; allemand,,<br />

Lyon<br />

NORDTERM 2009, København 9.-12. juni 2009 282


Arbeid med nordiske termer i språkteknologi<br />

Torbjørg Breivik<br />

Språkrådet, Norge<br />

Abstract. Å sørge for at ny teknologi blir lansert på eget språk, er viktig for et lands<br />

språkpolitikk. Hvilket språk som brukes i de nye produktene og tjenestene vi nå får, har<br />

betydning for hvem som kan benytte dem. Det forventes at vi alle skal bli aktive og kompetente<br />

borgere i kunnskapssamfunnet, og det er et språkpolitisk spørsmål om et samfunn vil gjøre den<br />

innsatsen som kreves for at borgerne skal bli det, bl.a. gjennom at de får se og bruke sitt eget<br />

språk i teknologien også. Forslaget om å etablere et nordisk prosjekt for å arbeide med<br />

språkteknologiske termer må sees lys av framveksten av kunnskapssamfunnet. Arbeidet med å<br />

utvikle og standardisere språkteknologisk terminologi for de nordiske språkene er tiltak innenfor<br />

rammene av en aktiv nordisk språkpolitikk.<br />

HISTORIKK<br />

Nordisk ministerråd bevilget i 2000 midler til et femårig nordisk språkteknologisk<br />

forskningsprogram. Programmet kom i gang fra 2001 og Nordisk<br />

Forskeruddanningsakademi (NorFA) administrerte programmet. For å få størst mulig<br />

effekt av programmet oppfordret man til å søke samarbeid på tvers og samarbeid med<br />

prosjekter som alt var i gang. Det ble bevilget penger til å etablere nasjonale<br />

dokumentasjonssentre for å lette tilgangen til informasjon om hvilke<br />

språkteknologiske prosjekter som var i gang hvor, hvem som arbeidet med dem,<br />

hvilken kompetanse fantes hvor osv. Arbeidet med dokumentasjonssentrene ble<br />

koordinert av Center for Sprogteknologi i København og gikk under forkortelsen<br />

NorDokNet.<br />

Det ble opprettet ett nordisk nettsted og flere nasjonale nettsteder. Nettstedene ble<br />

strukturert etter samme mal som gjorde det lett for brukerne å finne samme type<br />

informasjon på alle sidene, selv om utformingen varierte. Flere av deltakerne i<br />

NorDokNet underviste i språkteknologiske emner på sine respektive institusjoner, og<br />

de hadde sett behovet for en nasjonal, ikke-engelsk fagterminologi. Det fantes en del<br />

terminologi tilgjengelig på andre språk, og noen hadde laget oversettelser til eget bruk,<br />

men det fantes ikke standardiserte, kvalitetssikrede termer på noen av de nordiske<br />

språkene. At det ikke finnes gode termer og godt fagspråk på de nordiske språkene, er<br />

ikke spesielt for språkteknologi. Men skal man utvikle faget og rekruttere nye<br />

studenter til fag som er i rivende utvikling, og som har stor innvirkning på<br />

hverdagslivet til folk flest, er det viktig at rekrutteringen ikke hindres av et haltende<br />

fagspråk. Når produktene og tjenestene skal tas i bruk, er det viktig at tekst og tale<br />

som ligger i dem, er forståelig og på det språket brukeren behersker.<br />

NorDokNet startet arbeidet med terminologien mot slutten av perioden for<br />

forskningsprogrammet, og meningen var at de nasjonale dokumentasjonssentrene<br />

skulle arbeide videre i egen regi. Man tok utgangspunkt i en kort, flerspråklig liste<br />

med 41 termer som skulle oversettes til de nordiske språkene. Listen ble oversatt til de<br />

NORDTERM 2009, København 9.-12. juni 2009 283


nordiske språkene og hadde engelsk som nøkkelspråk. Det fantes også tyske og<br />

nederlandske termer i lista. Det skulle så skrives forklaringer til termene og helst også<br />

utarbeides definisjoner for dem.<br />

Deretter skulle listen utvides. Et moment som kom til mot slutten av arbeidet i<br />

NorDokNet, var at en standardisert liste over termer på flere språk, kan brukes i<br />

flerspråklig søking, og dette ble det eksperimentert litt med. Eksperimentet ble<br />

videreført i prosjektet Nordisk nettordbok /Tvärrsøk som ble avsluttet i 2007.<br />

De fleste dokumentasjonssentrene ble lagt på vent da pengene fra<br />

språkteknologiprogrammet tok slutt, men noen har arbeidet videre med termlisten.<br />

Arbeidsgruppa for språkteknologi i Norden (ASTIN) inviterte til diskusjoner om<br />

muligheten for å gå videre med utvikling av en nordisk språkteknologisk terminologi<br />

på en workshop under Nordterm 2009. Diskusjonene viste at det er interesse for, og<br />

ønske om, å etablere et nordisk prosjekt, og ASTIN har tatt mål av seg å få dette til.<br />

EUROPEISKE STANDARDER OG RESSURSER<br />

I forbindelse med terminologiarbeidet i NorDokNet undersøkte vi hva som fantes<br />

av standardisert språkteknologisk terminologi på andre språk. På Internett fant vi noen<br />

lister og samlinger av termer. Kvaliteten viste seg å variere ganske mye. Det ble raskt<br />

klart at det ikke fantes noen ISO-standard som dekker fagområdet selv om noen ISOstandarder<br />

har med termer som også er relevante i språkteknologi. En liste vi<br />

undersøkte nærmere, var LT-worlds (www.lt-world.org). Den ble laget av DFKI i<br />

Tyskland, og viste seg også å være av variabel kvalitet 1<br />

. NorDokNet tok kontakt med<br />

DFKI og andre miljø i EU som arbeider med språkteknologi og de mente det kunne<br />

være en god ide å standardisere termene. Det ble skrevet en søknad til EU om<br />

etablering av et nettverk som kunne arbeide med dette, uten at det førte fram. Det<br />

finnes materiale fra andre EU-prosjekt som i noen grad har beskjeftiget seg med<br />

terminologi for språkteknologiområdet, og et prosjekt man bør se mer på, er<br />

EAGLES/ISLE Meta Data Initiativ.<br />

SPRÅKTEKNOLOGISK SATSING I DET NORDISKE<br />

SAMARBEIDET<br />

I perioden 2003 – 2008 satset Nordens språkråd og Nordisk ministerråd mye på<br />

språkteknologi, og bevilget midler til flere større prosjekt utover satsinga i det<br />

nordiske språkteknologiprogrammet. Det ble bl.a. bevilget penger til en islandskdansk<br />

idiomatisk ordbok som benyttet språkteknologiske metoder, en nordisk<br />

nettordbok ble utredet og et prosjekt satt i gang, en nordisk språkportal ble utredet og<br />

det ble utformet en strategi for hvordan Norden kunne bli en foregangsregion for<br />

språkteknologi (Vismannsrapporten SpråkVis 2007). Nordens språkråd så hvor viktig<br />

det var at språknemndene har en aktiv holdning til de språkpolitiske sidene av<br />

teknologiutviklingen ved å være pådriver for å bruke eget språk i de nye produktene<br />

og tjenestene. Helt sentralt sto bevisstheten om at de nordiske språkene, - ikke<br />

1 Listen er ikke lenger tilgjengelig på nettsiden.<br />

NORDTERM 2009, København 9.-12. juni 2009 284


engelsk, skulle være de primære språkene i språkteknologiske produkter og tjenester<br />

for det nordiske markedet. Denne oppfatningen delte politikerne i Nordisk råd og i<br />

Ministerrådet. Den nordiske språkdeklarasjonen ble vedtatt på Nordisk råds sesjon<br />

høsten 2006, og i diskusjonen understreket flere av innlederne at en aktiv<br />

språkpolitikk, inkludert satsing på språkteknologi, er avgjørende for at de nordiske<br />

språkene også i framtida skal beholde sin posisjon som samfunnsbærende språk.<br />

Språknemndenes prioritering av språkteknologien i perioden 2003 – 2008 viste igjen i<br />

prioriteringer i programmene for formannskapene i Nordisk råd og Nordisk<br />

ministerråd gjennom flere år.<br />

Hvor står den språkteknologiske satsinga i det nordiske samarbeidet i<br />

dag?<br />

I inneværende år (2009) har Island formannskapet i Nordisk råd. I programmet for<br />

formannskapet står det lite om språk og språkteknologi. Språknemndene i Norden<br />

samarbeider gjennom et nettverk, og satsingen på språkteknologi vises bl.a. gjennom<br />

at nettverket har en egen gruppe for samarbeidet på dette området (ASTIN).<br />

Nettverket har sørget for penger til arbeidsgruppens virksomhet, og aktiviteten har<br />

vært stor etter opprettelsen i 2005. Gruppen har organisert arbeidsseminarer om<br />

utvalgte emner i språkteknologi der både innledere og deltakere har vært invitert med<br />

tanke på tettere samarbeid mellom forskere og kommersielle aktører. Gruppen har<br />

også arrangert workshops i tilknytning til relevante konferanser som de nordiske<br />

datalingvistikkdagene (NoDaLiDa) og Nordterm. Nordisk råd og Ministerrådet har<br />

ikke lenger egne prosjekter innenfor språkteknologi. På begynnelsen av 2009 etablerte<br />

Ministerrådet en ekspertgruppe for språk som avløste Nordens språkråd. Mandatet for<br />

ekspertgruppa ble dreid i retning undervisning og nabospråksforståelse, og det er ikke<br />

kjent om noen av medlemmene i ekspertgruppa er opptatt av språk og språkteknologi.<br />

Ministerrådet ønsker å bedre koordineringen mellom områder som grenser inn mot<br />

hverandre, og har opprettet en nordisk språkkoordinatorfunksjon for å ivareta dette.<br />

Nettverket for språknemndene i Norden skal heretter få sine midler gjennom<br />

koordinatoren, og det er vedtatt en arbeidsplan for de to årene prosjektet skal vare.<br />

Enkeltprosjekter i språkteknologi er tatt med på planen, og det gjenstår å se hvor stort<br />

gjennomslag språknemndene får for denne delen av språkpolitikken.<br />

Terminologi og standardisering på nordisk nivå – hvorfor?<br />

I hvert av de nordiske landene har språknemndene i varierende grad oppgaver som<br />

grenser inn mot terminologiarbeid. I Sverige har de et eget organ som arbeider med<br />

terminologi, mens Språkrådet i Norge fra 2009 har fått ansvaret for fagspråk og<br />

terminologi. Språkrøkt og arbeid med terminologi og fagspråk henger tett sammen.<br />

Fagområdet språkteknologi er nytt, men mye av det terminologiske grunnarbeidet som<br />

må gjøres, er det likt uavhengig av fag.<br />

Universiteter i Norden tilbyr undervisning i språkteknologiske emner, og i<br />

næringslivet foregår mye forskning og produktutvikling, men fagspråket som brukes,<br />

NORDTERM 2009, København 9.-12. juni 2009 285


er engelsk. Det vil være en styrke at et termprosjekt i faget språkteknologi er nordisk:<br />

man får flere å diskutere med og man får et enhetlig fagspråk i hele Norden. Det er få<br />

kurs og utdanningstilbud på området og en samordnet terminologi kan gjøre det lettere<br />

for studenter å ta kurs andre steder i Norden. Næringslivet kan få tilgang til fagtermer<br />

for alle de nordiske språkene de ønsker å utvikle tjenester og produkter for i stedet for<br />

å si at de har bare engelsk tilgjengelig. Terminologi som standardiseres er nyttig å ha<br />

for alle fagområder. At termene samtidig gjøres flerspråklige, vil ha betydning for<br />

utvikling av tjenester som flerspråklig søking og maskinstøttede oversettelser.<br />

Globaliseringen krever mer og mer oversettelse mellom språk, muntlig som skriftlig,<br />

og med engelsk som nøkkel i bunnen, vil dette blir nyttige ressurser i mange typer<br />

prosjekter.<br />

ASTIN ser behovet for å få nordiske terminologiprosjekter som en viktig del av sin<br />

virksomhet, og vil utarbeide en prosjektplan i nært samarbeid med relevante miljø i de<br />

nordiske landene. Det er viktig å bygge på materiale som finnes, vurdere og<br />

kvalitetssikre dette og deretter se hvilke delområder i språkteknologien man bør gå<br />

videre med. Forslaget fra ASTIN vil være at man etablerer en prosjektgruppe med en<br />

representant fra hvert land. I prosjektgruppen må det være ekspertise i<br />

terminologiarbeid kombinert med ekspertise i språkteknologi. Det kan være nyttig<br />

med en større referansegruppe for å sikre kvaliteten og en faglig konsensus i miljøene<br />

i Norden. Næringslivet bør være representert i alle fall i referansegruppen.<br />

NORDISK SPRÅKBANK<br />

Språkene i Norden har få brukere sammenlignet med f.eks. engelsk. Markedet i<br />

Norden teller vel rundt 25 millioner mennesker, men disse er delt opp i mange<br />

forskjellige språkgrupper. Kunnskapssamfunnet betyr at nye produkter og tjenester<br />

utvikles raskt og tas i bruk raskt. Muligheten for fortjeneste på salg av produktene går<br />

ned med antall brukere som kan tenkes å ta dem i bruk. Ved at myndighetene stiller<br />

krav om bruk av nasjonalspråket og legger til rette for at forskningsmiljø og<br />

kommersielle interesser får tilgang til språkressurser på nasjonalspråket, blir det mulig<br />

å gjennomføre i praksis den vedtatte språkpolitikken. I den nordiske<br />

språkdeklarasjonen er språkteknologi grunnlaget for to av de fire sakene man vil<br />

arbeide med for å oppnå målene man har satt seg når det gjelder språkforståelse og<br />

språkkunnskap: utarbeide internordiske ordbøker i elektronisk format og utvikle<br />

maskinoversettelsesprogrammer for Nordens samfunnsbærende språk og flerspråklige<br />

søkeprogrammer. I de nasjonale språkpolitikkene står tilsvarende formuleringer,<br />

gjerne sterkere, og dette støtter opp om prosjekter som det å utvikle nordiske<br />

termressurser. SpråkVis-rapporten som ble lagt fram for Nordisk råd i 2007,<br />

framhever de mulighetene Norden har for å bli ledende på språkteknologiområdet.<br />

Samlet har man i Norden bred kompetanse og store muligheter for dette, og som en<br />

del av satsingen, ser man for seg en nordisk språkbank der man samler språkressurser<br />

(som f.eks. termbaser) og verktøy for de nordiske språkene.<br />

INTERNASJONALT SAMARBEID – FlaReNet + CLARIN<br />

NORDTERM 2009, København 9.-12. juni 2009 286


Arbeidsgruppa for språkteknologi i Norden (ASTIN) følger med i det som skjer<br />

internasjonalt på området språkteknologi, inkludert arbeid som foregår på<br />

terminologiområdet. Medlemmene av gruppa deltar aktivt på konferanser med innlegg<br />

og i debatter, deltar i internasjonale nettverk som FlaReNet og CLARIN, arrangerer<br />

egne konferanser og initierer (og arrangerer) workshops på andres konferanser.<br />

REFERANSER<br />

Deklaration om nordisk språkpolitik, Nordisk ministerråd, 2006<br />

Nordisk sprogteknologi, årsmeldinger 2001-2005, NorFA.<br />

SpråkVis, Expert Panel report: The Nordic Countries – A Leading Region in Language Technology,<br />

edited by Koskenniemi, Kimmo, Lindén, Krister and Nordgård, Torbjørn, utarbeidet på oppdrag av<br />

Nordens språkråd og levert Nordisk råd i 2007.<br />

Språkteknologisk infrastruktur i Norden, ASTIN-rapport fra et arbeidsseminar, Gøteborg 2006.<br />

Benchmarkundersøgelse af den sprogteknolgiske udvikling i Europa, EUROMAP-undersøgelsen, Rose<br />

Locwood og Andrew Joscelyne, København 2003.<br />

Samling og tilgjengeliggjøring av norske språkteknologiske språkressurser, Norsk språkråd 2002.<br />

NORDTERM 2009, København 9.-12. juni 2009 287


Forskningsbegreber og Terminologi<br />

Peder Olesen Larsen a b<br />

and Bodil Nistrup Madsen<br />

a Kemisk Forenings Nomenklaturudvalg, pol@webspeed.dk<br />

b DANTERMcentret, Copenhagen Business School, DK-2000 Frederiksberg,<br />

bnm.danterm@cbs.dk<br />

Abstract. I forskningen har kommunikation, publikation og diskussion været central i mange<br />

hundrede år. På mange forskningsområder er der opbygget en omfattende systematik og terminologi.<br />

Men for forskningen selv er terminologien ikke gennemarbejdet og klar. En af grundene er måske, at<br />

forskerne i en vis forstand er anarkister, som vil gøre, hvad der passer dem uden at skulle klassificeres.<br />

Der er en løbende diskussion om forskning og forskningspolitik. Forskningen er også selv<br />

genstand for forskning og for måling. Det har ført til en lang række forskningsbegreber, men ikke til<br />

klare og brugbare definitioner af disse og ikke til, at brugerne er enige om, hvad begreberne står for.<br />

FORSKNING VS. VIDENSKAB<br />

Lad os starte med selve ordet forskning. Det findes på dansk, norsk og svensk.<br />

På finsk har vi tutkimus. Et tilsvarende ord findes på hovedsprogene, om end det<br />

engelske research er blevet så udvandet, at der i dag tales om scientific research.<br />

Vi har også ordet videnskap, som igen findes på dansk, norsk og svensk, og<br />

hvor finsk har et tilsvarende ord, tiede. Vi har Wissenschaft på tysk, men der er ikke et<br />

tilsvarende ord på engelsk og fransk. Der har vi science, som både kan stå for<br />

naturvidenskab og i bredere betydning omfattende en række underbegreber, for<br />

eksempel medical science, natural science, social science og technical science.<br />

Humaniora hører ikke under science på engelsk, hvorimod fransk har begrebet<br />

sciences humaines.<br />

Denne forskel, som vi kan betegne forskellen mellem den<br />

kontinentaleuropæiske tradition og den anglo-amerikanske tradition, giver problemer<br />

blandt andet i forskningsstatistik.<br />

Vil det være korrekt at sige, at videnskab og science angiver områder, mens<br />

forskning angiver en proces? I så fald hvad betyder det så, at det danske<br />

forskningsministerium i 2001 skiftede navn til Ministeriet for Videnskab, Teknologi<br />

og Udvikling. Videnskab angiver et område, mens forskning og udvikling naturligvis<br />

angiver processer. Teknologi kan stå for den videnskab, som undersøger og udvikler<br />

metoder til brug i den private og offentlige sektor. I så fald er teknologi et område på<br />

linie med videnskab eller et delområde under videnskab. Teknologi kan imidlertid<br />

også stå for (avancerede) metoder på alle områder i det moderne samfund. I så fald er<br />

teknologi et middel. Ministeriet arbejder med eller for udvikling af teknologi og for<br />

udbredelse eller anvendelse af ny teknologi. Hvordan det så er, er de tre betegnelser<br />

for ministeriets arbejdsområde ikke sidestillede begreber.<br />

NORDTERM 2009, København 9.-12. juni 2009 288


GRUNDFORSKNING VS, ANVENDT FORSKNING<br />

Lad os derefter se på de mange forskningsbegreber. De hyppigst brugte er<br />

grundforskning og anvendt forskning, (Larsen 2003).<br />

Ordet grundforskning er overraskende nyt i det danske sprog. Det er først i<br />

1946 registreret anvendt.<br />

Inden da talte vi om ren forskning og fri forskning. I dag tales der ikke om ren<br />

forskning, men det betegnede det samme som nutidens grundforskning. Fri forskning<br />

var noget andet end grundforskning. Fri forskning var forskning, som ikke var<br />

underlagt begrænsninger udefra, specielt forskning, som ikke var underlagt<br />

begrænsninger eller indflydelse fra kirken. Fri forskning kunne både være<br />

grundforskning og anvendt forskning.<br />

Begrebet anvendt forskning har været i brug længe, men det har tidligere været<br />

brugt til at beskrive anvendelse af forskning, ikke en særlig slags forskning. Det er helt<br />

i overensstemmelse med Pasteurs opfattelse, udtrykt i det klassiske citat fra 1871:<br />

Nej, tusinde gange nej, der findes ikke en del af forskningen, til hvilken<br />

man kan give navnet anvendt forskning. Der er forskning og anvendelser<br />

af forskningen, sammenknyttede lige som frugten hører til det træ, som<br />

bærer den.<br />

(Non, mille fois non, il n’existe pas une catégorie de science auxquelles<br />

on puisse donner le nom de sciences appliqués. Il y a la science et les<br />

applications de la science, liées entre elles comme le fruit a l’arbre qui<br />

l’a porté).<br />

I dag er den almindelige opfattelse, at grundforskning og anvendt forskning er<br />

to forskellige ting. Skellet anvendes verden over i forskningsstatistik. I den danske<br />

forskningsstatistik angives således:<br />

Grundforskning er originalt eksperimenterende eller teoretisk arbejde<br />

med det primære formål at opnå ny viden og forståelse uden nogen<br />

bestemt anvendelse i sigte.<br />

Anvendt forskning er ligeledes originale undersøgelser med henblik på at<br />

opnå ny viden. Den er primært rettet mod bestemte praktiske mål.<br />

I forskningsstatistikken er forskning enten det ene eller det andet. Der skelnes i<br />

praksis. Samtidig er der en omfattende international litteratur, som sætter<br />

spørgsmålstegn ved den traditionelle skelnen mellem grundforskning og anvendt<br />

forskning. Er det i realiteten forskningsstatistikken, som fordeler mellem to kasser og<br />

derved bestemmer, hvad der er grundforskning og hvad der er anvendt forskning? Sker<br />

det på trods af, at der er gode grunde til at tro, at meget hører hjemme i begge kasser<br />

NORDTERM 2009, København 9.-12. juni 2009 289


og måske også, at det er lidt tilfældigt, hvad der kommer i hvilken kasse? De to<br />

begreber anvendes ikke i databaser og søgemaskiner.<br />

STRATEGISK FORSKNING VS. FRI FORSKNING<br />

I de sidste 25 år er begrebet strategisk forskning kommet på banen. Det kan<br />

defineres på følgende måde:<br />

Strategisk forskning er offentligt tilgængelig forskning inden for fag eller<br />

teknologier, hvor det er vigtigt at have vidensberedskab og<br />

forskningspotentiale, og hvor der er udsigt til gevinst.<br />

Dermed angives, at der udefra gennem styring bliver lagt bånd på, hvad<br />

forskerne kan arbejde med opgaver, forskerne har valgt uden indflydelse udefra.<br />

Dermed angives det, at strategisk forskning er i modsætning til fri forskning. Der er<br />

imidlertid gode eksempler på, at fri forskning kan have stor betydning.<br />

Et godt eksempel er udviklingen af bioinformatik i Danmark. Vi kom i gang,<br />

fordi enkelte forskere så de store udfordringer og muligheder på området. De fik med<br />

stort besvær støtte til deres arbejde. Det viste sig imidlertid få år senere, at det var af<br />

stor betydning i Danmark, at vi var med i udviklingen. Vi ville på brede områder af<br />

biologien stå svagt, hvis ikke vi havde kompetence inden for bioinformatik.<br />

I 2005 blev den danske forskningsrådsstruktur ændret. De traditionelle<br />

fagorienterede forskningsråd blev afløst af Det Frie Forskningsråd og Det Strategiske<br />

Forskningsråd. Det betyder ikke, at vi har fået et forskningsråd for grundforskning og<br />

et forskningsråd for anvendt forskning. Det Frie Forskningsråd kan støtte anvendt<br />

forskning, blot forslaget til opgave kommer fra forskerne selv og ikke udefra. Det<br />

Strategiske Forskningsråd kan støtte grundforskning, hvis rådet finder, at der er et<br />

behov for at støtte dansk forskning på et bestemt område.<br />

DE MANGE SLAGS FORSKNING<br />

Hertil har vi kun talt om toppen af isbjerget. Der er en mængde andre<br />

forskningsbegreber på banen. En lille del af dem er anført i følgende tabel. Tabellen<br />

fortæller også, hvilke begreber der antages at være komplementære eller i modsætning<br />

til hinanden. Matematisk kan det udtrykkes ved, at de to mængder af forskning<br />

henhørende under de to begreber er disjunkte. Men opfører forskerne og dermed<br />

forskningen sig altid matematisk korrekt?<br />

Forskningsbegreb Komplementært begreb<br />

Grundforskning Anvendt forskning<br />

Målforskning<br />

Ren grundforskning Målrettet grundforskning<br />

Grundlæggende forskning<br />

NORDTERM 2009, København 9.-12. juni 2009 290


Grundlagsskabende forskning<br />

Ren forskning<br />

Fri forskning Strategisk forskning<br />

Bunden forskning<br />

Nedefra og op forskning<br />

Oppefra og ned forskning<br />

Bottom up forskning<br />

Top down forskning<br />

Grundlagsskabende forskning<br />

Prækompetitiv forskning Ikke offentligt tilgængelig forskning<br />

Offentligt tilgængelig forskning<br />

Teoretisk forskning Eksperimentel forskning<br />

Skrivebordsforskning<br />

Multidisciplinær forskning Disciplinforskning<br />

Transdisciplinær forskning<br />

Tværfaglig forskning<br />

Tværvidenskabelig forskning<br />

Komplementære sæt må være baseret på inddelingskriterier.<br />

Et inddelingskriterium er, om forskningen er tilgængelig eller ej eller med<br />

andre ord om forskningsresultaterne bliver offentliggjort eller ej.<br />

Et andet inddelingskriterium beror på, hvem der finansierer forskningen. Der<br />

kan for eksempel skelnes mellem forskning betalt af det offentlige og forskning betalt<br />

af private virksomheder.<br />

Et tredje inddelingskriterium vedrører beslutningen om, hvad der skal forskes<br />

i. Bliver beslutningen herom taget af den enkelte forsker eller af en gruppe af<br />

samarbejdende forskere, eller bliver beslutningen taget af andre, for eksempel<br />

bevillingsgivere eller overordnede? Der er imidlertid tale om en kunstig modsætning.<br />

Megen forskning bliver ført ud i livet på grundlag af en samtale mellem nysgerrige<br />

forskere og personer udefra, som har ønsker til forskningen.<br />

Det er ikke altid muligt at fastlægge klare inddelingskriterier. Hvis det ikke<br />

blot skyldes metodisk uformåenhed, betyder det, at nogle af de opdelinger, vi bruger i<br />

daglig tale, ikke er opdelinger i disjunkte mængder, eller med andre ord at forskning<br />

kan både være det ene og det andet.<br />

Et godt eksempel er angivelsen af nysgerrighedsdreven forskning som en<br />

modsætning til målforskning. Forskere er stort set altid nysgerrige, også når de er i<br />

gang med målforskning. Hvis forskere ikke er nysgerrige, skulle de måske have fundet<br />

sig et andet erhverv.<br />

For to begreber i modsætning til hinanden melder også spørgsmålet sig, om de<br />

tilsammen dækker al forskning. Sagt mere præcist: Er fællesmængden af forskning<br />

henhørende under de to begreber identisk med grundmængden af al forskning, eller er<br />

der forskning, som ikke er omfattet af mindst et af de to begreber?<br />

NORDTERM 2009, København 9.-12. juni 2009 291


BEGREBSSYSTEMER SOM GRUNDLAG FOR<br />

BEGREBSAFKLARING<br />

Terminologer anvender begrebssystemer (ontologier) til at fastlægge<br />

definitioner og afklare forskelle mellem begreber inden for et domæne (Madsen &<br />

Thomsen 2006). Begrebssystemer opbygges i et samarbejde med domæneeksperter, og<br />

har ofte til formål at fastlægge (standardisere) begrebers betydning, så de kan<br />

anvendes entydigt fx i forbindelse med statistikker.<br />

I figur 1 findes et lille udsnit af et udkast til et begrebssystem for<br />

forskningsbegreber.<br />

Figur 1: Udsnit af begrebssystem for forskningsbegreber<br />

På baggrund af informationerne ovenfor og begreberne i tabellen kan nogle<br />

inddelingskriterier foreslås uden problemer. For eksempel er det oplagt at foreslå de<br />

tre inddelingskriterier: SIGTE, EMNEVALG og TILGÆNGELIGHED. De to<br />

begreber, som adskiller sig mht. SIGTE, er grundforskning, som ikke sigter mod<br />

nogen bestem anvendelse og anvendt forskning, som sigter med en bestemt<br />

anvendelse. Begreberne fri forskning og strategisk forskning adskiller sig mht. hvem<br />

der foretager emnevalget, og begreberne prækompetitiv forskning (med synonymet:<br />

offentlig tilgængelig forskning) og ikke offentlig tilgængelig forskning adskiller sig<br />

mht. TILGÆNGELIGHED: hhv. offentligt tilgængelig og ikke offentligt tilgængelig.<br />

For andre begreber bliver det straks vanskeligere, at sætte dem ind i<br />

begrebssystemet under et inddelingskriterium.<br />

FLERE BEGREBER?<br />

Vi savner et vigtigt begreb, forskning rettet mod en profession eller med<br />

henblik på at give grundlag for fagfolks arbejde. Professionelle uddannelser er for<br />

eksempel lægeuddannelsen, farmaceutuddannelsen, psykologuddannelsen,<br />

ingeniøruddannelsen, og juristuddannelsen. Hvad har det med forskning at gøre?<br />

NORDTERM 2009, København 9.-12. juni 2009 292


Professionerne er ikke opstået som produkter af videnskab. De har deres egne rødder.<br />

Mange er fra begyndelsen opfattet som håndværk. Vi taler den dag i dag om<br />

lægegerningen og lægekunst. Vi taler også om lægevidenskab eller medicinsk<br />

videnskab. Det er den videnskab eller forskning, som understøtter lægegerningen, det<br />

er ikke lægegerningen selv. Tilsvarende leverer ingeniørvidenskaberne den forskning,<br />

som understøtter ingeniørerne i deres arbejde.<br />

Vi savner også et vigtigt begrebspar, på den ene side forskning, som<br />

traditionelt udføres af enkeltpersoner og som ikke kræver samarbejde, og på den anden<br />

side forskning, som nødvendigvis må udføres i samarbejde. Det er tæt på opdelingen<br />

af forskningen mellem teoretisk forskning eller skrivebordsforskning og eksperimentel<br />

forskning, men der er ikke fuld overensstemmelse. Begrebsparret er vigtigt for at<br />

forstå, at der på det første område kan være en høj grad af individuel forskningsfrihed,<br />

mens der på det andet område kun er begrænset individuel forskningsfrihed, men til<br />

gengæld kan være forskningsfrihed for en gruppe forskere.<br />

BEHOV FOR BEGREBSAFKLARING?<br />

Alle begreberne anvendes i den løbende diskussion om forskningen, og det må<br />

vi selvfølgelig acceptere. Vi må også i stor udstrækning affinde os med, at deres<br />

betydning kun kan udledes af en kontekst. Vi må se i øjnene, at begreberne anvendes<br />

forskelligt at forskellige deltagere i diskussionen. Samtidig er der dog grund til at<br />

erindre om, at mange uenigheder og konflikter her i verden skyldes, at ord bruges<br />

forskelligt af de stridende parter.<br />

Begreberne anvendes også i love, bekendtgørelser og anordninger med<br />

retsvirkning. Danmarks Grundforskningsfond er oprettet ved lov. Selv i vores<br />

skattelovgivning skrives der om grundforskning og anvendt forskning. Er det ikke en<br />

rimelig antagelse, at ord, der bruges i lovgivning, ikke må kunne misforstås? I hvert<br />

fald må begreber anvendt i lovgivning være præcise nok til, at det giver retssystemet<br />

mulighed for at fortolke love entydigt.<br />

Vi kan sikkert blive enige om, at de nuværende definitioner af<br />

forskningsbegreber ikke er præcise og nok heller ikke kan være det i en kompleks<br />

virkelighed. Men er det nødvendigt at gøre noget ved det, kan der gøres noget ved det,<br />

vil der være fordele ved at gøre noget ved det, og er der et ønske om at gøre noget ved<br />

det?<br />

Og endelig:<br />

Er der nogenlunde overensstemmelse i anvendelsen af begreberne mellem<br />

dansk, finsk, islandsk, norsk og svensk? Kan vi gøre noget i fællesskab?<br />

NORDTERM 2009, København 9.-12. juni 2009 293


Referencer<br />

Larsen, Peder Olesen (2003): Forskningens Verden. Prydhave. Nyttehave. Vildnis. Aarhus<br />

Universitetsforlag.<br />

Madsen, Bodil Nistrup & Hanne Erdman Thomsen (2006). “Terminological ontologies in normative<br />

terminology work”. In: TSTT'06: Proceedings of the International Conference on Terminology,<br />

Standardization and Technology Transfer. Beijing: Encyclopedia of China Publishing House, 2006.<br />

p.122-133.<br />

NORDTERM 2009, København 9.-12. juni 2009 294


KNowaboUT – A Work-In-Progress Study On<br />

How To Fruitfully Combine The Theories Of<br />

Terminology And Lexicography<br />

Lise Mourier and Birthe Vesterli<br />

Associate Professors, Department of International Language Studies and Computational Linguistics,<br />

Copenhagen Business School, Dalgas Have 15, DK-2000 Frederiksberg<br />

. Email: lm.isv@cbs.dk and bv.isv@cbs.dk<br />

Abstract. Traditionally, terminology and lexicography have been separate research fields with<br />

different approaches to compilation and presentation of lexical data. However, today LSP<br />

lexicography is utilizing many of the opportunities of modern technology with respect to data<br />

structure and presentation in electronic databases that terminology is traditionally drawing on, and<br />

thus the two fields seem to be converging. The Research Group for Terminology, Lexicography and<br />

Specialized Communications at the Department for International Language Studies and<br />

Computational Linguistic is therefore working at “A contrastive analysis of theories and methods<br />

within LSP lexicography and terminology with a view to developing principles for target-group<br />

oriented knowledge transfer”.<br />

The study intends to develop a new model for the creation of an LSP database targeted to a defined,<br />

heterogeneous user group. The objective is to find whether – and to which extent – a meaningful<br />

combination of the lexicographical and the terminological approaches in one single electronic<br />

database will provide added user value. We aim to build a database that embodies both concept<br />

systems and lexical articles with various data fields offering encyclopaedic as well as lexicalsemantic<br />

knowledge. The empirical subject-matter of the pilot project is selected concepts and terms<br />

within the domain of auditing in Danish, English (including international English and British<br />

English) and German.<br />

As a tool, the terminological management system i-Term will be used for compilation, analysis and<br />

presentation of concepts and terms as well as for experimenting with target-group oriented<br />

approached and determination of best practice. i-Term has been developed by DANTERM, the<br />

terminology centre at <strong>CBS</strong>.<br />

As the title suggests, the paper intends to present our pilot project, share it with conference<br />

participants and discuss our work at the initial stage and our findings so far. We shall present our<br />

challenges in compiling an appropriate text corpus within a delimited subject area (auditing),<br />

selecting relevant concepts, preparing concept systems, selecting user-needed data fields and<br />

clarifying advantages or barriers to the building of a multilingual database as well as our<br />

considerations in respect of phrasing appropriate definitions that will ensure establishing proof or<br />

lack of equivalence. All seen as important building blocks in our strive to design a well-structured<br />

database that includes both terminological and lexicographical data with the objective of creating an<br />

easily accessible and meaningful tool to the defined users.<br />

NORDTERM 2009, København 9.-12. juni 2009 295


The Interface Between TERMINOLOGY and LSP<br />

LEXICOGRAPHY<br />

Traditionally, terminology and lexicography have been separate research fields<br />

with different approaches to compilation and presentation of lexical data. However,<br />

today LSP lexicography is utilizing many of the opportunities of modern technology<br />

with respect to data structure and presentation in electronic databases that terminology<br />

is traditionally drawing on, and thus the two fields seem to be converging. The<br />

Research Group for Terminology, Lexicography and Specialized Communications at<br />

the Department for International Language Studies and Computational Linguistic is<br />

therefore working at “A contrastive analysis of theories and methods within LSP<br />

lexicography and terminology with a view to developing principles for target-group<br />

oriented knowledge transfer”.<br />

The study intends to develop a new model for the creation of an LSP database<br />

targeted to a defined, heterogeneous user group. The objective is to find whether – and<br />

to which extent – a meaningful combination of the two research methods of<br />

terminology and LSP lexicography in one single electronic database will provide<br />

added user value and create further opportunities for target-group knowledge transfer.<br />

Therefore, we aim to build a database that embodies both concept systems and lexical<br />

articles with various data fields offering encyclopaedic as well as lexical-semantic<br />

knowledge.<br />

Our project<br />

The first step is a pilot project whose empirical subject-matter will focus on<br />

selected concepts and terms within the domain of auditing in Danish, English<br />

(including international English and British English) and German. This paper intends<br />

to present our pilot project and discuss our work at the initial stage as well as our<br />

findings so far. The research project will include the following steps:<br />

(1) a contrastive analysis of the selected concepts and terms within the domain of<br />

auditing in Danish, English and German;<br />

(2) experimental work concentrated on combining terminological, lexicographical<br />

and encyclopedic information types and data structures; and<br />

(3) the development of principles and models for target-group oriented knowledge<br />

transfer.<br />

As a tool, the terminological management system i-Term will be used for<br />

compilation, analysis and presentation of concepts and terms as well as for<br />

experimenting with target-group oriented approached and determination of best<br />

practice. i-Term has been developed by DANTERM, the terminology centre at <strong>CBS</strong>.<br />

A spin-off of the research work will be an easily accessible resource containing up-todate<br />

terms and knowledge within the area of auditing. This resource will be an<br />

invaluable tool both internally for <strong>CBS</strong> students and lecturers, and externally for<br />

language and communications professionals, experts and decision-makers in business<br />

enterprises navigating in a global business environment subject to ever-changing rules.<br />

Furthermore, the project will be the basis for new inspiration and ideas for the<br />

development of i-Term and thereby terminological management systems.<br />

NORDTERM 2009, København 9.-12. juni 2009 296


Hypothesis<br />

Our starting point in the project work is the hypothesis that by drawing on the<br />

theories of both terminology and LSP lexicography it is possible to build a state-ofthe-art<br />

LSP database in which all information needed by a diversified user group is<br />

structured and presented in a clear and easily accessible form.<br />

The definition of the target group is important: we want to offer a heterogeneous<br />

user group an electronic, multilingual LSP database catering to the greatest possible<br />

extent for the specific needs of such a group, well aware that such needs may indeed<br />

be diverse. We have chosen to highlight semi-professional users (e.g. translators), but<br />

at the same time cater for experts (e.g. auditors and accountants) and, lastly, laymen.<br />

This means creating a multi-functional database that is both communicative and<br />

knowledge oriented. What can terminology, an electronic database and LSP<br />

lexicography each offer to create added value?<br />

Terminology<br />

Let us first look at terminology: For the purpose of our project, the terminology<br />

method will be the knowledge base approach (Madsen, Thomsen and Vikner (1999)).<br />

This approach uses the term terminological ontology as synonym to the term concept<br />

system, which is normally used in terminology work. Terminological ontologies are<br />

knowledge-enriched, meaning that – compared to other types of ontologies – they will<br />

comprise richer semantic information, i.e. formal specifications of both concept<br />

relations and characteristics that may form the basis for (semi)-automatic positioning<br />

and consistency checking.<br />

Clarification of concepts is a prerequisite to achieving precise definitions and<br />

adequate choice of equivalent in the target language. Concept definitions are written<br />

on the basis of concept relations and characteristic features. Only one term is chosen<br />

as the preferred term. However, synonyms may be registered as terms 2 or 3 etc. to<br />

help users. Building the concept system based on the characteristic features of the<br />

concepts will ensure correct mapping of the concepts and prove their interrelations:<br />

subordinates will inherit characteristics from their superordinate concept etc. This<br />

structure enables precise definitions that are brief and to the point: they take the<br />

superordinate concept as a starting point and add the delimiting feature(s). The<br />

inherited features are implicit and need not be repeated, but will of course require user<br />

knowledge about the superordinate concept, based on orientation in the concept<br />

system. It is obvious that concepts suitable for this approach are primarily nouns,<br />

however, verbs and other word classes may be included in the concept system by way<br />

of associative relations. Polysemy does not offer any challenge when building a<br />

termbase based on a concept system: polysemous terms are only relevant to include if<br />

they belong to the same domain as the other concepts in the ontology; if not, they do<br />

not belong in the termbase in question.<br />

NORDTERM 2009, København 9.-12. juni 2009 297


The Electronic Database<br />

The second value-adding element is the electronic database. In fact, this tool<br />

constitutes the foundation that will make building the multi-functional database<br />

feasible. First of all, the electronic medium is open-ended which means that there is no<br />

limit to the amount of data included. As many data fields as appropriate can be<br />

included. Users may jump from one data field to another, even between several<br />

articles or databases on line. Lastly, and not least important, the data included are<br />

easily and continuously updatable and extendable. In short: an electronic database<br />

provides database builders with space and speed, features that mean a wide step<br />

forward in the compilation, presentation and use of lexical data. This leads us to the<br />

third important research area: LSP lexicography.<br />

LSP Lexicography<br />

Lexicography is the science of dictionaries, and the products of lexicography are<br />

dictionaries. Originally, lexicographic theory was seen as part of linguistics, and<br />

dictionaries as reference material mapping the vocabulary of language. Later research<br />

(covered by lexicographers and researchers such as Wiegand, Bergenholtz, Tarp, and<br />

Nielsen) sees lexicographic theory as a separate science based on the user and the use<br />

of dictionaries. As the object of lexicography is dictionaries, it makes sense to focus<br />

on dictionaries as tools with certain functions, i.e. the use of such dictionaries and their<br />

users. Modern lexicographical method focuses on determining the functions of a given<br />

dictionary based on the mapping of types of (1) users, (2) user situations, and (3) user<br />

needs (Tarp (2003:48)).<br />

The functional lexicography theory defines a dictionary as a lexicography<br />

reference work designed to fulfil one or more functions, to contain lexicographic data<br />

supporting the function(s), and to contain lexicographic structures that combine and<br />

link the data to fulfil the function(s) (Nielsen and Mourier (2007:121)).<br />

The function-based approach distinguishes between two main types of function:<br />

communication-oriented and knowledge-oriented functions. Communication-oriented<br />

functions focus on text reception in users’ native language (L1) or/and in a language<br />

foreign to users (L2), the translation of texts from/to L1 to/from L2, and the<br />

production, revision and editing of texts in either L1 or L2. Knowledge-oriented<br />

functions focus on acquiring information and deriving and verifying knowledge. This<br />

may be general knowledge about the L1 and/or L2, or about specific delimited subject<br />

areas in L1 and/or L2 (Nielsen and Mourier (2007:122)).<br />

A dictionary or termbase aiming at covering both the communication-oriented and<br />

the knowledge-oriented functions must therefore include a large amount of data in<br />

order to give answers to users needing the dictionary or termbase for both purposes.<br />

As pointed out by Nielsen and Mourier (2007:123-25), lexicographers compiling such<br />

a multifunctional dictionary need to find the best possible way of arranging the<br />

linguistic and informative data to facilitate user search.<br />

For the LSP dictionary applies that all word classes can be lemmatised. Lemmata<br />

are arranged in articles providing both linguistic and knowledge data – and certainly,<br />

as already mentioned, the electronic medium addresses the challenges of space and<br />

NORDTERM 2009, København 9.-12. juni 2009 298


quick access to a high amount of data. Definitions are typically long: they are meant to<br />

delimit the L1 term and justify equivalence with the L2 term. Besides, they should<br />

also give users relevant background knowledge by providing encyclopedic data. The<br />

lexicographer may consider using extra data fields to provide useful linguistic<br />

information, e.g. concerning different meanings of the term in the singular and plural<br />

forms. Other fields can be used to inform users about synonyms, antonyms and other<br />

cross-references as well as source references, where appropriate – and these terms and<br />

references may be clickable so that they will instantaneously take users to the relevant<br />

term or external source reference. Polysemous terms are found under the same main<br />

article, where the equivalent to the term in question is provided according to the<br />

definition of that term. For English, users will need information if the English terms<br />

differ according to variety of English: international, US or UK English. Last, but not<br />

least important to the communication-oriented functions is the inclusion of<br />

collocations and text examples, preferably with translations between L1 and L2.<br />

THE ELECTRONIC INTERNET ACCOUNTING DICTIONARIES<br />

Examples of electronic dictionaries already moving in this direction are found in<br />

the interlinked English-English, English-Danish, Danish-Danish and Danish-English<br />

Accounting Dictionaries on the Internet (Nielsen, Mourier and Bergenholtz (2003-<br />

06)). They constitute advanced bilingual LSP electronic dictionaries with focus on<br />

heterogeneous users and their diversified needs. They provide communication- and<br />

knowledge-oriented (encyclopedic) data and offer a wide range of the advantages<br />

inherent in the electronic medium.<br />

Our empirical study<br />

The reason for selecting our empirical data within the domain of auditing is that<br />

just now this subject area is undergoing many changes both in content and<br />

terminology. Our focus will therefore be on the new international auditing and<br />

assurance standards that are being implemented nationally in EU member states,<br />

including Denmark. The national implementation process offers terminology<br />

challenges going from international English to e.g. Danish, and the study will<br />

therefore contribute to the identification of differences between English and Danish,<br />

and at the same time develop a new model for the constellation of knowledge and<br />

consequent transfer of this knowledge to target groups with different requirements.<br />

Our first step is to make a contrastive analysis of Danish and English concepts<br />

with particular focus on the new terminology of auditors’ engagements. The analysis<br />

will lead to the building of an LSP mini-database based on the methods of terminology<br />

and LSP lexicography and contribute to the verification or falsification of our<br />

hypothesis (see above). Later steps will be to include other languages such as German,<br />

French and Russian.<br />

Our LSP database intends to<br />

Our LSP Database<br />

NORDTERM 2009, København 9.-12. juni 2009 299


provide precise definitions (building on concept systems (terminological<br />

method))<br />

select adequate equivalents to concepts (building on these definitions)<br />

include linguistic and encyclopedic data (building on LSP lexicography)<br />

include collocations and text examples with translations (building on LSP<br />

lexicography)<br />

provide easy access to all data (building on both terminology and<br />

lexicograhy)<br />

and in this way seek to create added value to builders and users of termbases.<br />

The initial stage of our work has been the building of an appropriate text corpus<br />

for background knowledge: selecting legal texts, rulebooks, auditing and assurance<br />

standards as well as other valid, relevant auditing text material. The next stage has<br />

been concentrated on selecting relevant concepts (terms) for the database. Now, we are<br />

in the process of building the concept system.<br />

The first challenge we met with was deciding the subdivision criteria. It turned<br />

out that there is not one obvious criterion to apply on the first level, but a number of<br />

relevant options. The established possible subdivisions for auditors’ engagements are:<br />

assurance/conclusion is included or not included<br />

degree of assurance is high or limited<br />

statement by the responsible party is available or not available to the intended<br />

users<br />

issuance is voluntary or statutory<br />

subject matter concerns financial statements or other than financial statements<br />

user is the engaging party or not the engaging party only.<br />

Criteria 2 and 3 may indisputably be attributed as further subdivision criteria to<br />

criterion 1. Criterion 1 and criteria 4 to 6 exist side by side and lead to separate sets of<br />

concepts and terms focussing on different aspects of the superordinate. At the same<br />

time, some concepts exist as subordinates to several superordinates. If all these<br />

possible combinations are to be shown in a concept system unambiguously and<br />

according to the strict rules of terminology, it is necessary to introduce a multitude of<br />

non-lexicalised concepts.<br />

However, including a great number of such non-lexicalised concepts strains the<br />

potential of a conventional concept system to a great extent and makes the concept<br />

system close to chaotic, contrary to our wish for user-friendliness. Therefore, we<br />

decided to limit the number of non-lexicalised concepts to a minimum, thus<br />

simplifying the system. The first draft of such a simplified concept system is shown in<br />

Figure 1 below:<br />

NORDTERM 2009, København 9.-12. juni 2009 300


FIGURE 1. Concept system of auditors’ engagements. Birthe Vesterli and Lise Mourier, <strong>CBS</strong> 2009.<br />

NORDTERM 2009, København 9.-12. juni 2009 301


Another challenge is that in practice the same lexical item or term is sometimes<br />

applied to two different concepts at the risk of creating confusion or misunderstandings.<br />

A case in point is that the Danish term erklæringsopgave has been found to cover<br />

both the English equivalent engagement (with the synonym: auditors’ engagement)<br />

and the English equivalent assurance engagement. The latter English concept is also<br />

expressed with the Danish term erklæringsopgave med sikkerhed. Working with<br />

definitions and concept characteristics helps to clarify such ambiguity and leads to the<br />

building of a concept system showing erklæringsopgave both as a superordinate of<br />

erklæringsopgave med sikkerhed (assurance engagement) and beslægtet opgave<br />

(related service or non-assurance engagement) that are divided by the assurance<br />

criterion, and as a synonym to the subordinate concept of erklæringsopgave med<br />

sikkerhed (assurance engagement).<br />

Definitions should always start with the superordinate, since a subordinate<br />

concept inherits the characteristics of its superordinate (see the above section on<br />

Terminology). In casu erklæringsopgave med sikkerhed can be determined as:<br />

“erklæringsopgave, hvor revisor udtrykker en konklusion, der er udformet for at<br />

højne troværdigheden og øge graden af tillid til emnet for erklæringen over for de<br />

tiltænkte brugere af den pågældende information.”<br />

[engagement where the auditor provides a conclusion to increase the credibility<br />

and reliability of the subject matter of the report to the intended users of the<br />

information in question].<br />

We have compared our findings with the lemma articles in the Danish-English<br />

Accounting Dictionary (Nielsen, Mourier, Bergenholtz: Den Dansk-Engelske<br />

Regnskabsordbog (2003)), which present erklæringsopgave and erklæringsopgave<br />

med sikkerhed, respectively, with the following definitions (excerpts):<br />

1. erklæringsopgave – assurance engagement<br />

Definition:<br />

En erklæringsopgave er en opgave, hvor en revisor afgiver en erklæring om et<br />

specifikt forhold vedrørende en virksomhed og derved optræder som en<br />

tillidsrepræsentant for offentligheden. Eksempler på erklæringsopgaver er<br />

revision af årsrapporter, erklæringer ved fusion, spaltning og kapitalnedsættelse,<br />

og erklæringer på opgørelsen af skattepligtig indkomst.<br />

[Translation: An assurance engagement is an engagement where the auditor<br />

expresses a conclusion on a specific matter concerning an enterprise and thereby<br />

acts as a public representative. Examples of assurance engagements are audits of<br />

annual reports, reports in connection with mergers, demergers or capital<br />

reduction and reports on income tax statements.]<br />

2. erklæringsopgave med sikkerhed – assurance engagement<br />

Definition:<br />

Erklæringsopgaver med sikkerhed er opgaver, hvor revisor afgiver en erklæring<br />

om et eller flere undersøgte forhold og udtrykker en grad af sikkerhed, som er<br />

NORDTERM 2009, København 9.-12. juni 2009 302


passende afhængigt af, om der er tale om en opgave med høj sikkerhed, fx<br />

revision, eller en opgave med begrænset sikkerhed, fx review.<br />

[Translation: Assurance engagements are engagements where the auditor<br />

expresses a conclusion on the outcome of one or several matters investigated and<br />

expresses assurance, depending on whether the engagement is a reasonable<br />

assurance engagement, e.g. audit, or a limited assurance engagement, e.g.<br />

review.]<br />

When comparing the lemma excerpts with our findings, we established that the<br />

definition of erklæringsopgave (1) as the superordinate is correct. However, there are<br />

two problems: (a) There is no information that the term erklæringsopgave is also used<br />

in practice for the subordinate erklæringsopgave med sikkerhed, and more<br />

problematic: (b) the English equivalent (assurance engagement) refers to the<br />

subordinate instead of to the superordinate that is the lemma of this article – the<br />

correct equivalent referring to the superordinate is engagement (with the synonym:<br />

auditor’s engagement).<br />

The definition of erklæringsopgave med sikkerhed (2) is also correct. However, this<br />

lemma article might have helped the user by including a comment field with the same<br />

information as under (a) above.<br />

The above example proves that the terminological approach adds value to LSP<br />

lexicography and will lead to the correct choice of equivalent.<br />

CONCLUSION<br />

Our findings are that adding definitions to an LSP dictionary improves user value,<br />

but only the terminological method will ensure precise mapping of concepts/terms so<br />

that full equivalence between terms in different languages may be achieved. This<br />

proves that terminology is a valuable contribution to LSP lexicography. However, the<br />

inclusion of all possible concept variants in a concept system will complicate the<br />

system and necessitates a multitude of non-lexicalised concepts that users neither<br />

know nor need to know. Therefore, builders of concept systems may have to give<br />

priority to user-friendliness rather than to the strict application of the terminological<br />

method.<br />

LSP lexicography can contribute values to terminology as a terminological<br />

database will profit from including additional communicative and knowledge data to<br />

the database by way of adding data fields with such information.<br />

An electronic LSP database of the quality we want to offer can only be established<br />

by drawing on the terminological method.<br />

PERSPECTIVE<br />

Our next step is to focus on the LSP lexicographical method and how to present<br />

lexicographical data such as collocations and text examples in our database articles.<br />

We shall then proceed to work with the structure of concept articles in a multilingual<br />

NORDTERM 2009, København 9.-12. juni 2009 303


ase and provide extra definitions addressed to a heterogeneous user group (semiexperts<br />

and laypeople). We will also work with the presentation of easily retrievable<br />

(clickable) data fields with a view to finding the optimum structure of a multilingual,<br />

electronic LSP database catering for the specific needs of many users.<br />

REFERENCES<br />

Bekendtgørelse om godkendte revisorers erklæringer (erklæringsbekendtgørelsen). Nr. 668 af 26. juni<br />

2008. I: Lovtidende A.<br />

Dansk Standard (1998). DS 2394.1: Leksikalske datasamlinger. Indholds- og strukturbeskrivelse. Del 1:<br />

Taksonomi til klassifikation af oplysningstyper. 84 pp. København.<br />

Erhvervs- og Selskabsstyrelsen (2009). Vejledning om bekendtgørelsen om godkendte revisorers<br />

erklæringer (erklæringsbekendtgørelsen) af 24. marts 2009.<br />

Foreningen af Statsautoriserede Revisorer (2006). Retningslinjer for revisorers etiske adfærd. (Etiske<br />

regler for revisorer).<br />

International Federation of Accountants (IFAC) (2008). Handbook of International Auditing,<br />

Assurance, and Ethics Pronouncements. Part II. Glossary of Terms. At: http://www.ifac.org.<br />

(downloaded March 2009).<br />

Lov nr. 468 af 17. juni 2008 om godkendte revisorer og revisionsvirksomheder (revisorloven).<br />

Nistrup Madsen, B. (1999). Terminology – Principper og Metoder, Bd. I, 231 pp., København: Gads<br />

Forlag.<br />

Nielsen, S., L. Mourier (2007). Design of a function-based internet accounting dictionary. Dictionary<br />

Visions, Research and Practice. Eds. H. Gottlieb & J.E. Mo gensen, Terminology an Lexicography<br />

Research and Practice. Vol. 10, pp. 119-135. Amsterdam/Philadelphia: John Benjamins Publishing<br />

Company.<br />

Nielsen, S., L. Mourier & H. Bergenholtz (2003). Den Dansk-Engelske Regnskabsordbog:<br />

www.Ordbogen.com. Design and layout: R. Almind, Aarhus: Centre for Lexicography. Also printed<br />

as: Nielsen, Mourier, Bergenholtz (2004). Regnskabsordbogen Dansk-Engelsk, Publ. Forlaget<br />

Thomson A/S, Copenhagen.<br />

Tarp, S. ( 2006). Leksikografien i grænselandet mellem viden og ikke-viden. Bd. 1 (2). 199 pp.<br />

Doktorafhandling. Aarhus: Center for Leksikografi.<br />

NORDTERM 2009, København 9.-12. juni 2009 304


Ontology-based Triangulated Terminology<br />

Management<br />

Fumiko Kano Glückstad<br />

International Language Studies and Computational Linguistics<br />

Copenhagen Business School<br />

Dalgas Have 15, DK-2000 Frederiksberg, Denmark<br />

+45 3815 3335<br />

fkg.isv@cbs.dk<br />

Abstract. First, I demonstrate that there exist two types of transitive translations when name of a<br />

country specific Named Entity (NE) is translated from a source language to a target language in<br />

rare language combinations. The first type is human-based official transitive translation often<br />

having official English expression as inter-lingua. The second type is dictionary-based lexical<br />

transitive translation that is necessary in the process of directly translation from a source<br />

language to a target language in a rare language combination. Second, I argue about<br />

consequences created by the official- and lexical transitive translations in the context of Cross<br />

Lingual Information Retrieval. And finally, I propose a multilingual ontology solution referred<br />

to as a ontology-based terminology management.<br />

Keywords. Transitive translation, multilingual ontology, named entity disambiguation,<br />

terminology, cross lingual information retrieval<br />

INTRODUCTION<br />

My research issue has been raised by a question: Is it possible to identify local firsthand<br />

information produced in non-English speaking countries from Japanese queries<br />

translated from their official English information sources? Specifically, the issue is<br />

rooted in a plurality of inconsistencies found between Japanese translations made<br />

through the direct lexical translation from Danish to Japanese and Japanese<br />

translations made through the transitive translation using official English translations<br />

as source. A typical example of such a translation problem is illustrated where the<br />

formal English name of the Danish authority “Økonomistyrelsen” is “The Danish<br />

Agency for Governmental Management.” The Danish originated name,<br />

“Økonomistyrelsen”, will most likely be translated into a completely different<br />

Japanese expression through lexical English translations, “Economy Agency (keizaityou)”<br />

using available language resources such as Danish-English and English-<br />

Japanese dictionaries. Eventually, it becomes increasingly difficult for Japanese<br />

readers to identify the original Danish NE in the process of Cross Lingual Information<br />

Retrieval (CLIR) due to inconsistent Japanese translations. This type of problem is<br />

NORDTERM 2009, København 9.-12. juni 2009 305


likely identified in rare language combinations consisting of non-English languages,<br />

especially less-similar language combination such as the EU- and the Asian language<br />

combinations. In this study, I will use the Danish-Japanese combination as an<br />

example. In this work, I describe the relevant researches on the transitive translation in<br />

the context of CLIR in chapter 2. In chapter 3, I report the preliminary survey of<br />

measuring frequency and inconsistency of the official- and lexical transitive<br />

translation of names of Danish NEs. Finally, I propose a multilingual ontology<br />

solution referred to as a triangulated terminology management approach in chapter 4<br />

followed by conclusion in chapter 5.<br />

OFFICIAL – AND LEXICAL TRANSITIVE TRANSLATION<br />

In CLIR, there are three types of basic methods in query translations: a) dictionarybased<br />

machine translation, b) corpus-based machine translation, and c) ontology based<br />

machine translation. The problem with a) and b) is that there is no sufficient language<br />

resource available for most language pairs that are part of rare combinations. Hence, it<br />

is required to employ a word-by-word lexical transitive translation technique using a<br />

pivot language. Gollins and Sanderson (2001) pointed out that, this technique<br />

increases the likelihood of translation errors, caused mainly by incorrect identification<br />

of the sense of ambiguous words. Ballesteros (2001) examined the impact of transitive<br />

translations and discovered that using simple word-by-word transitive translations<br />

from Spanish to French via English degraded performance by 91% when compared to<br />

direct bilingual translation from Spanish to French. Gollins and Sanderson (2001)<br />

introduced an approach to reducing errors by combining translations from two<br />

different transitive routes, a process known as lexical triangulation. Their results<br />

showed that the lexical triangulation approach to the transitive translation eliminated<br />

the difference in retrieval between transitive translated queries and equivalent direct<br />

translated queries.<br />

However, considering the aforementioned specific example of the Danish NE<br />

expression, “Økonomistyrelsen”, there are two types of transitive translation and the<br />

solution proposed by Gollins and Sanderson (2001) only addresses issues arisen from<br />

the lexical transitive translation. It means that it is necessary to distinguish the<br />

transitive translation using official English translation as inter-lingua from the lexical<br />

transitive translation.<br />

PRELIMINARY SERVEY<br />

In order to compare differences between official- and lexical transitive translations<br />

of original Danish NEs, I have selected names of Danish governmental organizations<br />

(ministries and institutions under the ministries) from web sites of the Danish<br />

ministries, most of which provide official English names of their organizations. For<br />

performing a lexical translation of the Danish names into English, I used one of the<br />

most popular Danish-English dictionary series in Denmark entitled “Gyldendals Røde<br />

Ordbøger”. Regarding the lexical translation, I defined the following rules: 1) names<br />

NORDTERM 2009, København 9.-12. juni 2009 306


consisting of several words should be translated word-by-word; 2) If the dictionaries<br />

propose an English translation equal to the corresponding official English translation,<br />

the official English expression should be applied. Accordingly, I translated all of 70<br />

Danish names into English and extracted 26 English lexical translations that were not<br />

identical to the official translations. Since these English translations of Danish names<br />

are Multi-Word Expressions, I further decomposed them into each lexical unit (word)<br />

and enlisted the inconsistent word pairs that were scope for further inconsistency<br />

analysis. For comparing the inconsistencies of these word pairs, I used a semantic<br />

similarity measure based on a basic path length calculation provided on the web<br />

interface of the WordNet::Similarity (Pedersen et.al. 2004). The result showed the<br />

semantic distance in most of the inconsistent word pairs produced via official- and<br />

lexical English translations (Figure 1). That is to say, the similarity measures based on<br />

path length indicate the inconsistency level of English translations made through the<br />

official- and the lexical translation.<br />

beginning<br />

innovation<br />

Root*<br />

entity<br />

abstraction<br />

psychological_feature<br />

event<br />

act<br />

action<br />

change<br />

change_of_state<br />

improvement<br />

development<br />

Path length : 5<br />

Semantic Similarity: 1 / 5 = 0.2<br />

Root*<br />

entity<br />

abstraction<br />

psychological_feature<br />

event<br />

act<br />

activity<br />

work<br />

investigation<br />

research<br />

12<br />

1 / 12 = 0.0833<br />

FIGURE i). Example of Semantic Similarity<br />

OUTLOOK<br />

cognition<br />

content<br />

knowledge_domain<br />

discipline<br />

science<br />

The result of preliminary study showed that there are often semantic distances<br />

between English translations made through a so-called official translation and a socalled<br />

lexical translation. The noteworthy question is how a Japanese translation of<br />

these pairs of English translations will turn out. My initial assumption is that these<br />

Japanese translations will create expressions with an even deeper level of<br />

inconsistency (i.e. FIGURE 2). It means that it will be increasingly difficult to identify<br />

the original Danish NEs from various Japanese translations. If there were universal<br />

rules defining “a name should always be translated based on the lexical meaning of its<br />

original language”, these inconsistencies would potentially be tremendously reduced.<br />

However, the decision of names and their translations usually involves a plurality of<br />

NORDTERM 2009, København 9.-12. juni 2009 307


issues, such as political (domestically, internationally), cultural, social and so on. It<br />

means that problems originating from both official- and lexical transitive translations<br />

should be carefully dealt with in terms of a so-called Named Entity Disambiguation.<br />

As a solution, I propose an ontology-based triangulated terminology management<br />

approach. The approach is based on the idea that a country specific NE has a unique<br />

ontological structure, since a named entity is per definition unambiguously defined on<br />

a global scale. For example, the Danish governmental organizations are existing<br />

according to a Danish governmental structure that is uniquely defined in this country.<br />

It means that the ontological structure is unique even though each named entity is<br />

expressed in different languages. Therefore, an ontology-based terminology database<br />

consists of three layers: a) each NE expressed in a source language, b) its official<br />

expression in an inter-lingual language (usually in English), and c) all possible<br />

expressions in a target language (FIGURE 3). These three layers should have a<br />

triangulated relationship as shown in FIGURE 4. The key issue is that the name of an<br />

entity expressed in a source language and an official expression in an inter-lingual<br />

language should have a relationship linking them like “is translation of” each other.<br />

However, an expression in a target language that “is translation of” either a name of an<br />

entity expressed in a source language or an official expression in an inter-lingual<br />

language is uni-directionally linked and hence cannot be traced the other way around.<br />

A frame for expressions in a target language should contain all possible translations<br />

from any available corpora in the target language. It is my aim to establish a<br />

triangulated terminology database in the Danish e-government domain based on an<br />

ontology-based terminology management system developed by Copenhagen Business<br />

School (Madsen et.al. 2006).<br />

FIGURE ii). Inconsistent Official- and Lexical translations<br />

NORDTERM 2009, København 9.-12. juni 2009 308


Named Entity expressed<br />

in a source language<br />

Official expression<br />

in a inter lingual language<br />

Expressions<br />

in a target language<br />

- Country specific NE has<br />

a unique ontological structure<br />

-NE should contain identifiers<br />

specifying time/period/place<br />

(e.g. country code)<br />

FIGURE iii). Ontology-based Terminology Management<br />

The Veterinary and Food<br />

Administration<br />

Official expression<br />

in a inter-lingual language<br />

Is translation of<br />

Is translation of<br />

Triangulated<br />

terminology<br />

management<br />

using standard<br />

identifier<br />

食品管理庁<br />

食糧庁<br />

食品局<br />

獣医・食品管理庁<br />

Is translation of<br />

Fødevarestyrelsen<br />

Named Entity expressed<br />

in a source language<br />

Expressions<br />

in a target language<br />

FIGURE iv). Triangulated Terminology Management<br />

NORDTERM 2009, København 9.-12. juni 2009 309


CONCLUSION<br />

In this paper, I first demonstrated phenomena identified in translation processes in<br />

rare language combinations such as Danish and Japanese. These phenomena will<br />

potentially create problems for readers of the translated texts due to the diversion of<br />

translations. As a solution, I proposed an ontology-based triangulated terminology<br />

management approach.<br />

ACKNOWLEDGMENTS<br />

I would like to thank my supervisor, Hanne Erdman Thomsen for helpful advices on my<br />

project.<br />

REFERENCES<br />

Gollins, T. and Sanderson, M. (2001) Improving Cross Language Information Retrieval with<br />

Triangulated Translation, Proceedings of the 24 th<br />

annual international ACM SIGIR conference on<br />

Research and development in information retrieval, New Orleans, Louisiana, United States:pp.90-95<br />

Ballesteros, L. (2001) Cross Language Retrieval via transitive translation, In Croft W. B. (ed). Advances<br />

in Information Retrieval: recent Research from the CIIR, Kluwer Academic Publishers, pp.203-234<br />

Pedersen, T., Patwardhan, S., and Michelizzi, J. (2004) WordNet::Similarity – Measuring the<br />

Relatedness of Concepts. Available from: http://search.cpan.org/dist/WordNet-Similarity.<br />

Madsen, B, Thomsen, H. and Wenzel, A (2006) i-Term for NORDTERM 5th International Conference<br />

on Language Resources and Evaluation (LREC 2006), Workshops Proceedings: W16 Terminology<br />

Design: Quality Criteria and Evaluation Methods (TermEval). Genova, Italy<br />

NORDTERM 2009, København 9.-12. juni 2009 310


Oppsummering – arbeidsseminar om<br />

språkteknologiske termer på de nordiske<br />

språkene<br />

Torbjørg Breivik<br />

Språkrådet, Norge<br />

Abstract. De nordiske språknemndenes arbeidsgruppe for språkteknologi (ASTIN) arrangerte en<br />

workshop i tilknytning til Nordterm 2009. Utgangspunktet var et arbeid med språkteknologiske<br />

termer for de nordiske språkene som ble påbegynt av de nasjonale dokumentasjonssentrene for<br />

forskningsprogrammet Nordisk Språkteknologi. Det nordiske nettverket for disse sentrene ble<br />

kalt NorDokNet. Alle sentrene hadde egne nettsider der oppsett og innhold skulle være likt, men<br />

utformingen kunne variere. For å kunne publisere samme type informasjon på nettsidene var det<br />

nødvendig å bruke samme ”merkelapp” på de ulike delene av innholdet. Mange av personene<br />

som var involverte i dette arbeidet, var også involvert i undervisning i språkteknologi på sine<br />

respektive institusjoner og hadde sett behovet for å ha en terminologi på eget språk.<br />

Terminologien er også nødvendig for å kunne formidle hva språkteknologi er, f.eks. ved<br />

rekruttering av studenter. Arbeidet med termene startet mot slutten av perioden for<br />

forskningsprogrammet og meningen var at de enkelte involverte skulle sørge for videre arbeid i<br />

egen regi. Dette har i varierende grad skjedd. ASTIN ønsket derfor å diskutere muligheten for å<br />

gå videre med utvikling av en nordisk språkteknologisk terminologi og om det er grunnlag for å<br />

etablere et nordisk prosjekt. Innlederne på workshoppen var personer som var involvert i<br />

arbeidet fra starten av, og personer som representerer miljø med høy kompetanse i<br />

terminologiarbeid. Rundt 20 personer deltok på møtet.<br />

INNLEGGENE<br />

Innleggene på seminaret tok for seg ulike aspekter ved terminologiarbeidet som er<br />

gjort: hva ble gjort i det enkelte land innenfor NorDokNet og hva er gjort i ettertid. I<br />

tillegg hadde innlederne blitt utfordret til å si noe om videre arbeid og hvordan et slikt<br />

arbeid kan organiseres.<br />

Torbjørg Breivik fra ASTIN ga en kort introduksjon til workshoppen der<br />

bakgrunnen for møtet ble trukket opp. Formålet med møtet var å undersøke om det var<br />

interesse for å etablere et nordisk prosjekt for språkteknologitermer. ASTIN kan påta<br />

seg å stå for å koordinere arbeidet med en prosjektskisse og selve søkeprosessen, men<br />

arbeidet kan ikke settes i gang uten av de som representerer fagområdet i de enkelte<br />

landene deltar. Om diskusjonen skulle vise at det var enighet om å starte prosessen<br />

med etablering av prosjektet, var også arbeidsmåten et aktuelt tema. Hvilke verktøy og<br />

hvilke kanaler kan være effektive for formålet? Arbeidet må kunne foregå på nettet<br />

med mulighet for et eget diskusjonsforum.<br />

NORDTERM 2009, København 9.-12. juni 2009 311


Koenraad de Smedt, Norge, var med i terminologiarbeidet innenfor NorDokNet og<br />

det var han som trakk fram den korte, flerspråklig lista over språkteknologitermer som<br />

i sin tid var utgangspunktet for det NorDokNet gjorde. Meningen var at lista skulle<br />

kompletteres med definisjoner og/eller forklaringer på de nordiske språkene, legges ut<br />

på nettsidene til dokumentasjonssentrene og deretter utvides litt etter litt. De Smedt ga<br />

en oversikt over hva som finnes på norsk av termlister for språkteknologi. De fleste er<br />

noen år gamle og lite nytt arbeid har blitt gjort på dette feltet i Norge etter at det<br />

nordiske forskningsprogrammet i språkteknologi ble avsluttet. Hans konklusjon var at<br />

det finnes noen lister, utvalget av termer er lite, ofte tilfeldig og det er lite<br />

terminologisk informasjon til den enkelte term. Han framhevet at det er positivt at<br />

listene har flere språk. Videre arbeid må være å legge til terminologisk informasjon,<br />

utvide antallet og få med opplysninger om subdomene, bruksområder og semantiske<br />

relasjoner. Han pekte på at man kan bygge en termbase basert på verktøy i Wiki. Det<br />

er avgjørende for nytteverdien av basen at man tar med informasjon som subdomene,<br />

semantiske relasjoner osv. for den enkelte term som legges inn.<br />

Henrik Nilsson ga en oversikt over situasjonen i Sverige: der finnes en egen<br />

referansegruppe for språkteknologi som er satt sammen av personer fra sentrale<br />

aktører innenfor språkteknologiområdet inklusive Språkrådet. Det finnes et eget<br />

nettsted (språkteknologi.se) for arbeidet som gjøres på området, og dette vil utgjøre en<br />

stor ressurs om det etableres et eget prosjekt for språkteknologiske termer for de<br />

nordiske språkene. Det arbeides systematisk med terminologi i Sverige og under<br />

hovedkonferansen for Nordterm 2009 presenterte TNC (Terminologicentrum)<br />

Rikstermbanken som skal inneholde kvalitetssikrede termer for mange fagområder.<br />

Store deler av ressursene i Rikstermbanken vil være flerspråklige. Det finnes ikke<br />

noen egen aktivitet bare for språkteknologiske termer.<br />

Arbeidet som ble gjort innenfor NorDokNet, omfattet svenske termer og er<br />

inkludert i det den svenske referansegruppen arbeider med.<br />

Nilsson presenterte en oversikt over terminologiressurser som ellers finnes for<br />

svensk, og som kan ha relevans for det videre arbeidet. Han trakk særlig fram arbeidet<br />

som er gjort, og gjøres, i den svenske datatermgruppen.<br />

Utfordringene og problemene ifølge Nilsson er at dette er et smalt fagområde, man<br />

får problem med tilgrensende områder innenfor IKT-fagene. Det finnes både markeds-<br />

og forskningstermer, og det kan by på utfordringer ved valg av målgruppe. Hvem skal<br />

man lage denne terminologien for? Bransjen er heterogen og perspektivene blandes.<br />

Terminologi brukes ofte i markedsføring, men her ser man en stor og ofte unødvendig<br />

variasjon i termbruken som bidrar til forvirring og uklarheter. Det finnes ingen<br />

lærebøker i språkteknologi på svensk. Det er også et spørsmål om den store<br />

termvariasjonen er uttrykk for synonymi eller om det er reelle forskjeller. Fagområdet<br />

har stor innflytelse fra andre språk, og særlig fra engelsk lånes mange ord og termer.<br />

Spørsmålet er om man bare kan følge utenlandske standardverk i valg av termer? Det<br />

vil si bare oversette de utenlandske termene eller er det andre hensyn som også må tas,<br />

f.eks. til eget språk og tilgrensende, etablerte terminologier?<br />

NORDTERM 2009, København 9.-12. juni 2009 312


Nilsson avsluttet med å peke på den organisatoriske og terminologifaglige<br />

kompetanse TNC har, samt det nettverket av fageksperter og høringsinstanser de har<br />

knyttet til seg gjennom mange år. Dette er en styrke om man skal etablere et nytt<br />

nordisk prosjekt, men ethvert fagområde byr også på mange språkfaglige utfordringer,<br />

og tverrfaglig samarbeid er nødvendig.<br />

Hanne Fersøe presenterte status for arbeidet med språkteknologiske termer i<br />

Danmark. Hun startet med å vise til arbeidet som ble gjort av dokumentasjonssentrene<br />

for språkteknologi (NorDokNet). Hun viste også en oversikt over europeiske,<br />

flerspråklige termprosjekt, bl.a. en termliste for språkteknologi som ble laget innenfor<br />

Euromap/Hope-prosjektene. NorDokNet satte også i gang et eksperiment med<br />

automatisk ekserpering av flerspråklig terminologi hentet fra tekst på flerspråklige<br />

nettsider. Resultatet fra eksperimentet ble brukt i prosjektet Nordisk nettordbok som<br />

ble avsluttet i 2007.<br />

Ifølge Fersøe er det i dag ingen generell aktivitet på utvikling av terminologi<br />

innenfor språkteknologi, men i enkelte prosjekt arbeides det med terminologiske<br />

problemstillinger (Nordisk nettordbok). Center for Sprogteknologi (CST) har tidligere<br />

vært involvert i spesifikasjon av den europeiske termbasen IATE, utvikling av rutiner<br />

for import av eksisterende termbaser til IATE, analyse og spesifikasjon av automatisk<br />

identifisering og fletting av dubletter i samme base. De har også arbeidet med<br />

utvikling av metoder og standarder i EuroTermBank-prosjektet, og er positive til å<br />

delta i diskusjoner om hvordan dansk terminologi for språkteknologi kan utvikles<br />

videre i nordisk regi.<br />

Kimmo Koskenniemi hadde to oppgaver på workshoppen: han skulle først gi en<br />

oversikt over situasjonen i Finland per i dag, og deretter presentere et verktøy som kan<br />

brukes i et nordisk samarbeidsprosjekt.<br />

I Finland har Koskenniemi arbeidet videre med den lista som ble utviklet under<br />

NorDokNet. Lista over nøkkelord er gruppert i over- og underordnede klasser. De<br />

underordnede ordene i hver klasse kommer fram om man klikker på det overordnede<br />

ordet. Treffene gir opplysninger om kilde og man kan spesifisere søkene innenfor de<br />

rammene man har i søkemotoren SiteSeeker. SiteSeeker brukte i sin tid lista fra<br />

NorDokNet til å teste funksjonaliteten for flerspråklig søking.<br />

Koskenniemi har etablert et Wiki-forum for å kunne diskutere og arbeide med<br />

språkteknologisk terminologi og presenterte dette. Han pekte på at dette er et enkelt og<br />

billig verktøy å jobbe med og han mente det er et godt argument for å bruke det i det<br />

videre arbeidet.<br />

DISKUSJONEN<br />

Diskusjonen viste raskt at det var interesse for å gå videre med arbeidet. Innlederne hadde<br />

også konkludert med dette, og alle deltakerne i diskusjonen støttet dette.<br />

NORDTERM 2009, København 9.-12. juni 2009 313


Koskenniemis måte å tilrettelegge terminologien på, er ryddig og oversiktlig, og den viser<br />

hvordan begrepene henger sammen og forholder seg til hverandre. Ulempen kan være at den<br />

som ikke kjenner fagområdet, men som ønsker dels å finne ut hva et ord står for eller betyr,<br />

ikke finner det så lett. En slik organisering kan også være lite brukervennlig f.eks. for<br />

studenter som er i ferd med å velge fag og som kan være interessert i språkteknologi. Analyse<br />

og valg av hvem man skal vurdere som den mest aktuelle brukergruppen, må bli gjenstand for<br />

grundige diskusjoner i prosjektet før man velger presentasjonsmåte for innholdet.<br />

Diskusjonen dreide seg mest om metode, arbeidsmåte og valg av verktøy for å gjøre jobben<br />

effektivt. De fleste nordiske land var representerte med ressurspersoner innenfor terminologi<br />

og fagspråk selv om ikke alle var like godt kjent med språkteknologi. Island hadde før møtet<br />

informert initiativtakerne om at de er interessert i å delta i et nordisk prosjekt for å realisere en<br />

felles nordisk terminologi på området.<br />

Konklusjonen ble at ASTIN som tok inititativet til møtet, arbeider videre med prosjektet og<br />

lager en prosjektsøknad som sendes Nordspråk pluss. ASTIN kan koordinere og styre<br />

prosjektet på nordisk nivå, men det må etableres nasjonale arbeidsgrupper der man har<br />

representert kompetanse innenfor språk, språkteknologi og terminologiutvikling. Arbeidet som<br />

alt er gjort på området, tas med videre og bygges ut. Resultatet må bli tilgjengelig på et<br />

nordisk nettsted i tillegg til nasjonale nettsteder, og muligheten for å søke på tvers av språkene<br />

må også videreføres.<br />

NORDTERM 2009, København 9.-12. juni 2009 314


Språkteknologisk (meta)terminologi<br />

– situationen i Sverige<br />

Ola Karlsson a och Henrik Nilsson b<br />

a<br />

Språkrådet, Box 20057, 104 60 Stockholm, Sverige, +46 8 442 42 04, ola.karlsson@sprakradet.se<br />

b<br />

Terminologicentrum TNC, Västra vägen 7 B, SE-169 61 Solna, Sverige, +46 8 446 66 10,<br />

henrik.nilsson@tnc.se<br />

Situationen i Sverige<br />

Denna artikel är en kort rapport över situationen i Sverige vad gäller språkteknologisk<br />

(meta)terminologi. Den behandlar kort existerande materiella resurser i<br />

form av olika terminologisamlingar men också immateriella resurser i form av grupper<br />

och nätverk som arbetar inom området. Vidare berörs de utmaningar och problem man<br />

kan se utifrån ett svenskt perspektiv samt om det i svensk språkteknologisk<br />

terminologi finns några särskilt svenska aspekter, t.ex. språkvårdsaspekter.<br />

Organisatoriskt finns i Sverige flera instanser som i sig ingår i upparbetade nätverk<br />

med experter och remissinstanser och som har ett etablerat samarbete mellan sig.<br />

Svenska datatermgruppen som funnits sedan 1996 är ett exempel på samarbete, och<br />

även om arbetet där inte varit särskilt inriktat på språkteknologisk terminologi finns<br />

viktiga erfarenheter att hämta, t.ex. vad gäller systematik och metodik vid val av<br />

svenska termer. Att det dessutom finns ett nationellt terminologicentrum (TNC) med<br />

lång metodikerfarenhet av terminologiprojekt är en annan svensk styrka.<br />

Språkrådets språkteknologiska referensgrupp<br />

En ny viktig resurs för ett arbete med språkteknologisk (meta)terminologi är<br />

Språkrådets referensgrupp för språkteknologi. Gruppen (som är ganska nyinstiftad och<br />

en av flera referensgrupper som finns inom Språkrådet) ska främja Språkrådets<br />

kontakter med språkteknologisk forskning och industri. På ett mer konkret plan ska<br />

gruppen bland annat:<br />

• främja språkteknologiskt infrastrukturarbete<br />

• vidareutveckla webbplatsen Språkteknologi.se<br />

• diskutera juridiska frågor kring tillgängliggörande av resurser<br />

• ta fram och sprida förslag på språkteknologiska projektarbeten<br />

• främja rekrytering till språkteknologiutbildningarna<br />

• diskutera webbtillgänglighetsfrågor<br />

• diskutera teckentillgänglighet och standardisering<br />

• överblicka andra länders språkpolitik gällande språkteknologi<br />

NORDTERM 2009, København 9.-12. juni 2009 315


• ta fram terminologi på språkteknologiområdet.<br />

Den sistnämnda punkten är naturligtvis särskilt intressant i det här sammanhanget. I<br />

gruppen medverkar representanter för följande organisationer 1<br />

, vilket vittnar om en<br />

bred förankring och variation i kompetensen:<br />

• Språkrådet<br />

• Göteborgs universitet (ordförande) och Språkbanken<br />

• Kungliga tekniska högskolan KTH<br />

• Lunds universitet<br />

• Sics (Swedish institute for computer science)<br />

• Terminologicentrum TNC.<br />

Det finns även ett nationellt informationscentrum för svensk språkteknologi:<br />

Språkteknologi.se. Där kan både allmänhet, näringsliv, forskare och andra<br />

språkteknologiskt intresserade hitta information om språkteknologi: produkter,<br />

teknikbeskrivningar, forskningsrapporter, konferenser, kontaktuppgifter till personer<br />

och organisationer, en omfattande länksamling till nordisk och internationell<br />

språkteknologi och mycket annat. Webbplatsen utvecklas av Språkrådet i samarbete<br />

med Sveriges nationella forskarskola i språkteknologi, GSLT. Språkteknologi.se<br />

samarbetar med NorDokNet, ett nätverk av språkteknologiwebbplatser i Norden, och<br />

LT-World, en informationswebbplats om språkteknologi i världen. 2<br />

Existerande svensk (meta)terminologi<br />

För området språkteknologi har det i Sverige inte tagits något samlat grepp förrän<br />

nu. Detta innebär att de resurser som finns är spridda och av varierande kvalitet.<br />

Det finns existerande terminologisamlingar hos ACM, TNC, Svenska datatermgruppen,<br />

i Rikstermbanken 3 och naturligtvis som diverse webblistor. Svenska<br />

termer finns även i det material som nås via webbplatsen Språkteknolologi.se: dels i<br />

form av intern terminologi på webbplatsen, dels genom externa länkar till ett försök<br />

till standardiserad nordisk terminologi som togs fram 2005, en lista administrerad av<br />

Kimmo Koskenniemi i Finland 4 . Denna nordiska parallellterminologi har använts för<br />

att möjliggöra flerspråkig sökning på Nordokwebbplatserna med sökmotorn<br />

Siteseeker. En bredare flerspråkig lista, som också inkluderar språk som tyska och<br />

spanska, finns publicerad på de finska Nordoksidorna 5<br />

.<br />

Utmaningar och problem<br />

När det gäller terminologi för språkteknologi generellt får det anses vara ett ganska<br />

litet fackområde, vilket också kan konstateras genom antalet specifika termer i<br />

förhållande till närliggande områden som datavetenskap och IT. Det är också ett<br />

1 Båda artikelförfattarna medverkar i gruppen.<br />

2 Se vidare: .<br />

3 Sveriges nationella termbank som öppnades i mars 2009: .<br />

4 Publicerad på <br />

5 På <br />

NORDTERM 2009, København 9.-12. juni 2009 316


fackområde där det kan vara svårt att göra gränsdragningar mot andra närliggande<br />

områden (datavetenskap, lingvistik med flera) – vilka termer, om några, är unika för<br />

språkteknologiområdet? Dessutom är det inte helt enkelt att dela in området i<br />

delområden, t.ex. utifrån teknik- och tillämpningsområden, vilket man bland annat har<br />

konfronterats med i arbetet med Språkteknologi.se.<br />

Branschen är heterogen till sin natur vilket gör att olika perspektiv blandas, och det<br />

kan i sin tur påverka den terminologi som används. Marknadsorienterade termer (elearning)<br />

blandas med akademiska och forskningsinriktade termer (ytparsning,<br />

probabilistisk kontextfri grammatik) och det sker ibland målgruppsanpassningar i<br />

manualer, reklammaterial etc. som påverkar terminologin. Som i alla branscher där det<br />

finns en marknadspotential finns också en risk att terminologi används som<br />

marknadsföringsredskap, dvs. att termer skapas i syfte att skilja ut en produkt från en<br />

konkurrents vilket leder till en onödig termvariation och oegentlig synonymi som kan<br />

förvirra.<br />

Ett annat (potentiellt) problem är att en stor del av den språkteknologiska<br />

terminologin i praktiken baserats på några få utländska (engelskspråkiga)<br />

standardverk 6<br />

. I till exempel termurval för sökapplikationer är det tveksamt att bara<br />

efterapa taxonomier som förekommer i dessa verk, eftersom de ofta är teknik- och<br />

standardiseringsorienterade och inte alltid så användarorienterade. Många av termerna<br />

är för smala och irrelevanta när människor ska söka språkteknologiskt relaterad<br />

information (som på Nordoks webbplatser) eller använda språkteknologiska<br />

tillämpningar. Det är viktigt att (också) utkristallisera bredare och mer användar-<br />

orienterade termer.<br />

Det problemet har till exempel funnits i kategoriseringen av innehållet på<br />

Språkteknologi.se, där redaktionen fått välja ut ett mindre antal frekventa termer för<br />

att täcka in så mycket innehåll som möjligt.<br />

En annan bidragande orsak till bristen på bra svenska termer är att det finns få<br />

läroböcker på svenska (ett undantag är Tekniken bakom språket, R. Domeij och<br />

Språkrådet 2008). I det material man har att utgå ifrån, normalt engelskspråkigt,<br />

förekommer däremot en stor termvariation, och det krävs ibland resurser och<br />

kunnande för att avgöra om uttrycken som används är synonyma eller inte. Den<br />

situationen är i och för sig inte unik för det språkteknologiska området, men inte desto<br />

mindre resurskrävande.<br />

Att en stor del av terminologin kommer från engelskan föranleder en diskussion<br />

som har beröringar dels med språkvårdens praktiska anpassning av lånord (läs mer<br />

under nästa rubrik), dels med övergripande språkpolitik och det allmännas ansvar för<br />

att det skapas svensk vetenskapsterminologi inom svensk forskning och<br />

högskoleverksamhet. Eftersom språkteknologi är en del av Språkrådets (Institutet för<br />

språk och folkminnens) verksamhet, är det kanske särskilt angeläget att det utarbetas<br />

svensk terminologi just inom det området. Med den minoritetslag som träder ikraft den<br />

1 januari 2010 i Sverige, kan svensk terminologi också komma att inbegripa terminologi<br />

för de nationella minoritetsspråken (i synnerhet för samiska och romani chib). I<br />

frekvent använd teknik kan det även gälla stora invandrarspråk i Sverige.<br />

6<br />

Detta gäller inte minst standardverket Survey of the State of the Art in Human Language Technology <br />

NORDTERM 2009, København 9.-12. juni 2009 317


Över huvud taget är det viktigt med språkvårdssynpunkter – och tvärfacklig<br />

diskussion – kring termerna. Den nordiska termlista som togs fram för Nordok och<br />

Tvärsök 2005 var en bra början, men med mer terminologisk diskussion hade<br />

resultatet blivit ännu bättre. En översyn av listan behövs därför.<br />

Specifika svenska problem<br />

Det specifikt svenska på det organisatoriska planet har redan behandlats ovan. När<br />

det gäller svenska språkliga egenheter får dessa anses vara få, och den svenska<br />

terminologin är inte spretigare än den som finns på andra nordiska språk. Ett<br />

svenskspråkigt problem är den variation som förekommer mellan datalingvistik och<br />

datorlingvistik – och deras förhållande till begreppet språkteknologi. En liknande<br />

distinktion som varit föremål för diskussion under mycket lång tid är den mellan<br />

teknologi och teknik (som egentligen inte förändras när språk- läggs till som förled).<br />

Det förekommer även problem kring synonymi och hyponymi, delvis specifikt<br />

svenska, där olika perspektiv, tillämpningar och forskningsdiscipliner blandas. Det<br />

kan till exempel gälla begreppskluster som språkkontroll – språkverktyg – språkstöd.<br />

Halten av engelska lånord på det språkteknologiska området är inte värre i Sverige<br />

än i andra länder, men mycket bör anpassas mer till svenska förhållanden. Hur detta<br />

ska göras får man, med Svenska datatermgruppens metodik, ta ställning till i varje fall<br />

för sig.<br />

Slutsatser och idéer<br />

Man kan avsluta med att ställa några frågor som bör behandlas i det fortsatta arbetet<br />

med nordisk språkteknologisk terminologi:<br />

• Vem är målgrupp för termerna? Krävs det flera termer för att täcka in olika<br />

discipliner och verksamhetsområden, och hur påverkas i så fall urvalet av<br />

termerna?<br />

• Hur hanterar man överlappningen med närliggande termområden där ibland<br />

samma term ges olika begreppsinnebörd i språkteknologi, lingvistik och<br />

datavetenskap?<br />

• Bör samma termer användas i internt fackspråkliga och mer publika<br />

sammanhang, eller bör terminologin målgruppsanpassas mer?<br />

• Bör någon sorts språkteknologisk terminologi prioriteras i arbetet med att se<br />

över och skapa nya termer?<br />

• Bör även termer från andra språk än engelska användas som utgångspunkt (i<br />

den mån sådana finns)?<br />

• Bör man i ännu högre grad än tidigare arbeta med nordisk ensning av<br />

termerna? Hur ska resultatet av det arbetet användas?<br />

ReferensER<br />

Karlsson, O. (1996), Principer för Datatermgruppens termarbete (www). Hämtat från<br />

<br />

NORDTERM 2009, København 9.-12. juni 2009 318


ISBN 978-87-994577-0-0<br />

9 788799 457700

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!